sankey
?;鶊D(sankey)是一種數(shù)據(jù)流圖,,每條邊**一條數(shù)據(jù)流,寬度**數(shù)據(jù)流的大小,。一套數(shù)據(jù)集可能有多重屬性,,每層屬性之間有交叉,,就可以用這種圖來展示。一般應(yīng)用場景:分組與基因?yàn)槎鄬?duì)多關(guān)系,,展示高頻突變基因所處的分組,;miRNA和靶基因的關(guān)系;人群按性別,、年齡,、家族史等特征分組,展示不同分組得**的規(guī)律,。
數(shù)據(jù)要求:
多個(gè)分組及其關(guān)系,,包括且不限于基因表達(dá)、突變,。
下游分析:
1. 補(bǔ)充展示部分的已有相關(guān)研究
2. 解釋展示部分對(duì)研究課題的意義 乳腺類疾病預(yù)后相關(guān)信性基因突變研究數(shù)據(jù)包,。重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)
GSVA算法接受的輸入為基因表達(dá)矩陣(經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù))以及特定基因集。**步,,算法會(huì)對(duì)表達(dá)數(shù)據(jù)進(jìn)行核密度估計(jì),;第二部,基于**步的結(jié)果對(duì)樣本進(jìn)行表達(dá)水平排序,;第三步,,對(duì)于每一個(gè)基因集進(jìn)行類似K-S檢驗(yàn)的秩統(tǒng)計(jì)量計(jì)算;第四步,,獲取GSVA富集分?jǐn)?shù),。**終輸出為以每個(gè)基因集對(duì)應(yīng)每個(gè)樣本的數(shù)據(jù)矩陣。無監(jiān)督算法無監(jiān)督算法常常被用于數(shù)據(jù)挖掘,,用于在大量無標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)些什么,。它的訓(xùn)練數(shù)據(jù)是無標(biāo)簽的,訓(xùn)練目標(biāo)是能對(duì)觀察值進(jìn)行分類或區(qū)分等,。核密度估計(jì)核密度估計(jì)(kerneldensityestimation)在概率論中用來估計(jì)未知的密度函數(shù),,屬于非參數(shù)檢驗(yàn)方法之一。數(shù)據(jù)要求1,、特定感興趣的基因集(如信號(hào)通路,,GO條目等),列出基因集中基因2,、基因表達(dá)矩陣,,為經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù)(基因名形式與基因集對(duì)應(yīng))下游分析1,、基因集(如信號(hào)通路)的生存分析2、基因集(如信號(hào)通路)的差異表達(dá)分析3,、基因集,。 湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作做數(shù)據(jù)分析就找云生物。
下游分析針對(duì)LASSO獲得的基因模型(或稱基因Panel)的驗(yàn)證:1.計(jì)算風(fēng)險(xiǎn)指數(shù)RiskScore2.繪制ROC曲線,、DCA曲線,、列線圖進(jìn)行驗(yàn)證3.繪制生KM存曲線對(duì)基因模型中的基因進(jìn)行解釋和分析:1.基因注釋2.靶向藥物分析應(yīng)用示例:文獻(xiàn)1:PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月發(fā)表在LancetOncol.,影響因子,。一個(gè)miRNA特征集在stageII結(jié)腸*的預(yù)后預(yù)測作用分析文章對(duì)stageII結(jié)腸*組織和*旁正常組織的miRNA芯片數(shù)據(jù)進(jìn)行了差異表達(dá)分析,,并通過LASSOCox回歸對(duì)獲得的差異表達(dá)miRNA進(jìn)行篩選,獲得了6個(gè)miRNA的可以預(yù)測預(yù)后情況的miRNA特征集,。文獻(xiàn)2:PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer(于2016年9月發(fā)表在EBioMedicine.上,,影響因子)文章將符合條件的患者劃分為訓(xùn)練集和測試集,首先分析獲得了**干細(xì)胞相關(guān)的miRNA,,接著通過LASSO對(duì)**干細(xì)胞相關(guān)的miRNA進(jìn)行篩選,,構(gòu)建了10個(gè)miRNA的預(yù)后預(yù)測模型,并計(jì)算風(fēng)險(xiǎn)指數(shù)繪制了生存曲線和ROC曲線,。
術(shù)語解讀:PPI:蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction)PPImoduleI:指蛋白質(zhì)相互作用模塊,,一個(gè)模塊指向一個(gè)功能數(shù)據(jù)要求:基因列表應(yīng)用示例1:(于2018年3月發(fā)表在Immunity.,影響因子)T細(xì)胞活化過程中產(chǎn)生蛋白質(zhì)組進(jìn)行多重定量分析,,然后對(duì)差異表達(dá)蛋白權(quán)重聚類,,并將聚類蛋白疊加到PPI網(wǎng)絡(luò)上以識(shí)別功能模塊。D.模塊大小的分布,,通過將每個(gè)WPC(權(quán)重聚類結(jié)果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)上識(shí)別模塊,。每個(gè)模塊的蛋白質(zhì)數(shù)量顯示出來。E.各個(gè)模塊及其交互的關(guān)系圖,。圓圈(節(jié)點(diǎn))表示90個(gè)模塊,,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊,。在(F)和(G)中進(jìn)一步擴(kuò)展了裝箱模塊,。F.來自WPC3的細(xì)胞質(zhì)和線粒體核糖體的四個(gè)互連模塊。顯示了蛋白質(zhì)的名稱和每個(gè)模塊的代表性功能術(shù)語,。G.來自WPC3的蛋白酶體,,OXPHOS和線粒體復(fù)合物IV途徑的模塊。 提供語言潤色,、圖表調(diào)整,、格式修改等工作模塊。
STEM基因表達(dá)趨勢分析數(shù)據(jù)要求表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)下游分析得到***富集的時(shí)間表達(dá)模式之后的分析有:1.時(shí)間表達(dá)模式中基因的功能富集2.時(shí)間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時(shí)間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測該時(shí)間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,,影響因子)EBF1動(dòng)態(tài)占據(jù)在B細(xì)胞中對(duì)序列表觀遺傳和轉(zhuǎn)錄過程的影響該文獻(xiàn)采用基因表達(dá)趨勢分析,,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點(diǎn)內(nèi)基因轉(zhuǎn)錄水平的差異,,來尋找EBF1對(duì)特定功能基因的影響以及造成影響的時(shí)間節(jié)點(diǎn)。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢分析,,研究了高濃度鹽水作用不同時(shí)間下擬南芥根的基因表達(dá)差異,來探尋在遇到高濃度鹽水時(shí)擬南芥在基因?qū)用嫔系膽?yīng)對(duì)方式,。 文稿投稿2個(gè)月online 發(fā)表,。數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)共同合作
采用機(jī)器學(xué)習(xí)算法對(duì)疾病的干性指數(shù)進(jìn)行分型分類研究,。重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)
CNV(拷貝數(shù)變異分析):CNV(copy-numbervariant)是指拷貝數(shù)目變異,,也稱拷貝數(shù)目多態(tài)性(copy-numberpolymorphism,CNP),,是一個(gè)大小介于1kb至3MB的DN**段的變異,,在人類及動(dòng)植物基因組中***分布,主要表現(xiàn)為亞顯微水平的缺失或重復(fù),。CNV是近年來基因組學(xué)的研究熱點(diǎn),,是許多人類疾病(如**,、遺傳性疾病,、心血管疾病等)發(fā)***展的重要分子機(jī)制之一。CNV的分析多見于易于發(fā)生染色體結(jié)構(gòu)變異的**研究中,,也可用于復(fù)雜的神經(jīng)精神疾病的病因?qū)W研究,,如智力障礙、帕金森病和孤獨(dú)癥等,,也可用于其他疾病的易感性分析,,如銀屑病、克羅恩病和一些自身免疫系統(tǒng)疾病,。CNV研究既可用于單個(gè)的病例分析,,找到遺傳高度異質(zhì)性的個(gè)體致病的遺傳學(xué)基礎(chǔ),如智力低下的病因診斷,;也可用于大量的病例一對(duì)照分析,,患病群體的常見CNV變異研究,還可用于**家系的研究,,如疾病相關(guān)新發(fā)CNV的研究,。基本原理目前主流的CNV檢驗(yàn)方法有RNA-seq和SNPArray,,已有研究表明使用轉(zhuǎn)錄組數(shù)據(jù)分析到的CNV情況和,。CNV分析的**步為篩選somaticCNVs。對(duì)正常人來說,,基因組應(yīng)該是二倍體的,,所以凡是測到非2倍體的地方都是CNV,。但是CNV本身就是人群遺傳物質(zhì)多樣性的體現(xiàn),所以對(duì)**樣本來說,。 重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)