PCA主成分分析測(cè)序技術(shù)的發(fā)展使得現(xiàn)在能夠從宏觀角度分析基因表達(dá),,但是也在一定程度上增加了數(shù)據(jù)分析難度,。許多基因之間可能存在相關(guān)性,如果分別對(duì)每個(gè)基因進(jìn)行分析,,分析往往是孤立的,,盲目減少指標(biāo)會(huì)損失很多有用的信息,。PCA(PrincipalComponentAnalysis),即主成分分析方法,,是一種使用*****的數(shù)據(jù)降維算法,。一般可應(yīng)用的研究方向有:一組基因在多個(gè)分組中的差異情況,多個(gè)基因在該樣本中的差異情況,?;驹鞵CA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱(chēng)為主成分,,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來(lái)的k維特征,。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標(biāo)軸,新的坐標(biāo)軸的選擇與數(shù)據(jù)本身是密切相關(guān)的,。其中,,**個(gè)新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差**的方向,第二個(gè)新坐標(biāo)軸選取是與**個(gè)坐標(biāo)軸正交的平面中使得方差**的,,第三個(gè)軸是與第1,,2個(gè)軸正交的平面中方差**的。依次類(lèi)推,,可以得到n個(gè)這樣的坐標(biāo)軸,。通過(guò)這種方式獲得的新的坐標(biāo)軸,我們發(fā)現(xiàn),,大部分方差都包含在前面k個(gè)坐標(biāo)軸中,,后面的坐標(biāo)軸所含的方差幾乎為0。于是,,我們可以忽略余下的坐標(biāo)軸,,只保留前面k個(gè)含有絕大部分方差的坐標(biāo)軸。事實(shí)上,。 兩個(gè)實(shí)驗(yàn)組的差異基因比較,。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)
Adonis(置換多元方差分析,分析不同分組或環(huán)境因子對(duì)樣品差異的解釋度):ADONIS置換多元方差分析(Permutationalmultivariateanalysisofvariance,,PERMANOVA),,又稱(chēng)非參數(shù)多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析,。使用PERMANOVA可分析不同分組因素對(duì)樣品差異的解釋度,,并使用置換檢驗(yàn)進(jìn)行***性統(tǒng)計(jì)。基本原理:置換多元方差分析(PERMANOVA,,Adonis)是一種基于F統(tǒng)計(jì)的方差分析,,依據(jù)距離矩陣對(duì)總方差進(jìn)行分解的非參數(shù)多元方差分析方法?;静襟E是基于OTU豐度表,,計(jì)算樣本間樣本間Bray-curtis距離,然后adonis分析生成結(jié)果,,繪圖展示,。術(shù)語(yǔ)解讀:OTU:operationaltaxonomicunits,分類(lèi)單元Df:自由度,,其值=所比較的分組數(shù)量-1,;SumsOfSqs:即Sumsofsquares,總方差,,又稱(chēng)離差平方和,;MeanSqs:即Meansquares,均方(差),;FModel:F檢驗(yàn)值,;R2:即Variation(R2),方差貢獻(xiàn),,表示不同分組對(duì)樣品差異的解釋度,,即分組方差與總方差的比值,R2越大表示分組對(duì)差異的解釋度越高,;Pr(>F):***性p值,,小于***。數(shù)據(jù)要求:OTU豐度表或者樣本距離矩陣,。 云南公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)早期肝疾病的預(yù)后基因panel研究,。
GSEA術(shù)語(yǔ)解讀Enrichmentscore(ES)ES是GSEA**初的結(jié)果,反應(yīng)關(guān)注的基因集S在原始基因數(shù)據(jù)序列L的頂部或底部富集的程度,。ES原理:掃描排序序列,,當(dāng)出現(xiàn)一個(gè)基因集S中的基因時(shí),增加ES值,,反之減少ES值,,一個(gè)基因的ES值權(quán)重與差異表達(dá)度相關(guān)。ES是個(gè)動(dòng)態(tài)值,,**終ES是動(dòng)態(tài)掃描過(guò)程中獲得的**ES值,。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部,。ES為負(fù),,表示某一基因集S富集在排序序列底部,。NES由于ES是根據(jù)分析的排序序列中的基因是否在一個(gè)基因集S中出現(xiàn)來(lái)計(jì)算的,但各個(gè)基因集S中包含的基因數(shù)目不同,,且不同功能基因集S與原始數(shù)據(jù)之間的相關(guān)性也不同,因此比較數(shù)據(jù)中基因在不同基因集S中的富集程度要對(duì)ES進(jìn)行標(biāo)準(zhǔn)化處理,,也就是計(jì)算NES,。NES=某一基因集S的ES/數(shù)據(jù)集所有隨機(jī)組合得到的ES平均值,NES是主要的統(tǒng)計(jì)量,。nominalp-value(普通P值)描述的是針對(duì)某一功能基因集S得到的富集得分的統(tǒng)計(jì)***性,,通常p越小富集性越好。FDR(多重假設(shè)檢驗(yàn)矯正P值)NES確定后,,需要判斷其中可能包含的錯(cuò)誤陽(yáng)性發(fā)現(xiàn)率,。FDR=25%意味著對(duì)此NES的判斷4次可能錯(cuò)1次。GSEA結(jié)果中,,高亮顯示FDR<25%的富集基因集S,。因?yàn)閺倪@些功能基因集S中**可能產(chǎn)生有意義的假設(shè)。大多數(shù)情況下,。
ROC機(jī)器學(xué)習(xí)受試者工作特征曲線(receiveroperatingcharacteristiccurve,,簡(jiǎn)稱(chēng)ROC曲線),又稱(chēng)為感受性曲線(sensitivitycurve),,是用來(lái)驗(yàn)證一個(gè)分類(lèi)器(二分)模型的性能的,。一般應(yīng)用于直觀展示敏感性和特異性連續(xù)變量的綜合指標(biāo),如比較多個(gè)biomarker或臨床參數(shù)的診斷表現(xiàn),、比較多個(gè)算法的分類(lèi)效果,。基本原理ROC曲線工作原理是,,向模型中輸入已知正負(fù)類(lèi)的一組數(shù)據(jù),,對(duì)比模型對(duì)該組數(shù)據(jù)的預(yù)測(cè),衡量這個(gè)模型的性能,。術(shù)語(yǔ)解讀:1,、TP(TruePositive,真正,TP)被模型預(yù)測(cè)為正的正樣本(原來(lái)為正預(yù)測(cè)為正)2、TN(TrueNegative,真負(fù),TN)被模型預(yù)測(cè)為負(fù)的負(fù)樣本(原來(lái)為負(fù)預(yù)測(cè)為負(fù))3,、FP(FalsePositive,假正,FP)被模型預(yù)測(cè)為正的負(fù)樣本(原來(lái)為負(fù)預(yù)測(cè)為正)4,、FN(FalseNegative,假負(fù),FN)被模型預(yù)測(cè)為負(fù)的正樣本(原來(lái)為正預(yù)測(cè)為負(fù))5、真正類(lèi)率(TruePostiveRate)TPR:TP/(TP+FN),**分類(lèi)器預(yù)測(cè)的正類(lèi)中實(shí)際正實(shí)例占所有正實(shí)例的比例,。Sensitivity6,、假正類(lèi)率(FalsePostiveRate)FPR:FP/(FP+TN),**分類(lèi)器預(yù)測(cè)的負(fù)類(lèi)中預(yù)測(cè)為正實(shí)例(實(shí)際為負(fù)實(shí)例)占所有負(fù)實(shí)例的比例,。1-Specificity7,、真負(fù)類(lèi)率(TrueNegativeRate)TNR:TN/(FP+TN),。 實(shí)驗(yàn)室致病類(lèi)病原微生物數(shù)據(jù)分析平臺(tái)。
industryTemplate云生物立足于上海,,提供相關(guān)數(shù)據(jù)科研咨詢(xún)與服務(wù),。湖北生物/藥物信息學(xué)分析數(shù)據(jù)科學(xué)服務(wù)
提供語(yǔ)言潤(rùn)色、圖表調(diào)整,、格式修改等工作模塊,。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)
ssGSEA基本原理
對(duì)于一個(gè)基因表達(dá)矩陣,ssGSEA首先對(duì)樣本的所有基因的表達(dá)水平進(jìn)行排序獲得其在所有基因中的秩次rank,。然后對(duì)于輸入的基因集,,從基因集中尋找表達(dá)數(shù)據(jù)里存在的基因并計(jì)數(shù),并將這些基因的表達(dá)水平求和,。接著基于上述求值,,計(jì)算通路中每個(gè)基因的富集分?jǐn)?shù),并進(jìn)一步打亂基因順序重新計(jì)算富集分?jǐn)?shù),,重復(fù)一千次,,***根據(jù)基因富集分?jǐn)?shù)的分布計(jì)算p值整合基因集**終富集分?jǐn)?shù)。
數(shù)據(jù)要求
1,、特定感興趣的基因集(通常為免疫細(xì)胞表面marker genes),,列出基因集中基因
2、基因表達(dá)矩陣,,為經(jīng)過(guò)log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seq count數(shù)數(shù)據(jù)(基因名形式與基因集對(duì)應(yīng))
下游分析
免疫細(xì)胞浸潤(rùn)分?jǐn)?shù)相關(guān)性(corralation)分析 成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)