代謝組學(xué)研究中,差異代謝物的篩選是數(shù)據(jù)分析重要的一環(huán),但由于代謝組數(shù)據(jù)具有多維且某些變量間高度相關(guān)的特點,所以分析方法有很多,如PCA、PLS-DA以及OPLS-DA分析等。
1. 代謝組學(xué)常用的顯著性檢驗方法:
p值是一個概率,反映某一事件發(fā)生的可能性大小,用于區(qū)分該變量是否具有統(tǒng)計顯著性,通常認為p<0.05具有統(tǒng)計學(xué)意義。常用的檢驗方法有t-test、方差分析(Analysis of Variance, ANOVA)。t檢驗一般適用于兩組差異比較,在多維的情況下就要用到ANOVA方差分析。
(圖片來源于網(wǎng)絡(luò),侵刪)
2. 單變量分析方法-差異倍數(shù)分析在代謝組學(xué)兩兩比較中是較為常見的,但多組比較為什么沒有呢?
差異倍數(shù)(Fold Change,簡稱FC值)分析即根據(jù)代謝物的相對定量或絕對定量結(jié)果,計算某個代謝物在兩組間表達量的差異。差異倍數(shù)作為上下調(diào)的一個標(biāo)準(zhǔn),假設(shè)比較組為AvsB,計算方式為:FC=B/A,F(xiàn)C大于1為上調(diào),小于1為下調(diào)(這個標(biāo)準(zhǔn)不是固定的,也可以設(shè)置的更為嚴格一點,比如調(diào)整為1.2倍、1.5倍或者2倍,這三種閾值在代謝組研究相關(guān)文章中是較為常見的)。我們說上下調(diào),一般都是指和某一組相比,另一組上調(diào)或者下調(diào),三組或者多組的時候是無法定義和哪組相比其他幾組高或者低的,因此差異倍數(shù)是在兩兩比較中產(chǎn)生的。
3. 多元統(tǒng)計分析
多元統(tǒng)計分析分為無監(jiān)督分析方法和有監(jiān)督分析方法。在代謝組學(xué)分析中無監(jiān)督分析有主成分分析(PCA),而有監(jiān)督分析方法主要是偏最小二乘判別分析(PLS-DA)和正交偏最小二乘判別分析(OPLS-DA)。
因無外加人為因素,得到的PCA模型反映了代謝組數(shù)據(jù)的原始狀態(tài),有利于掌握數(shù)據(jù)的整體情況并對數(shù)據(jù)從整體上進行把握,并從中揭示出數(shù)據(jù)集中觀測數(shù)據(jù)的分組、趨勢以及離群。對明顯不同于大部分樣品的離群樣品,可加以甄別或剔除。另外,如果存在質(zhì)控樣品,PCA還可進行質(zhì)控,如果質(zhì)控樣品分布點越靠近,則說明系統(tǒng)穩(wěn)定,檢測質(zhì)量沒有問題。
與PCA只有一個數(shù)據(jù)集不同,PLS-DA在分析時必須對樣品進行指定并分組,這樣模型會自動加上另外一個隱含的數(shù)據(jù)集Y。因為PLS-DA在建模時對樣品進行了指定和分組,所以能更大地區(qū)分組間差異,但這也導(dǎo)致數(shù)據(jù)的PLS-DA模型存在過擬合(overfitting)的問題, 會造成模型失真, 在實際數(shù)據(jù)分析時應(yīng)注意驗證模型有效性和可靠性。
OPLS-DA使用正交信號校正技術(shù),將X矩陣信息分解成與Y相關(guān)和不相關(guān)的兩類信息,然后過濾掉與分類無關(guān)的信息,相關(guān)的信息主要集中在第一個預(yù)測成分,有效減少模型的復(fù)雜性和增強模型的解釋能力,從而較大程度查看組間差異。OPLS-DA 得分圖,從橫坐標(biāo)的方向可以看到組間的差異;從縱坐標(biāo)上看出組內(nèi)的差異(組內(nèi)樣本間的差異)。
4. 代謝組學(xué)常用到的差異代謝產(chǎn)物的數(shù)據(jù)分析方法:
單變量分析方法是簡單常用的實驗數(shù)據(jù)分析方法。在進行兩組樣本間的差異代謝物分析時,常用的單變量分析方法包括差異倍數(shù)分析(Fold Change Analysis,F(xiàn)C Analysis)、T 檢驗,以及綜合前兩種分析方法的火山圖(Volcano Plot)。
多元統(tǒng)計分析中無監(jiān)督分析有主成分分析(PCA),而有監(jiān)督分析方法主要是偏最小二乘判別分析(PLS-DA)和正交偏最小二乘判別分析(OPLS-DA)。
VIP(Variable important in projection)是(O)PLS-DA模型變量的變量權(quán)重值,來衡量各代謝物的表達模式對各組樣本分類判別的影響強度和解釋能力,挖掘具有生物學(xué)意義的差異代謝物。
由于代謝組數(shù)據(jù)具有多維且某些變量間高度相關(guān)的特點,運用傳統(tǒng)的單變量分析無法快速、充分、準(zhǔn)確地挖掘數(shù)據(jù)內(nèi)潛在的信息,因此一般采用多元統(tǒng)計分析方法,可以在較大程度保留原始信息的基礎(chǔ)上將高維復(fù)雜的數(shù)據(jù)進行“簡化和降維”,建立可靠的數(shù)學(xué)模型對研究對象的代謝譜特點進行歸納和總結(jié)。因此代謝組學(xué)推薦使用單維和多維的方法進行結(jié)合,有助于我們從不同角度觀察數(shù)據(jù),得出結(jié)論。所以選擇P值小于0.05與VIP值大于1作為常見的差異代謝物篩選標(biāo)準(zhǔn)。
5. 代謝組學(xué)中LC-MS與GC-MS數(shù)據(jù)的區(qū)別:
1)LC-MS根據(jù)電離方式不同,可分為電噴霧離子源(ESI)和大氣壓化學(xué)電離源(APCI) 2 種工作方式;GC-MS有電子轟擊電離(EI)、正化學(xué)電離(CI)、負化學(xué)電離(NCI)3種電離方法,其中前兩者較常用。
2)LC-MS是在正、負離子兩種模式下工作的,得到的數(shù)據(jù)形式也是不一樣的,而對代謝物的統(tǒng)計學(xué)分析時也是分開的,但在代謝通路分析時(或者合并分析時),會將正負離子結(jié)合,有重復(fù)時選擇兩種模式中響應(yīng)較高的一個模式。
3)GC-MS通常只能在單一離子模式下工作,得到的數(shù)據(jù)模式非負即正,可根據(jù)實際的離子源進行判斷,因此在分析時工作量就少了一半。再加上由于掃描離子范圍的差別,LC-MS獲得的數(shù)據(jù)量明顯更多。
相比于GC-MS,LC-MS一般無需衍生處理,分析平行性更好,更適合大規(guī)模樣本的分析。代謝數(shù)據(jù)有著典型的高維度、高噪聲等特性,并且存在數(shù)量級的差異,因此還需要對數(shù)據(jù)進行樣本間和代謝物間的歸一化處理,以確保各樣本之間和代謝物之間可平行比較。歸一化的方法:內(nèi)標(biāo)歸一化、總峰面積歸一化和QC歸一化。簡單來說,就是對代謝數(shù)據(jù)集進行一系列的數(shù)值處理,把數(shù)據(jù)拉到一個特定范圍里,轉(zhuǎn)換為可用于進一步統(tǒng)計分析的可用形式。