宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-05 格式：pdf 頁數(shù)：93 大?。?.74MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩92頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、宏基因組學(xué)，廣泛指研究直接來自環(huán)境的基因材料的學(xué)科，被認為是微生物發(fā)展中的一個里程碑。它不僅僅使得對未培養(yǎng)或者不可培養(yǎng)的微生物的研究成為可能，也使得研究同一環(huán)境中的微生物在自然條件下的相互作用以及微生物和環(huán)境條件的相互作用成為可能。隨著測序技術(shù)的迅速發(fā)展，大量的宏基因組測序數(shù)據(jù)不斷積累，包括一些標簽基因，如16S rRNA基因，以及全基因組測序數(shù)據(jù)。
　　現(xiàn)在，一些與人類、土壤和海洋生命有關(guān)的大型宏基因組項目正在進行，持續(xù)產(chǎn)生

2、大量的數(shù)據(jù)，亟需新的高效分析方法的產(chǎn)生。宏基因組研究中的主要問題包括：1)，理解在不同條件下微生物的聚集；2)，比較不同的群落；3)，理解微生物相互之間，以及微生物與環(huán)境因素之間的關(guān)聯(lián)。
　　本文針對宏基因組數(shù)據(jù)分析中的一些問題展開，大致介紹了宏基因組學(xué)，包括一些基本概念，研究對象，主要問題等等，并針對下面兩類問題，進行了具體的探討。
　　 1.群落比較
　　 Beta多樣性，也即衡量群落之間的差別，在許多研究

3、領(lǐng)域，尤其是生態(tài)學(xué)研究中，具有重要的意義。研究者已經(jīng)提出了一些統(tǒng)計方法來度量Beta多樣性，這些將在第2章中詳細談到。
　　在這些方法中，UniFrac和加權(quán)的UniFrac近幾年來應(yīng)用廣泛?；谝粋€以兩個群落中所有元素為葉節(jié)點的系統(tǒng)發(fā)生樹，UniFrac這樣定義兩個群落之間的距離：對于系統(tǒng)發(fā)生樹中的所有枝，考查其指向的葉節(jié)點是否只存在于同一群落，那些葉節(jié)點只存在于同一群落的枝的枝長和，占整個樹的枝長和的比例，就定義為UniF

4、rac距離。UniFrac的概念非常容易理解，直觀來講，就是計算了僅被一個群落占據(jù)的進化歷史的相對大小，這個量越大，說明兩個群落中獨立的進化過程越多。加權(quán)UniFrac(w-UniFrac)方法，是在UniFrac的基礎(chǔ)上，將序列的豐度(數(shù)量)納入考慮，它能夠區(qū)分物種豐度的差別。在計算中，W-UniFrac按照每條枝指向的葉節(jié)點中來自兩個群落的比例，給每條枝加權(quán)重。然而，W-UniFrac的計算不考慮權(quán)重的方差，這可能給考察群落之間真實

5、的相互關(guān)系造成困難。
　　考慮系統(tǒng)發(fā)生樹的枝i.假定原假設(shè)是所有個體的標記隨機分布于系統(tǒng)發(fā)生樹的葉節(jié)點，那么，我們指出Ai，枝i指向的序列在群落A中的數(shù)目，在原假設(shè)下服從參數(shù)為(mi，m，AT)的超幾何分布，其中mi=Ai+Bi表示枝i指向的序列的總數(shù)，m=AT+BT表示群落A，B中所有序列的總數(shù)。經(jīng)過一系列推導(dǎo)，我們?yōu)橄到y(tǒng)發(fā)生樹的枝i，提出一個新的方差調(diào)整的權(quán)重(varianceadjusted weighted，VAW)，

6、即
　　數(shù)值模擬和實際數(shù)據(jù)應(yīng)用，都表明VAW-UniFrac能夠較好的衡量群落之間的距離，它不僅考慮群落中物種的組成，還將各物種的豐度信息納入考慮。
　　 2.在兩類樣本中，識別具有顯著豐度差別的操作分類單元
　　微生物數(shù)據(jù)分析中的一個重要問題，是在不同的環(huán)境/生物條件下，識別具有顯著豐度差別的操作分類單元(Operational Taxonomic Unit，OTU)。這里的操作分類單元，通常是通過對微生物

7、的標簽基因序列按一定的相似度歸類得到的，可以認為是比物種更細化的生物分類單元。針對這類問題的方法十分有限，主要包括應(yīng)用兩樣本t檢驗或Wilcoxon秩和檢驗的方法，檢驗兩種條件下，給定OTU的平均差別。因為有些OTU非常稀疏，只在很少的樣本中出現(xiàn)，因此可以用Fisher精確檢驗方法來檢驗分類單元出現(xiàn)與否是否有顯著差別。White等于2009提出將Fisher精確檢驗和t檢驗結(jié)合起來，在進行分析前，先選定一個適當?shù)拈撝担袿TU分為“稀少

8、組”和“常見組”兩類，然后分別應(yīng)用Fisher精確檢驗和t檢驗進行檢驗。這些方法都是對每一個單元分別檢驗，而不考慮每一樣本中各OTU組成成分數(shù)據(jù)的和為1。
　　尋找有顯著豐度差別的OTUs，這個問題很類似于基因表達研究中，尋找異常表達基因的問題。然而作為微生物組成數(shù)據(jù)，數(shù)據(jù)的特點有所不同，因此需要新的統(tǒng)計方法。首先，對給定的OTU，其在各樣本中數(shù)目的變化可能很大，而且大部分的OTUs只出現(xiàn)于很小一部分樣本中。這使得數(shù)據(jù)表中有大

9、量的零。第二，數(shù)據(jù)在列方向上不是獨立的。對OTU數(shù)目數(shù)據(jù)，每一列的和，表示一個樣本中OTUs的總數(shù)，由測序過程和測序深度決定。因為不同樣本含的OTU總數(shù)不同，所以同一行的數(shù)據(jù)不具可比性。若將數(shù)目數(shù)據(jù)，轉(zhuǎn)化為組成成分數(shù)據(jù)，即在總數(shù)中所占的百分比，則每列的和為1.第三，因為非常稀疏的OTUs在樣本較少的情況下，是很難觀察到的，因此我們的觀察數(shù)據(jù)往往是零截斷的。也就是說，總有一些實際存在的OTU，在樣本中沒有出現(xiàn)。
　　本文中，我們

10、提出了一種新的識別具有顯著豐度差別的OTUs的經(jīng)驗貝葉斯方法。為了解決過度分散和存在大量稀少OTUs的問題，我們提出使用Beta－Beta－Binomial來對觀察到的OTUs計數(shù)數(shù)據(jù)進行建模。而為了解決觀察數(shù)據(jù)都是零截斷的問題，使用截斷概率分布。大量的模擬表明，與t檢驗，Wilcoxon秩和檢驗和Fisher精確檢驗相比，新的經(jīng)驗貝葉斯方法具有更大的功效，能夠較準確的估計FDR。另外，我們還將這一方法用于一個吸煙與不吸煙者喉嚨微生物數(shù)

11、據(jù)集，并得到了具有生物意義的結(jié)果。
　　本文的組織結(jié)構(gòu)如下：
　　在第一章中，我們簡要介紹了宏基因組學(xué)，解釋了一些基本概念，尤其是操作分類單元(operational taxonomic units，OTUs)，最后介紹了宏基因組學(xué)的一些主要研究領(lǐng)域和問題。
　　在第二章中，集中討論群落比較的問題。我們將現(xiàn)有的比較群落的方法分為兩類：“基于OTU”和“基于系統(tǒng)發(fā)生”的方法，之后我們回顧了群落比較中的幾種經(jīng)典

12、方法，并主要針對UniFrac和加權(quán)UniFrac展開研究，提出一種新的方法，稱為“方差調(diào)整的加權(quán)UniFrac”(VAW－UniFrac)。為了檢驗VAW－UniFrac的效果，我們首先進行了一系列模擬，發(fā)現(xiàn)其總是比W-UniFrac更有效，當個體來自不均勻分布時，VAW－UniFrac也比UniFrac表現(xiàn)更好。另外，將三種方法應(yīng)用于3個大型的16S rRNA基因數(shù)據(jù)集，包括人類皮膚微生物群落，老鼠腸道群落，來自鹽水湖的土壤和沉積物

13、微生物群落，和一個熱帶雨林普查數(shù)據(jù)。模擬和實際數(shù)據(jù)的應(yīng)用都表明VAW－UniFrac可以很好的度量群落間的距離，將物種組成和物種豐度信息都納入考慮。
　　在第三章中，我們討論尋找兩類樣本組中，具有顯著豐度差別的OTUs。我們提出了一種經(jīng)驗貝葉斯方法，來識別在兩類樣本中，OTUs的豐度是否有顯著差別.為了考慮過度分散，存在大量稀少OTUs，以及觀察數(shù)據(jù)都是零截斷的問題，建立了Beta－Beta－Binomial模型并引入截斷概率

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載