定量結(jié)構(gòu)活性相關(guān)性研究與高維微陣列數(shù)據(jù)分析中的化學計量學新算法.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-06 格式：pdf 頁數(shù)：146 大小：5.83MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩145頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、本文作者對定量結(jié)構(gòu)活性相關(guān)性研究以及高維微陣列數(shù)據(jù)分析領(lǐng)域中的一些難點問題進行深入研究后,提出了多種新型的化學計量學算法,并應用于實際體系的研究。本論文的內(nèi)容主要涉及到以下幾個方面:
　　 1.提出了一種基于徑向基函數(shù)網(wǎng)絡(luò)轉(zhuǎn)換的全局最優(yōu)的非線性支持向量機算法。該算法通過一個只有一個輸入層和一個隱含層的徑向基函數(shù)網(wǎng)絡(luò)實現(xiàn)原始變量到特征空間的非線性變換。該變換本質(zhì)上是實現(xiàn)了原始變量的核變換。用粒子群優(yōu)化算法協(xié)同優(yōu)化所有參數(shù)包括核中心

2、、核寬度以及支持向量機中系數(shù)使得按照全模型的性能作出靈活的核變換成為可能。對艾滋病毒I型逆轉(zhuǎn)錄酶抑制劑與1-苯基苯并咪唑活性的定量構(gòu)效關(guān)系研究結(jié)果表明,所提出的算法性能相當穩(wěn)定,且要優(yōu)于反向傳播神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)的非線性支持向量機。
　　 2.為克服傳統(tǒng)方法構(gòu)建的分類與回歸樹中存在的過擬合和局部最優(yōu)等問題,引入了改進的離散粒子群算法來自適應構(gòu)建分類與回歸樹,即同時搜索每個分枝節(jié)點中最優(yōu)的分枝變量和分枝值以及合適的樹結(jié)構(gòu)(即:樹的復

3、雜性)。該方法集樹的生長、修剪于一體,并不需要選擇子樹。另外,我們還提出了一個新的目標函數(shù)來確定合適的樹的復雜性和最優(yōu)的分枝變量及相應的分枝值。將所提出的分類與回歸樹構(gòu)建方法用于預測類黃酮衍生物的生物活性和表皮生長因子受體酪氨酸酶抑制劑的抑制活性,結(jié)果表明,改進的離散粒子群算法為一種有效的分類與回歸樹構(gòu)建方法,能快速地收斂到最優(yōu)解,所構(gòu)建的分類與回歸樹能在很大程度上避免了過擬合問題的產(chǎn)生,由改進的離散粒子群算法構(gòu)建的分類與回歸樹要優(yōu)于傳

4、統(tǒng)方法所構(gòu)建的樹。
　　 3.在定量構(gòu)效關(guān)系研究中,任何人為對分子結(jié)構(gòu)描述變量的拋棄將帶來有用結(jié)構(gòu)信息的損失。為了獲得更加靈活的變量選擇和建模,以粒子群優(yōu)化算法為基礎(chǔ),提出了一種變量加權(quán)版本的支持向量機用于定量結(jié)構(gòu)活性相關(guān)性研究。變量加權(quán)的策略旨在不人為刪除和保留變量,允許變量的非負加權(quán)。采用粒子群優(yōu)化算法實現(xiàn)非負的變量加權(quán)實質(zhì)上可視為對分子結(jié)構(gòu)描述變量的某種最優(yōu)化重新刻度。若使用粒子群優(yōu)化算法同時優(yōu)化模型其它參數(shù)則使得變量加權(quán)

5、的支持向量機變成一個無需人為調(diào)節(jié)參數(shù)的全自動建模方法,因此將比傳統(tǒng)的變量選擇及建模方法有更多的靈活性,且更智能化。對糖原合成酶激酶-3α抑制劑以及碳酸酐酶Ⅱ抑制劑的研究表明,變量加權(quán)支持向量機方法確實能在定量構(gòu)效關(guān)系模型中實現(xiàn)對變量的最優(yōu)化刻度,保留更多的結(jié)構(gòu)信息,從而幫助得到訓練和預測能力更優(yōu)且智能化的回歸模型。
　　 4.微陣列技術(shù)是從基因尺度進行疾病探究和診斷的關(guān)鍵。為實現(xiàn)高維微陣列數(shù)據(jù)分析中的基因選擇,提出了一種基于不同

6、類別間概率密度函數(shù)相似性的變量選擇方法用于疾病重要標識基因的鑒定。與多類問題中常用的變量選擇方法相比,該方法并不要求所選基因能同時對多數(shù)類別都有很好的判別能力,而是為每個感興趣的類別選擇出與之對應的重要標識基因,保證為每個類別均提供足夠的判別信息。同時,因為該方法通過計算樣本在不同基因上的概率密度函數(shù)來衡量各基因?qū)Σ煌悇e的判別能力,能充分尊重組間組內(nèi)樣本的真實分布,即使某些重要基因在組內(nèi)樣本中的表達出現(xiàn)系統(tǒng)性差異時也能被很好地選擇,這

7、正是傳統(tǒng)基因選擇方法所欠缺的。此外,為消除不同類別變量組之間的相互干擾,我們進一步提出了分塊核變換的支持向量機用于建立微陣列數(shù)據(jù)的分類模型。實際癌癥診斷數(shù)據(jù)驗證結(jié)果表明,該變量選擇方法與分塊核變換的支持向量機的結(jié)合,能有效地為各類疾病鑒定出相關(guān)的重要標識基因,并提供令人滿意的分類準確度。
　　 5.致病機理的多樣性導致了疾病的多樣性,同種疾病經(jīng)常存在不同的亞型。因此對基因微陣列數(shù)據(jù)進行變量選擇時,若考慮組內(nèi)樣本間的差異性將能有效

8、提高基因選擇的可靠性。針對這一思想,我們提出了基于分割區(qū)間純度的變量選擇方法用于感興趣類別標識基因的鑒定。該方法通過搜索組內(nèi)樣本的單模分布區(qū)間并評價樣本在各單模分割區(qū)間的分布狀況來衡量各基因?qū)Ω信d趣類別的判別能力。因為該方法同時考慮了組內(nèi)樣本的單模分布區(qū)間,從而能對具有多模分布的重要標識基因進行合理評價,彌補了常用基因選擇方法的不足。此外,采用的均值漂移算法在反映樣本真實分布的前提下,能并行獲取所有類別樣本的單模區(qū)間,提高了變量選擇的效

9、率。對兩個實際基因微陣列數(shù)據(jù)集的分析結(jié)果表明,結(jié)合分塊核變換的支持向量機,該方法能快速、有效地為各類疾病鑒定其重要的標識基因,并實現(xiàn)準確的疾病類別預測。
　　 6.高維微陣列數(shù)據(jù)通常具有變量維數(shù)極高,樣本量相對極少的特點。分類與回歸樹作為一種基于大樣本統(tǒng)計的分析方法,在樣本量較小時模型不穩(wěn)定。而因疾病多樣性帶來的組內(nèi)樣本差異表現(xiàn)為樣本間的同質(zhì)性不理想時,更將加劇分類回歸樹模型不穩(wěn)定、過擬合的風險。另外,分類回歸樹對微陣列數(shù)據(jù)的窮

10、盡搜索也會因為冗余信息的干擾帶來過擬合的風險。為解決上述問題,我們采用了單模變換基于分割區(qū)間純度所選變量用于分類回歸樹建模的策略。變量選擇是數(shù)據(jù)降維的積極措施,同時能大大減少數(shù)據(jù)中的冗余信息。使用基于分割區(qū)間純度的變量選擇方法鑒定基因微陣列數(shù)據(jù)中的重要標識基因能有效地實現(xiàn)這一目的。對變量的單模變化則意將通過特征提取將變量在組內(nèi)樣本間的“表達單?；?以提高組內(nèi)樣本的同質(zhì)性,旨在幫助建立復雜度更低、穩(wěn)定性更好的分類預測模型。對兩個真實癌癥

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

定量結(jié)構(gòu)活性相關(guān)性研究與高維微陣列數(shù)據(jù)分析中的化學計量學新算法.pdf

文檔簡介

溫馨提示

最新文檔

評論

定量結(jié)構(gòu)活性相關(guān)性研究與高維微陣列數(shù)據(jù)分析中的化學計量學新算法.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載