復(fù)雜化學(xué)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)新型化學(xué)計(jì)量學(xué)算法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-11 格式：pdf 頁數(shù)：155 大?。?.84MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩154頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、化學(xué)計(jì)量學(xué)的發(fā)展表明了化學(xué)和分析化學(xué)進(jìn)入了信息時(shí)代。分析化學(xué)和化學(xué)技術(shù)中需要的是改進(jìn)的定量信息,這就需要將化學(xué)量測轉(zhuǎn)化成有意義的結(jié)果,例如,從所得的數(shù)據(jù)中提取有用的信息。通常地，從多元數(shù)據(jù)陣中提取有意義的結(jié)果意味著探測數(shù)據(jù)的自然聚類和異常點(diǎn),然后尋找適當(dāng)?shù)木垲愞k法或設(shè)計(jì)一個(gè)代表數(shù)據(jù)集的校正模型。然而,這些目標(biāo)并不容易實(shí)現(xiàn),特別是當(dāng)我們處理從先進(jìn)的化學(xué)儀器或化工廠獲得的復(fù)雜多變量數(shù)據(jù)集時(shí)。本論文提出了五種新的化學(xué)計(jì)量學(xué)算法,提高了對(duì)復(fù)雜多

2、變量化學(xué)數(shù)據(jù)集的信息挖掘能力。第一個(gè)算法適用于聚類分析領(lǐng)域,我們稱它為泡泡凝聚(BA)。這個(gè)算法將每個(gè)數(shù)據(jù)點(diǎn)認(rèn)作為一個(gè)半徑為r的泡泡的球心。所有的泡泡大小相同,每組鄰近的泡泡形成一個(gè)自然類或一個(gè)核心。算法逐漸增大泡泡的半徑和鄰近泡泡的數(shù)目。從而原先認(rèn)為的類的核心逐漸減少。稀疏的數(shù)據(jù)點(diǎn)根據(jù)它們到不同核心的距離分布于不同的核心。最后通過可靠性曲線決定最優(yōu)的泡泡半徑。我們用了兩套模擬數(shù)據(jù)集和三套實(shí)際數(shù)據(jù)集來驗(yàn)證此方法的性能。與K-均值方法的比

3、較顯示了BA方法令人滿意的優(yōu)良性能。毫無疑問,將多維數(shù)據(jù)集降維呈現(xiàn)在二維數(shù)據(jù)空間,不僅是檢測自然聚類也是提取所有數(shù)據(jù)集內(nèi)含信息的一個(gè)強(qiáng)大的工具。在本論文中提出的第〔蓋inese abs介aCt二個(gè)算法是基于主成分分析(P cA)的新的多維數(shù)據(jù)顯示方法。數(shù)據(jù)點(diǎn)可顯示在兩維空間中,并且同時(shí)不受只使用前兩個(gè)主成分的約束。在這種方法中,所有含重要化學(xué)信息的主成分在可視化過程中都可充分利用。數(shù)據(jù)點(diǎn)通過(n+l)邊規(guī)則多邊形顯示,n個(gè)主成分包含大多

4、數(shù)的化學(xué)信息。所提出的方法應(yīng)用到實(shí)際的化學(xué)數(shù)據(jù)集中;有一些數(shù)據(jù)集并不能用傳統(tǒng)的PCA方法成功可視化。所得到的結(jié)果表明我們提出的方法能顯示化學(xué)數(shù)據(jù)集,尤其是所提出的方法保持?jǐn)?shù)據(jù)點(diǎn)之間內(nèi)部相對(duì)距離比傳統(tǒng)的PCA方法要好。本論文的第三個(gè)算法適用于分類方法;算法命名為多產(chǎn)遺傳算法(MpGA),可用來對(duì)重疊化學(xué)數(shù)據(jù)進(jìn)行分類。所提出算法首先估計(jì)了一個(gè)線性判別函數(shù)。我們通過兩個(gè)新提出算子改進(jìn)后的遺傳算法估計(jì)線性判別函數(shù),即,多產(chǎn)、滅絕與定向生成。改

5、進(jìn)了的遺傳算法改善了線性分類的結(jié)果,同時(shí)減少了計(jì)算時(shí)間。為了克服線性不可分的化學(xué)數(shù)據(jù)集常遇到的困難,優(yōu)化的線性分類器通過補(bǔ)充非線性分類器進(jìn)一步改善。補(bǔ)充的非線性的相應(yīng)部分通過對(duì)線性分類錯(cuò)誤的樣品建立半超橢圓體實(shí)現(xiàn)。所提出的MPGA應(yīng)用于對(duì)七組化學(xué)數(shù)據(jù)集進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明所提出的MPGA能對(duì)嚴(yán)重重疊的數(shù)據(jù)集進(jìn)行正確分類。第四個(gè)算法改善了多元線性校正過程。這種方法稱之為逐步準(zhǔn)線性建模方法,當(dāng)單個(gè)線性校正模型不能在允許的殘差范圍內(nèi)描述整個(gè)

6、數(shù)據(jù)集時(shí),它將數(shù)據(jù)集分為幾個(gè)線性的子集。此算法處理線性模型將尋找子集轉(zhuǎn)化成數(shù) VI尸〔傲inese absh.act據(jù)空間的超平面。改進(jìn)的遺傳算法通過給定的最大誤差將數(shù)據(jù)集分成線性的子集。所提出的算法成功地將一個(gè)實(shí)際的QsAR數(shù)據(jù)集分成三個(gè)同類的線性子集,與單個(gè)線性模型相比,殘差非常小。提出的第五個(gè)算法在將數(shù)據(jù)集分成子集的情況下辨別樣品。當(dāng)在限定的誤差范圍內(nèi)單個(gè)線性模型不能成功地代表整個(gè)數(shù)據(jù)集時(shí),此算法綜合了將數(shù)據(jù)集分成幾個(gè)線性的子集。

7、提出了兩種不同的分類方法通過使用相應(yīng)的線性模型估計(jì)預(yù)測變量”少”,將新的樣品歸入正確的子集。每種方法的判別過程可通過比較用分割算法的原始線性模型對(duì)新樣品”,所計(jì)算的變量”夕”與假設(shè)第一種方法用PcR或第二種方法用PLsR所得的”夕”之間的偏差實(shí)現(xiàn)。樣品屬于給出最小偏差的子集。除了兩組模擬的數(shù)據(jù)集,此方法還用于兩組實(shí)際的QSAR數(shù)據(jù)集。結(jié)果與傳統(tǒng)的SIMCA聚類方法比較表明,每個(gè)提出的方法都能用于將新的樣品歸于用遺傳算法分割數(shù)據(jù)集的子集,

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

復(fù)雜化學(xué)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)新型化學(xué)計(jì)量學(xué)算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

復(fù)雜化學(xué)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)新型化學(xué)計(jì)量學(xué)算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載