2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著第三代測序技術(shù)的普及,生物數(shù)據(jù)呈指數(shù)增長。各種生物數(shù)據(jù)庫如NCBI、EBI、DDBJ等被建立和不斷豐富,標(biāo)志著生物數(shù)據(jù)也邁入了“大數(shù)據(jù)”時代。大量的生物數(shù)據(jù)對人們處理和操縱數(shù)據(jù)的能力提出了巨大挑戰(zhàn)。在這些生物數(shù)據(jù)中最值得關(guān)注的就是生物序列,它不僅包括存儲遺傳信息的DNA序列、RNA序列,還有承擔(dān)生命活動的蛋白質(zhì)序列及基因表達(dá)過程中出現(xiàn)的密碼子序列?,F(xiàn)代技術(shù)的發(fā)展使得多核、多線程的并行高性能計算設(shè)備可以有效的應(yīng)對大量數(shù)據(jù)和大量計算帶來

2、的挑戰(zhàn)。其中,支持統(tǒng)一設(shè)備架構(gòu)(Compute Unified Device Architecture,CUDA)的圖形處理器(Graphics Processing Unit,GPU)在并行處理大量計算的任務(wù)中表現(xiàn)良好,被廣泛應(yīng)用于科學(xué)計算、生物計算、物理模擬、天文預(yù)測等多個領(lǐng)域。支持CUDA的GPU擁有數(shù)以千計的計算單元,可通過并行處理大量計算任務(wù)來節(jié)省可觀的運(yùn)算時間。CUDA的這個優(yōu)勢對于動輒數(shù)十小時甚至數(shù)天的生物計算任務(wù)來說,具

3、有十分重要的實(shí)踐意義。基于此優(yōu)點(diǎn),我們可利用支持CUDA的GPU來對生物信息學(xué)算法進(jìn)行并行化改進(jìn),以此來降低算法的運(yùn)算時間。之后,我們搭建了一個可集成并行化架構(gòu)的生物信息學(xué)平臺,通過使用平臺集成的并行化工具和其他常用生物信息學(xué)軟件可提高生物信息學(xué)研究的效率。
  本研究主要內(nèi)容包括:⑴提出并實(shí)現(xiàn)了基于支持CUDA的GPU的密碼子偏差系數(shù)模型并行化方法。密碼子使用偏性(Codon Usage Bias,CUB)是廣泛存在于生物界的特

4、性。對于密碼子使用偏性有多個評價指數(shù),現(xiàn)存的一些指數(shù)由于考察方面不同而存在不同的局限性,如依賴參考集、缺乏統(tǒng)計重要性估計或缺乏考慮有效背景核苷酸組分等。密碼子偏差系數(shù)模型(Codon Deviation Coefficient,CDC)彌補(bǔ)了上述不足,但其在對大量的序列數(shù)據(jù)分析密碼子使用偏性時耗時較長。本文在CDC的基礎(chǔ)上將其進(jìn)行并行化改進(jìn),通過對CDC算法流程分析將算法劃分為各個子模塊,并在子模塊上進(jìn)行數(shù)據(jù)依賴性分析、時間分析,篩選出

5、適合并行的子模塊對其進(jìn)行并行化改進(jìn)。同時,我們對原算法中使用的一些數(shù)據(jù)結(jié)構(gòu)做相應(yīng)修改,并使用了CURAND API來解決并行隨機(jī)數(shù)問題,這些改進(jìn)和措施很好的解決了并行化和串行化間的差異,使得算法使用的數(shù)據(jù)能被GPU更快速更容易的訪問。之后,我們用CUDA-C語言實(shí)現(xiàn)了并行化的CDC算法。通過并行方法和串行方法的時間對比,我們觀察到并行方法在不同數(shù)據(jù)量大小的數(shù)據(jù)上獲得了約為38~398倍的加速比,且在一定范圍內(nèi)數(shù)據(jù)量越大加速比越高。最后,

6、通過加速比分析,驗(yàn)證了現(xiàn)有加速比的正確性。⑵支持并行化的生物信息學(xué)平臺的搭建。當(dāng)今生物信息處理軟件和工具比比皆是,各種生物數(shù)據(jù)和生物信息數(shù)據(jù)庫都可以輕松的借助于互聯(lián)網(wǎng)訪問。集成化的生物信息學(xué)平臺可提高生物信息學(xué)研究效率。目前多數(shù)生物信息學(xué)平臺都采用可視化的web界面來調(diào)用生物信息學(xué)工具,避免了工具復(fù)雜的命令行使用方式。但大多平臺只集成了普通的串行化工具,且不具備中文界面,借助平臺的生物信息學(xué)研究仍需花費(fèi)大量時間,且這些平臺不利于國內(nèi)用戶

7、使用。因此,我們使用python和XML語言對開源項(xiàng)目galaxy進(jìn)行修改和二次開發(fā),搭建了一個開放易用的本地化的生物信息學(xué)平臺,并將平臺與并行化架構(gòu)結(jié)合起來。通過改寫源代碼、編寫配置文件等方式使生物信息學(xué)平臺可以調(diào)用之前實(shí)現(xiàn)的并行化CDC算法程序和其他并行化工具,從而用戶可以直接通過web界面來使用支持CUDA的GPU進(jìn)行并行計算。使用平臺的并行化工具可提升研究效率,用戶也能方便的利用平臺集成的各種工具如數(shù)據(jù)獲取、格式轉(zhuǎn)換、數(shù)據(jù)處理、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論