2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩120頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多示例學(xué)習(xí)與傳統(tǒng)的監(jiān)督學(xué)習(xí)類似,每個訓(xùn)練樣本具有一個與之關(guān)聯(lián)的類別標簽,學(xué)習(xí)系統(tǒng)的任務(wù)是盡可能正確地預(yù)測未知樣本的類別標簽。但二者又存在較大區(qū)別,在監(jiān)督學(xué)習(xí)中,每個樣本僅包含一個示例,而在多示例學(xué)習(xí)中,樣本被稱之為包,每個包包含一個或多個示例,包具有類別標簽,而其中示例不被賦予任何類別信息。標準多示例假設(shè)認為:如果一個包至少包含一個正示例,那么該包被標記為正;否則,該包被標記為反。
  在標準多示例假設(shè)下,正包中至少存在一個正示例

2、,然而,許多多示例問題并不滿足這一假設(shè)。比如,在基于區(qū)域的圖像分類問題中,僅當(dāng)多個局部目標對象同時出現(xiàn)在一幅圖片中時,該圖片才被認定為屬于某一類別。為解決類似圖像分類等問題,研究者們提出了廣義多示例假設(shè)并設(shè)計了若個嵌入空間多示例學(xué)習(xí)算法。這類算法的基本思想是:首先,將訓(xùn)練包映射到由訓(xùn)練集中所有示例形成的嵌入空間中,以構(gòu)造其相應(yīng)的包級特征;然后,利用新的包級特征向量訓(xùn)練一個標準的監(jiān)督學(xué)習(xí)分類器(比如,支持向量機)。利用包級特征映射,嵌入空

3、間算法已將多示例學(xué)習(xí)轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學(xué)習(xí)。
  嵌入空間算法的典型做法是利用訓(xùn)練集中的所有示例來構(gòu)造嵌入空間,而在一般的多示例問題中,大多數(shù)訓(xùn)練包均由多個示例所組成,這樣,即使對于中等規(guī)模的數(shù)據(jù)集,嵌入空間的維度也會遠高于訓(xùn)練包的數(shù)量,而二者間的不均衡很容易導(dǎo)致學(xué)習(xí)過程的過擬合,因此特征選擇便成為嵌入空間算法的必然選擇。由于每一維包級特征均由一個示例原型所定義,因而在嵌入空間算法中特征選擇本質(zhì)上也是示例選擇。本文以特征選擇為視角圍

4、繞嵌入空間算法所涉及的兩個關(guān)鍵問題(特征映射和特征選擇)對這類算法進行深入研究,具體內(nèi)容如下:
 ?。?)提出一種基于距離特征非線性支持向量機映射方式的MILES算法。如何選擇包級特征與支持向量機組合方式是MILES等嵌入空間算法的一個基本問題。針對這一問題,深入剖析現(xiàn)有兩種組合方式的本質(zhì)目的,并在此基礎(chǔ)上改進MILES算法。目前存在兩種組合方式,即距離特征與非線性支持向量機組合和相似性特征與線性支持向量機組合,前者利用非線性支持

5、向量機實現(xiàn)了對距離特征的非線性映射,而后者基于指數(shù)函數(shù)實現(xiàn)了相應(yīng)映射。通過對比分析這兩種映射方式的優(yōu)劣,歸納出距離特征與非線性支持向量機組合更適合于嵌入空間算法,進而利用這一較優(yōu)組合替換MILES算法的原始組合實現(xiàn)對其的改進。實驗結(jié)果表明,改進算法不僅在分類性能與執(zhí)行效率上優(yōu)于原始算法,在算法健壯性上也強于它。
 ?。?)給出一種嵌入空間算法的分類方案。針對目前缺乏對這類算法的分類研究,以特征選擇為視角對現(xiàn)有算法進行分類,將它們劃

6、分為基于“過濾”型和“嵌入”型特征選擇的算法。此外,由于以往算法基于整個數(shù)據(jù)集進行參數(shù)調(diào)節(jié),相應(yīng)實驗結(jié)果不能體現(xiàn)算法的真實性能,因此還利用交叉驗證實驗方法重新測試這些算法,即保證參數(shù)調(diào)節(jié)僅發(fā)生于訓(xùn)練包上,絕不涉及任何測試包。進行這部分實驗的另一好處是能夠幫助分析不同類型特征選擇方法對嵌入空間算法的影響。
  (3)提出三種基于貪心獲取特征子集的嵌入空間算法。如何獲取最優(yōu)特征子集是嵌入空間算法的又一基本問題,簡單的統(tǒng)計策略忽視了多示

7、例學(xué)習(xí)本身的特點,致使特征子集中仍存在大量冗余特征,最終導(dǎo)致算法的執(zhí)行效率很低。為解決這一問題,結(jié)合多示例學(xué)習(xí)的特點,提出一種貪心的特征子集獲取方法——按某一特征選擇標準在包級特征中挑選與每個訓(xùn)練包中得分最高的示例所對應(yīng)的的特征,以及三種基于貪心方法的嵌入空間算法。實驗結(jié)果表明,基于貪心方法的算法能夠在保持原始算法分類性能的前提下大幅度提高其執(zhí)行效率,即能夠在性能和效率間保持均衡。
  (4)提出一種示例選擇方法泛化能力增強的MI

8、LD算法。MILD將示例對訓(xùn)練包的分類能力作為其示例選擇依據(jù),然而該算法未考察一個候選示例原型對未知包的分類能力,即忽視了其示例選擇方法的泛化能力,此外,該算法還未考慮選擇來自于反訓(xùn)練包的反示例原型。為克服MILD的以上缺點,將經(jīng)典的交叉驗證技術(shù)應(yīng)用于其示例選擇過程,提出一種其示例選擇方法的泛化能力得到增強的改進算法。改進算法與原始算法的最大區(qū)別是將候選示例原型對驗證集的分類能力作為示例選擇的依據(jù)并將反示例原型的選取納入其中。實驗結(jié)果表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論