2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近年來,互聯(lián)網(wǎng)已成為全球最大、最廣泛使用的信息庫,如何有效檢索其中的海量信息成為當(dāng)前重要的研究課題,因此信息檢索技術(shù)越來越受到人們的重視。用戶將表示自己需求的查詢提交給信息檢索系統(tǒng)后,系統(tǒng)將對(duì)檢索到的信息根據(jù)與查詢相關(guān)度的大小進(jìn)行排序。近年來,基于機(jī)器學(xué)習(xí)理論的有監(jiān)督排序?qū)W習(xí)方法的信息檢索模型成為了信息檢索領(lǐng)域中的研究熱點(diǎn)。這種模型使用排序?qū)W習(xí)方法在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到一個(gè)排序特性,并依此特性作為排序模型,實(shí)現(xiàn)對(duì)目標(biāo)的排序預(yù)測。
  

2、 但是,我們發(fā)現(xiàn)使用排序?qū)W習(xí)方法來解決信息檢索中的排序問題時(shí),仍然存在一些需要解決的問題。大多數(shù)排序?qū)W習(xí)方法要求其數(shù)據(jù)應(yīng)滿足獨(dú)立同分布假設(shè),但在信息檢索中,這個(gè)假設(shè)并不能被很好地滿足。在信息檢索中,針對(duì)某一個(gè)查詢,信息檢索系統(tǒng)會(huì)先從文檔庫中檢索出與這個(gè)查詢字面上有關(guān)聯(lián)的文檔集合,然后再對(duì)其進(jìn)行排序。所以,信息檢索排序問題中需要排序的樣本是由查詢與其包含的檢索文檔共同組成的查詢文檔對(duì),這種樣本的生成是依賴于查詢的,它的特征和其所屬的查詢

3、之間是相關(guān)的,這種相關(guān)性導(dǎo)致了不同的查詢所包含樣本的分布之間存在差異。但傳統(tǒng)的排序?qū)W習(xí)方法不能很好地應(yīng)對(duì)這種查詢間的差異性問題,從而導(dǎo)致了其在信息檢索應(yīng)用中的局限性。
   針對(duì)此問題,本文提出一類新的排序?qū)W習(xí)模型——與查詢相關(guān)的排序?qū)W習(xí)模型。在此模型中,我們認(rèn)為查詢之間具有排序差異性,不同查詢具有不同的排序特性。為了對(duì)這種差異進(jìn)行量化,我們提出“查詢排序差異度”的概念來描述不同查詢所對(duì)應(yīng)的排序特性之間的差異程度。在此基礎(chǔ)上,我

4、們提出與查詢相關(guān)的排序?qū)W習(xí)目標(biāo):在模型學(xué)習(xí)時(shí),針對(duì)訓(xùn)練集中查詢所對(duì)應(yīng)的不同排序特性,生成具有不同排序特性的多個(gè)排序器模型,并提出集成排序?qū)W習(xí)方法,實(shí)現(xiàn)使用多個(gè)排序器對(duì)一個(gè)目標(biāo)查詢進(jìn)行預(yù)測;在排序預(yù)測時(shí),針對(duì)待預(yù)測的查詢,以集成排序模型為基礎(chǔ),生成近似于其排序特性的排序模型進(jìn)行預(yù)測。為了達(dá)到這個(gè)目標(biāo),我們分別從兩個(gè)方面開展研究,即排序模型學(xué)習(xí)和排序預(yù)測。
   針對(duì)傳統(tǒng)排序?qū)W習(xí)方法對(duì)查詢排序差異表達(dá)能力不足的問題,本文提出與查詢相

5、關(guān)的排序模型學(xué)習(xí)方法,即針對(duì)訓(xùn)練集中包含的不同的排序特性,構(gòu)造與之對(duì)應(yīng)的多排序器模型,并提出相應(yīng)的集成排序?qū)W習(xí)方法。信息檢索的訓(xùn)練集會(huì)包含多個(gè)查詢,而這些查詢所對(duì)應(yīng)的排序特性是有差別的。因此,我們對(duì)這些查詢在排序特性上的差異進(jìn)行分析,提出了兩種排序差異度的計(jì)算方法,分別是基于分布的查詢排序差異度,以及基于決策函數(shù)的查詢排序差異度。然后,基于這兩種差異度,我們提出了相應(yīng)的多排序器訓(xùn)練方法,和基于多排序器的“與查詢相關(guān)集成排序?qū)W習(xí)方法”。通

6、過理論和實(shí)驗(yàn)表明,基于集成學(xué)習(xí)的排序方法可以有效提高模型的泛化性能,同時(shí)也為與查詢相關(guān)的排序預(yù)測提供了基礎(chǔ)。
   隨后,我們進(jìn)一步提出了與查詢相關(guān)的排序預(yù)測方法,即針對(duì)待預(yù)測的查詢,生成近似于其排序特性的排序模型進(jìn)行預(yù)測。要想達(dá)到這個(gè)目的,就必須對(duì)待預(yù)測查詢的排序特性進(jìn)行考量,但由于待預(yù)測的查詢不包含標(biāo)注數(shù)據(jù),所以很難對(duì)它的排序特性進(jìn)行直接估計(jì),因此我們提出樣本特征空間上的“排序差異尺度學(xué)習(xí)方法”,使用機(jī)器學(xué)習(xí)的方法對(duì)查詢間排

7、序特性的差異進(jìn)行差異度尺度學(xué)習(xí)?;谂判虿町惓叨龋覀兪紫仁褂肒近鄰的方法在線學(xué)習(xí)適合于待預(yù)測查詢的排序模型,但這種方法由于時(shí)間復(fù)雜度比較高,所以不適合一些信息檢索應(yīng)用的要求。由此,我們又提出了基于動(dòng)態(tài)集成的排序?qū)W習(xí)方法,它是以前文提出的與查詢相關(guān)的集成排序?qū)W習(xí)方法為基礎(chǔ),通過計(jì)算待預(yù)測查詢與排序器之間的排序差異尺度,來實(shí)現(xiàn)集成權(quán)重的動(dòng)態(tài)生成,從而實(shí)現(xiàn)了與查詢相關(guān)排序?qū)W習(xí)問題的最終目標(biāo)。
   我們分別使用模擬數(shù)據(jù)集以及兩個(gè)真實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論