2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩76頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類是近年來機器學習和模式識別領(lǐng)域研究的熱點問題之一,在分類問題中存在一類特例:各類別樣例在數(shù)量上相差懸殊,這類數(shù)據(jù)集被稱為不平衡數(shù)據(jù)集,其中數(shù)量占優(yōu)的類別被稱為多數(shù)類,稀疏的類別被稱為少數(shù)類.傳統(tǒng)分類算法在類別平衡的數(shù)據(jù)集上能有效發(fā)揮性能優(yōu)勢,在不平衡數(shù)據(jù)集上傳統(tǒng)分類算法為了追求較高的整體分類精度,將傾向于把少數(shù)類樣例誤分為多數(shù)類.而這些數(shù)量稀疏的少數(shù)類一旦被誤分所付出的代價將比誤分多數(shù)類的代價高很多.提高分類器在類別不平衡的數(shù)據(jù)集上

2、的分類性能和泛化能力在許多應用領(lǐng)域都具有重要價值和現(xiàn)實意義.如銀行信貸風險評估系統(tǒng)中正常借貸交易出現(xiàn)的概率要遠高于不良信貸出現(xiàn)的概率,銀行工作人員最為關(guān)注的正是從眾多的正常借貸業(yè)務(wù)中找出這些極少數(shù)的不良交易.文本檢測、產(chǎn)品質(zhì)量檢驗、垃圾郵件過濾等都是類別不平衡數(shù)據(jù)集的典型應用背景.為簡單起見本文僅考慮二分類問題,多分類問題可轉(zhuǎn)換為若干個二分類問題來解決.
  為了提高類別不平衡數(shù)據(jù)集上的分類性能人們在傳統(tǒng)的分類算法的基礎(chǔ)上提出了很

3、多改進算法.如代價敏感、SMOTE重抽樣、改進的SVM、單邊選擇以及被動學習.這些算法概括起來主要在兩個方面做了改進:一是在數(shù)據(jù)層面通過對多數(shù)類的欠抽樣和對少數(shù)類的過抽樣技術(shù)人為改變數(shù)據(jù)集的數(shù)據(jù)分布使之變得類別間基本平衡,然后再采用傳統(tǒng)的分類算法;另一種是保持原有數(shù)據(jù)集的分布特征,在算法層面入手通過調(diào)整各類樣例的訓練權(quán)重以使分類器能更好地照顧少數(shù)類.這些方法雖然在不同的角度做了改進但少數(shù)類的分類精度仍普遍較低,受Valiant的PAC學

4、習模型的啟發(fā)很多專家和學者期望通過集成的方式將類別不平衡數(shù)據(jù)集上的弱學習器組合成可有效提高少數(shù)類分類性能的強學習器.然而傳統(tǒng)集成算法的gma下限與錯誤率之間是開口朝上的二次函數(shù)關(guān)系,單純地降低不平衡數(shù)據(jù)集上的錯誤率并不能有效提高少數(shù)類的分類精度.本文首先回顧了集成學習中的基本知識和主流模型,討論了目前集成學習方法的優(yōu)勢和難點.重點分析了針對類別不平衡數(shù)據(jù)集的各種改進算法.本文作者從關(guān)注錯分的少數(shù)類樣例入手分別在數(shù)據(jù)層面和算法層面提出了兩

5、種改進方案并通過實驗驗證了前一種算法的有效性。
  本文的主要研究工作有:
  1、回顧并總結(jié)了基分類器的各種組合形式,闡釋了各種選擇性集成方式.在已有理論成果的基礎(chǔ)上分析了刀切法和自助法兩種主流重抽樣方法的統(tǒng)計學意義,指出在獨立同分布且矩有限的條件下通過若干次的重抽樣可得到具有良好收斂性的數(shù)據(jù)模型.分析了類別不平衡數(shù)據(jù)集的分布特點,討論了針對類別不平衡數(shù)據(jù)集的分類評價標準,歸納了類別不平衡數(shù)據(jù)集上的改進分類算法.
 

6、 2、基于不平衡數(shù)據(jù)集上的集成學習方案,作者提出了一種新的適用于不平衡數(shù)據(jù)集的算法ILAdaboost.該算法利用每一輪學習到的基分類器對原始數(shù)據(jù)集進行測試評估,并根據(jù)評估結(jié)果將原始數(shù)據(jù)集分成四個互不相交的子集,然后在四個子集中重新采樣形成平衡的數(shù)據(jù)集供下一輪基分類器學習.重抽樣是在四個互不相交的子集中進行的,因此保證了基分類器之間的錯誤獨立性。而抽樣過程中更加傾向于少數(shù)類和分錯的多數(shù)類,故合成分類器的分界面會偏離少數(shù)類.在10個UCI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論