基于本體的可定制化網頁信息智能提取技術研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數(shù)：60 大小：1.45MB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩59頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、WWW上擁有海量、分布、動態(tài)、異質、非結構化的豐富信息資源，但用戶一直沒有合適的途徑獲取它們，而互聯(lián)網傳統(tǒng)的信息檢索的粒度不能滿足客戶的需要，人們迫切需要Web挖掘技術來方便地獲取互聯(lián)網中細粒度，結構化的信息。Web挖掘技術負責從大量的Web文檔和Web活動中發(fā)現(xiàn)、提取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。但現(xiàn)有的Web挖掘系統(tǒng)存在著應用領域小，自動化程度不高的不足，滿足不了復雜數(shù)據(jù)源和數(shù)據(jù)表達方式多樣化下信息提取的

2、需求。論文針對現(xiàn)有Web挖掘系統(tǒng)所存在的問題，提出一種基于本體論的網頁信息提取算法，并成功地應用到UT斯達康手機信息服務系統(tǒng)中。算法基于HTML結構，結合本體論，能夠自動分析網頁結構并提取數(shù)據(jù)，具有高度魯棒性和適應性。第一章首先敘述了信息提取技術意義與本文的研究背景，進而提出本文的研究內容。第二章介紹了信息提取技術的發(fā)展過程，簡要介紹了傳統(tǒng)信息提取技術的方法以及代表性系統(tǒng)，對它們的優(yōu)缺點進行了分析。同時介紹

3、了本體論的概念，以及本體論在信息提取領域相關的一些工作。第三章對系統(tǒng)所采用的本體模型ORM進行了闡述。系統(tǒng)采用對象關系模型(ORM)構造目標本體，通過解析本體描述，可以獲得目標數(shù)據(jù)的結構，描述方式，以及數(shù)據(jù)庫模式，為信息提取做好數(shù)據(jù)準備。第四章提出了基于本體論的網頁去噪技術。通過構造網頁標簽樹并對其進行簡化統(tǒng)計得到網頁結構樹，在此基礎上，利用網頁間結構塊的相似性和頁面內噪音結構塊的特征來排除網頁噪音，提高信息提取的準

4、確性。第五章在網頁結構樹的基礎上給出了基于本體論的信息提取算法。利用最大扇出樹，并結合改進的啟發(fā)式規(guī)則，尋找出網頁數(shù)據(jù)區(qū)，最后利用本體論進行記錄的劃分和記錄的分解提取，并將提取的信息按本體描述保存到數(shù)據(jù)庫中。第六章介紹了信息提取系統(tǒng)的實現(xiàn)，給出了系統(tǒng)的體系結構，并使用業(yè)界標準評價體系對系統(tǒng)進行測試，測試結果表明系統(tǒng)在性能上與同類產品存在一定的優(yōu)勢，驗證論文在系統(tǒng)性能方面的改進工作。第七章總結了本文的研究成果

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于本體的可定制化網頁信息智能提取技術研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于本體的可定制化網頁信息智能提取技術研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載