999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容冗余的Web信息抽取

2012-04-12 00:00:00陳夫桂胡文江高永兵

摘要:提出了一種從模板網(wǎng)站中利用網(wǎng)絡(luò)上的冗余內(nèi)容提取結(jié)構(gòu)化數(shù)據(jù)的方法。該算法從一些原始網(wǎng)站提取記錄來填充種子數(shù)據(jù)庫(kù)。然后,在每一個(gè)新的站點(diǎn)標(biāo)識(shí)值,為了配合不同跨站點(diǎn)交涉的屬性值,我們進(jìn)行了相似性度量。同時(shí)為了過濾掉噪聲,我們?cè)谀切┗谀0宓木W(wǎng)站發(fā)現(xiàn)并應(yīng)用了該屬性的實(shí)際值。另外借助SOGOU和NICTCLAS中文分詞等第三方接口來準(zhǔn)確計(jì)算詞頻,使文字分析更適合人們常用的習(xí)慣。

關(guān)鍵詞:Web信息抽取;內(nèi)容冗余;樣本頁面;抽取規(guī)則

中圖分類號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:A

1引言

隨著信息化進(jìn)程的推進(jìn)以及網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的人開始認(rèn)識(shí)到互聯(lián)網(wǎng)作為信息來源的重要性,同時(shí)互聯(lián)網(wǎng)也已經(jīng)融入到了人們生活的方方面面。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第29次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2011年12月底,中國(guó)網(wǎng)民數(shù)量突破5億,達(dá)到5.13億,互聯(lián)網(wǎng)普及率達(dá)到38.3%。然而在發(fā)展的同時(shí)也帶來了一些新的問題,網(wǎng)頁噪聲的加重,許多由查詢數(shù)據(jù)庫(kù)自動(dòng)生成的網(wǎng)頁不能被搜索引擎檢索,從而形成所謂的hidden Web。為解決這些問題Web信息抽取技術(shù)就應(yīng)運(yùn)而生。

Web信息抽取屬于網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)研究的一部分,主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integration)和觀點(diǎn)挖掘(Opinion mining)等,本文是在結(jié)構(gòu)化數(shù)據(jù)抽取的基礎(chǔ)上提出的一種新的提取方法,利用內(nèi)容跨站點(diǎn)之間模板結(jié)構(gòu)上的內(nèi)容冗余提取所要的web信息。

2相關(guān)信息抽取的研究與分析

目前的網(wǎng)頁信息抽取技術(shù), 包括基于歸納學(xué)習(xí)的信息抽取、基于HTML結(jié)構(gòu)解析的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取。其中基于歸納學(xué)習(xí)的信息抽取一般需要大量的訓(xùn)練樣本, 并且由于目前互聯(lián)網(wǎng)動(dòng)態(tài)頁面多、更新時(shí)間快, 所訓(xùn)練的樣本經(jīng)常不能滿足要求; 基于HTML結(jié)構(gòu)解析的信息抽取只是對(duì)網(wǎng)頁的結(jié)構(gòu)進(jìn)行分析, 而網(wǎng)頁是由結(jié)構(gòu)和文本共同構(gòu)成的, 對(duì)抽取內(nèi)容的準(zhǔn)確度造成一定的影響; 基于Web查詢的信息抽取是對(duì)用戶的查詢行為進(jìn)行分析以抽取用戶感興趣的內(nèi)容, 但是用戶查詢目的是為了解決問題, 對(duì)自己所要查詢的內(nèi)容并不確定, 這樣所抽取出的信息并不一定是用戶所需要的。理論上講, 基于自然語言處理的信息抽取能夠?qū)W(wǎng)頁信息進(jìn)行十分準(zhǔn)確的抽取,它主要是關(guān)注網(wǎng)頁的內(nèi)容, 但是需要建立巨大的知識(shí)庫(kù), 由于Web更新速度快, 知識(shí)庫(kù)不能及時(shí)更新, 并且由于知識(shí)庫(kù)非常大, 解析一個(gè)頁面所耗費(fèi)的時(shí)間也比較長(zhǎng), 至今還沒有見到比較好的基于自然語言處理的Web信息抽取系統(tǒng)。

3 基于內(nèi)容冗余的web信息抽取方法

3.1一般信息抽取流程圖其具體步驟如下:

第一步:確立采集目標(biāo),即由用戶選擇目標(biāo)網(wǎng)站。

第二步:提取特征信息,即根據(jù)目標(biāo)網(wǎng)站的網(wǎng)頁格式,提取出采集目標(biāo)數(shù)據(jù)的通性。

第三步:信息獲取,即利用工具自動(dòng)的把頁面中提取的數(shù)據(jù)存到數(shù)據(jù)庫(kù)。

3.2內(nèi)容冗余的web信息抽取方法的設(shè)計(jì)

本方法在提取過程的開始階段是從最初的幾個(gè)網(wǎng)站(如:京東網(wǎng)和趕集網(wǎng))的記錄里填充種子數(shù)據(jù)庫(kù)Apriori。這些記錄是從網(wǎng)站中提取的,由人工編輯的屬性值標(biāo)注在每個(gè)站點(diǎn)的一些樣本頁,并學(xué)習(xí)網(wǎng)站的包裝。注意:在Apriori的種子,每個(gè)記錄包含一個(gè)從一個(gè)單一的實(shí)體頁面的屬性值。我們?cè)趻呙杈W(wǎng)絡(luò)的頁面過程中,找到相匹配的值在種子記錄中的屬性值。具體方法如下:

(1)利用跨站點(diǎn)之間基于模板的結(jié)構(gòu)上的相似性冗余網(wǎng)頁提取屬性值。

(2)為了處理掉跨站點(diǎn)的不同屬性的格式規(guī)定,我們定義了一個(gè)相似度度量的功能。利用基于模板的頁面中的屬性值有一個(gè)模板化的結(jié)構(gòu)這一事實(shí)來提高匹配的精度。我們所提出的度量從兩個(gè)站點(diǎn)發(fā)現(xiàn)重復(fù)模式之間的匹配屬性值對(duì)部分,并使用此過濾掉不匹配的部分,進(jìn)而計(jì)算相似性分?jǐn)?shù)之間的屬性值對(duì)。

(3)為了進(jìn)一步過濾掉有噪聲的匹配,我們用多個(gè)屬性匹配值,并且利用屬性值在同一個(gè)網(wǎng)站頁面的固定位置的事實(shí)來進(jìn)行匹配。

3.3 數(shù)據(jù)環(huán)境以及相關(guān)模塊介紹

我們使用了現(xiàn)實(shí)生活中的兩個(gè)數(shù)據(jù)集覆蓋了兩個(gè)垂直面:餐廳和參考書目。每一個(gè)數(shù)據(jù)集由種子記錄的一個(gè)集合組成,并且從一系列測(cè)試的站點(diǎn)中抓取頁面。我們從屬于每一個(gè)測(cè)試站點(diǎn)的單實(shí)體的頁面中提取種子記錄,并且報(bào)告準(zhǔn)確性和提取物的覆蓋率。我們把屬性分類成核心與非核心的。核心的屬性代表每一個(gè)頁面屬于測(cè)試數(shù)據(jù)集,那么非核心的屬性就是自選的。

整個(gè)操作是基于net4.0架構(gòu)下使用winform顯示界面,ado.net entity framework操作MysqL的數(shù)據(jù)庫(kù),分五個(gè)模塊來實(shí)現(xiàn):

Apriori模塊:實(shí)現(xiàn)NICTCLAS實(shí)現(xiàn)中文分詞,sogou詞庫(kù)分析詞頻,Jaccard系數(shù)方法忽略了不相干的部分的屬性值,提取網(wǎng)絡(luò)信息的冗余內(nèi)容。 Common模塊:管理公共操作對(duì)象。 DataBase模塊:管理數(shù)據(jù)庫(kù)操作,支持MYSQL的操作。 Grab模塊:采集和爬蟲模塊,采集結(jié)構(gòu)化的網(wǎng)站上的內(nèi)容,可以分頁抓取,或抓取當(dāng)前頁面里面相關(guān)型鏈接。ShowUI模塊:顯示結(jié)果界面,顯示網(wǎng)絡(luò)抓取的內(nèi)容和比較的結(jié)果。

3.4實(shí)驗(yàn)結(jié)果

配合不同跨站點(diǎn)交涉的屬性值,用度量發(fā)現(xiàn)了兩個(gè)站點(diǎn)之間的相匹配的模式的屬性值,而且在計(jì)算相似度時(shí)忽略了不相干的部分的屬性值,結(jié)果顯示不相干的屬性被過濾掉,基本符合要求。

結(jié)束語

本系統(tǒng)進(jìn)行基于內(nèi)容冗余的網(wǎng)頁信息抽取, 雖然在一定程度上提高了抽取準(zhǔn)確度, 但是有可能抽取所需要的時(shí)間相對(duì)增長(zhǎng), 影響了抽取信息的速度。如何進(jìn)一步提高抽取的速度和準(zhǔn)確率, 有待進(jìn)一步研究。

參考文獻(xiàn)

[1]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):6-9.

[2]周津.基于XML的網(wǎng)頁信息抽取[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2004.

[3]G Miao etal.Extracting data records from the web using tag path clustering.In WWW,2009.

主站蜘蛛池模板: 欧美日韩综合网| 久久精品国产亚洲AV忘忧草18| 亚洲va视频| 中文字幕在线播放不卡| av午夜福利一片免费看| 五月婷婷综合色| 怡春院欧美一区二区三区免费| 久久人与动人物A级毛片| 久久国产亚洲偷自| 久久国产精品电影| 亚洲av无码成人专区| 国产精品视频第一专区| 福利在线免费视频| 国产精品尤物在线| 欧美日韩中文国产va另类| 91精品网站| 国产一区自拍视频| 一本大道香蕉中文日本不卡高清二区| 欧美h在线观看| 日韩欧美高清视频| 欧美日韩91| 国产在线一区视频| 久久96热在精品国产高清| 国产成人精品高清不卡在线| 亚洲无码A视频在线| 在线播放91| 91成人试看福利体验区| 无码精品国产dvd在线观看9久 | 九九九九热精品视频| 国产激情无码一区二区三区免费| 日本午夜影院| 2018日日摸夜夜添狠狠躁| 欧美午夜小视频| 女人av社区男人的天堂| 欧美黄色a| 亚洲电影天堂在线国语对白| 国产91色在线| 国产成人一区免费观看| 88av在线| 日本黄色不卡视频| 男女男免费视频网站国产| 欧美黄网站免费观看| 香蕉综合在线视频91| 欧美国产综合色视频| 亚洲熟女中文字幕男人总站| 欧美在线导航| 国产国语一级毛片在线视频| 欧美在线视频不卡第一页| 免费国产好深啊好涨好硬视频| 精品福利网| 国产农村妇女精品一二区| 日本在线欧美在线| 国产精品九九视频| 青草视频久久| 色噜噜综合网| 狠狠ⅴ日韩v欧美v天堂| 午夜视频免费试看| 欧美三级自拍| 亚洲AV无码一区二区三区牲色| 制服丝袜亚洲| 免费精品一区二区h| 国产精品久久久久无码网站| 午夜精品福利影院| 欧美成人h精品网站| 性网站在线观看| 中文字幕调教一区二区视频| 88国产经典欧美一区二区三区| 99这里只有精品免费视频| 欧洲成人在线观看| 国产精品短篇二区| 国产素人在线| 亚洲成人www| 特级毛片免费视频| 精品视频91| 久久亚洲国产视频| 国产成人一区免费观看| 亚洲中文字幕久久无码精品A| 国产99精品视频| 天天干天天色综合网| 亚洲日本中文字幕乱码中文 | 成年人国产视频| 欧美a级完整在线观看|