999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容冗余的Web信息抽取

2012-04-12 00:00:00陳夫桂胡文江高永兵

摘要:提出了一種從模板網(wǎng)站中利用網(wǎng)絡(luò)上的冗余內(nèi)容提取結(jié)構(gòu)化數(shù)據(jù)的方法。該算法從一些原始網(wǎng)站提取記錄來填充種子數(shù)據(jù)庫(kù)。然后,在每一個(gè)新的站點(diǎn)標(biāo)識(shí)值,為了配合不同跨站點(diǎn)交涉的屬性值,我們進(jìn)行了相似性度量。同時(shí)為了過濾掉噪聲,我們?cè)谀切┗谀0宓木W(wǎng)站發(fā)現(xiàn)并應(yīng)用了該屬性的實(shí)際值。另外借助SOGOU和NICTCLAS中文分詞等第三方接口來準(zhǔn)確計(jì)算詞頻,使文字分析更適合人們常用的習(xí)慣。

關(guān)鍵詞:Web信息抽取;內(nèi)容冗余;樣本頁面;抽取規(guī)則

中圖分類號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:A

1引言

隨著信息化進(jìn)程的推進(jìn)以及網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的人開始認(rèn)識(shí)到互聯(lián)網(wǎng)作為信息來源的重要性,同時(shí)互聯(lián)網(wǎng)也已經(jīng)融入到了人們生活的方方面面。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第29次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2011年12月底,中國(guó)網(wǎng)民數(shù)量突破5億,達(dá)到5.13億,互聯(lián)網(wǎng)普及率達(dá)到38.3%。然而在發(fā)展的同時(shí)也帶來了一些新的問題,網(wǎng)頁噪聲的加重,許多由查詢數(shù)據(jù)庫(kù)自動(dòng)生成的網(wǎng)頁不能被搜索引擎檢索,從而形成所謂的hidden Web。為解決這些問題Web信息抽取技術(shù)就應(yīng)運(yùn)而生。

Web信息抽取屬于網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)研究的一部分,主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integration)和觀點(diǎn)挖掘(Opinion mining)等,本文是在結(jié)構(gòu)化數(shù)據(jù)抽取的基礎(chǔ)上提出的一種新的提取方法,利用內(nèi)容跨站點(diǎn)之間模板結(jié)構(gòu)上的內(nèi)容冗余提取所要的web信息。

2相關(guān)信息抽取的研究與分析

目前的網(wǎng)頁信息抽取技術(shù), 包括基于歸納學(xué)習(xí)的信息抽取、基于HTML結(jié)構(gòu)解析的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取。其中基于歸納學(xué)習(xí)的信息抽取一般需要大量的訓(xùn)練樣本, 并且由于目前互聯(lián)網(wǎng)動(dòng)態(tài)頁面多、更新時(shí)間快, 所訓(xùn)練的樣本經(jīng)常不能滿足要求; 基于HTML結(jié)構(gòu)解析的信息抽取只是對(duì)網(wǎng)頁的結(jié)構(gòu)進(jìn)行分析, 而網(wǎng)頁是由結(jié)構(gòu)和文本共同構(gòu)成的, 對(duì)抽取內(nèi)容的準(zhǔn)確度造成一定的影響; 基于Web查詢的信息抽取是對(duì)用戶的查詢行為進(jìn)行分析以抽取用戶感興趣的內(nèi)容, 但是用戶查詢目的是為了解決問題, 對(duì)自己所要查詢的內(nèi)容并不確定, 這樣所抽取出的信息并不一定是用戶所需要的。理論上講, 基于自然語言處理的信息抽取能夠?qū)W(wǎng)頁信息進(jìn)行十分準(zhǔn)確的抽取,它主要是關(guān)注網(wǎng)頁的內(nèi)容, 但是需要建立巨大的知識(shí)庫(kù), 由于Web更新速度快, 知識(shí)庫(kù)不能及時(shí)更新, 并且由于知識(shí)庫(kù)非常大, 解析一個(gè)頁面所耗費(fèi)的時(shí)間也比較長(zhǎng), 至今還沒有見到比較好的基于自然語言處理的Web信息抽取系統(tǒng)。

3 基于內(nèi)容冗余的web信息抽取方法

3.1一般信息抽取流程圖其具體步驟如下:

第一步:確立采集目標(biāo),即由用戶選擇目標(biāo)網(wǎng)站。

第二步:提取特征信息,即根據(jù)目標(biāo)網(wǎng)站的網(wǎng)頁格式,提取出采集目標(biāo)數(shù)據(jù)的通性。

第三步:信息獲取,即利用工具自動(dòng)的把頁面中提取的數(shù)據(jù)存到數(shù)據(jù)庫(kù)。

3.2內(nèi)容冗余的web信息抽取方法的設(shè)計(jì)

本方法在提取過程的開始階段是從最初的幾個(gè)網(wǎng)站(如:京東網(wǎng)和趕集網(wǎng))的記錄里填充種子數(shù)據(jù)庫(kù)Apriori。這些記錄是從網(wǎng)站中提取的,由人工編輯的屬性值標(biāo)注在每個(gè)站點(diǎn)的一些樣本頁,并學(xué)習(xí)網(wǎng)站的包裝。注意:在Apriori的種子,每個(gè)記錄包含一個(gè)從一個(gè)單一的實(shí)體頁面的屬性值。我們?cè)趻呙杈W(wǎng)絡(luò)的頁面過程中,找到相匹配的值在種子記錄中的屬性值。具體方法如下:

(1)利用跨站點(diǎn)之間基于模板的結(jié)構(gòu)上的相似性冗余網(wǎng)頁提取屬性值。

(2)為了處理掉跨站點(diǎn)的不同屬性的格式規(guī)定,我們定義了一個(gè)相似度度量的功能。利用基于模板的頁面中的屬性值有一個(gè)模板化的結(jié)構(gòu)這一事實(shí)來提高匹配的精度。我們所提出的度量從兩個(gè)站點(diǎn)發(fā)現(xiàn)重復(fù)模式之間的匹配屬性值對(duì)部分,并使用此過濾掉不匹配的部分,進(jìn)而計(jì)算相似性分?jǐn)?shù)之間的屬性值對(duì)。

(3)為了進(jìn)一步過濾掉有噪聲的匹配,我們用多個(gè)屬性匹配值,并且利用屬性值在同一個(gè)網(wǎng)站頁面的固定位置的事實(shí)來進(jìn)行匹配。

3.3 數(shù)據(jù)環(huán)境以及相關(guān)模塊介紹

我們使用了現(xiàn)實(shí)生活中的兩個(gè)數(shù)據(jù)集覆蓋了兩個(gè)垂直面:餐廳和參考書目。每一個(gè)數(shù)據(jù)集由種子記錄的一個(gè)集合組成,并且從一系列測(cè)試的站點(diǎn)中抓取頁面。我們從屬于每一個(gè)測(cè)試站點(diǎn)的單實(shí)體的頁面中提取種子記錄,并且報(bào)告準(zhǔn)確性和提取物的覆蓋率。我們把屬性分類成核心與非核心的。核心的屬性代表每一個(gè)頁面屬于測(cè)試數(shù)據(jù)集,那么非核心的屬性就是自選的。

整個(gè)操作是基于net4.0架構(gòu)下使用winform顯示界面,ado.net entity framework操作MysqL的數(shù)據(jù)庫(kù),分五個(gè)模塊來實(shí)現(xiàn):

Apriori模塊:實(shí)現(xiàn)NICTCLAS實(shí)現(xiàn)中文分詞,sogou詞庫(kù)分析詞頻,Jaccard系數(shù)方法忽略了不相干的部分的屬性值,提取網(wǎng)絡(luò)信息的冗余內(nèi)容。 Common模塊:管理公共操作對(duì)象。 DataBase模塊:管理數(shù)據(jù)庫(kù)操作,支持MYSQL的操作。 Grab模塊:采集和爬蟲模塊,采集結(jié)構(gòu)化的網(wǎng)站上的內(nèi)容,可以分頁抓取,或抓取當(dāng)前頁面里面相關(guān)型鏈接。ShowUI模塊:顯示結(jié)果界面,顯示網(wǎng)絡(luò)抓取的內(nèi)容和比較的結(jié)果。

3.4實(shí)驗(yàn)結(jié)果

配合不同跨站點(diǎn)交涉的屬性值,用度量發(fā)現(xiàn)了兩個(gè)站點(diǎn)之間的相匹配的模式的屬性值,而且在計(jì)算相似度時(shí)忽略了不相干的部分的屬性值,結(jié)果顯示不相干的屬性被過濾掉,基本符合要求。

結(jié)束語

本系統(tǒng)進(jìn)行基于內(nèi)容冗余的網(wǎng)頁信息抽取, 雖然在一定程度上提高了抽取準(zhǔn)確度, 但是有可能抽取所需要的時(shí)間相對(duì)增長(zhǎng), 影響了抽取信息的速度。如何進(jìn)一步提高抽取的速度和準(zhǔn)確率, 有待進(jìn)一步研究。

參考文獻(xiàn)

[1]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):6-9.

[2]周津.基于XML的網(wǎng)頁信息抽取[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2004.

[3]G Miao etal.Extracting data records from the web using tag path clustering.In WWW,2009.

主站蜘蛛池模板: 国产亚洲欧美在线中文bt天堂| 国产成人高清精品免费| 亚洲AV无码久久精品色欲| 全色黄大色大片免费久久老太| 亚洲高清日韩heyzo| 欧美视频在线第一页| 伊人婷婷色香五月综合缴缴情| 美女无遮挡被啪啪到高潮免费| 免费无码网站| 日本人妻丰满熟妇区| 免费激情网址| 思思热精品在线8| 自拍欧美亚洲| 综合色天天| 国内精品久久久久久久久久影视| 狠狠v日韩v欧美v| 亚洲精品手机在线| 欧美天天干| 欧美午夜在线播放| 日韩小视频在线播放| 亚洲人成日本在线观看| 亚洲性一区| 亚洲另类色| 日韩第一页在线| 国产精品性| 天天综合网在线| 亚洲Av激情网五月天| 亚洲综合专区| 在线视频亚洲色图| 一级毛片a女人刺激视频免费| 欧美性色综合网| 国产精品短篇二区| 97视频在线观看免费视频| 97在线碰| 国产精品55夜色66夜色| 免费A∨中文乱码专区| 欧洲亚洲一区| 免费一级全黄少妇性色生活片| 亚洲无码精彩视频在线观看| 欧美不卡视频在线观看| 在线不卡免费视频| 无码AV动漫| 黄色网页在线播放| 欧美伦理一区| 乱人伦视频中文字幕在线| 日韩欧美中文在线| 国产欧美日韩专区发布| 欧美、日韩、国产综合一区| 青青国产视频| 激情综合图区| 97久久精品人人做人人爽| 少妇精品网站| 国产在线拍偷自揄拍精品| 女人18毛片久久| 小13箩利洗澡无码视频免费网站| 亚洲成人免费在线| 中文字幕在线日韩91| 久久伊人色| 日韩国产一区二区三区无码| 午夜精品福利影院| 中国国产A一级毛片| 欧美a在线| 国产在线无码一区二区三区| 久久黄色免费电影| 亚洲国产成人久久精品软件| 69国产精品视频免费| 国产一级α片| 综合色天天| 亚洲欧美日韩另类在线一| 精品在线免费播放| 国产精品无码久久久久久| 精品1区2区3区| 无码精品国产VA在线观看DVD| 老色鬼欧美精品| 国产欧美专区在线观看| 亚洲精品无码抽插日韩| 婷婷色婷婷| 日本午夜在线视频| www.99在线观看| 91蜜芽尤物福利在线观看| 无码AV高清毛片中国一级毛片| 激情無極限的亚洲一区免费|