基于內(nèi)容冗余的Web信息抽取

2012-04-12 00:00:00陳夫桂胡文江高永兵郝斌

中國(guó)新技術(shù)新產(chǎn)品 2012年6期

摘要：提出了一種從模板網(wǎng)站中利用網(wǎng)絡(luò)上的冗余內(nèi)容提取結(jié)構(gòu)化數(shù)據(jù)的方法。該算法從一些原始網(wǎng)站提取記錄來填充種子數(shù)據(jù)庫(kù)。然后，在每一個(gè)新的站點(diǎn)標(biāo)識(shí)值，為了配合不同跨站點(diǎn)交涉的屬性值，我們進(jìn)行了相似性度量。同時(shí)為了過濾掉噪聲，我們?cè)谀切┗谀０宓木W(wǎng)站發(fā)現(xiàn)并應(yīng)用了該屬性的實(shí)際值。另外借助SOGOU和NICTCLAS中文分詞等第三方接口來準(zhǔn)確計(jì)算詞頻，使文字分析更適合人們常用的習(xí)慣。

關(guān)鍵詞：Web信息抽取；內(nèi)容冗余；樣本頁面；抽取規(guī)則

中圖分類號(hào)：TP31文獻(xiàn)標(biāo)識(shí)碼：A

1引言

隨著信息化進(jìn)程的推進(jìn)以及網(wǎng)絡(luò)技術(shù)的發(fā)展，越來越多的人開始認(rèn)識(shí)到互聯(lián)網(wǎng)作為信息來源的重要性，同時(shí)互聯(lián)網(wǎng)也已經(jīng)融入到了人們生活的方方面面。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第29次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示，截至2011年12月底，中國(guó)網(wǎng)民數(shù)量突破5億，達(dá)到5.13億，互聯(lián)網(wǎng)普及率達(dá)到38.3%。然而在發(fā)展的同時(shí)也帶來了一些新的問題，網(wǎng)頁噪聲的加重，許多由查詢數(shù)據(jù)庫(kù)自動(dòng)生成的網(wǎng)頁不能被搜索引擎檢索，從而形成所謂的hidden Web。為解決這些問題Web信息抽取技術(shù)就應(yīng)運(yùn)而生。

Web信息抽取屬于網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)研究的一部分，主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integration)和觀點(diǎn)挖掘(Opinion mining)等，本文是在結(jié)構(gòu)化數(shù)據(jù)抽取的基礎(chǔ)上提出的一種新的提取方法，利用內(nèi)容跨站點(diǎn)之間模板結(jié)構(gòu)上的內(nèi)容冗余提取所要的web信息。

2相關(guān)信息抽取的研究與分析

目前的網(wǎng)頁信息抽取技術(shù)，包括基于歸納學(xué)習(xí)的信息抽取、基于HTML結(jié)構(gòu)解析的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取。其中基于歸納學(xué)習(xí)的信息抽取一般需要大量的訓(xùn)練樣本，并且由于目前互聯(lián)網(wǎng)動(dòng)態(tài)頁面多、更新時(shí)間快，所訓(xùn)練的樣本經(jīng)常不能滿足要求; 基于HTML結(jié)構(gòu)解析的信息抽取只是對(duì)網(wǎng)頁的結(jié)構(gòu)進(jìn)行分析，而網(wǎng)頁是由結(jié)構(gòu)和文本共同構(gòu)成的，對(duì)抽取內(nèi)容的準(zhǔn)確度造成一定的影響; 基于Web查詢的信息抽取是對(duì)用戶的查詢行為進(jìn)行分析以抽取用戶感興趣的內(nèi)容，但是用戶查詢目的是為了解決問題，對(duì)自己所要查詢的內(nèi)容并不確定，這樣所抽取出的信息并不一定是用戶所需要的。理論上講，基于自然語言處理的信息抽取能夠?qū)W(wǎng)頁信息進(jìn)行十分準(zhǔn)確的抽取，它主要是關(guān)注網(wǎng)頁的內(nèi)容，但是需要建立巨大的知識(shí)庫(kù)，由于Web更新速度快，知識(shí)庫(kù)不能及時(shí)更新，并且由于知識(shí)庫(kù)非常大，解析一個(gè)頁面所耗費(fèi)的時(shí)間也比較長(zhǎng)，至今還沒有見到比較好的基于自然語言處理的Web信息抽取系統(tǒng)。

3 基于內(nèi)容冗余的web信息抽取方法

3.1一般信息抽取流程圖其具體步驟如下：

第一步：確立采集目標(biāo)，即由用戶選擇目標(biāo)網(wǎng)站。

第二步：提取特征信息，即根據(jù)目標(biāo)網(wǎng)站的網(wǎng)頁格式，提取出采集目標(biāo)數(shù)據(jù)的通性。

第三步：信息獲取，即利用工具自動(dòng)的把頁面中提取的數(shù)據(jù)存到數(shù)據(jù)庫(kù)。

3.2內(nèi)容冗余的web信息抽取方法的設(shè)計(jì)

本方法在提取過程的開始階段是從最初的幾個(gè)網(wǎng)站（如：京東網(wǎng)和趕集網(wǎng)）的記錄里填充種子數(shù)據(jù)庫(kù)Apriori。這些記錄是從網(wǎng)站中提取的，由人工編輯的屬性值標(biāo)注在每個(gè)站點(diǎn)的一些樣本頁，并學(xué)習(xí)網(wǎng)站的包裝。注意：在Apriori的種子，每個(gè)記錄包含一個(gè)從一個(gè)單一的實(shí)體頁面的屬性值。我們?cè)趻呙杈W(wǎng)絡(luò)的頁面過程中，找到相匹配的值在種子記錄中的屬性值。具體方法如下：

（1）利用跨站點(diǎn)之間基于模板的結(jié)構(gòu)上的相似性冗余網(wǎng)頁提取屬性值。

（2）為了處理掉跨站點(diǎn)的不同屬性的格式規(guī)定，我們定義了一個(gè)相似度度量的功能。利用基于模板的頁面中的屬性值有一個(gè)模板化的結(jié)構(gòu)這一事實(shí)來提高匹配的精度。我們所提出的度量從兩個(gè)站點(diǎn)發(fā)現(xiàn)重復(fù)模式之間的匹配屬性值對(duì)部分，并使用此過濾掉不匹配的部分，進(jìn)而計(jì)算相似性分?jǐn)?shù)之間的屬性值對(duì)。

（3）為了進(jìn)一步過濾掉有噪聲的匹配，我們用多個(gè)屬性匹配值，并且利用屬性值在同一個(gè)網(wǎng)站頁面的固定位置的事實(shí)來進(jìn)行匹配。

3.3 數(shù)據(jù)環(huán)境以及相關(guān)模塊介紹

我們使用了現(xiàn)實(shí)生活中的兩個(gè)數(shù)據(jù)集覆蓋了兩個(gè)垂直面：餐廳和參考書目。每一個(gè)數(shù)據(jù)集由種子記錄的一個(gè)集合組成，并且從一系列測(cè)試的站點(diǎn)中抓取頁面。我們從屬于每一個(gè)測(cè)試站點(diǎn)的單實(shí)體的頁面中提取種子記錄，并且報(bào)告準(zhǔn)確性和提取物的覆蓋率。我們把屬性分類成核心與非核心的。核心的屬性代表每一個(gè)頁面屬于測(cè)試數(shù)據(jù)集，那么非核心的屬性就是自選的。

整個(gè)操作是基于net4.0架構(gòu)下使用winform顯示界面，ado.net entity framework操作MysqL的數(shù)據(jù)庫(kù)，分五個(gè)模塊來實(shí)現(xiàn)：

Apriori模塊：實(shí)現(xiàn)NICTCLAS實(shí)現(xiàn)中文分詞，sogou詞庫(kù)分析詞頻，Jaccard系數(shù)方法忽略了不相干的部分的屬性值，提取網(wǎng)絡(luò)信息的冗余內(nèi)容。 Common模塊：管理公共操作對(duì)象。 DataBase模塊：管理數(shù)據(jù)庫(kù)操作，支持MYSQL的操作。 Grab模塊：采集和爬蟲模塊，采集結(jié)構(gòu)化的網(wǎng)站上的內(nèi)容，可以分頁抓取，或抓取當(dāng)前頁面里面相關(guān)型鏈接。ShowUI模塊：顯示結(jié)果界面，顯示網(wǎng)絡(luò)抓取的內(nèi)容和比較的結(jié)果。

3.4實(shí)驗(yàn)結(jié)果

配合不同跨站點(diǎn)交涉的屬性值，用度量發(fā)現(xiàn)了兩個(gè)站點(diǎn)之間的相匹配的模式的屬性值，而且在計(jì)算相似度時(shí)忽略了不相干的部分的屬性值，結(jié)果顯示不相干的屬性被過濾掉，基本符合要求。

結(jié)束語

本系統(tǒng)進(jìn)行基于內(nèi)容冗余的網(wǎng)頁信息抽取，雖然在一定程度上提高了抽取準(zhǔn)確度，但是有可能抽取所需要的時(shí)間相對(duì)增長(zhǎng)，影響了抽取信息的速度。如何進(jìn)一步提高抽取的速度和準(zhǔn)確率，有待進(jìn)一步研究。

參考文獻(xiàn)

[1]劉遷，焦慧，賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究，2007，24(7)：6-9.

[2]周津.基于XML的網(wǎng)頁信息抽取[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)，2004.

[3]G Miao etal.Extracting data records from the web using tag path clustering.In WWW，2009.

中國(guó)新技術(shù)新產(chǎn)品2012年6期

中國(guó)新技術(shù)新產(chǎn)品的其它文章: 淺談施工平面布置的合理性; 靜壓預(yù)應(yīng)力混凝土管樁施工淺談; 淺談公路工程施工現(xiàn)場(chǎng)管理與工程質(zhì)量之間的關(guān)系; 水泥乳化瀝青砂漿在高鐵上的應(yīng)用; QC8500型流動(dòng)注射分析儀測(cè)定水中氰化物的研究; TRM渦輪鉆具在方13井的試驗(yàn)研究