基于標記窗的網頁正文信息提取方法

2007-01-01 00:00:00趙欣欣索紅光劉玉樹

計算機應用研究 2007年3期

摘要：提出了基于標記窗的網頁正文信息提取方法。該方法不僅適合于處理一個網頁中所有正文信息均放在一個td 中的情況，也適合于處理網頁正文放在多個td中的情況，還可以處理網頁正文文字短到與網頁其余部分文字（如廣告、導航條、版權）長度相當的情況。尤其重要的是，它能夠解決非Table 結構的網頁正文提取問題。實驗表明，該方法可以提高網頁正文提取的準確率，適用性強。

關鍵詞：標記窗；提??；文檔對象模型

中圖分類號：TP391文獻標志碼：A

文章編號：1001—3695(2007)03—0144—02

信息抽取（Information Extraction）技術是近十幾年發展起來的新領域，它起源于文本理解，屬自然語言處理研究的領域。信息抽取是直接從自然語言文本中抽取事實信息，并以結構化形式描述信息，適用于信息查詢、文本深層挖掘、問題自動回答等方面的應用。Web信息進行抽?。╓eb Information Extraction，WebIE）是將Web作為信息源的信息抽取，其核心是抽取分散在Internet上的半結構化的HTML頁面中隱含的信息。

萬維網飛速發展，其上的信息源隨之日益豐富。但是，Web頁面中經常含有廣告鏈接、導航條、版權等非網頁主題信息的內容，頁面所要表達的主要信息經常被隱藏在無關的內容和結構中，限制了Web 信息的可利用性。正確提取網頁正文信息，實際上就是提取出頁面要表達的主要內容。它是信息搜索（Information Search）、數據挖掘（Data Mining）、機器翻譯（Machine Translation）和文本摘要（Text Digest）等Web信息處理的基礎。

1 相關工作

傳統的網頁數據抽取方法通常是由包裝器（Wrapper）完成的，但是，獲取包裝器中信息模式識別的知識是一個瓶頸問題。采用半自動化方法獲取知識規則的XWRAP系統在進行網頁抽取前，檢查網頁并進行預處理，最后將網頁表示成一棵樹[1]。

王琦等人[2]基于DOM規范，提出了基于語義信息的STU—DOM樹模型，將HTML 文檔轉換為STU—DOM 樹，并對其進行基于結構的過濾和基于語義的剪枝，完成了對網頁主題信息的提取。

文獻[3]提出在字符集中的區域提取文字的方法。該方法僅適合于主題文字集中的網頁，不能提取在文字中間出現表格或鏈接等結構的文字。

Kristina Lerman等人[4]提出了通過對行和列的分組，從List和Table中自動提取Web數據的方法。但它只在一些假定條件成立的情況下才能進行，并且需要分析許多網頁之后，才能從單一的一個List中提出信息。 

崔繼馨等人[5]提出了基于DOM的Web信息抽取方法。該方法采用人工方式對樣本頁面附加語義信息，然后對樣本頁面中的樣本記錄進行標記，并通過機器學習的方法產生信息抽取規則；利用這些規則完成對相似結構網頁的信息抽取。由于該方法需要人工參與，使得系統的可用性降低。

文獻[6]提出了基于統計的網頁正文信息提取方法。它根據網頁中的HTML標記將網頁表示成一棵樹，然后利用樹中的每個節點包含的中文字節數從中選擇包含正文信息的節點。該方法適用于網頁中所有正文信息均放在一個td（td是HTML語言提供的表格標記）中的情況下的網頁正文提取。

通過分析可知，現存的大多數網頁正文提取方法不能處理網頁正文部分被存放在多個td 中的情況；不能處理一個td中含有不同內容的情況，即不能處理一個td中存放的不僅僅是網頁正文的情況；不能處理網頁正文文字長度很短，短到與網頁其余部分文字（如廣告、導航條）長度相當的特殊情況。而且，大多數方法均限于提取存放在td中的網頁正文信息。但經過統計，存在大量未采用Table 結構存放正文信息的網頁，對于這種情況，上述方法都無能為力。基于此，本文提出了基于標記窗（Tag Window）的網頁正文獲取方法來解決上述問題。

2 基于標記窗的網頁正文提取方法

基于標記窗提取網頁正文信息的方法不僅適合于處理一個網頁中所有正文信息均放在一個td 中的情況，也適合于處理網頁正文放在多個td中的情況。尤其重要的是，它能夠解決非Table 結構的網頁正文提取問題。其實現簡單，通用性好。

定義稱HTML中成對出現的標記為標記對，稱HTML格式的網頁中出現在Title之后的顯示內容非空的標記對為標記窗。

基于標記窗提取網頁正文信息的方法流程圖如圖1所示。具體步驟如下：

（1）對網頁進行規范化處理。如果一個網頁滿足如下條件[6]，則它是規范化的網頁：

①在除了網頁標記tag外的地方出現的“〈”和“〉”用lt；和gt；代替。

②所有標記的屬性值放在引號中，如〈a herf=\"www.bit.edu.cn\"〉。

③所有的標記都是匹配的，即每個開始標記均對應著一個結束標記，如〈body〉和〈/body〉。

④所有的標記都是正確嵌套的，如〈a〉…〈b〉…〈/b〉…〈/a〉。

對于標記嵌套的情況，先處理最里層的標記對，抽取其中的正文，并且清除此標記對及其中間的正文；然后處理外一層的標記對，依此類推。

下面用一個實際的例子來說明基于標記窗提取網頁正文內容的方法。該例子所用的網頁是http://weather.sina.com.cn/news/2005/1216/12339.html，該網頁的標題是“新疆發布大霧黃色預警信號”。

過濾掉該網頁對應的HTML文件中顯示內容為空的標記對后，用得到的標記窗中的四個標記窗為例進行說明。對每個標記窗分詞之后得到詞序列（僅保留實詞）及標題詞序列與它們之間的距離，如表1所示。按照前述算法，應該提取標記窗1—3中的文字信息，舍棄4中的信息。

3 實驗與結果分析

為了考查本文提出方法的實際效果，隨機選擇來自www.sina.com.cn，www.sohu.com，www.bit.edu.cn，www.people.com和www.mop.gov.cn網站的788個網頁進行實驗。實驗結果如表2所示。正確提取的網頁數是指將網頁的全部正文信息正確提取出來的網頁個數；錯提、少提正文信息的網頁都是錯誤提取的網頁。準確率=正確提取的網頁數/網頁總數。

通過對結果的分析發現，之所以會出現對網頁正文信息的錯提、少提，是因為網頁設計者想法的不同，導致他們可能使用一些修辭手法，如比喻、擬人等手法吸引Web訪問者的瀏覽注意力。這樣就導致了標題詞序列中的詞根本沒有在網頁正文中出現，造成了對網頁正文信息的錯誤提取，影響了網頁正文信息提取的準確率。

4 結束語

Web上的數據抽取技術是目前點的熱研究方向。雖然國內外的研究在一些技術上較為成熟和完善，但仍沒有一個產品或系統能在各方面符合人們對Web信息抽取的要求。隨著新技術和新思想的介入，Web信息抽取技術處于不斷的更新和發展中。本文提出的基于標記窗的網頁正文提取方法解決了網頁正文存放在多個td中的情況和網頁正文文字短的網頁正文提取問題。尤其重要的是，它能夠解決非Table 結構的網頁正文提取問題。與文獻[2，6]不同的是，本方法無須將網頁表示成一棵樹，只需利用正則表達式，就可以直接提取出網頁中標記對之間的正文，這大大降低了算法的復雜度。實驗表明，該方法性能好、適用性強。下一步的工作就是將語義信息結合到該方法中，更好地“理解”網頁，進一步提高Web網頁正文信息提取的準確率。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

計算機應用研究2007年3期

計算機應用研究的其它文章: 基于小波分析與方向模板的ＳＡＲ圖像融合技術研究; 一種基于粒子群算法的移動機器人路徑規劃方法; 基于用戶知識的中文電子郵件分類; ＭＱＰＳＯ：一種具有多群體與多階段的ＱＰＳＯ算法; 稀疏紋理的特征提取和分類研究; 軟件測試用例生成中的前置條件分析