基于文本標點密度連續和的網頁正文抽取

2020-02-14 05:58:28湯佳杰曹永忠顧浩

計算機時代 2020年1期

湯佳杰曹永忠顧浩

摘 ?要：為了簡化網頁正文抽取操作與提高網頁正文抽取的準確性，提出了一種基于文本標點密度連續和的抽取方法（TPDS）。TPDS基于網頁中文本標點分布的密度并計算密度的連續和，選取所有文本塊中連續和最大的文本塊，將其確定為網頁最佳文本塊并抽取正文內容。從不同的門戶網站隨機選取的網頁作為測試數據集，實驗結果表明，TPDS可有效過濾網頁噪聲信息得到正文內容。該方法在不同網頁上具有很好的適用性，抽取性能優于CETR、CETD、CEPR和CETD-TPC算法。

關鍵詞：正文抽取; 文本密度; 標點分布; 標簽樹

中圖分類號：TP391 ? ? ? ? ?文獻標識碼：A ? ? 文章編號：1006-8228（2020）01-69-04

Abstract： In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction， a method based on text punctuation density continuous sum extraction （TPDS） is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected， which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content， and the method has good applicability on different webpage， and the extraction performance is better than CETR， CETD ， CEPR and CETD-TPC algorithms.

Key words： content extraction; text density; punctuation distribution; tag tree

0 引言

Web技術快速發展，Web網頁成為信息發布的主要載體。中國互聯網絡中心發布第43次《中國互聯網絡發展狀況統計報告》[1]指出，我國網民規模達8.29億，互聯網普及率達到59.6%;網站數量為523萬個，網頁數量為2816億個。Web網頁數量如此龐大，顯然無法依靠人工抽取所有網頁主體信息，而需要通過計算機來輔助完成網頁信息抽取。但是Web網頁中除了主體信息外，還包括大量的噪聲信息[2]，如商家廣告、興趣內容推薦、網頁導航欄目等。

大量的網頁噪聲數據會導致在檢索網頁主體信息時的操作變得困難和復雜，不利于后期的管理與分析。因此在對網頁進行爬取時，需要對噪聲信息進行過濾，以保證能夠得到正確的網頁主體信息。

隨著互聯網技術的不斷發展，CSS、JavaScript技術的廣泛應用，不同的網頁結構呈現出多樣化與個性化特點，這使得Web信息抽取工作難上加難。通過研究發現，Web網頁結構中的文本布局具有如下的表現：

⑴ Web網頁中正文部分集中在網頁的三分之一到三分之二處，這段內網頁的某些標簽將會反復出現，且其中文本內容較長，文本塊較多，含有的標點符號也相應增加;

⑵ Web網頁中噪聲部分一般處于網頁的邊緣地區，多為短文本、圖片以及大量的超鏈接，噪聲塊的文本標點密度連續小;

⑶ Web網頁中正文內容多分布在相同類型的標簽中，其主要內容節點之間是連續的，連續內容節點共享同一個父節點。

1 相關工作

Web信息抽取主要是將網頁中半結構化的文本數據抽取出來，轉換為結構化信息，使之能夠為其他系統所利用。近年來，隨著人們對Web網頁正文信息提取需求的不斷增加，國內外眾多研究人員提出許多解決方案。

基于包裝器的方法是首先由人工制定好抽取規則，然后使用程序依據規則返回規定格式的數據完成信息抽取。手工構建包裝器可以解決特定網站的信息抽取問題，但是無法適應不同的網頁結構，不同網站都需要依據其網頁結構重新構造包裝器規則，費時費力。

為了解決人工構建的包裝器的不足，人們提出了基于模式匹配的方法。姬鑫等[3]人實現了基于模板頁的相同噪音塊清洗方法和基于class 屬性的同類噪音塊和特殊噪音塊清洗方法，在此基礎上提出基于起始塊和終止塊的新聞內容抽取方法，但未實現對分頁新聞內容的抽取。Hassan A.Sleiman等[4]人實現了模式匹配的抽取算法，該算法不依賴于提取規則，無監督地進行信息抽取。

李偉男等[5]人基于視覺的網頁分割算法VIPS提出了使用模擬退火算法改進的二階隱馬爾可夫模型得到最優模型參數，結合改進的Viterbi算法獲取最佳狀態序列的Web信息抽取方法。劉利等[6]人設計的WIEHF方法利用DOM樹計算出容器標簽的PSD、TSD、SD，對元素進行篩選，根據元素在內容里的出現頻率與標點符號找出網頁正文。

針對上述問題，本文設計的TPDS算法利用DOM樹將網頁分割成多個不同的塊區域，通過計算不同塊的文本標點分布密度連續和，選取最大連續和對應的文本塊為最佳文本塊，實現了一種簡單、有效的抽取方式。該方法不需要進行訓練且無須人工參與，可以適用于不同的網頁結構，通過在不同的數據集上的測試，驗證了算法具有良好的抽取性能。

2 基于文本標點密度連續和的抽取算法

基于文本標點密度連續和的網頁正文抽取算法的主要流程如圖1所示。主要分為網頁預處理、算法特征值計算和信息抽取三個步驟。

2.1 預處理

在網頁DOM結構中，網頁被表示為一組標簽并且標簽之間具有層次關系。根據標簽的不同功能，將html標簽分為如下四類[7]：交互標簽、樣式標簽、網頁描述標簽、容器標簽。

在進行網頁特征計算之前，需要對目標網頁的標簽進行過濾，在網頁正文內容的抽取過程中，一般只需要操作容器標簽，其他類型的標簽（如交互標簽，樣式標簽，網頁描述標簽）將被過濾掉。

2.2 文本標點密度連續和特征

定義1 DOM塊：DB（v）是以節點v為根節點的子樹，其中v為非文本節點，若DB（v）不為空時，則稱子樹DB（v）為DOM塊。

從網頁中選取兩個DOM塊，圖2是文本塊，可以發現在文本塊中，文本標點信息更加集中，具有更少的超鏈接文本。而在圖3噪聲塊中，超鏈接文本信息較多，文本標點信息之間相對分散。

其中，[SE]是由算法抽取的Web網頁結果構成的正文集合，[SM]是由人工從Web網頁中抽取的正文內容集合，[SE∩SM]是算法實際抽取的正確正文內容。精度P是衡量提取的文本與實際文本相關程度的指標，召回率R表示應該抽取結果中被正確抽取的正文內容的比例，F值則是衡量抽取性能的一個綜合指標。

根據這些評價指標分析不用的抽取算法，并將其與本文提出的算法進行比較。表1給出了CETR、CETD、CEPR、CETD-TPC與TPDS算法在不同數據集上測試的結果。

從表1的對比實驗結果可以發現，TPDS方法在大部分情況下都表現出良好的抽取性能。TPDS在部分網頁上的抽取結果相比其他算法有點欠缺，但是綜合考慮抽取結果的平均情況，都優于其他的抽取算法，所以，TPDS算法在不同網頁中的適用性更強，抽取的性能更高。

4 結束語

本文提出了一種基于文本標點密度連續和的抽取算法，TPDS算法操作簡單，無需訓練和人工干預，可用于多源、異構、海量的網頁正文內容抽取，在不同的數據集上的測試結果表明。與其他算法相比，抽取性能更高、適用性更強。

然而，基于文本標點密度連續和的抽取算法仍有較大的提升空間。本文中設計的算法僅是基于文本標點密度，連續標簽與連續文本塊的特征來選取最佳文本塊。是否可以與網頁中其他的特征進行融合，進一步提高抽取的性能、準確性以及實用性，是進一步研究的重點。

參考文獻（References）：

[1] CNNIC.第43次中國互聯網絡發展狀況統計報告[R]. 北京：中國互聯網中心，2019.

[2] 劉鵬程，胡駿，吳共慶.基于文本塊密度和標簽覆蓋率的網頁正文抽取[J].計算機應用研究，2018.35（6）：1645-1650.

[3] 姬鑫，鐘誠.基于分塊的新聞網頁信息抽取算法[J].計算機應用與軟件，2015.32（4）：317-322.

[4] Hassan A.Sleiman，Rafael Corchuelo. TEX： An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System，2013.39：109-123

[5] 李偉男，李書琴，景旭，等.基于模擬退火算法和二階HMM的Web信息抽取[J].計算機工程與設計，2014.35（4）：1264-1268

[6] 劉利，戴齊，尹紅風，賈真，胡萬亭.基于多特征融合的網頁正文信息抽取[J].計算機應用與軟件，2014.31（7）：47-49+77

[7] Liu Qingtang，Shao Mingbo，Wu Lingjing，et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering，2017.11：39-48

[8] Carey H J，Manic M.HTML web content extraction using paragraph tags[C]//IEEE， International Symposium on Industrial Electronics.IEEE，2016：1099-1105

計算機時代2020年1期

計算機時代的其它文章: “多媒體技術及應用”課程混合式教學改革與實踐; 改進Canny算子在水面目標邊緣檢測中的研究; 道路監控視頻低清人臉重建與識別方法研究; 計算機時代征稿啟事; 教與學智能管理系統的開發與應用研究; 基于AO應用對保障性安居工程跟蹤審計的實踐探索