999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本標點密度連續和的網頁正文抽取

2020-02-14 05:58:28湯佳杰曹永忠顧浩
計算機時代 2020年1期

湯佳杰 曹永忠 顧浩

摘 ?要: 為了簡化網頁正文抽取操作與提高網頁正文抽取的準確性,提出了一種基于文本標點密度連續和的抽取方法(TPDS)。TPDS基于網頁中文本標點分布的密度并計算密度的連續和,選取所有文本塊中連續和最大的文本塊,將其確定為網頁最佳文本塊并抽取正文內容。從不同的門戶網站隨機選取的網頁作為測試數據集,實驗結果表明,TPDS可有效過濾網頁噪聲信息得到正文內容。該方法在不同網頁上具有很好的適用性,抽取性能優于CETR、CETD、CEPR和CETD-TPC算法。

關鍵詞: 正文抽取; 文本密度; 標點分布; 標簽樹

中圖分類號:TP391 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)01-69-04

Abstract: In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction, a method based on text punctuation density continuous sum extraction (TPDS) is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected, which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content, and the method has good applicability on different webpage, and the extraction performance is better than CETR, CETD , CEPR and CETD-TPC algorithms.

Key words: content extraction; text density; punctuation distribution; tag tree

0 引言

Web技術快速發展,Web網頁成為信息發布的主要載體。中國互聯網絡中心發布第43次《中國互聯網絡發展狀況統計報告》[1]指出,我國網民規模達8.29億,互聯網普及率達到59.6%;網站數量為523萬個,網頁數量為2816億個。Web網頁數量如此龐大,顯然無法依靠人工抽取所有網頁主體信息,而需要通過計算機來輔助完成網頁信息抽取。但是Web網頁中除了主體信息外,還包括大量的噪聲信息[2],如商家廣告、興趣內容推薦、網頁導航欄目等。

大量的網頁噪聲數據會導致在檢索網頁主體信息時的操作變得困難和復雜,不利于后期的管理與分析。因此在對網頁進行爬取時,需要對噪聲信息進行過濾,以保證能夠得到正確的網頁主體信息。

隨著互聯網技術的不斷發展,CSS、JavaScript技術的廣泛應用,不同的網頁結構呈現出多樣化與個性化特點,這使得Web信息抽取工作難上加難。通過研究發現,Web網頁結構中的文本布局具有如下的表現:

⑴ Web網頁中正文部分集中在網頁的三分之一到三分之二處,這段內網頁的某些標簽將會反復出現,且其中文本內容較長,文本塊較多,含有的標點符號也相應增加;

⑵ Web網頁中噪聲部分一般處于網頁的邊緣地區,多為短文本、圖片以及大量的超鏈接,噪聲塊的文本標點密度連續小;

⑶ Web網頁中正文內容多分布在相同類型的標簽中,其主要內容節點之間是連續的,連續內容節點共享同一個父節點。

1 相關工作

Web信息抽取主要是將網頁中半結構化的文本數據抽取出來,轉換為結構化信息,使之能夠為其他系統所利用。近年來,隨著人們對Web網頁正文信息提取需求的不斷增加,國內外眾多研究人員提出許多解決方案。

基于包裝器的方法是首先由人工制定好抽取規則,然后使用程序依據規則返回規定格式的數據完成信息抽取。手工構建包裝器可以解決特定網站的信息抽取問題,但是無法適應不同的網頁結構,不同網站都需要依據其網頁結構重新構造包裝器規則,費時費力。

為了解決人工構建的包裝器的不足,人們提出了基于模式匹配的方法。姬鑫等[3]人實現了基于模板頁的相同噪音塊清洗方法和基于class 屬性的同類噪音塊和特殊噪音塊清洗方法,在此基礎上提出基于起始塊和終止塊的新聞內容抽取方法,但未實現對分頁新聞內容的抽取。Hassan A.Sleiman等[4]人實現了模式匹配的抽取算法,該算法不依賴于提取規則,無監督地進行信息抽取。

李偉男等[5]人基于視覺的網頁分割算法VIPS提出了使用模擬退火算法改進的二階隱馬爾可夫模型得到最優模型參數,結合改進的Viterbi算法獲取最佳狀態序列的Web信息抽取方法。劉利等[6]人設計的WIEHF方法利用DOM樹計算出容器標簽的PSD、TSD、SD,對元素進行篩選,根據元素在內容里的出現頻率與標點符號找出網頁正文。

針對上述問題,本文設計的TPDS算法利用DOM樹將網頁分割成多個不同的塊區域,通過計算不同塊的文本標點分布密度連續和,選取最大連續和對應的文本塊為最佳文本塊,實現了一種簡單、有效的抽取方式。該方法不需要進行訓練且無須人工參與,可以適用于不同的網頁結構,通過在不同的數據集上的測試,驗證了算法具有良好的抽取性能。

2 基于文本標點密度連續和的抽取算法

基于文本標點密度連續和的網頁正文抽取算法的主要流程如圖1所示。主要分為網頁預處理、算法特征值計算和信息抽取三個步驟。

2.1 預處理

在網頁DOM結構中,網頁被表示為一組標簽并且標簽之間具有層次關系。根據標簽的不同功能,將html標簽分為如下四類[7]:交互標簽、樣式標簽、網頁描述標簽、容器標簽。

在進行網頁特征計算之前,需要對目標網頁的標簽進行過濾,在網頁正文內容的抽取過程中,一般只需要操作容器標簽,其他類型的標簽(如交互標簽,樣式標簽,網頁描述標簽)將被過濾掉。

2.2 文本標點密度連續和特征

定義1 DOM塊:DB(v)是以節點v為根節點的子樹,其中v為非文本節點,若DB(v)不為空時,則稱子樹DB(v)為DOM塊。

從網頁中選取兩個DOM塊,圖2是文本塊,可以發現在文本塊中,文本標點信息更加集中,具有更少的超鏈接文本。而在圖3噪聲塊中,超鏈接文本信息較多,文本標點信息之間相對分散。

其中,[SE]是由算法抽取的Web網頁結果構成的正文集合,[SM]是由人工從Web網頁中抽取的正文內容集合,[SE∩SM]是算法實際抽取的正確正文內容。精度P是衡量提取的文本與實際文本相關程度的指標,召回率R表示應該抽取結果中被正確抽取的正文內容的比例,F值則是衡量抽取性能的一個綜合指標。

根據這些評價指標分析不用的抽取算法,并將其與本文提出的算法進行比較。表1給出了CETR、CETD、CEPR、CETD-TPC與TPDS算法在不同數據集上測試的結果。

從表1的對比實驗結果可以發現,TPDS方法在大部分情況下都表現出良好的抽取性能。TPDS在部分網頁上的抽取結果相比其他算法有點欠缺,但是綜合考慮抽取結果的平均情況,都優于其他的抽取算法,所以,TPDS算法在不同網頁中的適用性更強,抽取的性能更高。

4 結束語

本文提出了一種基于文本標點密度連續和的抽取算法,TPDS算法操作簡單,無需訓練和人工干預,可用于多源、異構、海量的網頁正文內容抽取,在不同的數據集上的測試結果表明。與其他算法相比,抽取性能更高、適用性更強。

然而,基于文本標點密度連續和的抽取算法仍有較大的提升空間。本文中設計的算法僅是基于文本標點密度,連續標簽與連續文本塊的特征來選取最佳文本塊。是否可以與網頁中其他的特征進行融合,進一步提高抽取的性能、準確性以及實用性,是進一步研究的重點。

參考文獻(References):

[1] CNNIC.第43次中國互聯網絡發展狀況統計報告[R]. 北京:中國互聯網中心,2019.

[2] 劉鵬程,胡駿,吳共慶.基于文本塊密度和標簽覆蓋率的網頁正文抽取[J].計算機應用研究,2018.35(6):1645-1650.

[3] 姬鑫,鐘誠.基于分塊的新聞網頁信息抽取算法[J].計算機應用與軟件,2015.32(4):317-322.

[4] Hassan A.Sleiman,Rafael Corchuelo. TEX: An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System,2013.39:109-123

[5] 李偉男,李書琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計算機工程與設計,2014.35(4):1264-1268

[6] 劉利,戴齊,尹紅風,賈真,胡萬亭.基于多特征融合的網頁正文信息抽取[J].計算機應用與軟件,2014.31(7):47-49+77

[7] Liu Qingtang,Shao Mingbo,Wu Lingjing,et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering,2017.11:39-48

[8] Carey H J,Manic M.HTML web content extraction using paragraph tags[C]//IEEE, International Symposium on Industrial Electronics.IEEE,2016:1099-1105

主站蜘蛛池模板: 一级高清毛片免费a级高清毛片| 超清无码熟妇人妻AV在线绿巨人| 久久男人视频| 国产亚洲精品91| 99视频精品在线观看| 热九九精品| 亚洲男人的天堂视频| 亚洲精品黄| 久久一级电影| 在线免费无码视频| 中文成人无码国产亚洲| 亚洲精品国产日韩无码AV永久免费网 | 91人人妻人人做人人爽男同| 人人91人人澡人人妻人人爽| 丰满少妇αⅴ无码区| 老司国产精品视频91| 国产在线八区| 国产精品青青| 91视频免费观看网站| 乱系列中文字幕在线视频 | 国产综合欧美| 中文字幕在线看视频一区二区三区| 亚洲精品高清视频| 欧美综合一区二区三区| h网址在线观看| 在线观看免费黄色网址| 久久久久免费看成人影片| 色吊丝av中文字幕| 国产尤物jk自慰制服喷水| 伊人成色综合网| 国产理论一区| 中文纯内无码H| 中字无码精油按摩中出视频| 国产精品开放后亚洲| 日韩毛片基地| 欧美午夜视频在线| 国产网站免费看| 成年A级毛片| 久久亚洲欧美综合| 午夜精品久久久久久久无码软件| 99视频精品在线观看| 国产欧美在线视频免费| 亚洲乱码在线视频| 日韩成人高清无码| 91色老久久精品偷偷蜜臀| 午夜视频免费一区二区在线看| 在线观看亚洲成人| 久久精品中文字幕少妇| 午夜日b视频| 狠狠色噜噜狠狠狠狠奇米777| 欧美在线中文字幕| 欧美视频免费一区二区三区| 国产精品夜夜嗨视频免费视频| 精品国产免费观看一区| 五月激情婷婷综合| 国产精品林美惠子在线观看| 暴力调教一区二区三区| 国产一区二区三区免费观看| 亚洲视频欧美不卡| 亚洲天堂伊人| 免费a级毛片18以上观看精品| 91久久青青草原精品国产| 欧美视频在线播放观看免费福利资源 | 欧美国产菊爆免费观看| 国产精品无码久久久久AV| 国产成人无码综合亚洲日韩不卡| www.精品国产| 精品视频一区在线观看| 亚洲区第一页| 亚洲中文字幕无码爆乳| 国产综合另类小说色区色噜噜| 好久久免费视频高清| 99久久精品免费观看国产| 人禽伦免费交视频网页播放| 国产一区二区三区免费| 亚洲综合色婷婷中文字幕| 在线国产欧美| 青青青亚洲精品国产| 国产福利一区在线| 制服丝袜亚洲| 久久6免费视频| 日韩一区二区在线电影|