999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網頁DOM樹節點路徑相似度的正文抽取

2016-11-15 03:16:23潘心宇陳長福王美清
網絡安全與數據管理 2016年19期
關鍵詞:文本內容方法

潘心宇,陳長福,劉 蓉,王美清

(1.福州大學 數學與計算機科學學院,福建 福州 350108;2.福建庫易信息科技有限責任公司,福建 福州 350000)

?

基于網頁DOM樹節點路徑相似度的正文抽取

潘心宇1,陳長福2,劉 蓉1,王美清1

(1.福州大學 數學與計算機科學學院,福建 福州 350108;2.福建庫易信息科技有限責任公司,福建 福州 350000)

由于人工抽取網頁信息效率低、成本高,因此根據對大量網頁結構的觀察,提出基于網頁文檔對象模型DOM樹節點路徑相似度的正文抽取方法。依據同網站下的網頁結構相同的特點去除網頁噪聲得到網頁的主題內容,然后結合正文節點在DOM樹中的路徑的相似度抽取正文。通過對不同類型的中文新聞網站上的1 000個網頁進行實驗,結果表明該方法對于97.6%的網頁都能夠去除大部分噪聲并保持正文內容的完整性,正文抽取結果有93.30%的準確率和95.59%的召回率。所提算法對不同類型的網頁都有較好的適應性。

DOM樹;信息抽取;HTML標簽;網頁去噪;正文抽取

0 引言

隨著互聯網技術的快速發展,網頁成為人們獲取信息的重要來源之一。然而,網頁上的數據是海量的,單純依靠人工手段獲取網頁信息效率較低,因此需要借助軟件對網頁信息進行全部或部分地自動過濾和分類。目前常用的自動網頁信息獲取方法是正文內容抽取,該類方法是一種被廣泛應用于互聯網數據挖掘的技術,它的目標是從互聯網龐大的數據中提取有意義的和有價值的信息,可以用于信息搜索、Web文檔分類、數據挖掘、機器翻譯、文本摘要等。

常用的正文抽取方法可以分為以下4類:(1)傳統的歸納總結正文抽取方法:根據一些信息模式,從特定的信息源中提取相關內容[1]。此方法效率較低、需要較多的手動操作,獨立性以及適應性較差。(2)基于網頁布局[2]和視覺[3-4]的正文抽取:該方法很大程度上依賴于網頁的風格或者結構。當涉及到有更復雜的嵌套關系的網頁時會出現偏差。(3)基于語義單元[5]或者數據挖掘、機器學習[6]的正文抽取:通過使用分詞和文本分類,雖然準確率有所提高,但是解決方案比較復雜。(4)基于統計的正文抽取[7]:該方法簡單而且具有更好的通用性,但是較低的精確度限制了它的進一步應用。此外,它不能處理短文本、表格文本以及有較長評論的文本。

FINN A等[8]提出正文抽取(Body Text Extrac tion,BTE) 算法,將網頁中的文字和標簽作為序列,抽取序列中文字最多和標簽最少的連續的內容。PINTO D等[9]提出文檔斜率曲線(Document Slope Curves,DSC) 算法,在FINN的方法的基礎上使用窗口方法實現多正文抽取。MANTRATZIS C等[10]提出鏈接定額過濾(Link Quota Filters,LQE) 算法,通過網頁結構分析,分離正文和導航目錄等超鏈接。DEBNATH S等[11]提出特征提取器(Feature Extractor,FE)算法,選擇包含有一定特征的文本、圖像而且重復出現次數較少的內容塊。GOTTRON T等[12]提出正文代碼模糊(Content Code Blur-ring,CCB)算法,選擇相同格式的長文本作為網頁的正文。劉利等[13]提出基于多特征融合的網頁正文信息抽取,從網頁的多個特征和設計習慣入手定位正文位置。王利等[14]提出基于內容相似度的正文抽取,根據樹節點中文本內容與各級標題的相似度判定小塊文本信息的有效性,由此進行網頁清洗和正文抽取。

分析網頁信息會發現,網頁中包含大量與網頁主題無關的噪聲內容,如廣告鏈接、導航欄、版權信息等。在正文抽取過程中,這些網頁噪聲會影響抽取效果,因此需要通過去噪方式對網頁進行預處理。常用的網頁去噪方法有:

YI L等[15]提出用風格樹(Style Tree,ST)來表達網頁的結構和內容特征,出現相同特征次數多的部分更有可能是噪聲數據。GIBSON D等[16]提出Shingle和模板Hash方法。這兩種算法的缺點是計算量較大。WANG J Y等[17]提出的主題數據提取(Data-rich Section Extraction,DSE)算法,該算法通過從上到下比較兩棵相同模板的文檔對象模型 (Document Object Model,DOM)樹,去除樹中相同的部分,剩下的部分作為網頁的主題內容。

根據對現有方法的總結以及對網頁特征的分析,本文提出基于DOM樹節點路徑相似度的正文抽取方法,對于不同結構的網頁都有較好的適應性,對來源于新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站的1 000個網頁進行了抽取實驗,實驗結果表明本文方法有較好的抽取準確度。

1 網頁去噪

目前,大部分網頁的源代碼是以超文本標記語言 (Hyper Text Markup Language,HTML)的形式存在的。對于同一網站下的不同網頁,它們由同一個模板生成,因此這些網頁具有相似的結構,而這些網頁中相同的部分就是噪聲內容,它們與網頁所要表達的主題沒有關系。本文在DSE算法的基礎上,首先將與網頁無關的標簽及相關代碼刪除,然后通過將某個網頁與同一網站下的2個或多個網頁進行對比去除相同部分,從而達到去除噪聲的目的。

1.1 刪除無關的標簽

網頁源代碼包含了以不同的標簽括起來的各段代碼。例如,網頁標題和一些修飾性代碼主要嵌在標簽的內部,網頁主題內容包含在標簽之間,客戶端腳本則包含在標簽之間。通過對大量HTML文本的研究和分析,發現以下幾類標簽與網頁主題內容的相關性很低,在對比網頁之前可以將這部分內容過濾掉以提高后續的對比速度。

標簽以及它們之間的內容。

標簽。該標簽中內容的主要功能是定義客戶端腳本,與網頁所要表達的內容關系不大,也可以將其刪除,類似地,也可刪除。

大部分網頁通過層疊樣式表(Cascading Style Sheets,CSS)來調整頁面的布局,標簽用于定義HTML文檔的樣式信息,同樣可以刪除。

注釋標簽只是為網站編輯提供說明,并不會在瀏覽器中顯示,也可刪除。

在預處理過程中利用正則表達式刪除以上噪聲代碼。正則表達式通過使用單個字符串來描述、匹配一系列符合某個句法規則的網頁源代碼。符合匹配規則的源代碼將被刪除。

刪除完無關標簽后,再刪除空白行,這樣完成了去噪的第一步。

1.2 通過網頁對比去除噪聲

網頁對比可以通過對比它們的 DOM樹來實現。DOM是文檔中數據和結構的一個樹形表示, 它定義了表示和修改文檔所需的對象、這些對象的行為和屬性以及這些對象之間的關系。DOM實際上是以面向對象方式描述的文檔模型。它可以以一種獨立于平臺和語言的方式訪問和修改一個文檔的內容和結構。圖1給出了一個文檔的DOM樹的結構圖。

圖1 DOM樹結構圖

通過HTML解析(如使用解析器htmlcxx)可以將HTML文檔轉換為DOM樹結構。假設要處理的是某網站的網頁URL1,隨機選取該網站下的另外兩個網頁URL2和URL3,獲得它們的DOM樹。然后分別對比DOM1DOM2以及DOM1DOM3,輸出不同的節點。

對比算法的基本思路是:按深度遍歷3棵樹的節點,為每個節點設置深度、路徑、文本內容、是否為tag(HTML標簽)。以第1個網頁作為目標與另外兩個網頁進行對比,如果3個節點深度相同,則判斷節點的文本內容是否相同,相同的加入模板集合中,不同的加入網頁內容集合中;如果3個節點深度不同,則根據不同情況對相應的節點進行處理,其中網頁1的節點加入到網頁內容集合中。直到3個網頁都遍歷到end節點為止。最后得到的就是網頁1的主題內容, 過濾了噪聲部分。

算法偽代碼如下:

for(i = begin1 : end1; j = begin2 : end2; k = begin3 : end3)

{

if(depth1 == depth2 == depth3)

if(i->text() == j->text() == k->text())

i加入模板集合;

else

i加入內容集合;

else

{

while(depth1 > depth2 || depth1 > depth3)

{

i加入內容集合;

i++;

}

while(depth1 < depth2)

j++;

while(depth1 < depth3)

k++;

}

}

2 正文抽取

HTML文檔轉換成DOM樹以后,每個節點都有唯一確定的路徑。網頁中不同內容塊的節點在DOM樹中的公共路徑較少,而同一內容塊的節點的公共路徑很長。本文以這些路徑之間的相似度作為不同節點是否屬于同一內容塊的依據。所有的主題內容都在葉子節點上,記所有葉子節點的路徑為:

P={PA,PB,…},PA={TA1,TA2,…,TAn}

其中TAi為文本節點內容。

例如:

This is the first block.

This is the second block.

This is the third block.

test1

這段網頁源代碼中的 “This is the first block”節點的路徑為:

P1={,,
,

,This is the first block}

“This is the second block”節點的路徑為:

P2={,,
,

,This is the second block}

其中nA、nB分別表示節點A、B的深度。

3 實驗結果分析

本文從新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站中抽取了1 000個網頁作為測試數據,采用基于網頁DOM樹節點路徑相似度的正文抽取方法進行實驗,去噪結果和正文抽取結果如表1所示。

表1 本文方法的正文抽取實驗結果

從表1的統計結果可以看出,有97.6%的網頁清洗掉了大部分的噪聲并且完整保留了網頁中的有效信息;對于新浪、網易等門戶網站的抽取結果較好,都有90%以上的準確率和95%以上的召回率;對于其他不同結構的網站,本文的正文抽取方法也都能適用,很好地實現了網頁正文抽取的工作,并且有著較高的準確率和召回率。

為了驗證本文方法的有效性,以上述的1 000個網頁作為樣本,將本文方法與BTE、DSC、FE、LQF、CCB等算法進行對比實驗,實驗結果如表2所示。

表2 各種算法對比結果

由表2可以看出,本文提出的方法相對于現有的統計方法有更好的準確率和召回率。

互聯網的發展為用戶帶來了一個包含豐富信息的巨型數據庫,但是如何識別其中的有效數據是應用的關鍵。本文的正文抽取方法利用網頁DOM樹節點路徑相似的特點實現正文抽取,為之后的數據分類、分析等工作奠定了基礎。

4 結論

本文根據新聞正文內容在網頁中相對集中且同網站的新聞頁面有相同模板的特點,提出基于網頁DOM樹節點路徑相似度的正文抽取方法,先用正則表達式刪除網頁源代碼中與正文內容無關的代碼,然后將得到的網頁轉換為DOM樹,再將目標網頁的DOM樹與另外兩個網頁的DOM樹進行對比去除噪聲,最后,根據節點路徑相似度來抽取正文內容。該方法對來自不同網站的數據能夠快速、準確地抽取正文內容,適用于結構變化不大的網頁,但是對正文內容較少的網頁抽取效果仍有待提高。下一步主要工作是加入內容節點與標題節點的路徑之間的距離判斷節點是否為正文,以提高算法的準確度。

[1] KUSHMERICK N, WELD D S, DOORENBOS R.Wrapper induction for information extraction[C].IJCAI 1997: Proceedings of the 1997 International Joint Conference on Artificial Intelligence,1997:729-737.

[2] FU L,MENG Y,XIA Y J, et al.Web content extraction based on webpage layout analysis[C].ITCS 2010: Proceedings of the 2010 Second International Conference on Information Technology and Computer Science,2010: 40-43.

[3] CAI D,YU S P,WEN J R,et al.VIPS: a vision based on page segmentation algorithm[R].Microsoft Co.,Tech.Report,2003.

[4] WANG J Q,CHEN Q C,WANG X L,et al.Basic semantic units based web page content extraction[C].SMC 2008: Proceedings of the 2008 IEEE International Conference on Systems,Man and Cybernetics,Piscataway,NJ: IEEE Press,2008:1489-1494.

[5] UZUN E,AGUN H V,YERLIKAYA T.Web content extraction by using decision tree learning[C].SIU 2012: Signal Processing and Communications Applications Conference,2012: 1-4.

[6] PAN D H,QIUS G,YIN D W.Web page content extraction method based on link density and statistic[C].WiCOM 2008: Wireless Communications,Networking and Mobile Computing,Dalian,China,IEEE Press,2008:1-4.

[7] REIS D C,GOLGHER P B.Automatic web news extraction using tree edit distance[C].Proc.WWW 2004: The 13th International Conference on World Wide Web,New York: ACM,2004: 502-511.

[8] FINN A,KUSHMERICK N,SMYTH B.Fact or fiction: Con-tent classification for digital libraries[C].Proc of the 2nd DELOS Network of Excellence Workshop on Personalization and Recommender Systems in Digital Libraries.Dublin,Ireland,2001: 1-6.

[9] PINTO D,BRANSTEIN M,COLEMAN R,et al.QuASM: A system for question answering using semi-structured data[C].Proc of the 2nd ACM/ IEEE-CS Joint Conference on Digital Libraries.Portland,USA,2002: 46-55.

[10] MANTRATZIS C,ORGUN M,CASSIDY S.Separating XHTML content from navigation clutter using DOM-structure block analysis[C].Proc of the 16th ACM Conference on Hypertext and Hypermedia, Salzburg,Austria,2005: 145-147.

[11] DEBNATH S,MITRA P,GILES C L.Automatic extraction of informative blocks from webpages[C].Proc of the ACM Symposium on Applied Computing, SantaFe,USA,2005: 1722-1726.

[12] GOTTRON T.Content code blurring: A new approach to content extraction[C].Proc of the 19th International Conference on Database and Expert Systems Applications, Turin,Italy,2008: 29-33.

[13] 劉利,戴齊,尹紅風,等.基于多特征融合的網頁正文信息抽取[J].計算機應用與軟件,2014,31(7):47-49.

[14] 王利,劉宗田,王燕華,等.基于內容相似度的網頁正文提取[J].計算機工程,2010,36(6):102-104.

[15] YI L,LIU B,LI X.Eliminating noise information in web pages for data mining[C].SIGKDD 2003: Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York: ACM,2003:296-305.

[16] GIBSON D,PUNERA K,TOMKINS A.The volume and evolution of web page templates[C].Proc.WWW 2005: Special Interest Tracks and Posters of the 14th International Conference on World Wide Web,New York: ACM,2005:830-839.

[17] WANG J Y,LOCHOVSKY F H.Data-rich section extraction from HTML pages[C].WISE 2002: Proceedings of the 3rd International Conference on Web Information Systems Engineering (Workshops), Los Alamitos,CA: IEEE Computer Society,2002: 313-322.

Content extraction based on the similarity of the Web pages′ DOM tree nodes path

Pan Xinyu1,Chen Changfu2,Liu Rong1,Wang Meiqing1

(1.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350108,China; 2.Fujian Ecallcen Information Technology Company Limited,Fuzhou 350000,China)

Due to the problem that the low efficiency and high cost of extracting information by human,according to the observation of large amount of Web pages’structure,the content extraction method based on the similarity of web pages’ DOM tree node’s path was proposed.It removed noise and got the main body of the Web page as the Web pages in the same website had the same structure,then combined the similarity of the path of content nodes in the DOM tree to extract content.Through the experiments of 1 000 Web pages from different Chinese news Websites,the results show that this method can remove most noise and maintain the integrity of the content for 97.6% of all Web pages,it has 93.30% precision rate and 95.59% recall rate,and it has good adaptability for different types of Web pages.

DOM tree; information extraction; HTML tag; Web denoising; content extraction

TP301.6

A DOI:10.19358/j.issn.1674-7720.2016.19.022

潘心宇,陳長福,劉蓉,等.基于網頁DOM樹節點路徑相似度的正文抽取[J].微型機與應用,2016,35(19):74-77.

2016-05-13)

潘心宇(1992-),男,碩士研究生,主要研究方向:數據挖掘、模式識別。

陳長福(1974-),男,學士,主要研究方向:網絡信息挖掘、信息分類。

劉蓉(1972-),通信作者,女,碩士,講師,主要研究方向:數值計算。E-mail:liu_r@fzu.edu.cn。

猜你喜歡
文本內容方法
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲欧洲美色一区二区三区| 日韩无码视频播放| 国产91麻豆视频| 天堂成人在线视频| 国产亚洲精久久久久久无码AV| 成人伊人色一区二区三区| 3344在线观看无码| 国产女同自拍视频| 久久综合色播五月男人的天堂| 国产在线八区| 亚洲无码精彩视频在线观看| 永久免费无码日韩视频| 尤物成AV人片在线观看| 美女内射视频WWW网站午夜 | 97视频免费看| 午夜精品影院| 青青草国产在线视频| 高清乱码精品福利在线视频| 国产偷倩视频| 欧美性爱精品一区二区三区| 国产激爽爽爽大片在线观看| 永久免费av网站可以直接看的| 国产欧美视频综合二区| 亚洲色中色| 亚洲综合在线最大成人| 成人福利在线看| 久久五月天综合| 亚洲高清日韩heyzo| 91精品国产无线乱码在线| 欧美在线伊人| 亚洲A∨无码精品午夜在线观看| 国产精品久久久久久久伊一| 精品久久久久久成人AV| 亚洲一区毛片| 日韩 欧美 国产 精品 综合| 国产国产人成免费视频77777| 久久亚洲国产一区二区| 国产99欧美精品久久精品久久| 免费无码一区二区| 日韩区欧美国产区在线观看| 日本免费福利视频| 国产精品jizz在线观看软件| 亚洲美女高潮久久久久久久| 99一级毛片| 老司机精品一区在线视频| 91福利片| 日a本亚洲中文在线观看| 91国内外精品自在线播放| 精品亚洲麻豆1区2区3区| 熟妇无码人妻| 久久夜色精品国产嚕嚕亚洲av| 精品国产美女福到在线不卡f| 在线精品亚洲一区二区古装| 视频一本大道香蕉久在线播放| 中国一级毛片免费观看| 伊人成人在线视频| 亚洲人成影视在线观看| 国产尹人香蕉综合在线电影 | 久久大香伊蕉在人线观看热2| 台湾AV国片精品女同性| 91色爱欧美精品www| 精品国产电影久久九九| 99视频国产精品| 亚洲成在人线av品善网好看| 成人毛片在线播放| 亚洲国模精品一区| 国产资源免费观看| 波多野结衣视频一区二区 | 这里只有精品在线播放| 国产一级毛片yw| 免费可以看的无遮挡av无码| 精品综合久久久久久97超人| 免费人成视网站在线不卡| 喷潮白浆直流在线播放| 91精品啪在线观看国产60岁 | 精品一区二区三区视频免费观看| 黄色网在线| 日韩a级毛片| 成人国产一区二区三区| 国产无码网站在线观看| 久久这里只有精品23| 国产精品亚洲综合久久小说|