標簽)分割而成的.所以本文將HTML頁面切割成塊集合B,再從塊集合B中選擇不包含噪聲信息,但包含完整正文內容的正文內容塊.5.1 塊節點密度特征
本文采用密度特征來判斷塊節點是否為正文內容塊,下面給出3個密度定義:
定義7.設n∈B為DOM樹Td中的一個塊節點,則n的文本密度定義為:
(2)
其中Tn為塊節點n包含的純文本字符數(不含鏈接文本),T為Td代表的整個文檔中的純文本字符數(不包含鏈接文本).
Ptext反映了在全局頁面中,文本內容在某個塊節點中的相對集中程度.我們發現Ptext越大,往往意味著該節點越有可能包含待發現的正文內容塊.
定義8.設n∈B為DOM樹Td中的一個塊節點,則n的鏈接密度定義為:
(3)
其中lNn為節點n中所包含的鏈接數,lN為Td代表的整個文檔中所包含的鏈接數.
Plink反映了在全局頁面中,鏈接在某個塊節點的相對集中程度.我們發現Plink越大,往往意味著該塊節點包含噪聲信息的可能性越大.
定義9.設n∈B為DOM樹Td中的一個塊節點,則n的節點文本密度定義為:
(4)
其中Tn為塊節點n的純文本字符數(不含鏈接文本),lTn為塊節點n的文本字符數(包含鏈接文本).
Ptextl反映了在某個節點的純文本集中程度.我們發現Ptextl越大,往往意味著該節點越有可能包含待發現的正文內容塊.
給出了3個密度度量后,可以定義塊節點的綜合密度特征值H(b):
(5)
其中b∈B表示該塊節點,size(b)表示該塊節點中子孫節點個數.p1,p2,p3分別代表節點的密度特征,取p1=ptext,p2=1-plink,p3=ptextl.α是調節塊節點b的子孫節點數量對H值影響的參數,在實驗中取α=0.3.當α設置過低時,選取的塊可能帶有噪音信息,當α設置過高時,利用綜合密度特征H可能選取錯誤的塊.
5.2 正文特征生成
通過4.1節我們可以得到網頁標記類集合M,在同一標記類中的網頁,正文內容塊的位置是相同的,所以在同一類網頁中通過密度特征選擇正文內容塊,再提取正文內容塊的特征作為該類網頁正文內容的抽取規則,如算法2所示.在網頁中塊的特征可以有三種表示方法,塊class屬性對應的值,塊id屬性對應的值和塊的路徑path.為了方便算法表示,本文給出了每個標記類中正文內容塊特征的定義,即每個標記類正文內容的抽取規則.
定義10.給定聚類結果中標記類的標記c={ci|ci=Ci.c},定義該標記類網頁正文內容塊的特征為一個三元組L(c)=,其中class表示正文內容塊b的class屬性對應的值,id表示正文內容塊b的id屬性對應的值,p表示正文內容塊的標簽路徑,p={p|p=p(b)且b∈B}.
將聚類的結果經過算法2可以得到每個標記類對應正文內容塊的特征L(c),即為該標記類網頁的正文內容提取規則.在L(c) 中記錄正文內容塊的三個特征,根據這三個特征可以從網頁中提取出正文內容塊.在一個Web網頁中并不是每個塊都有id和class屬性,所以在L(c)中,本文按優先級id>class>p依次進行提取,當id和class屬性不存在時用路徑p來提取正文內容塊.最后,從正文內容塊中提取出正文內容.

算法2.getBlock輸入:標記類集合M={C1,C2,…,Cn},表示聚類結果為n個標記類輸出:抽取規則集合N={L1,L2,…,Lk},表示n個標記類對應的k個正文內容塊特征集合,其中k<=n.BeginForeachCi∈MthenBF←?//BF={,,…,} Foreachw∈Ci.Wthen 將網頁w轉化為DOM樹結構,提取網頁中的塊集合B 計算塊b∈B對應綜合密度特征H(b) 選擇H(b)最高的塊b,提取其特征L(b),記錄該塊的特征和其綜合密度特征為bf= 若?bfi∈BF且bfi.L=bf.L則bfi.H=bfi.H+bf.H否則add(BF,bf) Endfor 從BF集合中選擇H最高的L作為該標記類對應的抽取規則,add(N,L)EndforEnd
6 方法評估
為了驗證本文提出方法的有效性,我們實現了相應的原型系統.該原型系統分為兩個過程:基于網頁聚類的正文特征生成和網頁正文內容提取.實驗環境為CPU(Inter Pentium CPU,3.10GHz)+RAM(8GB)+Window7+Eclipse3.10.在實驗中,采用工具Jsoup對網頁進行解析和塊的提取.
實驗中所使用的數據集WebSet來自包括5個網站的1500個網頁.該數據集通過半手工方式(種子URL+爬蟲+手工篩選)從互聯網網上收集得到的,來源于網易、搜狐、新浪、人民網和新華網,這些網頁分布在網站中的不同主題類目.在具體實驗過程中,我們又從WebSet中產生2個子集:1)網頁聚類數據集WebSet-1.包括500個網頁從WebSet中手工選取,來自5個站點并且覆蓋每個站點中的主題.2)網頁正文內容抽取數據集WebSet-2.包括1000個網頁.
我們對數據集WebSet-1中的網頁進行聚類處理并生成正文特征,其結果如圖2所示.在實驗中,網易和新浪中出現在同一主題模塊的頁面中產生多個類別.圖3展示了在聚類過程中,不同網站的頁面中平均塊節點個數,在圖3結果中網易、搜狐和新浪的頁面中平均塊節點個數量遠遠超出新華網和人民網.而在這些塊節點中絕大多數是只包含噪音信息的塊節點,因此除了網站中網頁本身的設計結構的差異,網頁中的噪音信息在一定程度上也影響網頁的聚類結果.

圖2 網頁聚類結果Fig.2 Experimentalresultofwebpageclustering圖3 網頁分塊結果Fig.3 Experimentalresultofwebpagesegmentation
在網頁正文提取方面,本文對數據集WebSet-2中的網頁進行內容的提取.實驗分為兩種,第一種是不利用網頁聚類處理的結果,只通過塊節點的綜合密度特征來對網頁正文內容進行提取,其結果如表1所示.第二種是利用網頁聚類和生成的正文內容塊特征(抽取規則)來進行網頁正文內容的提取,其結果如表2所示.從表1和表2的對比中我們可以發現網頁聚類能夠顯著提高網頁正文內容提取的準確率,基本能夠消除因為正文內容字符數較少導致提取錯誤的塊的問題.在5個站點中,網易的提取結果并不理想.這是因為在網易財經模塊中大部分網頁并不存在正文內容塊,而是將推薦鏈接等噪音信息與正文內容嵌入在同一個塊中,導致實驗中提取的正文內容塊包含部分噪音信息.
表1 無聚類處理的正文內容提取結果
Table 1 Experimental result of web information extraction with no clustering processing

DataSet網頁總數準確率網易20088%搜狐20096.5%新浪20095%新華網20097%人民網20092%
表2 基于網頁聚類的正文內容提取
Table 2 Experimental result of web information extraction with clustering processing

DataSet網頁總數準確率網易20092%搜狐200100%新浪20098%新華網200100%人民網20099.5%
在時間性能方面,因為網頁結構的復雜程度不同,所以不同網站中網頁聚類和正文特征生成所耗費的時間也存在差異.實驗中,平均對每100個網頁進行聚類并生成正文特征的時間為4571ms.在網頁正文內容提取方面,在無聚類的情況下,平均抽取一個網頁的時間為26ms,在有聚類的情況下平均抽取一個網頁的時間21ms.從實驗結果來看,在有聚類的情況下平均抽取一個網頁的時間比無聚類情況下要快5ms.
文獻[8]也是一種基于網頁聚類的正文提取方法,該方法采用樹編輯距離計算網頁之間的相似度,并且利用DOM樹的結構差異來確定網頁的抽取規則,其準確率為82.5%.與該方法相比本文采用的方法的準確率高達97.9%,并且本方法采用路徑集合來計算網頁之間的相似度降低了網頁聚類的時間消耗.文獻[1]中的CEPR算法在網易,新浪,新華網和人民網的數據集上精確率達到99.29%,98.57%,94.72%和95.11%,基本與本方法相當.然而,CEPR算法平均抽取一個網頁的時間為375ms,不適合針對大規模網頁的處理.
7 總 結
本文結合現有的Web信息提取方法,基于網頁分割的正文提取和基于統計的密度特征正文提取,再結合網頁聚類,提出了一種基于網頁聚類的正文信息提取方法.該方法利用對結構相同的網頁進行統一的提取操作,來提高網頁正文內容抽取的準確率.在實驗中,我們將有聚類處理和無聚類處理的網頁正文內容提取進行對比,其準確率顯著上升.本方法適用于提取來自同一網站的網頁,不需要復雜的計算,簡單實用.
未來的工作重點主要包含兩個方面:一方面,將本文提出方法運用到大規模網頁處理的環境中.另一方面,已有的Web信息抽取方法主要提取粗粒度的Web內容,面向精準的細粒度結構化Web信息抽取的精度仍不是很理想,因此,我們的研究重點將轉為對網頁中細粒度的實體提取.
[1] Wu Gong-qing,Hu Jun,Li Li,et al.Online web news extraction via tag path feature fusion [J].Journal of Software,2016,27(3):714-735.
[2] Wang J,Wang J.qRead:a fast and accurate article extraction method from web pages using partition features optimizations[C].Proceedings of the 7th International Joint Conference on Knowledge Discovery,Knowledge Engineering and Knowledge Management (IC3K 2015),Lisbon,Portugal,2015:364-371.
[3] Zhang Nai-zhou,Cao Wei,Li Shi-jun.Amethod based on node density segmentation and label propagation for mining web page [J].Journal of Computer Science and Technology,2015,38(2):349-364.
[4] Cai D,Yu S,Wen J R,et al.Extracting content structure for web pages based on visual representation[C].Proceedings of the 5th Asian-Pacific Web Conference(APWEB 2003),Xi′an,China,2003:406-417.
[5] Yin X,Lee W S.Using link analysis to improve layout on mobile devices[C].Proceedings of the 13th International Conference on World Wide Web(WWW 2004),New York,USA,2004:338-344.
[6] Wu S,Liu J,Fan J.Automatic web content extraction by combination of learning and grouping[C].Proceedings of the 24th International Conference on World Wide Web(WWW 2015),Florence,Italy,2015:1264-1274.
[7] Joshi S,Agrawal N,Krishnapuram R,et al.A bag of paths model for measuring structural similarity in Web documents[C].Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD 2003),Washington,USA,2003:577-582.
[8] Yang Tian-qi,Qiu Tao-fen.A method of automatic web information extraction based on page clustering[C].Proceedings of the 8th World Congress on Intelligent Control and Automation(WCICA 2011),Taipei,2011:390-393.
附中文參考文獻:
[1] 吳共慶,胡 駿,李 莉,等.基于標簽路徑特征融合的在線Web新聞內容抽取[J].軟件學報,2016,27(3):714-735.
[3] 張乃洲,曹 薇,李石君.一種基于節點密度分割和標簽傳播的Web頁面挖掘方法[J].計算機學報,2015,38(2):349-364.
[8] 楊天奇,邱韜奮.一種Web信息自動抽取的網頁聚類方法[C].第8屆智能控制與自動化世界大會(WCICA 2011),臺北,2011:390-393.
主站蜘蛛池模板:
日韩AV无码免费一二三区|
亚洲成a人片在线观看88|
色综合中文|
色婷婷在线影院|
日日拍夜夜嗷嗷叫国产|
自拍欧美亚洲|
国产在线观看一区二区三区|
久久黄色小视频|
91娇喘视频|
成人福利一区二区视频在线|
91免费精品国偷自产在线在线|
精品福利网|
九九热在线视频|
色网在线视频|
91视频日本|
国产精品免费久久久久影院无码|
全免费a级毛片免费看不卡|
亚洲人成网18禁|
国产精品视频导航|
亚洲天堂网视频|
天堂网亚洲系列亚洲系列|
91免费观看视频|
2021最新国产精品网站|
国产美女精品人人做人人爽|
欧美色亚洲|
国产精品久久久久久久伊一|
国产精品亚洲欧美日韩久久|
在线欧美日韩|
亚洲日本中文字幕乱码中文|
亚洲天堂精品视频|
国产成a人片在线播放|
国产免费一级精品视频|
亚洲丝袜第一页|
亚洲日本中文综合在线|
中国毛片网|
国产免费网址|
亚洲欧美在线综合图区|
全裸无码专区|
在线永久免费观看的毛片|
97色婷婷成人综合在线观看|
伊人久久青草青青综合|
亚洲伦理一区二区|
欧美一区二区啪啪|
欧美午夜视频在线|
久久精品中文无码资源站|
国产一级毛片yw|
国产精品制服|
色哟哟精品无码网站在线播放视频|
欧美日韩久久综合|
狠狠亚洲五月天|
国内精品视频|
国产精品久久久久婷婷五月|
99久久国产综合精品2020|
欧美a网站|
国产精彩视频在线观看|
一级全黄毛片|
亚洲日本中文字幕乱码中文|
欧美精品一区二区三区中文字幕|
国产福利微拍精品一区二区|
91小视频版在线观看www|
色综合激情网|
亚洲va在线∨a天堂va欧美va|
久热这里只有精品6|
免费无码一区二区|
av一区二区无码在线|
国产精品开放后亚洲|
日韩精品亚洲人旧成在线|
中文字幕乱码二三区免费|
波多野结衣无码AV在线|
高潮毛片无遮挡高清视频播放|
久久香蕉国产线看观看亚洲片|
国产无人区一区二区三区|
激情综合网址|
国产免费自拍视频|
99精品久久精品|
欧美啪啪网|
女人18毛片久久|
综合亚洲网|
亚洲无码精品在线播放|
波多野结衣一区二区三区AV|
亚洲v日韩v欧美在线观看|
一本一道波多野结衣av黑人在线|