節(jié)點(diǎn)進(jìn)行處理,比較節(jié)點(diǎn)中的中文字符數(shù)量。該方法雖利用了中文網(wǎng)頁(yè)的特性,實(shí)現(xiàn)簡(jiǎn)單,健壯性強(qiáng),但未考慮英文網(wǎng)頁(yè),且對(duì)短正文網(wǎng)頁(yè)效果不理想。(4)基于視覺(jué)分塊的方法。
通常在瀏覽網(wǎng)頁(yè)時(shí),人們往往將不同的功能區(qū)域看成不同的語(yǔ)義塊。較早的分塊方式是按照HTML的樹(shù)形結(jié)構(gòu)進(jìn)行[13],但隨著HTML的發(fā)展,僅僅依賴(lài)樹(shù)形結(jié)構(gòu),不足以滿(mǎn)足通用性。2003年,微軟亞洲研究院提出基于頁(yè)面視覺(jué)分塊的算法(VIsion-based Page Segmentation,VIPS),利用頁(yè)面的可視化信息在樹(shù)形結(jié)構(gòu)的基礎(chǔ)上進(jìn)行網(wǎng)頁(yè)分塊。然而它僅僅是一種分塊算法,利用已有的視覺(jué)信息,并未對(duì)頁(yè)面進(jìn)行凈化操作,可以在算法的基礎(chǔ)上加入規(guī)則進(jìn)行頁(yè)面凈化操作。文獻(xiàn)[14]通過(guò)修改VIPS算法迭代過(guò)程,在塊劃分后進(jìn)行一系列的分隔條提取和語(yǔ)義塊重構(gòu),采用制定規(guī)則對(duì)頁(yè)面進(jìn)行去噪操作。VIPS算法充分考慮了用戶(hù)的視覺(jué)習(xí)慣,但由于分隔條提取和語(yǔ)義塊重構(gòu)需要過(guò)多的人工參與,復(fù)雜度較高,且缺乏對(duì)網(wǎng)頁(yè)中和信息的利用。
文中在VIPS算法分塊的基礎(chǔ)上,提出樣式樹(shù),再根據(jù)鏈接比及樹(shù)路徑距離生成相應(yīng)的權(quán)重樹(shù),自動(dòng)調(diào)整權(quán)重,根據(jù)權(quán)重進(jìn)行剪枝操作,生成去噪頁(yè)面。
2 樣式樹(shù)定義
樣式樹(shù)由DOM樹(shù)演化而來(lái)[15],主要包含兩類(lèi)虛擬節(jié)點(diǎn):樣式節(jié)點(diǎn)(Style nodes)和元素節(jié)點(diǎn)(Element nodes)。樣式節(jié)點(diǎn)描述了節(jié)點(diǎn)布局或者展現(xiàn)風(fēng)格,樣式節(jié)點(diǎn)A的表現(xiàn)樣式SA是一個(gè)序列。其中l(wèi)i是一個(gè)二元組(Tag,Styles)元素,通常Styles表示為{width:300,height:200,bg-Color:red},n表示樣式長(zhǎng)度。節(jié)點(diǎn)E描述節(jié)點(diǎn)的屬性信息,表示為E(Tag,Attrs,Content),其中Tag表示節(jié)點(diǎn)標(biāo)識(shí),Attrs表示屬性信息,Content表示節(jié)點(diǎn)的文本信息?;緲邮綐?shù)如圖1所示。

圖1 基本樣式樹(shù)
3 基于節(jié)點(diǎn)權(quán)重的網(wǎng)頁(yè)去噪算法
3.1算法基本思想
基于節(jié)點(diǎn)權(quán)重的去噪算法在VIPS基礎(chǔ)上,將VIPS生成的基本視覺(jué)塊樹(shù)進(jìn)行樣式樹(shù)的轉(zhuǎn)化,利用樣式樹(shù)節(jié)點(diǎn)中的樣式特性,將葉子節(jié)點(diǎn)劃分成細(xì)粒度的樣式樹(shù),再對(duì)樣式樹(shù)進(jìn)行權(quán)重標(biāo)注,根據(jù)權(quán)重標(biāo)注進(jìn)行剪枝,生成去噪頁(yè)面?;玖鞒倘鐖D2所示。

圖2 從樣本頁(yè)面到凈化頁(yè)面的總體流程
通常生成的樣式樹(shù),無(wú)權(quán)重表示,在屬性節(jié)點(diǎn)的基礎(chǔ)上,引入權(quán)重節(jié)點(diǎn)的概念。權(quán)重節(jié)點(diǎn)T表示為QT,記為Q(k,d,t,m)。其中,k表示鏈接比,即當(dāng)前節(jié)點(diǎn)中鏈接數(shù)占總鏈接數(shù)的比值;d表示樹(shù)路徑距離,即當(dāng)前節(jié)點(diǎn)與容器節(jié)點(diǎn)在樹(shù)形結(jié)構(gòu)上的距離;t表示文本比,即當(dāng)前節(jié)點(diǎn)文本占總文本的比例;m表示節(jié)點(diǎn)私有屬性的權(quán)重系數(shù)。為了使H(Qi)的值落在[0,1]之間,使用節(jié)點(diǎn)的標(biāo)簽個(gè)數(shù)n將H(Qi)歸一化。

(1)
其中,ki表示第i個(gè)標(biāo)簽的鏈接比;ti表示第i個(gè)標(biāo)簽的文本系數(shù);di表示第i個(gè)標(biāo)簽的樹(shù)路徑距離;D表示權(quán)重樹(shù)中的節(jié)點(diǎn)路徑和。
3.2視覺(jué)塊樹(shù)細(xì)粒度化
通常,VIPS生成的視覺(jué)樹(shù),只是初步提取了頁(yè)面的基本布局信息,粗粒度的視覺(jué)塊樹(shù)將噪聲和正文融合到了相同的塊中,必須進(jìn)行細(xì)粒度化。此時(shí)對(duì)生成的樣式樹(shù)進(jìn)行樣式節(jié)點(diǎn)和屬性節(jié)點(diǎn)的標(biāo)注。對(duì)已經(jīng)標(biāo)注完的塊節(jié)點(diǎn),進(jìn)行子元素的相似度分析。子元素的樣式節(jié)點(diǎn)用二元組表示,屬性節(jié)點(diǎn)標(biāo)識(shí)為E(Tag,Attrs,Content),由于li的Styles是以鍵值對(duì)的形式存在,在此將鍵值對(duì)轉(zhuǎn)化為樣式系數(shù)Ci,將塊標(biāo)簽Tag表示為HTML中對(duì)應(yīng)的NODE值,此時(shí)li表示為(Ti,Ci)。節(jié)點(diǎn)相似度判斷如下:

(2)
當(dāng)相關(guān)系數(shù)較小時(shí),將子節(jié)點(diǎn)進(jìn)行分裂。采用自頂向下的層次遍歷方式,完成對(duì)視覺(jué)樹(shù)的初步分裂。
3.3細(xì)節(jié)樹(shù)剪枝
此時(shí)得到的是一棵基于樣式的視覺(jué)樹(shù),在樣式和基本屬性上已經(jīng)不可細(xì)分,在此基礎(chǔ)上進(jìn)行噪聲的判斷。根據(jù)大量線上頁(yè)面的統(tǒng)計(jì),噪聲區(qū)域往往有比正文區(qū)域更多的鏈接比,更少的文本比,以及更淺的樹(shù)距離。故此處引入權(quán)重節(jié)點(diǎn)的概念,對(duì)細(xì)粒度化的視覺(jué)塊樹(shù)進(jìn)行自頂向下的標(biāo)注,對(duì)權(quán)重低的節(jié)點(diǎn)進(jìn)行剪枝操作。在初次遍歷的過(guò)程中,可進(jìn)行一次簡(jiǎn)單的預(yù)處理,對(duì)含有樣式樹(shù)節(jié)點(diǎn)中含有鍵值對(duì)display:none和position:fixed的節(jié)點(diǎn)進(jìn)行刪除操作,前者是網(wǎng)頁(yè)中不做顯示的元素,后者是懸浮窗,據(jù)大量網(wǎng)頁(yè)的觀察,兩者都是判斷噪聲節(jié)點(diǎn)的重要依據(jù)。
剪枝算法描述如下:
(1)獲取樣式樹(shù),設(shè)樣式樹(shù)為T(mén)i;
(2)For(樣式樹(shù)的每個(gè)節(jié)點(diǎn)Qi)
(3)if(該節(jié)點(diǎn)的css屬性中含有position:fixed,display:none等鍵值對(duì)時(shí)) then
(4)刪除該節(jié)點(diǎn);
(5)Else if
(6)計(jì)算出文本比,節(jié)點(diǎn)的距離深度,計(jì)算權(quán)重值H(Qi);
(7)For(樣式樹(shù)的每個(gè)節(jié)點(diǎn)QT);
(8)刪除平級(jí)節(jié)點(diǎn)中權(quán)重小的節(jié)點(diǎn)。
4 實(shí) 驗(yàn)
4.1數(shù)據(jù)集
為了驗(yàn)證文中算法的去噪效果,使用該算法對(duì)含有噪音的網(wǎng)頁(yè)進(jìn)行處理。考慮到頁(yè)面抽取時(shí)信息獲取的客觀性,選取網(wǎng)易、新浪等頁(yè)面各200個(gè),考研論壇等論壇型網(wǎng)頁(yè)200個(gè),從網(wǎng)頁(yè)處理的整體效果出發(fā),進(jìn)行網(wǎng)頁(yè)去噪的實(shí)驗(yàn)。
4.2評(píng)價(jià)指標(biāo)
在實(shí)驗(yàn)中,常見(jiàn)的評(píng)測(cè)指標(biāo)有準(zhǔn)確率和召回率。由于準(zhǔn)確率和召回率介于[0,1]之間,而且不相互獨(dú)立。所以文中引入同時(shí)兼顧準(zhǔn)確率和召回率的F1,即F-measure,作為綜合評(píng)價(jià)指標(biāo)。
準(zhǔn)確率為:
P=t0/t1
(3)
召回率為:
R=t0/t2
(4)
其中,t0表示當(dāng)前頁(yè)面被抽取出的正文塊;t1表示當(dāng)前頁(yè)面中全部的正文塊;t2表示被當(dāng)做正文中抽取出來(lái)的信息塊。
由于在F-measure公式中β通常用來(lái)調(diào)節(jié)準(zhǔn)確率和召回率的權(quán)重,而此處重點(diǎn)考慮的是網(wǎng)頁(yè)抽取的準(zhǔn)確率和召回率,所以取β為1,最終用來(lái)判斷實(shí)驗(yàn)效果的公式如下:

(5)
4.3實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證文中算法,分別進(jìn)行了兩組實(shí)驗(yàn),結(jié)果如表1和表2所示[16]。

表1 文中算法

表2 基于行塊分布函數(shù)算法
從上述實(shí)驗(yàn)可以看出,文中算法在準(zhǔn)確率和召回率方面要優(yōu)于基于行塊分布函數(shù)算法的頁(yè)面處理效果?;谛袎K分布函數(shù)的方法雖然實(shí)現(xiàn)簡(jiǎn)單,但是對(duì)去除標(biāo)簽后的文本分塊的數(shù)量選取將直接影響網(wǎng)頁(yè)正文提取的準(zhǔn)確率,而且去除標(biāo)簽同時(shí)也去除了頁(yè)面中大量可用的視覺(jué)信息,當(dāng)噪音文本與正文文本混雜時(shí),將會(huì)被提取。文中充分考慮了頁(yè)面的視覺(jué)特征,在當(dāng)前視覺(jué)元素豐富的網(wǎng)頁(yè)中,從網(wǎng)頁(yè)制作者的方向出發(fā),利用大量的視覺(jué)特性,提取視覺(jué)系數(shù),再利用正文內(nèi)容特征,合理去除頁(yè)面中的噪音塊,使正文塊更易被識(shí)別。
5 結(jié)束語(yǔ)
文中在VIPS分塊的基礎(chǔ)上,引入了樣式樹(shù)的概念,取消了原有的基于視覺(jué)繁雜的啟發(fā)式的規(guī)則,只使用了VIPS粗粒度的視覺(jué)分塊,對(duì)粗粒度的視覺(jué)塊樹(shù)進(jìn)行細(xì)粒度的劃分,進(jìn)一步考慮了視覺(jué)塊之間的相關(guān)性,再對(duì)標(biāo)注完權(quán)重的樣式樹(shù)進(jìn)行去噪操作。實(shí)驗(yàn)結(jié)果表明,該算法可以更好地去除頁(yè)面中導(dǎo)航欄等局部噪聲以及隱藏中正文塊的全局噪聲。該算法主要針對(duì)主題型頁(yè)面、論壇型頁(yè)面,但當(dāng)正文內(nèi)容和噪音內(nèi)容相似度較高時(shí),去噪效果不夠理想,這是該算法的局限性。在以后的研究中,將進(jìn)一步分析這些網(wǎng)頁(yè)的特征,尋求改進(jìn)方法,增強(qiáng)算法的健壯性。
[1] 歐石燕,唐振貴,蘇翡斐.面向信息檢索的術(shù)語(yǔ)服務(wù)構(gòu)建與應(yīng)用研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(2):32-51.
[2] Witten I H,Frank E.Data mining:practical machine learning tools and techniques[M].[s.l.]:Morgan Kaufmann Publishers Inc.,2011:206-207.
[3] 高 琪,張永平.超鏈接導(dǎo)向搜索算法中主題漂移的研究[J].計(jì)算機(jī)應(yīng)用,2009,29(11):3100-3102.
[4] 劉華星,楊 庚.HTML5-下一代Web開(kāi)發(fā)標(biāo)準(zhǔn)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(8):54-58.
[5] 李效東,顧毓清.基于DOM的Web信息提取[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):526-533.
[6] 胡金棟.網(wǎng)頁(yè)正文提取及去重技術(shù)研究[D].杭州:浙江大學(xué),2011.
[7] 汪建偉,楊冬青,高 軍,等.一種基于分類(lèi)算法的網(wǎng)頁(yè)信息提取方法[J].計(jì)算機(jī)科學(xué),2008,35(3):91-93.
[8] 王 琦,唐世渭,楊冬青,等.基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J].計(jì)算機(jī)研究與發(fā)展,2004,41(10):1786-1792.
[9] 李文立,王樂(lè)超,宋春雷.基于HTML樹(shù)和模板的文獻(xiàn)信息提取方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4615-4617.
[10] Fu Y,Yang D,Tang S,et al.Using XPath to discover informative content blocks of web pages[C]//Proceedings of third international conference on semantics,knowledge and grid.[s.l.]:[s.n.],2007.
[11] 趙 文,唐建雄,高慶鋒.基于統(tǒng)計(jì)的中文網(wǎng)頁(yè)正文抽取的研究[J].電腦知識(shí)與技術(shù),2008(1):120-123.
[12] 孫承杰,關(guān) 毅.基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J].中文信息學(xué)報(bào),2004,18(5):17-22.
[13] 劉晨曦,吳揚(yáng)揚(yáng).一種基于塊分析的網(wǎng)頁(yè)去噪音方法[J].廣西師范大學(xué):自然科學(xué)版,2007,25(2):149-152.
[14] 穆 瓊.基于視覺(jué)特征的網(wǎng)頁(yè)清洗研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[15] Yi L,Liu B,Li X.Eliminating noisy information in Webpages for data mining[C]//Proceedings of the 9th ACMSIGKDD international conference on knowledge discovery and data mining.New York:ACM,2003:296-305.
[16] 高慶寧,吳 鵬,張晶晶.基于文檔對(duì)象模型與行塊分布算法的網(wǎng)頁(yè)信息抽取[J].情報(bào)理論與實(shí)踐,2016,39(4):133-137.
ResearchonWebPageDenoisingMethodBasedonNodeWeight
WANG Jian,ZHANG Jin
(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
As the network information is increasing continuously,website information is not only an important information resource of users,but also important data source for data mining,information retrieval and other studies.To provide the text information with high quality,website denoising has become a nonnegligible step for webpage processing.With the continuous improvement of webpage making technology,visual elements in webpage are raised increasingly,and the information of webpage node becomes richer and richer.Visual information has been a nonnegligible and important part in webpage denoising.From a user’s point of view,the visual information can immediately reflect the importance of module in the page when browsing the web page.Traditional webpage denoising technology is neglected in the visual characteristics of webpage too much.Facing to the current complex webpage,the denoising effects are decreased greatly.Based on the comprehensive visual information and node information,a noise weight-based denoising method is proposed which fully considers the visual and content characteristics of nodes.The experimental results indicate that its accuracy rate and recall rate is improved to certain content.
vision characteristics;node weight;accuracy rate;recall rate
TP301
A
1673-629X(2017)10-0083-04
2016-11-15
2017-03-07 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-07-19
教育部專(zhuān)項(xiàng)研究項(xiàng)目(2013116)
王 健(1991-),男,碩士,研究方向?yàn)榇髷?shù)據(jù)。
http://kns.cnki.net/kcms/detail/61.1450.tp.20170719.1110.056.html
10.3969/j.issn.1673-629X.2017.10.018
主站蜘蛛池模板:
精品偷拍一区二区|
免费观看三级毛片|
国内黄色精品|
国产熟睡乱子伦视频网站|
国产精品福利在线观看无码卡|
国产精品无码翘臀在线看纯欲|
午夜少妇精品视频小电影|
一级香蕉视频在线观看|
啊嗯不日本网站|
国产精品永久免费嫩草研究院|
亚洲欧洲日本在线|
亚洲日韩AV无码精品|
欧美狠狠干|
99热国产在线精品99|
妇女自拍偷自拍亚洲精品|
狠狠综合久久|
四虎永久在线|
丁香婷婷激情综合激情|
沈阳少妇高潮在线|
日本高清免费不卡视频|
国产日韩精品欧美一区喷|
亚洲国产成人自拍|
国产精品网址在线观看你懂的|
国产成人在线小视频|
日本黄色不卡视频|
亚洲欧美成人综合|
99热这里只有精品免费|
巨熟乳波霸若妻中文观看免费|
色综合久久综合网|
亚洲日韩每日更新|
欧美成人亚洲综合精品欧美激情|
四虎综合网|
国产国拍精品视频免费看|
五月天久久婷婷|
国产精品免费久久久久影院无码|
欧美啪啪网|
欧美一区二区啪啪|
免费看美女毛片|
欧美精品影院|
51国产偷自视频区视频手机观看|
99热国产在线精品99|
中文字幕色在线|
91精品国产综合久久不国产大片|
国产精品亚洲а∨天堂免下载|
日本午夜三级|
一本久道久久综合多人|
国产成在线观看免费视频|
婷婷在线网站|
欧美国产综合视频|
人与鲁专区|
国产一级在线播放|
国产精品黄色片|
国产真实二区一区在线亚洲|
亚洲日韩第九十九页|
亚洲第一区在线|
国产熟女一级毛片|
国产午夜福利亚洲第一|
国产男女XX00免费观看|
亚洲综合第一区|
成人国产精品2021|
蜜臀AVWWW国产天堂|
日韩免费无码人妻系列|
无码中文字幕乱码免费2|
国产麻豆精品在线观看|
欧美区一区|
国产丰满大乳无码免费播放|
亚洲免费福利视频|
亚洲国产91人成在线|
国产网站黄|
午夜精品区|
黄色污网站在线观看|
欧美视频二区|
精品中文字幕一区在线|
国产永久在线视频|
高清无码手机在线观看|
成人av专区精品无码国产|
2021国产乱人伦在线播放
|
99ri精品视频在线观看播放|
午夜无码一区二区三区在线app|
国产精品xxx|
亚洲最大综合网|
91黄视频在线观看|