胡 瑞,郭 星,黃永聰
(安徽大學 計算機科學與技術學院,安徽 合肥 230601)
?
基于視覺特征的主題型網(wǎng)頁信息抽取
胡瑞,郭星,黃永聰
(安徽大學計算機科學與技術學院,安徽合肥230601)
摘要:互聯(lián)網(wǎng)高速發(fā)展的多年積累,如今web已經(jīng)成為我們每一個普通人日常的一部分.Web絕對是世界上最大的信息數(shù)據(jù)庫.同時每一個web頁面中也包含這個目標信息以外的各種廣告鏈接.稱之為噪聲.如何有效的過濾噪聲,提取想要的目標內容已經(jīng)成為一個實用且重要的研究領域.傳統(tǒng)的方法大多都是基于DOM樹及網(wǎng)頁源代碼的.這里在基于網(wǎng)頁視覺特征分塊算法VIPS的基礎上,通過觀察歸納網(wǎng)頁目標內容和噪聲的視覺特征來進行噪聲過濾和目標內容提取.并提出了基于噪聲和目標內容的視覺特征區(qū)別算法NGFV(Based on noise and goal content visual feature algorithm).
關鍵詞:VIPS;NGFV;噪聲過濾;DOM樹
隨著互聯(lián)網(wǎng)的告訴發(fā)展和個人計算機的普及,因特網(wǎng)上的信息已經(jīng)龐大到人類前幾個世紀信息總數(shù)的多倍!網(wǎng)頁無疑成為最龐大的信息資源,我們在日常生活中早已離不開這種信息獲取和發(fā)布的方式.
如何對網(wǎng)頁中信息進行高效的提取,去除噪聲獲取我們想要的信息.傳統(tǒng)角度很自然都是基于網(wǎng)頁源代碼的分析研究的.但是觀察網(wǎng)頁特點,我們很容易發(fā)現(xiàn)雖然因特網(wǎng)上有大量的網(wǎng)頁,但是其頁面都是有一點的特征和板塊分布規(guī)律的.我們稱之為頁面特征,于是一些基于頁面視覺特征的網(wǎng)頁信息抽取的方法相繼提出.尤其是在VIPS算法[1]提出以后.本文將在前人的一些基礎上提出自己的基于視覺特征信息抽取算法.
對于網(wǎng)頁信息的抽取大多都是利用網(wǎng)頁的HTML源文件對網(wǎng)頁進行解析生成語法樹.傳統(tǒng)的網(wǎng)頁信息抽取技術我們大體分為三類:(1)基于包裝器(Wrapper)的方法;(2)基于DOM(Document Object Model)規(guī)格樹的方法;(3)基于機器學習的方法.首先基于包裝器的方法前提是一個網(wǎng)頁必須能夠分為語意相關的幾個部分,包裝器就可以很容易的匹配并提取數(shù)據(jù),包裝器可以通過一些人工的或自動的算法生成.而基于DOM規(guī)格樹的方法主要是基于Web頁面HTML結構和標簽屬性的.很多研究都是基于此方法的,比如文獻[2].機器學習方法主要用于內容提取和分類實驗,常用的算法有:HMM.CRF,SVM來完成內容提取.這些對web data抽取的方法一般都是基于分析HTML源碼或者網(wǎng)頁的標簽等,這些方法會有兩個問題:第一,他們都是基于網(wǎng)頁編程語言的,但是無論什么編程語言都是在不斷更新不斷變化的尤其是HTML,所以當每一次新版本和新標簽引進的時候之前的工作就必須進行相應的修改.第二,它們也不能解決網(wǎng)頁源碼日益復雜化的問題,比如之前的很多方法就沒有考慮到在HTML網(wǎng)頁中的JAVASCRIPT,CSS等因素.
本文采用基于web頁面視覺特征的方法來進行網(wǎng)頁目標信息提取.目前涉及到網(wǎng)頁視覺特征的研究成果也有很多[3],這些研究試圖將網(wǎng)頁信息提取與網(wǎng)頁的源碼分離開來,取得了一定的成果,但總體上任然出于發(fā)展階段.大多都是基于VPIS算法的基礎上提出的一些信息塊定位方法,本文也是如此.在比較同一個網(wǎng)站上兩個乃至多個網(wǎng)頁后根據(jù)網(wǎng)頁視覺快上的視覺特征進行定位.
本算法是在對網(wǎng)頁使用VIPS算法進行視覺分塊后生成視覺分塊樹VBT(Visual Block Tree),進行進一步處理,關于VIPS算法在文獻[1]中有詳細介紹,在此不再熬述.如圖1:網(wǎng)頁對應的視覺樹

圖1 新浪網(wǎng)頁的VBT
目標內容塊B確定
首先對于上圖中得到的BAT的每個視覺快B都有相應的信息記錄:如在網(wǎng)頁中的位置,大小,文字特征,圖片,視頻等等一些列信息記錄.在這些信息的基礎上我們對視覺快B節(jié)點做如下的預定義:
定義1節(jié)點B的面積S_B與web頁面面積S_page之比
定義2節(jié)點B純文本密度ρ_text等于節(jié)點B的純文本長度L_text和B的面積之比ρ_text=
定義3節(jié)點B的超鏈接密度ρ_link等于節(jié)點B的超鏈接長度L_link與B中純文本和超鏈接文本的長度和之比.
定義4節(jié)點B中的超鏈接數(shù)為num_link.
定義5同一網(wǎng)站上不同網(wǎng)頁相同位置節(jié)點Bti和Btj的相異性Diversity(Bti,Btj)=|γti-γtj|+|ρti_text -ρtj_link|其中Bti和Btj是同一網(wǎng)站上第i和j個 web網(wǎng)頁所生成的VBT上的相應節(jié)點B.i,j= {1,2,3,4,……}.相應的γti,ρti_text,ρtj_link|分別指第i 個web頁面所生成的VBT上節(jié)點B的面積S_B與web頁面面積S_page之比,純文本密度和超鏈接密度.
對上面的定義的解釋說明:
對于一個網(wǎng)站,尤其是各大門戶網(wǎng)站,例如新浪網(wǎng),鳳凰網(wǎng),騰訊網(wǎng).其所包含的無數(shù)網(wǎng)頁中基本組成格式肯定是基本一樣的.網(wǎng)頁中噪聲塊的內容,超鏈接數(shù)及超鏈接密度,和大小也基本上是相似的乃至相同的.而我們的目標內容卻各不相同,相應的內容中純文本密度,內容塊大小,超鏈接個數(shù)也各不相同,如圖2.我們上面的定義和下面的算法也就是基于網(wǎng)頁的這種視覺特點進行處理的.
由此有Diversity(Bti,Btj)值越大則節(jié)點Bti和Btj區(qū)別越大,那么越有可能是我們的目標內容節(jié)點.相反則為噪聲節(jié)點.
據(jù)此我們在為Diversity(Bti,Btj)定義一個臨界值η,當Diversity(Bti,Btj)>η時此位置的節(jié)點B為我們要提取的目標內容節(jié)點,反正為噪聲節(jié)點.其中η=0.06由實驗確定.

圖2 兩個同類網(wǎng)頁的比較
NGFV算法
算法輸入:一個網(wǎng)站的不同網(wǎng)頁視覺樹VBT,ti,tj.
算法輸出:返回目標內容視覺快的信息.
步驟:


本文實驗結果也采用信息抽取主要的評價指標準確率(Precision)和召回率(Recall).

分別取新浪,鳳凰,騰訊和網(wǎng)頁四大主題型網(wǎng)站內的各100個網(wǎng)頁進行實驗.實驗結果如表所示:

表一 實驗結果
從實驗結果可以看出本文所提出的基于視覺樹的主題網(wǎng)頁信息抽取算法——基于噪聲和目標內容塊區(qū)別性的算法在準確率和召回率上都相對較高.但偶爾也會因為某些網(wǎng)頁的特殊性比如目標內容中文本很少甚至有大量超鏈接存在等特殊情況導致結果有些不理想.但總體上對于大多數(shù)主題信息類型的網(wǎng)頁的信息抽取都很理想.
本文在VPIS算法生成視覺樹VBT的基礎上提出了針對主題型網(wǎng)頁目標內容的抽取算法,利用網(wǎng)頁中噪聲和目標信息的視覺和內容區(qū)別的特點來進行信息定位.由于主題型網(wǎng)頁中目標信息一般都存在視覺樹VBT的第二層或第三層的某個節(jié)點中,所以通過對視覺樹VBT的廣度優(yōu)先遍歷進行定位而且找到符合要求的節(jié)點就返回結果.
進一步的研究將會涉及到更多類型的網(wǎng)站如BBS型,電商型等.并將嘗試對VPIS算法進行一些細微的前期處理從而更加有助于后期的提取算法的編寫.
參考文獻:
〔1〕Deng Cai,Shipeng Yu,Ji-Rong Wen,等.Extracting Content Structure for Web Pages based on Visual Representation [C].Proc Asia Pacific Web Conference.2003:406-417.
〔2〕Bhavdeep Mehta,Meera Narvekar.DOM Tree Based Approach for Web Content Extraction [C].India,ICCICT,2015:16-17.
〔3〕Narwal,Neetu.Improving web data extraction by noise removal.Communication and Computing (ARTCom)[C].2013:388-395.
〔4〕Mr.SatishJ.Pusdekar,Pro.Shaikh.phiroj Chhaware.Using Visual Clues Concept for Extracting Main Data from Deep Web Pages.International Conference on Electronic Systems,Signal Processing and Computing Technologies [C].2014:190-193.
〔5〕吳倩,楊逍,張兆心.基于視覺特征的網(wǎng)頁信息提取[C].第六屆全國信息檢索學術會議,2010.16-23.
〔6〕于滿泉,陳鐵睿,許哄波,基于分塊的網(wǎng)頁信息解析器研究與設計[J].計算機應用.2005,25(4):974-976.
〔7〕陳勁,林懷忠,陳方疏,等.一種從中文網(wǎng)頁中抽取信息的綜合方法.計算機研究與發(fā)展[S].2012.171-178.
〔8〕張昕,鄂海紅,宋美娜.基于視覺特征的就業(yè)信息頁面抽取方法[J].軟件,2014,35(9):16-20.
〔9〕Lei Fu,Yao Meng,Yingju XIA,等.Content Extraction based on Webpage Layout Analysis[C].IEEE,2010:40-43.
基金項目:安徽大學創(chuàng)新基金項目(yph100153)
收稿日期:2015-12-7
中圖分類號:TP311.12
文獻標識碼:A
文章編號:1673-260X(2016)03-0023-03