任 翔,劉 彬
(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)
基于超鏈接分析的網(wǎng)頁(yè)正文提取方法
任 翔,劉 彬
(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)
隨著網(wǎng)絡(luò)的迅猛發(fā)展,w eb服務(wù)已經(jīng)成為研究的熱點(diǎn)之一.本文介紹了一種文件類型網(wǎng)頁(yè)文件的文本信息預(yù)處理技術(shù).該方法能夠解析網(wǎng)頁(yè)文件的組成結(jié)構(gòu),并從中提取出主體文本以供處理.測(cè)試表明該方法能快速有效地得到大部分HTML網(wǎng)頁(yè)的主體部分.
網(wǎng)頁(yè)正文;w eb服務(wù);超鏈接
人們?cè)谠O(shè)計(jì)網(wǎng)頁(yè)的時(shí)候,總是準(zhǔn)備了一定的素材,這些素材是設(shè)計(jì)者希望通過(guò)網(wǎng)頁(yè)傳達(dá)給訪問(wèn)者的信息.但是由于孤立的網(wǎng)頁(yè)很難被訪問(wèn),設(shè)計(jì)者會(huì)增加一些內(nèi)容來(lái)連接不同的頁(yè)面,例如增加超鏈接目錄或者具有搜索功能的表單等.增加的文字僅僅起向?qū)У淖饔?內(nèi)容通常和頁(yè)面原有的內(nèi)容不重疊,因而它們的加入會(huì)影響網(wǎng)頁(yè)內(nèi)容的原貌.
我們把網(wǎng)頁(yè)設(shè)計(jì)者為了輔助網(wǎng)站組織而增加的文字定義為“噪聲”,把原本要表達(dá)的文字素材稱為“主題內(nèi)容”.網(wǎng)頁(yè)含有指向其它網(wǎng)頁(yè)的一些超鏈接文字,它們通常聚集成塊,且獨(dú)立于主題內(nèi)容,僅僅起向?qū)У淖饔?這一類正是我們要去除的噪聲;網(wǎng)頁(yè)中含有的超鏈接文字出現(xiàn)在正文文字中間,具有向?qū)Ш完愂龅碾p重作用,即它們引向另一個(gè)網(wǎng)頁(yè)的同時(shí)也是當(dāng)前頁(yè)面主題內(nèi)容的一部分,如圖1所示,姚明和休斯頓火箭這兩個(gè)超鏈接可以說(shuō)明這個(gè)網(wǎng)頁(yè)是介紹NBA火箭隊(duì)和中國(guó)球星姚明的事情的,這兩個(gè)關(guān)鍵詞可以代表網(wǎng)頁(yè)內(nèi)容.因此這種超鏈接是不能去除的,并且對(duì)網(wǎng)頁(yè)描述的意義重大.

圖1 超鏈接示例
2.1 現(xiàn)有的網(wǎng)頁(yè)正文提取方法
網(wǎng)頁(yè)文檔本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,其數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,復(fù)雜程度遠(yuǎn)遠(yuǎn)高于普通的文本文檔,其數(shù)據(jù)結(jié)構(gòu)隱含、模式信息量大、模式變化快.
當(dāng)前對(duì)網(wǎng)頁(yè)文檔的正文提取方法有很多,文獻(xiàn)[3]的方法是對(duì)于使用同一個(gè)模板生成的網(wǎng)頁(yè)集,找出在該網(wǎng)頁(yè)集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁(yè)集中共同出現(xiàn)較少的內(nèi)容塊就是有效的網(wǎng)頁(yè)正文.實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁(yè)集,而web上的網(wǎng)頁(yè)模板不計(jì)其數(shù),因此該方法顯然不夠通用.
還有一種比較流行的方法是通過(guò)對(duì)網(wǎng)頁(yè)劃分為多個(gè)塊,然后根據(jù)某種算法進(jìn)行取舍,找到正文所在的那個(gè)塊,提取出來(lái).現(xiàn)在存在多種網(wǎng)頁(yè)劃分成塊的方式,如基于DOM的分割[4],基于位置的分割[5],還有V ision-based Page Segm en tation[6].在文獻(xiàn)[7]中,作者使用Site Style Tree(SST)來(lái)描述網(wǎng)頁(yè)的版面和內(nèi)容,并定義了SST中節(jié)點(diǎn)的重要程度,通過(guò)節(jié)點(diǎn)的刪剪來(lái)得到網(wǎng)頁(yè)正文.
以上方法都是對(duì)HTML語(yǔ)義結(jié)構(gòu)進(jìn)行分析,找到網(wǎng)頁(yè)正文所在的位置進(jìn)行處理,提取出網(wǎng)頁(yè)的正文.但這些方法對(duì)于網(wǎng)頁(yè)結(jié)構(gòu)出現(xiàn)非常規(guī)現(xiàn)象時(shí),效果不好.比如網(wǎng)頁(yè)的正文極短,而該網(wǎng)頁(yè)中的廣告欄含有的文字量很大,這樣會(huì)把廣告所在的部分當(dāng)成了正文部分提取出來(lái),造成提取的失敗,并且由于加入了HTML語(yǔ)義分析,使得程序處理網(wǎng)頁(yè)的速度變慢,為了達(dá)到準(zhǔn)確率高和速度快并存的目標(biāo),本文提出了基于超鏈接分析的網(wǎng)頁(yè)正文提取方法.
聽了陳誠(chéng)的一番話,胡璉這位只有三十六歲的年輕將軍內(nèi)心很復(fù)雜。作為黃埔四期的高材生,他在抗戰(zhàn)中屢立戰(zhàn)功,從旅長(zhǎng)到副師長(zhǎng),一直到現(xiàn)在成為肩扛將星的師長(zhǎng),多少次出生入死,他早已將生死置之度外。此時(shí),他不想多說(shuō)什么,作為軍人,他只有服從命令,忠于職守,即使付出鮮血和生命,只要能夠取得勝利,那就是死得其所!想到這兒,他眼含熱淚,雙腳一并,向陳誠(chéng)敬了一個(gè)標(biāo)準(zhǔn)的軍禮,大聲說(shuō):“請(qǐng)總司令放心,胡璉決心與石牌共存亡,不成功便成仁。”
2.2 網(wǎng)頁(yè)預(yù)處理
在使用超鏈接判斷之前,先要對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,去掉一些與正文無(wú)關(guān)的元素,分析如下:
首先是網(wǎng)頁(yè)正文存放的位置,它是包含在之間,作為某個(gè)HTML元素的內(nèi)容出現(xiàn)的,比如元素的內(nèi)容.因此我們只需要對(duì)有內(nèi)容的元素進(jìn)行分析,而那些沒(méi)有內(nèi)容只有標(biāo)簽的元素可以刪掉.例如注釋標(biāo)簽, 對(duì)于有內(nèi)容的HTML元素,例如style和scrip t等元素不包含正文.style元素主要是用來(lái)改善網(wǎng)頁(yè)的顯示效果的,它的內(nèi)容主要是設(shè)計(jì)網(wǎng)頁(yè)顯示的屬性,和網(wǎng)頁(yè)正文無(wú)關(guān);scrip t元素是腳本程序,用來(lái)設(shè)計(jì)動(dòng)態(tài)網(wǎng)頁(yè),它的內(nèi)容也和網(wǎng)頁(yè)正文無(wú)關(guān).因此要將這兩個(gè)元素刪除. 由于style元素,scrip t元素是必須有結(jié)束標(biāo)簽的,所以很容易定位這些元素所對(duì)應(yīng)的子字符串在網(wǎng)頁(yè)文檔總字符串s中的位置和長(zhǎng)度,但考慮到很多網(wǎng)頁(yè)的不規(guī)范性,為提高程序的容錯(cuò)性能,采用了一種標(biāo)簽配對(duì)的方法,將這些要?jiǎng)h除的元素各部分補(bǔ)齊,然后再進(jìn)行匹配刪除. 標(biāo)簽配對(duì)的方法如下:由于在style元素、scrip t元素的內(nèi)容中,除了存在注釋標(biāo)簽外,不會(huì)出現(xiàn)其他的標(biāo)簽,因此從開始標(biāo)簽向后查找,在除注釋標(biāo)簽之外的其他標(biāo)簽之前插入結(jié)束標(biāo)簽即可完成標(biāo)簽配對(duì). 雖然HTML協(xié)議允許出現(xiàn)元素的交叉,即 2.3 基于超鏈接分析的網(wǎng)頁(yè)正文提取 利用超鏈接可以判斷網(wǎng)頁(yè)的正文,我們采用的具體啟發(fā)式規(guī)則如下: ①一篇有主題網(wǎng)頁(yè)中的正文通常是用成段的文字來(lái)描述,中間通常不會(huì)加入大量的超鏈接,而非正文信息通常是伴隨著大量超鏈接出現(xiàn)的. ②正文中的兩個(gè)超鏈接之間的文字個(gè)數(shù)不會(huì)太少,而兩個(gè)廣告超鏈接或?qū)Ш匠溄又g的中文文字個(gè)數(shù)很少,有時(shí)沒(méi)有,有時(shí)只有幾個(gè).因此在這里我們對(duì)兩個(gè)超鏈接之間的中文文字個(gè)數(shù)設(shè)置了一個(gè)閾值用來(lái)判斷是否為正文超鏈接,通過(guò)實(shí)驗(yàn)證明,15個(gè)字?jǐn)?shù)的區(qū)分度較為合適. 本文基于以上的啟發(fā)式規(guī)則,提出了一種超鏈接判斷正文過(guò)濾法的新算法.該算法主要思想是通過(guò)判斷網(wǎng)頁(yè)中出現(xiàn)的超鏈接的性質(zhì),來(lái)判斷超鏈接前后的文字是否是網(wǎng)頁(yè)正文. 在經(jīng)過(guò)網(wǎng)頁(yè)預(yù)處理后,這時(shí)只剩下超鏈接標(biāo)簽還沒(méi)有刪除,開始對(duì) 超鏈接判斷正文過(guò)濾法的具體算法如算法1所示: 算法1 超鏈接判斷正文過(guò)濾算法 程序流程圖如圖2所示: 圖2 程序模塊流程圖 超鏈接判斷正文過(guò)濾法的程序?qū)崿F(xiàn)是采用的D elphi7設(shè)計(jì)的,開發(fā)的硬件平臺(tái)為:pen tium 4 2.4G的CPU,512M內(nèi)存.為了驗(yàn)證這個(gè)新算法的正確性,從各大網(wǎng)站下載了1萬(wàn)張網(wǎng)頁(yè)進(jìn)行了實(shí)驗(yàn),并隨機(jī)抽取了1000張網(wǎng)頁(yè)的處理結(jié)果進(jìn)行驗(yàn)證,只有少數(shù)幾個(gè)網(wǎng)頁(yè)沒(méi)有抽取出正文,經(jīng)分析發(fā)現(xiàn)是由于該網(wǎng)頁(yè)是一個(gè)網(wǎng)站的首頁(yè),全部是鏈接構(gòu)成的,沒(méi)有正文部分,故認(rèn)為程序是正確的.該程序在執(zhí)行效率上也是很好的,對(duì)一個(gè)1000字左右的網(wǎng)頁(yè)抽取正文,平均時(shí)間為17毫秒.并且本算法克服了分塊算法容易出現(xiàn)的錯(cuò)誤,即找錯(cuò)網(wǎng)頁(yè)正文所在的塊.如鏈接地址為h ttp://new s.sina.com.cn/w/p/2006-12-30/ 180811925138.sh tm l的網(wǎng)頁(yè),它的正文部分只有一句話,而與正文無(wú)關(guān)的廣告卻占了很大篇幅,這樣就會(huì)造成網(wǎng)頁(yè)正文提取的失敗,而本算法可以順利提取出該網(wǎng)頁(yè)的正文部分.如圖3所示: 圖3 網(wǎng)頁(yè)正文提取實(shí)例 經(jīng)過(guò)一些有代表性的網(wǎng)站(見表1)測(cè)試,我們認(rèn)為,該方法能有效得到大部分HTML網(wǎng)頁(yè)的正文部分. 表1 經(jīng)過(guò)測(cè)試的網(wǎng)站 為了驗(yàn)證本算法的效果,采用聚類實(shí)驗(yàn)來(lái)檢驗(yàn).在聚類實(shí)驗(yàn)中,準(zhǔn)備五類網(wǎng)頁(yè),分別為:時(shí)尚類、體育類、娛樂(lè)類、政治類、汽車類,每類網(wǎng)頁(yè)數(shù)為30.本文做了兩組實(shí)驗(yàn),在第一組實(shí)驗(yàn)中,沒(méi)有使用網(wǎng)頁(yè)正文提取而直接對(duì)網(wǎng)頁(yè)提取特征描述,然后采用遺傳算法與k-m eans結(jié)合的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在第二組實(shí)驗(yàn)中,先調(diào)用本文中的算法來(lái)得到網(wǎng)頁(yè)測(cè)試集的正文,然后得到網(wǎng)頁(yè)的特征描述,最后采用的與第一組相同的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在這里,本文使用網(wǎng)頁(yè)的召回率和精確率來(lái)描述聚類的結(jié)果. 兩組實(shí)驗(yàn)的數(shù)據(jù)結(jié)果對(duì)比如圖4、圖5所示: 圖4 召回率對(duì)比 圖5 精確率對(duì)比 通過(guò)圖4、圖5所做的對(duì)比可知,在使用了本算法的第二組數(shù)據(jù)中,聚類的召回率和精確率都有了改進(jìn),特別是精確率有了明顯的提高. 網(wǎng)頁(yè)文檔是網(wǎng)上應(yīng)用最多的文件格式,處理好網(wǎng)頁(yè)文檔對(duì)處理網(wǎng)上的信息內(nèi)容有很大的意義.本文提出了一種網(wǎng)頁(yè)文檔提取正文的方法,該方法通過(guò)分析網(wǎng)頁(yè)中出現(xiàn)的超鏈接,得到網(wǎng)頁(yè)的正文.測(cè)試表明該方法能有效地得到大部分網(wǎng)頁(yè)的主體部分.本文中對(duì)HTML文件正文提取的方法不僅可以用于提取出HTML文件的主體文本,還可以用于網(wǎng)頁(yè)的特征提取以及網(wǎng)頁(yè)的分類、推薦等web服務(wù)領(lǐng)域,具有較強(qiáng)的推廣應(yīng)用價(jià)值. [1]Tkach D.Technology TextM in ing:Turn ing Inform ation into Know ledge[R].America:AW hite Paper from IBM,1998. [2]Baizilay R,ElhadadM.U sing LexicalChains for Text Summ arization[C].M adrid,Spain:Proceeding of the ACL’97/EACL’97W orkshop on Intelligent Scalable Text Summarization,1997. [3]Sh ianHuaL in,JanM ingHo.D iscovering inform ative contentblocks from W eb documents[C].Edmonton:SIGKDD,2002. [4]Chen J.,Zhou B.,Shi J.,Zhang H.-J.,Q iu F.Function Based ObjectModel TowardsW ebsite Adap tation[C].Hong kong:Procrrdingsof the 10 thW orldW ideW eb conference,2001. [5]KovaceivicM.,D iligentiM.,Gori,M.,M ilutinovic V..Recognition of Common A reas in aW eb Page U sing V isual Information[C]. M aebashi TERRSAA:A possible app lication in a page classification.Proceedings of 2002 IEEE International Conference on Data M ining( ICDMp02),2002. [6]Yu S.,CaiD.,W en J.-R.,M aW.-Y..Imp roving Pseudo Relevance Feedback inW eb Inform ation retrievalUsingW eb Page Segmentation[C].Budapest:Proceedingsof twelfthW orldW ideW eb Conference(WWW 2003),2003. [7]Lan Yi,B ing L iu,XiaoliL i.Elim inatingNoisy Inform ation inW eb Pages forDataM ing[C].W ashington:Proceed ingsof the nin th ACM SIGKDD international conference on Know ledge discovery and datam ining,2003. Research on M a in Tex t Ex traction for Ch ineseW eb Pages Based onW eb Hyper link REN X iang,L IU B in W ith the inc rease of In ternet,w eb service has been the focusof research.The paperp roposes a Chineseweb pagesp rep rocessingm ethod.Them ethod can parsew eb pages,and extract them ain part from theweb pages.The experim ent show s that them ethod is feasib le to parsew eb pages. m ain textofweb pages;web service;hyperlink TP391 A 1672-2590(2010)03-0044-05 2010-03-28 任 翔(1983-),男,山東泰安人,泰山學(xué)院信息科學(xué)技術(shù)學(xué)院教師.
,
等就被刪除.

3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果




4 結(jié)束語(yǔ)
(Schoolof Info rm ation Science and Techno logy,Taishan University,Tai’an,271021,China)