999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于超鏈接分析的網(wǎng)頁(yè)正文提取方法

2010-09-14 13:30:36翔,劉
泰山學(xué)院學(xué)報(bào) 2010年3期
關(guān)鍵詞:內(nèi)容實(shí)驗(yàn)方法

任 翔,劉 彬

(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

基于超鏈接分析的網(wǎng)頁(yè)正文提取方法

任 翔,劉 彬

(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

隨著網(wǎng)絡(luò)的迅猛發(fā)展,w eb服務(wù)已經(jīng)成為研究的熱點(diǎn)之一.本文介紹了一種文件類型網(wǎng)頁(yè)文件的文本信息預(yù)處理技術(shù).該方法能夠解析網(wǎng)頁(yè)文件的組成結(jié)構(gòu),并從中提取出主體文本以供處理.測(cè)試表明該方法能快速有效地得到大部分HTML網(wǎng)頁(yè)的主體部分.

網(wǎng)頁(yè)正文;w eb服務(wù);超鏈接

0 引言

1 超鏈接的作用

人們?cè)谠O(shè)計(jì)網(wǎng)頁(yè)的時(shí)候,總是準(zhǔn)備了一定的素材,這些素材是設(shè)計(jì)者希望通過(guò)網(wǎng)頁(yè)傳達(dá)給訪問(wèn)者的信息.但是由于孤立的網(wǎng)頁(yè)很難被訪問(wèn),設(shè)計(jì)者會(huì)增加一些內(nèi)容來(lái)連接不同的頁(yè)面,例如增加超鏈接目錄或者具有搜索功能的表單等.增加的文字僅僅起向?qū)У淖饔?內(nèi)容通常和頁(yè)面原有的內(nèi)容不重疊,因而它們的加入會(huì)影響網(wǎng)頁(yè)內(nèi)容的原貌.

我們把網(wǎng)頁(yè)設(shè)計(jì)者為了輔助網(wǎng)站組織而增加的文字定義為“噪聲”,把原本要表達(dá)的文字素材稱為“主題內(nèi)容”.網(wǎng)頁(yè)含有指向其它網(wǎng)頁(yè)的一些超鏈接文字,它們通常聚集成塊,且獨(dú)立于主題內(nèi)容,僅僅起向?qū)У淖饔?這一類正是我們要去除的噪聲;網(wǎng)頁(yè)中含有的超鏈接文字出現(xiàn)在正文文字中間,具有向?qū)Ш完愂龅碾p重作用,即它們引向另一個(gè)網(wǎng)頁(yè)的同時(shí)也是當(dāng)前頁(yè)面主題內(nèi)容的一部分,如圖1所示,姚明和休斯頓火箭這兩個(gè)超鏈接可以說(shuō)明這個(gè)網(wǎng)頁(yè)是介紹NBA火箭隊(duì)和中國(guó)球星姚明的事情的,這兩個(gè)關(guān)鍵詞可以代表網(wǎng)頁(yè)內(nèi)容.因此這種超鏈接是不能去除的,并且對(duì)網(wǎng)頁(yè)描述的意義重大.

圖1 超鏈接示例

2 網(wǎng)頁(yè)正文提取

2.1 現(xiàn)有的網(wǎng)頁(yè)正文提取方法

網(wǎng)頁(yè)文檔本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,其數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,復(fù)雜程度遠(yuǎn)遠(yuǎn)高于普通的文本文檔,其數(shù)據(jù)結(jié)構(gòu)隱含、模式信息量大、模式變化快.

當(dāng)前對(duì)網(wǎng)頁(yè)文檔的正文提取方法有很多,文獻(xiàn)[3]的方法是對(duì)于使用同一個(gè)模板生成的網(wǎng)頁(yè)集,找出在該網(wǎng)頁(yè)集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁(yè)集中共同出現(xiàn)較少的內(nèi)容塊就是有效的網(wǎng)頁(yè)正文.實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁(yè)集,而web上的網(wǎng)頁(yè)模板不計(jì)其數(shù),因此該方法顯然不夠通用.

還有一種比較流行的方法是通過(guò)對(duì)網(wǎng)頁(yè)劃分為多個(gè)塊,然后根據(jù)某種算法進(jìn)行取舍,找到正文所在的那個(gè)塊,提取出來(lái).現(xiàn)在存在多種網(wǎng)頁(yè)劃分成塊的方式,如基于DOM的分割[4],基于位置的分割[5],還有V ision-based Page Segm en tation[6].在文獻(xiàn)[7]中,作者使用Site Style Tree(SST)來(lái)描述網(wǎng)頁(yè)的版面和內(nèi)容,并定義了SST中節(jié)點(diǎn)的重要程度,通過(guò)節(jié)點(diǎn)的刪剪來(lái)得到網(wǎng)頁(yè)正文.

以上方法都是對(duì)HTML語(yǔ)義結(jié)構(gòu)進(jìn)行分析,找到網(wǎng)頁(yè)正文所在的位置進(jìn)行處理,提取出網(wǎng)頁(yè)的正文.但這些方法對(duì)于網(wǎng)頁(yè)結(jié)構(gòu)出現(xiàn)非常規(guī)現(xiàn)象時(shí),效果不好.比如網(wǎng)頁(yè)的正文極短,而該網(wǎng)頁(yè)中的廣告欄含有的文字量很大,這樣會(huì)把廣告所在的部分當(dāng)成了正文部分提取出來(lái),造成提取的失敗,并且由于加入了HTML語(yǔ)義分析,使得程序處理網(wǎng)頁(yè)的速度變慢,為了達(dá)到準(zhǔn)確率高和速度快并存的目標(biāo),本文提出了基于超鏈接分析的網(wǎng)頁(yè)正文提取方法.

聽了陳誠(chéng)的一番話,胡璉這位只有三十六歲的年輕將軍內(nèi)心很復(fù)雜。作為黃埔四期的高材生,他在抗戰(zhàn)中屢立戰(zhàn)功,從旅長(zhǎng)到副師長(zhǎng),一直到現(xiàn)在成為肩扛將星的師長(zhǎng),多少次出生入死,他早已將生死置之度外。此時(shí),他不想多說(shuō)什么,作為軍人,他只有服從命令,忠于職守,即使付出鮮血和生命,只要能夠取得勝利,那就是死得其所!想到這兒,他眼含熱淚,雙腳一并,向陳誠(chéng)敬了一個(gè)標(biāo)準(zhǔn)的軍禮,大聲說(shuō):“請(qǐng)總司令放心,胡璉決心與石牌共存亡,不成功便成仁。”

2.2 網(wǎng)頁(yè)預(yù)處理

在使用超鏈接判斷之前,先要對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,去掉一些與正文無(wú)關(guān)的元素,分析如下:

首先是網(wǎng)頁(yè)正文存放的位置,它是包含在之間,作為某個(gè)HTML元素的內(nèi)容出現(xiàn)的,比如

元素的內(nèi)容.因此我們只需要對(duì)有內(nèi)容的元素進(jìn)行分析,而那些沒(méi)有內(nèi)容只有標(biāo)簽的元素可以刪掉.例如注釋標(biāo)簽,
,,


等就被刪除.

對(duì)于有內(nèi)容的HTML元素,例如style和scrip t等元素不包含正文.style元素主要是用來(lái)改善網(wǎng)頁(yè)的顯示效果的,它的內(nèi)容主要是設(shè)計(jì)網(wǎng)頁(yè)顯示的屬性,和網(wǎng)頁(yè)正文無(wú)關(guān);scrip t元素是腳本程序,用來(lái)設(shè)計(jì)動(dòng)態(tài)網(wǎng)頁(yè),它的內(nèi)容也和網(wǎng)頁(yè)正文無(wú)關(guān).因此要將這兩個(gè)元素刪除.

由于style元素,scrip t元素是必須有結(jié)束標(biāo)簽的,所以很容易定位這些元素所對(duì)應(yīng)的子字符串在網(wǎng)頁(yè)文檔總字符串s中的位置和長(zhǎng)度,但考慮到很多網(wǎng)頁(yè)的不規(guī)范性,為提高程序的容錯(cuò)性能,采用了一種標(biāo)簽配對(duì)的方法,將這些要?jiǎng)h除的元素各部分補(bǔ)齊,然后再進(jìn)行匹配刪除.

標(biāo)簽配對(duì)的方法如下:由于在style元素、scrip t元素的內(nèi)容中,除了存在注釋標(biāo)簽外,不會(huì)出現(xiàn)其他的標(biāo)簽,因此從開始標(biāo)簽向后查找,在除注釋標(biāo)簽之外的其他標(biāo)簽之前插入結(jié)束標(biāo)簽即可完成標(biāo)簽配對(duì).

雖然HTML協(xié)議允許出現(xiàn)元素的交叉,即的情況,但sty le元素,sc rip t元素不會(huì)出現(xiàn)這種情況,故在此不再考慮這種情況.網(wǎng)頁(yè)預(yù)處理結(jié)束后,再對(duì)超鏈接進(jìn)行分析過(guò)濾正文,這樣可以提高系統(tǒng)分析效率,加強(qiáng)準(zhǔn)確性.

2.3 基于超鏈接分析的網(wǎng)頁(yè)正文提取

利用超鏈接可以判斷網(wǎng)頁(yè)的正文,我們采用的具體啟發(fā)式規(guī)則如下:

①一篇有主題網(wǎng)頁(yè)中的正文通常是用成段的文字來(lái)描述,中間通常不會(huì)加入大量的超鏈接,而非正文信息通常是伴隨著大量超鏈接出現(xiàn)的.

②正文中的兩個(gè)超鏈接之間的文字個(gè)數(shù)不會(huì)太少,而兩個(gè)廣告超鏈接或?qū)Ш匠溄又g的中文文字個(gè)數(shù)很少,有時(shí)沒(méi)有,有時(shí)只有幾個(gè).因此在這里我們對(duì)兩個(gè)超鏈接之間的中文文字個(gè)數(shù)設(shè)置了一個(gè)閾值用來(lái)判斷是否為正文超鏈接,通過(guò)實(shí)驗(yàn)證明,15個(gè)字?jǐn)?shù)的區(qū)分度較為合適.

本文基于以上的啟發(fā)式規(guī)則,提出了一種超鏈接判斷正文過(guò)濾法的新算法.該算法主要思想是通過(guò)判斷網(wǎng)頁(yè)中出現(xiàn)的超鏈接的性質(zhì),來(lái)判斷超鏈接前后的文字是否是網(wǎng)頁(yè)正文.

在經(jīng)過(guò)網(wǎng)頁(yè)預(yù)處理后,這時(shí)只剩下超鏈接標(biāo)簽還沒(méi)有刪除,開始對(duì)標(biāo)記之后的HTML代碼做逐字掃描,以“

超鏈接判斷正文過(guò)濾法的具體算法如算法1所示:

算法1 超鏈接判斷正文過(guò)濾算法

程序流程圖如圖2所示:

圖2 程序模塊流程圖

3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

超鏈接判斷正文過(guò)濾法的程序?qū)崿F(xiàn)是采用的D elphi7設(shè)計(jì)的,開發(fā)的硬件平臺(tái)為:pen tium 4 2.4G的CPU,512M內(nèi)存.為了驗(yàn)證這個(gè)新算法的正確性,從各大網(wǎng)站下載了1萬(wàn)張網(wǎng)頁(yè)進(jìn)行了實(shí)驗(yàn),并隨機(jī)抽取了1000張網(wǎng)頁(yè)的處理結(jié)果進(jìn)行驗(yàn)證,只有少數(shù)幾個(gè)網(wǎng)頁(yè)沒(méi)有抽取出正文,經(jīng)分析發(fā)現(xiàn)是由于該網(wǎng)頁(yè)是一個(gè)網(wǎng)站的首頁(yè),全部是鏈接構(gòu)成的,沒(méi)有正文部分,故認(rèn)為程序是正確的.該程序在執(zhí)行效率上也是很好的,對(duì)一個(gè)1000字左右的網(wǎng)頁(yè)抽取正文,平均時(shí)間為17毫秒.并且本算法克服了分塊算法容易出現(xiàn)的錯(cuò)誤,即找錯(cuò)網(wǎng)頁(yè)正文所在的塊.如鏈接地址為h ttp://new s.sina.com.cn/w/p/2006-12-30/ 180811925138.sh tm l的網(wǎng)頁(yè),它的正文部分只有一句話,而與正文無(wú)關(guān)的廣告卻占了很大篇幅,這樣就會(huì)造成網(wǎng)頁(yè)正文提取的失敗,而本算法可以順利提取出該網(wǎng)頁(yè)的正文部分.如圖3所示:

圖3 網(wǎng)頁(yè)正文提取實(shí)例

經(jīng)過(guò)一些有代表性的網(wǎng)站(見表1)測(cè)試,我們認(rèn)為,該方法能有效得到大部分HTML網(wǎng)頁(yè)的正文部分.

表1 經(jīng)過(guò)測(cè)試的網(wǎng)站

為了驗(yàn)證本算法的效果,采用聚類實(shí)驗(yàn)來(lái)檢驗(yàn).在聚類實(shí)驗(yàn)中,準(zhǔn)備五類網(wǎng)頁(yè),分別為:時(shí)尚類、體育類、娛樂(lè)類、政治類、汽車類,每類網(wǎng)頁(yè)數(shù)為30.本文做了兩組實(shí)驗(yàn),在第一組實(shí)驗(yàn)中,沒(méi)有使用網(wǎng)頁(yè)正文提取而直接對(duì)網(wǎng)頁(yè)提取特征描述,然后采用遺傳算法與k-m eans結(jié)合的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在第二組實(shí)驗(yàn)中,先調(diào)用本文中的算法來(lái)得到網(wǎng)頁(yè)測(cè)試集的正文,然后得到網(wǎng)頁(yè)的特征描述,最后采用的與第一組相同的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在這里,本文使用網(wǎng)頁(yè)的召回率和精確率來(lái)描述聚類的結(jié)果.

兩組實(shí)驗(yàn)的數(shù)據(jù)結(jié)果對(duì)比如圖4、圖5所示:

圖4 召回率對(duì)比

圖5 精確率對(duì)比

通過(guò)圖4、圖5所做的對(duì)比可知,在使用了本算法的第二組數(shù)據(jù)中,聚類的召回率和精確率都有了改進(jìn),特別是精確率有了明顯的提高.

4 結(jié)束語(yǔ)

網(wǎng)頁(yè)文檔是網(wǎng)上應(yīng)用最多的文件格式,處理好網(wǎng)頁(yè)文檔對(duì)處理網(wǎng)上的信息內(nèi)容有很大的意義.本文提出了一種網(wǎng)頁(yè)文檔提取正文的方法,該方法通過(guò)分析網(wǎng)頁(yè)中出現(xiàn)的超鏈接,得到網(wǎng)頁(yè)的正文.測(cè)試表明該方法能有效地得到大部分網(wǎng)頁(yè)的主體部分.本文中對(duì)HTML文件正文提取的方法不僅可以用于提取出HTML文件的主體文本,還可以用于網(wǎng)頁(yè)的特征提取以及網(wǎng)頁(yè)的分類、推薦等web服務(wù)領(lǐng)域,具有較強(qiáng)的推廣應(yīng)用價(jià)值.

[1]Tkach D.Technology TextM in ing:Turn ing Inform ation into Know ledge[R].America:AW hite Paper from IBM,1998.

[2]Baizilay R,ElhadadM.U sing LexicalChains for Text Summ arization[C].M adrid,Spain:Proceeding of the ACL’97/EACL’97W orkshop on Intelligent Scalable Text Summarization,1997.

[3]Sh ianHuaL in,JanM ingHo.D iscovering inform ative contentblocks from W eb documents[C].Edmonton:SIGKDD,2002.

[4]Chen J.,Zhou B.,Shi J.,Zhang H.-J.,Q iu F.Function Based ObjectModel TowardsW ebsite Adap tation[C].Hong kong:Procrrdingsof the 10 thW orldW ideW eb conference,2001.

[5]KovaceivicM.,D iligentiM.,Gori,M.,M ilutinovic V..Recognition of Common A reas in aW eb Page U sing V isual Information[C]. M aebashi TERRSAA:A possible app lication in a page classification.Proceedings of 2002 IEEE International Conference on Data M ining( ICDMp02),2002.

[6]Yu S.,CaiD.,W en J.-R.,M aW.-Y..Imp roving Pseudo Relevance Feedback inW eb Inform ation retrievalUsingW eb Page Segmentation[C].Budapest:Proceedingsof twelfthW orldW ideW eb Conference(WWW 2003),2003.

[7]Lan Yi,B ing L iu,XiaoliL i.Elim inatingNoisy Inform ation inW eb Pages forDataM ing[C].W ashington:Proceed ingsof the nin th ACM SIGKDD international conference on Know ledge discovery and datam ining,2003.

Research on M a in Tex t Ex traction for Ch ineseW eb Pages Based onW eb Hyper link

REN X iang,L IU B in
(Schoolof Info rm ation Science and Techno logy,Taishan University,Tai’an,271021,China)

W ith the inc rease of In ternet,w eb service has been the focusof research.The paperp roposes a Chineseweb pagesp rep rocessingm ethod.Them ethod can parsew eb pages,and extract them ain part from theweb pages.The experim ent show s that them ethod is feasib le to parsew eb pages.

m ain textofweb pages;web service;hyperlink

TP391

A

1672-2590(2010)03-0044-05

2010-03-28

任 翔(1983-),男,山東泰安人,泰山學(xué)院信息科學(xué)技術(shù)學(xué)院教師.

猜你喜歡
內(nèi)容實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
內(nèi)容回顧溫故知新
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 色久综合在线| 国产AV毛片| 精品欧美日韩国产日漫一区不卡| 91福利在线观看视频| 国内精品久久久久久久久久影视| 欧美成人免费一区在线播放| 中文字幕乱码二三区免费| 亚洲欧美日韩中文字幕在线一区| 日韩小视频网站hq| 日本在线视频免费| 国产对白刺激真实精品91| 日韩在线播放中文字幕| 欧美第二区| 中文字幕久久亚洲一区 | 日韩黄色精品| 亚洲一区二区在线无码 | 成人亚洲视频| 色婷婷啪啪| 无码高潮喷水专区久久| 国产欧美日韩视频一区二区三区| 五月天在线网站| 国产精选小视频在线观看| 婷婷亚洲最大| 97超碰精品成人国产| 国产网站免费| 精品91视频| 97国产精品视频自在拍| 国产成人盗摄精品| 成年av福利永久免费观看| 午夜老司机永久免费看片 | 激情无码视频在线看| 国产剧情国内精品原创| 日a本亚洲中文在线观看| 国产一区二区影院| h视频在线播放| 久久久久久久97| 伊人国产无码高清视频| 青草视频免费在线观看| 无码国产偷倩在线播放老年人| 日韩中文字幕免费在线观看 | 中文字幕乱码中文乱码51精品| 茄子视频毛片免费观看| 99久久亚洲综合精品TS| 亚欧美国产综合| 成人午夜免费观看| 国产日韩欧美在线视频免费观看| 伊人天堂网| 免费无遮挡AV| 91在线无码精品秘九色APP| 国产精品视频a| 伊人久久大香线蕉综合影视| 九色视频线上播放| 欧美色图久久| 亚洲男人的天堂在线观看| 毛片免费试看| 日本AⅤ精品一区二区三区日| 国产av无码日韩av无码网站| 波多野结衣一区二区三区AV| 欧美成人日韩| 欧美午夜一区| 国产精品永久不卡免费视频| 日韩欧美国产成人| 国产精品欧美亚洲韩国日本不卡| 欧美乱妇高清无乱码免费| 色久综合在线| 亚瑟天堂久久一区二区影院| 本亚洲精品网站| 天天摸夜夜操| 在线观看91精品国产剧情免费| 她的性爱视频| 在线国产三级| 91福利免费视频| 日韩欧美中文字幕一本| 欧美精品成人| 亚洲毛片网站| 无码内射在线| 国产美女视频黄a视频全免费网站| 成人日韩精品| 欧美日韩v| 国产精品蜜臀| 久久综合丝袜日本网| 9966国产精品视频|