999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標(biāo)記窗的網(wǎng)頁(yè)正文信息提取方法

2007-01-01 00:00:00趙欣欣索紅光劉玉樹(shù)

摘 要:提出了基于標(biāo)記窗的網(wǎng)頁(yè)正文信息提取方法。該方法不僅適合于處理一個(gè)網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td 中的情況,也適合于處理網(wǎng)頁(yè)正文放在多個(gè)td中的情況,還可以處理網(wǎng)頁(yè)正文文字短到與網(wǎng)頁(yè)其余部分文字(如廣告、導(dǎo)航條、版權(quán))長(zhǎng)度相當(dāng)?shù)那闆r。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。實(shí)驗(yàn)表明,該方法可以提高網(wǎng)頁(yè)正文提取的準(zhǔn)確率,適用性強(qiáng)。

關(guān)鍵詞:標(biāo)記窗; 提取; 文檔對(duì)象模型

中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001—3695(2007)03—0144—02

信息抽取(Information Extraction)技術(shù)是近十幾年發(fā)展起來(lái)的新領(lǐng)域,它起源于文本理解,屬自然語(yǔ)言處理研究的領(lǐng)域。信息抽取是直接從自然語(yǔ)言文本中抽取事實(shí)信息,并以結(jié)構(gòu)化形式描述信息,適用于信息查詢、文本深層挖掘、問(wèn)題自動(dòng)回答等方面的應(yīng)用。Web信息進(jìn)行抽取(Web Information Extraction,WebIE)是將Web作為信息源的信息抽取,其核心是抽取分散在Internet上的半結(jié)構(gòu)化的HTML頁(yè)面中隱含的信息。

萬(wàn)維網(wǎng)飛速發(fā)展,其上的信息源隨之日益豐富。但是,Web頁(yè)面中經(jīng)常含有廣告鏈接、導(dǎo)航條、版權(quán)等非網(wǎng)頁(yè)主題信息的內(nèi)容,頁(yè)面所要表達(dá)的主要信息經(jīng)常被隱藏在無(wú)關(guān)的內(nèi)容和結(jié)構(gòu)中,限制了Web 信息的可利用性。正確提取網(wǎng)頁(yè)正文信息,實(shí)際上就是提取出頁(yè)面要表達(dá)的主要內(nèi)容。它是信息搜索(Information Search)、數(shù)據(jù)挖掘(Data Mining)、機(jī)器翻譯(Machine Translation)和文本摘要(Text Digest)等Web信息處理的基礎(chǔ)。

1 相關(guān)工作

傳統(tǒng)的網(wǎng)頁(yè)數(shù)據(jù)抽取方法通常是由包裝器(Wrapper)完成的,但是,獲取包裝器中信息模式識(shí)別的知識(shí)是一個(gè)瓶頸問(wèn)題。采用半自動(dòng)化方法獲取知識(shí)規(guī)則的XWRAP系統(tǒng)在進(jìn)行網(wǎng)頁(yè)抽取前,檢查網(wǎng)頁(yè)并進(jìn)行預(yù)處理,最后將網(wǎng)頁(yè)表示成一棵樹(shù)[1]。

王琦等人[2]基于DOM規(guī)范,提出了基于語(yǔ)義信息的STU—DOM樹(shù)模型,將HTML 文檔轉(zhuǎn)換為STU—DOM 樹(shù),并對(duì)其進(jìn)行基于結(jié)構(gòu)的過(guò)濾和基于語(yǔ)義的剪枝,完成了對(duì)網(wǎng)頁(yè)主題信息的提取。

文獻(xiàn)[3]提出在字符集中的區(qū)域提取文字的方法。該方法僅適合于主題文字集中的網(wǎng)頁(yè),不能提取在文字中間出現(xiàn)表格或鏈接等結(jié)構(gòu)的文字。

Kristina Lerman等人[4]提出了通過(guò)對(duì)行和列的分組,從List和Table中自動(dòng)提取Web數(shù)據(jù)的方法。但它只在一些假定條件成立的情況下才能進(jìn)行,并且需要分析許多網(wǎng)頁(yè)之后,才能從單一的一個(gè)List中提出信息。 

崔繼馨等人[5]提出了基于DOM的Web信息抽取方法。該方法采用人工方式對(duì)樣本頁(yè)面附加語(yǔ)義信息,然后對(duì)樣本頁(yè)面中的樣本記錄進(jìn)行標(biāo)記,并通過(guò)機(jī)器學(xué)習(xí)的方法產(chǎn)生信息抽取規(guī)則;利用這些規(guī)則完成對(duì)相似結(jié)構(gòu)網(wǎng)頁(yè)的信息抽取。由于該方法需要人工參與,使得系統(tǒng)的可用性降低。

文獻(xiàn)[6]提出了基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息提取方法。它根據(jù)網(wǎng)頁(yè)中的HTML標(biāo)記將網(wǎng)頁(yè)表示成一棵樹(shù),然后利用樹(shù)中的每個(gè)節(jié)點(diǎn)包含的中文字節(jié)數(shù)從中選擇包含正文信息的節(jié)點(diǎn)。該方法適用于網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td(td是HTML語(yǔ)言提供的表格標(biāo)記)中的情況下的網(wǎng)頁(yè)正文提取。

通過(guò)分析可知,現(xiàn)存的大多數(shù)網(wǎng)頁(yè)正文提取方法不能處理網(wǎng)頁(yè)正文部分被存放在多個(gè)td 中的情況;不能處理一個(gè)td中含有不同內(nèi)容的情況,即不能處理一個(gè)td中存放的不僅僅是網(wǎng)頁(yè)正文的情況;不能處理網(wǎng)頁(yè)正文文字長(zhǎng)度很短,短到與網(wǎng)頁(yè)其余部分文字(如廣告、導(dǎo)航條)長(zhǎng)度相當(dāng)?shù)奶厥馇闆r。而且,大多數(shù)方法均限于提取存放在td中的網(wǎng)頁(yè)正文信息。但經(jīng)過(guò)統(tǒng)計(jì),存在大量未采用Table 結(jié)構(gòu)存放正文信息的網(wǎng)頁(yè),對(duì)于這種情況,上述方法都無(wú)能為力。基于此,本文提出了基于標(biāo)記窗(Tag Window)的網(wǎng)頁(yè)正文獲取方法來(lái)解決上述問(wèn)題。

2 基于標(biāo)記窗的網(wǎng)頁(yè)正文提取方法

基于標(biāo)記窗提取網(wǎng)頁(yè)正文信息的方法不僅適合于處理一個(gè)網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td 中的情況,也適合于處理網(wǎng)頁(yè)正文放在多個(gè)td中的情況。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。其實(shí)現(xiàn)簡(jiǎn)單,通用性好。

定義 稱HTML中成對(duì)出現(xiàn)的標(biāo)記為標(biāo)記對(duì),稱HTML格式的網(wǎng)頁(yè)中出現(xiàn)在Title之后的顯示內(nèi)容非空的標(biāo)記對(duì)為標(biāo)記窗。

基于標(biāo)記窗提取網(wǎng)頁(yè)正文信息的方法流程圖如圖1所示。具體步驟如下:

(1)對(duì)網(wǎng)頁(yè)進(jìn)行規(guī)范化處理。如果一個(gè)網(wǎng)頁(yè)滿足如下條件[6],則它是規(guī)范化的網(wǎng)頁(yè):

①在除了網(wǎng)頁(yè)標(biāo)記tag外的地方出現(xiàn)的“〈”和“〉”用lt;和gt;代替。

②所有標(biāo)記的屬性值放在引號(hào)中,如〈a herf=\"www.bit.edu.cn\"〉。

③所有的標(biāo)記都是匹配的,即每個(gè)開(kāi)始標(biāo)記均對(duì)應(yīng)著一個(gè)結(jié)束標(biāo)記,如〈body〉和〈/body〉。

④所有的標(biāo)記都是正確嵌套的,如〈a〉…〈b〉…〈/b〉…〈/a〉。

對(duì)于標(biāo)記嵌套的情況,先處理最里層的標(biāo)記對(duì),抽取其中的正文,并且清除此標(biāo)記對(duì)及其中間的正文;然后處理外一層的標(biāo)記對(duì),依此類推。

下面用一個(gè)實(shí)際的例子來(lái)說(shuō)明基于標(biāo)記窗提取網(wǎng)頁(yè)正文內(nèi)容的方法。該例子所用的網(wǎng)頁(yè)是http://weather.sina.com.cn/news/2005/1216/12339.html,該網(wǎng)頁(yè)的標(biāo)題是“新疆發(fā)布大霧黃色預(yù)警信號(hào)”。

過(guò)濾掉該網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件中顯示內(nèi)容為空的標(biāo)記對(duì)后,用得到的標(biāo)記窗中的四個(gè)標(biāo)記窗為例進(jìn)行說(shuō)明。對(duì)每個(gè)標(biāo)記窗分詞之后得到詞序列(僅保留實(shí)詞)及標(biāo)題詞序列與它們之間的距離,如表1所示。按照前述算法,應(yīng)該提取標(biāo)記窗1—3中的文字信息,舍棄4中的信息。

3 實(shí)驗(yàn)與結(jié)果分析

為了考查本文提出方法的實(shí)際效果,隨機(jī)選擇來(lái)自www.sina.com.cn,www.sohu.com,www.bit.edu.cn,www.people.com和www.mop.gov.cn網(wǎng)站的788個(gè)網(wǎng)頁(yè)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。正確提取的網(wǎng)頁(yè)數(shù)是指將網(wǎng)頁(yè)的全部正文信息正確提取出來(lái)的網(wǎng)頁(yè)個(gè)數(shù);錯(cuò)提、少提正文信息的網(wǎng)頁(yè)都是錯(cuò)誤提取的網(wǎng)頁(yè)。準(zhǔn)確率=正確提取的網(wǎng)頁(yè)數(shù)/網(wǎng)頁(yè)總數(shù)。

通過(guò)對(duì)結(jié)果的分析發(fā)現(xiàn),之所以會(huì)出現(xiàn)對(duì)網(wǎng)頁(yè)正文信息的錯(cuò)提、少提,是因?yàn)榫W(wǎng)頁(yè)設(shè)計(jì)者想法的不同,導(dǎo)致他們可能使用一些修辭手法,如比喻、擬人等手法吸引Web訪問(wèn)者的瀏覽注意力。這樣就導(dǎo)致了標(biāo)題詞序列中的詞根本沒(méi)有在網(wǎng)頁(yè)正文中出現(xiàn),造成了對(duì)網(wǎng)頁(yè)正文信息的錯(cuò)誤提取,影響了網(wǎng)頁(yè)正文信息提取的準(zhǔn)確率。

4 結(jié)束語(yǔ)

Web上的數(shù)據(jù)抽取技術(shù)是目前點(diǎn)的熱研究方向。雖然國(guó)內(nèi)外的研究在一些技術(shù)上較為成熟和完善,但仍沒(méi)有一個(gè)產(chǎn)品或系統(tǒng)能在各方面符合人們對(duì)Web信息抽取的要求。隨著新技術(shù)和新思想的介入,Web信息抽取技術(shù)處于不斷的更新和發(fā)展中。本文提出的基于標(biāo)記窗的網(wǎng)頁(yè)正文提取方法解決了網(wǎng)頁(yè)正文存放在多個(gè)td中的情況和網(wǎng)頁(yè)正文文字短的網(wǎng)頁(yè)正文提取問(wèn)題。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。與文獻(xiàn)[2,6]不同的是,本方法無(wú)須將網(wǎng)頁(yè)表示成一棵樹(shù),只需利用正則表達(dá)式,就可以直接提取出網(wǎng)頁(yè)中標(biāo)記對(duì)之間的正文,這大大降低了算法的復(fù)雜度。實(shí)驗(yàn)表明,該方法性能好、適用性強(qiáng)。下一步的工作就是將語(yǔ)義信息結(jié)合到該方法中,更好地“理解”網(wǎng)頁(yè),進(jìn)一步提高Web網(wǎng)頁(yè)正文信息提取的準(zhǔn)確率。

本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

主站蜘蛛池模板: 欧美国产综合色视频| 免费在线色| 在线免费看黄的网站| 欧美国产视频| 久99久热只有精品国产15| 天堂成人av| 欧美劲爆第一页| 欧美、日韩、国产综合一区| 在线另类稀缺国产呦| 国产人免费人成免费视频| 国产特一级毛片| 亚洲人成网18禁| 在线va视频| 日韩资源站| 日韩成人高清无码| 不卡的在线视频免费观看| 国产成人亚洲综合A∨在线播放| 国产一级做美女做受视频| 中文字幕第4页| 欧美日韩亚洲综合在线观看| 免费观看成人久久网免费观看| 日本成人一区| 国产精品久久久久久久久kt| 日韩精品无码免费一区二区三区| 亚洲激情99| 女人18毛片一级毛片在线| 日韩一级二级三级| 国产香蕉在线视频| 日韩欧美综合在线制服| 亚洲国产日韩在线成人蜜芽| 日本不卡在线播放| 日本免费精品| 国产男人天堂| 中文字幕乱码二三区免费| 久久99国产综合精品女同| 国产手机在线ΑⅤ片无码观看| JIZZ亚洲国产| 久久亚洲国产最新网站| 人妻出轨无码中文一区二区| 2020国产精品视频| 久久这里只有精品国产99| 91色在线观看| 中文字幕在线一区二区在线| 亚洲aaa视频| 欧美精品二区| 国产探花在线视频| 亚洲床戏一区| 夜精品a一区二区三区| 久久伊人色| 中文字幕久久波多野结衣 | 一本大道无码高清| 日韩精品无码免费专网站| 欧美黑人欧美精品刺激| 日韩精品免费一线在线观看| 97se亚洲综合| 91精品国产一区| 久久鸭综合久久国产| 秋霞午夜国产精品成人片| 女人av社区男人的天堂| 国产精品专区第一页在线观看| www.99精品视频在线播放| 免费a级毛片18以上观看精品| 精品91视频| 91亚洲精品第一| 97青草最新免费精品视频| 成年人视频一区二区| 国产精品无码久久久久久| 国产玖玖视频| 婷婷久久综合九色综合88| 日韩AV手机在线观看蜜芽| 国产高清在线丝袜精品一区 | 日韩成人在线网站| 国产理论一区| 亚洲国产清纯| 激情综合五月网| 在线中文字幕网| 日韩高清无码免费| 国产成人8x视频一区二区| 91小视频在线| 精品三级网站| 国产成本人片免费a∨短片| 国产网站一区二区三区|