摘 要:提出了基于標(biāo)記窗的網(wǎng)頁(yè)正文信息提取方法。該方法不僅適合于處理一個(gè)網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td 中的情況,也適合于處理網(wǎng)頁(yè)正文放在多個(gè)td中的情況,還可以處理網(wǎng)頁(yè)正文文字短到與網(wǎng)頁(yè)其余部分文字(如廣告、導(dǎo)航條、版權(quán))長(zhǎng)度相當(dāng)?shù)那闆r。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。實(shí)驗(yàn)表明,該方法可以提高網(wǎng)頁(yè)正文提取的準(zhǔn)確率,適用性強(qiáng)。
關(guān)鍵詞:標(biāo)記窗; 提取; 文檔對(duì)象模型
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001—3695(2007)03—0144—02
信息抽取(Information Extraction)技術(shù)是近十幾年發(fā)展起來(lái)的新領(lǐng)域,它起源于文本理解,屬自然語(yǔ)言處理研究的領(lǐng)域。信息抽取是直接從自然語(yǔ)言文本中抽取事實(shí)信息,并以結(jié)構(gòu)化形式描述信息,適用于信息查詢、文本深層挖掘、問(wèn)題自動(dòng)回答等方面的應(yīng)用。Web信息進(jìn)行抽取(Web Information Extraction,WebIE)是將Web作為信息源的信息抽取,其核心是抽取分散在Internet上的半結(jié)構(gòu)化的HTML頁(yè)面中隱含的信息。
萬(wàn)維網(wǎng)飛速發(fā)展,其上的信息源隨之日益豐富。但是,Web頁(yè)面中經(jīng)常含有廣告鏈接、導(dǎo)航條、版權(quán)等非網(wǎng)頁(yè)主題信息的內(nèi)容,頁(yè)面所要表達(dá)的主要信息經(jīng)常被隱藏在無(wú)關(guān)的內(nèi)容和結(jié)構(gòu)中,限制了Web 信息的可利用性。正確提取網(wǎng)頁(yè)正文信息,實(shí)際上就是提取出頁(yè)面要表達(dá)的主要內(nèi)容。它是信息搜索(Information Search)、數(shù)據(jù)挖掘(Data Mining)、機(jī)器翻譯(Machine Translation)和文本摘要(Text Digest)等Web信息處理的基礎(chǔ)。
1 相關(guān)工作
傳統(tǒng)的網(wǎng)頁(yè)數(shù)據(jù)抽取方法通常是由包裝器(Wrapper)完成的,但是,獲取包裝器中信息模式識(shí)別的知識(shí)是一個(gè)瓶頸問(wèn)題。采用半自動(dòng)化方法獲取知識(shí)規(guī)則的XWRAP系統(tǒng)在進(jìn)行網(wǎng)頁(yè)抽取前,檢查網(wǎng)頁(yè)并進(jìn)行預(yù)處理,最后將網(wǎng)頁(yè)表示成一棵樹(shù)[1]。
王琦等人[2]基于DOM規(guī)范,提出了基于語(yǔ)義信息的STU—DOM樹(shù)模型,將HTML 文檔轉(zhuǎn)換為STU—DOM 樹(shù),并對(duì)其進(jìn)行基于結(jié)構(gòu)的過(guò)濾和基于語(yǔ)義的剪枝,完成了對(duì)網(wǎng)頁(yè)主題信息的提取。
文獻(xiàn)[3]提出在字符集中的區(qū)域提取文字的方法。該方法僅適合于主題文字集中的網(wǎng)頁(yè),不能提取在文字中間出現(xiàn)表格或鏈接等結(jié)構(gòu)的文字。
Kristina Lerman等人[4]提出了通過(guò)對(duì)行和列的分組,從List和Table中自動(dòng)提取Web數(shù)據(jù)的方法。但它只在一些假定條件成立的情況下才能進(jìn)行,并且需要分析許多網(wǎng)頁(yè)之后,才能從單一的一個(gè)List中提出信息。
崔繼馨等人[5]提出了基于DOM的Web信息抽取方法。該方法采用人工方式對(duì)樣本頁(yè)面附加語(yǔ)義信息,然后對(duì)樣本頁(yè)面中的樣本記錄進(jìn)行標(biāo)記,并通過(guò)機(jī)器學(xué)習(xí)的方法產(chǎn)生信息抽取規(guī)則;利用這些規(guī)則完成對(duì)相似結(jié)構(gòu)網(wǎng)頁(yè)的信息抽取。由于該方法需要人工參與,使得系統(tǒng)的可用性降低。
文獻(xiàn)[6]提出了基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息提取方法。它根據(jù)網(wǎng)頁(yè)中的HTML標(biāo)記將網(wǎng)頁(yè)表示成一棵樹(shù),然后利用樹(shù)中的每個(gè)節(jié)點(diǎn)包含的中文字節(jié)數(shù)從中選擇包含正文信息的節(jié)點(diǎn)。該方法適用于網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td(td是HTML語(yǔ)言提供的表格標(biāo)記)中的情況下的網(wǎng)頁(yè)正文提取。
通過(guò)分析可知,現(xiàn)存的大多數(shù)網(wǎng)頁(yè)正文提取方法不能處理網(wǎng)頁(yè)正文部分被存放在多個(gè)td 中的情況;不能處理一個(gè)td中含有不同內(nèi)容的情況,即不能處理一個(gè)td中存放的不僅僅是網(wǎng)頁(yè)正文的情況;不能處理網(wǎng)頁(yè)正文文字長(zhǎng)度很短,短到與網(wǎng)頁(yè)其余部分文字(如廣告、導(dǎo)航條)長(zhǎng)度相當(dāng)?shù)奶厥馇闆r。而且,大多數(shù)方法均限于提取存放在td中的網(wǎng)頁(yè)正文信息。但經(jīng)過(guò)統(tǒng)計(jì),存在大量未采用Table 結(jié)構(gòu)存放正文信息的網(wǎng)頁(yè),對(duì)于這種情況,上述方法都無(wú)能為力。基于此,本文提出了基于標(biāo)記窗(Tag Window)的網(wǎng)頁(yè)正文獲取方法來(lái)解決上述問(wèn)題。
2 基于標(biāo)記窗的網(wǎng)頁(yè)正文提取方法
基于標(biāo)記窗提取網(wǎng)頁(yè)正文信息的方法不僅適合于處理一個(gè)網(wǎng)頁(yè)中所有正文信息均放在一個(gè)td 中的情況,也適合于處理網(wǎng)頁(yè)正文放在多個(gè)td中的情況。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。其實(shí)現(xiàn)簡(jiǎn)單,通用性好。
定義 稱HTML中成對(duì)出現(xiàn)的標(biāo)記為標(biāo)記對(duì),稱HTML格式的網(wǎng)頁(yè)中出現(xiàn)在Title之后的顯示內(nèi)容非空的標(biāo)記對(duì)為標(biāo)記窗。
基于標(biāo)記窗提取網(wǎng)頁(yè)正文信息的方法流程圖如圖1所示。具體步驟如下:
(1)對(duì)網(wǎng)頁(yè)進(jìn)行規(guī)范化處理。如果一個(gè)網(wǎng)頁(yè)滿足如下條件[6],則它是規(guī)范化的網(wǎng)頁(yè):
①在除了網(wǎng)頁(yè)標(biāo)記tag外的地方出現(xiàn)的“〈”和“〉”用lt;和gt;代替。
②所有標(biāo)記的屬性值放在引號(hào)中,如〈a herf=\"www.bit.edu.cn\"〉。
③所有的標(biāo)記都是匹配的,即每個(gè)開(kāi)始標(biāo)記均對(duì)應(yīng)著一個(gè)結(jié)束標(biāo)記,如〈body〉和〈/body〉。
④所有的標(biāo)記都是正確嵌套的,如〈a〉…〈b〉…〈/b〉…〈/a〉。
對(duì)于標(biāo)記嵌套的情況,先處理最里層的標(biāo)記對(duì),抽取其中的正文,并且清除此標(biāo)記對(duì)及其中間的正文;然后處理外一層的標(biāo)記對(duì),依此類推。
下面用一個(gè)實(shí)際的例子來(lái)說(shuō)明基于標(biāo)記窗提取網(wǎng)頁(yè)正文內(nèi)容的方法。該例子所用的網(wǎng)頁(yè)是http://weather.sina.com.cn/news/2005/1216/12339.html,該網(wǎng)頁(yè)的標(biāo)題是“新疆發(fā)布大霧黃色預(yù)警信號(hào)”。
過(guò)濾掉該網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件中顯示內(nèi)容為空的標(biāo)記對(duì)后,用得到的標(biāo)記窗中的四個(gè)標(biāo)記窗為例進(jìn)行說(shuō)明。對(duì)每個(gè)標(biāo)記窗分詞之后得到詞序列(僅保留實(shí)詞)及標(biāo)題詞序列與它們之間的距離,如表1所示。按照前述算法,應(yīng)該提取標(biāo)記窗1—3中的文字信息,舍棄4中的信息。
3 實(shí)驗(yàn)與結(jié)果分析
為了考查本文提出方法的實(shí)際效果,隨機(jī)選擇來(lái)自www.sina.com.cn,www.sohu.com,www.bit.edu.cn,www.people.com和www.mop.gov.cn網(wǎng)站的788個(gè)網(wǎng)頁(yè)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。正確提取的網(wǎng)頁(yè)數(shù)是指將網(wǎng)頁(yè)的全部正文信息正確提取出來(lái)的網(wǎng)頁(yè)個(gè)數(shù);錯(cuò)提、少提正文信息的網(wǎng)頁(yè)都是錯(cuò)誤提取的網(wǎng)頁(yè)。準(zhǔn)確率=正確提取的網(wǎng)頁(yè)數(shù)/網(wǎng)頁(yè)總數(shù)。
通過(guò)對(duì)結(jié)果的分析發(fā)現(xiàn),之所以會(huì)出現(xiàn)對(duì)網(wǎng)頁(yè)正文信息的錯(cuò)提、少提,是因?yàn)榫W(wǎng)頁(yè)設(shè)計(jì)者想法的不同,導(dǎo)致他們可能使用一些修辭手法,如比喻、擬人等手法吸引Web訪問(wèn)者的瀏覽注意力。這樣就導(dǎo)致了標(biāo)題詞序列中的詞根本沒(méi)有在網(wǎng)頁(yè)正文中出現(xiàn),造成了對(duì)網(wǎng)頁(yè)正文信息的錯(cuò)誤提取,影響了網(wǎng)頁(yè)正文信息提取的準(zhǔn)確率。
4 結(jié)束語(yǔ)
Web上的數(shù)據(jù)抽取技術(shù)是目前點(diǎn)的熱研究方向。雖然國(guó)內(nèi)外的研究在一些技術(shù)上較為成熟和完善,但仍沒(méi)有一個(gè)產(chǎn)品或系統(tǒng)能在各方面符合人們對(duì)Web信息抽取的要求。隨著新技術(shù)和新思想的介入,Web信息抽取技術(shù)處于不斷的更新和發(fā)展中。本文提出的基于標(biāo)記窗的網(wǎng)頁(yè)正文提取方法解決了網(wǎng)頁(yè)正文存放在多個(gè)td中的情況和網(wǎng)頁(yè)正文文字短的網(wǎng)頁(yè)正文提取問(wèn)題。尤其重要的是,它能夠解決非Table 結(jié)構(gòu)的網(wǎng)頁(yè)正文提取問(wèn)題。與文獻(xiàn)[2,6]不同的是,本方法無(wú)須將網(wǎng)頁(yè)表示成一棵樹(shù),只需利用正則表達(dá)式,就可以直接提取出網(wǎng)頁(yè)中標(biāo)記對(duì)之間的正文,這大大降低了算法的復(fù)雜度。實(shí)驗(yàn)表明,該方法性能好、適用性強(qiáng)。下一步的工作就是將語(yǔ)義信息結(jié)合到該方法中,更好地“理解”網(wǎng)頁(yè),進(jìn)一步提高Web網(wǎng)頁(yè)正文信息提取的準(zhǔn)確率。
本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。