999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于SVM及文本密度特征的網頁信息提取方法

2019-10-21 01:09:26周艷平李金鵬宋群豹
計算機應用與軟件 2019年10期
關鍵詞:文本信息方法

周艷平 李金鵬 宋群豹

(青島科技大學信息科學技術學院 山東 青島 266061)

0 引 言

如今,在網絡信息飛速增長的時代,網絡信息變得越來越重要,它影響著人類學習、工作、生活等各個方面。然而,網頁通常包含非主題信息,如導航、廣告鏈接、版權信息等, 我們稱之為噪音信息。 在網頁上的正文信息通常與不相關的內容混雜在一起,這導致網頁信息的可利用性大大降低[1]。當對Web頁面信息再次分析或開發利用時,往往會有頁面上的噪音信息。如何準確有效地提取文本信息已成為當前研究領域的一個重要課題。

現有的網頁正文抽取的方法可以分為四類:基于包裝器和啟發式規則的信息提取方法,基于文本特征的信息提取方法,基于視覺分塊的信息提取方法,基于統計和機器學習的信息提取方法。

(1) 基于包裝器和啟發式規則的信息提取方法。該方法是一種早期且流行的方法,后續的Web模板提取技術也屬于這一類。 其原則是通過構造包裝器或Web模板規則從Web信息源中提取符合規則的信息[2-3]。該方法在特定格式信息源中的提取有很好的準確率,但在當前互聯網頁面越來越多樣化、越來越復雜的趨勢下,該方法并不是通用的。

(2) 基于文本特征的信息提取方法。 該方法通過網頁結構和文本特征將網頁劃分為文本塊和鏈接塊。通過使用連續出現的噪聲塊的結果來完成文本部分的位置,得到網頁正文信息[4-5]。該方法比傳統的基于包裝的提取方法更簡單實用。但對于某些多主題網頁的抽取,該方法無法正確地對正文進行定位,從而影響了準確率。

(3) 基于視覺分塊的信息提取方法。該算法受人眼視覺啟發,對人視覺處理信息進行模擬,并結合DOM樹對網頁進行文本分塊,最后從文本塊中定位到正文塊,達到提取正文的目的。該方法考慮了包含文本的DOM節點的結構。與傳統算法相比,該算法的精度有了一定的提高,但計算量大,實現難度較大。

(4) 基于統計和機器學習的信息提取方法。該算法通過對樣本網頁的文本分布和節點特征進行統計分析,建立模型規則,并通過不斷學習對模型參數進行改進,從而在一定程度上實現自適應。文獻[7]根據網頁的顯示屬性對網頁文本進行分組,根據顯示屬性值對網頁文本進行分類,獲取相關文本,從而完成網頁的信息提取。目前,網頁的復雜性和非標準化程度越來越高。僅將屬性值作為訓練特征使用會導致某些網頁無法正確識別或特征遺漏。

本文提出了一種基于SVM和文本密度的網頁信息提取方法。 根據網頁的特點和文本信息塊周圍標簽的特點,提出了五種密度特征。使用分類效果比較高的監督學習分類器SVM進行正文信息塊篩選處理。實驗證明,該方法不僅有較高的精度,而且通用性好。

1 文本塊處理

網頁按內容可分為三類:主題型網頁,Hub網頁和多媒體網頁[11]。下面分別給出定義:

(1) 主題型網頁:以段落形式描述一個或多個主題的網頁,很少或甚至沒有圖片、視頻和鏈接。鳳凰新聞網是一個典型的主題網頁。

(2) Hub網頁:通常它不描述事物,但提供相關頁面的超鏈接,例如hao123的主頁。

(3) 多媒體網頁:這種網頁的內容通過圖片,視頻等體現,而文本只是對它們的描述,如電影天堂。

本文是以主題網頁為主開展研究工作。

1.1 網頁預處理

為了提高處理效率,在構建DOM樹之前,應先刪除網頁中如 HTML注釋及腳本等噪音信息。本文采用正則表達式來過濾噪音信息,噪音信息如表1所示。

表1 噪音信息

1.2 文本塊抽取

在網頁的DOM樹中,容器標簽如