任 娟
(鄆城縣醫療保障局,山東 菏澤)
傳統手工信息分類法與新時代網絡信息規模化發展產生了沖突,因而Web 信息抽取技術應運而成。但目前信息抽取技術主要以網絡數據由無結構化、半結構化向結構化方向轉變為主,無法實現網頁信息的有效提取。而Web 信息抽取技術可抽取網頁正文信息,并能利用網頁數據抽取術語通用性表達所抽取信息,可有效擴大自然語言技術的應用范圍。
Web 是以超文本、HTTP 為基礎構建的具有跨平臺功能及動態交互功能的分布式圖形信息系統,Web信息可以促進靜態類型網頁的動態轉化,并能推動網頁結構交互式、多元化發展[1]。Web 信息智能抽取系統是具有精準、高效、智能、可擴展性特征的通用智能信息抽取技術為支持,分析各類網頁的HTML 標簽含義、特性,并歸納文本信息分布特征,整理出啟發式規則,利用網頁解析器解析網頁文檔,并構建網頁文檔元素層次結構,再以啟發式規則為基礎,結合用戶實際需求,設計通用性模板,之后利用信息抽取模塊按照模板智能化抽取網頁信息,最后再采用增量處理、多頁處理、去重技術等多種技術進行信息處理。
Web 信息智能抽取系統由訓練模塊、信息提取模塊兩部分框架構成(見圖1),訓練模塊的作用是分析各站點內網頁結構形式,模板生成器以啟發式規則庫中的規則為依據,綜合考慮頁面組織結構完成模板生成。信息抽取模塊以生成的模板為基礎,利用多種處理技術處理站點中的網頁信息。本系統包含管道、過濾器兩類結構,二者均可采用數據流方式分析與處理信息。各模塊均安裝一個過濾器組件,過濾器上設置管道,用于數據有效傳送。此種結構設置方式便于過濾器修改,修改時不會對其他結構產生影響,通過增設規定接口過濾器并完成配置文件關聯設置,還可實現擴展系統功能。Web 信息智能抽取系統的管道由網絡采集器、解析器、多處理器、消除器、信息提取器五部分構成,這些部分擔負不同的功能。若需拓展挖掘內容,只需更新為新型信息提取器,便可提升系統的信息處理能力。

圖1 Web 信息智能抽取系統框架
3.1.1 規則生成器的設計原理
網頁中分割標記數及對等信息往往塊數量相同,每個正文信息塊均有對應標簽用于分割信息塊及其他信息,如果網頁中同時存在多個帖子,將會有與帖子數量相同的標簽對這些帖子進行區分,且分割后所產生的標志具有一致性。規則生成器便是基于這一原理而設計的[2]。規則生成器運行時,需要先解析HTML文檔,而后再構建網頁文檔元素層次結構,在標簽的分布規律分析完成后,從中篩選出部分候選集標簽,用于文本內容的提取,通過相應運算后將目標信息塊標簽從候選集標簽中提取出來,得到的提取結果可作為模板配置基礎,并可支持信息抽取操作。規則生成器處理流程詳見圖2。

圖2 規則生成器處理流程
3.1.2 規則集生成與實現
運用HTML Paser 解析HTML 文檔后應構建元素層次結構,之后再對分析結構中的節點穩步情況。分析時,先利用規則集生成算法定位節點,將最小信息富余子樹的跟節點提取出來,此過程可濾除與提取信息無關聯的廣告、導航等無用信息。然后基于標準漂移式規則、重復匹配規則、可確認路徑分隔符標記規則、局部路徑比較規則、兄弟標記規則,采用聯合規則識別標記算法再次定位對等目標實體間的各個分割標記,并根據得到的分割標記完成信息提取[3]。對等目標實體是指文檔內部處于并列關系的信息塊,而具有包含關系的信息塊不在此列。此過程中,最小信息富余子樹查找時,應先對網頁文檔元素層次結構中各節點出度、文本信息大小、標簽數分別進行計算,之后再計算最小信息富余子樹的根結點權重,然后再利用此權重值計算網頁文檔元素層次結構根結點的HTML初始節點的初始權重,若計算結果不高于0.1,便可將對應結點所處子樹當作候選最小信息富余子樹。
3.2.1 模板生成器設計原理
模板生成器的設計,需要利用模板生成算法,在規則集生成的基礎上,對網頁文檔結構樹的元素層次結構進行分割與標記,而后再向模板中配置得到的分割標記結果。模板生成時所采用的是半人工篩選算法,此算法先利用自動識別器做好分隔標記,再將之向模板評論分隔項中配置,在構建評論對應的層次結構后,再次對其中的信息進行分隔與標記,并采用人工輔助方式向數據項中標注分隔符,如此能夠保障信息提取的準確性,且可自主設置過濾信息選項。此方法可以彌補全自動機器配置算法無法實現所提取的混合信息內容有效分離的缺陷。
3.2.2 模板生成與配置
通常情況下,網站需要配置兩種模板,分別是線索列表頁面模板及正文頁面信息模板。前者可以按照正常流程,采用最小信息富余子樹查找的方式,通過濾除無用信息完成頁面上鏈接URL 信息的提取。而正文頁面信息配置相對復雜。首先要對正文頁面信息進行提取,再完成分割標記符所在位置記錄項的配置,將首次識別得到的對等實體間分割標記配置到適合位置。然后結合信息提取需求,采取查找最小信息富余子樹、利用規則集生成器生成分割標記,再根據程序生成的配置信息完成這些分割標記在模板中的配置。最后采用人工配置方式將亂碼信息、網站標識信息等過濾信息配置到模板之中。
3.3.1 信息抽取器設計原理
信息投取器以生成的模板為基礎完成信息提取,而后再對所提取的信息實施增量處理、多頁處理、去重處理以及結構化存儲等各項操作。信息抽取器的工作同樣需要分別線索列頁面、正文頁面分別兩個處理部分。處理線索列表頁面時,需要在頁面中將話題線索的發表及修改時間、正文頁面鏈接、標題、回復數及人氣值等相關數據提取出來。而正文頁面處理時,主要是提取用戶信息、帖子內容與帖子標題、帖子評論情況等相關信息[4]。
3.3.2 信息抽取器的實現
3.3.2.1 新線索列表頁面抽取
新線索列表頁面抽取時,要通過解析器將讀取且保存后的頁面轉化成為網頁文檔元素層次結構,然后再利用模板生成器讀取相應模板,從而生成線索列表頁面模板。之后再以此模板為依據重復性提取此頁面上的相關話題線索信息。文件未處理情況下,回到第一步重新執行操作。新線索列表頁面抽取的流程見圖3 所示。

圖3 線索列表頁面信息提取流程
3.3.2.2 正文頁面信息抽取
先對未處理正文頁面進行讀取與存儲,然后利用解析器構建元素層次結構,再依據輸入的站點名,讀取相應正文模板信息,隨后按照模板配置信息對此結構上對應的信息進行提取,最后再根據解析后的標題信息將話題線索從數據庫中排查提取出來,采用話題有效性判斷、增量處理、多頁處理、發帖者等級處理、貼子額外屬性權值處理、話題線索權重處理五個技術進行信息處理后,再向話題線索中添加[5]。在頁面處理未啟動的情況下,可自動跳轉到第一個步驟,若處理完成,則將得到的話題線索存儲于數據庫中。正文頁面抽取流程詳見圖4。

圖4 正文頁面信息提取流程
為驗證Web 信息智能抽取系統的實用性,對此系統的功能性進行了測試。測試以奔騰處理器作為CPU,處理頻率為42.66 GHZ,CPU 內存為512 MB。測試所用硬盤容量為56 GB,選用的是WindowsXP SP2 系統。主要對Web 信息智能抽取系統的頁面樣式模板定義、頁面結構分析、頁面內容分析與提取、網面增量挖掘、網頁多頁挖掘五個功能展開了測試,測試結果表明此系統的功能均符合應用要求。
4.2.1 與全自動網頁目標實體信息提取系統功能的對比
選取新浪、網易、搜狐等8 個論壇,分別利用Omini 全自動網頁目標實體信息提取系統及Web 信息智能抽取系統進行功能對比測試,發現本系統信息抽取準確率、召回率、信息提取速度均更為優異(見表1)。

表1 Web 信息智能抽取系統與Omini 系統功能對比
4.2.2 與集中典型信息提取系統在不同結構類型信息提取性能方面的對比
從目前知名度較高的集中典型信息提取系統中選取五個系統與Web 信息智能抽取系統分別對單一結構類、多結構類網頁信息提取方面的性能進行了對比(見表2),得出的結論是本系統的各方面性能均更佳,證實了Web 信息智能提取系統的應用優勢。

表2 Web 信息智能抽取系統與集中典型信息提取系統在不同結構類型信息提取方面的性能對比
Web 互聯網上存在多種類型的網頁,這些網頁的布局特點、標簽應用規則均不一致。而Web 信息智能抽取系統可結合這些因素,利用先進的Web 信息提取算法,通過規則生成器、模板生成器完成待提取信息模板的獲取,并可自動化完成模板配置過程,可在無需模板配置算法訓練的基礎上,按照時間的不同抽取網站信息。通過線索列表頁面及正文頁面信息的分別抽取,解決了信息重復性抽取問題,此系統還具有多頁抽取、結構化存儲、網頁去重、易于擴展等多重優勢,在計算機網絡Web 信息抽取方面具有較高應用價值。