

[摘要] 指出本體的涵義、類別和構成以及基于語義的領域本體的構建模式和設計標準。在詳細闡述信息抽取的涵義、特征、類型以及與信息檢索關系的基礎上,重點探討基于領域本體構建的Web信息抽取。從基于本體的信息抽取的原理,特點、方法和過程幾個方面論述基于領域本體構建的Web信息抽取的實現。最后指出目前存在的兩大技術瓶頸。
[關鍵詞] 領域本體 本體構建 信息抽取
1 引言
隨著計算機技術和Internet的迅猛發展,Web已成為跨全球的信息源,如何快速、準確地從浩瀚的信息資源中尋找所需的信息已經成為困擾用戶的一個難題。檢索不能只盯著字面,而應當關注字面下隱藏的“內容”[1]。如何才能確定一篇文章、一張圖片、一段視頻或者音頻流的內容呢?以查全率、查準率和檢索速度為評判標準的關鍵詞檢索很難有大的作為,基于內容的檢索就成為研究熱點。
目前Web數據大都以半結構化為主的HTML形式出現,缺乏對數據本身的描述,不含清晰的語義信息,模式也不太明確,對于數據查詢是十分不易的,這使得應用程序無法直接解析并利用Web上的海量信息[2]。在這樣的背景下,為了增強Web數據的可用性,出現了Web信息抽?。╥nformation extraction,簡稱IE)技術。Web信息抽取是將信息抽取技術應用于Web網頁,其面向的對象不是純文本文件,而是半結構化的網頁文本。
在語義層次上,本體是Web 信息共享和交換的基礎。將本體引入信息科學,就是從語義層次上考察事物的運動狀態及狀態的變化方式,把本體意義上的信息賦予更具體的內涵。因此,將本體應用到信息抽取可以從語義上消除歧義,提高信息抽取系統的抽取性能。目前,面向語義的Web 信息集成方法一般都基于本體,主要是利用對數據本身的描述信息實現抽取,對網頁結構依賴少,而且本體提供機器可識別的領域概念知識及其關系,具有簡單的推理能力,對抽取出的實體之間聯系領域知識有識別能力。本文主要探討信息抽取系統中領域本體的構建方法和Web信息抽取的實現。
在基于領域本體的信息抽取中,領域本體通過對概念的嚴格定義和概念與概念之間的關系來確定概念精確含義,提供對該領域知識的共同理解,確定領域內共同認可的詞匯,并從不同層次的形式模式上給出這些詞匯和術語間相互關系的明確定義,實現對該領域知識的推理。這將為信息抽取提供統一的概念和術語標準,提高信息抽取的準確性。
2 本體
2.1 本體的涵義
本體最開始是一個哲學的概念,用來描述事物的本質。后來本體被用于人工智能、計算機等方面。在自然語言處理中,本體被認為是特定領域內概念及概念之間關系的集合,它能夠有效地表達特定領域內的概念、實體、關系等通用知識。本體描述語言能夠描述復雜的關系并具有簡單的推理能力。作為一種有效表示概念層次結構和語義的理論和方法,本體已經被廣泛應用于計算機科學和信息管理領域,并且被成功應用于構建新的智能信息組織和檢索系統。
2.2 本體分類
本體按照研究主題分為5種類型:知識表示本體、通用本體、領域本體、語言學本體和任務本體。本體的研究和開發工作是在不同層次上進行的。根據本體的研究層次,可分為頂級本體、領域本體、任務本體和應用本體。①頂級本體。主要研究非常通用的概念,描述的是最普遍的概念及概念之間的關系,它們完全獨立于特定的問題或領域,與具體的應用無關,可以在一個很大的范圍內共享。②領域本體。研究與一個特定領域相關的術語或詞匯,描述的是特定領域中的概念和概念之間的關系。③任務本體。定義通用任務或推理活動,描述的是特定任務或行為中的概念及概念之間的關系。任務本體和領域本體處于同一個研究和開發層次。④應用本體。描述特定的應用,它既可以應用特定領域本體中的概念,又可以應用出現在任務本體中的概念[3]。本文重點探討領域本體的構建以及與信息抽取的關系。
2.3 本體構成
本體的具體構成過程,可以用下面的公式形象地給出。組成本體的5個基本的建模元語為:C,R,F,A,I。
本體(ontology)=概念(concepts)+關系(relations)+函數(functions)+公理(axiom)+實例(instances)
概念(concepts):其含義非常廣泛,可以指任何事物,如描述、功能、行為、策略和推理過程等,本體中的這些概念通常構成一個分類層次。
關系(relations):關系代表了在領域中概念之間的交互作用。
函數(functions):函數是一類特殊關系。在這種)表示y是x的母親。
公理(axiom):代表永真斷言,是定義在“概念”和“屬性”上的限定和規則,比如概念乙屬于概念甲的范圍。
實例(instances):屬于某概念類的基本元素,即某概念所指的具體實體。概念的定義一般采用框架結構,包括概念的名稱、與其它概念之間關系的集合以及用自然語言對該概念的描述?;镜年P系有4種:part-of,kind-of,instance of和attribute of[3]。
在實際應用中,不一定要嚴格地按照上述5類元素來構造本體,一些輕量級的本體僅由C,R,I組成。同時概念之間的關系也不僅限于上面列出的4種基本關系,可以根據特定領域的具體情況定義相應的關系,以滿足應用的需要。
3 基于語義的領域本體構建
3.1 領域本體構建模式
基于本體的信息抽取由領域內的相關概念、屬性、關系、約束及術語或實例等構成。主要是利用領域本體對領域內數據的描述信息來實現抽取,本體的構建是信息抽取的基礎與核心,領域本體構建的好壞將直接影響到信息抽取的性能,如何構建出良好的本體對提高信息抽取的精確度有直接的影響。但目前還不能構建出通用型本體,只能對特定領域構建。
首先要構建一個形式本體,即能進行形式化表達的本體論模型,然后用計算機軟件形式表達出來,其一般構造方法可以設計成三段法。這樣構造的形式本體論是一個動態系統,其概念、關系和軟件均可根據發展的需要而不斷更新。
第一段:概念化。所謂概念化就是確定某一領域的元概念。概念之間的關系可以包括同義關系、反義關系、屬中關系、交叉關系、全異關系等。這與分類法和主題表有一定類似,但卻沒有分類法和主題表體系固定的限制,也不像分類法和主題表那樣龐大。元概念選擇可以根據需要增減,以這些元概念為核心,再根據信息學內容和表現形式進一步分類,就很容易與實際存在的信息或知識相連通。
第二段:模型化。在本體概念確定后,所謂模型化就是用圖示法將某領域的元概念和元關系表示出來,構筑成形式本體論的關系模型,用網絡聯絡。與普通樹型數據結構的元數據不同的是,形式本體論容許各級概念的交叉滲透。
第三段:軟件化。所謂軟件化就是用適當的軟件工具將本體論模型轉化為能在計算機上運行的軟件。由于形式本體論可以軟件化,故適合用計算機處理,這是其特點和優點。一旦確定了本體論模型,就可以用程序設計語言將形式本體論表示出來,制成軟件界面。而通過該軟件界面就可以將世界上所有與該領域相關的信息資源、知識資源和研究資源聯絡起來,構筑成具有特定功能的系統。
3.2 本體的設計準則
本體的構建遵循以下準則:①清晰明了。本體必須能有效地說明所定義的類、概念、屬性、屬性值的含義。本體中所有的類名、概念、屬性等術語應該能清楚地表達所要傳遞的意義,不能有二義性。②一致性。本體應該是一致的,即本體所定義的公理、某些推理以及本體的描述文檔都應該具有一致性。③可擴展性。本體應該為可預料到的任務提供概念基礎,并可支持在已有概念基礎上定義新的術語,以滿足特殊需求,而無需修改已有的概念定義。④簡潔高效編碼。概念的編碼應該簡潔高效,以便計算機容易處理。
3.3 本體的構建步驟
以領域本體為例,構建步驟如圖1所示:
3.3.1 需求分析確定領域本體的應用目的、領域與范圍、表示方法與用途等。
3.3.2 羅列領域中重要的概念、術語在領域本體創建的初始階段,盡可能地列舉出該領域內所有夠看到、想到的概念和術語。
3.3.3 構建領域本體框架羅列出領域中大量的概念、術語,這是一張無組織結構的匯表,需要按照一定的邏輯規則對它們進行分類形成不同的子領域,在同一子領域下的概念、術語相關性較強。另外,對其中的每一個概念、術語重要性要進行評估,選出關鍵性的概念、術語,放棄那些不必要或者超出領域范圍的概念、術語,確立概念及概念間的等級關系,盡可能準確而簡要地表達出領域的知識,從而形成一個領域知識的框架體系,得到領域本體的框架結構。構建領域本體框架包括:①定義領域本體中的類,即劃分子領域本體;②定義領域本體中的概念及概念間的關系,采用自上向下的方法定義領域本體中的概念(先定義領域中綜合的、概括性的概念,然后逐步細化說明);③定義屬性值(屬性值既可以是一個具體數值也可以是一個描述),即通過屬性值來說明屬性的取值類型、值個數及有關值的其他特征;④創建實例,即創建概念的特征詞。
3.3.4 對領域本體編碼、形式化選用合適的本體描述語言對上述所建立的領域本體進行編碼、形式化,以便對領域本體進行計算機處理。
3.3.5 領域本體的確認和評價評價包括本體的清晰性、一致性、可擴展性等方面[4]。
4 信息抽取
4.1 信息抽取涵義
信息抽取(information extraction)是從自然語言形式的文本中抽取用戶感興趣的事實、事件以及卷入其中的特定類型的實體等信息,并將這些信息轉換為結構化的數據并存儲的過程[5]。信息抽取是自然語言處理(natural language process,NLP)和人工智能(artificial intelligent,AI)結合的結果,是從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出,供用戶查詢和使用的文本處理技術。廣義上,信息抽取技術的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結果則變為相應的結構化數據。信息抽取技術的最終目的就是從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取系統可以看作是把信息從不同文檔中轉換成數據庫記錄的系統。因此,成功的信息抽取系統將把互聯網變成巨大的數據庫[6]。
4.2 信息抽取特征
信息抽取作為自然語言處理中一個發展很快的研究領域,有如下特征:①信息抽取是當前文本挖掘中最為突出的一項技術,這一技術結合了自然語言處理、語料資源以及語義技術,目前正趨于成熟;②信息抽取不是從文件集中選取一個與用戶需求相關的子集,而是從文本中直接抽取與用戶需求相關的事實或信息;③信息抽取是一個從無結構的自由文本或其他信息資源中抽取出結構化、無二義性信息的過程[7]。
4.3 信息抽取與信息檢索
與信息抽取密切相關的一項研究是信息檢索(information retrieval,IR)技術。信息抽取與信息檢索密切相關,但二者存在差異,主要表現在三個方面:①實現功能不同。信息檢索系統主要是從大量的文檔集合中找到與用戶需求相關的文檔列表;而信息抽取系統則旨在從文本中直接獲得用戶感興趣的事實信息。②處理技術不同。信息檢索系統通常利用統計及關鍵詞匹配等技術,把文本看成詞的集合,不需要對文本進行深入分析;而信息抽取往往要借助自然語言處理技術,通過對文本中的句子以及篇章進行分析處理后才能完成。③適用領域不同。由于采用的技術不同,信息檢索系統通常是領域無關的,而信息抽取系統則是領域相關的,只能抽取系統預先設定好的有限種類的事實信息[8]。雖然信息抽取與信息檢索有區別,但兩種技術是互補的。在海量文本處理過程中,信息抽取系統往往以信息檢索系統的輸出為輸入,而信息抽取技術又可以用來提高信息檢索系統的性能。二者的結合能夠更好地滿足用戶的信息處理需求。
4.4 信息抽取類型
信息抽取技術隨著需求的增加而不斷豐富,近年來國內外涌現出多種信息抽取方法,根據抽取原理和抽取方式的不同,分為以下幾類:基于自然語言處理方式、基于包裝器歸納方式、基于HTML結構方式和基于Web查詢方式等。信息抽取系統各有其特點,但多采用基于模板和模式匹配,或者是采用基于統計的學習方法。這些方法都需要在前期準備大量的手工標注訓練文本,然后對訓練文本進行學習。但是訓練文本不可能覆蓋整個領域內出現的所有語言習慣。另外,信息抽取雖然能抽取出實體,但是缺乏領域知識來識別抽取實體之間的關系。要克服這些局限,其一是增強模板的知識表達能力,其二是運用某種歧義消解機制。針對這種情況,在Web信息抽取中引入一種能處理語義的基于本體的信息抽取技術[9]。
5基于領域本體構建的Web信息抽取的實現
5.1 基于本體的信息抽取
基于本體的信息抽取技術是一種把本體和信息抽取技術結合起來實現信息抽取的技術,近年來受到了廣泛關注,已成為信息抽取研究的一個熱點,并廣泛應用于半結構化信息抽取技術中。基于本體的信息抽取技術主要是在信息抽取任務中引入相應的領域知識——領域本體來指導抽取過程 [10]。作為一種自然語言處理系統,信息抽取系統需要強大知識庫的支撐。在不同的信息抽取系統中,知識庫的結構和內容是不同的,但一般來說,都要有一個領域本體,該領域本體通常是面向特定領域或場景的,是通用概念層次模型在特定領域或場景的細化或泛化?;陬I域本體的信息抽取系統能提供用戶感興趣的特定信息,并通過領域本體為信息源提供必要的語義標注信息,從而使系統對領域內的概念、概念之間的聯系有統一的認識,有效地提高信息抽取的性能,提高信息抽取的準確率與覆蓋率,并進一步提高系統的查準率和召回率,為用戶提供更有價值的信息。
5.2 基于本體的信息抽取特點
本體信息抽取是新型的信息抽取方式,它利用本體網格而不是扁平結構的辭典與詞表來識別抽取內容,本體信息抽取可以在語義層面理解抽取內容,從語義信息入手進行抽取,并可通過本體實例對抽取內容進行語義標注,可大大提高信息的召回率和精確度[11]。由于基于本體的信息抽取是一種基于本體、能處理語義的信息抽取系統,更為重要的是基于本體的信息抽取模型非常適合作為下一代Web技術的通用語義抽取模型,因為下一代Web技術——semantic Web是基于本體的Web技術。
5.3基于本體的信息抽取方法
5.3.1 知識工程的方法由專家對語料庫本體進行分析、調整而人工制定規則、模板。根據選定的訓練集中的數據來確定本體中出現的概念和關系,建立本體;手工統計概念和關系中出現的關鍵字,然后根據規則進行抽取。因為本體的構建和規則的制定是建立在特定的訓練集上的,實際的抽取過程中如果抽取的文本結構和表述方式發生變化時,對于抽取的結果影響非常大。這種方法需要有經驗的工程師來開發,個人的直覺能夠對系統的性能產生很大的影響,性能較好,開發周期長。
5.3.2 自動訓練方法給出根據本體中的概念進行標注的例子文檔集,通過機器學習的方法來推導模板和模板的自動填充知識庫和規則。也應用統計學的方法來抽取。使用這種方法的開發者并不需要掌握語言工程知識,但需要大量的經過標注的訓練數據。如果需要對這類系統的核心數據進行修改,則相應的所有訓練數據也需要重新標注[10]。
5.4 基于本體的信息抽取過程
基于本體的信息抽取的基本設計思路如下:在領域專家的幫助下,建立相關領域的本體。在構建完整的領域本體的基礎上,收集信息源中的數據,并參照已建立的本體,參考本體論對異構信息進行標引,將概念關系生成標注規則,這些規則是抽取與領域相關的信息的一組原則,利用本體庫得到的形式化地表達。還要利用這些概念關系參與文本的語法分析,把語法分析的結果和本體標注規則結合在一起生成信息標注器,再通過信息抽取器得到所需要的信息。本體論可以從語義信息入手進行抽取,這樣可大大提高信息的召回率和精確度[12h]?;诒倔w的信息抽取過程如圖2所示:
6 結束語
目前,基于本體的Web信息抽取技術的研究雖然取得了一定進展,但仍是一個新的研究領域,處于探索階段。首先需要解決的問題是如何構建高質量的本體。本體的設計是一個創造性的過程,而領域本體的構建更是一個極具挑戰性的工作。因為本體的建立需要領域專家的參與且需要耗費大量的人力和物力,特別是領域內實例術語的獲取。依靠手工獲得是不現實的,現在大量的研究致力于自動構建本體,自動獲取本體的概念和關系,并利用信息抽取技術來自動獲取本體中的實例。如何才能構建出高質量的本體,充分發揮本體的全部潛能,提高信息抽取的準確性是問題的瓶頸。其次,在一個新領域上建立信息抽取系統需要許多該領域專家和熟悉NLP (neuro-linguistic programming)系統的計算機語言學家的共同努力,既費時又費力。由于本體的自動構建技術還很不成熟,領域知識的自動獲取還依賴于信息抽取技術。今后,只有提高本體的自動構建技術和信息抽取技術,使得兩種技術相互促進,基于本體的信息抽取技術才能有個更大的發展空間。
參考文獻:
[1] 陳立娜,張紅,馬莉.基于本體的旅游信息抽取.計算機應用軟件,2010(4): 146-161.
[2] 陸進科,李新穎.基于Ontology的文本信息抽取.計算機應用研究,2003(7): 46-48.
[3] 宋煒,張銘.語義網簡明教程.北京:高等教育出版社,2004.
[4] 于江德,李學鈺,樊孝忠.信息抽取中領域本體的設計和實現.電子科技大學學報,2008(9): 746-749.
[5] 俞士汶,段慧明,朱學鋒,等.綜合型語言知識庫的建設和利用.中文信息學,2004,18(5):1-10.
[6] 何召衛,陳俊亮.基于本體關系匹配的信息抽取.計算機工程,2007 (11): 207-209.
[7] 周峰,吳斌,石川.復雜網絡構建中信息抽取技術綜述.數字圖書館論壇,2008(6):28-33.
[8] 劉遷,焦慧.信息抽取技術的發展現狀及構建方法的研究.計算機應用研究,2007(7):6-9.
[9] 陳靜,朱巧云,貢正仙.基于Ontology的信息抽取研究綜述.計算機技術與發展,2007(10): 84-91.
[10] 徐靜,孫坦,黃飛燕.近兩年國外本體應用研究進展.圖書館建設,2008 (8): 84-90.
[11] 徐萍,邵波.基于本體信息抽取的競爭情報預處理分析.情報雜志,2008(9): 33-38.
[12] 柳佳剛,賀令亞,陳山.基于Web的信息抽取技術現狀與發展.福建電腦,2007(7): 48-49.
[作者簡介] 張莉萍,女,1966年生,副研究館員,碩士,發表論文10余篇,出版專著1部。