李 勇(解放軍外國語學院,洛陽471003)
基于維基百科的本體構建研究
李勇
(解放軍外國語學院,洛陽471003)
維基百科作為一個多語種的大型知識庫,正逐漸被人們應用于不同的領域。剖析維基百科的基本結構,分析對從信息盒、類別結構和定義句中獲取本體概念和實例的相關原理和方法,闡述利用維基百科獲取本體關系的原理,分析基于規則匹配、機器學習和認知科學的關系抽取方法。
本體構建;維基百科;概念;關系
本體(Ontology)在哲學上是對客觀存在事物的系統解釋和說明。在計算機科學中的定義是由Gruber提出的,他認為本體是概念模型的明確的規范說明,即本體實際上是對相關領域中的概念及相互之間關系的明確定義,并提供人們對該領域知識的共同認可和理解[1]。近些年來,本體在信息檢索、知識表示、問答系統、信息抽取等方面都有廣泛的應用。本體的構建是本體研究和應用的基礎和前提,因此首先成為了人們研究的重點。早期本體的構建以手工為主,雖然內容和分類比較準確,但是知識擴充和更新很難及時。雖然可以借助一些本體構建工具(如Protégé),但是其中概念、屬性、關系等內容通常要靠相關領域的專家完成,并通過手工輸入相關的數值,開銷較大。因此,近些年興起的針對結構化和半結構化的數據進行本體的自動和半自動構建,并通過利用知識獲取技術降低本體構建開銷、提高構建效率成為了研究熱點問題。
維基百科(Wikipedia)自誕生之時起就備受知識庫自動構建者的關注,主要由于其自身所具有的半結構化、詞條更新速度快等特點。在維基百科中,詞條正文和詞條中所包含的各類鏈接、子標題、分類、模板和信息盒等要素,都可看成是對語義信息的一種半結構化組織[2]。同普通網頁相比,維基百科詞條質量高、內部的知識挖據難度低,詞條分類清晰,同時維基百科的時間演化特點,充分避免了挖掘的本體知識庫更新滯后。因此,將在剖析維基百科結構的基礎上,進行本體概念、實例以及關系抽取的原理和方法進行分析和比較。
維基百科創建于2001年,是一個基于Wiki技術的多語言百科全書協作計劃,同時也是一個動態的、可自由訪問和編輯的全球知識庫,其目標是為全人類提供各種語言的自由百科全書。維基百科已經成為內容最多、范圍最廣、更新最快的開放型網絡百科全書。截止2014年7月,維基百科一共有285種語言版本,其中英文版本的條目已經超過400萬條,中文版本的條目超過80萬條。維基百科的結構主要由條目(Entry)、信息盒(Information Box)、類別(Category)和超級鏈接(Hyperlinks)等構成。
1.1條目
條目是維基百科中最基本的信息單元。每篇條目就某一百科內容來描述一個主題,并表現該主題與其他相關主題的聯系。條目首先要對所描述內容進行基本的解釋,所以第一句也稱為定義句。然后是該條目的目錄,目錄說明了該條目的不同方面,后續內容是對這些方面的具體闡述。如圖1為“2012 London Olympicgames”條目所示。

圖1 “2012 London Olympic Games”條目
1.2信息盒
信息盒是維基百科中一種特殊類型的模板結構,主要包括當前條目的一些基本屬性和重要信息。此外,信息盒中也含有豐富的結構化和語義信息。圖1最右邊的矩形區域是信息盒,包括諸如主辦城市、參賽國家和地區、運動員數量、比賽項目、開閉幕時間等屬性信息。這些屬性的一部分可以表示為當前條目和其他條目之間的語義關系,當前條目作為主語,其他條目作為賓語,并且通過信息盒屬性的超鏈接能夠直接訪問百科中的其他實體。例如2012年夏季奧運會和倫敦之間具有語義關系“舉辦城市”。這些信息可以看成是對整個百科知識的摘要,便于用戶的訪問和瀏覽,維基百科的信息盒僅僅是部分條目含有。
1.3類別
在每篇百科的底部是類別信息,每篇百科隸屬于一個類別。維基百科中的類別頁面主要包括兩種:Topic Categories表示與特定主題相關的類別和條目;List Categories表示通過列表列出該概念所包含的實例。用戶需要為自己撰寫的條目進行歸類,并且指定該條目在類別體系中的父類和子類。例如:條目“北京大學”就被包含在類別“北京的大學和學院”和“211工程”等類別里。而在類別里不僅有條目,還會有子類別。其分類體系類似于C++面向對象編程理論中的類繼承體系,整個結構層次不是樹形結構,而是網絡圖結構,每個類別可能有多個父類和子類,如圖2所示。由于維基百科的類別體系是圖結構,所有信息可以使用圖論中的理論來進行導航,從方便用戶的角度進行深度優先和廣度有限搜索,由于所有的類別缺乏一致性,所以不可避免出現冗余。

圖2 類別結構圖
1.4超鏈接
維基百科中除了信息盒及類別系統等較為顯式的語義信息,還有一些隱式的語義信息,例如大量的超鏈接,包括內部鏈接和外部鏈接。前者是維基百科內部的條目之間的鏈接,后者是從維基百科內部鏈接到外部網頁。用戶在維基百科里面用得最為廣泛的結構信息就是內部鏈接,這些鏈接構建了維基百科的隱含語義關系網絡。通過點擊鏈接,我們可以從一個條目轉換到另一個和原條目有一定聯系的或相同主題的條目,因此鏈接可看作是條目描述的實體之間的某種關系。至2014年,英文版的維基百科已包含超過90M的超鏈接,構成了一個強大的鏈接體系。
2.1基本信息盒
本體的概念又可以稱為類(Class),可以指任何具體的或抽象的事物,如工作描述、功能、行為、策略和推理過程等。本體的實例表示概念的具體化過程。由于維基百科具有豐富的知識,通過維基百科能獲得豐富的結構化數據,繼而來抽取本體的概念和實例。信息的抽取過程不需要利用傳統的詞頻統計、詞法結構等特征來區分普通條目和術語概念,通過維基百科的類別體系和超級鏈接構建網絡圖來抽取本體概念和實例。主要的方法可通過信息盒、類別結構和定義句來完成。
每種條目的信息盒擁有條目的眾多屬性,其中信息盒對應著概念,標題對應著概念的實例。例如:{Infobox University}對應概念“大學(University)”,信息盒標題〈Beijing University>對應此概念的一個實例。如果多個條目的信息盒都指向一個概念,例如:〈Nanjing U-niversity>也指向{Infobox University},則表示這些條目是這個概念的不同實例。如果一篇條目中有多個不同的信息盒,表示這個實例隸屬于多個概念。上述充分地說明了概念和實例之間是多對多的關系。基于信息盒的抽取方法充分利用了維基百科信息盒模板中的屬性和值。雖然維基百科中并不是所有條目都有信息盒,導致應用范圍較窄,但是抽取的結果十分準確。
2.2基本類型結構圖
相對于從信息盒里的抽取,維基百科的類別結構具有更高的覆蓋度。因此,從類別結構圖抽取實例和概念,具有更廣泛的應用。由于維基百科的類別含有非常好的特性,是一個復雜的網絡結構,并具有豐富的語義,反映了實例和概念之間的分屬關系或者概念和概念之間的上下位關系。維基百科的類別是用來定義特征、幫助用戶通過多重分類視角瀏覽維基百科的,被包含在一個類別里的條目常具有特定的屬性和值,這些屬性和值提供了信息抽取的良好條件。概念的抽取過程需要深入地分析類別結構圖。文獻[3]提出首先統計類別結構圖中當前概念到不同領域的路徑長度、路徑數目因素,然后根據隸屬度函數計算概念向量的每個分量值,判斷概念所屬領域,抽取本體概念。
2.3基本定義句
在規范的維基百科條目中,一般都有定義句。定義句一般出現在條目的開頭,對條目內容進行簡要的描述。例如,在條目“奧運會(Olympic Games)”中,第一句為“The Olympic Games is a major international event featuring summer and winter sports,in which thousands of athletes participate in a variety of competitions.”。該句對奧運會進行了基本定義。通常情況下,定義句中隱含了概念之間的上下位關系或實例-概念關系。例如,在上述定義句中,可以得到概念“奧運會(Olympic Games)”是概念“international event”的一個實例。通過對定義句中隱含的概念上下位關系和實例-概念關系進行分析,可以獲取相關概念與實例。這種方法直接利用定義句中的動詞來判斷概念和實例,操作比較簡單,但準確率不夠高。
在本體知識庫的構建過程中,不僅要識別本體概念,還要確定這些本體之間的關系(兩個實體之間的關系),因此需要進行本體關系抽取。本體關系的抽取需要預先定義抽取類型,本體關系有一些常用的關系,也有根據實際情況產生的關系類型。例如:地理位置關系(PHYS)、雇傭關系(EMP-ORG),等等[4]。例如,如果文本中出現“The CEO of Alibaba…”,其中“The CEO of Alibaba”和“Alibaba”分別可表示成人物(Person)類型和組織(Organization)類型的實體。兩種實體類型之間構成了一種雇傭關系(EMP-ORG),即“The CEO of Alibaba”受雇于“Alibaba”。當然可以是沒有定義的,例如在一句話中出現沒有定義在上述關系范疇內的關系。
本體關系反映了本體概念、實例之間的相互聯系,在語義檢索、問答系統等應用方面具有重要的作用。Maedche和Staab將本體關系分為分類關系(Taxonomy Relation)和非分類關系(Non Taxonomy Relation)[5]。分類關系又稱為IsA關系,包括上下位關系(Hyponymy)、實例關系(Instance Of)以及部分整體關系(Part Of)等。上下位關系類似于面向對象理論中父類和子類之間的關系,表示概念之間的繼承關系,如“大學生”與“學生”之間則是這種關系。實例關系表示實例和它所對應的概念之間的關系,如“iphone”是“手機”這個概念的實例。部分整體關系表示一個概念“有”另外一個概念,如:“汽車”有“車輪”。非分類關系主要包括同義詞關系(Synonymy)、反義詞關系(antonym)等,即除了IsA關系外的概念間的任何關系。在本體關系的抽取中,主要通過基于傳統的規則匹配方法、基于機器學習方法和基于認知科學的方法來完成[6]。
3.1規則匹配方法
使用規則匹配方法在維基百科中獲取本體之間的關系是指通過條目、信息盒、類別結構等相關內容的分析,并且識別出的規則語言模型,然后將待處理的語料與規則模型進行匹配,從而識別本體概念間的關系[7]。例如,通過判斷維基百科的條目Member和CEO之間蘊含的關系是Members-Of關系,因此可以指定規則模型“A is the CEO of B→Members-Of(A,B)”,并將該規則模型應用于待處理的語料,可以得到更多的關系實例。
基于規則的關系抽取首先制定規則,然后進行模式匹配,如果在百科中能夠找到滿足約束條件的規則,說明該規則就是抽取到的關系。所以基于規則的匹配方法的關鍵問題是規則本身的學習和抽取,在此基礎上考慮目標關系的抽取等問題。例如,利用信息盒結構對非分類關系中的屬性關系進行提取。在信息盒中,每行的字段域對應著一種屬性,對同一概念中所有實例的字段域進行歸納和篩選,可以獲得概念的主要屬性。例如,某條目Produced By字段域對應著屬性“制造者(Producer)”,屬性值為“微軟公司(Microsoft)”。可以利用三元組(Office,designed by,Microsoft)來表示這種類型的屬性關系。然后對概念“軟件產品”中所有實例(Photoshop、Dreamweaver等)的字段域進行歸納,可以得到“制造者”是概念“軟件產品”的一個重要屬性,即存在語義關系“Distribute-Of(Producer,Software)”。雖然不是所有的維基百科條目都能用規則關系匹配,但是匹配上的規則抽取準確率很高。除了可以信息盒中的屬性來提取關系,也可以根據一些詞典或者知識庫中已經定義的同義、反義和上下位關系來提取,例如通過WordNet、HowNet等知識庫來進行規則匹配。
3.2機器學習方法
使用機器學習方法從維基百科中獲取本體關系,需要充分利用百科條目中的詞法、句法、語義、語用和內部結構等特征,根據選定的統計模型對歸納和總結訓練數據,學習所應用統計模型的相關參數,然后用訓練好的模型和這些參數處理語料完成本體概念之間關系的抽取。相對于基于規則的關系抽取,機器學習方法主要是使用統計方法,基于概率的非確定性抽取,根據是否引入監督學習,可以將其分為有監督的分類方法和無監督的聚類方法[8~9]。聚類方法首先計算概念間的語義距離,將距離大于一定閾值的概念聚集到同一類簇中,聚類的結果就是概念的類別。分類方法首先需要人工指定或者利用通用類別來構造分類器,然后對訓練語料進行學習,將學習到的統計模型處理語料,然后來確定概念之間的關系。本體關系的識別可以使用聚類或者分類方法進行,在完成百科知識的預處理后,選擇具有較強區分度的特征項來決定本體關系識別的效果。基于機器學習的關系抽取是一種概率性的非確定性的抽取模型,如果語料庫的規模比較大,通常會有比較好的效果。
依據選擇特征項選擇的方法不同,維基百科關系的機器學習方法可以通過統計文本特征和結構特征的方法來實現。文本特征主要學習詞性、特殊字符、屬性名、句法等文本的表層特征和語義等文本的深層特征,繼而計算特征項的權值構建特征向量,使用K近鄰、支持向量機等方法學習概念間的關系。由于準確率和召回率受特征選擇的影響較大,所以結果普遍較低。維基百科的數據具有半結構化的特點,所以其結構特征根據不同的抽取需要,可以提取定義句動詞特征、類別中心詞特征、內外鏈接特征等多種,根據這些特征進行統計學習。由于考慮了抽取的需求,所以該方法具有非常高的準確率和召回率。
3.3認知科學方法
認知科學主要研究生物智能的結構、功能和工作原理,用信息加工的方法來研究認知結構和過程。基于認知科學的關系抽取通過建立計算機模型,來模擬人類認知過程,是一種研究人思維處理機制,并結合人工智能來完成信息抽取的方法。例如概念層次網絡HNC。認知科學的模型是建立在人工智能的基礎上,但是人類對于自身的認知過程的認識有限并且起步較晚,所以效率的提高還需要進行研究。
維基百科具有龐大的知識覆蓋體系以及豐富的結構特征,通過采用當前基于規則匹配、機器學習、認知科學的方法和手段,可以自動獲得本體的概念元素和各種關系,大大提高了本體構建的效率,利用維基百科進行信息抽取、本體學習和開發利用已經成為當前研究的一個熱點。
[1]朱姍.基于規則和本體的實體關系抽取系統研究[J].情報雜志,2010(12):142~143
[2]張海粟,馬大明,鄧智龍.基于維基百科的語義知識庫及其構建方法研究[J].計算機應用研究.2011(8):7~11
[3]Cui G Y,Lu Q,Li W J,et al.Corpus Exploitation from Wikipedia for Ontology Construction[C].Proceedings of the Sixth International Language Resources and Evaluation(LREC-08).Marrakech:ELRA,2008:2125~2132
[4]車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報.2005(2):7~9
[5]Miller G A,WordNet a Lexical Database for the English Language[J].Communications of the ACM,1995(38):39-41.
[6]Faure D,Nedellec C.A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology Acquisition[C].Proceedings of the LREC Workshop on Adapting Lexical and Corpus Resources to Sublanguages and Applications.Granada:LREC,1998:5~12
[7]Papatheodorou C,Vassiliou A,Simon B.Discovery of Ontologies for Learning Resources Using Word-Based Clustering[C].Kommers P, Richards G.Proceedings of the World Conference on Educational Multimedia,Hypermedia and Telecommunications.Chesapeake: AACE,2002:1523~1528
[8]Nguyen D P T,Matsuo Y,Ishizuka M.Relation Extraction from Wikipedia Using Subtree Mining[C].Proceedings of the AAAI'07 Conference.Vancouver:AAAI Press,2007:1414~1420
[9]Wang G,Yu Y,Zhu H.PORE:Positive-Only Relation Extraction from Wikipedia Text[C].Proceedings of the Sixth International Semantic Web Conference and Second Asian Semantic Web Conference(ISWC/ASWC'07).Berlin,Heidelberg:Springer-Verlag,2007: 7580~7594
Research on the Ontology Construction Based on Wikipedia
LI Yong
(PLA University of Foreign Languages,Luoyang 471003)
Wikipedia as a large knowledge base of more than one language is gradually to be applied to different areas.Analyses the basic structure of Wikipedia,and compares the principles and methods to obtain the ontology concepts and instances from the category structure,information boxes,and the definition of sentence on the principle of the use of Wikipedia for ontological relations,analyzes rule-based matching and statistical learning methods and cognitive science.
Ontology Construction;Wikipedia;Concepts;Relationships
1007-1423(2015)11-0053-05
10.3969/j.issn.1007-1423.2015.11.010
李勇(1978-),男,吉林長春人,在讀博士研究生,研究方向為數據挖掘、自然語言處理2015-02-10
2015-03-17