解 崢,王盼卿,彭 成
(軍械工程學院 河北 石家莊 050003)
本體(ontology)原本是一個哲學概念,后來信息系統需要世界推理的模型,因此研究者在程序中利用術語“本體”來描述目標世界的信息。1995年意大利Padova大學的Guarino等人對本體的不同概念解釋進行深入分析,最后得出了一個基本得到領域認同的本體概念,即“某些方面概念化的明確解釋或表示”[1],雖然不是本體最終的標準定義,但是對信息系統的研究具有理論指導意義。
本體開發步驟包含:1)確定本體的領域和范圍;2)考慮現有本體的復用;3)枚舉本體的重要術語;4)定義類和類的層次;5)定義類的特性;6)定義屬性的約束;7)生成實例。根據本體的開發步驟,傳統的本體構建方法主要有骨架法、評估法、Bernaras法、METHONTOLOGY法和SENSUS法。骨架法是領域內本體構建的常用基本方法,以骨架法[2]為例,簡單介紹一下本體的傳統構建方法流程:1)確定本體應用的目的和范圍;2)本體分析;3)本體表示;4)本體評估;5)本體建立。
本體自動構建技術,也被稱作本體學習。其目標是通過與數據庫的連接,實現對內部數據的自動抽取,并且轉化出相應的本體。本體自動構建方法種類繁多,但是主要過程大致相同,以H.Waste方法為例:1)確定本體應用目的和范圍;2)數據抽取,機器分析;3)本體表示;4)概念區分;5)本體建立。
通過上文以看出傳統的本體構建方法與本體自動構建方法在構建思路上有些相似,并沒有太大不同。但是看兩者構建過程中的具體操作過程(見表1),不難看出,在傳統構建本體的過程中,主要以專家的經驗分析和人工操作來生成本體,雖然這樣構建本體的可靠性高,但是隨之而來的高成本和長時間,使得構建本體的難度大大增加,因此國內外都加大了本體自動構建的研究力度。

表1 傳統本體構建方法與本體自動構建方法比較Tab.1 The traditional ontology construction method compared with themethod of building ontology automatically
雖然本體自動構建雖然研究時間不是很長,但是卻已經有了很多實質性的進展。通過對本體自動構建的研究,豐富了原有的知識庫,改進了原有本體構建的方式方法,現在國內外已經有很多的團隊對本體的自動構建和半自動構建的方法研究。
H.Waste等人根據“所需即所用”的思想,認為同一領域內的人對本領域的本體的構建也會有著不同的的理解,針對不同的應用就會有不同的本體[3]。他們于1999年左右提出了一個基于領域的初始核本體,然后再以此為基礎,借助語言處理工具,機器通過尋找新的相似概念不斷的擴充核本體,最終生成所需本體。這就是本體自動構建中的 “中間擴展法”,其思想值得我們學習。但是這個方法最大的問題就在于需要建立一個領域的初始核本體,這需要領域專家的介入,而且核本體的標準也很難劃定。
Jean等人在2004年提出了一個通過先構建局部本體,再通過對局部本體進行本體合并,最后得出全局本體的自動構建方法[4]。其構建原理為通過抽取數據之間的概念關系,構造出局部本體,再通過計算局部本體的語義間概念相似度,抽取相同概念及概念間的關系,最終生成所需本體。這種方法主要存在的問題是抽取數據進行局部本體構建需要事先書寫預定義規則,對基礎信息語義間概念的區分難度比較大。
2005年前后德國的卡爾斯魯厄大學的AIFB研究所開發的本體自動構建工具TextOnt,是一個可以從不同數據庫中抽取數據源的概念及其內部關系再合并出對應本體的工具。它最大特點是可以利用機器學習功能,進行相應的實例學習,也可以對已生成的本體進行裁剪、分類、擴展和比較。他們對于本體構建的基本認識是認為本體構建主要應該通過WordNet進行自然語言理解和關聯語義挖掘。正是由于是對概念之間進行分析操作,導致其主要問題是對概念的區分比較模糊,其概念間關系也不容易清晰的區分,后期需要大量的人工操作。
University Of Rome開發的領域本體的Ontolearn是一個通過統計的方法從文本中抽取術語,再借助語言分析工具,進行概念的抽取和分析,最后生成本體的工具。這種方法不同于其它方法之處就在于其基于統計的方法進行文本數據分析,再確定本體的生成,改變了傳統的以專家參與的方式進行本體構建,更具有科學性和可靠性。
在國內對于中文的本體自動構建的研究也有很多,在2006年,Chang-Shing li等人依據繁體中文字典抽取詞語產生相應概念,再在相應的語境下,利用模糊推理進行機器學習,但是在全局本體的構建中,仍需相應的領域專家完成[5]。中國科學院陸汝鈐院士等人以知識庫中的基本領域本體為基礎[6],集合用戶需求,采用仿生物種群進化的方法,對基礎本體進行增添、重組和刪減來半自動豐富已有本體。劉柏嵩等人提出針對WEB數據,借助WordNet等工具區分出語義概念和實例。2009年楊爭庫等人通過對國外Jean等人研究的方法進行深化,提出了依據本體間概念間的映射[7],通過書寫映射規則,達到本體自動構建目的。2010年王磊等人總結國內外經驗得出了根據PAT-Tree[8]進行詞匯、領域特征的提取,最終基于FCA構建本體的方法。通過將以上國內外方法總結歸納得出表2,通過對表2的分析,我們更容易看出各個方法在主要環節相同和不同的地方。

表2 國內外本體自動構建的主要方法Tab.2 Them ain method of ontology autom ated building at home and abroad
通過表2可以看出,雖然本體自動構建研究至今也發展了十多年的時間,理論進展和實際成果也有很多,但是從本體自動構建流程圖(見圖1)中依然可以看出,目前本體自動構建過程還有很多問題:
1)現在研究的眾多理論,大多還是要有領域專家的參與,屬于半自動的成果居多,只是實現了局部的自動化。以H.Waste方法為例,需要相應領域專家先進行簡單的領域分析,從中抽取主要概念及關系,然后在此基礎上構建初始核本體。再將核本體進行領域內擴展,將領域內其余本體與和本體合并。但是這中間的初始核本體構建以及領域間關系的擴展依然要人工操作來完成,并未實現真正意義上的“自動”;
2)現在大多研究還是理論過程偏多,實際成果偏少,具體的自動構建流程偏少。特別是國內對于本體自動構建的研究,都集中于理論過程的討論和簡單的驗證,并沒有系統的完成對本體自動構建的具體實現。雖然Chang-Shing li和陸汝鈐院士的本體自動構建方法已經部分應用,但是對于中文的領域內本體自動構建具體應用還是很少;

圖1 本體自動構建流程圖Fig.1 Ontology automated builds flowchart
3)大多數處理語義間概念關系都是借助原有語言分析軟件 , 如 1995 年 的 WordNet、2003 年 的 FrameNet、2006 年 的HowNet等,新的語言分析軟件缺少。語言分析軟件是實現本體自動構建的核心工具之一,然而隨著時代的發展,我們已經步入大數據時代,日新月異的數據和新概念成指數式增長,原有的語言分析軟件的處理能力有所不足。
針對現今本體自動構建中存在的主要問題,未來本體自動構建的工作將圍繞解決這些主要問題展開:
1)通過對當今世界上主流本體自動構建方法的總結可以看出,雖然本體自動構建的方法多樣,形式不同,但是并沒有為特殊領域提供固定的規則標準來進行選擇。因此需要結合各類領域再進一步對本體自動構建方法進行分類,使得在選擇本體自動構建方法時可以選取最優化的方法。
2)H.Waste在提出中間擴展法自動構建本體時就指出在自動構建初始核本體的過程中,仍然需要相應的領域專家和一定的科研人員先進行初始核本體的創建。現在不僅是H.Waste的方法,大多數本體自動構建技術中依然要依賴領域專家和科研人員進行人工的分析操作。因此楊爭庫等人指出隨著人工智能的發展,基于統計和詞匯分析能力的人工智能技術已經有了很大的進步和很廣的應用,可以結合現今技術,實現本體自動構建的全自動。
3)以陸如鈐院士半自動構建本體方法和Chang-Shing li的方法為例,可以看出隨著本體自動構建系統理論的逐步完善,應該逐漸向實用化方向發展。設計領域內本體自動構建的框架,采取合適的自動構建技術,切實將成果應用于實際,實現對應領域內信息集成中本體的自動構建。
4)在當今互聯網大數據云存儲的背景下,設計全新的針對本體自動構建的在線或者固定更新的語言分析軟件,實時更新社會各領域內詞匯,改進現有語義間概念關系算法,提高概念區分的準確度。
雖然現在本體自動構建方法存在一些問題和矛盾尚未解決好,實際的成果也不是很多,但是近幾年互聯網大數據時代的到來,使得傳統的基于本體的信息集成方法已經開始漸漸滿足不了時代的需求,本體的自動構建將成為時代的必然選擇。而隨著本體自動構建理論的不斷完善和人工智能技術的不斷進步,本體自動構建方法也將會向著更自動更快捷的方向發展。
[1]馮志勇,李文杰,李曉紅.本體論工程及其應用[M].北京:清華大學出版社,2007.
[2]宋佳.基于語義的裝備領域信息集成框架設計與查詢研究[D].石家莊:軍械工程學院,2008.
[3]Cimiano P,Volker J.Text20nto a framework for ontology learning and data-driven change discovery[C]//Proceedings of the 1Oth International Conference on Applications of Natural Language to Information Svstrms,2005:227-238.
[4]Barloroush A,Shamsfard M.Hasti:a model of ontology for NLU systems [C]//Proceedings of the 7th Iranian Conference on Electrical Engineering,1999:91-98.
[5]Lee Chang-Shing,Kao Yuan-Fang,Kuo YauvHwang,et al.Automated ontologyconstruction for unstructured text documents[J].Data&Knowledge Engineering,2006,60(3):547-566.
[6]陳剛,陸汝鈴,金芝.基于領域知識重用的虛擬領域本體構造[J].軟件學報,2003(3):350-355.CHEN Gang,LU Ru-ling,JIN Zhi.Based on knowledge reuse in the field of virtual domain ontology construction[J].Journal of Software,2003(3):350-355.
[7]楊爭庫.信息集成中本體的自動構建及映射技術 [D].西安:西安電子科技大學,2009.
[8]王磊,周寬久,仇鵬.領域本體自動構建研究[J].情報學報,2010,29(1):45-52.WANG Lei,ZHOU Kuan-jiu,QIU Peng.Domain ontology automatically building research[J].Journal of Intelligence,2010,29(1):45-52.