彭 靜 羅 偉
遼寧裝備制造職業技術學院(沈陽 110161)
一種從自然語言文本到本體模型的轉換方法
彭 靜 羅 偉
遼寧裝備制造職業技術學院(沈陽 110161)
如何利用本體將內容所蘊涵的語義進行形式化與規范化描述是一項艱巨的任務。本體通常用來描述內容的語義,以實現基于語義的內容共享和集成。然而,手工構建本體通常耗費巨大,因此,有必要研究基于非結構化數據的本體學習技術。提出了從自然語言文本中學習本體的方法,定義了自然語言數據源到本體的映射規則并與現有方法進行了詳細的比較,同時給出了應用實例及原型實現。分析表明,本文提出的方法在映射的完整性及正確性方面有較大提高。
本體 自然語言
本體學習(ontology learning)方法主要可以歸為三類:手工的、半自動化、全自動化的方法。目前存在的本體構造方法多是手工的,需要領域專家的參與,在面對海量的內容時,手工方法費時、費力,而完全自動化的方法也不現實,因此,如何利用機器學習或統計等知識獲取技術自動半自動化的從已有的數據資源中獲取期望的本體,以降低本體構建的開銷是一個迫切需要解決的問題。本文主要研究如何從非結構化(主要指自然語言文本)數據源獲取期望的本體。
自然語言文本是Web中大量存在的一類非結構化數據,因此,有必要從該類數據源中學習本體。依據文獻,本體概念的獲取方法主要有3類:基于語言學方法,基于統計學方法和混合方法。對于概念關系的獲取,有基于模板的方法、基于概念聚類的方法、基于關聯規則的方法、基于詞典的方法和以上方法的混合。本文提出的方法是半自動化的,需要人工的參與。首先,借助于特定領域的核心本體與WordNet詞典,挖掘出文本中包含的與該本體概念在語義上相近的概念以及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中;然后挖掘與全部概念相關的關聯規則,利用該關聯規則形成概念間的侯選關系與實例,最終判定由用戶來決定。
借助特定領域的核心本體與WordNet,挖掘文本包含的與該本體概念在語義上相近的概念及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中,步驟如圖1所示。

圖1 相關概念的獲取流程
“拆詞”:從核心本體概念的標識,獲取與概念相關的詞或詞組。
“去頻繁項”:將頻繁出現并含有較少語義信息并的詞從“拆詞”獲得的詞集中去除。
“切詞與標詞”:獲得輸入詞的詞根及詞性。本文采用Porter Stemming 算法完成“切詞”步驟,采用QTAG算法完成“標詞”步驟。
“同義詞集”:借助WordNet,獲得單詞的同義詞集合,繼而獲得單詞的語義鏈(Semantic Chain),然后將語義鏈轉化為向量表示。
“矢量化”:借助WordNet,用向量表示獲得輸入文本中單詞的語義鏈,將向量進行標準化,即為每個分量計算權重。權重的計算采用TF*IDF規則產生,TF(term frequency)表示詞頻,IDF(inverse document frequency)表示逆文檔頻率,權重計算公式如下:

wi,j表示詞ti在向量dj中的權重,fi,j為詞ti在向量dj中的詞頻,N為向量總數,ni為包含詞ti的向量數目,分母為歸一化因子。
“匹配”:利用VSM方法,通過向量間的夾角余弦衡量單詞的相似程度,計算公式如下:

根據結果選出與核心本體中概念相關的單詞和句子。
用戶從上述步驟得出的相關單詞和句子中選擇新的概念標識充實到核心本體,得到與特定文本相關的本體。采用關聯規則挖掘算法,形成概念間的侯選關系與實例并添加到本體中。
給出從文本數據源生成本體的例子。采用清華大學的travelontology.owl作為旅游領域的核心本體,導入一篇桂林旅游的自然語言文本。圖2顯示了導入系統后的本體,可以進行概念及概念間關系、屬性、實例的編輯添加,以充實核心本體,生成與導入內容相關的本體。
本文研發的管理系統支持由數據庫、XML內容、自然語言文本到本體的轉換,及現有本體的導入,形成基于本體的知識庫。另外,內容管理系統提供本體的編輯及一致性檢驗功能,以消解可能的語義沖突。

圖2 自然語言文本到本體的導入
討論了自然語言數據源到本體的轉換,并與現有工作進行了詳細的比較,在此基礎之上開發了內容管理系統,實現了本體編輯和數據一致性檢驗,為實現面向語義的內容搜索奠定了基礎。
[1]杜小勇等.本體學習研究綜述.軟件學報,2006(9).
[2]Lawrence S, Giles CL. Searching the World Wide Web. Science, 1998,280(5360):98?100.
[3]Alexander Maedche, Steffen Staab.Mining Ontologies from Text. In:Proc. Of th EKAW2000,LNAI1937.pp:18 9-202.2000.
[4]Felbaum.WordNet:an Electronic Lexical Database.MIT Press,Cambridge,Massachusetts,1998
[5]張劍,李春平.基于Word Net概念向量空間模型的文本分類.計算機工程與應用,2006(14).
齊婷婷)