朱喬利 李學鋒 李永剛 胡波 李亞
摘要:地理信息概念語義關系分析是異構分布式地理信息系統在語義層次上實現共享的重要基礎。本文以豐富地理信息概念的語義關系為目的,在分析各種結構化語義詞表中定義的語義關系的基礎上,結合中文分詞,提出了一種基于MindNet的地理信息概念語義關系分析模型,并以部分水系地理信息概念為例對此方法進行了可行性分析。
關鍵詞:地理信息概念 語義關系 MindNet 中文分詞
中圖分類號:TP391.3 文獻標識碼:A 文章編號:1007-9416(2016)08-0066-03
地理信息共享與互操作問題一直都是地理信息科學領域研究的熱點,利用地理本體可以實現對各種地理信息資源的歸類和分級,實現跨數據庫間語義互換等,最終實現異構分布式系統之間在語義層次上的互操作,因此地理信息分類是地理本體論研究中最重要的方面甚至前提之一。而領域中術語以及術語之間的關系是本體研究的主要對象之一[1]。然而,地理信息的復雜特性增加了進行地理信息語義分類的難度,一些簡單的地理信息概念語義關系無法完全指導地理信息的語義分類體系構建,因此需要更加豐富的語義關系知識。一些結構化語義詞表如敘詞表、WordNet、MindNet、FramNet還有我國的知網(HowNet)中的詞間關系可以為地理信息概念關系和分類提供借鑒內容[2]。本文通過比較分析以上結構化語義詞表中定義的各種語義關系,提出一種基于MindNet的地理信息概念語義分析方法,并以水系地理信息概念為例對此方法進行了可行性分析。
1 基于結構化語義詞表的語義關系
本體工程中,處于不同邏輯層概念之間的關系和反映物體組成結構的關系對于理論與實際應用都相當重要,這些關系對于指導分類是非常重要的。Gangemi認為理解本體中的不同類型的關系是構造不同的本體分類體系的首要任務,并介紹了一些基本關系如成員關系、實例關系、部分關系、連接關系等等,并提出這些關系在本體中具有重要的角色[3]。結合地理信息的特點,王紅等將地理信息概念間的語義關系分為分類關系、依賴關系、部分-整體關系、實例關系以及概念屬性關系幾大類[4]。由于地理信息的復雜性,地理信息概念的分類研究需要更加豐富的語義關系知識支撐,包括概念之間和概念內部的語義關系。各種結構化語義詞表中定義的語義關系能夠極大地豐富地理信息概念的語義關系。
MindNet是微軟研究院自然語言處理(NLP)組設計開發的一個概念詞匯語義知識庫系統,通過使用句法分析器從兩部英語詞典(朗文當代英語詞典Longman Dictionary of Contemporary English,美國傳統詞典American Heritage Dictionary)和一部百科全書(微軟多媒體電子百科全書Encarta)中自動獲取自然語言概念以及語義信息而建立的,三元組(triple)作為這些知識的表示基元[5]。MindNet中定義有24種不同類型的語義關系,旨在全面分析與表達文本語句中各種語義關系,本文采用了MindNet中定義的24種語義關系(表1),對地理概念描述語句中包含的詞語進行語義分析,從它們的語義關系中得出關于這些地理概念的深層含義和本質信息,為地理信息分類研究提供輔助。
2 地理信息領域的中文分詞
本文面對的是中文地理信息,與英語等其它語言不同的是,漢語中詞的形態基本沒有什么變化,一連串前后連續的漢字便組成了一個漢語句字,詞與詞之間不像英語有空格這種明顯的分界標識。因此要想實現中文地理信息描述語句中的詞匯之間的語義關系分析,必須經過專門的技術進行處理,這種技術就是中文分詞。
2.1 分詞方法
以地理信息領域中對地理概念“沙灘”的描述語句“海岸線與干出線之間的沙質潮漫地帶”在ICTCLAS中的分詞結果為例,該語句被分為“海岸線/n 與/cc 干/v 出/vf線/n 之間/f 的/ude1 沙質潮/nr 漫/v 地帶/n”(“/”后面為詞性標注),我們可以看出地理概念“干出線”被分為“干”、“出”、“線”三個單獨的字,“沙質潮漫地帶”被分為“沙質潮”、“漫”和“地帶”,地理概念詞語“潮漫地帶”被分隔開。因此,為獲得更加準確的地理信息領域分詞結果,本研究還通過自定義領域詞典來解決中文分詞領域適應性問題,并借助“結巴中文分詞”Java版實現對地理信息概念描述語句的分詞。結巴分詞源程序操作示例如圖1。
2.2 地理信息領域分詞結果
以GB/T20258.1-2007基礎地理信息要素數據字典中部分地理要素概念及其要素描述語句為例。表2列舉了選取的部分要素名稱及其要素描述。
這里為了分詞結果顯示需要,使用“/”將所分詞語分隔,后續大量處理中將使用空格分隔分詞結果以符合標注處理格式要求。首先加載地理信息概念自定義詞典,另外由于本研究需要處理的是大量的地理概念,將概念及其描述語句按行存儲在文本文件中,然后使程序對文本文件中的內容進行分詞。編寫代碼設置程序以讀取的方式打開文本文件,輸出結果寫入一個新的文本文件,函數為splitSentence(‘MyGeoInput.txt,‘MyGeoOutput.txt),文本文件MyGeoInput.txt里存放的內容即為地理概念及其描述語句,設置編碼格式為utf-8,輸出結果在新生成文本文件MyGeoOutput.txt中,對表2中列舉的概念分詞處理結果如圖2所示。
3 基于MindNet語義關系的地理信息概念分析
本文采用MindNet中定義的24種語義關系,結合地理概念描述語句的分詞結果,對地理概念進行了語義關系分析。以基礎地理信息要素數據字典中對地理概念“湖泊”的描述語句分詞結果為例,該描述語句分詞結果為“陸地/上/洼地/積水/形成/的/水域/寬闊/、/水量/變化/緩慢/的/水體/”,結合表1中定義的部分語義關系可以對地理概念“湖泊”做如圖3的語義關系分析。
由圖3可以看出地理要素湖泊的空間位置是在陸地,成因是由于積水形成,上位類別是屬于水體等,由此既可以分析其本質屬性,又能知道它與其它概念(水系)之間的關系。對于其它地理概念描述語句的分詞結果也可以用同樣的方式進行類似的語義關系分析,這些語義關系揭示了一個具體地理概念的組成成分以及成分之間的內在聯系,并希望通過結構化的方式展現,對進一步挖掘地理概念的內涵具有重要的輔助意義,對于分析地理概念的本質屬性有很大的幫助。同時有助于對地理概念含義的理解并發現不同地理概念間存在的相似點或差異,消除歧義理解,輔助完善地理信息語義分類。
4 結語
本文采用MindNet語義關系對地理信息概念描述語句的分詞結果進行深入分析,進一步豐富了地理信息概念的語義關系內容,揭示了地理概念具體的組成成分以及這些成分之間的內在聯系,對進一步挖掘地理概念的內涵具有重要的輔助意義,為地理信息語義分類提供很好的輔助作用,同時對于分析地理概念的本質屬性也有很大的幫助。通過對地理信息概念“湖泊”的語義關系的具體分析,表明該語義關系模型對地理信息概念的語義關系分析具有很好的效果,該分析方法具有一定的可行性。但是,對地理信息概念語義關系分析的最終目的是便于計算機理解和處理地理信息,實現語義共享,如何在地理信息概念語義關系分析模型的構建中實現自動化,仍有待進一步研究。
參考文獻
[1]Gruber T R. A translation approach to portable ontologies [J]. KnowledgeAcquisition, 1993,5(2):199-220.
[2]王世清.本體構建中建立概念間關系方法研究[D]:[碩士]. 北京:農業信息研究所研究生院,2010.
[3]Gangemi A, Guarino N, Masolo C, et al. Understanding top-level ontologicaldistinctions[A]. In Proceedings of IJCAI workshop on ontologies and InformationSharing[C],2001.
[4]王紅,李霖,朱海紅.國家基礎地理信息本體關鍵問題研究[M].北京:科學出版社,2011.
[5]黃昌寧,張小鳳.自然語言處理技術的三個里程碑[J].外語教學與研究,2002,34(3):180-187.