王裴巖 張桂平 蔡東風



摘 要:語義知識庫在自然語言處理的許多領域中起著重要的作用。現有的語義知識庫主要面向常識知識,特定領域的語義知識庫則很少。文章將知網(HowNet)的理論體系與概念表示方法擴展至航空領域,提出了一個航空領域術語語義知識庫——ATHowNet,并介紹了構建過程。該知識庫包含3700個概念、3959個概念關系和3864個術語。在航空術語相似度計算及詞類比任務上應用與驗證了ATHowNet,結果證實了其在航空領域概念語義描述及基于概念關系推理上的有效性。
關鍵詞:語義知識庫;航空術語;概念;概念關系
中圖分類號:N04;N949 ?文獻標識碼:A ?DOI:10.12339/j.issn.1673-8578.2021.03.004
Abstract:Semantic knowledge base plays an important role in many areas of natural language processing. Existing semantic knowledge bases are produced mainly for common sense knowledge, and there is few semantic knowledge base for specific domains. This paper extends the theory and concept representation method of HowNet to the aviation domain, proposes a semantic knowledge base for aviation terms, ATHowNet, and describe the process of constructing it. This knowledge base contains 3700 concepts, 3959 relations and 3864 terms. ATHowNet is applied and verified in the task of aviation term similarity calculation and word analogy. The results show that ATHowNet is effective in aviation domain concept description and reasoning based on concept relationship.
Keywords:semantic knowledge base; aviation terms; concept; concept relation
收稿日期:2021-02-26 ?修回日期:2021-05-11
基金項目:教育部人文社會青年基金項目“領域概念的語義表示方法與大規模語義知識庫建設研究”(17YJC740087)
引言
語義知識庫在自然語言處理的許多領域中起著重要的作用。現有的語義知識庫主要面向常識知識,特定領域的語義知識庫則很少。
本文基于知網(HowNet)[1]的理論體系與概念表示方法,提出了一個航空領域術語語義知識庫——ATHowNet(Aviation Terms HowNet),描述航空術語所承載的概念及其之間的關系,并介紹ATHowNet的數據來源、構建規則及構建過程,分析ATHowNet在術語相似度計算及詞類比應用的實驗結果,證實了其在航空領域概念語義描述及基于概念關系推理上的有效性。
1 HowNet知識庫及其擴展
HowNet最初是由董振東和強東在20世紀90年代設計和構建的,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫,揭示了不同詞語所承載的概念及其屬性之間的關系[1]。HowNet把義原(sememe)[2]作為意義的最小不可分割單位。義原是通過對大量漢字的語義進行提取、分析、合并和過濾而確定的,其形式如:“aircraft|飛行器”“strength|力量”,并且建立了義原的分類體系,每個義原歸于一個分類,如:事物、部件、屬性、時間、空間等。此外,為了更準確地描述詞語的語義,HowNet還定義了義原之間的關系,如:“whole”(整體)、“patient”(受事)、“agent”(施事)與“host”(主體)等。概念通過義原和義原關系來標注,同義詞或近義詞對應相同的概念,每個多義詞對應多個概念,并建立了概念間的上下位、整體—部分、屬性—宿主等關系。標注的概念用知識庫標記語言KDML(Knowledge Data Base Markup Language)表示。這種面向計算機的形式化表達方式,便于將HowNet應用于相似度計算[3]、情感分析[4]、詞向量[5-6]、語言建模[7]等。
HowNet自1999年提出以來,一直在不斷更新,主要是擴充義原、概念和詞匯的數量。目前,HowNet的網絡開源版本OpenHowNet[8],包含2196個義原、35 202個概念和229 767個中英文詞。一些研究對HowNet進行了擴展。ExtendedHowNet[9]擴展了HowNet的詞義定義機制,使用WordNet語法集作為詞匯來描述概念,通過定義與其他概念的關聯來表示和理解概念。ExtendedHowNet 2.0[10]面向實體與關系的表示,對HowNet進行了擴展,重新組織了概念間的層次構筑關系,提供了除概念定義之外的額外詞匯信息,如事件框架與語義功能等,利于表達實體所代表的概念間的語義合成過程。ExtendedHowNet和ExtendedHowNet 2.0擴展了HowNet的概念表示方式及詞匯信息,但沒有繼承KDML形式化語言的能力。王瑩瑩等[11]借鑒HowNet的思想,以KDML為表示方式,以中醫領域的99個基礎概念為義原,配合8種關系,構建了中醫領域術語語義知識庫。由于中醫基礎概念及其關系自成體系,中醫術語語義知識庫中的義原與關系不能繼承HowNet。這使得中醫領域概念與HowNet中常識概念構建在不同的基礎語義要素上,造成該知識庫適用于中醫術語層級的運算,無法用于參雜領域概念與常識概念的文本級任務。
張桂平等[12]完全繼承HowNet義原及關系體系,以KDML為表示方式,構建了基于HowNet的航空領域術語語義知識庫,面向航空術語的特點,在HowNet的7條總規則的基礎上延伸出5條規則,包括義原與義原關系的選用規則與使用規范,為后續研究打下了基礎。但這些規則在實際構建過程中操作性不強,概念表示的一致性與規范性較難保證。王羊羊等[13]在張桂平等[12]研究的基礎上,提出了航空領域術語核心詞框架,將[12]研究的義原與義原關系的選用規則與使用規范具體化為框架,規范了術語核心詞義原及與其相關的動態角色關系。
2 ATHowNet
本文將HowNet的理論體系與概念表示方法擴展至航空領域,提出了一個航空領域術語語義知識庫——ATHowNet(Aviation Terms HowNet)。ATHowNet包含3700個概念、3959個概念關系和3864個術語。在[12]及[13]的基礎上,本文做了如下改進:首先,針對航空領域術語多為復合詞或詞組的特點,更加注重概念間的層次構筑關系,即復雜概念由簡單的概念構建而成,簡單的概念由更為簡單的概念構建,直至基礎概念。這樣能夠更加明確地表達概念間的關系,適用于基于關系的推理任務。其次,將[13]的核心詞框架替代為基礎概念及框架,使得220項基礎概念能涵蓋52.82%的術語。最后,除[12]及[13]的術語相似度任務外,在基于概念關系推理的詞類比任務[13-14]上應用了ATHowNet,驗證了其在航空領域概念語義描述及基于概念關系推理上的有效性。
2.1 ATHowNet數據來源
ATHowNet中的航空領域術語提取自《中國航空百科詞典》[15]。《中國航空百科詞典》收錄了13大類8918個詞條。每個詞條包括一個術語和一個定義。表1展示了詞條的一個示例。我們選擇技術類術語,如飛行器、飛機部件、飛行控制和導航等,不包括航空領域知名人物與組織,除非已包含在HowNet中。ATHowNet包含3864個術語,表2列出了ATHowNet每一類術語的數量。
2.2 ATHowNet構建規則
ATHowNet的每個記錄都由一個術語及其相應的概念組成。同義詞或近義詞對應相同的概念。
每個多義術語對應多個概念。表3展示了ATHowNet記錄的一個示例。ATHowNet中的概念用HowNet的KDML表示。如示例所示,在KDML中,每個概念的表達都以“DEF”開頭,由一組義原(紅色加粗)和義原關系(斜體藍色)組成。KDML的詳細語法規則以及義原及關系集,可以參考HowNet在線手冊[16]。ATHowNet繼承了HowNet的義原和義原關系系統,沒有擴展和改變其原有的內涵和層級關系。這樣可以保證ATHowNet和HowNet的基本語義系統是一致的,使航空領域的概念和常識概念在統一的邏輯下進行語義計算,也可以建立領域概念和常識概念之間的語義關系。
在ATHowNet中,復雜的概念由簡單的概念組成。也就是,新的概念基于已經定義和描述的概念來表達。通過這種方法,概念的表達可以在不同層次上進行動態分解和統一,也可以表達概念的上下義層次和概念之間的關系。以表3中的“變壓變頻電源系統”為例,相關概念及其之間的關系展示在圖1中。這一概念的定義和表述是基于“電源系統”這一上層概念。同時,“供電系統”的概念在“系統”概念的基礎上定義與描述。“變頻”概念與“電源系統”概念的關系是“modifier”,即變頻是電源系統的特性。
基于上述概念關系原則,為了使義原關系的范圍更加緊湊,提高概念形成的一致性,我們基于有限數量基礎概念構建ATHowNet,即核心概念。具體地,對3864個術語通過“jieba”工具包進行分詞。然后進行詞頻統計,保持頻率高于5的,得到220個詞。這些詞所對應的概念作為核心概念,覆蓋52.82%的術語。
2.3 ATHowNet構建過程
基于上述原則,手動標注所有術語概念及其概念關系。
(1)將所有的術語按照其中心詞(術語中最右邊的單詞)分為1123個組,其中每個組具有相同的中心詞。具有相同中心詞的術語表達相似的或相關的概念。
(2)從數量最多長度最短的組開始標注。這樣能夠首先對具有高頻率中心詞的無歧義術語進行標注,然后可以重用于其他術語。
(3)將1123組術語分配給三個標注者,并按照前面提到的原則進行標注。標注完成后,每一個標注者對其他兩個標注者標注的概念進行評分,評分標準為“0、1、2、3”,其中“0”是指第一個義原不正確;“1”表示第一個義原正確而其他義原不正確;“2”表示所有義原都正確,但部分義原關系不正確;“3”是完全正確。最后,用Cohen κ[17]計算評分一致性,其值達到56.76%。如果標注得分小于3,則標注者對標注進行討論并重新標注,直到達成一致。
整個構建過程歷時8個月。
2.3 ATHowNet構建結果
最終,ATHowNet包含4152條記錄,3864個術語和3700個概念。在3700個概念中,共有3959對關系,如“whole”“location”“patient”等56種。表4為ATHowNet的統計信息。
多義詞和同義詞是重要的語義現象,也是最重要的詞匯關系。ATHowNet能有效地表示航空領域中的多義詞和同義詞。在ATHowNet中,278個詞是多義詞,每個詞對應兩個或者更多的概念。以“程序”為例,“程序”的一種意義是計算機程序,另一種意義是事物的順序。同義詞通過兩個或多個術語共享相同概念體現。ATHowNet有286個概念對應于多個術語。例如,“軍用飛機”和“軍用機”這兩個詞對應相同概念。
3 ATHowNet應用
詞的相似度計算和詞的類比是詞匯語義研究和評價中常用的方法[14]。本節展示ATHowNet在航空領域的詞相似度計算和詞類比方面的能力。
3.1 航空領域的詞相似度計算
首先,從ATHowNet中隨機選擇100對術語,并對它們進行人工相似度評估。組織10名標注者來標注每對術語的相似度。相似度分數為[0-5]之間,從完全不相似“0”分,到最相似“5”分。標注之后,對于每對術語,將所有標注者的標注相似度值取平均值,并映射到[0-1]之間。標注者之間的標注一致性(皮爾遜相關系數[18])為0.7514。這意味著在評價術語對相似度時標注者具有較高的一致性。其次,我們按照[19]中的方法,根據術語對應的概念自動計算每對術語的相似度,得到一組在[0-1]范圍內的相似度分數。最后,得到人工評價與計算得分的相似度之間的相關性。使用皮爾遜相關系數[18]作為相關性度量,得分為0.8232。這一結果顯示出二者高度的相關性,這表明ATHowNet在一定程度上反映了人類對于術語相似性的判斷,從而證實了ATHowNet中術語概念的正確性。表5顯示了通過人工標注和自動計算得出的術語間相似度的一些示例。
3.2 航空領域的詞類比
本文構建了一個航空領域詞類比數據集,用于驗證ATHowNet在概念關系推理上的有效性。數據集中的每個類比查詢都是一個由四個術語(A,B,C,D)組成的元組,用于構造問題“A之于B,相對于C之于什么?”。D是該問題的答案。這是基于這樣一個假設,即如果“A對B就像C對D”,那么A與B間和C與D間具有相同的概念關系。我們從ATHowNet中選擇具有概念關系的術語對。如(機輪,輪速,彈道導彈,制導誤差),機輪與輪速之間的關系為“subjectattribute”,彈道導彈與制導誤差間的關系也是如此。兩組關系相同的詞對組成一個查詢。最后,我們隨機選擇了由100個單詞組成的含有625個查詢的數據集。
對于詞語類比推理,我們根據A和B在ATHowNet中標注的概念自動找到它們的關系r。尋找一組與C有關系的術語W。然后,選擇與C具有關系r的一個術語w∈W作為答案。如果W中沒有與C有關系r的術語,那么選擇與C具有關系r的術語。r是與關系r在HowNet關系體系中具有相同上級節點的關系。
將上述方法與基于詞表征的方法進行了比較[14,20]。詞表征是將詞表達為線性空間中的向量的一類方法。基于詞表征的方法通過找到與向量vec(B)-vec(A)+vec(C)最相近(通過向量夾角余弦評價相近性)的向量x來解決詞類比問題。使用BERT[21]和Tecent[22]的詞表征。準確率作為評價指標。對于數據集中每一個類比查詢,推理方法給出答案術語w,如果w=D,則判斷為正確。以正確樣本的百分比作為推理方法的準確率。各詞類比推理方法的準確率列于表6。由表6可見,ATHowNet的準確率高于BERT和Tencent,這說明ATHowNet很好地表達了航空領域的詞與詞之間的關系,適用于基于概念關系的推理任務。
4 結語
本文提出了一個航空術語語義知識庫ATHowNet,并介紹了其構建規則與過程。ATHowNet以HowNet為基礎,繼承了HowNet的概念語義表示體系和基本規則。ATHowNet共有4152條記錄,包含3864個術語、3700個概念和3959個概念關系。也驗證了ATHowNet在航空領域概念的詞相似度計算和詞類比方面的能力。在未來的工作中,將考慮自動生成術語概念的方法,特別是在領域內知識有限的情況下。因此,該工作可以推廣到其他領域,而需要較少的人工投入,從而降低了構建語義知識庫的成本。
參考文獻
[1] 董振東,董強.知網[Z/OL].[2021-05-07].http://www.keenage.com/zhiwang/c_zhiwang.html.
[2] BLOOMFIELD L.A set of postulates for the science of language[J].Language,1926,2(3):153-164.
[3] LIU Q, LI S J. Word similarity computing based on hownet[J].CLCLP,2002,7(2):59-76.
[4] FU X H,GUO L,GAO Y Y,et al.Multiaspect sentiment analysis for chinese online social reviews based on topic modeling and hownet lexicon[J]. KnowledgeBased Systems,2013,37(2):186-195.
[5] NIU Y L,XIE R B,YUAN X C,et al.Improved word representation learning with sememes[C]//Association of Computational Linguistics.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[6] XIE R B,YUAN X C,LIU Z Y,et al.Lexical sememe prediction via word embeddings and matrix factorization[C]//International Joint Conferences on Artificial Intelligence Organization.Proceeding of the 26th International Joint Conference on Artificial Intelligence,2017:4200-4206.
[7] GU Y H,YAN J,ZHU H,et al.Language modeling with sparse product of sememe experts[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:4642-4651.
[8] QI F C,YANG C H,LIU Z Y,et al.Openhownet: An open sememebased lexical knowledge base[J/OL] .[2021-05-07].CoRR,abs/1901.09957.2019.
[9] CHEN K J,HUANG S L,SHIH Y Y,et al. ExtendedHowNet: A representational framework for concepts[C]//Asian Federation of Natural Language Processing.Proceedings of OntoLex 2005Ontologies and Lexical Resources,2005.
[10] SHIH Y Y,MA W Y . Extended hownet 2.0an entityrelation commonsense representation model[C]//European Language Resources Association. Proceeding of the 11th International Conference on Language Resources and Evaluation Conference,2018.
[11] ?王瑩瑩,白宇,丁長林,等.面向語義檢索的中醫理論知識庫構建方法的研究[J].中文信息學報,2012,26(5):72-78.
[12] 張桂平,刁麗娜,王裴巖.基于HowNet的航空術語語義知識庫的構建[J].中文信息學報,2014,28(5):92-101.
[13] 王羊羊,陳剛,蔡東風,等.基于HowNet的術語語義知識庫構建技術[J].沈陽航空航天大學學報,2016,33(4):78-84.
[14] MIKOLOV T,CORRADO G,CHEN K,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations,2013.
[15] 《中國航空百科詞典》編輯部.中國航空百科詞典[M].北京:航空工業出版社,2000.
[16] KDML:知網知識系統描述語言[Z/OL].[2021-05-07]. http://www.keenage.com/TheoryandpracticeofHowNet/07.pdf.
[17] COHEN J.A coefficient of agreement for nominal scales[J].Educational & Psychological Measurement,1960,20(1):37-46.
[18] STUDENT.Probable error of a correlation coefficient[J].Biometrika,1908,6(2/3):302-310.
[19] XIA T.Study on chinese words semantic similarity computation[J].Computer Engineering,2007,33(6): 191-194.
[20] NIU Y L,XIE R B,YUAN X C,et al. Improved word representation learning with sememes[C]// Association for Computational Linguistics. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[21] DEVLIN J,CHANG M W,LEE K,et al.BERT: Pretraining of deep bidirectional transformers for language understanding[C]//Association for Computational Linguistics.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.
[22] SONG Y,SHI S M,LI J,et al.Directional skipgram: Explicitly distinguishing left and right context for word embeddings[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACLHLT,2018:175-180.
作者簡介:
王裴巖(1983—),男,博士,2020年畢業于南京航空航天大學計算機科學與技術學院,獲工學博士學位。現為沈陽航空航天大學人機智能研究中心工程師,主要研究方向為自然語言處理、機器學習、知識工程。先后主持遼寧省自然科學基金重點項目與教育部人文社會青年基金等項目,參與國家科技支撐計劃與國防基礎科研等項目,曾獲得國防科技進步二等獎與中國航空學會科學技術獎一等獎。通信方式:wangpy@sau.edu.cn。
張桂平(1962—),女,博士,2007年畢業于東北大學,獲工學博士學位。現任沈陽航空航天大學人機智能研究中心教授,主任,多語言協同翻譯國家地方聯合工程實驗室主任,博士生導師。主要研究方向為自然語言處理、機器翻譯、知識工程。主持多項國家863計劃、國家自然科學、國防基礎科研等項目,曾獲得遼寧省科技進步獎一等獎、中國航空學會科學技術獎一等獎、中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎等。擔任中國中文信息學會副理事長,中國航空學會理事。通信方式:zgp@gesoft.com。
蔡東風(1958—),男,博士,1998年畢業于日本東京大學,獲工學博士學位。現任沈陽航空航天大學人機智能研究中心教授,遼寧省人工智能與自然語言處理重點實驗室主任,博士生導師。主要研究方向為自然語言處理、人工智能、知識工程。先后主持國家973計劃子課題、國家科技支撐計劃、國家自然科學基金等項目,曾獲得遼寧省科技進步獎一等獎,中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。擔任中國中文信息學會理事,《中文信息學報》編委。通信方式:caidf@vip.163.com。