王思博,王裴巖,張桂平
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
語義知識庫是一種重要的基礎性語言資源,可以為自然語言處理任務提供豐富的語義知識,常被廣泛應用于詞義消歧、機器翻譯、信息檢索以及自動問答等任務。目前,國內外研究者已經構建了許多大規模語義知識庫。其中,國外被廣泛應用的語義知識庫主要有WordNet、FrameNet、MindNet、OpenCYC等。國內較為成熟的語義知識庫有HowNet (知網)[1]、CCD(the Chinese Concept Dictionary,中文概念辭書)[2]、CFN(Chinese FrameNet)[3]、《現代漢語述語動詞機器詞典》[4]等。這些語義知識庫大多都面向通用領域,但在特定領域下則無法滿足自然語言處理任務對語義知識的需求。而垂直領域下的語義知識庫可以填補通用型知識庫的不足。
本文以HowNet為基礎,按照HowNet的KDML語法體系、義原體系與動態角色/特征體系構建航空術語語義知識庫。因此,該語義知識庫繼承了HowNet全部特點與優勢,便于計算機使用[5],能夠作為語義信息加入系統中,支撐面向航空領域文本理解任務的相似度計算、相關度計算等語義分析。
HowNet是一個以漢語和英語詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫[1],是公認的規模最大、收錄詞語最多、提供信息最多的語義詞典。KDML(knowledge database mark-up language,知識系統描述語言)[6]是HowNet所使用的一種知識描述語言,具有明確的語言語法規則,規范了概念描述方式。最關鍵的一點是KDML是面向計算機的形式化描述方法,便于進行相似度、相關度和情感傾向性計算等。正如文獻[7]所指出的:“知網的知識表達模式是針對計算機的信息處理特點而制定的。”此外,HowNet秉承還原論思想,認為詞語可以用更小的語義單元來描述。這種語義單元被稱為義原(Sememe),即最基本、不宜再分割的最小語義單元,并構成了一套義原體系。
文獻[8]和文獻[9]先后進行了面向航空領域的術語語義知識庫構建的相關研究。它們都基于HowNet的義原體系、動態角色/特征體系以及KDML語法理論,一定程度上了擴大了HowNet的覆蓋范圍。文獻[8]根據HowNet的7條總規定延伸出針對航空術語知識庫構建的5條基礎規則,主要包括義原和動態角色/特征的使用規則與規范,對接下來的研究起到一定的指導作用。然而,根據文獻[7]所提出的知識庫構建規則,若僅憑手工構建,則需要巨大的時間和人力成本。為了提高構建效率,文獻[9]在文獻[8]的基礎上提出了一種基于核心詞框架的知識庫構建方法,即利用統計與規則相結合的方法對核心詞框架進行獲取與補充,相比于手工構建大幅提高了構建效率,一定程度上實現了半自動化構建。但這種基于核心詞框架的構建方法固定了術語核心詞與術語內部其它詞語之間的語義關系,忽略了術語非核心詞語之間的語義關系。
本文考慮到術語內部詞語之間具有一定的依存結構,并利用這種依存結構信息進行詞義消歧和術語DEF的生成。同時,本文也提出了一種術語內部動態角色關系輔助判斷方法,明確了術語內部核心詞與非核心詞之間以及非核心詞語之間的語義關系。這使得術語DEF能夠更充分地表示術語內部詞語之間的語義關系,進一步提高航空術語語義知識庫構建的自動化程度。
針對術語DEF構建任務的特點,本文將整個構建任務分成四個關鍵過程,分別為術語內部依存結構分析、術語內部詞語義項輔助選擇、術語內部動態角色關系輔助判斷以及術語DEF生成。其整體框架如圖1所示。

圖1 航空術語語義知識庫構建框架圖
(1) 術語內部依存結構分析
本文對術語內部的依存結構分析,考慮更多的是術語內部概念間語義層面上的依存關系。因此,可以通過術語內部依存結構分析,確定術語內部詞語間的依存結構,從而得到具有語義依存關系的關聯詞對。本文將此依存關系表示為三元組,其中包括關聯單位、關系方向以及關聯類型(關聯單位是具有依存關系的詞對;關系方向是依存與被依存的方向;關系類型被表示為HowNet的動態角色/特征)。
(2) 術語內部詞語義項輔助選擇
由于多義詞所處的上下文一定程度上決定著該詞語義項的選擇。因此,本文提出了一種基于依存結構的詞義消歧方法,它將術語內部的關聯單位視為詞語組合上具有相互搭配關系的詞對,并根據這種詞語間搭配的同現關系進行詞義消歧。
例如,航空術語“空氣循環冷卻系統”中的“空氣”一詞,在HowNet中對應如下兩個義項:
① DEF={gas|氣: {contain|含: OfPart={~}}, {inhale|吸入: agent={AnimalHuman|動物}, patient={~}}}
② DEF={Occasion|場面: host={group|群體}{place|地方}}
第一個義項的第一義原是“gas|氣”,它所描述的“空氣”是一種物質,即氣;第二個義項的第一義原是“Occasion|場面”,所要描述的是一種場面。因為當前術語中的“空氣”是“循環”的對象,表示“氣”的“空氣”與“循環”的同現更易存在,所以選擇“空氣”的第一個義項更符合當前術語內部的語義環境,以使這里的“空氣”語義表示得更準確,進而將“gas|氣”作為“空氣”的DEF。
(3) 術語內部動態角色關系輔助判斷
針對術語內部關系類型的表示問題,本文提出一種術語內部動態角色關系輔助判斷方法。HowNet應用動態角色/特征來標注概念間的語義關系,每種動態角色/特征關聯著無計其數個具有語義關系的關聯詞對,其中HowNet包含100種不同的動態角色/特征,面向通用領域涵蓋了較為全面的語義關系類型,反映了豐富的語言現象。在航空術語中常用到的動態角色/特征大約有20幾種,這些動態角色/特征表示了航空領域語義空間所出現的各種語義關系。
通過(1)(2)兩步以及本過程(3),可以完成術語“空氣循環冷卻系統”DEF的結構分析(如圖2所示),得到如下3個三元組,(空氣,patient,循環)、(循環,means,冷卻)、(冷卻,instrument,系統),以及術語內部詞語DEF。對于三元組“(空氣,patient,循環)”可做如下解釋:三元組的關聯單位是“空氣”和“循環”,它們的關系方向是“空氣”依存于“循環”,其中的關系類型是“patient”。

圖2 術語“空氣循環冷卻系統”DEF結構分析
(4) 術語DEF生成
本文基于術語內部依存結構提出一種術語DEF生成算法,基于術語內部依存結構,將術語內部所有關系三元組映射成術語DEF,提高了航空術語語義知識庫的構建效率。
本節將詳細闡述術語語義知識庫的構建方法。
對術語內部依存結構的分析是本文構建方法的基礎,下文將進一步介紹本文所指的術語內部依存結構以及本文所采用的術語內部依存結構分析方法。
3.1.1 術語內部依存結構
一般認為,依存語法的理論研究始于法國語言學家特思尼耶爾(Lucien Tesnière)。他提出了依存語法的基本論點[10],即利用詞語之間的依存關系刻畫文本的語法結構。依存語法提出至今,一直深遠地影響著語言學的發展。本文的研究對象是術語,術語內部依存結構是描述術語內部詞法結構的,也就是通過詞語間的“依存”使得術語內部的詞語關聯起來。
3.1.2 術語內部依存結構分析方法
本文術語內部依存結構分析借鑒了文獻[11]對術語的依存分析模型。它利用了模型選擇策略為結構化風險最小的SVM,在訓練語料不十分充分的情況下模型依然能夠取得不錯的效果。
在特征選擇上,選取了術語基本特征、術語內部任一詞對之間的點互信息以及術語內部詞語的HowNet義項的第一義原。模型根據詞對的依存強度輸出依存強度值,若為正值說明預判斷的詞對存在依存關系,當輸出值越大則說明詞對的依存強度越大;若輸出值為負值說明詞對不能構成依存關系,當值越小則說明詞對越不可能存在依存關系。其中術語基本特征包括術語內部詞、詞性、詞對之間的距離以及術語內部上下文窗口為1的詞。點互信息度量的是變量間相互依賴的程度,在該模型中度量了術語內部詞間的依賴度。術語內部詞在HowNet中的第一義原作為特征的加入,有效減緩了數據稀疏的問題。由于一條術語不僅是一個由詞語組成的序列,更是一個由語義依存關系連接而成的樹。因此對術語進行依存結構分析可得到術語內部所有的關聯單位。
術語內部詞語義項選擇是為術語內部詞語選擇合適的概念描述(DEF),即采用HowNet的最小語義單元(義原)來表示。此輔助選擇過程將本文所提出的基于搭配詞的詞義消歧方法融入到詞義選擇的任務中來。以下兩小節將詳細介紹本文所指的搭配詞、搭配詞集、搭配詞典的相關概念,以及本文所提出的詞義消歧方法。
3.2.1 搭配詞、搭配詞集以及搭配詞典
(1) 搭配詞
所謂搭配詞,是指與多義詞同在一個關聯單位的詞語,這些詞語與多義詞在語義層面上具有依存關系。在領域語義空間中多義詞與其搭配詞共現,對應多義詞確定的某一義項。
(2) 搭配詞集
顧名思義,搭配詞集是由多義詞的搭配詞構成的集合。多義詞在領域語義空間中所出現的每個義項對應一個詞語集合,即該多義詞的搭配子集,也意味著當前多義詞的搭配子集對應多義詞的某一義項,多義詞的搭配子集構成了搭配詞集。
(3) 搭配詞典
搭配詞典是由語料庫中所有多義詞、搭配詞集以及多義詞各個義項構成的集合。
3.2.2 基于搭配詞的詞義消歧
基于搭配詞的詞義消歧是根據多義詞的搭配詞所屬搭配子集選取該多義詞的義項。術語內部的多義詞在特定的語義約束下其表示的語義相對穩定,符合術語單義性[12]的特點。本文從已有的航空術語語義知識庫中分析并抽取出航空術語內部詞語的搭配詞典。由于搭配詞與多義詞的共現對應多義詞確定的某一義項,只需判斷在搭配詞典中多義詞的搭配詞收錄于哪個搭配子集,搭配子集所對應的義項即為該多義詞在當前術語中表示的義項。若當前搭配詞不在當前多義詞的搭配詞集里,則將搭配詞與多義詞的搭配詞集的每個詞語進行相似度計算,取與搭配詞最相似的詞語所屬搭配子集的對應義項作為該多義詞義項。
綜上所述,本文將基于搭配詞的詞義消歧方法融入術語內部詞義輔助選擇的任務中。術語內部詞語義項輔助選擇方法的具體算法過程如下所示:

詞義輔助選擇算法輸入:待確定義項的詞語w及其搭配詞c輸出:當前詞語w的義項S1. S =φ,配置資源初始化2. Case1: w?DictHowNetS←人工標注3. Case2: w∈DictHowNet AND w?DictambigS←DictHowNet[w][0]4. Case3: w∈Dictambig AND w?DictmatchS←人工從Dictambig[w]選擇5. Case4: w∈Dictambig∩Dictmatchif c∈Dictmatch then S←c所屬的subsetmatch對應的義項else 計算得到在w的搭配詞集setmatch中與c 語義最相似的c’; S←c’所屬的subsetmatch對應的義項Endif6. EndCase7. 返回詞語w的義項S
本文基于HowNet將動態角色/特征應用到術語概念的描述中,使得術語內部的簡單概念通過動態角色有機關聯起來,從而構成表示術語本身語義知識的復雜概念。其中,對于術語內部的詞語w1和詞語w2之間存在語義關系,可以表示為某種動態角色/特征,用三元組的形式表示:
(w1,EventRole/EventFeature,w2)
其中關聯單位是Relation(w1,w2),關系類型為EventRole/EventFeature,關聯方向為w1依存于w2。術語內部所有的三元組表示了術語內部詞語結構。
本過程采用最大熵分類器與基于相似度的動態角色判斷方法相結合的方法輔助推薦動態角色,以人工選擇標注三元組的關系類型。
3.3.1 基于最大熵分類器的動態角色判斷
本方法將動態角色關系判斷轉化成一種對于關聯單位的分類問題,并且將關聯單位所對應的動態角色/特征作為分類的標簽。其中,最大熵分類器以最大熵模型為理論基礎,其基本思想是將所有滿足已知約束條件的概率模型中熵最大的模型視為最好的分類模型[13]。最大熵分類器能夠較容易地對多分類問題進行建模,并對各個類別輸出一個相對客觀的概率值[14]。與此同時,最大熵的訓練效率相對較高,相比于SVM,最大熵模型可以較容易地對多分類任務建模。其中最大熵分類器選擇以上兩過程獲得的結果作為特征,如表1所示。

表1 最大熵分類器所選用的特征
最大熵分類器為每種動態角色給出概率值。因此,本方法基于概率值對候選動態角色排序,得到概率值從大到小的動態角色排序表,并從此排序表中選擇排序最高位的動態角色。
3.3.2 基于相似度的動態角色判斷
基于相似度的動態角色判斷方法是將待判斷關系類型的關聯單位與訓練集中每一個三元組的關聯單位進行相似度計算,并將此相似度值作為三元組的分值,從而在訓練集中出現的每個動態角色都對應一個分值列表,如下所示:
其中“EventRole1、EventRole2、...、EventRolen”為表示三元組關系類型的動態角色;“[score11,score12…]”為動態角色“EventRole1”的分值列表,“score11,score12”是關系類型為“EventRole1”的三元組的分值。
本方法取動態角色分值列表的最大值作為候選動態角色的分值。根據分值從大到小對動態角色從高到低排序,從而得到動態角色排序表。按照預先設定的優先級從排序表中選取未在答案集中排序最高的動態角色。其中待判斷關系類型的關聯單位U1(w11,w12)與訓練集中三元組的關聯單位U2(w21,w22)間的相似度計算如式(1)所示,Simw(w1,w2)詳見文獻[15],此處不再贅述。
Simu(U1,U2)=Simw(w11,w21)*Simw(w12,w22)
(1)
3.3.3 最大熵分類器與基于相似度方法相結合
最大熵分類器利用使概率模型的條件熵趨于最大值的統計信息,給待判斷關系類型的關聯單位的可能動態角色關系打分;而基于相似度的方法,則利用詞語的語義信息,通過度量待判斷關系類型的關聯單位與在訓練集中關聯單位之間的相似度,為動態角色打分。二者分別從統計和語義兩個不同層面進行動態角色判斷,存在一定的互補。
因此,本文采用最大熵分類器與基于相似度方法相結合的動態角色判斷方法,從兩者生成的動態角色排序表中按照預先設定的推薦優先級順序依次向答案集添加動態角色,以供人工選擇。并在實驗中證實了本方法的可行性,詳見第4.2節。
術語DEF生成是本文方法的最后一個過程,它根據KDML語法規則將以上三個過程分析得到的語義信息表示成HowNet的語義知識。以下兩小節將詳細介紹KDML的規定和本文所提出的術語DEF生成算法。
3.4.1 KDML規定
本文對航空術語語義知識的描述遵從KDML的規定,一定程度上保障了語義知識描述的復雜度、一致性以及準確性。按照KDML的描述概念的主要規定[6]:
① 任一概念的描述都以“DEF=”為開始。任一概念中出現的所有義原或符號必須是在HowNet的Taxonomy中定義的義原或符號或者由知網知識系統描述語言所規定的特定標識符。
② HowNet概念描述的第一個義原必須指出該概念最基本的意義,并用事件、實體、屬性和屬性值這四類義原中的一個標注出來。
③ HowNet利用動態角色/特征標注復雜概念,表示簡單概念之間的語義關系。
例如,本文所構建的航空術語“空氣循環冷卻系統”DEF表示為:
DEF={part|部件: {cool|制冷: means={circulate|循環: patient={gas|氣}},instrument={~}}}
它的第一義原是“part|部件”,是一個實體類概念,對應術語核心詞“系統”,反映了該術語最基本的意義。術語DEF中出現了“means”、“patient”和“instrument”三種動態角色。“patient”說明了空氣(gas|氣)是循環(circulate|循環)的對象(patient);“means”說明了系統冷卻的方式(means),即空氣循環;“instrument”說明了“系統”這個部件的功能,即冷卻(cool|制冷)的工具(instrument)。其中“~”特殊指示符代替了前一層的義原“part|部件”。
HowNet的KDML對概念的描述是有一定結構的。按照KDML的規定,常用特定標識符如下所述:
① 左括號“{”表示一個概念描述的開始;
② 右括號“}”表示一個概念描述的結束;
③ 冒號“: ”后面的內容是對冒號前面義原的具體描述;
④ 逗號“,”表示一個關系描述的結束;
⑤ 等號“=”表示一個動態角色/特征所具有的值。
因此,從HowNet特定標識符標注的角度來看,HowNet復雜概念的描述是通過大括號之間的嵌套與冒號、等號等特殊標識符的標注來表示的。因此,本過程將術語內部的三元組按照KDML對HowNet概念描述的規定解析成術語的DEF。
3.4.2 術語DEF生成算法
本文基于術語內部依存結構提出一種術語DEF生成算法,按照術語內部依存結構,將術語內部所有關系三元組映射成術語DEF。例如,術語“w1w2w3w4w5”生成DEF過程如圖3所示,通過前3個過程,得到了所有完整的三元組,包括: (w1, EventRole13,w3), (w2, EventRole23,w3), (w3, EventRole35,w5), (w4, EventRole45,w5);以及術語內部詞語DEF,表示為{w1: DEF={S1},w2: DEF={S2},w3: DEF={S3},w4: DEF={S4},w5: DEF={S5}}。
本方法將術語內部依存結構表示成依存樹的形式,如下所示: {w5: [w3,w4],w3: [w1,w2],w4: [],w2: [],w1: []}。其中當前術語的核心詞是w5,位于依存樹葉子節點的詞語為w4、w2以及w1。

圖3 術語DEF生成示意圖
圖3表示了術語依存樹轉換成術語DEF的映射過程,按照大箭頭的指示依次變換。示意圖中的起始框圖表示了術語“w1w2w3w4w5”依存樹結構。其中依存樹節點之間的實線邊表示依存關系,由被依存對象指向依存對象;邊上符號表示節點之間的動態角色關系,每個節點存儲當前詞語的DEF。可以看出,隨著依存樹的葉子節點向其父節點嵌入語義信息的過程演進,依存樹的結構以及樹節點信息也隨之變化。其中節點之間的虛線表示將依存對象(子節點)的DEF以及兩者之間的動態角色按照KDML的規定嵌入到被依存對象(父節點);葉子節點完成嵌入語義信息后,被剪枝;依存樹重復上一過程,每一次都是由當前依存樹的葉子節點向其父節點嵌入語義信息,直至僅剩下根節點;當只剩下根節點時,術語依存樹完成轉換術語DEF的映射過程,輸出根節點信息即可得到術語DEF。
術語DEF生成算法如下所述。

術語DEF生成算法輸入:術語內部所有完整的三元組以及每個詞語DEF輸出:術語DEF1. 將三元組列表解析成依存樹2. 遍歷依存樹,找到當前依存樹的葉子節點3. 判斷當前葉子節點是否為依存樹根節點。若為是,進入步驟5;否則進入步驟4。4. 將該葉子節點的DEF及該葉子節點和父節點之間的動態角色,以KDML的規定嵌入到父節點的DEF中,刪除當前葉子節點,進入步驟25. 輸出依存樹根節點信息,即為術語DEF
本文對術語內部詞語義項輔助選擇、術語內部動態角色關系輔助判斷分別進行了實驗和實驗結果分析;并通過相關性實驗,驗證了本文構建術語DEF方法的有效性。
本實驗對1 000條術語進行人工詞語義項標注,選取HowNet中最符合術語概念的義項,標注內容為已選義項的第一義原,將此作為實驗語料。該實驗語料的詞表中一共有996個詞語,其中的268個詞語在HowNet中是多義詞。這些多義詞在搭配詞典中大多只有一個義項,也有一些多義詞只有部分義項出現在搭配詞典里。對于那些不在搭配詞典中的多義詞,本實驗無法給出該多義詞義項的選擇結果,記為選擇錯誤。
本文將實驗語料分成10等份,每份100條術語,進行10-fold交叉驗證。采用平均準確率P作為評價指標,其中P的計算公式如式(1)所示,n為測試的次數。
通過10-fold交叉驗證所得到的平均正確率,為90.68%,其中不在HowNet中的詞語以及不在搭配詞典中的多義詞平均占測試集詞語的7%。剩下的接近3%是由于本方法處理錯誤造成的。因此,為了使得知識庫的語義標注結果更準確,對未在搭配詞典里的多義詞與未在HowNet中的詞語進行人工義項標注。
本實驗從人工標注的航空術語語義知識庫[14]中抽取475條航空術語DEF。人工將每條術語DEF分解成若干個三元組以及術語內部詞語DEF,一共有1 550個三元組(也意味著本實驗數據集包含1 550個樣本),一共出現27種動態角色,其分布情況如圖4所示。將1 550個樣本平均分成10等份,進行10-fold交叉驗證。

圖4 數據集中動態角色分布的情況
本次實驗通過10-fold交叉驗證,對最大熵分類器和基于相似度方法進行了對比實驗。實驗結果如表2所示,顯示了每種方法3-best(最有可能為正確答案的3個動態角色)中Top1、Top2以及Top3對應的三個不同排序位置上動態角色的平均準確率P[見式(2)],以及最大熵分類器和基于相似度方法推薦各自動態角色排序表中3-best的平均準確率P(當待測三元組的正確動態角色出現在候選答案集(3-best)中時即為判斷正確)。

表2 兩種方法的實驗結果
從實驗結果可以看出,當最大熵分類器和基于相似度方法分別從各自動態角色排序表中向答案集推薦3-best時,最大熵分類器所得到的準確率較高,而且它的動態角色排序表中排在前三位的每個位置上準確率均高于基于相似度方法。
通過對實驗輸出結果的統計,能夠得到兩種動態角色排序表Top1~Top3不同位置之間,正確動態角色的重復率。其中,兩排序表中Top1上同為正確動態角色的重復率是6.8%,基于相似度方法的排序表Top1與最大熵分類器的排序表Top2間正確動態角色重復率為3.3%,可見當同時推薦最大熵分類器的排序表的動態角色和基于相似度方法的排序表的動態角色組成3-best時,能夠得到更好的實驗結果,因此從兩種關系判斷方法所得到的3-best動態角色中按照一定的優先級順序選擇動態角色組成3-best結果如表3所示。
由于無論是橫向逐層(Top1~Top3的順序)依次從兩排序表中按照不同優先順序選擇動態角色;還是縱向以不同的優先級順序從兩排序表中選擇動態角色,最終都是要將如下兩種情況與最大熵分類器推薦的3-best以及基于相似度方法推薦的3-best進行實驗對比。這兩種情況分別是,情況①: 在最大熵分類器的動態角色排序表中選擇2-best(最有可能為正確答案的2個動態角色)以及在相似度方法的動態角色排序表Top1~Top3中選擇一個未被選中(不重復)的動態角色,組成3-best;情況②在基于相似度方法的動態角色排序中選擇2-best以及在最大熵分類器的動態角色排序表Top1~Top3中選擇一個未被選中的動態角色,組成3-best。
因此本實驗所按照推薦優先級順序,分別為S1->S2->M1->M2->M3、S1->S2->M1->M2->S3、M1->M2->S1->S2->S3、M1->M2->S1->S2->M3。這四種優先級順序覆蓋了上文所述的兩種情況(包括兩排序表Top1~Top2組成的2-best集合相同的情況),并將其與“S1->S2->S3”以及“M1->M2->M3”進行對比實驗。其中當待測三元組的正確動態角色出現在候選答案集(3-best)中時即為判斷正確。

表3 最大熵分類器與基于相似度方法相結合的實驗結果
從表3的實驗結果可以看出,當推薦次序為M1->M2->S1->S2->M3時,答案集出現正確動態角色的準確率最高。M1->M2->S1->S2->M3優先級順序使得最大熵分類器的2-best能夠優先加入答案集、基于相似度方法的Top1能夠盡可能地加入答案集,使得兩方法得到良好的互補。因此,執行此優先級順序的準確率能夠達到最高。
為了說明術語DEF的有效性,本文進行了驗證實驗,其驗證方法的基本思想是: 計算機根據術語DEF對術語的區分度越接近于人對術語的區分度,則說明術語DEF越有效。計算機對術語的區分,一定程度上表現為術語間的語義距離,因此通過計算術語間的相似度得以實現。
因此,本文將人工標注術語間的相似度與根據術語DEF計算術語間的相似度進行相關性分析,即在本文方法構建的知識庫中隨機抽取100對術語。并運用文獻[15]的概念相似度計算方法對此100對術語DEF進行相似度計算。另外,組織5個人對這100對術語的相似度進行人工判斷,將術語間的相似程度分成6個等級,記為0到5;取這5個人標注結果的平均值,并將其映射到0到1之間;從而得到兩組相似度序列,這兩組相似度序列折線的整體趨勢對比如圖5所示。另外,對兩組序列進行皮爾遜相關系數計算。若皮爾遜相關系數等于零,則說明二者不相關;若皮爾遜相關系數越接近1,則表明二者越趨近于正相關;若皮爾遜相關系數越接近-1,則表明二者越趨近于負相關。

圖5 人工標注結果與根據術語DEF計算結果趨勢圖
根據術語DEF計算得到的術語間相似度x與人工標注的術語間相似度y之間的皮爾遜相關系數rxy的計算,如公式(4)所示。
(4)
通過實驗得到的皮爾遜相關系數為0.878 6,大于零接近1,表明根據術語DEF計算術語間的相似度與人工判斷術語間的相似度是接近相關的。
另外,從這100對術語中隨機抽取12對術語,組成4組,每組有3對;表4顯示了術語DEF。每組相似度結果如表5所示,其中包括計算結果、人工標注結果、減去平均值的計算結果以及減去平均值的人工標注結果。
圖5中兩條折線的整體趨勢基本一致,可見兩術語相似度計算結果存在一定的正相關性;但圖5根據術語DEF計算結果的折線普遍高于人工標注結果的折線,以及表5所示兩方法得到相似度結果(相似度計算結果、人工標注結果)的絕對數值存在一定差異,這是由于兩種方法的評價標準不同造成的。
然而從皮爾遜相關系數(0.878 6)以及表5所示兩方法的相似度皆減去平均值的結果(減去平均值的計算結果、減去平均值的人工標注結果)來看,兩種方法對不同術語的區分基本一致,驗證了本文方法所構建術語DEF的有效性。

表4 術語DEF

表5 相似度結果
本文基于HowNet的語義理論體系[4],全面闡述了一種輔助構建航空術語語義知識庫的方法,從術語的語義層次,按照自底向上的思想構建航空術語語義知識庫,并且將術語內部的依存結構信息,融入知識庫構建中。基于術語依存結構,提出了基于搭配詞的詞義消歧方法和術語DEF生成方法。同時提出了基于最大熵分類器與關聯單位相似度方法相結合的動態角色關系判斷方法,從語義和統計的層面,判斷術語內部詞語間的關系類型。最后利用術語間相似度的驗證方法,通過兩相似度序列的皮爾遜相關系數以及人工標注結果與根據術語DEF計算結果的對比,驗證了本文方法所構建術語 DEF的有效性。
本文方法以構建航空術語語義知識庫為導向,結合自身所具有的語料資源,初步完成了語義知識庫閉環構建任務。為了保障知識庫的準確性,本文方法采用人機協同的方式構建術語DEF。面向未來,接下來的任務是: ①按照本文方法構建更多高質量的術語DEF;②從更加開放的語料資源中抽取航空術語以及航空詞語間的語義關系,構建豐富、高質量的航空術語語義知識庫。