蔣勝臣 王紅斌 余正濤 線巖團 王紅濤
實體鏈接是指將文本中存在歧義的實體正確鏈接到知識庫中無歧義的候選實體的過程[1?2],實體鏈接的相關研究有助于知識庫的自動填充[3],也有助于信息檢索的研究[4],同時實體鏈接與跨文本指代消解、詞義消岐,實體消岐等諸多自然語言研究領域有著緊密聯系.目前關于實體鏈接的研究方法,主要思想是通過計算實體指稱項與其候選實體的多種特征相似度,選擇知識庫中無歧義實體進行鏈接.早期研究以單實體為對象,Bunescu[5]和 Ganea等[6]使用詞袋模型計算指稱項與候選實體的相似度,選取相似度最高的候選實體作為目標實體;Cucerzan[7]和Nguyen 等[8]通過維基百科頁面錨文本、重定向頁面等信息計算指稱項與候選實體的相似度;Zeng[9]利用第三方知識庫對候選實體特征進行擴充使得實體鏈接準確率提高.以單實體為對象的實體鏈接方法忽略了文本中共現實體間的語義關系,并且計算效率不高.針對以上問題,研究者們結合已有知識庫中存在的信息,提出以集成實體作為對象進行實體鏈接的集成實體鏈接方法.Han 等[10]通過構建候選實體語義相關圖進行集成實體鏈接;Liu 等[11]提出基于圖的集成實體鏈接方法,以實體指稱項和候選實體作為頂點構建有向圖,通過計算出入度和語義相似度進行集成實體鏈接;Ferragina 等[12]引入了概率化鏈接的思想,提出了一個面向短文本的集成實體鏈接算法.這些研究在一定程度彌補了單實體鏈接忽視共現實體間語義相關性的不足,但是卻在一定程度上忽略了指稱項本身具有的文本特征,對文本信息利用率不高.
近些年隨著深度學習在自然語言中的應用,利用表示學習計算語義相似度成為一種新的思路[13?14].隨著Bengio 等[15]提出表示學習模型,通過表示學習表征實體深層語義信息計算相似度成為實體鏈接任務的新趨勢[16?17].Mikolov 等[18]和Goldberg[19]對向量空間中詞表示的有效嵌入進行了評估;Kar 等[20]將表示學習用于特定任務領域的實體消歧;Moreno等[21]等通過擴充錨文本對文本中的單詞和知識庫中的實體進行聯合學習得到相應的向量表示形式,從而進行實體鏈接.
以上研究都是在通用領域,其有豐富的通用語料和消歧特征[22];而對于特定領域,往往存在語料不足,另外流行度等消歧特征不明顯的問題,針對這些問題,本文提出了一種新的基于關系指數和表示學習的領域集成實體鏈接方法.首先,構建特定領域知識庫,以作為實體鏈接的基礎;其次,通過LDA主題模型、word2vec 模型和TransE 模型訓練本文收集到的背景語料和特定領域知識庫中的三元組,得到蘊含知識和主題信息的實體指稱項和候選實體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實體指稱項所在主題的領域關鍵詞;然后,結合詞擴展,得到實體指稱項的擴展詞;再利用得到的特征,計算指稱項與候選實體的上下文、領域關鍵字、擴展詞三種特征相似度;同時利用知識庫中豐富的關系信息,得到候選實體的關系指數;最后,將三種特征相似度和關系指數相融合,得到最后的相似度.本文的主要貢獻主要有:1)利用表示學習,同時將文本詞向量表示和知識庫的知識表示嵌入到同一個語義空間,融合了文本信息和知識庫信息;2)收集了語料,獲取了特定領域相關知識,構建了特定領域知識庫;3)將關系屬性融入到實體鏈接 中,實現了實體的語義屬性和關系屬性的融合.
本文提出的方法具體步驟是:首先,構建特定領域知識庫,以作為實體鏈接的基礎;其次,通過LDA 主題模型、word2vec 模型和TransE 模型訓練本文收集到的背景語料和特定領域知識庫中的三元組,得到蘊含知識信息和主題信息的實體指稱項和候選實體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實體指稱項所在主題的領域關鍵詞;其次,結合詞擴展,得到實體指稱項的擴展詞;然后,利用得到的特征,計算指稱項與候選實體的上下文、領域關鍵字、擴展詞三種特征相似度;同時利用知識庫中豐富的關系信息,得到候選實體的關系指數;最后,將三種特征相似度和關系指數相融合,得到最終相似度.將相似度最高的候選實體作為最終鏈接對象.
本文方法包括5 部分:特定領域知識庫構建、融合知識和主題信息的詞向量訓練、候選實體的生成、多特征生成、實體鏈接.如圖1 所示.

圖1 模型框架圖Fig.1 Frame diagram of the model
本文針對特定領域,在分析領域屬性的基礎上,通過人工定義知識體系,從百度百科等網站上收集了相關語料,包括旅游景點語料、野生菌語料、茶葉語料、中國少數民族語料,小吃語料和藥材語料,交通方式和住宿信息語料共計96 674 個詞條,構建了具有一定規模的特定領域知識庫.然后將識別好的領域實體和實體間關系采用批量導入的方式導入到圖數據庫Neo4j 進行管理.本文使用自構建的特定領域知識庫作為實體鏈接任務的支撐,并結合百度百科作為第三方知識庫對自構建的特定領域知識庫中的實體屬性進行有效補充.具體方法是針對知識庫中的每個實體,通過它在百度百科相應的概念頁面,抓取頁面中Infobox 的半結構化三元組數據.然后利用Neo4j 圖數據庫進行管理.對本地知識庫中同名實體采用加后綴標簽的方式進行區分,且后綴標簽用小括號與實體隔離.例如:實體“香格里拉”.在本地知識庫中有三個相應實體,分別加上后綴標簽“地名”、“酒店”、“電影”,并用小括號進行隔離.如:香格里拉(酒店)、香格里拉(地名)、香格里拉(電影).
1.2.1 主題關鍵詞特征提取
特定領域的實體鏈接可以利用領域特征進行實體鏈接[23?24],領域關鍵詞表征了領域的主要語義信息和領域特征,但是基于領域關鍵詞的相似度計算主要是從全局上下文信息出發,并沒有考慮到文本局部的上下文信息,針對這個問題,本文提出利用LDA主題模型對訓練語料上下文進行主題分類,通過在不同主題下對多義詞與主題詞結合進行語義擴充,計算詞與詞之間的余弦相似度進行K-Means 聚類,選 擇離聚類中心最近的m個詞作為主題關鍵詞.
1.2.2 融合主題信息的詞向量模型訓練
Mikolov 等[18]提出Word2vec,通過神經網絡將詞表示在一個低維稠密的向量空間中,利用距離和角度反映出詞語之間的語義信息;本文選擇Google的開源工具包word2vec,采用Skip-gram 模型作為詞向量訓練的基本模型,其主要思想為根據中心詞最大概率得到出其上下文:

其中,wk是中心詞,wk+j表示中心詞的上下文,N是訓練時窗口的大小,在本文中沒有對窗口設置對比實驗,按照實驗經驗,設窗口大小為5.p(wk+j|wk)表示在中心詞wk的條件下,wk+j生成的概率,利用softmax 函數求得:


其中,d(wk,wj)表示詞wk和wj向量表示的歐幾里得距離,m表示詞wk的主題詞個數.將主題信息融入詞向量表示中:

其中,α為權重值,我們的目標是最小化Jg,通過將主題關鍵詞的距離融入詞向量表達中,使得同主題詞之間的向量表示更接近.對沒有同主題關鍵詞的詞語,直接按照Skip-gram 模型訓練出其向量表示形式.通過對訓練出的詞向量與同主題詞計算相似度并參考Xu 等[25]的實驗參數,設置α=0.8;m=6.
1.2.3 TransE 模型的聯合學習
Bordes 等在Mikolov 的word2vec 詞表示學習模型的基礎上提出了TransE 模型[26],將知識庫中的關系看作實體間的某種平移向量.通過TransE模型對構建的特定領域知識庫中的三元組進行訓練,得到知識庫中實體和關系的向量表示.針對現有的實體鏈接方法,無法將知識庫信息和文本信息更好的融合,造成在實體鏈接中無法利用更多的文本信息和知識庫信息,在本文中,為了將知識庫信息與文本信息融合,以達到更佳的實體鏈接效果,我們將第2.2.2 節中融合主題信息的詞向量表示與知識表示模型TransE 聯合學習.首先利用收集到的三元組語料預訓練TransE 模型,得到實體與關系的向量表示,再將第2.2.2 節得到的融合主題信息的詞向量表示形式,替換原有的實體向量表示,計算兩者的尾實體的距離:

其中,wk,r表示TransE 模型得到的原實體wk和關系r的向量之和,wk?,r表示wk在融合主題信息的詞向量模型中的向量表示和關系r的向量之和,n表示實體個數.通過最小化Dz,使得詞向量表示和知識表示相互約束訓練模型,最終得到融合結構知識的詞向量表示.對于在自構建的本地知識庫中沒有實體相對應的詞語,將它們輸入到訓練好的模型中得到新的向量.我們稱之為融合偽知識的詞向量表示,這樣做是將文本中的詞與自構建本地領域知識庫中實體向量表示嵌入到同一個語義空間中,達到融合文本信息和知識庫信息的目的,也為后面的相似度計算提供方便.本文沒有對TransE 模型的參數對實驗結果的影響做特定實驗,向量維數設為200,邊緣超參數設為1,學習速率設為0.0001,選用L2 作為距離計算公式.在整個融合知識和主題信息的詞向量表示過程中,向量維度統一設為200,整 體模型框架圖如圖2 所示.

圖2 融合知識和主題信息的詞向量表示模型Fig.2 Word vector representation model that fuses knowledge and subject information
1.3.1 候選實體的選取
對于候選實體的生成,首先要識別出文本中所有的實體指稱項,將實體指稱項組成集合M={m1,m2,···,mn},其中n表示文本中實體指稱項的個數.然后針對每個實體指稱項mi,在自構建的特定領域知識庫中尋找與之同名實體(不包括括號內的實體后綴標簽)并組合成集合,作為它的候選實體集合Ni={ni1,ni2,···}.如果知識庫中沒有同名實體,則把相應的實體指稱項歸為空實體;當候選實體個數小于等于4 時,選取指稱項所有的候選實體作為它最終的候選實體;當候選實體個數大于4 時,計算指稱項與候選實體的上下文相似度,選取相似度最大的4 個候選實體作為最終的候選實體.上下文相似度計算公式為:

其中,E(Gi) 和分別表示實體指稱項的上下文詞和其候選實體直接三元組尾實體的向量表示;d和u分別表示實體指稱項的上下文詞的個數和其候選 實體直接三元組尾實體的個數.
1.3.2 候選實體關系屬性的計算
針對集成實體鏈接,關系屬性是候選實體的重要屬性之一,基于實體指稱項語義相近,則它們在知識庫中的無歧義實體也應該具有關系的思想.例如:實體指稱項“香格里拉”和“麗江”,它們語義相近,則它們在知識庫中的無歧義實體“香格里拉(旅游勝地)”和“麗江(旅游勝地)”也具有相應的關系.本文將候選實體的關系屬性分為直接關系屬性和間接關系屬性.1)直接關系屬性計算自構建的特定領域知識庫中含有豐富的關系屬性,根據第2.3.1 生成文本中實體指稱項的候選實體集合H={N1,N2,···,Nn},其Ni表示第i個實體指稱項的候選實體集合,n為背景文檔中實體指稱項個數.結合自構建的領域知識庫,得到候選實體的直接關系屬性,具體方法為:對候選實體集合Ni中的每個元素分別與其他n? 1 個候選實體集合中的每個元素進行關系查找,如果兩者之間存在直接三元組,則兩個元素之間的關系指數為1,不存在則關系指數為0.對于第i個實體指稱項的第j個候選實體nij的直接關系指數,計算公式為:

其中,n為候選實體集合個數,Nj為第j個候選實體集合.
2)間接關系屬性計算候選實體以三元組的形式存儲在自構建的特定領域知識庫中,通過實體、關系相連接成網路狀,這種存儲形式決定了候選實體間的間接關系同時存在垂直間接關系和水平間接關系.例如在自構建的本地知識庫中存在三元組:(云南,地級市,玉溪),(玉溪,景點,撫仙湖),通過一條關系路徑,將兩個三元組連接在一起,則“撫仙湖“和”云南“存在間接關系,我們稱之為垂直間接關系;同樣的,例如本地知識庫中也存在三元組:(云南,地級市,玉溪),(云南,地級市,曲靖),如果只考慮關系路徑相連接的情況,則“玉溪”和“曲靖”之間并不存在關系,這樣卻與事實不符.兩者之間對應同一個頭實體,也存在間接關系,我們將這種間接關系稱為水平間接關系;同時也可以同時存在兩種間接關系,例如(中國,省份,云南),(中國,省份,江蘇),(云南,地級市,麗江),(麗江,景點,玉龍雪山),“玉龍雪山”和“云南”存在垂直間接關系,“云南”和“江蘇”之間存在水平間接關系,則“玉龍雪山”和“江蘇”之間同時存在垂直和水平間接關系.間接關系指數的計算公式為:

其中,n為候選實體集合個數,Nj為第j 候選實體集合,k為路徑長度,p為水平間接次數,例如“玉龍雪山”和“江蘇”存在一次水平間接次數,當兩者之 間存在多條路徑時,取最短路徑.
1.4.1 上下文特征生成
實體指稱項的上下文特征可以代表指稱項的文本環境,對指稱項的語義表達具有重要作用.通過實體指稱項的背景文本,經過文本預處理(分詞、去停用詞),利用第2.2 節訓練好的融合知識和主題信息的詞向量模型得到指稱項的上下文向量表示.具體方法為:選擇實體指稱項所在句子經過分詞、去停用詞后的詞作為實體指稱項的上下文,利用訓練好的詞表示模型得到它們的向量表示形式.利用式(6)計算上下文特征相似度.
1.4.2 主題關鍵詞特征生成
特定領域的局部特征對實體消歧具有重要作用,例如:在旅游領域的背景文本中,實體指稱項“金花”的上下文信息主題圍繞“花卉名”來進行介紹,而在文檔局部上下文中主要圍繞“茶品”的金花來介紹,可以看出局部特征對消歧有重要意義.為了利用局部特征進行實體鏈接,本文提出通過LDA 主題模型對旅游領域背景文本的上下文進行主題分類,利用第2.2 節得到的融合知識和主題信息的詞向量表示,計算相同主題下的詞與詞之間的余弦相似度,然后進行K-means 聚類,選擇離聚類中心最近的w個詞作為主題關鍵詞,w的取值在實驗部分具體說明.主題特征表示為:

其中,E(wi) 和分別表示實體指稱項主題關鍵詞wi其對應候選實體在自構建的特定領域知識庫中的類別標簽的向量表示;w為實體指稱項主題關鍵詞的個數;z表示對應候選實體在知識庫中的 類別標簽個數.
1.4.3 擴展詞特征生成
集成實體鏈接相比于單實體鏈接充分考慮了實體之間的共現關系,同時提高了計算效率.利用詞擴展的方法,同時考慮v個實體,充分發揮集成實體鏈接的優勢,具體方法為:對于第i個指稱項mi,分別計算其他n?1個指稱項與第i個指稱項的上下文特征和主題關鍵詞特征的余弦相似度,將相似度最大的v個實體指稱項選擇作為第i個實體指稱項的擴展詞,依次迭代n次,得到背景文本中每個實體指稱項的擴展詞.實體指稱項擴展詞的計算公式為:

其中,Sw和Sg分別表示實體指稱項的上下文相似度和主題關鍵詞相似度;選取Qk最大的v個實體指稱項作為本實體指稱項的擴展詞.v的取值在實驗部分詳細說明.擴展詞特征表示為:

其中,E(zk) 和分別表示實體指稱項擴展詞和其候選實體直接三元組尾實體的向量表示;v和u分別表示擴展詞和其候選實體直接三元組尾實體的 個數.
1.5.1 關系指數計算
對于第i個實體指稱項mi和它的v個擴展詞,同時鏈接到本地特定領域知識庫中的每個候選實體,根據第2.3.2 節的方法,得到實體指稱項候選實體與其擴展詞候選實體之間的關系指數,具體方法為:對于候選實體nij,分別對它與mi的v個擴展詞的每個候選實體進行關系查找,得到它與v個擴展詞候選實體的關系指數之和,最終通過歸一化得到mi的每個候選實體的關系指數.計算公式表示為:

依次計算出實體指稱項mi所有候選實體的關系指數ri1,ri1,···,riL,其中L為實體指稱項mi的候選實體個數.通過歸一化,得到最終的關系指數:

1.5.2 相似度計算
相似度計算是指利用實體指稱項的文本特征與知識庫中候選實體的相應特征,通過計算兩者之間的余弦相似度,以此表征實體指稱項與候選實體在文本信息方面的相似度.在本文中,充分利用上下文相似度、主題關鍵詞相似度和擴展詞相似度,最后得到特定領域實體指稱項的相似度:


其中,Rij,Sij分別表示實體指稱項mi與其候選實體nij的關系指數和特征相似度;1/2 表示兩者的權重值.在文本中我們采用對等加權,也可以考慮不對等加權的情況,但通過初步實驗結果并參考文獻[11]表明,少量的權值修正對實體鏈接結果的影響不大,因 此本文采用1/2 作為兩者的權重值.
本文選擇Google 的開源工具包word2vec,采用Skip-gram 模型作為詞向量訓練的基本模型,通過提取維基百科旅游、文化分類下的文本信息,并結合從旅游網站和百度百科、民族文化網站、中國中藥雜志、中國中藥材網爬取旅游信息文本136 749 篇,中國少數民族信息文本95 483 篇,藥材信息文本114 673 篇作為詞表示模型的訓練語料.TransE 模型的預訓練使用本地特定領域知識庫中的163 759 組三元組為語料.實驗所用的測試集是本文從爬取的旅游、少數民族文化、中藥材三種領域中隨機分別選取861 篇作為測試文本,然后分別從三種領域的測試文本中人工選取含有實體歧義的文本300 篇構建成旅游領域測試集、少數民族文化測試集和中藥材測試集,并且在每一篇文本中人工標記出領域實體指稱和其在自構建的領域知識庫中的對應實體,在三個領域測試集中分別標注實體指稱1 135 個、947 個和1 092 個,其中旅游領域測試集、少數民族文化測和中藥材測試集在自構建的領域知識庫中存在對應實體對象的分別有967 個、703 個、939 個實體指稱.
實驗的過程包括融合知識和主題信息的詞向量模型訓練、候選實體的生成、擴展詞的生成、關系指數計算、相似度計算、實體鏈接等過程.使用jieba分詞工具實現語料預處理;針對融合知識和主題信息的詞向量模型訓練,采用Skip-gram 模型作為詞向量訓練的基本模型,窗口大小設置為5,設置主題詞距離權重α=0.8,主題詞m=6,對于TransE模型的預訓練,邊緣超參數設為1,學習速率設為0.0001,選用L2 作為距離計算公式,向量維數統一設為200;本文采用準確率P(%)、召回率R(%)和F1 值來評估本文提出的方法,其中文本中的實體指稱項在本地知識庫中存在對應實體的集合為A;算法輸出的鏈接到本地知識庫中實體對象上的實體指稱項集合為B.則準確率P(%)、召回率R(%) 和F1 值的計算公式如下所示:

2.3.1 實驗設計
為了驗證本文提出方法的可行性,本文設置以下6 組實驗:實驗1:不同相似度特征組合的實驗對比.實驗2:驗證擴展詞的數量v對實體鏈接結果的影響.實驗3:驗證主題關鍵詞個數w對于實體鏈接準確率的影響.實驗4:驗證不同關系屬性對實體鏈接結果的影響.實驗5:本文提出的方法與目前主流的實體鏈接方法進行對比.實驗6:驗證本文提出的 方法在不同領域中的普適性.
2.3.2 實驗結果與分析
1)實驗1:為了驗證不同特征對實體鏈接結果的影響,本實驗使用旅游領域測試集,通過選取不同的特征組合進行對比實驗,表1 所示為不同特征組合對實驗結果的影響.

表1 不同特征組合實驗結果統計Table 1 Statistics of experimental results of different feature combinations
在進行特征組合對比實驗時,使用旅游領域測試集,主題關鍵詞個數w=4,擴展詞個數v=3.根據實驗結果發現,只利用上下文相似度特征和主題關鍵詞相似度特征,其準確率明顯低于結合擴展詞相似度特征和關系指數,F1 值相較于只利用上下文特征和主題特征也有明顯提升,能夠達到91.5.分析原因主要是上下文相似度特征和主題關鍵詞特征僅僅是基于一個實體指稱項信息出發,沒有考慮一篇文章中實體指稱項之間的共現信息,并且忽略了候選實體之間的關系屬性.結合擴展詞相似度特征和關系指數,在考慮單個實體指稱項的同時也充分考慮了實體指稱項的共現信息和候選實體之間的關系屬性,因此準確率有了很大的提高.
2)實驗2:本實驗在旅游領域測試集上,分別測試擴展詞個數v在取1,2,3,4 時對實體鏈接準確率的影響,實驗結果如表2 所示.

表2 不同v 值實驗結果統計Table 2 Statistical results of different v values
在進行擴展詞個數實驗時,使用旅游領域測試集,同時考慮上下文特征、主題關鍵詞特征、擴展詞特征、關系指數,主題關鍵詞個數w=4.根據實驗結果發現,擴展詞的個數對實體鏈接結果有較大影響,F1 值可以從最低的83.1 提升到91.5,并且相比于只利用上下文特征和主題關鍵詞特征的F1 值,有了較大提升,說明加入擴展詞特征可以對實體鏈接有較大幫助.從實驗結果表明,當擴展詞個數v=3時,F1 值達到最大值91.5.當個數大于3 時準確率和F1 值都有所降低.分析原因主要是因為當擴展詞個數太小時,不僅沒有充分利用實體指稱項之間的共現信息,并且會影響候選實體的關系指數,所以準確率會降低,當擴展詞個數太大,會出現冗余信息,對實體指稱項的信息表達和候選實體關系指數計算都會產生不好的影響.所以本文擴展詞個數取v=3.
3)實驗3:本實驗在旅游領域測試集上,分別測試主題關鍵詞個數w在取1,2,3,4,5 時對實體鏈接準確率的影響,實驗結果如表3 所示.

表3 不同w 值實驗結果統計Table 3 Statistical results of different w values
在進行主題關鍵詞個數實驗時,使用旅游領域測試集,同時考慮上下文特征、主題關鍵詞特征、擴展詞特征、關系指數,擴展詞個數v=3.通過對比不同主題詞個數w和不同擴展詞個數v的對比實驗表明,擴展詞特征與主題詞特征的作用基本相當,最小F1 指分別為83.1 和84.9,但是主題詞不同個數之間F1 值的差距沒有不同擴展詞個數之間明顯.根據實驗結果發現,當主題關鍵詞個數w=4 時,F1值達到最大值91.5,當個數大于4 時準確率降低.分析原因在于提取主題關鍵詞時采用聚類的方法,當主題關鍵詞個數太小時,無法代表領域特定信息,當個數大于4 時,又造成信息冗余,將多余信息引入到相似度計算中,從而導致實體鏈接的F1 值下降.所以本文主題關鍵詞個數取w=4.
4)實驗4:為了驗證關系屬性中每個子屬性的效果對實體鏈接結果的影響,本實驗使用旅游領域測試集,通過依次增加關系屬性中各個子屬性來設置對比實驗,觀察實驗結果如表4 所示.

表4 各個關系子屬性的實驗結果統計Table 4 Statistical results of experimental results for each relationship sub-attribute
在進行各關系子屬性的實驗時,使用旅游領域測試集,同時考慮上下文特征、主題關鍵詞特征、擴展詞特征,擴展詞個數v=3,主題詞個數w=4.實驗結果表明,利用候選實體之間的直接關系使得實體鏈接的F1 值有了較小提升,分析原因是自構建的特定領域知識庫中并不完整,只利用直接關系信息對實驗結果幫助有限,同時通過水平間接關系和垂直間接關系的實驗結果對比,垂直間接關系對實體鏈接結果影響更大,說明通過關系路徑相連的候選實體之間的關系信息對實體鏈接更有幫助,但是通過最終的實驗結果表明,將兩種間接關系同時考慮,更能增加候選實體的關系信息,對實體鏈接幫助更大.
5) 實驗5:為了驗證本文提出方法的可行性,在旅游領域測試集上,將本文的方法與其他幾種實體鏈接方法進行比較,實驗結果如表5 所示.

表5 本文方法與其他方法的比較Table 5 Comparison of methods in this paper with other methods
在旅游領域測試集中將以上基線方法復現,其中參數設置與其論文中相同.根據實驗結果表明,本文提出的方法與傳統的統計機器學習的方法相比較F1 值有明顯的提升,并且不需要標注語料,更簡潔高效;與EAT[21]方法相比較,Moreno 等[21]通過擴充知識庫中實體的錨文本對文本中的單詞和知識庫中的實體在同一個向量空間中學習指稱項與候選實體的向量表示,并通過訓練分類器進行實體鏈接,兩種方法都是基于詞嵌入,本文的方法準確率有較大提升,我們分析原因在于我們的語料主要是針對特定領域,語料數據集規模相較于公共數據集偏小,所以詞嵌入效果沒有達到最佳,但是我們的方法在詞嵌入的基礎上,將知識和主題信息融入詞向量表示中,將文本信息和知識庫信息融合,同時綜合考慮了上下文特征、主題特征、詞擴展特征、關系指數特征,所以比EAT[21]方法在F1 值上有了較大的提高,也驗證了本文的方法更適應于語料偏少的特定領域;與Zero-shot[29]相比較,前者利用的是最新的神經網絡模型,與它相比較F1 值有較小提高,證明了本方法達到了較高水平,也證明了本方法在對特定領域實體鏈接任務的可行性.
6)實驗6:為了驗證本文提出的方法在不同領域中的普適性,將本文的方法在旅游領域測試集、少數民族文化測試集和中藥材測試集中進行比較,實驗結果如表6 所示.

表6 不同領域的實驗結果統計Table 6 Statistics of experimental results in different fields
由實驗結果表明,在不同的領域語料中的F1值變化不大,其中在旅游領域中的F1 值最大,在少數民族和藥材領域F1 值基本一致,分析原因:在旅游領域中,由于其關系類別少、實體個數多的特點,其擴展詞可以很好地表征其語義信息,利用擴展與實體指稱項的候選實體之間的關系信息也比較明顯.但是在少數民族和藥材領域,關系種類更加復雜,實體與實體之間的關系信息也不明顯,所以在這兩種領域中,擴展詞特征和關系指數不如在領域領域中明顯,造成了F1 值略有下降.但是從不同領域的對比實驗中表明,本文方法針對標注語料少,流行度等消歧特征不明顯的問題,在不同特定領域中的效果基本穩定并且有較好的F1 值.
本文針對現有的實體鏈接方法無法將文本信息和本地知識庫信息充分相結合,提出了一種簡單高效的基于關系指數和表示學習的特定領域集成實體鏈接方法.利用表示學習將文本信息和知識庫信息相融合,簡單高效且適應于特定領域語料偏少的特點.實驗結果表明,該方法與現有的實體鏈接方法相比,不需要標注語料,其實體鏈接準確率和F1 值比較理想,同時更適應于語料偏少的特定領域.下一步的工作是對已經構建的小規模特定領域知識庫進行擴充和完善,同時不斷挖掘領域文本中特有的屬性特征,改進實驗效果.