999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

民航領域突發事件的實體鏈接方法

2023-01-01 00:00:00馮興杰彭洲張成豪馮小榮
計算機應用研究 2023年4期

作者簡介:馮興杰(1969-),男,河北邢臺人,教授,碩導,博士,主要研究方向為推薦系統、數據庫及數據倉庫、智能信息處理理論與技術;彭洲(1999-),男(通信作者),湖南長沙人,碩士研究生,主要研究方向為實體鏈接(13512475445@163.com);張成豪(1997-),男,河南周口人,碩士研究生,主要研究方向為深度學習和知識圖譜;馮小榮(1980-),男,陜西韓城人,高級實驗師,碩導,主要研究方向為機場終端區運行協同、飛行數據處理、空管不安全事件知識圖譜研究.

摘 要:實體鏈接的相關研究主要集中于醫療、生物和新聞領域,但在民航領域的研究較少。因此針對民航領域實體鏈接任務進行了研究,發現在實體鏈接中存在實體變體多、歧義少等問題。為解決上述問題,提出了一種基于語義推斷的實體鏈接框架以及一種用于增強框架魯棒性的負采樣策略。在民航領域數據集上進行了對比實驗,結果表明所提框架鏈接效果優于現有基準框架,并通過消融實驗,驗證了負采樣策略的有效性。在負采樣策略的作用下,該實體鏈接框架的Acc@top1高達0.875。

關鍵詞:民航突發事件;實體鏈接;實體統一;實體消歧;數據增強

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)04-015-1052-07doi: 10.19734/j.issn.1001-3695.2022.08.0413

Abstract:Entity linking studies are mainly focused on the fields of medical care, biology and news, but less on the field of civil aviation. Therefore, this paper carried out a research on entity linking task in civil aviation domain, and found that there were many entity variants and less ambiguity in entity linking. To solve these problems, this paper proposed an entity linking framework based on semantic inference and a negative sampling strategy for enhancing the robustness of the framework. This paper conducted comparative experiments on the civil aviation field dataset. Experimental results show that the performance of the proposed framework is better than the existing benchmark frameworks, and the effectiveness of the negative sampling strategy is verified through ablation experiments. With the negative sampling strategy, the Acc@top1 of the proposed framework is as high as 0.875.

Key words:civil aviation emergencies; entity linking; entity resolution; entity disambiguation; data augmentation

0 引言

民航安全是民航健康發展的基礎。本文以民航局頒布的規范性文件和中國民用航空安全系統發布的調查報告為基礎制作了民航領域事故征候實體鏈接數據集。該數據集分為實體概念和實體提及兩個數據集。前者參考民航局的規范文件,囊括了航空事件、航空事件原因、航空地面事件等類型規范實體名;后者參考調查追蹤報告,其中的實體來自于報告中的不規范實體名。關于數據集的具體分析將在3.1節中詳細闡述。

在民航突發事件知識圖譜構建中,文獻[1]的工作主要集中在識別出非結構化民航事件文本信息中的實體,其將實體劃分為事發時間、航空公司、飛機型號等13種實體類型,并采用經典的神經網絡模型BiLSTM-CRF來識別出上述實體。文獻[2]的工作主要集中在民航突發事件領域實體的關系抽取上,其數據集是半結構化且實體是給定的,目的是為了識別出實體之間的關系,將實體間的關系分為事件屬性、事件原因和事件結果,并利用基于注意力機制的BiGRU模型提取上述關系,取得了較好的實驗結果。上述兩個文獻的研究工作緊密銜接,前者為后者提供識別到的實體,后者在前者的基礎上抽取出實體間的關系。但是,文獻[3]認為這種前后聯系的流水線模型會存在錯誤傳遞的現象,且后者無法解決重疊三元組關系,因此其采用Multi-Air模型來解決上述問題。除了在民航突發事件領域,在民航機場業務方面也有針對實體識別的相關研究[4]。然而,上述工作都忽略了實體鏈接這一步驟,它們直接將識別到的實體和實體間的關系輸入到知識圖譜中,這種構建方法會造成數據關系的割裂。現有的實體鏈接研究主要集中在醫療、生物和新聞領域[5~8],在民航領域的研究較少。而這些研究中比較經典的基準模型有CNN-based和BERT-based,前者可以通過形態信息和語義信息來判斷是否可以鏈接,后者則通過分析詞語間的相關性來作判斷。民航領域的實體具有變體多、歧義少等特性,本文認為僅僅依靠形態信息和詞間相關性容易導致鏈接錯誤,應更注重于語義推理,并通過句子間含義來推理判斷是否鏈接。因此,本文提出了一種基于語義推斷的實體鏈接框架,并通過對比實驗來驗證其優越性。

本文工作主要體現在如下幾個方面:a)針對民航領域數據集具有的實體變體多、歧義少等特性,提出一種實體鏈接框架;b)提出一種負采樣策略,用于提高鏈接效果以及數據集數量;c)通過對比實驗與消融實驗,驗證了所提框架的優越性以及負采樣策略的有效性。

1 相關工作

1.1 實體鏈接的定義

由于不同文獻對實體鏈接、實體消歧等術語的描述有些差異,如文獻[9]將實體鏈接描述為實體識別和實體消歧兩個子任務;文獻[5]則將實體鏈接描述為實體規范化或者實體編碼。本文給出實體鏈接的定義:給定一個包含一組實體E的知識圖譜或知識庫(KG/KB)和一組命名實體提及M的文本集合,實體鏈接的目標是映射每個文本實體提及m∈M到知識庫中與其對應的實體概念e∈E。如果不能將實體提及m映射到E中,則稱m為不可鏈接(NIL)。

這里實體提及m是從民航國際事故調查跟蹤報告中抽取到的不規范實體名,它存放于實體提及數據集中,而實體概念e是從民航局規范文件中整理出來的規范實體名,知識圖譜或知識庫(KG/KB)為實體概念數據集。為了將兩種實體區別開來,本文將這實體m稱為實體提及(mentions)或提及或不規范實體,而將知識庫中的實體e稱為實體概念(concepts)或概念或規范實體。

1.2 實體鏈接基礎框架

本文對主流實體鏈接框架進行調查,發現在現有研究中實體鏈接基礎框架主要由候選實體生成、候選實體排名以及不可鏈接提及預測三個模塊組成,如圖1所示。在進行鏈接時,實體提及會先輸入到框架的候選實體生成模塊中,模塊會搜尋概念數據集來找出與提及最相似的幾個候選實體概念,在圖中也就是十個候選概念的列表。之后提及會和每一個候選實體概念組成概念提及對,并輸入進候選實體排名模塊,模塊會給每一對打分排名并將得分最高的一對輸出。最后,輸出的概念提及對會由不可鏈接提及預測模塊評判提及是否可以鏈接到概念數據集中。如果不可鏈接則輸出NIL,反之則輸出得分最高的一對概念提及。

1.2.1 候選實體生成

為什么會有候選實體生成,這是計算成本導致的。因為候選實體排名模塊是統計學模型,而統計學模型往往很復雜,如果用模型直接計算成百上千的實體提及和候選實體對,毫無疑問這個過程會十分的緩慢,所以需要候選實體生成作為啟發式搜索,排除掉那些最不可能被鏈接到的實體,并選出最有可能的幾個候選實體。

在本模塊中,對于每個實體提及m∈M、實體鏈接系統旨在過濾出知識庫中不相關的實體,并檢索一個候選實體集Em,該集合包含與實體提及m相似的幾個實體概念。為了實現這一目標,一些最先進的實體鏈接系統采用了多種方法,例如基于名稱詞典的方法[10,11],它會嘗試查找提及的別名來生成實體概念;基于信息檢索[12]的方法,它嘗試通過文字匹配來生成概念;基于先驗概率的方法,它通過事先計算提及與概念之間的先驗概率[13]可以做到預測概念。

1.2.2 候選實體排名

在大多數情況下,候選實體集Em的大小大于1。研究人員利用不同種類的特征對Em中的候選實體進行排序,并試圖找到實體提及m最有可能鏈接到的概念e。這個模塊使用的技術有機器學習中經典的支持向量機模型[14],也有現在流行的深度學習模型[5,8,15,16]。

1.2.3 不可鏈接預測

為了解決預測不可鏈接提及的問題,一些工作利用此模塊來驗證候選實體排名模塊中排名靠前的實體概念是否與提及m匹配。不可鏈接提及預測的方法有閾值法[5,17],也有在實體排名階段引入NIL實體的方法[13]等。

1.2.4 經典實體鏈接框架

在現有實體鏈接框架中,文獻[8]將基于人工規則的系統作為候選實體生成模塊,并設計了一個CNN架構用于候選實體排名,該架構通過捕捉句子的形態信息和語義信息來排名。對于不可鏈接,它將NIL標記添加到候選實體集合中用于處理概念缺失的情況。而文獻[5]則采用BM25算法用于生成候選實體,并用BERT模型進行排名,對于不可鏈接問題則采用閾值法來解決。

本文框架參考上述文獻,并在實體鏈接基礎框架上進行了改進。對于候選實體生成,本文采用BM25算法,因為相較于人工規則系統,使用該算法能免去人力成本且能快速找到具有相似形態信息的候選實體概念;對于候選實體排名,本文認為應更注重于語義推理,雖然CNN結構可以通過相似矩陣來判斷提及與概念的相似性,但它缺乏從句子含義上的推理。而BERT模型不擅長局部信息的捕捉,且模型參數量龐大。所以為滿足對語義推理的要求,本文采用ESIM模型[18]作為候選實體排名模塊,該模型是自然語言推斷中的模型,非常擅長語義推理。對于不可鏈接問題,本文參考文獻[5]采用閾值法。

2 模型設計

2.1 實體鏈接在民航領域的挑戰

實體鏈接的作用是將實體提及自動地鏈接到概念數據集中某個概念上,舉個例子,在圖2中,有一份來自中國民用航空安全系統的事件調查報告,經過實體識別技術,從該報告中找出了與事件原因相關的實體提及“電氣氣味”和“煙霧的痕跡”,現在要做的工作就是把這個事件原因存入概念數據集中,但是“電氣氣味”和“煙霧的痕跡”屬于不規范實體名,在概念數據集中并沒存儲這種事件原因,以往的想法就是把“電氣氣味”和“煙霧的痕跡”作為新的事件原因存儲,但是這種方法有一個非常嚴重的缺點,那就是它會造成數據割裂,數據之間會缺失關聯性,相關事件之間的關聯性會被斷開。如果將這種方法用在知識圖譜上,那么知識圖譜會失去其存在意義,這就與單純的數據保存沒有區別,比如一份事件報告中記錄的事件原因是“電氣氣味”,另一份報告是“煙霧的痕跡”,不同的報告對煙霧的描述不同,但它們都是同一種原因“煙霧報警”,如果圖譜認為這兩個事件原因不同,那這兩個同類事件之間就不會有關聯性,這就造成數據關聯的割裂。實體鏈接就是為了解決這種問題,它會通過算法和統計學模型將“電氣氣味”和“煙霧的痕跡”與圖譜中實體概念“煙霧報警”鏈接,將不同事件但同一類型原因掛鉤,將數據聯系起來。

實體鏈接目前的主要挑戰有三個:a)歧義,同一實體提及可能指代不同的實體概念,如實體提及名“蘋果”在知識庫或知識圖譜中可能指的是“蘋果公司”也可能指的是“蘋果(水果)”;b)變體,不同實體提及可能指代相同的實體概念,如實體提及名“東航”和“東方航空”都指的是“中國東方航空公司”[19];c)缺失,實體提及可能不會映射到給定知識庫或知識圖譜中的任何實體概念,這主要是因為實體名在現實中是非常豐富的,知識庫或者知識圖譜并沒有收錄它。

上述三個挑戰在不同領域有不同的表現,比如在新聞領域歧義比變體出現得多,對于歧義這種問題必須通過基于實體提及上下文的機器學習方法來處理[6],而在生物醫學領域的某些實體類型(即疾病、藥物)中,變體比歧義更為常見,有時會出現缺失,所以在生物醫療領域大多數的實體鏈接系統采用基于形態信息的方法[7]。本文分析了中國民用航空安全信息系統公開的國際事故調查跟蹤報告,發現民航領域報告因為其嚴謹性很少出現歧義的現象,而由于不同人對報告的描述不同,實體變體比較常見。這種情況與生物醫療領域很相似[8]。

2.2 提高鏈接效果的策略——負采樣

依據民航領域實體具有的變體多、歧義少的特性,本文提出了負采樣策略,具體如下:在開始訓練前分別對概念數據集和提及數據集中的每一個實體提及和實體概念進行負采樣,負采樣的結果為不匹配的概念提及對的集合,將其與匹配的概念提及對集合(原始數據集)合并,最終將合并后的集合送入候選實體排名模型中進行訓練。負采樣的過程如圖3所示,圖(a)是對提及負采樣,對于每一個提及都會由候選實體生成算法在概念數據集中找出與之相似的但是不匹配的前四個概念作為負樣本;圖(b)是對概念負采樣,與提及一樣,對于每一個概念都會由算法在概念數據集中找出五個負樣本。

為更好地說明負采樣策略,本文選取一樣例來進行分析,如表1所示,現有一對概念提及對——“沖出/偏出跑道”與“飛機沖出跑道事件”,它們分別來自于實體概念數據集與實體提及數據集。對概念的負采樣就是從概念數據集中找出與“沖出/偏出跑道”概念相似但含義不一樣的概念,并與之組成一個負樣本對,如“跑道外接地”雖然有“跑道”這個字眼,但是它與“沖出/偏出跑道”含義完全不同,前者表示飛機沒有準確地落在跑道上,而是落到了跑道外,且跟地面發生了接觸;后者指的是飛機沒有能在跑道末端停留下來,沖出了跑道末端。同理,對提及的負采樣也是找出最相似的幾個負樣本對。兩種負采樣有不同的好處,前者能使模型能區分實體概念之間的區別,后者則使候選實體排名模型能夠判斷實體提及是否與實體概念匹配,因此使用負采樣策略可以解決實體鏈接時的實體變體與歧義問題。

上述策略改變了基本框架的訓練和預測方式,使得兩者運行方式不同。在訓練時整個框架只有候選排名模塊即神經網絡結構需要訓練,而在預測時是基本框架中的三個模塊上下銜接一起進行預測的。這種訓練與預測方式的不同會導致訓練策略也會與以往的不同。注意到框架在進行預測時,先由候選實體生成模塊生成多個候選實體概念再由神經網絡進行打分排名的,而這些候選概念可能都與實體提及不匹配。如表1中的負采樣結果,或者有一個匹配其余的都不匹配,如果神經網絡只在原始數據集上進行訓練,那么它將無法區分匹配的概念與不匹配概念之間的區別(沖出/偏出跑道與跑道外接地)。因為在原始數據集中只有多個提及匹配一個概念的正樣本,而沒有能讓模型推斷出提及與概念不匹配的負樣本,所以該策略不僅可以增強原始數據集,同時還可以提高模型的魯棒性和準確率。

2.3 實體鏈接框架設計

圖4為本文提出的實體鏈接框架,它在現有實體鏈接基礎框架上有所改進。框架仍然由三個模塊組成,但在候選實體生成模塊中引入負采樣模塊,用于增強框架穩定性;在不可鏈接預測模塊中作了簡化,以實現快速驗證框架的目的。

候選實體生成模塊的輸入為實體概念與提及數據集。檢索功能采用BM25[20,21]算法,BM25是信息索引領域用來計算搜索詞條與文檔相似度得分的經典算法。通過簡單的文本匹配,它可以從輸入的數據集中快速找出較為匹配的候選實體概念。負采樣模塊用于提高模型的魯棒性與準確率。該模塊僅在訓練候選實體排名模塊時被使用,圖4中sentence1與sentence2中concepts與negtive concept是對概念負采樣的結果,而mentionts與negtive concept是對提及負采樣的結果,mentionts與concept是原始數據。在進行預測時,BM25會給每一個輸入的提及從概念庫中找出可能與其匹配的候選概念,提及會和每一個候選概念組成一對輸入到神經網絡中。

候選實體排名相對于候選實體生成起到精準排名的作用,由于民航領域實體鏈接數據集的句長比較短且主要集中在2~15個字范圍內,提及與概念句長基本相似,而ESIM模型[18]擅長此類句長的精確匹配,所以候選實體排名采用ESIM模型。為了簡化模型,本文對ESIM模型進行了改進,將嵌入編碼和句間推理層的BiLSTM改為BiGRU。對于不可鏈接預測,由于沒有在ESIM模型中引入NIL實體,所以采用簡單閾值法。針對框架三個模塊的細節問題,將按圖中由下到上的順序在下文一一展開。為方便后續章節的表述,表2給出了相關符號的說明。

2.5 候選實體排序 ESIM模型

在圖4中候選實體排序模塊ESIM模型從下往上可分為嵌入編碼、詞間推理、句間推理和輸出候選得分四個部分,接下來將分別介紹這幾個模塊。

2.5.1 嵌入編碼

詞向量表示的方法主要有兩種類型:a)基于全局矩陣分解的方法,如LSA;b)局部上下文窗口的方法,如Mikolov在2013年提出來的CBOW和skip-gram方法[22]。但是這兩種方法都有各自的缺陷,其中,LSA雖然有效利用了統計信息,但是在詞匯類比方面卻很差;而CBOW和skip-gram雖然可以很好地進行詞匯類比,但是因為這兩種方法是基于一個個局部的上下文窗口方法,所以沒有有效地利用全局的詞匯統計信息。為了克服全局矩陣分解和局部上下文窗口的缺陷,在2014年,Pennington等人[23]提出了GloVe,它是一個新的全局對數雙線性回歸模型,用于單詞表示的無監督學習,在單詞類比、單詞相似度和命名實體識別任務方面優于其他模型。本文使用GloVe詞嵌入矩陣將輸入的提及和實體概念中的每個單詞轉換為一個稠密向量。實體提及A和實體概念B的嵌入轉換公式如下:

2.5.2 詞間推理

在2.5.1節中,通過BiGRU可以分別得到實體提及和實體概念的句子表示,現在要做的就是將實體提及與實體概念聯系起來。關聯的方法有再加一層BiGRU和利用注意力機制兩種。前者類似于機器翻譯中編碼器—解碼器框架,其優點是輸入輸出的句子長度可以變化,但缺點是如果輸入的句子過長,由于梯度消失它很難捕捉到長期依賴,且它不能并行計算。后者可以捕捉到句子的全局信息且可以并行計算,盡管它會丟失句子的序列信息。由于本節只是將實體提及和實體概念聯系起來作詞間推理,所以本文采用后者并忽略掉提及到概念的序列信息。

2.6 不可鏈接預測

候選實體打分模塊會給每一個句子輸出一個二維向量,向量中的兩個元素分別為不匹配的概率和匹配的概率。本模塊會將每個二維向量存儲起來,并將匹配的概率認做分數對句子進行排名,概率越高則分數越高排名越靠前。最終當存儲并排序完每一個候選實體時,會將排第一位的實體輸出給不可鏈接預測模塊。不可鏈接預測采用閾值法,若該實體的分數低于閾值則認為不可鏈接,反之則輸出實體。不可鏈接的閾值是自動地從訓練集中習得的。

3 實驗及結果分析

3.1 數據獲取和分析

本文中使用的數據分兩個部分:a)第一部分實體提及數據集來自于中國民用航空安全系統(https://safety.caac.gov.cn/ index/initpage.act)的國際事故調查追蹤報告,數據集由1 000多份事件報告中出現的實體提及組成,且在數據集中具有相似含義的實體提及會由聚類的方式分類好;b)第二部分實體概念數據集參考中國民用航空局官網(http://www.caac. gov.cn/index.html)公布的《民用航空器事故征候》《民用航空器征候等級劃分辦法》《事件樣例》《民用航空器事故和飛行事故征候調查規定》《民用航空安全信息管理規定》等規范性文件。本文將文件中的航空事件類型和航空地面事件類型劃分為沖出跑道、偏出跑道、跑道外接地等60種事件實體概念,將航空事件原因類型和航空地面事件原因類型分為機組操作失誤、維護差錯、航空器故障等24種實體概念。本文通過人工的方式將第一部分具有相似含義的多個實體提及與第二部分中含義相同的某一概念匹配上,并制作出總計3 834條數據的原始數據集,其中3 451條用做訓練集,383條用做測試集。同時,本文依據負采樣策略將原始數據集(匹配的概念提及對)中的訓練集由原來的3 451條擴展到17 450條,這大大豐富了訓練集,同時還彌補了民航領域實體鏈接數據量少的問題。針對該數據集本文對其句長分布作了統計,如圖5所示。圖中顯示了實體提及和實體概念的句子長度分布。可以看到,雖然實體提及的長度差異很大,但實體概念的句長比較短且主要集中在2~15個單詞范圍內。提及與概念句長基本相似,這意味著可以借助自然語言推斷模型從提及推斷出概念,即找出匹配的概念提及對。

本文實驗從兩個方面展開:a)針對候選實體打分模塊即神經網絡模型ESIM,這一部分內容主要是為了評判模型能否應用在民航領域、分析模型性能表現以及判斷負采樣策略是否有效;b)針對本文提出的整個實體鏈接框架,它不僅僅包含打分模塊還包含候選實體生成及排名模塊和不可鏈接預測模塊,這一部分就是單純評價框架是否可靠。兩個方面的實驗都是在同一個測試集的基礎上完成的,但由于兩者實驗性質不同,所以測試集會有一定的修改。修改主要集中在前者,因為要用F1值評價模型,所以測試集中要有正負樣本,而測試集中只有正樣本,所以本文利用BM25算法為測試集中的每一個提及找出與其不匹配的多個負樣本,負樣本會和測試集中的樣本混合用于評價ESIM模型。本文使用到這個混合測試集的實驗為神經網絡模型對比分析和負采樣消融實驗。

3.2 框架基礎參數設置

本文有關候選實體打分模塊的實驗均通過深度學習框架Keras 2.3.1和TensorFlow 1.14.0實現。實驗中BM25算法類繼承自Gensim包中的BM25模型,算法中的K1和K2等參數為默認值,候選實體生成數量為10;模型輸入的最大序列長度為20,輸入序列的順序會被打亂,并通過GloVe獲得其嵌入向量,維度為50維;模型中BiGRU的隱藏層維度均為128,dropout設置值為0.2,模型的輸出為一個二維向量;不可鏈接預測模塊的閾值設置為0.1。訓練過程中采用Adam優化器進行參數優化,訓練迭代次數為15次,批處理大小為64。實驗參數如表3所示。

3.3 評價指標

本文的評價指標分別為準確率(accuracy)、精確率(precision)、召回率(recall)、F1值和Acc@topn,各項指標的計算公式如下所示。

其中:TP為預測正確的匹配概念提及對集合;TN預測正確的不匹配概念提及對集合;FP為預測錯誤的匹配概念提及對集合;FN為預測錯誤的不匹配概念提及對集合。Acc@topn指標以準確率為基礎,它表示框架輸出的前n個概念提及對的準確率,其中TP為在每次輸出的前n個概念提及對中有預測正確的匹配概念提及對的集合,TN、FP、FN依此類推。

3.4 神經網絡模型對比分析

本文采用以下模型進行對比實驗:

a)CNN-based[8]。該模型采用CNN架構來捕獲輸入的形態信息與語義信息,并通過相似矩陣對比提及與概念的相似度。

b)BERT-based[5]。該模型直接計算每個詞之間的相關性,通過對比兩個句子詞的相似度來判斷是否匹配。

c)ESIM-L。該模型為ESIM模型,它通過嵌入層、詞間推理層、句間推理層和池化層來計算提及與概念的匹配度。

d)ESIM-G。本文對原ESIM-L模型作了修改,將嵌入層和句間推理層的的BiLSTM修改為BiGRU。

實驗使用混合測試集,測試集中的每個提及對應的負樣本數為4,對比的結果如表4所示。分析表4可以發現,ESIM-L模型在民航數據集上的表現比其他兩個基準模型要好,這說明相比于CNN-based的形態相似度和BERT-based的詞間相關性,語義推理能更好地判斷輸入是否匹配。修改后的ESIM-G模型在ESIM-L的基礎上有了更高的精確率、召回率和F1值。

3.5 負采樣消融實驗

為了驗證提出的負采樣策略的有效性,本文做了負采樣的消融實驗,實驗使用混合測試集,按1~19的編號制作了19份測試集,每份測試集中每個提及的負樣本數與測試集的編號對應。圖6為消融實驗的結果,為了保證實驗的準確性,圖中每個模型都在測試集上運行了十遍并求平均值。圖中CvsNC表示在訓練集數據的基礎上增加對概念的負采樣,采樣的負樣本數為五個,并用該數據訓練的神經網絡模型;同理,MvsNC表示在訓練集數據的基礎上增加對提及的負采樣并訓練得到的模型,其中負樣本數為四個;all表示在兩者采樣方式下訓練的模型。圖中橫坐標表示不同編號的測試集,縱坐標表示評價模型性能的F1指標。可以看出單獨對概念進行負采樣是沒有用的,單獨對提及進行負采樣在測試集編號小于8的時候可以取得不錯表現,但在測試集編號大于8時性能就急劇下滑,而將兩種負采樣方式結合不僅能提高模型性能,還能在測試集編號大于8時延緩性能下降的速度。之所以會取得這種效果,可能是因為一個提及關聯了多個負概念,導致模型拉近了負概念之間的語義聯系,而添加對概念的負采樣,不僅可以推遠概念之間的語義聯系,還可以使得模型能夠更好地區分這些概念。而all模型和MvsNC模型均在測試集編號大于8時性能有顯著的下降,本文認為這是訓練集的負采樣數導致的,由于負采樣數為4(或5),模型只學習到了提及(概念)和與之相似的前4(或5)個概念之間的區別,所以加大負采樣數是可以考慮的,但是過大可能會導致模型訓練速度過慢、學習到無用的信息等問題。

3.6 實體鏈接框架的鏈接精度

在3.4、3.5節中為了了解負采樣的實際作用以及ESIM模型在民航領域數據上是否表現出色,只針對候選實體排名模塊做了對比與消融實驗,本節將針對整個實體鏈接框架,而非單一的模塊進行驗證實驗。由于實體鏈接的最終目的是為了輸出一個正確的實體概念,所以評價實體鏈接框架鏈接效果只能從準確率下手。本節實驗采用Acc@topn指標,用于評價在不同精度的情況下框架的鏈接準確率。實驗運行在不包含負樣本的測試集上,實驗的框架有三種,它們的候選實體生成模塊分別為all、MvsNC和CvsNC模型,故將上述三種框架按其候選實體生成模塊命名。實驗的對比分析結果如表5所示。可以發現,在all框架top1的精度下非常高,相反其他兩個框架差強人意,這進一步說明負采樣策略的有效性。在top2精度下,每種框架的準確率都有很大的提升。觀察到每個框架在top5精度下準確率幾乎持平且接近于1,導致這種結果的原因本文認為是實體概念數據集中的概念較少,因此在實體概念數據集較少時,對于候選實體生成模塊可以將其生成候選實體數量由10修改為5,用于提升速度。

3.7 案例分析

為更好地說明本文框架的實體鏈接過程,本文選取三個實體鏈接的結果作為案例。以表6中第一行結果為例子,框架最先會用BM25算法給“自動飛行系統失效”,找出“航空器系統失效/故障”“航空器結構損傷/發動機損失”“艙內失火/發動機起火”等可能的候選實體概念。之后,“自動飛行系統失效”與每個候選實體概念組成句子對,輸入候選實體排名模塊,模塊將預測每一句子對的匹配值并將其排序,具體匹配結果如表6所示。最后不可鏈接模塊將判斷排序第一的匹配值是否超過閾值,超過則輸出概念,否則輸出不可鏈接(NIL),顯然鏈接結果與“自動飛行系統失效”的概念相同,鏈接成功。

值得注意的是,表6中第2、3行的實體提及與其說是實體不如說它們更像短句,這是上游實體識別不準確導致的。這在實際應用中經常出現,由于上游模型預測錯誤導致誤差傳導到下游。本文提出上述兩個案例是為了分析實體鏈接框架應對上游誤差的能力。在第2行案例中,提及出現了“航空器”和“故障”的字眼,這能讓模型語義推導出“航空器系統失效/故障”的概念。而在第3行案例中,由于模型缺少對“自動座艙壓力控制” 的先驗知識,并不清楚它是航空器系統的一部分,所以這導致模型預測錯誤。因此本文框架能通過語義推導來減少上游誤差,但對于需要先驗知識來解決的誤差表現欠佳。

4 結束語

本文的主要工作是制作了實體概念和實體提及兩個數據集,并提出一個實體鏈接的框架和一個提高實體鏈接效果的負采樣策略。本文提出的負采樣策略不僅可以提高數據量還能增強神經網絡模型的穩定性和準確率,這在實驗中已經體現出來,不論是在數據集少還是多的情況下這種方法都是有效的。值得注意的是該策略采樣的負樣本數對模型的性能是有影響的,采樣的多少有待于進一步研究。本文提出的實體鏈接框架在負采樣策略的加持下top1精度下準確率高達0.875,說明該框架在民航領域數據集上是有效的。本文模型中的循環神經網絡其權重是共享權重,雖然共享權重可以減輕內存消耗,但不可否認的是每一時間步的權重相同會降低模型準確率,如果能同時解決內存與共享權重的問題,使得模型的每一時間步的權重各不相同,模型將會釋放更大的潛力。未來將研究如何為每一時間步的循環神經網絡生成不同的權重。

參考文獻:

[1]王紅,李浩飛,邸帥. 民航突發事件實體識別方法研究[J]. 計算機應用與軟件,2020,37(3): 166-172. (Wang Hong,Li Haofei,Di Shuai. Entity recognition method of civil aviation emergency[J]. Computer Applications and Software,2020,37(3): 166-172.)

[2]王紅,李晗,李浩飛. 民航突發事件領域本體關系提取方法的研究[J]. 計算機科學與探索,2020,14(2): 285-293. (Wang Hong,Li Han,Li Haofei. Research of relation extraction method of civil aviation emergency domain ontology[J]. Journal of Frontiers of Computer Science and Technology,2020,14(2): 285-293.)

[3]王紅,吳燕婷. 基于多跳注意力的實體關系聯合抽取方法及應用研究[J]. 太原理工大學學報,2022,53(1): 63-70. (Wang Hong,Wu Yanting. Research on the method and application of joint extraction of entity relations based on multi-hop attention[J]. Journal of Taiyuan University of Technology,2022,53(1): 67-70.)

[4]邢志偉,戴錚,羅謙. 融入集成卷積和注意力的民航業務實體識別 [J]. 計算機工程與設計,2022,43(2): 443-449. (Xing Zhiwei,Dai Zheng,Luo Qian. Combined ECNN and attention mechanism for named entity recognition in civil aviation business[J]. Computer Engineering and Design,2022,43(2): 443-449.)

[5]Ji Zongcheng,Wei Qiang,Xu Hua. BERT-based ranking for biome-dical entity normalization[J]. AMIA Summits on Translational Science Proceedings,2020,2020: 269-277.

[6]FernáNdez N,BláZquez J M,SáNchez L,et al.. Identityrank: named entity disambiguation in the context of the news project [C]// Proc of European Semantic Web Conference. Berlin: Springer: 640-654.

[7]Sung M,Jeon H,Lee J,et al. Biomedical entity representations with synonym marginalization[C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 3641-3650.

[8]Li Haodi,Chen Qingcai,Tang Buzhou,et al. CNN-based ranking for biomedical entity normalization[J]. BMC Bioinformatics,2017,18(S11): 385.

[9]Mulang’I O,Singh K,Prabhu C,et al. Evaluating the impact of knowledge graph context on entity disambiguation models[C]// Proc of the 29th ACM International Conference on Information amp; Know-ledge Management. New York: ACM Press,2020: 2157-2160.

[10]Guo S,Chang Mingwei,Kiciman E. To link or not to link? A study on end-to-end tweet entity linking[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013: 1020-1030.

[11]Gattani A,Doan A H,Lamba D S,et al. Entity extraction,linking,classification,and tagging for social media: a Wikipedia-based approach [J].Proceedings of the VLDB Endowment,2013,6(11):1126-1137.

[12]Le P,Titov I. Distant learning for entity linking with automatic noise detection[C]// Proc of the 57th Conference of the Association for Computational Linguistics. 2019: 4081-4090.

[13]Kolitsas N,Ganea O E,Hofmann T. End-to-end neural entity linking[C]// Proc of the 22nd Conference on Computational Natural Language Learning. 2018: 519-529.

[14]Zhang Wei,Sim Y C,Su Jian. NUS-I2R: learning a combined system for entity linking[C]// Proc of the 3rd Text Analysis Conference. 2010.

[15]Ravi M P K,Singh K,Mulang’ I O,et al. CHOLAN: a modular approach for neural entity linking on Wikipedia and Wikidata[C]// Proc of the 16th Conference of the European Chapter of the Association for Computational Linguistics. 2021: 504-514.

[16]Gupta N,Singh S,Roth D. Entity linking via joint encoding of types,descriptions,and context[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2017: 2681-2690.

[17]Gottipati S,Jiang Jing. Linking entities to a knowledge base with query expansion[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2011: 804-813.

[18]Chen Qian,Zhu Xiaodan,Ling Zhenhua,et al. Enhanced LSTM for natural language inference[C]// Proc of the 55th Annual Meeting of the Association for Computational Linguistics. 2016: 1657-1668.

[19]Shen Wei,Wang Jianyong,Han Jiawei. Entity linking with a know-ledge base: issues,techniques,and solutions[J]. IEEE Trans on Knowledge and Data Engineering,2015,27(2): 443-460.

[20]Robertson S E,Walker S. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval[C]// Proc of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. London: Springer,1994: 232-241.

[21]Robertson S,Zaragoza H,Taylor M. Simple BM25 extension to multiple weighted fields[C]// Proc of the 13th ACM International Confe-rence on Information and Knowledge Management. New York: ACM Press,2004: 42-49.

[22]Mikolov T,Chen Kai,Corrado G,et al. Efficient estimation of word representations in vector space [EB/OL]. (2013-09-07). https://arxiv.org/abs/1301.3781.

[23]Pennington J,Socher R,Manning C D. GloVe: global vectors for word representation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1532-1543.

[24]Schuster M,Paliwal K K. Bidirectional recurrent neural networks[J]. IEEE Trans on Signal Processing,1997,45(11): 2673-2681.

[25]Hochreiter S,Schmidhuber J. Long short-term memory[J]. Neural Computation,1997,9(8): 1735-1780.

[26]Cho K,Merrienboer B V,Gulcehre C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1724-1734.

[27]Cho K,Merrienboer B,Bahdanau D,et al. On the properties of neural machine translation: encoder-decoder approaches[C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 103-111.

[28]Mou Lili,Men Rui,Li Ge,et al. Natural language inference by tree-based convolution and heuristic matching[C]// Proc of the 54th Annual Meeting of the Association for Computational Linguistics. 2016: 130-136.

主站蜘蛛池模板: yy6080理论大片一级久久| 久久免费视频6| 在线观看免费人成视频色快速| 亚洲三级影院| 国产成人精品在线1区| 国产精品成人一区二区不卡| 9966国产精品视频| 尤物精品国产福利网站| 九月婷婷亚洲综合在线| 九色国产在线| 亚洲最大福利网站| 激情成人综合网| 亚洲日韩AV无码一区二区三区人| 播五月综合| 伊人精品视频免费在线| 91综合色区亚洲熟妇p| 日本精品视频一区二区| 日本91在线| 在线观看视频一区二区| 女人18毛片水真多国产| 久热99这里只有精品视频6| 国产黄色片在线看| 99久久精品国产麻豆婷婷| 国产噜噜在线视频观看| 亚洲国产精品美女| 国产成人精品高清在线| 热99精品视频| 色噜噜久久| 中文字幕无码制服中字| 尤物成AV人片在线观看| 国产新AV天堂| 欧美一道本| 国产美女无遮挡免费视频网站| 欧美精品成人一区二区在线观看| 狠狠色综合久久狠狠色综合| 国产麻豆精品久久一二三| 欧美一道本| 丁香婷婷激情网| 亚洲男人的天堂久久香蕉网| 91在线精品免费免费播放| 国产欧美网站| 在线精品视频成人网| 欧美午夜在线视频| 制服无码网站| www.99在线观看| 一边摸一边做爽的视频17国产| 国产精品永久免费嫩草研究院| 欧美性精品| 国产97色在线| 免费在线看黄网址| 亚洲男人的天堂在线| 久久精品人人做人人爽| 成人精品视频一区二区在线| 日本色综合网| 色偷偷一区二区三区| 日韩美一区二区| 国产手机在线观看| 成人伊人色一区二区三区| 日韩无码视频播放| 操美女免费网站| 亚洲第一成人在线| jizz国产视频| 国产在线观看91精品亚瑟| 人妻无码AⅤ中文字| 欧美成人午夜视频免看| 91九色最新地址| 又爽又黄又无遮挡网站| 午夜欧美理论2019理论| 久久久久人妻一区精品色奶水 | 欧美国产综合色视频| 免费在线观看av| 欧美日韩精品在线播放| 欧美在线观看不卡| 第九色区aⅴ天堂久久香| 国产幂在线无码精品| 五月天久久婷婷| 国产无遮挡猛进猛出免费软件| 国产美女91呻吟求| 农村乱人伦一区二区| 国产乱子伦精品视频| 伊人久久婷婷| 国产真实自在自线免费精品|