999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征實體消歧的中文知識圖譜問答

2022-02-24 05:06:18張鵬舉賈永輝陳文亮
計算機工程 2022年2期
關鍵詞:語義模型

張鵬舉,賈永輝,陳文亮

(蘇州大學計算機科學與技術學院,江蘇蘇州 215006)

0 概述

隨著互聯網信息資源激增,傳統的搜索引擎無論從效率還是準確率上,都難以滿足用戶精準搜索信息的需求。因此,問答系統被提出并迅速發展,其應用于人工智能、自然語言處理和信息檢索領域獲得了較好的效果,是目前具有較大發展前景的研究熱點[1]。而在問答系統中,知識圖譜問答(Knowledge Based Question Answering,KBQA)是重要組 成部分。

知識圖譜問答系統的相關研究備受矚目,與知識圖譜的快速發展有密切關系。知識圖譜由谷歌于2012 年5 月17 日提出,其初衷是為了提高搜索引擎性能,改善用戶的搜索質量以及搜索體驗。知識圖譜[2]旨在描述真實世界中存在的各種實體或概念及其關系,構成一張巨大的語義網絡圖。在知識圖譜中,節點代表實體或概念,邊則表示屬性或關系。目前知識圖譜使用較為廣泛的存儲框架為資源描述框架(Resource Description Framework,RDF),表示形式一般用SPO(Subject-Predicate-Object)三元組表示,即“主語-謂語-賓語”。其中,“主語”一般為實體,“謂語”一般為關系或者屬性,“賓語”一般為實體或者屬性值。整個三元組表征了實體與實體之間的信息以及實體與自身屬性之間的信息。

KBQA 系統的工作流程包含多個步驟。首先對于不同類別的問題需要進行分類處理。例如對問句“球星姚明的妻子是誰?”(涉及1 個三元組)與“球星姚明妻子的星座是什么?”(涉及2 個三元組)屬于2 種不同類型的問句,需要進行分類處理。其次要進行實體鏈接,即對問句進行實體識別與實體消歧。在實體鏈接中先要識別出問句中對應的主題實體提及,再從實體提及對應的所有候選實體中確定問句對應的唯一正確實體,最終完成實體鏈接。例如從問句中識別出“姚明”并鏈接到知識庫中的實體節點“<姚明_(中職聯公司董事長兼總經理)>”。接著要對問句進行關系抽取,得到關系“妻子”“星座”,完成主題實體對應的關系抽取。最后在獲得主題實體及其對應的關系后,進行三元組搜索“<姚明_(中職聯公司董事長兼總經理)>---妻子---葉莉_(中國著名籃球運動員)---星座---天蝎座_(占星學)”,得到“天蝎座_(占星學)”作為答案[3],完成最終的問答。

對于知識圖譜問答系統,實體鏈接是至關重要的,只有確定了主題實體,才能根據實體對應的關系、屬性三元組進行推理、判斷,從而得到最終的答案。一旦實體鏈接出錯,問答系統的后續工作就沒有任何意義。實體鏈接一般分為主題實體識別和實體消歧2 個步驟。實體識別模塊可以采用序列標注模型和規則匹配結合的方法來進行,相對而言比較容易,并且還能取得較好的效果。然而,實體消歧較難取得很好的效果,這是因為單單從實體本身的信息來看,并不能完全確定問句對應的最優實體。例如實體提及“姚明”對應知識庫中就有2 個實體“:<姚明_(中職聯公司董事長兼總經理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”,而對于問句“姚明的職業生涯最高得分是多少?”,要進行最優實體的選取就難以下手。因此,實體消歧部分是實體鏈接的關鍵。

近年來,在很多大會評測比賽中都有單獨的實體鏈接任務。然而,知識圖譜問答中的實體鏈接與這些發展成熟的實體鏈接卻有所差別。因為在正常的實體鏈接任務中,會給出實體對應的描述文段,進而從文段中抽取出重要的信息進行實體消歧,但是在知識圖譜問答中,并沒有實體對應的描述文檔來幫助進行實體消歧,而只能借助實體對應的三元組信息。針對這一問題,本文構建一個多特征實體消歧模型,通過考慮實體知名度特征和問句與實體的多方面特征優化實體消歧過程,并在此基礎上構建一個完整的知識圖譜問答系統。

1 相關工作

1.1 實體鏈接

實體鏈接[4]是指將文檔中出現的文本片段(即實體提及)鏈向特定知識庫中相應條目的過程,也被稱作命名實體鏈接,其采用的知識庫一般為較全面、較具體的知識庫,如TAP、維基百科等。

實體鏈接包含實體識別和實體消歧2 項關鍵技術。實體識別旨在從文檔中識別出可能鏈向知識庫中特定條目的實體提及,也被稱作命名實體識別。由于自然語言中普遍存在一詞多義和別名現象,通過所識別的實體提及在多數情況下并不能唯一確定其所指向的實體,因此需要利用實體消歧技術,根據給定實體提及所在上下文,確定其所指向的實體。目前實體消歧大多采用分類方法、機器學習排序方法、基于圖的方法、模型集成方法等。

對于中文實體鏈接任務,主要以中國計算機學會(CCF)或者中國中文信息學會舉辦的大會比賽評測任務為主,常見的有中國計算機學會國際自然語言處理與中文計算會議(NLPCC)與全國知識圖譜與語義計算大會(CCKS)的實體鏈接評測任務,各參賽隊伍使用機器學習排序方法居多。

1.2 知識圖譜問答

知識圖譜問答(KBQA)是一個具有吸引力和挑戰性的任 務,其最早伴 隨Freebase[5]、DBpedia[6]、YAGO[7]等大型知識庫的出現而出現在人們視野中。簡而言之,KBQA 任務定義為:以客觀事實為基礎,將自然語言問題作為輸入、知識圖譜中的實體或者屬性值作為輸出的一個綜合性較高的任務。總體上KBQA 方法分為兩大類,一類是基于信息檢索的方法,另一類是基于語義解析的方法。

基于信息檢索的KBQA 方法主要是通過構建不同的排序模型對檢索出的候選答案信息進行排序,得到最優候選答案來完成KBQA。BORDES 等[8]提出先采用語義詞向量嵌入的方法來表示問句和答案信息,再通過編碼計算其相似度來進行知識圖譜問答。此后,隨著神經網絡的興起,越來越多的研究者采用神經網絡模型(例如卷積神經網絡、循環神經網絡等)編碼問句和答案來計算相似度,并且獲得了不錯的效果[9-11]。

基于語義解析 的KBQA方法[12-14]相對比較 傳統,其通過對問句進行語義解析,得到對應的結構化查詢圖或者邏輯表達式,然后轉化為結構化的查詢語言(例如SPARQL)查詢知識庫得到最終答案。但是由于語義解析需要復雜的推理過程以及大量的手工規則特征,因此基于語義解析的方法實現起來頗有難度。

KBQA 領域的研究最早是由國外KBQA 研究者引領,并且他們提出的各種系統研究在Simple Questions數據集和Webquestions 數據集上取得了不錯的效果,在工業界也有很成熟的系統“start”。反觀中文KBQA起步較晚,目前也主要是以NLPCC 和CCKS 這2 個公開會議所舉辦的評測任務比賽為主,同時大部分參與評測的隊伍采用的是基于信息檢索的方法。

2 實體鏈接模型

知識圖譜問答的實體鏈接模型分為實體識別和實體消歧2個部分,后者依靠前者所識別出來的實體提及對應的知識庫實體進行消歧,通過將實體鏈接到知識庫中完成實體鏈接。因此,實體識別部分必須達到很高的性能,才能夠降低錯誤傳播,防止實體消歧時對錯誤的實體提及對應的知識庫實體進行消歧。對于實體識別模型,本文采用性能較好的BERT(Bidirectional Encoder Representations from Transformers)預訓練模型作為基礎模型。而在實體消歧部分,由于基于KBQA 的實體鏈接任務并沒有實體的描述文段,因此只能借助知識庫和問句信息來進行消歧。本文采用多特征集成模型來進行實體消歧。

2.1 BERT 預訓練模型

BERT預訓練語言模型[15]是一個基于Transformer神經網絡單元的雙向語言模型,其結構如圖1 所示。由于Transformer 是基于能夠徹底捕捉語句中每個詞之間時序信息的self-attention 編碼器,因此在句子級別的任務上,BERT 能夠實現真正意義上的前向、后向的雙向信息傳遞,從而獲得更高的性能和更好的效果。整個模型的輸入由詞向量輸入、位置向量輸入、句子分段向量輸入3個部分構成。整個句子的首部和尾部分別有特殊的標記[CLS]和[SEP],這2 個標記用來區別不同的2個句子。模型的輸出是[CLS]、[SEP]以及每個詞經過Transformer 編碼器得到的語義編碼向量。給定一個自然語言句子的輸入序列Q=(q1,q2,…,qn),經過BERT 的預處理和向量化后得到其對應的句子輸入向量E=([CLS],E1,E2,…,En,[SEP]),再經過12 層或者24 層編碼器得到最后的輸出向量H=(H0,H1,…,Hn)。經過預訓練的BERT 模型包含很強的上下文關聯語義特征,再經過微調即可用于分類、序列標注、閱讀理解等多個任務上。由于BERT能夠得到較好的訓練效果,因此其在工業界被廣泛應用。

圖1 BERT 模型結構Fig.1 Structure of BERT model

2.2 問句與路徑語義相似度模型

問句與路徑語義相似度模型指的是在完成實體鏈接后,確定該實體與問句語義最相關的關系所使用的模型。例如對于問句“球星姚明的老婆的星座是什么?”,完成實體鏈接得到主題實體“<姚明_(中職聯公司董事長兼總經理)>”,需要確定該實體對應的最優關系“妻子”和第2 個三元組的最優關系“星座”,這里沒有采用關系抽取的方法來進行,而是結合BERT 預訓練模型擅長處理句子級任務的特點,構建以主題實體為核心的三元組候選路徑與問句組成句子對“球星姚明老婆的星座是什么?[SEP]<姚明_(中職聯公司董事長兼總經理)>---<妻子>---<星座>--”,其中“”表示將實體泛化所用的特殊標簽。采用相似度模型選出最優路徑,進而選出最優關系。這樣處理的原因如下:

1)能夠避免錯誤傳遞。因為進行關系抽取時只抽1 個關系,那么對于第2 個關系來說,第1 個關系識別錯誤就會造成錯誤傳遞。

2)三元組順序不同。有些問句格式對應的三元組內實體順序是反向三元組。例如問句“萬島之國指的是哪個國家?”,其在知識圖譜中對應的三元組是“<挪威>--<別稱>--<萬島之國>”,然而“<挪威>”是該問句的答案,那么正確的標注就是“--<別稱>--<萬島之國>”,這時三元組的順序已經反向,那么再使用關系抽取識別出“<別稱>”在知識圖譜中進行查找時,由于順序的問題,必然得不出答案。

3)BERT 模型的特點。本文使用的基礎模型是BERT,而在BERT 模型訓練中的第2 個任務是句子下一句的預測,這個任務就是為了更好地理解和處理2 個句子中的信息。因此,BERT 更擅長處理基于句子與句子的任務。本文將候選三元組組成一個短句,結合問句形成一個句子與句子之間的語義相似度計算任務,例如問句“萬島之國指的是哪個國家”與三元組路徑“--<別稱>--<萬島之國>”的語義相似度計算任務,這樣能夠更契合BERT 模型的訓練和預測,從而使相似度模型獲得較好的效果。

在構建模型的訓練語料時,將問句作為“SEN1”,將答案路徑作為“SEN2”構建句子對,再把含有正確答案路徑的句子對標注為“1”,錯誤的標注為“0”,并且以正、負例比為1∶10 進行構建。得到訓練語料后,通過微調BERT 分類模型進行訓練得到問句與路徑相似度模型,如圖2 所示。在最終預測時取出模型最后一層隱層,經過分類層得到標簽為“1”的各條答案路徑的向量,再通過softmax 得到每個問句的得分,選取top1 作為最優答案路徑,完成問句與最優答案路徑的選取。

圖2 問句與答案路徑相似度模型結構Fig.2 Structure of similarity model of question and answer path

2.3 實體識別

實體識別指的是從問句中識別出主題實體提及,例如從問句“姚明的老婆是誰?”中識別出“姚明”這個主題實體提及。本文采用序列標注模型作為實體識別的基礎模型,使用CCKS2019-CKBQA 數據集中含有SPARQL 標注語料的訓練數據集。面對含有標注的問句“姚明的老婆是誰?”,其對應的SPARQL語句為“select ?x where{<姚明_(中職聯公司董事長兼總經理)><妻子>?x}”,從中對實體“<姚明_(中職聯公司董事長兼總經理)>”進行泛化處理,得到“姚明”作為句子對應的實體提及。然后根據序列標注模型的數據處理方法,將問句中“姚明”對應的位置標記為“BI”,把其他非提及部分標記為“O”,依照“BIO”標記進行序列標注模型訓練。

本文將BERT 語言模型和條件隨機場(Conditional Radom Field,CRF)[16]相結合訓練,并預測每個字符對應的標簽,如圖3 所示。首先通過BERT 語言模型得到富含語義信息的每個詞的上下文表示,然后通過CRF模型預測標簽序列的正確性。在完成模型訓練后,根據用戶問句進行實體識別,得到問句對應的實體提及。

圖3 實體識別模型結構Fig.3 Structure of entity recognition model

2.4 實體消歧

完成實體識別后得到主題實體提及,例如“姚明”,但是在知識庫中,“姚明”這一個提及在知識庫中可能對應2 個實體:“<姚明_(中職聯公司董事長兼總經理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”,那么對于問句“球星姚明的老婆是誰?”,其主題實體顯然是前者,因此,最終通過實體消歧得到的實體為“<姚明_(中職聯公司董事長兼總經理)>”。

研究者通常使用基于實體知名度的方法來進行實體消歧。實體知名度指的是該實體在知識圖譜中對應的知名程度(熱度)得分。對于問句“球星姚明的老婆是誰?”,采用知名度方法進行實體消歧得到的最終結果就是正確實體“<姚明_(中職聯公司董事長兼總經理)>”,但是對于問句“姚明副局的執政理念是什么?”,如果采用知名度得分的話顯然是錯誤的。因此,本文提出一個基于多特征的實體消歧模型,即結合知名度特征、問句與實體關系的語義相似度特征、問句與實體的字符相似度特征、問句與實體的語義相似度特征這4 個特征的語義模型,如圖4所示。

圖4 多特征實體消歧模型結構Fig.4 Structure of multi-feature entity disambiguation model

1)知名度特征

采用知名度特征應獲取實體對應的知名度(熱度)。在開放領域的問句中,人們一般所問實體的知名度比重都比較高,因此,對于開放領域的知識圖譜問答,實體的知名度是必要的。對于較為完備的知識圖譜,都會有一個實體對應的知名度得分排序表,這樣就可以根據這個知名度排序表得到對應的排序特征。例如“<姚明_(中職聯公司董事長兼總經理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”對應排名分別為1 和5。

2)問句與實體關系的語義相似度特征

在實體消歧時,如何利用好實體的上下文十分重要,而在問句中獲取上下文信息最好的方法就是找到實體信息中與問句關聯的關系(屬性)或者實體解釋。但是對于知識圖譜問答而言,知識圖譜中并沒有每個實體對應的具體描述文段,所以,只能采用知識圖譜中每個實體對應的關系或者屬性來進行消歧。首先要選出實體所有關系中與問句關聯度最高的關系(屬性)。本文通過上文所提到的問句與路徑的語義相似度模型來進行最優關系的預測,構建每個實體對應的三元組路徑,然后分別通過語義相似度模型得到最后一層分類層的語義向量,選取正確標簽上的每條路徑對應特征向量,將其作為每條路徑得分。從所有路徑中選取出得分為top1 的路徑作為實體對應的最優路徑得分,即為最優關系的得分。例如,對于問句“球星姚明的老婆是誰?”的候選實體“<姚明_(中職聯公司董事長兼總經理)>”的所有關系,關系“妻子”的相似度模型得分(0.97)最高,因此,就將該得分作為“<姚明_(中職聯公司董事長兼總經理)>”的實體關系與問句的語義相似度特征。

3)實體與問句的字符相似度特征

采用問句與實體的字符相似度特征,是因為對于一些含有實體別名的問句,必須依靠實體的字符相似度來進行消歧處理。例如對于問句“小說中風清揚的徒弟是誰?”,“風清揚”在知識圖譜中鏈接到“馬云”“風清揚”,然而在知識圖譜中,“馬云”的知名度得分大于“風清揚”,另外根據問句與實體的最優關系語義相似度特征來看,2 個實體都有“徒弟”這個最優關系,在這種情況下,就會選擇錯誤的實體“馬云”。為避免這種錯誤的情況,就需要問句與實體的字符相似度特征來進行輔助修正。

4)實體與問句的語義相似度特征

就實體本身而言,其在問句中就包含有對應的問句語義信息,因此,本文計算問句與實體的語義相似度作為問句與實體的語義特征。這里指的語義特征是將問句與實體共同映射到一個向量空間,分別將問句和實體向量化來計算語義相似度實現的。本文同樣使用之前提到的問句與路徑的語義相似度模型來實現同一個向量空間的映射,但與之不同的是將問句對應的路徑改為“<實體>”的形式,用來代替實體部分的輸入,問句部分輸入保持不變。最終得到模型的分類層輸出向量,取標簽為“1”的位置上的所有實體對應的向量得分,分別作為每個候選實體與問句的語義相似度特征。

通過上述4 個特征能夠獲得較為完整的關于問句的實體信息。然后通過性能較好的特征擬合模型XGBOOST[17]對4 個特征進行擬合訓練。在預測時,本文采用二分類方法對每個實體進行得分計算(標簽為正確標簽的概率得分),選擇得分top1 的實體作為最終實體消歧得到的實體,同時也作為實體鏈接得到的最終實體。

3 中文知識圖譜問答系統

本文設計了一個基于多特征實體消歧的中文知識圖譜問答系統,如圖5 所示。整個系統主要分為3 個模塊:問句預處理模塊,問句實體鏈接模塊,最優答案路徑篩選模塊。問句處理模塊包括對問句的預處理、問句分類。問句實體鏈接模塊包括實體識別和實體鏈接2 個部分。最優答案路徑篩選模塊包括對規則問句的路徑選取、對單跳問句答案路徑的選取、對兩跳鏈式問句的答案路徑選取以及對單、多跳難以分類問句的答案路徑選取。上文已經闡述了實體鏈接模塊的工作流程,本節將介紹不同類型問句的分類處理和最優答案路徑的選取。

圖5 基于多特征實體消歧的中文KBQA 系統工作流程Fig.5 Workflow of Chinese KBQA system based on multi-feature entity disambiguation

3.1 多限制問句

多限制問句指的是在一些特定的領域,含有很強的邏輯性或者規則的問句。將問句中對應的2 個實體三元組的尾實體或者屬性值有交集的問句作為多限制問句類型1,將問句中對應的2 個實體三元組的頭實體有交集的問句作為多限制問句類型2。這2 類問句是CCKS2019-CKBQA 評測任務數據集中邏輯性較強的問句。按照這樣的邏輯性和規則,將問句分為多限制問句和非多限制問句。但在實際應用場景中還有更多種類的問句,但目前就實驗數據,對于多限制類型問句,本文就只分為這2 個類型。

多限制問句類型1:“陳奕迅和王菲共同演唱了那首歌曲”。

多限制問句類型2:“哈佛大學出了哪些物理學家?”。

由于多限制問句具有強邏輯性的特點,因此解決這類問句也變得十分清晰。在完成實體鏈接后,得到問句對應的2 個實體,按照這2 種類型問句的三元組特點,分別進行對應的三元組的規則性查找就能完成問答。

3.2 非多限制問句

在非多限制問句中,根據數據集的特點,本文將問句細分為單跳問句、兩跳鏈式問句和單、多跳難以分類的問句。雖然分為3 種問句類型,但處理方法基本一致。

3.2.1 單跳問句

單跳和多跳問句的定義為:只涉及一個三元組的問句稱作單跳問句,涉及2 個及以上三元組的問句稱作多跳問句,如表1 所示。因此,可以將這類問題當作二分類問題來處理。由于本文采用的是CCKS2019-CKBQA 評測任務中的數據,每個問句都含有對應SPARQL 結構化查詢語句的標注數據,所以按照標注語句來構建二分類模型的訓練數據,將含有一個三元組打上標簽“0”作為單跳問句,含有2 個或2 個以上三元組打上標簽“1”作為多跳問句。最后利用BERT 預訓練語言模型進行模型的二分類微調訓練。在預測時,采用模型的最后一層隱層輸出中的[CLS]向量作為整個句子的語義分類向量,將其經過一個多層感知機(Multi-Layer Perceptron,MLP)分類(如圖6 所示),得到最終的分類結果,其中,標簽為“1”表示多跳問句,標簽為“0”表示單跳問句。除使用BERT 二分類模型進行預測外,還需要結合實體鏈接的結果進行修正。從實體鏈接結果中找出只包含一個實體的問句,將這些問句與BERT 二分類模型預測的單跳問句進行求交集處理,完成單跳問句的分類,其他問句作為多跳問句。完成問句分類與實體鏈接后,按照上文問句與路徑語義相似度模型,根據問句對應的唯一主題實體,獲得主題實體對應的候選答案路徑。最后再通過問句與路徑語義相似度模型得到最優答案路徑,確定答案三元組,根據三元組檢索答案完成單跳問句的問答。

表1 單、多跳問句示例Table 1 Examples of single and multi-hop question

圖6 BERT 模型問句二分類示例Fig.6 Example of two-classification of question by BERT model

3.2.2 兩跳鏈式問句與難以分類問句

兩跳鏈式問句指的是那些包含2 個順序排列的三元組對應的問句(上一個三元組的尾實體是下一個三元組的頭實體),例如SPARQL語句為“select?x where{<姚明_(中職聯公司董事長兼總經理)><妻子>?y.?y<星座>?x.}”的問句“姚明妻子的星座是什么?”。同構建單跳問句分類數據集一樣,符合鏈式問句的SPARQL的問句標記為“0”,不符合的標記為“1”。同上文提到的一樣,使用BERT 二分類模型,進行微調得到最終的鏈式問句分類模型。同時也采用實體鏈接的結果進行修正,得到最終的兩跳鏈式問句,剩下的問句作為單、多跳難以分類問句。完成問句分類后,根據實體鏈接得到主題實體,構建候選答案路徑,通過問句與路徑語義相似度模型選出最優路徑,完成答案兩跳三元組確定,最終完成兩跳鏈式問句的問答。這里需要說明的是,兩跳鏈式問句采用的相似度模型與處理單跳問句是不同的模型,其根本的區別在于采用了不同的數據集進行訓練,但預測方式基本一致。

在完成鏈式問句問答后,就只剩下難以分類問句的處理。由于這部分問句的數量只占總問句的9.21%,數據量較小,因此對于這一部分問句,將使用單、多跳聯合處理模型進行語義相似度匹配統一處理,不再進行細分。聯合處理模型是通過包含單、多跳數據集訓練得到的模型,可以處理單、多跳混合問句最優答案路徑的選取。同樣,在得到實體鏈接產生的主題實體后,候選路徑的生成也是單、多跳路徑同時生成的。最終通過相似度模型得到最優的候選答案路徑作為最終的答案三元組,完成問答。

4 實驗

4.1 實驗數據

本文使用CCKS2019-CKBQA 公開的評測數據集進行實驗,其中包括3 份數據集和1 份知識圖譜。評測數據由北京大學和恒生電子股份有限公司人工構建與標注,包括2 298 條訓練集、766 條驗證集和766 條測試集。在問答數據集中,驗證集和測試集分別是比賽初賽和復賽所用的數據集。知識圖譜使用的是北京大學構建的知識圖譜PKUBASE,由41 009 141 條實體三元組、13 930 117 條實體提及三元組和25 182 627 條實體類型三元組構成。在實驗過程中,雖然CCKS2019-CKBQA 數據集既包含簡單問句又包含復雜問句[18-19],但是數量較少,因此,使用NLPCC2016-KBQA 的數據集[20]作為額外的訓練集訓練模型(CCKS2019-CKBQA評測比賽允許使用額外的公開數據集。參賽隊伍同樣使用了NLPCC2016-KBQA 的數據集作為訓練集進行模型訓練)。

4.2 實驗設置

本文使用的BERT 預訓練模型為基于PyTorch 深度學習框架的BERT-Base-Chinese模型,其中共有12 層編碼器,隱層輸出維度為768,中文最大句長設置為55。模型采用Adam 優化器進行參數的更新和微調,初始學習率設置為5e-5,采用大小為101 的批量訓練方法,dropout 設置為0.1,最大迭代次數為100 次,設置每訓練2 輪進行開發集的驗證。整個實驗分為2 個部分:

1)使用知名度實體消歧模型的實體鏈接與使用多特征實體消歧的實體鏈接的對比實驗。數據集為含有標注數據的766 條測試集中的實體標注數據,該部分的實驗指標為所有問句對應的實體鏈接的準確率P。設置所有問句個數為Na,所有問句中實體鏈接正確的問句個數為Ne,則P計算公式如下:

2)驗證使用多特征的實體鏈接對KBQA 系統性能提升的實驗。采用766 條測試集中的答案標注數據進行系統最終的性能實驗。KBQA 系統部分評價指標為平均F1 值。設置問題集合為Q,ai表示系統所給出的第i個問題的答案集表示第i個問題的標準答案集,Pi為第i個問題的答案準確率(如式(2)所示),Ri為第i個問題的答案召回率(如式(3)所示),則計算公式如式(4)所示:

4.3 實驗結果與分析

表2 展示了采用不同實體消歧模型的實體鏈接性能比較以及與評測比賽第1 名的實體鏈接性能比較。從表中可以看出,采用多特征實體消歧模型的實體鏈接后,在實體鏈接模塊,相比于采用知名度實體消歧的實體鏈接性能提升了6.35 個百分點,同時相比于第1 名的實體鏈接模型高出0.11 個百分點,表明本文提出的采用多特征實體消歧模型能夠很好地結合上下文信息和實體本身的信息并取得不錯的性能。

表2 實體鏈接性能比較Table 2 Comparison of entity linking %

表3 展示了本文提出的系統與采用這個數據集進行評測比賽的前3 名的系統的性能差異。根據平均F1 值的比較,本文系統性能僅次于第2 名,但是第1 名和第2 名分別在候選答案路徑模塊采用了特征集成與模型融合的方法,本文則是僅采用一個特征(模型)來進行候選答案路徑的選取。另外,從單特征角度來看,本文提出的系統性能已經優于第1名單特征的系統性能(69.02%)[19],因此表明本文構建的知識圖譜問答系統已取得不錯的效果。

表3 不同KBQA 系統在最終測試集上的平均F1 值Table 3 Average F1 value on final test set of different KBQA systems %

表3 還表明了采用多特征實體消歧的系統性能要優于采用知名度實體消歧的系統。通過比較可以得出,采用多特征實體消歧從系統層面上提升了1.86 個百分點,印證了采用多特征實體消歧的實體鏈接是十分有效的。但同時也可以看出,雖然實體鏈接部分提升了6.35 個百分點,但是整體系統卻只提升了1.86 個百分點,這表明想要提升KBQA 整個系統的性能單單從實體鏈接部分提升是不夠的,除了實體鏈接之外,分類模塊、候選答案路徑計算模塊也需要進一步優化。

5 結束語

本文設計一個基于多特征實體消歧的中文知識圖譜問答系統。從知名度、字符和語義層面綜合確定一個實體提及對于問句的最優實體,提升問句中實體鏈接的實體消歧性能,同時提出一種更契合BERT 預訓練模型的問句與路徑語義相似度模型,準確抽取出問句對應的關系、屬性,并最終經問句具體分類確定中文知識圖譜問答中用戶提出的問句。本文在實體鏈接之后采用基于檢索的方法構建知識圖譜問答系統,這種方法容易造成誤差傳遞。下一步研究將基于語義解析方法構建一個結合檢索和語義解析的中文知識圖譜問答系統,從而避免這一問題。

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 精品国产Av电影无码久久久| 天天躁夜夜躁狠狠躁躁88| 999福利激情视频| 亚洲综合18p| 高清免费毛片| 国产一区二区影院| 成人在线亚洲| 色综合热无码热国产| 中文字幕 日韩 欧美| 114级毛片免费观看| 一区二区自拍| 亚洲一区国色天香| 五月天天天色| 久996视频精品免费观看| 亚洲人成网站在线播放2019| 香蕉eeww99国产在线观看| 欧美中文字幕在线二区| 国产成人一区免费观看| 中文字幕在线欧美| 毛片卡一卡二| 91无码人妻精品一区二区蜜桃| 国产美女精品在线| 欧美福利在线观看| 香蕉国产精品视频| 成人无码一区二区三区视频在线观看| 奇米影视狠狠精品7777| 高清久久精品亚洲日韩Av| 国产精品福利导航| 99尹人香蕉国产免费天天拍| 亚洲中文久久精品无玛| 女人18毛片久久| 欧美色视频网站| 九九九国产| a天堂视频| 成人a免费α片在线视频网站| 亚洲成人精品在线| 国产精品成人久久| 精品亚洲麻豆1区2区3区| 亚洲精选高清无码| 国产综合在线观看视频| 国产在线精品网址你懂的| 99re精彩视频| 久久国产亚洲偷自| 国产高清无码第一十页在线观看| 欧美影院久久| 青青操视频在线| 中文无码日韩精品| 91久久国产综合精品女同我| 欧美精品成人| 亚洲色成人www在线观看| 欧美综合一区二区三区| 天堂成人在线| 成人亚洲天堂| 欧美精品高清| 亚洲精品国产综合99| 亚洲中文字幕av无码区| 第九色区aⅴ天堂久久香| 国产日韩精品一区在线不卡| 国产男女XX00免费观看| 国产成人精品无码一区二| 亚洲人成网站观看在线观看| 超清无码熟妇人妻AV在线绿巨人| 国产成人综合亚洲欧美在| 国产69精品久久| 在线国产毛片| 国产小视频a在线观看| 国产毛片片精品天天看视频| 伊人91在线| 国产福利在线免费| 91久久偷偷做嫩草影院精品| 亚洲综合色区在线播放2019| 无码日韩视频| 精品国产美女福到在线不卡f| 五月天香蕉视频国产亚| 日韩精品高清自在线| 亚洲一级毛片免费观看| 国产女人喷水视频| 97成人在线观看| 国产精品太粉嫩高中在线观看| 国产成人精品高清在线| 在线不卡免费视频| 六月婷婷精品视频在线观看|