羅玲,李碩凱,何清,楊騁騏,王宇洋恒,陳天宇
(1.中國科學院計算技術研究所 智能信息處理重點實驗室,北京 100190;2.中國科學院大學,北京 100049)
網絡是當今世界人們獲取信息的一個重要途徑。隨著信息化時代的到來,網絡信息變得更龐大且雜亂無章,傳統的搜索引擎已經難以滿足人們的需要。得益于人工智能技術的飛速發展,智能問答系統應運而生[1]。智能問答系統旨在幫助人們在海量信息中快速而準確地找到自己需要的信息。智能問答系統響應用戶提問的效果要明顯好于當今流行的基于布爾檢索技術的搜索引擎,提供的回答也更加快捷準確。智能問答是指通過人工智能、知識圖譜等技術建立的以一問一答形式精確定位網站用戶所需要的知識,通過與網站用戶進行交互,為網站用戶提供個性化的信息服務的問答系統[2]。
自第一屆冬季奧林匹克運動會于1924 年在法國的夏慕尼舉行以來,冬奧會至今已有近一百年的歷史。2022 北京冬奧會即將來臨,人們也都很想了解這一百年來冬奧會的舉辦和獲獎情況。但是由于參加冬奧會的運動員數量大、比賽項目多導致人們獲取準確答案變得不容易。為了解決這個問題,幫助人們快速高效地獲取需要的冬奧會的有關信息,本文提出了冬奧問答系統。該系統首先收錄了從第一屆冬奧會至今所有冬奧會的舉辦信息和獲獎信息,然后對比了3 種問答方法,并對其優劣進行了比較。本文的貢獻主要分為如下3 個部分:
1) 利用爬蟲爬取了有關冬奧會問答的事實性句子,包含運動員的姓名、性別、年齡、身高、體重、國家、參與奧運會的年份、參加奧運會的項目、獲獎情況等信息。并自己定義模板,將事實性信息轉化為問答對,整合后提出了冬奧問答數據集,包含了冬奧會的事實性問題。
2)將智能問答系統應用在冬奧項目數據上,分別基于知識圖譜、基于自注意力機制的雙向編碼表示(bidirectional encoder representation from transformers,BERT)模型和詞頻?逆文本頻率指數(term frequency-inverse document frequency,TFIDF)模型建立了冬奧問答系統,根據用戶提供的自然語言形式的問題可以給出準確的回答。
3)本文使用3 種模型建立冬奧問答系統,并比較了3 種模型的正確率和優缺點,實驗結果達到了預期目標。
智能對話系統是人工智能領域的核心技術,是人機交互的重要研究方向,對話系統的基礎是問答系統。問答系統是信息檢索系統的高級形式之一,采用自然語言處理技術,可以實現對用戶疑問的理解,進而完成答案的生成[3]。問答系統首先接受自然語言的問句輸入進行問句分析,這一階段的主要任務是完成對問句語義的理解,將自然語言轉為邏輯語言,在問句分析后進行信息檢索和直接答案輸出。問答系統主要分為信息檢索式問答系統和生成式的問答系統[4],前者通過判斷輸入問句在知識庫中匹配對應答案,后者則基于模型訓練生成答句。Yao 等[5]實現了一種實際工程應用中的基于深度學習模型的任務導向型對話系統的通用框架。Feng 等[6]實現了一個不依賴語言的基于卷積神經網絡的口語問答系統,基于問題和訓練集中距離的度量,返回度量值最高的問答對。Zhang 等[7]實現了一個基于知識庫的開放領域問答系統,該系統采用自定義詞典分詞和條件隨機場模型CRF 相結合的方法識別問句中的主體,采用模糊匹配方法將問句中的主體和知識庫中的實體建立連接,系統平均F-Measure(F 值)達到0.695 6。Noraset 等[8]實現了一個基于泰語的問答系統。H?ffner 等[9]調查分析了62 個不同的語義問答(SQA)系統。基于他們的分析,本文選出3 種方法,在中文冬奧問答數據集上進行比較。
1977 年,知識工程概念在第五屆國際人工智能大會上被提出,隨即知識庫系統的研究開始進入人們的視野[10]。Google 公司于2012 年11 月提出了知識圖譜概念,并表示在其搜索結果中加入知識圖譜功能。知識圖譜概念一經提出,就逐漸成為熱門,進入蓬勃發展階段。知識圖譜模型基于符號化通過三元組表達具體知識,并且以有向圖的形式進行存儲鏈接,在問答系統、搜索、推薦等領域有著廣泛的應用。Liu 等[11]從知識圖譜的定義和技術架構出發,對構建知識圖譜涉及的關鍵技術進行了自底向上的全面解析。Xu 等[12]探索了一種基于知識圖譜的多輪問答系統可實現方案。Chen 等[13]應用知識圖譜通過結合其領域詞表、規范等內容實現了一個可用于查詢數據、進行知識問答的智能系統。Piotr[14]提出了一個開放域因子式問答系統,引入并實現了深度實體識別。它允許基于先前組裝的實體庫,全面搜索與給定詞網WordNet 語法集匹配的所有形式的實體引用。Yih 等[15]提出了一個三階段的搜素方法,提高了知識圖譜搜素問題的準確度。Jia 等[16]引用知識圖譜模型和用戶長短期偏好提出了一種個性化景點推薦方法,能夠預測并返回用戶可能感興趣的推薦列表。
TF-IDF 是一種針對關鍵詞的統計分析方法,旨在通過判斷某一詞匯在測試語句和語料庫中的出現次數來判斷詞的重要程度。
TF-IDF 是一種常用于信息檢索的加權技術,有著廣泛的應用:在對話領域,Lu 等[17]基于向量空間的TF-IDF 相似度模型,實現了面向服務機器人的口語對話系統;在知識圖譜領域,Zhang 等[18]基于TF-IDF 模型通過關鍵詞特征分析和共現矩陣分析,從而更好地構建全面從嚴治黨知識圖譜,加強對習近平新時代中國特色社會主義思想的學習與理解;在SQL 注入檢測領域,Su 等[19]基于TF-IDF 和N-Gram 提出了一種SQL 注入檢測方法,在保證召回率的基礎上,可接受率有所提高;在輿情挖掘領域,Liu 等[20]提出了基于TF-IDF權重分析法的網絡輿情信息挖掘技術,提高了網絡輿情信息挖掘效果,增強輿情引導的準確性;在垃圾短信分類領域,Wu 等[21]提出了一種結合TF-IDF 的基于自注意力機制的雙向長短期記憶網絡模型來進行垃圾短信識別,這種模型相比于傳統分類模型的短信文本識別可接受率提高了2.1%~4.6%,運行時間減少了0.6~10.2 s;在文本相似度度量領域,Li 等等[22]提出了一種運用TF-IDF方法提取文本關鍵詞的文本相似性度度量方法,準確率高,且時間效率比其他方法更高。
BERT 是一種預訓練語言表示的方法,在大量文本語料上訓練了一個通用的“語言理解”模型,然后用這個模型去執行具體的自然語言處理任務。BERT 可以通過加深網絡的方式增強對文本信息的挖掘能力。另外,BERT 基于無監督的語料數據進行學習的,可以減少數據搜集和人工標注的成本。
BERT 在專利匹配、中文語義匹配、金融文本情感分析、中文地址分詞、問答等領域有著廣泛的應用:在專利匹配領域,Cao 等[23]提出了一種基于BERT+注意力機制和基于密度聚類(DBSCAN)的長三角專利匹配算法,有助于分析和研究長三角地區的專利情況;在中文語義匹配領域,Wu 等[24]提出一種基于BERT 模型的用于問答系統的中文語義匹配算法,實現了高效準確的語義匹配,顯著提高文本搜索、問答匹配的效率;在金融文本情感分析領域,Zhu 等[25]提出基于金融領域的全詞覆蓋與特征增強的BERT 預處理模型,顯著提高了金融文本情感分析的可接受率和召回率;在中文地址分詞領域,Sun 等[26]提出了一種基于BERT的中文地址分詞方法,將非行政級別的地址標簽進行重新設計,將中文地址分詞任務轉換為命名實體識別任務,提取出正確的地址級別;在問答領域,Peng 等[27]提出了基于BERT 的三階段式問答模型,該模型相較于同類基準模型,抽取出的答案片段更加準確。
不難看出,BERT 在自然語言處理領域有著十分廣泛的應用,在各種任務上都有著不錯的表現。
BERT 模型由Google 公司在2018 年發布。BERT的網絡架構使用的是《Attention is all you need》中提出的多層自注意力機制Transformer 結構,其最大的特點是拋棄了傳統的循環神經網絡和卷積神經網絡,通過注意力機制將任意位置的兩個單詞的距離轉換成1,有效地解決了自然語言處理中棘手的長期依賴問題。多層自注意力機制Transformer 的網絡架構如圖1[28]所示,它是一個序列到序列的結構,由若干個編碼器和解碼器堆疊形成。

圖1 BERT 模型的網絡架構Fig.1 Encoder-diverter-decoder with auxiliary information
模型的主要創新點在pre-train 方法上,使用了Masked LM 和Next sentence prediction 兩種方法分別捕捉詞語和句子級別的representation。圖2~4 給出了其模型結構與另外兩種著名的模型:生成式預訓練(Generative pre-training,GPT) 和從語言模型中學得詞嵌入(Embeddings from language models,ELMO)對比效果。其中Trm 表示Transformer,LSTM 表示長短期記憶網絡,Ei 表示輸入,Ti 表示輸出。對比OpenAI GPT,BERT 是雙向的多層自注意力機制連接;就像單向循環神經網絡和雙向循環神經網絡的區別,直覺上來講效果會好一些。對比ELMo,雖然都是雙向,但是目標函數是不同的。

圖2 BERT 模型結構Fig.2 The architecture of BERT
本文的模型整體使用“檢索式對話系統”的思路,以關鍵詞和句子的相似度為指標將測試集的問句與訓練集的問句進行匹配,并取和測試集問句“最相似”的問句的答案作為最終答案輸出。模型設計要點如下:
1)生成句向量
生成句向量由很多種方式,如使用sklearn 詞袋模型和word2vec 模型等,本文選擇了BERT 的簡單模型,調用BERT_serving.client 庫中的BERTClient函數對每個句子進行特征提取,維度為768。

圖3 GPT 模型結構Fig.3 The architecture of GPT

圖4 ELMo 模型結構Fig.4 The architecture of ELMo
2)匹配特殊關鍵詞的數量
由于BERT 模型直接將輸入的句子進行特征提取生成句向量,采用的語料庫不完全是冬奧問答領域的,因此在冬奧會的專業領域特征提取的結果可能不夠準確。為了彌補這一缺陷,實驗在匹配含有測試問句中關鍵詞的訓練問題庫中的問題時加入了優先特殊關鍵詞(人名、地名和時間)。
為了減少運算量并減少問題句式的不同對結果造成的影響,實驗時手動挑選了若干個特殊關鍵詞存在文件里,這些特殊關鍵詞包括人名、地名和時間。在匹配的最開始,對于問句中的每一個關鍵詞,查詢包含它的訓練集句子,比對它和問句之間相同的特殊關鍵詞,并維護一個變量來表示當前和問句的最大特殊關鍵詞匹配數,同時將對應的訓練集問句存儲在列表L 中。如果存在多個和問句的特殊關鍵詞匹配數一樣的句子,那么就會進入下一步的精細選擇:首先根據提問句子中的每一個關鍵詞item,查詢訓練集中包含這個關鍵詞item 的句子的ID,再獲取這個句子的關鍵字數組,然后將這個item 的關鍵詞匹配數置為0。如果這個item 在對應的訓練問句的關鍵字數組里,就繼續判斷該item 是否是特殊關鍵詞,如果是就將它的關鍵詞匹配數加1。統計完之后判斷當前的關鍵詞匹配數是否大于先前維護的最大關鍵詞匹配數,如果的確更大那么就將最大匹配數更新并且清空存儲列表L,將當前句子的ID 存儲到其中。這樣得到的存儲列表L 就是初次選擇的和問句“最像”的句子的集合。
3)取句向量相似度最大的句子作為結果
在初步選擇了特殊關鍵詞匹配度最高的一些句子之后,需要在這些句子中選出和問句“更像”的句子來提供最終的答案。所以需要將問句都轉化為特征向量,然后對特征向量采取一些運算并比較后得到最終的結果,具體步驟為:對于存儲列表L 中每一個句子的ID,得到這個ID 對應的句子的特征向量,與提問句的特征向量一起輸入得分函數計算兩個句子的相似度得分,之后循環統計最大的得分和對應的訓練集句子的ID,然后返回這個句子的ID。在這里本文設計了一個“門檻”來過濾掉無關的句子:如果最大的相似度計算出來都低于70%,那么就認為這個句子不存在答案,返回“暫時沒有合適的答案”。
需要說明的是本文利用余弦函數計算句向量之間的相似度。對于向量來說,最大的相似度就是兩個向量是平行向量,所以整體來說,兩個向量的夾角越小,它就越相似。所以直接使用兩個向量的積除以它們的模長的積來計算它們夾角的余弦值,并以這個余弦值作為兩個句向量之間的相似度。得分函數值也取這個余弦值。
gensim 庫用于從原始的非結構化的文本中,無監督地學習到文本隱層的向量表達。gensim 庫有語料、向量和模型三大概念。語料是gensim 庫輸入一組語句的集合,即為問答對序列。由于漢語自身語言特點,中文句子是由連續的詞和詞組組成,中間沒有空格,為了使機器理解,需要對中文句子進行切分處理,因此在收集語料之后,把中文詞語切分成詞組,本文使用jieba 庫實現此功能。如果要對語句的隱含結構進行推斷,就需要使用適當的數學模型:本文在使用的方法是doc2bow,也就是將語句轉化為詞袋。在詞袋向量中,每個句子被表示成一個向量,代表字典中每個詞出現的次數。例如,給定一個包含[‘2020’,‘冬奧會’,‘舉辦地’,‘金牌’]的字典,語句[‘2020’,‘冬奧會’,‘2020’] 字可以表示成向量[(0,2),(1,1)],表示‘2020’(編號0)出現了2 次、‘冬奧會’(編號1)出現了1 次。在向量化語料后,可以使用各種模型進行訓練,使用模型實質上在兩個向量空間中進行轉換。
TF-IDF 模型中需要計算詞頻(TF)和逆向文檔頻率(IDF),計算方式分別為

在得到TF 與IDF 之后將兩個值相乘就得到了一個詞的TF-IDF 值。某個詞對測試語句的重要性越高,TF-IDF 值就越大。TF-IDF 模型能有效避免常用詞對關鍵詞的影響,提高了關鍵詞與測試語句之間的相關性。
文章使用余弦相似度進行TF-IDF 值的比較。對于訓練集中的每一個問題,可以得到一個TF-IDF 向量,表示為

通過計算兩個向量的夾角余弦值來評估他們的相似度。余弦值的范圍為[?1,1],值越趨近于1,代表兩個向量的方向越接近,也就是相似度越高。之后利用相似度值來檢索最適合的答案。
知識圖譜(Knowledge graph,KG)是一種有向圖。圖中的點代表實體,邊代表關系。一個邊(通常為謂詞)連接兩個實體,分別為頭部實體和尾部實體。這樣一個頭部實體、一個關系、一個尾部實體構成了一個三元組,也被稱為事實。知識圖譜通常由數千萬乃至數十億個事實構成。為了在如此龐大的數據中快速且準確地獲取目標信息,提出了知識圖譜問答。它的目標是把自然語言轉換為結構化查詢,且返回知識圖譜中的實體或謂詞為答案。
本文的基于知識圖譜嵌入的問答系統主要面向于簡單問題。對于簡單問題的定義是:如果一個自然語言問題只涉及知識圖譜中的一個頭部實體和一個謂詞,并以它們的尾部實體作為答案,那么這個問題稱為簡單問題。對于一個簡單問題,首先需要預測他的頭部實體和謂詞,即關系,再在知識圖譜中找到對應的尾部實體,將之做為答案返回。
知識圖譜的嵌入:用(h,l,t) 代表一個三元組,用eh 代表預測頭實體表示,類似的,用et 代表尾實體表示。用Pl 代表一個預測謂詞表示。生成知識圖譜的時候,用(h,l,t)構成高維知識圖譜,為了便于查詢,需要把這個高維知識圖譜轉換為形如(eh,Pl,et)的低維向量。這樣就把高維的知識圖譜嵌入到低維空間,而不會損失信息。
預測關系首先把句子進行分詞,得到標志(token)串,用LSTM 捕捉詞與詞之間的關系,并轉化為向量表達。對每個向量加權后,形成帶權向量。最后把一個標志串的向量相加,形成預測關系表達。
預測實體對于預測實體,需要提前標出哪個位置的詞是實體。然后類似于預測關系,先生成標志串,輸入LSTM,形成向量表達,輸入全連接層,最終輸出每個標志的向量。再根據提前的標注區分是否為實體。
嵌入空間的聯合搜索對于每一個問題,現已經預測了它的謂詞表示和頭部實體表示。如果一個預測頭部實體表示在知識圖譜的三元組中,稱之為候選頭部實體;這個三元組稱之為候選事實。度量這個候選事實的謂詞與謂詞表示的距離,就可以搜素到尾部實體,并將尾部實體作為答案返回。
為了得到問答數據集,我們上網爬取了1924 年以來的冬奧會賽事記錄48 563 條,數據中包含運動員的姓名、性別、年齡、身高、體重、國家、參與奧運會的年份、參加奧運會的項目、獲獎情況等信息,然后通過腳本生成了對應的“提問?回答對”,具體包括:
1)針對每一條冬奧會記錄,生成關于人物、獲獎時間、地點、獲獎項目、獲獎屆別、所屬參賽隊、獎牌情況的單項問答句。冬奧會紀錄共48 563條,生成單項信息問答句共265 757 對。
2) 關于運動員個人情況的所有單項信息問句,如誰是男是女?身高多少?體重多少?是哪個國家的?獲獎牌那年多大年齡?參加過哪屆運動會?獲得過什么獎牌?這些問題還更換了不同的問法,比如詢問運動員的國籍有“運動員是哪個國家的?”和“運動員來自哪里?”兩種不同的問法。
3)生成2 000 對復合統計問答句,如問某國家獲得金牌總數、銀牌總數、銅牌總數是多少?問某人獲得金牌總數、銀牌總數、銅牌總數是多少?問某一地區獲得金牌總數、銀牌總數、銅牌總數是多少?問冬奧會舉行過多少屆?總共產生多少金牌、多少銀牌、多少銅牌?哪個國家獲得獎牌數最多,哪個國家獲得金牌數最多?哪位運動員個人獎牌數最多?哪位運動員個人金牌數最多?問某個國家在某一個項目上獲獎成績是不斷上升還是不斷下降,還是有升有降?
得到的問答對按照9∶1 的比例劃分訓練集和測試集。
考慮到BERT 模型和TDIDF 模型實現的時候是在所有可能的句子中尋找“最像”的句子并且輸出其對應的答句,所以生成的答句應全包含在訓練集中,不會產生語義相同但表達方式不同的答句。因此,只需要將答句輸出與正確答句直接進行對比,如果相同則可接受。為了進行評估,在模型實現后添加對答句的判斷,輸出可接受率。在此理論基礎上,本文實現了測試BERT 模型和TF-IDF 模型實驗結果的腳本。
對于知識圖譜模型,基于標注好的問答對來構建知識圖譜,用其中一部分作為test 和valid 集用于訓練。最后用所有問答對來檢測知識圖譜模型的正確率。
實驗的最后結果統計如表1 所示,這里分別列出每一類問答對的可接受率。

表1 3 種模型對于3 類問題的回答可接受率Table 1 Accuracy of three models for three types of questions %
上述實驗結果表明BERT 模型的整體效果略優于知識圖譜和TD-IDF 模型,BERT 模型對于3 類問題的回答可接受率都超過了96%,知識圖譜和TD-IDF 模型對于復合統計問答對的回答效果不如BERT 模型。
BERT 模型包含兩個預訓練任務:遮蓋部分詞的語言模型(masked language modeling)和下一個句子預測(next sentence prediction)。Masked language modeling 預訓練過程可以看作是完形填空過程,這個過程使得模型在預測一個詞匯時,模型并不知道輸入對應位置的詞匯是不是正確的詞匯,所以模型會更多地根據上下文的信息來預測詞匯,并且具有一定的糾錯能力;Next sentence prediction 與訓練過程可以看作段落重排過程,這使得模型能夠更準確地刻畫語句的語義信息。BERT 模型的這兩個預訓練過程使得模型對于問答對特征向量的提取能夠做得很優秀,提取出的向量都盡可能全面準確地刻畫了輸入文本的整體信息。例如,對于問句“Christine Jacoba Aaftink的身高是多少?”和問句“Christine Jacoba Aaftink有多高?”,這兩個問句雖然提問方式不同,但是使用BERT 模型提取出的特征向量差別很小,也就是說BERT 模型對于提問方式的轉換能夠處理得不錯。再比如對于問句“Christine Jacoba Aaftink參加過哪一年的冬奧會?”,BERT 模型會根據問題中的關鍵詞:“Christine Jacoba Aaftink”“參加”“年”“冬奧會”快速提取出正確的3 個答案:1988冬奧會,1992 冬奧會和1994 冬奧會。由于關鍵詞和特征向量的提取具有代表性,因此對于3 類問答對BERT 模型的實現可接受率都整體較高。但是BERT 模型在訓練中的mask 標記也可能會影響模型表現,因為這個標記在實際預測中不會出現,所以對于個別問題BERT 模型回答的答案可能會有較大的失誤,甚至出現問答不符的現象。另外,BERT 模型結構復雜,復現開銷較大。
TF-IDF 模型是建立在區別文檔有意義的詞語出現頻率一定高的假設上的,但顯然此理論并不是完全正確的,IDF 的簡單結構并不一定能有效地反映單詞的重要程度以及特征詞的分布情況。因此TF-IDF 模型的精度比較受限,在實驗中基于TF-IDF 的問答系統可接受率在很大程度上受限于輸入數據的影響。在輸入數據集有相似問答句時,隨機算法生成的測試集與訓練集可能有很大部分是重疊的,此時進行測試時TF-IDF 模型往往能檢索到訓練集中類似的問句并進行正確輸出,可接受率最高可以達到99.8%。而在沒有重復問答句的數據集中進行測試,訓練集與測試集往往沒有共性,此時可接受率較低,是不可接受的。以實際數據集為例:在生成關于冬奧會記錄的問答對時,對于同一語義的問題生成了許多替換類似表達法的問句,比如對于“Christine Jacoba Aaftink 的身高是多少厘米?”這個問句進行表達法上的替換,生成了“Christine Jacoba Aaftink的身高是多少?”“Christine Jacoba Aaftink 有多高?”等許多同義問句;而這些同義問句都對應著同樣的答案,使用這種問答對數據進行測試就會得到較好的效果。反之,在對于“Christine Jacoba Aaftink 參加過哪一年的冬奧會?”這個問題上我們并沒有進行替換表達法的完善,在這種每個問句語義都獨立的數據集上進行測試,效果就較差。當用于訓練的數據趨于完備時,生成的模型才是可接受的。
相比于上面兩種模型而言,三元組知識圖譜更加貼近實際語言的理解,回答方式有更多的調整空間。比如對于問句“Christine Jacoba Aaftink參加過哪一年的冬奧會?”,在知識圖譜模型中,搜索時會分3 次搜索到3 個實體:1988 冬奧會,1992 冬奧會,1994 冬奧會。我們可以在輸出答案的時候處理為:若識別到關系是 Athlete/參加/Game,則返回的答案形如:“Christine Jacoba Aaftink 參加過:”+“1988 冬奧會”+“1992 冬奧會”+“1994 冬奧會”這樣的結果,更加貼近于理解而不是機械返回已有答案。另外,三元組知識圖譜模型對于同一答案的不同提問方式能夠很方便地復用,例如問句“Christine Jacoba Aaftink 的身高是多少?”和“Christine Jacoba Aaftink 有多高?”,這兩個例子在詢問身高。在三元組知識圖譜模型中,僅需把這兩種問法對應一個relation,就可以復用同一個三元組,節省空間,且能降低不同提問方式帶來的噪聲。但是目前來看,三元組知識圖譜仍然不能擺脫人工標注數據。每個問答對的實體,關系需要人工標注。在預訓練時,想復用同一關系,需要人工把多個關系合并為一個ID。與之相比,TF-IDF 模型只需要問答對而不需要標注,BERT 模型更是想把每一篇文章,作為天生的訓練語料,徹底擺脫人工標注。而且,三元組知識圖譜面對多實體,多關系的問答對和推理類的問答對回答能力弱。如提問形如“xxx 的身高和體重”這樣的問題,往往只能搜索到身高或體重。提問形如“xxx 在某一屆冬奧會上是否獲得獎牌”。盡管知識圖譜中保存了運動員獲得獎品的信息,但很難通過這些信息推理出答案。
本研究旨在形成冬奧會信息問答系統。我們在網上爬取、收集冬奧會相關信息,并處理成冬奧問答數據集。之后基于知識圖譜、TF-IDF 和BERT 模型分別訓練得到3 種問答系統。本文在設計對話系統的基礎上,針對系統回答的可接受度進行實驗,將自1924 年以來的冬奧會數據轉化為問答對形式,在模型上進行訓練,驗證了這些回答的可接受率,對比了3 種方法的特點以及適用場景。總體來講,BERT 模型的整體效果略優于知識圖譜和TDIDF 模型,BERT 模型對于3 類問題的回答可接受率都超過了96%,知識圖譜和TD-IDF 模型對于復合統計問答對的回答效果不如BERT 模型。