郭 輝,王 琲,劉 飛
(1.新疆醫科大學第五附屬醫院,新疆 烏魯木齊 830011;2.新疆維吾爾自治區人民醫院,新疆 烏魯木齊 830001;3.新疆醫科大學圖書館,新疆 烏魯木齊 830017)
自然語言問答系統是一種使用自然語言提問和回答的搜索引擎,其特點是可以利用對問題的語義分析提供給用戶精確簡潔的問題答案。自然語言問答系統是通過人機對話,采用自然語言問答的方式獲取信息的系統,可用于知識工程、信息檢索、專家系統等領域[1]2-4。本文對我國自然語言問答系統的文獻進行調研與分析,文獻調研的數據來源為中國知網(CNKI),選取的文獻時間范圍設定在2000年至2020年,采用文獻計量的方法得出文獻計量分析結果,包括學科領域分布、文獻的年度分布、機構分布、高頻關鍵詞及基于關鍵詞共現的熱點主題,以便了解和掌握我國自然語言問答系統領域的研究現狀,為未來的研究提供一定的理論參考。
利用CNKI 數據庫檢索自然語言問答系統研究文獻。首先將“問答系統”選為主題詞,考慮到“問答技術”“知識問答”“智能問答”也是自然語言處理的一個方向,因此再將“問答技術”“知識問答”“智能問答”也選為主題詞。最終構建出如下檢索式:
主題=(“問答系統”OR“問答技術”OR“知識問答”OR“智能問答”)。
利用上述檢索式在CNKI數據庫中進行檢索,檢索時間為2000 年1 月至2020 年12 月。去除與自然語言問答系統無關的文獻,共得到8 353篇相關文獻。這些文獻的來源有學術期刊、博士學位論文、碩士學位論文、會議論文、報紙全文等多種形式。其中:期刊論文(4 751篇,占56.87%)、學位論文(937篇,占11.65%)。
從學科分布來看,如表1所示,輕工業、醫學、行政、自動化、數字圖書館、電力、園藝和建筑等是自然語言問答系統研究的主要領域。其中計算機軟件學科的研究文獻最多,通過分析文獻內容可知,該領域主要關注于自然語言問答系統的開發和改進研究。

表1 自然語言問答系統發文量學科分布
文獻發表的年度分布情況如圖1 所示,從2000 年開始,自然語言問答系統研究的文獻數量處于波動上升的趨勢,2008年至2013年發文量減少,2013 年至2020 年又持續上升。總體來看,近20年自然語言問答系統的研究文獻數量呈上升趨勢,其年度分布也較為均衡。

圖1 近20年自然語言問答系統發文量
自然語言問答系統的研究機構共有34 個。其中,發文量15 篇及以上的機構如表2 所示。發文量排名前三位機構分別是:哈爾濱工業大學(165篇)、北京郵電大學(96篇)、電子科技大學(57篇)。說明這三所機構在整個自然語言問答系統研究領域中占據重要地位。

表2 自然語言問答系統研究文獻機構分布
關鍵詞是由作者主觀賦予文獻的詞組,以反映文獻的核心內容,是文獻的核心所在。因不同的文獻作者對于關鍵詞的使用不統一,在對關鍵詞進行分析之前,有必要對關鍵詞進行如下規范化處理。
(1)同義詞合并:將表示同義的詞匯合并為一個規范的詞匯。如將“關鍵詞提取”和“關鍵詞抽取”合并為“關鍵詞提取”。
(2)上下位類合并:將下位類合并到上位類,將一些比較零散的特指概念合并到上位類,如將“姓名識別”和“命名實體識別”統一合并為“命名實體識別”。
(3)基本概念剔除:鑒于自然語言、問答系統,問答技術等基本概念無法反映自然語言問答系統的研究熱點及趨勢,本文將這些概念進行剔除。否則因其頻次過高,與其他概念的共現程度過高,會導致結果的分析和判斷出現偏差。
(4)屬性描述整合:當關鍵詞歸屬于某一概念時,將該屬性關鍵詞合并到該概念。如將“問答對質量”合并到“問答對”。
通過以上關鍵詞篩選、整合之后,得到如表3所示的關鍵詞詞頻結果。

表3 自然語言問答系統研究文獻關鍵詞詞頻統計
對于高頻詞的截取,目前尚無統一見解。如果選取關鍵詞范圍太小,則不能反映學科構成情況;如果選取范圍太大,則會給共詞分析帶來不必要的干擾。目前,高頻關鍵詞的截取使用最多的方法是結合研究者的經驗在選詞個數和詞頻高度上平衡[2],如馬費成等人選取了累計詞頻達62%的前69 個關鍵詞來表征我國數字信息資源領域的研究熱點[3],邱均平等人利用集中分散的“二八定律”,選取累計詞頻25.2%的前77個關鍵詞來表征我國圖書館學近十年的研究熱點[4],李武和董偉則選取了頻次不小于5的46個關鍵詞來代表我國開放存取研究的主題[5]。本研究延用此方法,選取詞頻在20 及以上的47 個高頻關鍵詞進行研究熱點分析,這些關鍵詞基本上體現了自然語言問答系統領域的核心研究主題,如表4所示。

表4 自然語言問答系統研究文獻的高頻關鍵詞統計(部分)
如果兩個詞在眾多文獻中共現的頻次越高,則說明它們之間的關系越密切。揭示高頻關鍵詞之間的關系,則需要統計分析它們在同一篇文獻中共現的次數及規律,即為共詞分析[6]。通過對文獻中這種詞對共現的量化分析,能夠初步揭示研究主題之間的關聯,進一步發現學科熱點。因此,可考慮通過構建這些高頻關鍵詞的共現矩陣來找出自然語言問答系統研究領域的核心詞匯,通過對這些詞匯進行理解和表征,能夠更清晰地理解該研究領域研究熱點之間的關系。上文中表4 所統計出來的47個高頻關鍵詞基本上涵蓋了自然語言問答系統研究的主要方向,能夠基本反映出該領域的研究熱點。對這47個高頻詞的共現次數進行統計,構建出高頻關鍵詞共現矩陣,表5所示為部分關鍵詞(10個)構成的共現矩陣。

表5 自然語言問答系統研究文獻關鍵詞共現矩陣(部分)
由于表5 中共現矩陣中的關鍵詞兩兩共現詞頻是絕對詞頻,無法客觀反映出關鍵詞之間的依賴程度。本研究對詞頻進行包容化處理,將絕對詞頻轉化為相對詞頻,以明確關鍵詞之間的緊密聯系程度。在目前研究中,包容化處理的方法主要有包容指數法、臨近指數法、相互包容系數法等[1]10-16。目前使用較廣泛的是Ochiia 系數法,公式為:

其中,Cij表示詞i與詞j在文獻集合中的共現次數,Ci表示詞i的出現次數,Cj表示詞j的出現次數,Oij是經包容化處理后的相對共現頻率。經包容化處理后,使用絕對詞頻的共現矩陣轉換為使用相對詞頻的相關矩陣,如表6所示。在相關矩陣中,數值大小反映關鍵詞間的相關程度,數值越大,相關性越強。

表6 自然語言問答系統研究文獻關鍵詞相關矩陣(部分)
由于相關矩陣中的0值過多,統計時容易造成誤差過大,為了方便進一步處理,用1與相關矩陣中的全部數據進行相減(相異矩陣=1-相似矩陣),得到表示兩詞間相依程度的相異矩陣,如表7所示。相異矩陣中的數據表示不相似數據,數值越大表明關鍵詞之間的關系越遠,相關度越差;反之,數值越小表明關鍵詞之間的關系越近,相關度越高。

表7 自然語言問答系統領域關鍵詞相異矩陣(部分)
共詞聚類分析是共詞分析中常用的一種方法,在共詞分析的基礎上,以詞的共現頻率為研究對象,利用聚類方法,把眾多分析對象之間復雜的共詞網狀關系簡化成書目相對較少的類團之間的關系[7]。通過聚類分析,能夠發現關系緊密的關鍵詞構成的相對獨立的類團,這些類團能夠反映學科領域的研究主題。
層次聚類是聚類分析中的經典方法。本文采用SPSS 統計軟件,利用高頻關鍵詞共現的相異矩陣進行自下而上的層次化聚類分析,在SPSS 中選擇離差平方和聚類方法(Ward 法),距離測度選擇區間數據類型(count)中的Euclidean 方法。聚類后得到5大類,如表8所示。

表8 自然語言問答系統研究文獻關鍵詞聚類結果
經過聚類分析,目前自然語言問答系統的研究主題主要有問題分類、答案抽取、信息檢索、推理、機器學習等五大類。其中,問題分類主要涉及句法分析技術、命名實體識別、句子的語義分析以及分類方法,如支持向量機、隱馬爾科夫模型等;答案抽取主要涉及文本分析的技術,如句子相似度、指代消解、特征提取等;信息檢索主要涉及檢索的方式和支持有效檢索的技術,如文本檢索、語義角色標注和語義相似度等;推理主要與知識庫、推理方式等關鍵詞共現,如與知識庫相關的關鍵詞有“語料庫”“知識庫”“本體”,與推理方式相關的關鍵詞有“基于規則的推理”;機器學習類別主要涉及機器學習的技術,如貝葉斯、條件隨機場等。
通過對CNKI 數據庫中2000—2020 年自然語言問答系統領域中的碩博論文整理分析,開發應用的重要文獻主要集中于以下八大領域。
(1)電子商務領域。自然語言問答系統在該領域中的應用主要有:在問句理解方面,中文領域基于模板自動生成的語義解析方法[8];在知識庫構建方面,知識表示模型的改進以及知識自動融合和補全的方法;在商品咨詢方面,將中文自然語言查詢轉換為基于SPARQL 查詢的方法[9]。這些問答系統的改進方法應用在電子商務領域可提高了商品的查準率和查全率。
(2)財經領域。自然語言問答系統在財經領域的應用有:以維基百科為知識來源構建金融領域的自動問答系統[10],識別財經領域中的股票名稱、股票代碼等命名實體的問答系統[11],以問句后續解析為主的查詢子系統[12]、問句解析子系統[13],面向金融領域的網友問答子系統和自動問答子系統[14]以及企業問答系統[15]。
(3)醫療領域。自然語言問答系統在醫療領域中的應用有基于多次推斷的自動化醫療疾病診斷系統[16]、中草藥問答系統[17]、基于中草藥語義網的自動問答系統[18]、基于垂直領域問答的醫療健康領域問答系統[19]、孕婦保健智能語音手機問答系統[20]以及基于疾病知識圖譜的問答系統[21]。
(4)旅游領域。自然語言問答系統在旅游業領域的應用有:維護用戶多次輸入文本的上下相關性的問答系統[22],由模式匹配、句子相似度計算、旅游景點推薦、信息檢索和答案獲取等模塊組成的面向中文旅游領域的問答系統[23],基于本體知識庫模型,并采用SPARQL 查詢語言和Jena包來完成對知識的推理和答案的抽取的問答系統[24]。
(5)教育領域。自然語言問答系統在教育領域的應用有:構建以某一門課程為知識庫或本體的問答系統,如基于互聯網資源的本體自動構建技術,實現了《C程序設計》課程本體的自動構建并應用于答疑系統[25];以《計算機操作系統》學科的領域知識庫為基礎設計自動問答系統[26];高考地理在線解答系統[27];自動解答高中地理因果推理類試題問題的系統[28];基于中國歷史人物(基于Android 平臺)的自動問答系統[29];基于《論語》的問答系統[30];入學咨詢的中文問答系統[31];面向國家科技計劃項目申報信息咨詢的自動問答原型系統[32];基于《數據庫系統原理》課程知識庫的中文問答系統[33];虛擬學術社區[34]。
(6)人工智能領域。問答系統在人工智能領域的應用有人機情感交互行為一致性協同控制模型[35]、面向智能家居的交互系統[36]、基于大學計算機系教師信息的問答系統[37]、采筑智能問答平臺[38]以及視覺問答系統。
(7)社區問答領域。自然語言問答系統在社區問答系統領域的應用主要有基于社區問答系統(CQA)的答案摘要系統[39]、社區問答檢索系統[40]、基于全信息的社區問答原型系統[41]。
(8)其他領域。自然語言問答系統還應用在圖書館領域[42]、農業領域[43]、數字人文領域[44]等。
自然語言問答系統是一種基于自然語言處理的應用系統。該系統包括自然語言處理及信息檢索和答案抽取等方面的基本技術,如詞法分析、句法分析、文本檢索、語義解析、答案抽取等。目前,問題回答系統的研究已經成為一個熱點,它是信息檢索和自然語言處理的交叉研究方向。本文通過對現有自然語言問答系統的研究現狀進行梳理,通過分析該領域的研究熱點,為新的研究角度提供方向上的理論支持。本文通過文獻計量的方法對我國自然語言問答系統研究的學科領域分布、文獻的年度分布、機構分布、高頻關鍵詞及基于關鍵詞共現的熱點主題進行了分析。
從學術方面看,分析結果表明計算機軟件及其應用學科是自然語言問答系統的主要所屬學科,哈爾濱工業大學是該領域研究的領軍機構,自然語言問答系統的研究主題包括問題分類、答案抽取、信息檢索、推理以及機器學習等五大類。研究的核心主要是語言以及文本,語義、句法等研究的基礎仍然要依賴于語法、語義的研究。自然語言處理涉及計算機科學、人工智能以及語言學等多種學科,學科之間的交叉融合對于自然語言處理的發展起到良好的促進作用。同時,自然語言處理的發展也促進了其他學科的發展,推動部分傳統學科與自然語言相結合,促進其他學科的不斷創新發展。提升計算機處理語言的能力,已經成為人們未來研究的焦點。
從目前的應用角度看,自然語言問答系統已經應用到諸多領域,其應用領域主要有電子商務、財經、醫療、旅游、教育、人工智能、社區問答以及其他領域。自然語言處理的廣泛應用的核心在于準確地理解語言文本,而理解文本的難點不僅僅需要語法邏輯的正確,更重要的還需要依賴于豐富的知識庫,兩者同時具備才能夠準確地對文本進行理解和分析。隨著技術的發展,各行各業對自然語言處理的需要逐漸增加并且對其準確性要求也更高,如在一些銀行或醫學等領域對自然語言處理的需要和要求都很高。其專業化服務是趨勢也是挑戰,行業的不同,依賴的專業庫也不同,而專業庫的構建工作是一項耗時耗力的工作,也是目前其發展的一個重點難點。未來可以考慮借助一些現有的顯性結構化知識,來理解知識庫設計到的語言成分之間的關系,逐漸走向自動化構建知識庫,減輕人工的工作量。
通過以上分析可發現,雖然目前自然語言問答系統領域已有大量研究,無論是學術界還是產業界,提高計算機語言處理的準確性等能力一直是大家關注的焦點。但自然語言問答系統在中文處理方面的精確率上的處理技術研究還不夠成熟,如分詞、實體識別、外來語識別和一詞多義等,導致大部分問答系統的準確率還比較低,對文本的深層語義理解還不夠準確,無法真正地理解自然語言問題。因此,未來的研究可以是自然語言處理技術,從而推動自然語言問答系統在中文處理研究的進一步發展。可借鑒Google推出的一種深入探索自然語言理解的測試機平臺,即首先讓計算機對某個文章進行理解,再由人們對計算機進行提問測試其理解能力和準確性能。