賀佳 杜建強 聶斌 熊旺平 羅計根
摘 要:智能問答系統可以快速、準確地為用戶提供信息服務,是自然語言處理領域的備受關注的研究方向。在醫(yī)學知識服務領域,也具有很好的應用前景和發(fā)展空間。論文首先簡述了醫(yī)學領域智能問答系統的研究情況,其次就醫(yī)學智能問答系統中的問題分析、信息檢索、答案抽取三個組成部分及其關鍵技術進行了分別闡述;最后對其在中醫(yī)方面的應用進行了闡述,并對醫(yī)學智能問答系統的進一步發(fā)展提出了展望。
關鍵詞:醫(yī)學領域;智能問答系統;中醫(yī)藥
中圖分類號:TP391 文獻標識碼:A DOI:10.3969/j.issn.1006-1959.2018.14.007
文章編號:1006-1959(2018)14-0016-04
Abstract:Intelligent question-answering system can provide information service to users quickly and accurately,which is the research direction of natural language processing.In the field of medical knowledge service,it also has a good application prospect and development space.Firstly,this paper briefly introduces the research situation of intelligent question-answering system in medical field, and then expounds the three components and key technologies of question analysis,information retrieval and answer extraction in medical intelligent question answering system.Finally,its application in traditional Chinese medicine is expounded,and the further development of medical intelligent question-answering system is prospected.
Key words:Medical field;Intelligent question-answering system;Traditional Chinese medicine
隨著科學技術的發(fā)展,互聯網應用開始普及于人類生活的方方面面,健康醫(yī)療與互聯網相結合是醫(yī)學信息化發(fā)展的必然趨勢。醫(yī)學信息化的發(fā)展影響著人們對健康知識的獲取方式。目前,對醫(yī)學相關知識的搜索主要通過傳統搜索引擎,例如百度百科、360搜索等,這種搜索方式一般只需用戶輸入關鍵字,便會返回大量的網頁。然而這些方式難以滿足用戶的需求:一方面系統不能返回給用戶最直接的答案,而是一些與問題相關的網頁或者文檔,用戶需要再次從這些網頁或者文檔中尋找最終想要的答案。尤其對于非醫(yī)學專業(yè)人員,他們對醫(yī)學知識了解不深,尋找答案會更加困難。另一方面答案質量參差不齊,用戶在查找、獲取、理解方面會存在許多困難。智能問答系統不僅可以允許用戶以自然語言方式提問,還能返回給用戶準確、簡潔的答案,不需要用戶再次篩選合適的答案。將智能問答系統應用于醫(yī)學領域,能夠進一步提高人們獲取健康知識的便捷性、準確性。
1智能問答系統在醫(yī)學領域研究概況
1.1發(fā)展歷程 智能問答系統的發(fā)展可追溯到圖靈測試時期,其主要測試機器是否具備人類智能。20世紀60年代,由于計算、數據資源有限,主要是限定領域智能問答系統發(fā)展,比如專家系統。這些系統中搜索答案的數據集來自于專家手工編寫。90年代以來,自然語言處理技術的興起和語義信息的應用,以及隨著網上的資源越來越豐富,智能問答系統得到了快速發(fā)展[1]。尤其在1999年國際文本檢索會議(簡稱TREC)引入了問答系統評測專項(簡稱QA Track)后,QA Track成為了最受歡迎的TREC評測項目之一,智能問答系統的發(fā)展速度越來越快。相比之下,醫(yī)學領域智能問答系統研究起步較晚,當前尚處于初步發(fā)展階段[2]。
1.2研究現狀
1.2.1國外研究情況說明 國外在醫(yī)學領域智能問答系統研究中已有了初步發(fā)展,國外的醫(yī)學智能問答系統,見表1。從面向的對象來看,MedQA、AskHERMES、MEANS、AskCuebee主要針對醫(yī)學專業(yè)人員,如AskCuebee是一款用于寄生蟲學家獲取與寄生蟲有關知識的系統。mnquireMe則是針對大眾群體,通過問題-答案對返回給用戶想要的信息。從使用技術的不同來看,可以分為基于傳統檢索技術的問答系統和基于語義技術的問答系統。基于傳統檢索技術的問答系統有MedQA、AskHERMES、mnquireMe,基于語義技術的問答系統有MEANS、AskCuebee。基于傳統檢索技術的問答系統主要采用關鍵詞匹配技術,這種方法的問答系統對于抽取的答案質量有一定局限性。基于語義技術的問答系統主要采用語義分析法對問題和抽取的答案進行分析,不再只是單純的關鍵詞匹配,而是從語義層面上對問題和答案進行了分析思考,答案質量有所提高。
1.2.2國內研究情況說明 國內智能問答系統起步相對較晚。HestiaQA是由Zhang等人[8]針對疾病咨詢所做的中文問答系統。中科院計算研究所研究過一款醫(yī)學檢索系統[9],這個系統采用深度問答方法對問題進行分析以及答案的抽取。由趙欣[10]發(fā)明的基于疾病圈的疾病自診知識問答系統主要為了大眾提供疾病知識的科學依據。其主要研究步驟是:建立疾病圈,根據疾病的不同建立不同的疾病子圈,系統從疾病圈抽取出一些問題用于該圈子的會員回答,另一方面,會員可以向題庫中添加問題,由專家審核確認。運用此方法,疾病圈即知識庫會越來越大。在社區(qū)類問答系統方面,國內出現了一些比較有名的醫(yī)學信息服務類網站,如尋醫(yī)問藥網,快速問醫(yī)生等[11,12]。這類網站雖然允許用戶通過各種形式提問問題,但是返回給用戶的答案較多,對于非專業(yè)人員,其獲取準確答案較為困難。
2醫(yī)學智能問答系統組成
一般來說,智能問答系統主要由三部分組成,分別是:問句分析、信息檢索、答案抽取[13]。系統對用戶提出的問題進行分析,將問題分析后所得的信息給信息檢索環(huán)節(jié),檢索出相關文檔或段落,利用答案抽取技術將最終答案返回給用戶,見圖1。
2.1問題分析 問題分析指將用戶語言轉化為計算機能夠識別的語言。問題分析是智能問答系統首要環(huán)節(jié),這一部分所用技術的成熟度影響著候選答案的精度。問題分析部分主要包括對問句進行中文分詞、詞性標注、句法分析,為了能夠快速準確找到答案,還要對問句進行分類,最后進行關鍵詞提取和拓展。其中,對于分詞、詞性標注等,可以采用哈工大社會計算與信息檢索研究中心開發(fā)的語言技術平臺。對于問句分類,常采用支持向量機。關鍵詞提取和拓展,一般用統計方法,其中含詞頻、共現頻率等統計信息[14]。
李冬梅等[15]采用淺層句法分析和最大熵模型的語義分析算法對問題進行分析,利用構建的生物醫(yī)學領域本體知識庫進行SPARQL查詢,進而實現結果的輸出。劉凱等人[16]通過將條件隨機場、隱馬爾可夫模型、最大熵馬爾可夫模型用于中醫(yī)病歷命名實體抽取實驗,結果證實了條件隨機場相比于其它兩種方法具有較高的準確率和召回率。張芳芳等人[17]以糖尿病患者的飲食問題為例,采用支持向量機模型對問題進行分類,為深度自動問答系統提供了重要支撐。孟洪宇等[18]采用基于條件隨機場方法,通過字本身、詞性、詞邊界、術語類別標注的多特征融合模型對《傷寒論》中的術語進行了識別。
2.2信息檢索 信息檢索旨在縮小答案存在的范圍。該部分根據用戶的問題從文檔、網頁或者知識庫中提取可能相關的候選答案,候選答案可以是文檔,也可以是段落,基于知識圖譜的知識庫最終得到的是擁有實體和實體關系鏈接的一個知識庫子圖。
在基于傳統檢索技術的醫(yī)學問答系統中主要采用關鍵詞匹配技術,。一般對于文檔,可以使用檢索模型如布爾模型、向量空間模型、語言模型等[19]檢索候選答案。基于語義分析技術的醫(yī)學問答系統中主要將問題的分析結果轉化為SPARQL等查詢語句,然后與本體知識庫匹配。
Asiaee等人[7]建立的知識庫以RDF三元組作為存儲形式,通過SPARQL語句進行信息檢索。Wong等人[5]利用關鍵詞匹配技術從雅虎問答對中選取最貼近的問答對作為候選答案。
2.3答案抽取 答案抽取即從候選答案中抽出最佳答案返回給用戶。一般的答案抽取流程是:對候選文檔或段落進行切分并形成候選答案集,根據問題類型對候選答案集進一步處理,排除冗余的句子,通過相似度計算對候選句子進行排序,對相似度高的句子再進行重新分析,選取出最佳答案。答案抽取的效果會直接影響返回給用戶答案的好壞。
答案抽取環(huán)節(jié),可以通過基于表層特征的答案提取方法、關系抽取答案的方法、模式匹配抽取、統計模型抽取答案方法[19]等完成。其中關系抽取答案的方法,可以改進表層特征的答案抽取。模式匹配抽取中通過機器學習方法得到的模式比手工模式要好很多。
潘昊杰等[20]列出與提取的生物醫(yī)學相關概念所屬的五個數據庫鏈接,通過得分排名得出最終答案。劉寶艷[21]先通過語義相關性計算等方法找到候選答案的中心詞,再利用相似度計算去掉重復段落,最后結合命名實體標注結果提取出最終答案。溫思琦[22]通過構建中醫(yī)冠心病本體來增強自然語言處理技術對中醫(yī)術語的處理能力,同時采用關鍵詞模糊匹配算法和神經網絡詞向量的相似度算法以提升問答系統的靈活性。
3智能問答系統在中醫(yī)方面的應用
中醫(yī)學是中國傳統文化中最寶貴財富之一,其中蘊含了豐富的醫(yī)學哲理。面對飛速發(fā)展的科學技術,中醫(yī)需要走出國門、接受全球的認可,中醫(yī)現代化必不可少。自1958年至今,中醫(yī)現代化研究已開展了50多年[23]。將智能問答系統運用于中醫(yī)領域,推動了“互聯網+中醫(yī)藥”的產業(yè)鏈發(fā)展模式[24],促進了中醫(yī)現代化的發(fā)展。中醫(yī)智能問答系統的發(fā)展為中醫(yī)行業(yè)的創(chuàng)新和發(fā)展提供了技術支撐,以人為中心的健康管理模式越來越貼近現實。
實現中醫(yī)智能問答系統,關鍵是對于中醫(yī)知識的解析,即系統對用戶問題和中醫(yī)文本能夠正確理解和分析。然而中醫(yī)知識與中文詞語有一定區(qū)別,主要包括:①中醫(yī)文本多由古漢語表示,而古代漢語常常具有通假字現象且古文之間關系復雜。②中醫(yī)古文中也可能含有醫(yī)家寫錯的文字。③中醫(yī)知識也具有中文詞語特有的一詞多義、同義詞、歧義詞等比較棘手的文法現象。這些都對中醫(yī)問答系統造成了特別大的困擾。研究者們更多研究的是中醫(yī)的實體識別,這也是實現中醫(yī)智能問答系統最基本的環(huán)節(jié)。
中醫(yī)智能問答系統已經有了一些發(fā)展。中國工程科技知識中心[25]在2012年啟動了中草藥專業(yè)知識服務系統子課題[26]的建設,其主要組成部分包含了對智能問答系統的建設。丁宏娟等[27]介紹的計算機中醫(yī)問診系統主要針對臨床決策,根據該系統給出的問診初步判斷,臨床醫(yī)生可以有計劃有目的的采集信息。計算機中醫(yī)問診系統的使用可以節(jié)省醫(yī)生決策時間并提高辨證的準確率。陳程等[28]將中醫(yī)藥知識與知識圖譜以及智能問答系統相結合,系統對用戶的問題采用自然語言處理技術進行分析,在交互界面中借用知識圖譜展示中醫(yī)藥知識。
4總結
智能問答系統應用于醫(yī)學領域,使得醫(yī)學信息資源的利用率有所提高,同時也為醫(yī)學工作者提供了巨大的空間和選擇余地[28]。另外,醫(yī)學智能問答系統的發(fā)展也使得傳統醫(yī)學信息搜索中以疾病為中心的服務理念有所變化:以人為本的服務理念越來越實際。
醫(yī)學智能問答系統的發(fā)展,可以從以下三個方面加以完善:①醫(yī)學智能問答系統需要面向普通老百姓,而不單單只是專業(yè)醫(yī)術工作者,這在一定程度上會為“就醫(yī)難、看病難”貢獻一份力量。②國內醫(yī)學名詞術語標準化還存有缺乏整體規(guī)劃、權威術語標準數量不足、以及更新不及時等問題。盡力使醫(yī)學專業(yè)詞匯統一標準化,這不僅會降低智能問答系統中本體構建的難度,也會增強答案的準確性。③借助快速發(fā)展的自然語言處理技術和深度學習技術,尋找到適合解決醫(yī)學領域智能問答系統的工具和方法,使醫(yī)學智能問答系統更加趨向于從語義層面深度挖掘理解用戶的問題。
參考文獻:
[1]康海燕,李飛娟,蘇文杰.基于問句表征的web智能問答系統[J].北京信息科技大學學報(自然科學版),2011,26(1):36-41.
[2]張芳芳,馬敬東,王小賢,等.國外醫(yī)學領域自動問答系統研究現狀及啟示[J].醫(yī)學信息學雜志,2017,38(3):2-6.
[3]Lee M,Cimino J,Zhu HR,et al.Beyond information retrieval medical question answering[J].Amia Annu Symp Proc,2006:469-473.
[4]Cao Y,Liu F,Simpson P,et al.AskHERMES: An online question answering system for complex clinical questions[J].Journal of Biomedical Informatics,2011,44(2):277-288.
[5]Wong W,Thangarajah J,Lin P.Contextual question answering for the health domain[M].John Wiley&Sons;,Inc.2012.
[6]Abacha AB,Zweigenbaum P.MEANS:A medical question-answering system combining NLP techniques and semantic Web technologies[J].Information Processing&Management;,2015,51(5):570-594.
[7]Asiaee A H,Minning T,Doshi P,et al.A framework for ontology-based question answering with application to parasite immunology[J].Journal of Biomedical Semantics,6,1(2015-07-17), 2015,6(1):31.
[8]Zhang H,Zhu L,Xu S,et al.XML-Based Document Retrieval in Chinese Diseases Question Answering System[M]. Mobile,Ubiquitous,and Intelligent Computing.Springer Berlin Heidelberg,2014:211-217.
[9]吉宗誠,徐安瑩,徐飛,等.醫(yī)療領域深度問答方法及醫(yī)學檢索系統,CN102663129A[P].2012.
[10]趙欣.基于疾病圈的疾病自診知識問答方法及系統:, CN105678065A[P].2016.
[11]Ravichandran D,Hovy E.Lerning surface text patterns for a question answering system[C]//Meeting of the Association for Computational Linguistics,Proceedings of the Conference.2002:41-47.
[12]Echihabi A,Marcu D.A noisy-channel approach to question answering[C]//Meeting on Association for Computational Linguistics.Association for Computational Linguistics.2003:16-23.
[13]張寧,朱禮軍.中文問答系統問句分析研究綜述[J].情報工程,2016,2(1):32-42.
[14]王煦祥.面向問答的問句關鍵詞提取技術研究[D].哈爾濱工業(yè)大學,2016.
[15]李冬梅,張琪,王璇,等.基于淺層句法分析和最大熵的問句語義分析[J].計算機科學與探索,2017,11(8):1288-1295.
[16]劉凱,周雪忠,于劍,等.基于條件隨機場的中醫(yī)臨床病歷命名實體抽取[J].計算機工程,2014(9):312-316.
[17]張芳芳,馬敬東,王小賢,等.面向深度自動問答的糖尿病飲食問題分類[J].醫(yī)學信息學雜志,2017,38(3):12-16.
[18]孟洪宇,謝晴宇,常虹,等.基于條件隨機場的《傷寒論》中醫(yī)術語自動識別[J].北京中醫(yī)藥大學學報,2015,38(9):587-590.
[19]毛先領,李曉明.問答系統研究綜述[J].計算機科學與探索, 2012,6(3):193-207.
[20]潘昊杰,周芳,張博文,等.生物醫(yī)學文獻檢索方法與問答系統[J].情報工程,2016,2(5):50-57.
[21]劉寶艷.面向生物醫(yī)學領域的問答系統的研究與實現[D]. 大連理工大學,2007.
[22]溫思琦.基于本體的中醫(yī)冠心病自動問答系統的設計與實現[D].沈陽工業(yè)大學,2017.
[23]楊云松.關于中醫(yī)現代化及傳統中醫(yī)未來發(fā)展的思考[J]. 中華中醫(yī)藥雜志,2017(3):920-922.
[24]陳靜鋒,郭崇慧,魏偉.“互聯網+中醫(yī)藥”:重構中醫(yī)藥全產業(yè)鏈發(fā)展模式[J].中國軟科學,2016(6):26-38.
[25]謝友柏.基于互聯網的設計知識服務研究——分析中國工程科技知識中心(CKCEST)的功能[J].中國機械工程,2017,28(6):631-641.
[26]中國工程科技知識中心中草藥專業(yè)知識服務系統建設專家咨詢會在浙江中醫(yī)藥大學召開[J].浙江中醫(yī)藥大學學報,2014,38(06):832.
[27]丁宏娟,何建成.計算機中醫(yī)問診系統的臨床驗證研究[J]. 遼寧中醫(yī)雜志,2010(11):2138-2139.
[28]陳程,翟潔,秦錦玉,等.基于中醫(yī)藥知識圖譜的智能問答技術研究[J].中國新通信,2018,20(02):204-207.
收稿日期:2018-4-11;修回日期:2018-4-25
編輯/成森