陸森 徐霄玲 陳園園 趙逸凡 劉婷 葉萍 韓寶三



摘要:將人工智能技術應用于醫學知識問答系統構建,幫助患者更準確性、更有針對性地認識疾病。建立標準化醫學知識問答數據庫,并通過醫院門診收集患者問題,利用SiameseLSTM獲取問題間的相似度,將非標準化問題納入問答系統,通過小程序完成問答系統與用戶之間的交互,并選取100位門診患者進行程序回答測試。程序實際測試的回答有效率為82%,無效率為18%,對于內容實質相似的問題回答準確。目前為止,程序運行的準確性處于較高水平,有效率達到82%,可以很好地解答實質相似、問法不同的患者提問。今后,有望通過進一步的數據擴充及程序訓練,給患者提供正確的相關醫學知識,進而提高就醫效率,減緩臨床壓力,緩和醫患關系,提高患者就醫滿意度。
關鍵詞:人工智能;就醫效率;知識問答系統
DoI:10.11907/rjd k.191242
中圖分類號:TP303 文獻標識碼:A 文章編號:1672-7800(2019)012-0065-04
0引言
伴隨國家政策的推進、互聯網技術的普及,以及居民物質、精神生活的日益富足,人們對健康的關注持續增加,我國互聯網醫療產業開始高速發展。它以互聯網為載體,利用云計算、大數據等現代信息技術手段搭建多種多樣的智能化信息應用平臺,提供健康教育、電子健康檔案、疾病風險評測、遠程會診治療、在線疾病咨詢等多種形式的健康醫療管理服務。其中,人工智能技術(Artificial Intelli-gence,AI)應用于互聯網醫療頗具發展前景。其在醫療領域已有諸多應用場景,包括醫療機器人、輔助診療、專家系統、醫學影像等,已成為醫療領域變革的重要力量之一。以醫學影像為例,對一份影像圖片的醫學診斷,涉及拍攝影像工具的準確度、分辨率,并受讀片醫生主觀經驗影響。在巨大的門診患者數量面前,影像學專業人員數量缺乏、人工讀片時間較長都會嚴重影響患者就醫效率,而將人工智能技術應用于影像學,借助計算機對影像數據的精確判斷,迅速辨別影像異常,并進行所攝部位的三維重建,通過設定對應于人工智能的醫學判斷標準,將極大提高讀片效率。配合深度學習算法,將正常人體組織與異常組織加以區分,已有學者將其應用于判斷肺部正常組織與腫瘤組織,準確度可達89.2%。
現代醫療環境下,就醫效率一直是存在于患者與醫生之間的一大矛盾點。人口老齡化問題突出,慢性病患者數量不斷增大,而相對的醫療資源始終處于緊缺狀態,大醫院始終人滿為患,不少醫院患者的就醫效率始終處于較低水平。分析其原因在于:①醫療資源緊缺,為了醫生接診的幾分鐘時間,患者往往需要花幾十倍的時間等待;②在有限時間內,為了診斷的準確性,醫生需要了解病人的完整病情,但由于醫療體系的專業性,患者往往無法正確表達醫生所需要的病情描述,甚至由于緊張,會有一些失實病情從患者口中敘述出來,造成誤診誤判;③就診過程中,醫生詳細解答患者疑問,但出于情緒緊張或者醫學知識的專業性,患者在就診時始終無法理解醫生所說,內心始終存有疑慮,這就會出現就診過程中患者反復咨詢醫生同一個問題,或者就診結束后患者的種種疑慮依舊存在,嚴重影響就診滿意度;④醫療信息遍布網絡,任何年齡階段的患者均會在互聯網上受各種醫療信息影響,而其中,很多醫療信息是商家為推銷產品、服務而編造的,非專業人士無法判別其正確性,帶著這些混雜信息的患者到醫院就醫,面對就診醫生的診斷,難免會不知所措,甚至會發生醫患矛盾。這些都是影響就醫效率的重要現實因素。
目前,互聯網上對于醫學的問答主要以谷歌、百度等大型搜索引擎為主,用戶只需輸入感興趣疾病的部分關鍵詞,即可得到關于該疾病的大量介紹與應用數據,但通過這種方法,用戶往往會“迷失”于茫茫信息中,無法判斷相關性與正確性;也有學者以搜索引擎的數據為基礎,依照不同檢索技術與問題分析方法,設計準確性更佳的程序,但數據量巨大依舊使得非專業用戶無法獲得最準確的信息。
基于上述分析,筆者所在團隊設計了一款基于人工智能技術,以手機APP、微信公眾號和小程序為載體的AI醫學知識問答程序,通過臨床門診訓練,不斷擴充數據庫,提高問答針對性,對實質相同、問法不同的提問提供準確的回答,旨在幫助患者在醫院就診前后,更準確地了解涉及自身健康狀態或疾病的相關醫學知識,幫助醫生及患者更有針對性地進行醫療就診,減少不良情緒與矛盾產生,進而提高就醫效率。
1相關技術
該AI問答程序當前數據來源于上海交通大學醫學院附屬新華醫院普通外科門診,以及上海交通大學醫學院附屬國際和平婦幼保健院乳腺外科門診。每個數據樣本以問答對為形式。問題在患者就診時收集,醫生對患者所提問題加以人工回答并標注。在數據集構建上力求真實準確,為模型訓練提供可靠的數據支撐。
技術實現可分為3個階段:①為已經標準化的問答對建立索引,方便查找;②額外收集非標準問題,通過求取與標準問題的相似度,獲取相關標準答案,目前主要使用孿生神經網絡(Siamese LSTM)獲得兩個問題之間的相似度;③依托小程序,最終完成問答系統與患者之間的交互。
Siamese LSTMtm在2016年被提出,由于在計算語義相似度方面表現不錯,現已廣泛應用于自然語言處理。Sia-mese LSTM神經網絡由兩個完全相同的LSTM組成,LSTM之間共享權值。其中LSTM(Long Short-Term Memory,長短時記憶網絡)是一種時間遞歸神經網絡,能解決時間步長大時梯度消失的問題,捕捉長距離依賴,目前常用于句子和篇章級別的自然語言處理。LSTM通過3個門結構管理記憶單元狀態,分別為輸入門、遺忘門和輸出門。輸出門決定哪些信息保留,遺忘門決定遺忘哪些信息,有了輸人門和遺忘門就能將單元狀態更新,并通過輸出門輸出,如圖1所示。
分別將標準與非標準問題對分詞,并通過查表方式將每個中文單詞對應到預訓練好的詞向量Xi;將詞向量構成的句子輸入到LSTM中,其中左側代表非標準問題,右側代表標準問題;將兩個LSTM各自最后一個隱藏狀態作為輸入問題的語義信息,并利用打分函數e-x求出兩者語義信息相似程度,取相似度高的標準問題答案作為非標準問題答案。
2使用結果
以當天患者門診就診時間為選擇順序,共選取100例門診患者的問題,對程序進行測試,測試情況如圖3所示。其中,圖3(a)與圖3(b)展示了不同的提問問題,但程序給出了相同的答案,分析原因在于兩位病人的提問,實質上均表達了患者需要了解乳腺增生的飲食注意事項,故程序給出的答案均符合所對應的提問,可見程序的識別準確性較好;圖3(c)中,患者對乳腺影像學上的“鈣化”這一描述進行了提問,程序很詳細地解答了前半部分問題:“鈣化要緊嗎”,而對于后半部分患者的提問,程序未給出詳細解答,分析原因可能是程序未能完整識別該提問,或者是由于數據庫對“鈣化”這一解釋的缺失。
以程序回答內容與患者所提問題的相關性進行分類,I類:回答內容完全符合;II類:回答內容大致符合;III類:回答內容僅部分相關;Iv類:回答內容少量相關或不相關。將I、II類判定為有效回答,III、Iv類判定為無效回答。圖3(a)、圖3(b)均滿足I類相關性,圖3(c)滿足II類相關性。其余測試結果見表1,I類占比62%,II類占比20%,III類占比13%,Iv類占比5%,有效回答率為82%,無效回答率為18%。結合圖3與表l,目前為止,程序運行的正確性與準確性均處于較高水平,可以很好地解答內容實質相似問題。
3結語
人工智能技術的迅猛發展,掀起了醫療領域的應用熱潮。盡管如此,不少學者逐漸認識到在這股熱潮下,諸多問題有待深入思考。一是數據來源問題。人工智能的深度學習等均依托于大量數據,而數據共享是一大難題。無論是利益沖突,抑或技術缺陷,不同醫院在數據共享方面存在鴻溝,這一數據壁壘在同一家醫院的不同科室間依舊存在。即使雙方、多方達成共識,由于醫院系統的缺陷,將數據進行聯通也存在很大障礙。二是數據的倫理性問題。以人工智能輔助診療場景下的應用為例,由人工智能系統對患者信息進行收集,并得出其診斷結果,若人工智能作出了錯誤診療決策,并導致醫療事故發生,此種情況下責任的歸結就存在很大問題;同時,人工智能系統在進行診療的過程中,會產生大量患者相關數據,這就涉及隱私問題。此情況下,如何保護好患者的隱私將成為巨大挑戰。
不同于人工智能在醫療領域的應用場景,本文所設計的AI問答程序,以給患者提供醫療咨詢為目的,不涉及診斷決策與患者信息。患者通過該程序所獲取的知識服務于患者就醫過程,具體方面包括:①幫助患者準確了解與其病情相關的醫學知識,提高對自身正確病情的闡述,減少在就診過程中表達錯誤病情情況的發生;②提高問診效率,幫助患者了解醫生對其病情的解釋與醫囑,減少同一問題反復咨詢的情況;③幫助患者降低受互聯網錯誤醫療信息影響,減少醫療詐騙事件發生,指導患者樹立正確的健康觀。綜上,該系統基于人工智能技術,臨床收集患者問答相關數據,以手機APP、微信公眾號和小程序為載體,能夠很好地回答相關疾病患者所關心的問題,為患者在就診前后提供正確的相關醫學知識,提高就醫效率。
系統還存在以下問題需改進與解決:①數據庫的擴大:目前程序依舊有18%的無效率,分析原因在于,程序設計以“親患者性”為導向,并未將部分專業詞匯錄入數據庫,而實際情況下,患者在就診前已從互聯網了解到相關疾病的專業詞匯,例如“乳腺分葉狀腫瘤”,故程序未能進行有效回答;②應用學科限制:目前數據庫內容集中于乳腺方面,僅能解答乳腺疾病相關問題。未來將通過與不同學科專業的醫生合作,擴充數據庫問答對數據,并在醫院門診加強程序訓練,進一步提高其有效率。