999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向精準交互的智能預問診模型研究

2023-10-09 01:46:20王培培
計算機應用與軟件 2023年9期
關鍵詞:詞匯文本智能

余 騫 王培培 劉 煒,3*

1(廣州科技貿易職業學院信息工程學院 廣東 廣州 511442)

2(鄭州大學互聯網醫療與健康服務河南省協同創新中心 河南 鄭州 450052)

3(鄭州大學軟件學院 河南 鄭州 450002)

0 引 言

2018年4月,國務院辦公廳發布《關于促進“互聯網+醫療健康”發展的意見》,對互聯網醫院提出多項鼓勵政策;2018年8月,國家衛健委和中醫藥管理局聯合制定《互聯網診療管理辦法(試行)》《互聯網醫院管理辦法(試行)》《遠程醫療服務管理規范(試行)》三大指導性文件,進一步明確了互聯網遠程醫療在實際運行中的操作規范和辦法。2020年5月,國家衛健委印發《關于進一步完善預約診療制度加強智慧醫院建設》的通知,要求加強智慧醫院建設,推動互聯網診療與互聯網醫院發展,加快建立線上線下一體化的醫療服務新模式。至此,基于互聯網的在線診療服務進入快速發展階段。

然而,作為互聯網診療重要參與方的患者,存在醫學專業知識嚴重不足、對自身病情缺乏全面了解、在線自主選擇醫生時無從下手等諸多問題,這在很大程度上影響了患者的就醫體驗,制約了互聯網診療的推廣實施。

本文基于對以上問題的深度分析及對某三甲醫院互聯網診療現狀的充分調研,從“優化互聯網診療流程,提升以用戶為中心的個性化主動醫療服務體驗”的角度出發,通過在互聯網診療中增設基于分詞和權值相似度算法實現的智能預問診模塊,創新性地改進和提升互聯網診療的方式及效率。

1 研究現狀

圍繞智能預問診模塊及與其相關的中文分詞和相似度算法,研究者們從不同視角進行了探究,研究方向主要基于以下三大層面:

1) 智能預問診方向。穆雨涵[1]以智能預問診的發展為視角,闡述了智能預問診在導診過程的具體應用;王若佳等[2]從機器學習的角度出發,為問診后的智能分診提供了研究方向;張崇宇[3]提出了基于知識圖譜構建與自動問答的系統解決方案,完成了醫療輔助問診服務;薛芹等[4]提供了以“微信公眾號”為載體的智能問診模型搭建;Nie等[5]從6家互聯網醫院的建設和運營模式出發,闡釋了互聯網診療的多元理念;陳志豪等[6]基于注意力機制和字嵌入的多尺度卷積神經網絡建模方法,分析問答對語義關系,實現中文醫療問答的匹配,奠定預問診的底層結構基礎;孔鳴等[7]以人工智能為導向,分析了其在診療中的輔助作用;劉建華[8]以廣東省第二人民醫院互聯網醫院為實例,強調了AI問診系統在互聯網問診前的應用。

2) 中文分詞方向。成于思等[9]提出統計與詞典相結合的分詞方法,完善詞典構建流程;Fu等[10]通過中醫術語詞庫的構建及標注,實現了對中文古籍分詞;Zhao等[11]提出條件隨機場分割模型,描述影響分詞的字符特征和條件熵特征,實現漢語分詞;Li等[12]利用膠囊滑動窗口提取特征,構建膠囊的中文分詞模型,開發了中醫古文分詞器。

3) 相似度計算方向。紀明宇等[13]研究金融領域中智能客服的句子相似度,構建詞性糾正模型,減少中文歧義詞及分詞錯誤;徐鑫鑫等[14]利用訓練好的詞和句向量構建特征權重系數,提出基于聯合詞句的文本相似度算法。

以上不同視角的研究及案例并未將基于醫學專業詞典的智能預問診與在線診療結合,亦未區分專業詞匯的權值問題。本文將使用擴充的中文醫學專業詞典,利用基于分詞和權值的相似度算法改進智能預問診模型,驗證改進算法對智能預問診效果的提升,同時將預問診模型與互聯網診療實際場景融合,研究智能預問診的現實意義。

2 智能預問診模型

智能預問診模型以國家診療指南為內核,模擬臨床醫生診療思維,在患者掛號后,醫生接診前,利用互聯網、自然語言處理和人工智能等相關技術,通過智能引導式問診,幫助醫生規范、全面采集患者的癥狀、體征、病史等疾病信息,結合中文醫療對話問答對庫為患者提供診療意見和建議,實現診療流程的優化配置。

本研究匯集整理了近八萬條醫療咨詢問答對,建立疾病診斷的知識圖譜,當用戶輸入關鍵字、自然語言短語或者句子時,智能預問診模型通過對中文醫療對話問答對庫自動精準搜索,進行相關答疑與多輪交互,引導式地采集患病信息。如詢問患者的既往病史和過敏史等,詢問結束后,選擇最佳解決方案反饋給患者,匹配就診科室和專業醫生,并按照病歷書寫規范完成一份預問診報告,及時傳輸至互聯網醫院平臺。

本文基于現實的互聯網診療場景,依托中文醫療對話庫匹配模塊、用戶自然語言處理模塊和問題輸入輸出模塊等,植入智能預問診模型,實現智能語義匹配,使智能預問診融合到互聯網在線診療的整個過程中,具體框架如圖1所示。

圖1 模型框架

智能預問診模型形成了“診前患者自檢-診中快速診斷-診后隨時跟進”三位一體的互聯網診療模式,其基本實現過程為:

1) 患者選擇科室并將個人信息錄入健康檔案。

2) 患者通過聊天界面發送所咨詢的文本信息,對于患者在預問診過程中使用的通俗語,如患病時間、誘因、癥狀位置等信息,利用自然語言處理技術去理解,將其翻譯為標準的醫學語言。

3) 對文本信息進行分詞處理。

4) 在問答對庫中尋找相匹配的答案作為回復。

5) 患者根據預問診的情況,可選擇遠程問診,與醫生進行在線音視頻問診。

6) 在患者進入視頻房間之前,醫生查看該患者的智能預問診過程,了解基本情況,通過視頻面對面問診,明確診斷結果,開具電子處方、住院證等。

具體流程如圖2所示。

圖2 模型問診流程

智能預問診模型的交互方式以及對患者問診語言處理的反饋正確度決定了模型的準確性及核心價值。因此,本文提出的基于分詞和權值的相似度算法,用于處理患者提問文本和中文醫療問答對庫中文本的相似度,將最相關問答對反饋給患者。

3 基于分詞和權值的相似度計算

在英文文本中,單詞之間有空格作為分界,而在中文文本中,詞是最小的獨立成分,詞語之間沒有界限符。目前,常用的求兩文本之間的相似度算法是基于字符的字段匹配[15],該算法在求取英文文本單詞相似度上表現突出,但在中文場景下表現一般。因此,本文提出改進的基于分詞和權值的相似度算法,主要解決在中文環境中,求取文本之間相似度的問題。主要流程可概括為三大步驟,即:

1) 導入自定義醫學專業詞典完成詞典擴充。

2) 分詞并完成詞匯的加權。

3) 利用基于分詞和權值的相似度算法,求得文本之間的相似度,有針對性地對外反饋。

3.1 自定義醫學專業詞典擴充

實際場景中,由于中文醫療詞匯的特殊性,詞與詞之間沒有明顯的分隔符,精準分詞的前提是需要有一個合適的詞典,詞典的完備性一直是制約分詞器分詞準確的關鍵,所以首先進行詞典的擴充。

本文所采用的“盤古分詞器”支持自定義詞庫,因此,詞典擴充主要通過Dictionary Manager組件向自定義醫學專業詞典中導入常見的醫療專業名詞,如醫生常用專業術語、藥品名、常見的疾病名稱等來完成。

其具體做法是:將醫療專業名詞調研和統計后形成數據集,而后利用算法提取數據集中詞頻高的短語進行自定義詞典導入,這一過程的難點是對數據集中高詞頻短語的提取。

本文采用了關聯范數估計式(Association Norm Estimation)(以下簡稱“AE式”)來幫助判斷專業詞匯,進而完成高詞頻短語的提取,其基本表達式為:

(1)

式中:f(x)、f(y)、f(z)分別指x、y、z在數據集中出現的頻率。若x由n個漢字組成,y是x的前n-1個漢字,z是x的后n-1個漢字,則x=x1x2…xn-1xn,y=x1x2…xn-1,z=x2x3…xn-1xn,其中,xi(i=1,2,…,n)指的是第i個漢字。

如果AE(x)的值越大,那么文本x是一個詞或者一個詞的一部分的概率就越大,而當AE(x)很大時,字符串x不一定是一個完整的詞,還需要依次擴充字符串。

實驗證明,AE式適用于識別三個字及三個字以上的詞匯,通過使用滑動窗口,利用右邊緣法來確定該詞邊界,可以有效地識別出醫療專業詞匯。

3.2 分詞并加權

利用“盤古分詞器”對用戶的提問文本進行分詞并計算詞匯的權值。

詞匯的權值表示該詞匯占某個文本的比重,權值越大,表示對文本語義的貢獻率就越大,正常情況下,在文本中每個詞語的貢獻率均等。但是,由于中文語義的特殊性以及醫療專業詞匯和普通詞匯對相似度計算所帶來的不同貢獻,相似度的準確性會受到一定影響。

因此,為更好地找出患者提問的相似文本,提高相似度的準確性,本文主要基于普通詞匯和醫療專業詞匯進行加權的操作。

1) 普通詞匯加權。依據:根據主題重心詞通常在后半部分的特定,選取自然語言同義詞處理技術中重心后移規律匹配法。

操作:假設某一文本由N個詞匯組成,各個詞的權值ω(k)由詞k在文本中的位置確定,如式(2)所示,首詞為1,以此類推。

(2)

式中:k表示該詞在文本中所處的位置。文本中,所有詞匯的權值之和如式(3)所示。

(3)

2) 醫療專業詞匯加權。依據:由于一個文本中,所有的詞匯的權值之和為1,若提高專業詞匯的權值,必定要減小無意義詞匯的權值。

操作:因“盤古分詞器”包含詞名、詞性和詞頻信息,若判定詞匯來源于擴充后的詞典,則增大醫療專業詞匯的詞頻,提高專業詞匯的權值。同時,去掉“的”“了”信號詞、疑問詞、標點符號、連詞、助詞等無意義的停用詞及一些詞頻過小詞的權值,并將其自身所帶權值轉至醫療專業詞匯上。

3.3 基于分詞和權值計算相似度算法

相似度亦稱匹配度,指兩個文本可轉換的程度,相似度越高,表明兩個文本越易相互替換[15]。計算相似度的數學模型可用集合來表示,如圖3所示。

圖3 文本集合

假設:A為待匹配文本詞集合,B為匹配文本詞集合,C為兩文本相同詞的集合,匹配度即為C占A和B全部的比重,C越大,則相似度越高。

A與B的相似度如式(4)所示。

(4)

式中:Sim(A,B)表示文本A和文本B的相似度。C占A的比重為x,C占B的比重為y,換言之,x為C在A中所有詞的權值之和,y為C在B中所有詞的權值之和。x、y如式(5)所示。

(5)

由式(4)和式(5)推導匹配度公式如式(6)所示。

(6)

式中:x、y不為0。當x或y為0時,無交集,相似度為0。

算法流程如圖4所示。

圖4 算法流程

主要關鍵步驟如下:

1) 詞典擴充:獲取自定義醫學詞典,實現詞典擴充。

2) 智能分詞:使用基于asp.net的“盤古分詞器”對患者提問文本進行自動分詞,過濾無意義的停用詞。

3) 提取關鍵詞:利用智能分詞模塊提供的分詞結果,提取關鍵詞,將結果存入關鍵詞列表。

4) 索引相關問答對:根據關鍵詞模糊查詢醫療對話的問題及答案,獲取最相關問答對。

Step1建立臨時表。包括編號和相關問答對兩個字段,用于存放按關鍵詞檢索返回的結果。

Step2索引問答對。用關鍵詞模糊查詢醫療對話數據庫,并將結果存入Step1中建立的臨時表。

5) 計算相似度:計算患者提問文本與相關問答對中提問文本之間的相似度,選取相似度最大的問答對,將結果返回給患者。具體方法如下:

Step1分詞。用帶自定義醫學專業詞典的“盤古分詞器”對患者提問文本和相關問答對進行分詞。

Step2加權。對文本中的詞加權處理。

Step3求相似度。利用相似度公式,求得患者提問文本和每一條相關問答對之間的相似度,選取相似度最大的問答對,將對應答案返回給患者。

4 實驗評估

4.1 數據集與實驗環境

4.1.1數據集

本文研究過程進行了大量的實驗,這些實驗的數據集來源于Toyhom發布的Chinese medical dialogue data中文醫療對話庫,其提供近80萬例問答對。具體如表1所示。

表1 中文醫療對話數據集

4.1.2實驗環境

實驗所涉及的前置操作主要包括:對數據進行預處理,清洗有噪聲數據,分析并處理數據格式?;经h境為:語言環境:C#語言;框架結構:asp.net框架;數據庫:SQL Server 2008數據庫。

4.2 實驗目的及方法步驟

4.2.1實驗目的

本文研究內容所涉及實驗的目的主要有三項,第一,驗證詞典擴充后的“盤古分詞器”分詞效果是否高于未擴增詞典的分詞器(以下簡稱“實驗1”);第二,驗證本文提出的基于分詞和權值的相似度算法的準確性(以下簡稱“實驗2”);第三,對基于分詞和權值的相似度算法的優劣進行評判,驗證智能預問診模型的準確性(以下簡稱“實驗3”)。

4.2.2實驗方法

1) 實驗1操作方法及步驟。準確率(p):分詞結果中,切分正確的詞語數量與所有詞語數量的比值,如式(7)所示。

(7)

召回率(r):分詞結果中,切分正確的詞語的總數量與文本中所有標準詞語數量的比值,如式(8)所示。

(8)

方法:利用是否加入自定義醫學專業詞典的盤古分詞系統對中文醫療對話數據集文本進行分詞,計算分詞結果的準確率和召回率。

具體步驟如下:

Step1初始化詞典dict.dct,導入自定義醫學專業詞匯。

Step2輸入患者提問文本,進行結構化處理。

Step3調用“盤古分詞器”對文本進行分詞,查詢詞典,反饋查詢結果,若有未登錄詞,存入自定義詞典。

Step4保存分詞結果。

操作流程如圖5所示。

圖5 分詞流程

2) 實驗2操作方法及步驟。

方法:利用文獻[15]與本文的方法求取文本之間的相似度。

具體步驟如下:

Step1選取數據集中的問答對。

Step2利用基于自定義醫學專業詞典的“盤古分詞器”對問答對進行智能分詞。

Step3利用分詞和權值計算詞語對文本的語義貢獻率,將其作為權值。

Step4用兩種算法分別計算相似度。

Step5比較計算結果。

實驗流程如圖6所示。

圖6 求相似度流程示意圖

3) 實驗3操作方法及步驟。評價指標:該實驗采用召回率、正確率和F-測度值三項指標進行驗證判斷。召回率r反映了被正確判定為正例數占總正例數的比率;正確率p反映了被正確判定為正例數占被判定為正例數的比率;F-測度值f綜合了召回率和正確率的結果,用于綜合反映整體指標。具體如式(9)所示。

(9)

式中:a表示被正確判定為正例的個數;b表示被錯誤判定為正例的個數;c表示將正例排除在外的個數。

方法:首先,利用本文算法選取最優Threshold值,Threshold值作為是否正確判定正例的標準。然后,在最優Threshold值下,分別將文獻[13]和文獻[15]與本文方法在數據集上進行實驗,計算各評價指標的結果。最后,在現有的互聯網醫院系統上,利用中文醫療對話數據集對智能預問診模型的問答功能進行測試,主要測試模塊回答患者問題的流暢度及能否正確識別的問題。

具體步驟如下:

Step1讀取患者輸入的提問文本。

Step2對Step1中文本分詞,提取關鍵詞。

Step3用Step2中關鍵詞模糊查詢問答對所在的數據庫,將結果存入臨時表Table中。

Step4利用本文算法選取最優Threshold值。

Step5在最優Threshold值下,用3種算法分別求取Step1文本與Step3臨時表Table中每條記錄的相似度,計算召回率、正確率和F-測度值。

Step6利用中文醫療數據集,驗證問答模型回復的準確性和及時性。

實驗算法及模型的準確性驗證流程如圖7所示。

圖7 準確性驗證流程示意圖

4.3 實驗結果及分析

4.3.1實驗1

實驗結果:如表2所示,詞典中加入自定義的醫學專業詞后,準確率和召回率分別提高了2.6百分點和1.3百分點。

表2 分詞對比實驗結果(%)

實驗結果表明詞典擴充后能夠在一定程度上提高中文詞語切分的準確率。但需要注意的是,由于詞的定義不統一,漢語的分詞還未形成一個公認的標準,詞的具體判定問題還未完全解決,可能對分詞的結果有一定的影響。

4.3.2實驗2

通過對實驗數據結果的分析,本文方法求取的相似度能更好地反映文本匹配的相關度,但不同情況,相似度表現形式及效果不同,如表3所示。

對于語義相似的文本,本文方法較文獻[15]提高了5.72百分點,提高幅度一般,因此需要對計算機理解文本語義的邏輯進行進一步研究;對于醫療關鍵詞不同的文本,文獻[15]算法是按相同字求取的,而本文方法按詞語的權值求得,相似度明顯降低;對于一般的文本,本文方法的效果提升明顯。

4.3.3實驗3

本文算法的準確度取決于Threshold值,為了得到最優的Threshold值,利用本文算法在不同Threshold值下求取數據集中文本相似度,并計算召回率、正確率和F-測度值,變化趨勢如圖8所示。

圖8 不同Threshold值下的評價指標值

根據圖8實驗結果可知:隨著Threshold值增大,召回率呈下降趨勢,正確率呈上升趨勢,F-測度值呈先上升后下降趨勢。由于F-測度值可綜合反映整體指標,因此,當F-測度值最大時,可得最優Threshold值為0.23。

當Threshold值為0.23時,利用本文方法和文獻[13]和文獻[15]方法求得的召回率、正確率和F-測度值的結果如表4所示。

表4 中文醫療對話數據集的評價指標對比(%)

由表4可知,本文方法得到的召回率、正確率和F-測度值均比文獻[13]和文獻[15]方法高,本文方法在計算中文文本相似度上的準確率更高,能更好地實現中文文本最相關問答對的匹配。該算法利用分詞縮短了匹配字段的長度,減少了循環空間,節省了算法時間。

從圖9可知,智能預問診模型能根據患者所咨詢的問題來處理問題,并反饋大致符合患者要求的答案,總體符合預期。但值得注意和需要進一步研究的是如何降低準確率對問答對庫的依賴。

圖9 智能問答

5 結 語

現階段的智能預問診在互聯網診療過程中充當著先頭兵的角色,智能預問診所采集用戶信息的優劣直接影響后續診療效果,而關鍵在于對所采集信息處理算法的設計和優化。本文提出基于分詞和權值的相似度算法,通過添加智能分詞、自動匹配最大相關問答對,實現了智能預問診模型的搭建及與互聯網現實診療場景的有機融合,為智能預問診模型搭建提供了一種新方法、新思路。

本文搭建的智能預問診模型,在用戶交互的準確率上有待進一步提高。一方面,由于診療的專業性和復雜性,自然語言技術雖然有一定發展,但在醫療領域還有很大的進步空間,基于文本相似度算法實現的導診或預問診,還無法做到像醫生一樣用經驗和專業醫學知識解決患者的問題;另一方面,由于診療過程用戶提問問題的不確定性和龐大性,用于用戶問題應答的標準問答對庫還未建設完畢,這是一個動態累積的過程,需要結合診療活動同步開展。因此,下一步應重點研究醫療領域的自然語言處理以及標準問答對庫的建設,從而使互聯網診療的過程更快捷、更高效、更準確。

猜你喜歡
詞匯文本智能
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久不卡精品| 高清精品美女在线播放| 一本久道久久综合多人 | 精品无码一区二区在线观看| 91年精品国产福利线观看久久 | 99re视频在线| 五月六月伊人狠狠丁香网| 无码视频国产精品一区二区| 特级做a爰片毛片免费69| 欧美爱爱网| 国产午夜福利亚洲第一| 99热亚洲精品6码| 欧美日本在线一区二区三区| 国产日韩欧美中文| 精品国产成人高清在线| av在线人妻熟妇| 2020国产精品视频| aa级毛片毛片免费观看久| 国产成人凹凸视频在线| 国产精品人人做人人爽人人添| 国产精品区视频中文字幕| 亚洲国产欧美中日韩成人综合视频| 国产日本欧美在线观看| 午夜高清国产拍精品| 99偷拍视频精品一区二区| 青青青亚洲精品国产| 国产成人高精品免费视频| 91免费观看视频| 自拍中文字幕| 亚洲三级视频在线观看| 国产主播在线一区| 国产本道久久一区二区三区| 精品無碼一區在線觀看 | 9丨情侣偷在线精品国产| 亚洲日韩精品综合在线一区二区| 久久久精品久久久久三级| 美女内射视频WWW网站午夜| 玖玖精品在线| 丁香五月亚洲综合在线| 亚洲欧美日韩另类在线一| 伊人大杳蕉中文无码| 午夜免费小视频| 国产精品香蕉在线| 99精品影院| 国产精品天干天干在线观看| 日韩欧美高清视频| 在线观看免费人成视频色快速| 国产在线一区视频| 欧美在线导航| 欧美激情首页| 熟女成人国产精品视频| 秋霞一区二区三区| 老司机精品一区在线视频 | 国产喷水视频| 秋霞一区二区三区| 国产美女叼嘿视频免费看| 国产大全韩国亚洲一区二区三区| 中文字幕欧美日韩高清| 亚洲欧美另类日本| 国产成年无码AⅤ片在线| 国产成人超碰无码| 亚洲码一区二区三区| 国产在线一区二区视频| 午夜激情福利视频| 91国内在线视频| 毛片网站观看| 免费一级毛片| 日韩久久精品无码aV| 久久中文电影| 一级毛片在线播放免费| 国产尹人香蕉综合在线电影 | 亚洲欧美人成电影在线观看| 好吊妞欧美视频免费| 精品少妇人妻一区二区| 欧美天天干| 国产剧情无码视频在线观看| 日韩精品成人在线| 找国产毛片看| 久久婷婷国产综合尤物精品| 国产成人做受免费视频| 久久美女精品国产精品亚洲| 欧美激情首页|