999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源知識(shí)圖譜融合的智能導(dǎo)診算法

2021-03-18 02:53:28劉道文張晨童邱家輝葛小玲
中文信息學(xué)報(bào) 2021年1期
關(guān)鍵詞:癥狀

劉道文,阮 彤,張晨童,邱家輝,翟 潔,何 萍,葛小玲

(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 上海申康醫(yī)院發(fā)展中心 醫(yī)聯(lián)中心,上海 200120;3. 復(fù)旦大學(xué)附屬兒科醫(yī)院 信息中心,上海 201102)

0 引言

網(wǎng)上預(yù)約掛號(hào)系統(tǒng)由于省去了患者在醫(yī)院排隊(duì)掛號(hào)的時(shí)間,受到了患者的歡迎。然而,大型三甲醫(yī)院通常有幾十個(gè)科室,大多數(shù)患者并不了解臨床科室的分工,而只能簡單描述自己的癥狀。線下掛號(hào)時(shí),患者通常通過醫(yī)院導(dǎo)醫(yī)臺(tái)向護(hù)士敘述癥狀,護(hù)士推薦合適的科室。但是,目前線上缺乏這樣的服務(wù),患者只能通過網(wǎng)絡(luò)搜索獲得相關(guān)信息。但是由于癥狀和科室缺乏明確的對(duì)應(yīng)關(guān)系,同時(shí)各醫(yī)院科室設(shè)置不同,再加上醫(yī)院提供信息不完整,醫(yī)療廣告又充斥互聯(lián)網(wǎng),使得使用搜索的患者最終無所適從。因此,構(gòu)建一個(gè)智能科室推薦系統(tǒng),將合適的科室推薦給需要的患者,可以解決患者網(wǎng)上掛號(hào)遇到的實(shí)際問題,減少患者掛錯(cuò)號(hào)的情況。其中智能導(dǎo)診服務(wù)還存在以下問題:

(1) 患者主訴中癥狀描述的多樣性問題。需要從患者對(duì)病情的不規(guī)范文本描述中,有效識(shí)別癥狀信息或患者預(yù)判的疾病信息,并歸一化到知識(shí)圖譜的標(biāo)準(zhǔn)實(shí)體上。

(2) 病人各類特征與就診科室之間的關(guān)系缺乏良好和可擴(kuò)充的知識(shí)表示方式。首先,癥狀和疾病、疾病和科室是多對(duì)多的關(guān)系,部分科室不一定和癥狀相關(guān),而是和部位、年齡與性別等緊密關(guān)聯(lián)。再者,精準(zhǔn)的導(dǎo)診算法依賴于這些類之間的量化關(guān)系。其次,各家醫(yī)院的科室設(shè)置不盡相同,意味著相同的疾病可能會(huì)到不同醫(yī)院的不同科室。分析上海區(qū)域平臺(tái)數(shù)據(jù)發(fā)現(xiàn),“甲狀腺結(jié)節(jié)”在瑞金醫(yī)院的“普通外科”掛號(hào)最多,但在岳陽醫(yī)院的掛號(hào)卻是“內(nèi)分泌科”最多。用何種知識(shí)表示模型描述上述知識(shí),是一個(gè)難點(diǎn)問題。目前的導(dǎo)診推薦系統(tǒng)大多采用向量空間計(jì)算疾病相似度的方法[1-5]。然而,這些方法沒有體現(xiàn)醫(yī)學(xué)的強(qiáng)知識(shí)型和可解釋性。因此,采用其他方式,如知識(shí)圖譜是一個(gè)可選方案。雖然目前有諸多發(fā)布的醫(yī)療知識(shí)圖譜[6-7],但從本文應(yīng)用角度,缺乏病人特征和科室之間關(guān)系的模式描述;從知識(shí)表示角度,未見量化關(guān)系的描述;從圖譜數(shù)據(jù)角度,缺乏知識(shí)數(shù)據(jù)與真實(shí)醫(yī)療數(shù)據(jù)的融合。

(3) 圖譜數(shù)據(jù)來源的選擇與圖譜融合方法問題。知識(shí)圖譜可以通過幾種方式構(gòu)建,一是人工構(gòu)建,二是通過醫(yī)書或是來源于醫(yī)書的互聯(lián)網(wǎng)網(wǎng)站,三是通過區(qū)域平臺(tái)電子健康檔案(electronic health records,EHR)自動(dòng)獲取,四是結(jié)合第二種和第三種方案,對(duì)兩種數(shù)據(jù)來源進(jìn)行融合。第一種方案工作量太大;第二種方案在書中不存在真實(shí)科室數(shù)據(jù);第三種方案需要多家醫(yī)院電子病歷數(shù)據(jù)或是區(qū)域衛(wèi)生平臺(tái)數(shù)據(jù),癥狀數(shù)據(jù)通常又在文本中,不但采集工作量大,而且數(shù)據(jù)清洗和處理復(fù)雜度更高。為此,本文選擇第四種方案,該方案的復(fù)雜度在于需要進(jìn)行多源數(shù)據(jù)融合,包括不同來源實(shí)體的對(duì)齊與上下位關(guān)系的識(shí)別等。由于來自網(wǎng)絡(luò)的癥狀-疾病圖譜的疾病術(shù)語數(shù)據(jù)較少,而來自真實(shí)數(shù)據(jù)的疾病-科室圖譜存在疾病術(shù)語描述不規(guī)范問題,因此,知識(shí)數(shù)據(jù)和真實(shí)數(shù)據(jù)的直接融合匹配率并不高,為此,本文使用基于國際疾病分類(international classification of diseases,ICD)的術(shù)語體系作為橋梁融合兩個(gè)圖譜。

針對(duì)智能導(dǎo)診服務(wù)中的問題,本文提出了一種基于知識(shí)圖譜的智能導(dǎo)診方法。本方法的貢獻(xiàn)點(diǎn)如下:

(1) 設(shè)計(jì)了面向?qū)г\的帶權(quán)重的醫(yī)療圖譜模式,可以量化地定義科室與癥狀、疾病、性別和部位之間的關(guān)聯(lián)關(guān)系與概率關(guān)系。

(2) 以國際疾病分類ICD為基礎(chǔ),通過融合互聯(lián)網(wǎng)知識(shí)數(shù)據(jù)與區(qū)域大規(guī)模EHR真實(shí)數(shù)據(jù),構(gòu)建了量化的癥狀—疾病—科室—醫(yī)院圖譜。實(shí)驗(yàn)證明,通過ICD進(jìn)行融合,比直接將互聯(lián)網(wǎng)知識(shí)數(shù)據(jù)與區(qū)域大規(guī)模EHR真實(shí)數(shù)據(jù)進(jìn)行融合,最終的科室推薦準(zhǔn)確率提升了10%左右。

(3) 針對(duì)網(wǎng)絡(luò)問診文本不規(guī)范情況,提出了預(yù)濾噪的BERT實(shí)體識(shí)別模型,比經(jīng)典的BERT+CRF模型提高了5%的召回率,3%的F1值。針對(duì)醫(yī)學(xué)實(shí)體歸一化問題,提出了部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法,對(duì)比經(jīng)典的BERT+CRF模型,提升了3%的準(zhǔn)確率,30%的召回率,17%的F1值。

(4) 提出了基于權(quán)重的聯(lián)合癥狀預(yù)測疾病概率(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS)算法,實(shí)現(xiàn)了多癥狀的疾病預(yù)測與基于患者信息的精準(zhǔn)的科室推薦。實(shí)驗(yàn)證明,該算法比一般的加權(quán)求和算法的科室預(yù)測準(zhǔn)確率提升了10%以上。

上海申康醫(yī)聯(lián)平臺(tái)使上海市三甲醫(yī)院的數(shù)據(jù)信息得以互聯(lián)互通,實(shí)現(xiàn)了網(wǎng)上預(yù)約掛號(hào)服務(wù),本文的方法在上海申康醫(yī)聯(lián)平臺(tái)2018年1月上線以來,截止到2019年1月,一年時(shí)間共計(jì)63 795次訪問,取得了良好的反饋。

1 相關(guān)工作

智能導(dǎo)診的研究目前大多采用的方法是將傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)的推薦算法適配于醫(yī)療領(lǐng)域。馬鈺等[1]提出了一種面向智能導(dǎo)診的個(gè)性化推薦算法,以輔助診療的結(jié)果為基礎(chǔ),和基于協(xié)同過濾的評(píng)分方式有機(jī)結(jié)合,其算法能根據(jù)患者的癥狀表現(xiàn)與地理位置等個(gè)人信息,為用戶提供個(gè)性化的推薦結(jié)果。梁璐[2]基于向量空間模型對(duì)權(quán)重計(jì)算進(jìn)行了改進(jìn),其核心思想在于將患者輸入的癥狀向量化,與疾病癥狀集中的疾病向量進(jìn)行相似度計(jì)算,進(jìn)而預(yù)測患者疾病。徐奕楓等[3]在梁璐的基礎(chǔ)上,提出了重心后移的概念,他將癥狀中的每個(gè)字賦予權(quán)重,后面字權(quán)重大于前面字。醫(yī)學(xué)領(lǐng)域的特點(diǎn)是強(qiáng)知識(shí)性與解釋性,病人特征和推薦的科室之間有著直接的因果關(guān)聯(lián),與傳統(tǒng)的基于機(jī)器學(xué)習(xí)的電影推薦和書本推薦完全不同。為此,本文提出了基于知識(shí)圖譜的智能導(dǎo)診算法,以適應(yīng)醫(yī)學(xué)領(lǐng)域的特點(diǎn)與要求。

準(zhǔn)確且完善的面向智能導(dǎo)診的知識(shí)圖譜是本文研究的數(shù)據(jù)基礎(chǔ)。在國內(nèi),清華大學(xué)和上海交通大學(xué)利用網(wǎng)絡(luò)百科知識(shí),構(gòu)建大規(guī)模的通用知識(shí)圖譜,如Zhishi.me[4]和XLORE[5]。在醫(yī)療領(lǐng)域,國外構(gòu)建了臨床醫(yī)療術(shù)語集SNOMED-CT這樣的通用的術(shù)語分類系統(tǒng),面向藥物的命名系統(tǒng)RxNorm,針對(duì)觀測指標(biāo)的編碼系統(tǒng)LOINC,以及被廣泛應(yīng)用的疾病分類系統(tǒng)ICD等醫(yī)療術(shù)語體系。在國內(nèi),于彤等[6-7]構(gòu)建了TCMKS中醫(yī)藥知識(shí)圖譜及其服務(wù)平臺(tái)。本文采用自頂向下的圖譜構(gòu)建方式,并在圖譜模式層擴(kuò)充了權(quán)重,圖譜數(shù)據(jù)層采用了知識(shí)數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)相融合的方式。

智能導(dǎo)診前置工作為患者主訴處理,首先要從患者主訴中識(shí)別癥狀詞等實(shí)體信息。Qiu等[8]利用殘差神經(jīng)網(wǎng)絡(luò)獲取上下文信息,然后通過條件隨機(jī)場捕獲相鄰標(biāo)簽之間的依賴關(guān)系,該方法在疾病、癥狀等醫(yī)療實(shí)體的識(shí)別任務(wù)上取得了比RNN算法更好的結(jié)果。Wang等[9]將醫(yī)學(xué)字典信息輸入到Bi-LSTM+CRF模型中,能更好地處理字典中存在但數(shù)據(jù)中很少出現(xiàn)的實(shí)體。Gong等[10]使用谷歌提出的BERT模型進(jìn)行實(shí)體識(shí)別,并且在字符嵌入中加入了漢語詞根信息,可以更好地利用語義進(jìn)行實(shí)體識(shí)別。然而,上述模型不能很好地處理主訴噪聲多、描述不規(guī)范的問題,因此本文提出了預(yù)濾噪的BERT實(shí)體識(shí)別方法,該方法通過對(duì)主訴文本進(jìn)行預(yù)處理和后處理去除部分噪聲,提升醫(yī)學(xué)實(shí)體輸出的規(guī)范性。

為了將實(shí)體歸一化到知識(shí)圖譜的節(jié)點(diǎn)上,Wang等[11]提出的Bi-GRU-CapsNet模型,更好地解決了詞匯量不足(out of vocabulary, OOV)的問題。Zhang等[12]的方法使用多種字符串相似性的結(jié)果作為輸入,對(duì)比了樸素貝葉斯、隨機(jī)森林、邏輯回歸和Stacking等模型,對(duì)實(shí)體和節(jié)點(diǎn)進(jìn)行歸一化。谷歌提出的BERT模型[13-14]也可用在該實(shí)體歸一化任務(wù)上。輸入為待實(shí)體歸一化的實(shí)體和知識(shí)圖譜中的實(shí)體,輸出為知識(shí)圖譜實(shí)體中的匹配分?jǐn)?shù)。然而,部位對(duì)醫(yī)療實(shí)體的歸一化有著重要的影響,本文提出的部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法,提高了實(shí)體歸一化的準(zhǔn)確性。

2 整體框架

本文的整體框架如圖1所示。分為兩部分,左半部分是知識(shí)圖譜構(gòu)建過程,右半部分是基于知識(shí)圖譜的智能導(dǎo)診算法。

知識(shí)圖譜構(gòu)建中,融合了醫(yī)療百科網(wǎng)站、區(qū)域衛(wèi)生平臺(tái)EHR數(shù)據(jù)、ICD-10和ICD-11,以及搜索引擎的聯(lián)合搜索概率等多源數(shù)據(jù),具體過程如下: ①基于醫(yī)療百科網(wǎng)站信息,構(gòu)建癥狀—疾病知識(shí)圖譜。對(duì)于任意兩個(gè)癥狀和疾病,利用搜索引擎中聯(lián)合搜索的條目數(shù)計(jì)算癥狀和疾病之間的權(quán)重;②基于上海區(qū)域衛(wèi)生平臺(tái)提供的38家三甲醫(yī)院半年來科室治療疾病的統(tǒng)計(jì)數(shù)據(jù),構(gòu)建疾病—科室—醫(yī)院圖譜,利用就診次數(shù)計(jì)算疾病和科室之間的權(quán)重;③利用ICD的疾病層次關(guān)系融合上述兩個(gè)圖譜,以補(bǔ)全疾病—科室對(duì)應(yīng)關(guān)系。真實(shí)數(shù)據(jù)中并非所有疾病名詞都存在對(duì)應(yīng)的科室,但通過同義詞或上下位關(guān)系可以找到含有對(duì)應(yīng)科室的疾病節(jié)點(diǎn)。因此,帶有同義詞與上下位關(guān)系的疾病圖譜可以彌補(bǔ)真實(shí)數(shù)據(jù)中疾病—科室關(guān)系的不足。由于醫(yī)療百科網(wǎng)站和區(qū)域衛(wèi)生平臺(tái)EHR數(shù)據(jù)中并沒有疾病同義詞及上下位關(guān)系,因此本文利用國際疾病分類ICD的11版本和10版本,形成帶層次的疾病圖譜,進(jìn)而融合癥狀—疾病、疾病—科室—醫(yī)院兩個(gè)知識(shí)圖譜。

在智能導(dǎo)診過程中,患者輸入中文主訴文本、性別和年齡段,首先利用本文提出的預(yù)濾噪的BERT實(shí)體識(shí)別模型對(duì)主訴文本進(jìn)行實(shí)體識(shí)別,獲得患者主訴中的癥狀實(shí)體和疾病實(shí)體。其次,再利用部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法將這些實(shí)體歸一化到圖譜中的相應(yīng)節(jié)點(diǎn)。最后,通過本文提出的基于權(quán)重的聯(lián)合癥狀預(yù)測疾病概率算法(WBDPMS)在圖譜上計(jì)算患者可能患有的疾病及其權(quán)重, 進(jìn)而通過權(quán)重融合算法推薦最合適的科室及醫(yī)院。

圖1 基于多源知識(shí)圖譜融合的智能導(dǎo)診方法整體框架

3 知識(shí)圖譜構(gòu)建

3.1 面向?qū)г\的知識(shí)圖譜模式圖定義

圖2展示了面向?qū)г\的知識(shí)圖譜,上半部分是模式圖,下半部分是數(shù)據(jù)圖。

模式圖由三元組G=〈Ns,Es,Ws〉組成,Ns是知識(shí)圖譜類別節(jié)點(diǎn),包含了4個(gè)類節(jié)點(diǎn),分別是癥狀、 疾病、 科室和醫(yī)院,Es是節(jié)點(diǎn)Ns之間的關(guān)系,Ws是關(guān)系Es上的權(quán)重。

Es分為兩種,一種是類節(jié)點(diǎn)之間的關(guān)系,另一種是屬性關(guān)系。前者稱為對(duì)象屬性,后者稱為數(shù)據(jù)屬性。對(duì)象屬性有五個(gè),分別存在于疾病和疾病、癥狀和疾病、疾病和科室、科室和醫(yī)院之間。疾病和疾病節(jié)點(diǎn)之間存在上下位和同義詞關(guān)系。數(shù)據(jù)屬性有兩個(gè),存在于疾病節(jié)點(diǎn)和科室節(jié)點(diǎn)上,分別為性別和年齡。由于部分疾病和科室與性別和年齡有關(guān),比如“月經(jīng)不調(diào)”是女性疾病,而“老年高血壓”是老人特有的疾病,而“婦科”和“兒科”分別面向女性和兒童兩個(gè)群體。因此,圖譜在疾病和科室上增加了“性別”和“年齡”兩個(gè)屬性,用于進(jìn)一度提升導(dǎo)診算法的精度。

圖2 面向?qū)г\的知識(shí)圖譜模式圖及數(shù)據(jù)圖

Ws是附屬在Es上的屬性,Ws存在于癥狀和疾病、疾病和科室上,前者代表癥狀和疾病關(guān)聯(lián)的概率,后者代表疾病和掛號(hào)科室關(guān)聯(lián)的概率。由于不同癥狀在不同疾病上的貢獻(xiàn)度不同,可能引起的疾病也不同,如果癥狀和疾病之間沒有權(quán)重關(guān)系的話,會(huì)導(dǎo)致如“發(fā)燒”這個(gè)癥狀預(yù)測出來的“感冒”和“小兒腹瀉”的權(quán)重相同。此外,由于區(qū)域衛(wèi)生平臺(tái)EHR數(shù)據(jù)的真實(shí)性,疾病在不同醫(yī)院的不同科室之間的權(quán)威性都不同,通過“疾病—科室”關(guān)系之間的權(quán)重能讓患者更好地選擇有權(quán)威性的科室及醫(yī)院。本文在實(shí)驗(yàn)過程中,針對(duì)權(quán)重設(shè)置對(duì)推薦結(jié)果的準(zhǔn)確性進(jìn)行了對(duì)比。

數(shù)據(jù)圖是模式圖的實(shí)例,以圖2面向?qū)г\的知識(shí)圖譜模式圖及數(shù)據(jù)圖的數(shù)據(jù)為例,描述的是癥狀“發(fā)燒”,鏈接的疾病為“急性上呼吸道感染”,其概率為0.65。癥狀“咳嗽”鏈接的疾病為“急性上呼吸道感染”和“哮喘”,概率分別為0.73和0.27,說明“咳嗽”更有可能是由“急性上呼吸道感染”導(dǎo)致的。同時(shí),“急性上呼吸道感染”存在上位詞“上呼吸道感染”和同義詞“感冒”。“急性上呼吸道感染”有0.37的概率會(huì)去傳染科治療,0.63的概率去呼吸內(nèi)科治療,“哮喘”有0.89的概率去呼吸內(nèi)科治療。醫(yī)院1有傳染科和呼吸內(nèi)科,醫(yī)院2有呼吸內(nèi)科。

3.2 面向?qū)г\的知識(shí)圖譜構(gòu)建過程

首先,選取39健康網(wǎng)為知識(shí)抽取源站,從疾病列表頁獲取所有疾病列表,通過疾病名稱進(jìn)入詳情頁,抽取疾病別名、發(fā)病部位和典型癥狀信息,構(gòu)建“疾病—癥狀”信息。由此得到的癥狀以及癥狀-疾病關(guān)系可能不全,進(jìn)一步根據(jù)癥狀列表補(bǔ)全癥狀,并由癥狀頁鏈向疾病的關(guān)系,對(duì)“疾病—癥狀”信息進(jìn)行補(bǔ)充。

其次,補(bǔ)充單個(gè)癥狀與疾病之間的概率關(guān)系。本文以搜索引擎中癥狀—疾病對(duì)出現(xiàn)的頻次計(jì)算相關(guān)程度。在搜索引擎上對(duì)〈癥狀—疾病〉對(duì)pair〈s-d〉進(jìn)行聯(lián)合搜索,獲取pair〈s-d〉在互聯(lián)網(wǎng)上的出現(xiàn)次數(shù)作為分子,記為count(pair〈s-d〉),Sd={s1,s2,…,si}為疾病d所鏈接的所有癥狀,因此癥狀和疾病的權(quán)重計(jì)算如式(1)所示。

(1)

再者,構(gòu)造疾病—科室—醫(yī)院圖譜。基于區(qū)域衛(wèi)生平臺(tái)EHR數(shù)據(jù),抽取其中的疾病及其掛號(hào)的科室信息,包括在該科室掛號(hào)的次數(shù)和科室所在的醫(yī)院,用以構(gòu)建疾病—科室—醫(yī)院圖譜。較百科知識(shí)型數(shù)據(jù)而言,使用區(qū)域衛(wèi)生平臺(tái)數(shù)據(jù)真實(shí)數(shù)據(jù)構(gòu)建疾病—科室—醫(yī)院關(guān)系的優(yōu)點(diǎn)如下:

(1) 體現(xiàn)醫(yī)院的科室設(shè)置不同,例如,“呼吸內(nèi)科”在不同醫(yī)院的名稱不同,有“呼吸科門診”“呼吸科”“門診呼吸科”等,而看起來相似的科室,具體面向的疾病也有不同。因此,本文的知識(shí)圖譜是從疾病鏈接到不同醫(yī)院的不同科室,并沒有對(duì)科室做歸一化處理。

(2) 疾病掛號(hào)次數(shù)體現(xiàn)了某疾病在該科室下的治療經(jīng)驗(yàn),可以作為“疾病—科室”關(guān)系的權(quán)重,能為推薦帶來更高的精準(zhǔn)度。

(3) 醫(yī)院特定疾病的掛號(hào)次數(shù)體現(xiàn)了醫(yī)院治療該疾病的經(jīng)驗(yàn)。

本文獲取的區(qū)域衛(wèi)生平臺(tái)EHR數(shù)據(jù)共計(jì)1 780 449條,通過對(duì)數(shù)據(jù)中的異常值記錄進(jìn)行清洗后,得到有效數(shù)據(jù)281 488條。形成了“疾病—科室”關(guān)系281 488條、“科室—醫(yī)院”關(guān)系6 110條。

最后,將兩個(gè)圖譜進(jìn)行融合。EHR數(shù)據(jù)中雖然疾病名稱眾多,但是疾病名稱并不規(guī)范和全面,因此疾病—科室關(guān)系不完整,會(huì)導(dǎo)致有些疾病沒有科室可掛的情況。此時(shí)可以通過疾病的同義關(guān)系或上下位關(guān)系找到掛號(hào)科室。因此,需要具有同義詞與上下位關(guān)系的疾病圖譜,彌補(bǔ)真實(shí)數(shù)據(jù)中疾病—科室關(guān)系的不足。

為此,本文利用ICD國際疾病分類,將ICD分別和癥狀—疾病圖譜以及疾病—科室—醫(yī)院圖譜融合,構(gòu)建完整的癥狀—疾病—科室—醫(yī)院圖譜。本文采用Wang等[11]的方法進(jìn)行上下位及同義詞識(shí)別,進(jìn)行圖譜的融合。ICD-10中共有18 050個(gè)疾病節(jié)點(diǎn),ICD—11中共有3 542個(gè)疾病節(jié)點(diǎn)。通過EHR構(gòu)建的圖譜共有20 756個(gè)疾病節(jié)點(diǎn),通過同義詞和上下位識(shí)別,與ICD樹關(guān)聯(lián)上9 408個(gè)疾病節(jié)點(diǎn)。其中上下位關(guān)系57 423條、同義詞關(guān)系2 927條。

最終生成的知識(shí)圖譜包含癥狀節(jié)點(diǎn)6 220個(gè),疾病節(jié)點(diǎn)30 164個(gè),科室節(jié)點(diǎn)6 110個(gè),醫(yī)院節(jié)點(diǎn)38個(gè),癥狀—疾病關(guān)系60 736條,疾病上下位關(guān)系57 423條,疾病同義詞關(guān)系2 927條,疾病—科室關(guān)系281 488條,科室—醫(yī)院關(guān)系6 110條。

4 智能導(dǎo)診算法

4.1 算法流程與實(shí)現(xiàn)

如圖3所示, 智 能導(dǎo)診 算法分為四部分: 首先識(shí)別患者主訴中的實(shí)體詞(包括癥狀、疾病和部位),然后對(duì)實(shí)體詞向知識(shí)圖譜進(jìn)行歸一化。接著通過WBDPMS算法,基于圖譜中的關(guān)系和權(quán)重,計(jì)算患者可能患有的疾病和概率。最后通過融合權(quán)重算法,結(jié)合“疾病—科室”關(guān)系上的權(quán)重,給出最合適的醫(yī)院和科室。

圖3 智能導(dǎo)診算法流程

4.2 患者主訴實(shí)體識(shí)別與實(shí)體歸一化

由于患者主訴不規(guī)范,存在大量的與診療無關(guān)的語句和字詞。無關(guān)語句主要表現(xiàn)在存在很多與病情描述無關(guān)的語句上,例如,“醫(yī)生您好”“請問是什么原因”等。同時(shí),由于本文對(duì)癥狀時(shí)間不做處理,因此,病人描述的時(shí)間語句在該系統(tǒng)中視為無關(guān)語句,例如,“懷孕已經(jīng)28周了”“每次一到冬天的時(shí)候”“反反復(fù)復(fù)發(fā)作”等。此外,由于患者對(duì)癥狀描述存在形容詞或副詞,例如,“頭有點(diǎn)痛”“膝蓋下面隱隱作痛”等。在對(duì)1 640條訓(xùn)練數(shù)據(jù)進(jìn)行子句分割,一共得到10 517條子句,平均每個(gè)患者主訴包含6個(gè)子句,但是其中只有3 099個(gè)子句包含本文需要的癥狀信息,占比為29.5%。因此,通過對(duì)主訴的后處理,精煉出更加有效的主訴,能有效提高準(zhǔn)確率。

本文提出了預(yù)濾噪的BERT實(shí)體識(shí)別模型(A bert entity recognition model for pre-filtered noise)。算法結(jié)構(gòu)如圖4所示,首先將主訴輸入基于詞典特征的Bi-LSTM+CRF模型[2],其中部位詞典采用《人體解剖學(xué)名詞(第二版)》中的部位詞(共3 063);癥狀詞典采用文獻(xiàn)[2]的癥狀詞典(共762)和本文知識(shí)圖譜癥狀節(jié)點(diǎn)名稱(共6 220)進(jìn)行融合,得到最終的癥狀詞典(共6 829個(gè))。我們將患者主訴的每個(gè)字進(jìn)行向量化,組成模型的輸入ei,并且采用位置相關(guān)實(shí)體特征(position-dependent entity type feature, PDET type)構(gòu)建輸入di。ei和di分別經(jīng)過Bi-LSTM+CRF層,將輸出進(jìn)行合并,再通過CRF層輸出主訴中的癥狀詞和部位詞。將CRF層輸出的結(jié)果里同一子句中的部位詞和癥狀詞中間的無關(guān)詞語刪除,并且將沒有出現(xiàn)過任何實(shí)體的子句作為無關(guān)語句刪除, 獲得濾噪后的主訴。以{[CLS]濾噪后的主訴[SEP]}作為BERT的輸入,模型輸出主訴中的癥狀實(shí)體。

本文將實(shí)體識(shí)別出來的癥狀實(shí)體集Scomplain={s1,s2,…,si,…}歸一化到知識(shí)圖譜的癥狀節(jié)點(diǎn)集Ns={n1,n2,…,nj,…},其中Ns∈Nd。利用部位詞典對(duì)Scomplain中的部位進(jìn)行抽取,得到部位詞B。當(dāng)si和nj部位詞不一致時(shí),則判斷si不能歸一化到nj上。若si沒有包含部位詞,而nj包含部位詞, 例如,“脹痛”和“肌肉脹痛”, 則將部位詞B和si進(jìn)行拼接,進(jìn)而判斷是否能歸一化到nj上。同理,用相同的方法從患者主訴中獲取疾病實(shí)體集Dcomplain={d1,d2,…,di,…},稱之為患者主訴中預(yù)判疾病集。

圖4 預(yù)濾噪的BERT實(shí)體識(shí)別模型

為了判斷si是否能歸一化到nj上,本文采用了多個(gè)維度的字符串相似性算法,包括最長公共子串的長度占比、編輯距離、Jaccard距離、余弦相似度、Hamming距離和Levenshtein距離,以此作為模型輸入。通過對(duì)比樸素貝葉斯(Naive Bayes)、最近鄰(KNN)、AdaBoost(弱分類器為CART決策樹)、bagging(分類器為決策樹)、梯度下降樹(GBDT)、隨機(jī)森林(random forest)、支持向量機(jī)(support vector machine)、邏輯回歸(logistics regression)、多層感知器(multilayer perceptron)的方法,并且將這些算法通過排列組合進(jìn)行融合,選擇其中的一組算法組合以達(dá)到最好的效果。

4.3 智能導(dǎo)診算法的實(shí)現(xiàn)

(2)

通過式(2)得出了基于患者主訴中的癥狀預(yù)測的疾病集以及其對(duì)應(yīng)的概率W(dj),W(dj)的值越大,表示癥狀集Scomplain與疾病dj的關(guān)聯(lián)度越大。

其次,我們通過Dcomplain對(duì)D(si)中的疾病權(quán)重進(jìn)行更新,將疾病集和患者預(yù)判的疾病進(jìn)行疾病權(quán)重融合,方法如下:

(1) 若Dcomplain中疾病的di在D(si)中,則增加查詢項(xiàng)中該疾病的權(quán)重。計(jì)算方法如下:

設(shè)W(di)為患者預(yù)判疾病在疾病集中對(duì)應(yīng)的權(quán)重值,ni為患者預(yù)判疾病在疾病集中按權(quán)重排序得到的名次。患者預(yù)判的疾病權(quán)重如式(3)所示。

W′(di)=W(di)×log2(ni+1)

(3)

(2) 若Dcomplain中疾病的di不在D(si)中,本文考慮了該疾病對(duì)導(dǎo)診結(jié)果的影響,將患者預(yù)判疾病加入疾病集,并取所有疾病權(quán)重的平均值作為該預(yù)判疾病的權(quán)重,如式(4)所示。

(4)

最后,我們通過D(si)={d1,d2,…,dj,…}和其權(quán)重W(dj)計(jì)算患者應(yīng)該去的科室及其權(quán)重。由于ICD疾病豐富,區(qū)域衛(wèi)生平臺(tái)數(shù)據(jù)中的疾病不能完全覆蓋所有ICD疾病,因此會(huì)導(dǎo)致預(yù)測出的疾病不能夠直接連接到科室。本文通過以下規(guī)則獲取疾病dj所連接的科室節(jié)點(diǎn): ①若dj可以直接通過“疾病-科室”獲取科室及其權(quán)重,則直接返回該疾病的科室節(jié)點(diǎn)nj∈Nd及其權(quán)重Weightj∈Wd;②若dj找不到連接的科室,則先尋找其子孫節(jié)點(diǎn),獲取所有子孫節(jié)點(diǎn)的科室關(guān)系,并取其平均值作為權(quán)重Weightj進(jìn)行返回;③若dj所有子孫節(jié)點(diǎn)均沒有“疾病相關(guān)科室”關(guān)系相連,則回溯其祖先節(jié)點(diǎn),直到找到一個(gè)祖先節(jié)點(diǎn)nj∈Nd有“疾病—科室”關(guān)系進(jìn)行返回,并返回其權(quán)重Weightj∈Wd。則患者應(yīng)該去的科室權(quán)重計(jì)算如式(5)所示。

(5)

綜上,本文得出了一組帶有權(quán)重的科室列表Departments={Department1:Score1,…,Departmentn:Scoren}。對(duì)科室列表中與患者性別、年齡段無關(guān)的科室去除。最后,對(duì)Scoren進(jìn)行排序,從大到小輸出推薦科室結(jié)果,對(duì)概率較低的科室不予推薦。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

為了訓(xùn)練實(shí)體識(shí)別算法,本文從醫(yī)療問詢網(wǎng)站抽取了1 640條問診主訴數(shù)據(jù)進(jìn)行訓(xùn)練。該數(shù)據(jù)集中,男性患者804例,女性患者836例;普通成人1 181例,兒童376例,老年83例。人工標(biāo)注其中的癥狀和疾病實(shí)體作為實(shí)體識(shí)別算法的訓(xùn)練和測試,并且將標(biāo)注出的實(shí)體手工歸一化到知識(shí)圖譜的節(jié)點(diǎn)上,共標(biāo)注了2 435條實(shí)體歸一化數(shù)據(jù),以構(gòu)建實(shí)體歸一化模型的訓(xùn)練集和測試集。

此外,為了實(shí)現(xiàn)真實(shí)科室情況下的算法評(píng)估,本文隨機(jī)采樣了醫(yī)療網(wǎng)站中患者問詢的200條數(shù)據(jù)作為導(dǎo)診算法的測試集。其中,普通成人、兒童、老人的數(shù)據(jù)比例為171∶15∶14;通用疾病、男性疾病、女性疾病比為135∶14∶51。對(duì)于這批數(shù)據(jù)推薦科室的標(biāo)注,由兩位臨床醫(yī)生進(jìn)行科室標(biāo)注,每條數(shù)據(jù)標(biāo)注三個(gè)以內(nèi)最適合的科室。

5.2 實(shí)體識(shí)別及實(shí)體歸一化聯(lián)合算法結(jié)果

為了進(jìn)行患者主訴的癥狀詞和疾病詞的抽取,本文基于詞典特征的Bi-LSTM+CRF、殘差膨脹神經(jīng)網(wǎng)絡(luò)、XLNET+CRF和BERT+CRF進(jìn)行患者主訴處理,實(shí)體識(shí)別結(jié)果如表1所示。

由表1結(jié)果可得,基于詞典特征的Bi-LSTM+CRF取得了0.74的F1值。BERT+CRF模型F1值取得了0.83的好成績。本文的方法將F1值提升到了0.86,取得了最好的結(jié)果。實(shí)驗(yàn)表明,針對(duì)圖4的例子“我今年29歲了,最近一段時(shí)間總是感覺身體有點(diǎn)不正常,腹部總是隱隱作痛,所以想在這咨詢一下醫(yī)生,小腹有些疼痛小便有尿血怎么回事?吃點(diǎn)什么藥可以緩解疼痛?”,用后處理的主訴作為輸入,BERT輸出癥狀詞為“腹部痛”“尿血”。如果直接使用BERT進(jìn)行實(shí)體識(shí)別操作,該例子將會(huì)輸出“不正常”“疼痛”和“尿血”。其中“不正常”“疼痛”不能體現(xiàn)具體的癥狀信息。因此將本文提出的實(shí)體識(shí)別算法作為后續(xù)實(shí)體歸一化和導(dǎo)診算法的前置工作。

表1 實(shí)體識(shí)別結(jié)果

實(shí)體識(shí)別后需要將實(shí)體與知識(shí)圖譜中的節(jié)點(diǎn)進(jìn)行歸一化,本文采用了部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法進(jìn)行實(shí)體與節(jié)點(diǎn)的歸一化,同時(shí)對(duì)比BERT、多元字符串相似度算法(Cos-similarity)和上下位及同義詞識(shí)別算法進(jìn)行實(shí)體歸一化,實(shí)體歸一化結(jié)果如表2所示。

表2 實(shí)體歸一化結(jié)果

由表2結(jié)果可知,本文提出的部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法取得了最優(yōu)的成績。通過對(duì)數(shù)據(jù)的分析,53.6%的數(shù)據(jù)si和nj都不包含部位詞,39.6%的數(shù)據(jù)si和nj都包含部位詞,其他的6.8%的數(shù)據(jù)中si包含部位詞而nj不包含部位詞。在53.6%的數(shù)據(jù)上,BERT算法取得了最好的效果,但本文方法在39.6%和6.8%的數(shù)據(jù)上針對(duì)本文做了處理,取得了比其他算法更好的結(jié)果。結(jié)合上述兩個(gè)方面的算法,本文將實(shí)體識(shí)別最優(yōu)的前三個(gè)算法和實(shí)體歸一化最優(yōu)的前兩個(gè)算法進(jìn)行排列組合,分別通過本文WBDPMS算法+ICD融合樹進(jìn)行最終科室結(jié)果的正確性對(duì)比,找到最適合的實(shí)體識(shí)別+實(shí)體歸一化算法,以此選擇最終的實(shí)體識(shí)別和實(shí)體歸一化算法,結(jié)果如表3所示。

表3 實(shí)體識(shí)別+實(shí)體歸一化結(jié)果

5.3 科室推薦算法對(duì)比

在上一節(jié)中,本文使用預(yù)濾噪的BERT實(shí)體識(shí)別和部位制導(dǎo)的醫(yī)療實(shí)體歸一化算法進(jìn)行最終導(dǎo)診算法的前置工作。本節(jié)通過對(duì)比簡單的加權(quán)求和算法和本文的WBDPMS算法,并且考慮權(quán)重對(duì)推薦結(jié)果的影響。“癥狀—疾病”關(guān)系和“疾病—科室”關(guān)系上不含權(quán)重表示為各條關(guān)系的權(quán)重相同。通過對(duì)比“癥狀—疾病”和“疾病—科室”都不含權(quán)重、分別只有一個(gè)關(guān)系上有權(quán)重和都包含權(quán)重,對(duì)算法結(jié)果進(jìn)行對(duì)比。同時(shí),為了判斷ICD疾病層次對(duì)結(jié)果的影響,本文在數(shù)據(jù)中是否利用ICD層次結(jié)構(gòu)進(jìn)行算法優(yōu)化進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表 4所示。

表4 導(dǎo)診算法結(jié)果

結(jié)果顯示,兩種關(guān)系權(quán)重都能帶來一定的精確率提升,“癥狀—疾病”權(quán)重可以通過癥狀在不同疾病上的特征性不同以提高預(yù)測疾病的準(zhǔn)確性,“疾病—科室”權(quán)重通過不同科室對(duì)相同疾病治療的權(quán)威性進(jìn)行優(yōu)化。WBDPMS算法在各種權(quán)重設(shè)置情況下均比加權(quán)求和算法精確率更高,且包含的權(quán)重越多提升越顯著。同時(shí),由于ICD疾病層次可以使未鏈接到科室的疾病節(jié)點(diǎn)找到適合的科室,預(yù)測效果比沒用ICD疾病層次的效果更優(yōu)。

6 結(jié)論與未來工作

本文實(shí)現(xiàn)了一個(gè)基于癥狀—疾病—科室—醫(yī)院知識(shí)圖譜的智能導(dǎo)診平臺(tái),解決了主訴識(shí)別,圖譜知識(shí)表示與多源圖譜融合等難點(diǎn)問題,推薦正確率達(dá)到了0.88,并在區(qū)域衛(wèi)生平臺(tái)成功上線。在未來的工作中,我們將通過引入對(duì)話系統(tǒng),增強(qiáng)患者與系統(tǒng)之間的交互。在一次問詢之后,系統(tǒng)將主動(dòng)詢問患者可能患有的其他癥狀,做進(jìn)一步的鑒別診斷,以提高推薦的精度。

猜你喜歡
癥狀
Don’t Be Addicted To The Internet
有癥狀立即治療,別“梗”了再搶救
出現(xiàn)哪些癥狀要給肝臟做個(gè)檢查?
缺素癥的癥狀及解決辦法
缺素癥的癥狀及解決辦法
預(yù)防心肌缺血臨床癥狀早知道
可改善咳嗽癥狀的兩款藥膳
瓜類蔓枯病發(fā)病癥狀及其防治技術(shù)
吉林蔬菜(2017年10期)2017-11-01 07:47:04
夏季豬高熱病的癥狀與防治
以肺內(nèi)病變?yōu)槭装l(fā)癥狀的淋巴瘤多層螺旋CT與PET/CT表現(xiàn)
主站蜘蛛池模板: 国产欧美日韩另类| 国产午夜精品鲁丝片| 青青青国产视频手机| 精品国产乱码久久久久久一区二区 | 亚洲精品第一在线观看视频| 亚洲有无码中文网| 日韩国产欧美精品在线| 欧美19综合中文字幕| 91精品国产一区自在线拍| 久久国产精品国产自线拍| 亚洲三级网站| 国产区在线观看视频| 国产精品99久久久久久董美香| 日韩av高清无码一区二区三区| 香蕉视频国产精品人| 91蝌蚪视频在线观看| 91外围女在线观看| 成年人久久黄色网站| 久久精品嫩草研究院| 亚洲开心婷婷中文字幕| A级全黄试看30分钟小视频| 片在线无码观看| 精品国产成人av免费| 国产乱子伦视频在线播放| 欧美精品亚洲精品日韩专区va| 亚洲国产天堂久久综合| 亚洲国产午夜精华无码福利| 丝袜高跟美脚国产1区| 亚洲AⅤ波多系列中文字幕| 久久国产精品嫖妓| 久久久久久久蜜桃| 亚洲人视频在线观看| 亚洲伦理一区二区| 日本亚洲成高清一区二区三区| 五月婷婷综合网| 中文字幕在线观| 漂亮人妻被中出中文字幕久久 | 中日韩欧亚无码视频| 欧美一级片在线| 日本午夜影院| 成人免费网站在线观看| 无码一区18禁| 天堂中文在线资源| 国产在线欧美| 国产欧美日韩视频怡春院| 国产欧美在线观看一区| 久久久久亚洲精品无码网站| 青草国产在线视频| 国产亚洲精品yxsp| 亚洲人成成无码网WWW| 美女被操黄色视频网站| 波多野结衣AV无码久久一区| 22sihu国产精品视频影视资讯| 亚洲国产中文欧美在线人成大黄瓜| 色噜噜久久| 亚洲乱亚洲乱妇24p| 国产va视频| 亚洲综合二区| 亚洲欧美成人综合| 全午夜免费一级毛片| 欧美人与牲动交a欧美精品 | 亚洲精品国产成人7777| 国产日韩欧美在线播放| 色欲不卡无码一区二区| 亚洲中字无码AV电影在线观看| 国产亚洲第一页| 日韩精品一区二区三区swag| 麻豆精品在线播放| 国产一级片网址| 欧美日韩精品一区二区视频| 亚洲天堂日韩av电影| 国产 日韩 欧美 第二页| 国产正在播放| 激情無極限的亚洲一区免费| 国产在线观看精品| 成色7777精品在线| 无码国产伊人| 在线播放精品一区二区啪视频| 园内精品自拍视频在线播放| 青青青国产免费线在| 国产成人午夜福利免费无码r| 91精品专区国产盗摄|