999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫(yī)學(xué)知識圖譜自動構(gòu)建研究

2022-03-11 12:39:28戴國琳劉新遙萬艷麗
醫(yī)學(xué)信息 2022年4期
關(guān)鍵詞:語義用戶方法

馬 浩,戴國琳,劉新遙,萬艷麗

(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)

隨著我國醫(yī)療技術(shù)的發(fā)展和醫(yī)療領(lǐng)域信息化水平的提升,生物醫(yī)學(xué)文獻、電子病歷等大量的數(shù)據(jù)迅速產(chǎn)生,這給醫(yī)學(xué)的發(fā)展提供了重要的資源。如何合理、有效地利用海量醫(yī)學(xué)數(shù)據(jù)成為了一項重要的研究課題。知識圖譜最早是谷歌的一個知識庫,它使用語義檢索來提高谷歌搜索的質(zhì)量[1]。知識圖譜的基本組成是“實體-關(guān)系-實體”三元組和“實體-屬性-屬性值”對,其具有強大的語義處理能力,能夠?qū)︶t(yī)學(xué)知識進行合理的表示及利用,為醫(yī)學(xué)的發(fā)展提供有力支持。醫(yī)學(xué)知識圖譜也是知識圖譜應(yīng)用的重要領(lǐng)域之一,目前醫(yī)學(xué)領(lǐng)域經(jīng)典的醫(yī)學(xué)知識圖譜有北京大學(xué)、鄭州大學(xué)和鵬城實驗室構(gòu)建的中文醫(yī)學(xué)知識圖譜[2]、上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識圖譜[3]、中國中醫(yī)科學(xué)院構(gòu)建的中醫(yī)臨床知識圖譜[4]、中醫(yī)養(yǎng)生知識圖譜[5]等。本文主要對醫(yī)學(xué)知識圖譜的自動構(gòu)建情況進行總結(jié),以期為醫(yī)學(xué)知識圖譜的構(gòu)建及應(yīng)用提供借鑒。

1 醫(yī)學(xué)知識圖譜構(gòu)建

構(gòu)建醫(yī)學(xué)知識圖譜首先需要從非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)源中,通過知識抽取和知識融合技術(shù)得到結(jié)構(gòu)化的知識并將其存儲于數(shù)據(jù)庫中,形成的醫(yī)學(xué)知識圖譜可以支持構(gòu)建醫(yī)療語義搜索引擎、醫(yī)療問答系統(tǒng)和醫(yī)療決策支持系統(tǒng),具體構(gòu)建流程見圖1。

圖1 醫(yī)學(xué)知識圖譜構(gòu)建流程

1.1 命名實體識別 命名實體識別的概念在1996 年的MUC-6 會議上被提出,當(dāng)時用來識別文本中的人名、機構(gòu)名和地理位置[6]。在醫(yī)學(xué)領(lǐng)域中,命名實體主要包括疾病名、藥物名等。命名實體識別早期一般采用基于規(guī)則和詞典的方法,此種方法可以取得較高的準(zhǔn)確率,但召回率較低,規(guī)則構(gòu)建的難度較大,遷移性較差。機器學(xué)習(xí)的方法一般把命名實體識別看作是序列標(biāo)注任務(wù),常用的模型有支持向量機(support vector machine,SVM)[7]、條件隨機場(conditional random field,CRF)[8]等。機器學(xué)習(xí)的方法需要手工構(gòu)建特征,構(gòu)建過程費時費力,且這些特征往往不能擴展到其他任務(wù)。

深度學(xué)習(xí)的方法可以自動提取有效特征,不需要人工干預(yù),很好的節(jié)省人力。目前在命名實體識別任務(wù)中最經(jīng)典的深度學(xué)習(xí)方法是BiLSTM-CRF模型[9]。該模型的輸入為經(jīng)過預(yù)訓(xùn)練得到的詞向量,通過前向和后向的LSTM 層提取特征,最后經(jīng)過CRF 層得到標(biāo)簽序列。但是該模型也有一些缺陷,比如BiLSTM-CRF 模型不能利用全局的上下文信息。對此,曾青霞等[10]在模型中加入注意力機制,在CCKS2018 和CoNLL 數(shù)據(jù)集中進行了實驗,發(fā)現(xiàn)加入了注意力機制后模型的準(zhǔn)確率有所提高。此外,深度學(xué)習(xí)的方法需要大規(guī)模的標(biāo)注數(shù)據(jù),在數(shù)據(jù)規(guī)模較小的情況下表現(xiàn)不佳。陳美杉等[11]提出了一種KNN-BERT-BiLSTM-CRF 模型,通過遷移學(xué)習(xí)的方法對肝癌患者提問的文本進行命名實體識別,發(fā)現(xiàn)該方法取得了較高的F1 值,并且只需要少量的標(biāo)注語料。

1.2 關(guān)系抽取 實體關(guān)系抽取任務(wù)在1998 年的MUC-7[12]會議上第1 次被提出,該會議給出了3 種關(guān)系模板:Location_of、Employee_of 和Product_of。在醫(yī)學(xué)領(lǐng)域的關(guān)系主要有疾病導(dǎo)致癥狀、檢查證實疾病等。關(guān)系抽取的方法早期有基于共現(xiàn)和基于規(guī)則的方法。基于共現(xiàn)的方法比較簡單,召回率高,但精確度較低。基于規(guī)則的方法準(zhǔn)確率較高,但召回率較低,可移植性差。基于機器學(xué)習(xí)的方法可以分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法。有監(jiān)督的方法具有較高的準(zhǔn)確率,但是依賴于有標(biāo)注的語料庫,半監(jiān)督和無監(jiān)督的方法可以減少對人工標(biāo)注數(shù)據(jù)的依賴。

基于深度學(xué)習(xí)的方法也可以進行醫(yī)學(xué)實體間的關(guān)系抽取。張志昌等[13]使用雙向的GRU 聯(lián)合注意力機制進行中文電子病歷中的關(guān)系抽取。丁龍[14]提出一種基于注意力機制的BiGRU-CNN 模型進行電子病歷中的關(guān)系抽取,與其他模型相比,該方法取得了最高的F1 值。李青青等[15]提出了一種基于Attention機制的主輔多任務(wù)模型抽取生物醫(yī)學(xué)實體間的關(guān)系,該方法能夠利用多個任務(wù)之間的相關(guān)信息,提升生物醫(yī)學(xué)關(guān)系抽取的效果。

以上方法都是流水線的方法,即先抽取實體再抽取實體之間的關(guān)系,這種方法會存在錯誤傳播的問題,并且無法充分利用兩個任務(wù)之間的相關(guān)信息。牧楊子[16]使用BiLSTM 模型進行中文電子病歷的實體關(guān)系聯(lián)合抽取,較好的完成了實體關(guān)系聯(lián)合抽取任務(wù)。羅凌[17]提出一種新的標(biāo)注策略來提取生物醫(yī)學(xué)文本中的重疊關(guān)系,使用Att-BiLSTM-CRF 模型對實體關(guān)系進行聯(lián)合抽取,取得了優(yōu)于流水線方法的結(jié)果。周侗[18]使用圖卷積網(wǎng)絡(luò)聯(lián)合實體識別任務(wù)和關(guān)系抽取任務(wù),進行中文電子病歷的實體關(guān)系聯(lián)合抽取,取得了很好的效果。

1.3 實體對齊 在醫(yī)學(xué)知識圖譜的構(gòu)建過程中,醫(yī)學(xué)實體“多詞一義”的情況十分普遍,比如“帕金森癥”還可表述為“帕金森障礙”“帕金森綜合征”“PD”等。通過實體對齊工作可以對這些冗余的知識整合加工,提高知識的質(zhì)量。實體對齊也可稱為共指消解,其目標(biāo)是發(fā)現(xiàn)多個知識庫中指代現(xiàn)實世界中同一事物的實體,并將它們進行鏈接,從而可以進行多源知識的融合[19]。實體對齊可以通過基于屬性相似度的成對實體對齊和考慮了實體間關(guān)系的集體實體對齊來實現(xiàn)。成對實體對齊常用方法有基于傳統(tǒng)概率模型的方法和基于機器學(xué)習(xí)的方法等。集體實體對齊常用的方法有基于向量空間模型的方法、基于條件隨機場模型的方法、基于相似性傳播的方法等。

目前,基于知識表示學(xué)習(xí)的實體對齊方法是研究的熱點。這種方法可以充分利用知識圖譜中潛在的語義關(guān)系,有助于提高實體對齊的效果,具體的有基于翻譯模型[20]的方法和基于圖卷積神經(jīng)網(wǎng)絡(luò)[21]的方法。在醫(yī)學(xué)領(lǐng)域,孫倩南[22]使用TransE 算法對實體和關(guān)系進行嵌入,對不同數(shù)據(jù)源的呼吸科室醫(yī)療數(shù)據(jù)進行了實體對齊工作。滕飛等[23]在表示學(xué)習(xí)的基礎(chǔ)上,根據(jù)醫(yī)學(xué)知識的特點,加入詞根集和規(guī)則用于醫(yī)學(xué)實體對齊任務(wù),提高了實體對齊的準(zhǔn)確性。程瑞[24]通過圖卷積網(wǎng)絡(luò)對醫(yī)療知識圖譜中的關(guān)系信息和結(jié)構(gòu)信息進行建模,使用TransE 對屬性信息進行建模,最終將兩者融合進行實體對齊,在DBP15K數(shù)據(jù)集上取得了較好的效果。

2 醫(yī)學(xué)知識圖譜應(yīng)用

醫(yī)學(xué)知識圖譜能夠?qū)︶t(yī)學(xué)知識進行結(jié)構(gòu)化表示并在此基礎(chǔ)上進行查詢與推理,目前主要應(yīng)用于醫(yī)療語義搜索引擎、醫(yī)療問答系統(tǒng)、醫(yī)療決策支持系統(tǒng)等。

2.1 醫(yī)療語義搜索引擎 基于醫(yī)學(xué)知識圖譜的醫(yī)療語義搜索引擎可以準(zhǔn)確地理解用戶的搜索意圖,提高用戶的搜索體驗,幫助用戶快速找到自己感興趣的內(nèi)容。當(dāng)用戶進行查詢時,語義搜索引擎可以將用戶查詢的關(guān)鍵詞映射到醫(yī)學(xué)知識圖譜中的概念之上,根據(jù)醫(yī)學(xué)知識圖譜中的概念層次結(jié)構(gòu)進行推理,通過知識卡片的形式向用戶返回相關(guān)的知識。目前谷歌、百度等搜索引擎都已經(jīng)將知識圖譜嵌入了搜索引擎。谷歌可以提供約400 種健康狀況的信息,當(dāng)用戶搜索疾病信息時,它可以通過信息卡片的形式展示疾病的特征。百度構(gòu)建的知識圖譜“知心”,可以用于支持用戶對于醫(yī)療信息的搜索。受限于醫(yī)學(xué)知識圖譜的規(guī)模和質(zhì)量,目前基于知識圖譜的醫(yī)療語義搜索引擎的應(yīng)用范圍和效果仍有待進一步提高。

2.2 醫(yī)療問答系統(tǒng) 醫(yī)療問答系統(tǒng)是搜索系統(tǒng)的一種高級形式,可以通過自然語言來準(zhǔn)確地回答用戶的問題。對于用戶提出的問題,基于知識圖譜的醫(yī)療問答系統(tǒng)首先通過命名實體識別、關(guān)系抽取等自然語言處理技術(shù)對用戶的問句進行語義解析,理解用戶的問題,然后生成知識圖譜的查詢語句在知識圖譜中進行查詢,最后向用戶返回答案。目前醫(yī)療問答系統(tǒng)的產(chǎn)品如北京慧醫(yī)明智科技有限公司的“慧醫(yī)大白”還有國外的“沃森醫(yī)生”都可以提供基于醫(yī)學(xué)知識圖譜的醫(yī)療問答。也有不少研究者對醫(yī)療問答系統(tǒng)的構(gòu)建進行了探索,如康莉[25]基于構(gòu)建的心血管病知識圖譜,采用深度學(xué)習(xí)的方法進行語義解析,最終實現(xiàn)了心血管疾病知識的問答系統(tǒng)。曹明宇等[26]構(gòu)建了原發(fā)性肝癌的知識圖譜,并基于此構(gòu)建了原發(fā)性肝癌知識問答系統(tǒng),可以對肝細胞癌相關(guān)問題進行回答。但是目前仍沒有較為成熟的醫(yī)療問答系統(tǒng)出現(xiàn),知識圖譜的完整性、系統(tǒng)理解用戶問題的準(zhǔn)確性、推理的準(zhǔn)確性及系統(tǒng)能回答問題的復(fù)雜性等方面都有待提高。

2.3 醫(yī)療決策支持系統(tǒng) 基于醫(yī)療知識圖譜,可以構(gòu)建醫(yī)療決策支持系統(tǒng)進行自動診斷,根據(jù)癥狀和化驗結(jié)果給出診斷和治療方案,幫助醫(yī)生減少誤診的發(fā)生,提高醫(yī)療工作的質(zhì)量。基于醫(yī)學(xué)知識圖譜的醫(yī)療決策支持系統(tǒng)主要通過推理引擎來完成決策支持過程。當(dāng)用戶輸入癥狀和檢查結(jié)果,推理引擎根據(jù)知識圖譜和用戶的輸入給出診斷結(jié)果或接下來的治療方案。目前百度的“靈醫(yī)”、阿里巴巴的“Doctor You”、騰訊的“覓影”,都可以為醫(yī)生提供臨床決策支持服務(wù)。國外的“沃森醫(yī)生”可以提供針對腫瘤疾病的決策支持,目前已經(jīng)在部分醫(yī)院得到應(yīng)用。Gong F 等[27]利用知識圖譜實現(xiàn)了對患者的用藥推薦并取得了良好的效果。鄭少宇等[28]基于醫(yī)學(xué)教材、診療指南等知識源構(gòu)建了常見病的知識圖譜,基于此開發(fā)了對于常見病的診斷輔助系統(tǒng),可以在主要臨床環(huán)節(jié)有效地進行決策輔助。目前醫(yī)療決策支持系統(tǒng)一般只能對醫(yī)療決策提供輔助,其提供決策的準(zhǔn)確性還有待加強。

3 總結(jié)

知識圖譜已成為當(dāng)前研究的熱點,但由于醫(yī)療大數(shù)據(jù)具有專業(yè)性強,結(jié)構(gòu)復(fù)雜等特點,醫(yī)學(xué)知識圖譜的自動構(gòu)建和應(yīng)用依然面臨很大的挑戰(zhàn)。在醫(yī)學(xué)知識抽取環(huán)節(jié),抽取算法的準(zhǔn)確率普遍不高,限制條件較多,可擴展性不強。醫(yī)學(xué)實體對齊算法的計算復(fù)雜度較高,實體對齊方法缺乏訓(xùn)練數(shù)據(jù),多語言的實體對齊也較為困難。在醫(yī)學(xué)知識應(yīng)用方面,由于現(xiàn)有醫(yī)學(xué)知識推理能力的限制,醫(yī)療決策支持系統(tǒng)的準(zhǔn)確性暫時還不能滿足臨床輔助決策要求。

總之,醫(yī)學(xué)知識圖譜能夠促進醫(yī)學(xué)數(shù)據(jù)的有效利用,進而促進醫(yī)學(xué)的發(fā)展。我國醫(yī)療信息化水平的發(fā)展及海量醫(yī)學(xué)數(shù)據(jù)的產(chǎn)生為醫(yī)學(xué)知識圖譜的發(fā)展提供了契機。相信在不久的將來,隨著醫(yī)學(xué)知識圖譜構(gòu)建的發(fā)展,其將在醫(yī)療領(lǐng)域發(fā)揮更大的作用。

猜你喜歡
語義用戶方法
語言與語義
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認(rèn)知范疇模糊與語義模糊
如何獲取一億海外用戶
主站蜘蛛池模板: 午夜丁香婷婷| 乱色熟女综合一区二区| 亚洲v日韩v欧美在线观看| 九色在线观看视频| AⅤ色综合久久天堂AV色综合| 国产小视频网站| 中国丰满人妻无码束缚啪啪| 精品丝袜美腿国产一区| 亚洲色大成网站www国产| 人妻熟妇日韩AV在线播放| 日本少妇又色又爽又高潮| 国产一级裸网站| 福利在线不卡一区| 免费av一区二区三区在线| 中文字幕在线视频免费| 美女无遮挡被啪啪到高潮免费| 精品第一国产综合精品Aⅴ| 亚洲浓毛av| 国产亚洲高清在线精品99| 久久综合色播五月男人的天堂| 91欧洲国产日韩在线人成| 国产香蕉在线视频| 久久国产精品电影| 特级毛片免费视频| 97国产一区二区精品久久呦| 婷婷六月综合| 福利一区在线| 波多野结衣一区二区三视频 | www成人国产在线观看网站| 亚洲欧美日韩中文字幕在线一区| 欧美a级在线| 波多野结衣二区| 日本黄色a视频| 亚洲欧美在线精品一区二区| 高h视频在线| 91精品免费高清在线| 九九九国产| 欧美色丁香| 91久久偷偷做嫩草影院| 欧洲在线免费视频| 日韩免费中文字幕| 国产成人91精品| 亚洲一区二区三区国产精华液| 色哟哟国产成人精品| 波多野结衣中文字幕一区二区| 日韩区欧美区| 国产激情无码一区二区APP| 免费人成网站在线观看欧美| 在线国产综合一区二区三区| 国产亚洲美日韩AV中文字幕无码成人| 国产色网站| 国产麻豆91网在线看| 亚洲高清日韩heyzo| 在线播放国产一区| 国产网站免费| 国产视频久久久久| 免费高清毛片| 99伊人精品| 青青久视频| 99久久免费精品特色大片| 亚洲色图狠狠干| 22sihu国产精品视频影视资讯| 国产精品人成在线播放| 97青青青国产在线播放| 在线观看精品国产入口| 综1合AV在线播放| 国产精品亚洲天堂| 91亚洲精选| 欧美一级专区免费大片| 国产午夜看片| 国产特级毛片| 搞黄网站免费观看| 国产精品片在线观看手机版| 国产亚洲精品91| 中文国产成人精品久久| 国产91视频观看| 国产99在线| 欧美精品三级在线| 亚洲欧美天堂网| 欧美啪啪一区| 天天做天天爱夜夜爽毛片毛片| 国产永久在线观看|