999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文醫學知識圖譜CMeKG構建初探

2019-10-21 09:10:58奧德瑪楊云飛穗志方代達勱常寶寶李素建昝紅英
中文信息學報 2019年10期
關鍵詞:概念文本

奧德瑪,楊云飛,穗志方,代達勱,常寶寶,李素建,昝紅英

(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 鵬城實驗室,廣東 深圳518055;3. 鄭州大學 信息工程學院,河南 鄭州 450001)

0 引言

2012年,谷歌提出了知識圖譜(Knowledge Graph)的概念,為世界知識和領域知識的構建提供了一個可資借鑒的手段[1]。知識圖譜的基本組成是由頭實體、尾實體和兩者之間的關系組成的三元組關系。目前,對知識圖譜的研究應用主要包括通用知識圖譜和垂直領域知識圖譜。典型的通用知識圖譜有Google Knowledge Graph[1]、YAGO[2]、DBPedia[3]、CN-DBpedia[4]、XLore[5]等。雖然通用知識圖譜收集了大量的領域知識,但是受到概念約束,無法完整描述比較復雜的領域知識。垂直領域知識圖譜在領域知識的描述方面優于通用知識圖譜,但常采用手工構建方法,因此其構建成本很高。

在知識圖譜概念提出之前,眾多研究機構已經利用知識庫的存儲方式構建了大量核心醫學資源,如世界衛生組織維護的國際疾病分類代碼ICD-10[6]、美國國立醫學圖書館的一體化醫學語言系統UMLS[7]及其收錄的100多種詞表和分類體系、國際醫療術語標準開發組織維護的系統化臨床醫學術語集SNOMED-CT[8]、Linked Open Data(LOD)收集的1 000多種生命科學知識庫、BioPortal[9]、Bio2RDF[10]等。上述醫學核心資源對醫學領域的相關知識進行了專業的描述,這些資源可服務于醫學文獻檢索或醫學術語標準化等醫學信息化應用,但還不能滿足現代智慧醫療對醫學知識描述的結構化、精細化和自動化的需求。

鑒于醫學知識圖譜在知識推理、智能問答、輔助診斷等智能醫療應用中的重要作用,已有一些單位陸續開展了醫學知識圖譜的構建工作。中國中醫科學院中醫藥信息研究所基于已有的中醫藥學語言系統[11]構建了中醫藥知識圖譜[12]、上海曙光醫院和華東理工大學構建了中醫藥知識圖譜[13]、華東理工大學構建了中文癥狀庫[14]、中國醫學科學院醫學信息研究所構建了醫藥衛生知識服務系統知識圖譜[15]等。不過,現有醫學知識圖譜從規模化、規范化、形式化、體系性等方面都仍有很大的提升空間。如何基于高效的知識工程方法、權威的醫學數據資源、精準的知識描述體系和先進的文本挖掘技術,構建大規模、高質量的醫學知識圖譜,仍是極具挑戰性的課題。

針對上述挑戰,本文利用自然語言處理與文本挖掘技術,以人機結合的方式研發了中文醫學知識圖譜第一版CMeKG 1.0。本文綜述了CMeKG構建過程中的描述體系、關鍵技術、構建流程以及醫學知識描述相關問題。本文組織結構如下: 第1節介紹醫學知識圖譜相關研究工作,第2節介紹CMeKG構建的總體方案,第3節介紹醫學知識描述體系,第4節介紹知識提取技術,第5節介紹醫學知識圖譜構建的初步結果,第6節為總結與展望。

1 相關工作

醫學領域術語和知識資源的收集與構建由來已久,已取得顯著的成果。比較典型的包括一些應用廣泛的醫學術語集,如ICD-10、ATC[16]和MeSH[17]等。

ICD-10是世界衛生組織維護的國際疾病分類代碼,它是包含疾病、癥狀、體征、異常發現、社會環境以及外部原因導致的損傷或疾病的代碼。ICD-10編碼以樹狀層級結構描述了22大類的10 000多個概念,通常輔助于公共衛生組織跟蹤疾病、保險公司理賠以及醫院存儲電子病歷等任務。ATC是世界衛生組織維護的解剖學、治療學及化學分類系統,它的本體結構依據的是藥物成分對人體解剖學的治療、藥理和化學特征效應,ATC共包含消化道、血液形成器官、心血管等14大類解剖學概念對應的藥物成分及其用法用量標準。MeSH是美國國立醫學圖書館編制的醫學主題詞表,它包含15大類所屬的18 000多個醫學主題詞,主要輔助PubMed標引和檢索醫學文獻。

中國中醫科學院中醫藥信息研究所構建的中醫藥知識圖譜包含中醫藥學語言系統的100余萬語義關系,其主要目的是形象地表達概念之間的關系,通過瀏覽界面提高用戶檢索領域知識的體驗。隨后,上海曙光醫院也構建了中醫藥知識圖譜,實現了面向臨床應用的半自動化知識圖譜的構建和知識問答、輔助開藥等應用。華東理工大學構建的中文癥狀庫是結合中醫和西醫知識自動構建的知識圖譜。中文癥狀庫涉及10萬多個實體及實體之間的20余種語義關系,共包含60多萬個三元組關系。中國醫學科學院醫學信息研究所構建的醫藥衛生知識服務系統知識圖譜基于醫學百科的醫學知識,以可視化界面展開醫學百科知識。

綜上所述,國外醫學信息化領域存在結構化程度較高、規模較大的資源(例如,UMLS等),而中文醫學知識目前以非結構化信息為主,缺少大規模結構化的開源資源。目前中文的醫學知識圖譜在覆蓋的知識規模[15]、知識的描述規范體系[14]、知識的開源性[12-13]和形式化等方面還存在諸多不足。因此,我們的研究目標是建立大規模、高質量的中文醫學知識圖譜,為智慧醫療奠定專業知識基礎。

2 中文醫學知識圖譜CMeKG構建總體方案

目前關于現代醫學方面的中文醫學知識圖譜還比較少。因此本文定位于現代醫學中文知識圖譜工程構建研究,旨在介紹我們開發的中文醫學知識圖譜,集中描述其總體構建流程和資源概貌。CMeKG的最終目標是制訂層次清晰、高度關聯的結構化醫學知識描述體系,研發高性能的醫學知識圖譜構建方法和關鍵技術;搭建基于自然語言處理技術的知識圖譜構建平臺,形成知識圖譜構建的自動化和規范化工程模式;采集加工多級醫療數據,建立高質量的中文醫學知識圖譜。作為CMeKG構建的第一階段,我們搭建了中文醫學知識圖譜的基礎框架,并建立知識圖譜第一版。

在CMeKG的構建過程中,我們在語料處理和知識提取時充分利用了中文分詞、命名實體識別以及關系提取技術,通過技術手段提升了醫學知識圖譜構建的自動化程度,擴大了可處理的醫學文本的來源和規模,使得知識圖譜的信息更充分。同時,作為一個醫學知識圖譜,不但要保證知識來源的充分性,而且要考慮知識組織和知識內容的權威性。針對后者我們充分利用了醫學領域國際標準,如ICD-10、ATC、MeSH來組織和引導知識圖譜構建過程,保證我們的醫學知識的權威性和系統性?;谝陨峡紤],中文醫學知識圖譜CMeKG的構建流程如圖1所示。

圖1 CMeKG構建流程

首先,我們參考國際標準,在醫學專家的指導下設計醫學知識圖譜模式層的規范體系。之后,在算法自動提取及人工標注、校對的基礎上,整合提取醫學概念關系實例,并進行實體對齊和歸一化處理。在上述步驟完成后,根據醫學專家的評價和反饋,迭代地修正醫學知識圖譜。最終,形成中文醫學知識圖譜CMeKG 1.0,并在可視化平臺上展示。

3 醫學知識描述體系設計

CMeKG主要由疾病、藥物和診療技術類概念及其關系和屬性組成。CMeKG的醫學知識抽象描述框架如圖2所示,圖2中以支氣管肺癌為例,描述了對應的主要實體關系和屬性。

圖2 醫學知識抽象描述框架

3.1 醫學概念分類體系

概念分類體系的專業性和權威性對醫學知識圖譜的質量具有十分重要的作用,本文參考ICD-10、ATC、MeSH等國際標準醫學術語集,將CMeKG的概念層設計為15大類,如表1所示。

表1 概念分類體系規范

續表

3.2 醫學概念的關系描述框架

為了更豐富、更精準地描述不同種類的醫學知識,基于上述醫學概念分類體系,我們針對疾病、藥物和診療技術及設備等各類醫學概念進行細化描述,定義了各類概念的關系描述框架。每個概念的關系描述框架由概念間的關系(概念關系)和概念與屬性之間的關系(屬性關系)構成。我們共定義了67種概念關系, 例如,<藥物類—癥狀類—適應癥>、<疾病類—診療技術及設備類—檢查>,以及194種屬性關系,用來描述某個概念實例的屬性值(數字或字符串),如同義詞、規格、成分、發病年齡、住院時間等。表2以支氣管肺癌為例,展示了疾病類概念的關系描述框架。

對于其他類概念的主要描述信息,簡要列舉如下:

? 藥物類西藥子類實體間常見關系: OTC類型、不良反應、分類、商品名、性狀、成分、英文名、藥品監管分級、藥品類型、規格、適應癥

? 藥物類中草藥子類實體間常見關系: 主治、入藥部位、分布區域、別稱、功效、屬、性味、毒性、界、目、種、科、綱、貯藏、采集時間

? 診療技術及設備類實體間常見關系: 就診科室、所屬分類、相關疾病、相關癥狀、英文名

表2 疾病類概念實體的關系描述框架

4 醫學知識提取技術

4.1 數據來源

我們在知識提取的過程中根據知識來源的權威性排序,分為: 國際/國家醫學標準術語集、醫學教材、臨床路徑指南、臨床實踐文件和醫學百科。CMeKG構建過程中使用了200余個權威的臨床路徑文檔、900余個臨床實踐文件以及百科類網絡資源等多源異構的醫學文本數據。

醫學標準術語集和醫學教材通常是國際或國家級機構統一規定的資源,其優點是權威性高、數據公開可靠。臨床路徑是針對某一種疾病建立的一套標準化治療模式與治療程序,是一個有關臨床治療的綜合模式,以循證醫學證據和指南為指導來促進治療組織和疾病管理的方法。臨床路徑通常包含醫院處理某一疾病時的標準指導和流程,具有專業性和權威性。臨床實踐是面向臨床醫生和患者提供特定臨床情況處理和指導的臨床決策支持工具。它將最新的研究成果、診斷步驟、治療步驟、指南、證據、專家意見整合在一起,為實際臨床工作及疑難情況提供可靠的信息。

4.2 自動構建技術

不同的醫學文本具有不同的形式特點。基于文本特點,分別使用了基于規則和基于深度學習的兩種方法對多來源醫學文本信息進行知識提取,本文主要涉及提取醫學概念關系三元組信息。自動提取技術框架如圖3所示,其中利用基于規則的方法提取臨床路徑、醫學網站和醫學百科中的醫學知識,利用基于深度學習的方法來提取臨床實踐中的醫學知識。

圖3 自動提取技術框架

基于規則的知識提取對于臨床路徑、醫學網站和醫學百科文本,我們缺乏標注數據,所以難以運用監督學習的方法來從中自動提取三元組。但是,這些數據并非是純粹的文本,我們在從網絡上爬取它們的過程中,同時也獲取了它們的半結構化信息,例如,段落層級、標題和小標題信息等。實踐發現,在這些半結構化信息的幫助下可以構建一個基于規則的自動提取系統,針對不同來源文本的不同特征,構造出多樣化的規則來對其進行概念關系的提取。我們對醫學百科數據構造了38類規則,對醫學網站數據構造了28類規則,對臨床路徑數據構造了17類規則,每一類規則由數條更具體的規則所組成,最后在包含了83類、數百條規則的規則系統下,我們從臨床路徑、醫學網站和醫學百科文本中提取出了百萬量級的概念關系三元組。通過抽樣的人工評測,評估了基于規則的知識提取的精確率,對于從臨床路徑、醫學網站和醫學百科中提取出來的三元組,其精確率分別達到了97%、96%和94%。

基于深度學習的知識提取隨著基于規則提取的三元組數據和人工標注的臨床實踐數據的積累,我們擁有了足夠豐富的資源,已在臨床實踐數據上實施基于深度學習的醫學知識提取。從文本中抽取三元組是一個被研究已久的任務,目前已經存在許多三元組抽取的方法,主要分為兩類: 一類是先進行實體識別再進行關系分類的pipeline方法;另一類是同時進行實體和關系抽取的聯合抽取方法。但無論是哪種方法,在現有數據集上的實驗結果都達不到令人滿意的效果,作為醫學知識圖譜中使用的三元組數據,其精確度一定要有較高程度的保障,否則可能會引來許多問題。我們的任務是從一篇文檔中抽取三元組,不同于以往的三元組抽取,其特殊性在于,數據中的一篇文檔總是圍繞著一個疾病實體來展開的,所以本質上只需要抽取另一個實體以及兩個實體之間的關系。如圖4所示,對于圍繞“皮膚鱗狀細胞癌”疾病的文檔,我們只需要抽取“Mohs手術”實體以及“手術治療”的關系即可。

圖4 關系提取任務圖示

考慮到這樣的特殊性,我們提出了一套新的基于標注的三元組抽取方法。我們采取“關系名+BMES”的標注方式,如果某個實體與文檔描述的疾病之間存在關系R,則用“R-B”來標注該實體的第一個字,“R-E”標注該實體的最后一個字,“R-M”標注該實體中間的字。如果該實體本身只有一個字,則用“R-S”來標注該實體。其他無關的字我們用“O”來標注。標注方式的示例如圖5所示。

圖5 “關系名+BMES”標注方式圖例

在這樣的標注方式下,我們采用了BiLSTM + softmax分類模型來預測每個字的標簽,先用雙向LSTM得到每個字的隱向量,然后將該隱向量通過MLP和Softmax層,使其變為一個c維的概率向量,其中c為標簽種類數。訓練時,我們首先按照“關系名+BMES”的標注方法將訓練集中的數據進行標注,然后將其送入模型進行學習。測試時,我們首先預測出每個字的標簽,然后對標簽進行匹配,即每找到一個配對同一關系R的完整的“BMES”集合,我們便取出這個集合對應的實體E,形成一個(疾病名,R,實體E)的三元組。我們的模型結構如圖3下方展開的方框部分所示。

我們用該方法在臨床實踐數據中提取了20余萬條三元組數據,通過抽樣的人工評測評估了基于深度學習的知識提取的精確率,其精確率達到了89.2%。這樣高精確率的自動提取方法在大幅提升知識庫構建效率的同時,能夠保證知識庫內容的高度可靠性。

5 中文醫學知識圖譜CMeKG 1.0

我們在醫學專家的配合下,制訂了醫學知識描述體系,收集了多來源的大規模醫學文本,通過人工標注和自動提取方法相結合,構建了中文醫學知識圖譜CMeKG。CMeKG 1.0版包括6 310種疾病、19 853種藥物、1 237種診療技術及設備,涵蓋疾病的臨床癥狀、發病部位、 藥物治療、手術治療、鑒別診斷、影像學檢查、高危因素、傳播途徑、多發群體、就診科室等以及藥物的成分、適應癥、用法用量、有效期、禁忌證等常見關系類型,關聯到的醫學實體達20余萬,CMeKG目前的概念關系實例及屬性三元組達100余萬。同時,基于以上醫學實體和關系三元組,我們開發了CMeKG的展示平臺,網址為:http: //cmekg.pcl.ac.cn/。

CMeKG使用百度開源可視化庫Echarts[16]展示知識圖譜,平臺展示內容主要包括樹狀結構和網狀圖譜兩部分,提供的功能包括實體的搜索、匹配、圖譜的鏈接和遍歷。對于每一個實體,選擇以該實體為主語的三元組進行顯示,連接同一節點的相同顏色節點代表相同的語義關系,整體效果呈現為以查詢實體為中心,具有語義關系的相關實體發散至四周的網狀結構,如圖6所示。

圖6 CMeKG結果展示圖

6 結束語

我們對醫學知識圖譜的構建研究才剛剛起步,本文綜述了CMeKG 1.0構建過程中的描述體系、關鍵技術、構建流程以及初步的構建結構。我們認為,未來服務于智慧醫療的知識圖譜應該滿足以下方面的要求: 知識來源具有權威性、知識組織具有系統性、知識內容具有豐富性、知識描述具有精準性、知識更新具有高效性。因此,醫學知識圖譜的構建任重而道遠,在未來我們將朝著構建大規模、高質量、融合文本、圖像與視頻等多模態信息的醫學知識圖譜的方向繼續努力。

致謝

感謝鄭州大學第一附屬醫院牛承志老師、鄭州大學第三附屬醫院趙悅淑主任及北京大學醫學部詹思延教授給予的指導建議!

猜你喜歡
概念文本
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: a色毛片免费视频| 欧美天堂在线| 亚洲国产日韩欧美在线| 亚洲精品国产日韩无码AV永久免费网| 亚洲三级片在线看| 91精品国产麻豆国产自产在线 | 亚洲精品中文字幕午夜| 一区二区午夜| 四虎影视国产精品| 人人爽人人爽人人片| 狼友av永久网站免费观看| 欧美一级高清视频在线播放| 国产成在线观看免费视频| 亚洲精品第一页不卡| 亚洲精品色AV无码看| 亚洲精品无码日韩国产不卡| 亚洲一区二区三区香蕉| 精品福利视频网| 久草青青在线视频| 日韩午夜片| 亚洲欧美激情小说另类| 88av在线| 超清无码一区二区三区| 在线免费看黄的网站| 又粗又硬又大又爽免费视频播放| 久久亚洲美女精品国产精品| 国产日本欧美亚洲精品视| a毛片免费在线观看| 天天综合网色| 国产特级毛片| 国产成人精品视频一区视频二区| 熟妇丰满人妻| 亚洲AV无码乱码在线观看裸奔| 一区二区三区精品视频在线观看| 国产黄在线观看| 香蕉99国内自产自拍视频| 国产伦精品一区二区三区视频优播| 日本AⅤ精品一区二区三区日| 狠狠色婷婷丁香综合久久韩国| 中国国产一级毛片| 天天摸天天操免费播放小视频| 国产亚洲视频免费播放| 欧美19综合中文字幕| 国产成人精品一区二区| 极品国产在线| 国产亚洲现在一区二区中文| 亚洲天堂免费在线视频| 国产玖玖玖精品视频| 国产91视频免费| 欧美综合区自拍亚洲综合绿色 | 亚洲欧洲AV一区二区三区| 欧美日本在线播放| 97在线免费视频| 亚洲第一成年网| 日本高清在线看免费观看| 国产成人调教在线视频| 国产超碰一区二区三区| 国产成人无码综合亚洲日韩不卡| 国产福利一区视频| 又爽又大又光又色的午夜视频| 亚洲色图综合在线| 精品一区二区三区中文字幕| 国产网站免费观看| 真人免费一级毛片一区二区| 亚洲人成人伊人成综合网无码| 欧美成人手机在线观看网址| 日日拍夜夜操| 好久久免费视频高清| 精品国产成人高清在线| 色综合久久久久8天国| 国产特一级毛片| 亚洲精品国产首次亮相| 91午夜福利在线观看| 婷婷伊人五月| 2019国产在线| 女同国产精品一区二区| 99久久国产精品无码| 国产sm重味一区二区三区| 91成人在线免费观看| 波多野结衣中文字幕一区| 亚洲色图在线观看| 国产精品视频观看裸模|