999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于糖尿病防治的醫學知識圖譜構建的研究

2020-10-29 05:38:50劉勇齊夢霽
醫學信息 2020年18期
關鍵詞:糖尿病

劉勇 齊夢霽

摘要:隨著我國居民生活方式的變化,糖尿病已成為流行病,且逐漸呈年輕化趨勢。作為一種長期慢性疾病,患者日常行為和自我管理能力對糖尿病的控制起到關鍵性的作用,為了促進糖尿病醫學知識的共享、傳播和利用,使得糖尿病患者擁有更積極的態度、科學的糖尿病知識和較好的糖尿病自我管理意識,本文提出了建立糖尿病的醫學知識圖譜,使用如醫學實體抽取、醫學實體關系抽取、醫學實體屬性抽取、醫學知識融合等自然語言的相關技術,在語義層面對醫學大數據進行了統一表達和組織,建立醫學知識服務和應用,旨在促進患者掌握糖尿病管理所需的知識和技能,提高患者的生活質量。

關鍵詞:糖尿病;醫學知識圖譜;關系抽取;自然語言處理

中圖分類號:R319 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:B ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.18.004

文章編號:1006-1959(2020)18-0011-04

Research on the Construction of Medical Knowledge Graph Based

on Diabetes Prevention and Treatment

LIU Yong1,QI Meng-ji2

(Information Center1,Science and Education Department2,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China)

Abstract:With the changes in the lifestyles of Chinese residents, diabetes has become an epidemic, and it is gradually showing a younger trend. As a long-term chronic disease, the daily behavior and self-management ability of patients play a key role in the control of diabetes. In order to promote the sharing, dissemination and utilization of diabetes medical knowledge, diabetic patients have a more positive attitude and scientific diabetes knowledge and better awareness of diabetes self-management, this article proposes to establish a diabetes medical knowledge map, using natural language related technologies such as medical entity extraction, medical entity relationship extraction, medical entity attribute extraction, medical knowledge fusion, etc. Big data is uniformly expressed and organized, and medical knowledge services and applications are established to promote patients to master the knowledge and skills required for diabetes management and improve the quality of life of patients.

Key words:Diabetes;Medical knowledge graph;Relation extraction;Natural language processing

知識圖譜(knowledge graph)是若干實體相互連接而成的語義網絡,是由Google在2012年正式提出的,目前比較流行的大規模知識庫有DBpedia、Freebase、Wikidata等。隨著醫療大數據時代的到來,基于本體的知識表示模型成為知識表示的主流方法,本體可定義為概念模型的明確的規范說明[1],它強調概念間的邏輯推理關系,基于語義網的本體描述語言成為研究和應用的熱點,包括資源描述框架(Resource Description Framework,RDF)。RDF定義了資源、屬性、值三種基本實體,作為一種基于資源標識符的三元組來描述語義實體間關系的知識組織的概念模型和邏輯模型,能夠表達醫學知識實體間的復雜關系。國內的知識譜圖研究起步相對較晚,主要集中于幾個大型的互聯網公司,如搜狗、百度等。知識圖譜在醫療行業的研究目前也在積極地探索中,北京大學,計算語言教育部重點實驗室,利用自然語言處理技術,以人機結合的方式研發了中文醫學知識圖譜第一版CMeKG1.0,為醫學知識圖譜的構建提供了很有意義的參考[2]。為了解決醫學知識圖譜中知識重復、知識質量和知識融合的問題,提出了在大數據驅動下的醫學知識圖譜構建方法[3]。針對醫學數據專業性強、結構復雜等特點,結合當前我國醫學知識圖譜構建在數據和技術層面臨的問題和挑戰,提出了相應的對策和建議[4]。本研究以《中國2型糖尿病防治指南(2017年版)》內容為核心,結合醫學詞典、電子病歷、各種醫學指南、專家共識等基礎數據,使用自然語言處理的相關技術,從糖尿病的教育與管理的角度出發,建立一套完整的糖尿病知識圖譜的構建方法,目標是提供一個深入了解糖尿病的全新視角,幫助患者不斷掌握疾病管理所需的知識和技能,最終實現糖尿病的被動救治向主動防治的轉變,降低人群中糖尿病發病風險,維護和促進全民健康。

1糖尿病知識圖譜構建

糖尿病知識圖譜的構建步驟見圖1,分為醫學知識表示、醫學知識抽取、醫學知識融合和知識圖譜存儲四個部分。

1.1醫學知識表示 ?醫療大數據的來源非常繁雜,各個醫學實體之間的關系也比較復雜,為了把相關信息表示成可理解的方式,需要相應的知識表示模型。①醫學術語規范化唯一概念標識:為了解決醫學術語在不同詞匯表中的差異,參照統一醫學語言系統(UMLS)、國際疾病分類(ICD-10)等,使用唯一概念標識對來自不同詞匯表源但相同的詞匯的概念進行編碼。如:參照ICD-10,疾病“2型糖尿病”對應的標準編碼是“E11.901”、疾病“糖尿病性下肢潰瘍”對應的標準編碼是“E14.6913”。有了唯一概念標識就可以把不同數據來源但具有相同概念的詞匯進行統一的編碼管理,使得醫學知識表示具有規范的數據表達方式。②基于語義的本體描述:RDF三元組RDF因其結構簡單、表述清晰,且具有于語義與關聯表達的靈活性優勢,可用于構建知識圖譜。RDF可表達實體以及實體之間的關系,具體形式為<實體,關系,實體>或者<實體,屬性,屬性值>,如<糖尿病,分型,2型糖尿病>,其中“糖尿病”和“2型糖尿病”是實體,“分型”是這兩個實體之間的關系。此外,RDF也可以用節點和關系組成的圖模型來表示,其中節點表示實體和屬性值,連線表示節點之間的關系。

1.2醫學知識抽取 ?醫學數據的知識信息抽取包括實體抽取、關系抽取和屬性抽取三個步驟。在糖尿病指南中,主要分為半結構和非結構化文本兩種類型。半結構化文本即文本中存在部分結構化的數據,兼顧了格式性和自由性,在抽取信息時,相對非結構化文本更為方便,見圖2。非結構化文本也被稱為自由化文本,一般沒有固定格式,經常是連續的字符串來描述相關內容,需要經過如分詞、實體識別等步驟才能獲取相關信息,如一段有關糖尿病診斷與分型的介紹,見圖3。

1.2.1醫學實體抽取[5] ?采用基于Lattice LSTM模型抽取實體[6],該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼,抽取如醫學文本中的藥物名稱、癥狀名、疾病名等。

1.2.2醫學實體關系抽取 ?為實現推理,還需要抽取醫學實體之間的關系[7],以形成知識圖譜。近年來,利用深度學習的方法抽取醫學實體語義的關系取得了長足發展,如模型中引入位置特征、依賴關系、先驗知識和注意力機制等附加特征,進一步提高了模型性能,見圖4。基于大規模的人工標注語料可進一步提高模型的性能。此外,將各模型混合在一起用于醫學語義關系抽取,可很好地利用各模型的優勢,提高醫學語義關系抽取的性能,如將基于深度學習和基于規則匹配的方法結合在一起,利用句法卷積神經網絡模型抽取存在某種關系的蛋白質實體對,最后基于句法模板和詞典匹配的方法抽取當前兩個蛋白質實體間的關系[8]。在實體關系抽取中,最重要的是關系指示詞的確認,有些是顯性的指示詞,如“癥狀是”“表現為”“可分為”等;有些是隱性的指示詞,如“對于兒童和青少年的糖尿病高危人群,宜從10歲開始,但青春期提前的個體則推薦從青春期開始”,此句中暗藏了關系指示詞“年齡”,即兒童糖尿病高危人群,年齡,10歲/青春期起。我們使用{B,I,O,E,S}三類標簽標注候選關系指示詞,B代表這個詞語是關系指示詞序列的開始,I代表這個詞語在關系指示詞的中間位置,O代表這個詞語不是關系指示詞的一部分,E代表這個詞語是關系指示詞的結束,S 代表這個詞語是一個完整的關系指示詞。圖5是一個標注樣例,是基于LSTM的雙向LSTM醫學實體關系抽取模型,表明高尿酸血癥與糖尿病之間具有[疾病癥狀]的關系,此種關系屬于隱含的關系,只有通過人工標注的方式才能完成。

1.2.3醫學實體屬性抽取 ?例如藥品的屬性包括不良反應、禁忌等,以實現對醫學實體的完整描述。

1.3 醫學知識融合 ?由于醫學大數據來源多樣的特點,且存在不規范術語、一詞多義或多詞同義的情況,因此需要根據知識表示模型合并已有結構化數據,以保證獲取醫學知識的質量。例如使用基于語料庫分析的知識獲取方法,結合現有的分類,對本體進行擴展[9]。在進行醫學知識融合的過程中,可以使用一個混合匹配模型的融合方法,見圖6。該融合過程中使用了字符匹配、語義匹配以及本體匹配的混合匹配模型,根據標準術語集,對輸入的醫學術語計算相應的匹配值,最后將匹配分值匯總,通過閾值判別來判定指定的醫學術語與標準術語中某醫學實體的匹配程度,從而達到醫學知識融合的目的。

2糖尿病知識圖譜的存儲與展示

Nero4j是一個圖形數據庫,基本要素包括:節點、屬性、關系,用來存儲由無數個節點相連構成的屬性圖[10]。圖7展示了每個醫學實體是如何與其他醫學實體連接或相互關聯的,它既具有高效的查詢功能,還具備可視化的能力。允許在不依賴于數據集總大小的情況下每秒快速遍歷數百萬個連接,擅長于管理高度連接的數據和復合查詢。Cypher是Neo4j的圖形查詢語言,它允許用戶從圖形數據庫中存儲和檢索數據[11]。Neo4j讓查詢圖形數據變得易于學習、理解和使用,但同時也融入了其他標準數據訪問語言的強大功能。

3總結

醫療大數據的分析與決策研究核心在于醫學知識的表示,與其相關的醫學信息的抽取、融合和分析顯得尤為重要。本文闡述了從多源異構的大數據中,如電子病歷、各種醫學指南、專家共識等數據源中獲取數據,通過自然語言的相關技術,如醫學實體抽取、醫學實體關系抽取、醫學實體屬性抽取、醫學知識融合等,在語義層面對醫學大數據進行了統一組織和表達,并構建了糖尿病醫學知識圖譜。最終促進患者不斷掌握糖尿病管理所需的知識和技能,提高糖尿病患者的自我管理能力,對糖尿病的防控起到了積極的作用。

參考文獻:

[1]Gruber TR.Toward principles for the design of ontologies used for knowledge sharing[J].International journal of human-computer studies,1995,43(5-6):907-928.

[2]奧德瑪,楊云飛,穗志方,等.中文醫學知識圖譜CMeKG構建初探[J].中文信息學報,2019,33(10):1-9.

[3]孫鄭煜,鄂海紅,宋美娜,等.基于大數據技術的醫學知識圖譜構建方法[J].軟件,2020,41(1):13-17.

[4]修曉蕾,吳思竹,崔佳偉,等.醫學知識圖譜構建研究進展[J].中華醫學圖書情報雜志,2018,27(10):33-39.

[5]Xu K,Zhou Z,Hao T,et al.A bidirectional LSTM and conditional random fields approach to medical named entity recognition[C]//International Conference on Advanced Intelligent Systems and Informatics.2017:355-365.

[6]Zhang Y,Yang J.Chinese ner using lattice lstm[J].arXiv,2018(v1):02023.

[7]Zeng D,Liu K,Chen Y,et al.Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the 2015 conference on empirical methods in natural language processing.2015:1753-1762.

[8]趙哲煥,楊志豪,孫聰,等.生物醫學文獻中的蛋白質關系抽取研究[J].中文信息學報,2018,32(7):82-90.

[9]Dieng-Kuntz R,Minier D,R??i?ka M,et al.Building and using a medical ontology for knowledge management and cooperative work in a health care network[J].Computers in Biology and Medicine,2006,36(7-8):871-892.

[10]任玉琪.基于CNKI的中文醫學知識圖譜構建與應用[D].大連理工大學,2019.

[11]王鑫,鄒磊,王朝坤,等.知識圖譜數據管理研究綜述[J].軟件學報,2019,30(7):2139-2174.

收稿日期:2020-06-03;修回日期:2020-06-13

編輯/錢洪飛

猜你喜歡
糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
中老年保健(2021年9期)2021-08-24 03:51:04
糖尿病知識問答
中老年保健(2021年7期)2021-08-22 07:42:16
糖尿病知識問答
中老年保健(2021年3期)2021-08-22 06:49:56
糖尿病知識問答
糖尿病離你真的很遙遠嗎
糖尿病離你真的很遠嗎
得了糖尿病,應該怎么吃
基層中醫藥(2018年2期)2018-05-31 08:45:04
主站蜘蛛池模板: 国产精品自拍露脸视频| 熟女日韩精品2区| 日本欧美一二三区色视频| 国产欧美日韩va另类在线播放| 国产18在线播放| 极品国产一区二区三区| 日韩一区二区在线电影| 一区二区午夜| 亚洲日韩日本中文在线| 国产网站黄| 日韩不卡免费视频| 国产欧美日韩资源在线观看| 国产成人区在线观看视频| 色精品视频| 国产成人精品在线| 日韩免费成人| 日韩在线欧美在线| 高清无码手机在线观看| 91久久国产综合精品女同我| 精品撒尿视频一区二区三区| 国产美女无遮挡免费视频网站| 亚洲熟女中文字幕男人总站| 欧美国产视频| 九九香蕉视频| 久久性视频| 91国内在线观看| 老色鬼欧美精品| 重口调教一区二区视频| 亚洲人成在线免费观看| 亚洲精品国产综合99| 国产又粗又猛又爽| 国产精品观看视频免费完整版| 亚洲乱码精品久久久久..| 国产男人的天堂| 亚洲欧美在线精品一区二区| 无码精品国产dvd在线观看9久| 国产精品不卡永久免费| 国产成人精品午夜视频'| 国产乱子伦手机在线| 久久久精品无码一区二区三区| 欧美成人第一页| 天天综合色天天综合网| 亚洲伊人久久精品影院| 九色最新网址| 色哟哟国产成人精品| www.狠狠| 日韩黄色在线| 尤物午夜福利视频| 国产精品久久久久久久久| 国产精品免费露脸视频| 香蕉精品在线| 茄子视频毛片免费观看| 亚洲浓毛av| 欧美另类精品一区二区三区| 欧美亚洲欧美区| 91av成人日本不卡三区| 亚洲色图欧美| 日本www在线视频| 99热6这里只有精品| 91久久国产综合精品女同我| 久久国产精品波多野结衣| 日本黄色不卡视频| 欧美日本视频在线观看| 无码免费试看| 亚洲一区二区三区国产精品| 97久久免费视频| 欧美日韩国产在线人成app| 欧美有码在线| 91蜜芽尤物福利在线观看| 国产三级a| 亚洲资源站av无码网址| 91丨九色丨首页在线播放| 亚洲欧美日韩久久精品| 国产精品对白刺激| 国产欧美日韩va另类在线播放| 囯产av无码片毛片一级| 欧美无专区| 国产日本欧美在线观看| 欧美怡红院视频一区二区三区| 色香蕉网站| 亚洲天堂视频网站| 国产精品一区二区无码免费看片|