劉勇 齊夢霽



摘要:隨著我國居民生活方式的變化,糖尿病已成為流行病,且逐漸呈年輕化趨勢。作為一種長期慢性疾病,患者日常行為和自我管理能力對糖尿病的控制起到關鍵性的作用,為了促進糖尿病醫學知識的共享、傳播和利用,使得糖尿病患者擁有更積極的態度、科學的糖尿病知識和較好的糖尿病自我管理意識,本文提出了建立糖尿病的醫學知識圖譜,使用如醫學實體抽取、醫學實體關系抽取、醫學實體屬性抽取、醫學知識融合等自然語言的相關技術,在語義層面對醫學大數據進行了統一表達和組織,建立醫學知識服務和應用,旨在促進患者掌握糖尿病管理所需的知識和技能,提高患者的生活質量。
關鍵詞:糖尿病;醫學知識圖譜;關系抽取;自然語言處理
中圖分類號:R319 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:B ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.18.004
文章編號:1006-1959(2020)18-0011-04
Research on the Construction of Medical Knowledge Graph Based
on Diabetes Prevention and Treatment
LIU Yong1,QI Meng-ji2
(Information Center1,Science and Education Department2,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China)
Abstract:With the changes in the lifestyles of Chinese residents, diabetes has become an epidemic, and it is gradually showing a younger trend. As a long-term chronic disease, the daily behavior and self-management ability of patients play a key role in the control of diabetes. In order to promote the sharing, dissemination and utilization of diabetes medical knowledge, diabetic patients have a more positive attitude and scientific diabetes knowledge and better awareness of diabetes self-management, this article proposes to establish a diabetes medical knowledge map, using natural language related technologies such as medical entity extraction, medical entity relationship extraction, medical entity attribute extraction, medical knowledge fusion, etc. Big data is uniformly expressed and organized, and medical knowledge services and applications are established to promote patients to master the knowledge and skills required for diabetes management and improve the quality of life of patients.
Key words:Diabetes;Medical knowledge graph;Relation extraction;Natural language processing
知識圖譜(knowledge graph)是若干實體相互連接而成的語義網絡,是由Google在2012年正式提出的,目前比較流行的大規模知識庫有DBpedia、Freebase、Wikidata等。隨著醫療大數據時代的到來,基于本體的知識表示模型成為知識表示的主流方法,本體可定義為概念模型的明確的規范說明[1],它強調概念間的邏輯推理關系,基于語義網的本體描述語言成為研究和應用的熱點,包括資源描述框架(Resource Description Framework,RDF)。RDF定義了資源、屬性、值三種基本實體,作為一種基于資源標識符的三元組來描述語義實體間關系的知識組織的概念模型和邏輯模型,能夠表達醫學知識實體間的復雜關系。國內的知識譜圖研究起步相對較晚,主要集中于幾個大型的互聯網公司,如搜狗、百度等。知識圖譜在醫療行業的研究目前也在積極地探索中,北京大學,計算語言教育部重點實驗室,利用自然語言處理技術,以人機結合的方式研發了中文醫學知識圖譜第一版CMeKG1.0,為醫學知識圖譜的構建提供了很有意義的參考[2]。為了解決醫學知識圖譜中知識重復、知識質量和知識融合的問題,提出了在大數據驅動下的醫學知識圖譜構建方法[3]。針對醫學數據專業性強、結構復雜等特點,結合當前我國醫學知識圖譜構建在數據和技術層面臨的問題和挑戰,提出了相應的對策和建議[4]。本研究以《中國2型糖尿病防治指南(2017年版)》內容為核心,結合醫學詞典、電子病歷、各種醫學指南、專家共識等基礎數據,使用自然語言處理的相關技術,從糖尿病的教育與管理的角度出發,建立一套完整的糖尿病知識圖譜的構建方法,目標是提供一個深入了解糖尿病的全新視角,幫助患者不斷掌握疾病管理所需的知識和技能,最終實現糖尿病的被動救治向主動防治的轉變,降低人群中糖尿病發病風險,維護和促進全民健康。
1糖尿病知識圖譜構建
糖尿病知識圖譜的構建步驟見圖1,分為醫學知識表示、醫學知識抽取、醫學知識融合和知識圖譜存儲四個部分。
1.1醫學知識表示 ?醫療大數據的來源非常繁雜,各個醫學實體之間的關系也比較復雜,為了把相關信息表示成可理解的方式,需要相應的知識表示模型。①醫學術語規范化唯一概念標識:為了解決醫學術語在不同詞匯表中的差異,參照統一醫學語言系統(UMLS)、國際疾病分類(ICD-10)等,使用唯一概念標識對來自不同詞匯表源但相同的詞匯的概念進行編碼。如:參照ICD-10,疾病“2型糖尿病”對應的標準編碼是“E11.901”、疾病“糖尿病性下肢潰瘍”對應的標準編碼是“E14.6913”。有了唯一概念標識就可以把不同數據來源但具有相同概念的詞匯進行統一的編碼管理,使得醫學知識表示具有規范的數據表達方式。②基于語義的本體描述:RDF三元組RDF因其結構簡單、表述清晰,且具有于語義與關聯表達的靈活性優勢,可用于構建知識圖譜。RDF可表達實體以及實體之間的關系,具體形式為<實體,關系,實體>或者<實體,屬性,屬性值>,如<糖尿病,分型,2型糖尿病>,其中“糖尿病”和“2型糖尿病”是實體,“分型”是這兩個實體之間的關系。此外,RDF也可以用節點和關系組成的圖模型來表示,其中節點表示實體和屬性值,連線表示節點之間的關系。
1.2醫學知識抽取 ?醫學數據的知識信息抽取包括實體抽取、關系抽取和屬性抽取三個步驟。在糖尿病指南中,主要分為半結構和非結構化文本兩種類型。半結構化文本即文本中存在部分結構化的數據,兼顧了格式性和自由性,在抽取信息時,相對非結構化文本更為方便,見圖2。非結構化文本也被稱為自由化文本,一般沒有固定格式,經常是連續的字符串來描述相關內容,需要經過如分詞、實體識別等步驟才能獲取相關信息,如一段有關糖尿病診斷與分型的介紹,見圖3。
1.2.1醫學實體抽取[5] ?采用基于Lattice LSTM模型抽取實體[6],該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼,抽取如醫學文本中的藥物名稱、癥狀名、疾病名等。
1.2.2醫學實體關系抽取 ?為實現推理,還需要抽取醫學實體之間的關系[7],以形成知識圖譜。近年來,利用深度學習的方法抽取醫學實體語義的關系取得了長足發展,如模型中引入位置特征、依賴關系、先驗知識和注意力機制等附加特征,進一步提高了模型性能,見圖4。基于大規模的人工標注語料可進一步提高模型的性能。此外,將各模型混合在一起用于醫學語義關系抽取,可很好地利用各模型的優勢,提高醫學語義關系抽取的性能,如將基于深度學習和基于規則匹配的方法結合在一起,利用句法卷積神經網絡模型抽取存在某種關系的蛋白質實體對,最后基于句法模板和詞典匹配的方法抽取當前兩個蛋白質實體間的關系[8]。在實體關系抽取中,最重要的是關系指示詞的確認,有些是顯性的指示詞,如“癥狀是”“表現為”“可分為”等;有些是隱性的指示詞,如“對于兒童和青少年的糖尿病高危人群,宜從10歲開始,但青春期提前的個體則推薦從青春期開始”,此句中暗藏了關系指示詞“年齡”,即兒童糖尿病高危人群,年齡,10歲/青春期起。我們使用{B,I,O,E,S}三類標簽標注候選關系指示詞,B代表這個詞語是關系指示詞序列的開始,I代表這個詞語在關系指示詞的中間位置,O代表這個詞語不是關系指示詞的一部分,E代表這個詞語是關系指示詞的結束,S 代表這個詞語是一個完整的關系指示詞。圖5是一個標注樣例,是基于LSTM的雙向LSTM醫學實體關系抽取模型,表明高尿酸血癥與糖尿病之間具有[疾病癥狀]的關系,此種關系屬于隱含的關系,只有通過人工標注的方式才能完成。
1.2.3醫學實體屬性抽取 ?例如藥品的屬性包括不良反應、禁忌等,以實現對醫學實體的完整描述。
1.3 醫學知識融合 ?由于醫學大數據來源多樣的特點,且存在不規范術語、一詞多義或多詞同義的情況,因此需要根據知識表示模型合并已有結構化數據,以保證獲取醫學知識的質量。例如使用基于語料庫分析的知識獲取方法,結合現有的分類,對本體進行擴展[9]。在進行醫學知識融合的過程中,可以使用一個混合匹配模型的融合方法,見圖6。該融合過程中使用了字符匹配、語義匹配以及本體匹配的混合匹配模型,根據標準術語集,對輸入的醫學術語計算相應的匹配值,最后將匹配分值匯總,通過閾值判別來判定指定的醫學術語與標準術語中某醫學實體的匹配程度,從而達到醫學知識融合的目的。
2糖尿病知識圖譜的存儲與展示
Nero4j是一個圖形數據庫,基本要素包括:節點、屬性、關系,用來存儲由無數個節點相連構成的屬性圖[10]。圖7展示了每個醫學實體是如何與其他醫學實體連接或相互關聯的,它既具有高效的查詢功能,還具備可視化的能力。允許在不依賴于數據集總大小的情況下每秒快速遍歷數百萬個連接,擅長于管理高度連接的數據和復合查詢。Cypher是Neo4j的圖形查詢語言,它允許用戶從圖形數據庫中存儲和檢索數據[11]。Neo4j讓查詢圖形數據變得易于學習、理解和使用,但同時也融入了其他標準數據訪問語言的強大功能。
3總結
醫療大數據的分析與決策研究核心在于醫學知識的表示,與其相關的醫學信息的抽取、融合和分析顯得尤為重要。本文闡述了從多源異構的大數據中,如電子病歷、各種醫學指南、專家共識等數據源中獲取數據,通過自然語言的相關技術,如醫學實體抽取、醫學實體關系抽取、醫學實體屬性抽取、醫學知識融合等,在語義層面對醫學大數據進行了統一組織和表達,并構建了糖尿病醫學知識圖譜。最終促進患者不斷掌握糖尿病管理所需的知識和技能,提高糖尿病患者的自我管理能力,對糖尿病的防控起到了積極的作用。
參考文獻:
[1]Gruber TR.Toward principles for the design of ontologies used for knowledge sharing[J].International journal of human-computer studies,1995,43(5-6):907-928.
[2]奧德瑪,楊云飛,穗志方,等.中文醫學知識圖譜CMeKG構建初探[J].中文信息學報,2019,33(10):1-9.
[3]孫鄭煜,鄂海紅,宋美娜,等.基于大數據技術的醫學知識圖譜構建方法[J].軟件,2020,41(1):13-17.
[4]修曉蕾,吳思竹,崔佳偉,等.醫學知識圖譜構建研究進展[J].中華醫學圖書情報雜志,2018,27(10):33-39.
[5]Xu K,Zhou Z,Hao T,et al.A bidirectional LSTM and conditional random fields approach to medical named entity recognition[C]//International Conference on Advanced Intelligent Systems and Informatics.2017:355-365.
[6]Zhang Y,Yang J.Chinese ner using lattice lstm[J].arXiv,2018(v1):02023.
[7]Zeng D,Liu K,Chen Y,et al.Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the 2015 conference on empirical methods in natural language processing.2015:1753-1762.
[8]趙哲煥,楊志豪,孫聰,等.生物醫學文獻中的蛋白質關系抽取研究[J].中文信息學報,2018,32(7):82-90.
[9]Dieng-Kuntz R,Minier D,R??i?ka M,et al.Building and using a medical ontology for knowledge management and cooperative work in a health care network[J].Computers in Biology and Medicine,2006,36(7-8):871-892.
[10]任玉琪.基于CNKI的中文醫學知識圖譜構建與應用[D].大連理工大學,2019.
[11]王鑫,鄒磊,王朝坤,等.知識圖譜數據管理研究綜述[J].軟件學報,2019,30(7):2139-2174.
收稿日期:2020-06-03;修回日期:2020-06-13
編輯/錢洪飛