崔 潔 陳德華 樂嘉錦
1(東華大學旭日工商管理學院 上海 200051) 2(上海交通大學醫學院附屬瑞金醫院計算機中心 上海 200025) 3(東華大學計算機科學與技術學院 上海 200051)
基于EMR的乳腺腫瘤知識圖譜構建研究
崔 潔1,2陳德華3*樂嘉錦3
1(東華大學旭日工商管理學院 上海 200051)2(上海交通大學醫學院附屬瑞金醫院計算機中心 上海 200025)3(東華大學計算機科學與技術學院 上海 200051)
知識圖譜作為一種描述實體及其聯系的新方法,在醫學領域也逐漸得到關注,出現了多種醫學知識圖譜。但是這些醫學知識圖譜的知識大多來源于公開的醫學文獻,較少涉及到EMR電子病歷。EMR電子病歷涵蓋了醫院各科室各病種的患者診療全過程數據,具有豐富的醫療事實知識,是醫學知識圖譜的重要知識來源。為此,以乳腺腫瘤這一具體病種為應用實例,結合知識圖譜技術的基本原理,給出了乳腺腫瘤知識圖譜的定義;結合上海交通大學醫學院附屬瑞金醫院的實際EMR電子病歷數據集,通過知識抽取技術從EMR中提取乳腺腫瘤醫療事實知識。在此基礎上提出乳腺腫瘤知識圖譜的構建方法。
EMR 乳腺腫瘤 知識圖譜 信息轉化
EMR電子病歷記錄了醫院各科室患者在診療過程中所產生的各種數據,包括患者基本信息、診斷數據、檢驗數據、檢查數據、用藥數據、出院小結等。這些數據反映了醫院內部真實發生的各種醫療事實,例如“某患者經超聲檢查被診斷為乳腺癌IV期”則包含了兩種類型的醫療事實,即該患者的檢查事實和診斷事實??梢?,EMR經過記錄數據間的關聯,可形成各種醫療事實知識。這種醫療事實知識表現為各種醫學實體如患者實體、基本信息實體、就診實體、檢查實體、診斷實體,以及各種實體之間的關系如患者實體與檢查實體之間存在檢查關系。EMR電子病歷有著豐富的醫學事實知識,是醫學知識的重要組成部分。
知識圖譜(Knowledge Graph)作為一種新的知識表示方法,屬于語義網范疇[1],其基本原理是借助圖模型來刻畫和描述現實世界中存在的各種實體或概念,建立這些實體或概念之間的關聯關系,表達相關領域實體或概念之間的語義關系。目前,業界已提出許多通用的知識圖譜,以谷歌公司的搜索知識圖譜最為典型Google Knowledge Graph[2]。與此同時,由于知識圖譜具有知識語義化、數據易關聯、易擴充等特性[3],國內醫療信息學領域也開始逐漸開展醫學知識圖譜的構建工作,也提出了多種醫學知識圖譜,包括中國中醫科學院中醫藥信息研究所基于已有的中醫藥學語言系統構建的中醫藥知識圖譜[4],基于知識圖譜的基因組流行病學可視化分析[5]和生物醫學信息可視化分析[6]??v觀這些醫學知識圖譜,其知識來源主要是公開的醫學文獻,但是較少涉及到EMR電子病歷的醫療事實知識。利用知識圖譜來描述EMR中的醫療事實知識,可以更好地刻畫EMR電子病歷數據中存在的實體和屬性分類,并通過實體間的關系揭示臨床數據間的內在聯系,從不同層次的形式化模式上給出這些實體和實體間相互醫療事實關系的明確定義,從而避免來自不同數據源的信息的語義異構。
乳腺腫瘤是女性主要惡性腫瘤之一,其發病率和死亡率不斷上升,對女性的健康造成嚴重危害[7],乳腺腫瘤患者基數較大,國內大中型醫院均已積累了大量的乳腺腫瘤EMR記錄,其中包含著大量關于乳腺腫瘤診治的醫療事實知識。因此,本文以乳腺腫瘤為具體病種應用實例,借鑒知識抽取的技術思想[8],提出一種基于EMR的乳腺腫瘤知識圖譜構建方法。該方法分別從概念層和實例層兩個層次對乳腺腫瘤知識圖譜進行設計,支持乳腺腫瘤醫療實體及關系的抽取,實現從乳腺腫瘤EMR數據向醫療事實知識的轉化。具體而言,本文的乳腺腫瘤知識圖譜構建方法由兩個階段組成:第一階段即乳腺腫瘤知識圖譜概念層設計階段,主要實現乳腺腫瘤EMR中各種醫學實體的抽取,并提取出各種實體之間的關系。第二階段即乳腺腫瘤知識圖譜實例層設計階段,主要實現由乳腺腫瘤EMR記錄向知識圖譜的轉化,完成乳腺腫瘤知識圖譜的自動構建。
1.1 通用知識圖譜
由于中文知識圖譜的構建對中文信息處理和檢索具有重要的研究和應用價值,近年來吸引了大量的研究[8]。例如在業界出現了百度知心、搜狗知立方等商業應用。在學術界,清華大學建成了第一個大規模中英文跨語言知識圖譜KLore、中國科學院計算技術研究所基于開放知識網絡(OpenKN)建立了“人立方、事立方、知立方”原型系統、中國科學院數學與系統科學研究院陸汝鈐院士提出知件(Knowware)的概念、上海交通大學構建并發布了中文知識圖譜研究平臺zhishi.me、復旦大學GDM實驗室推出的中文知識圖譜項目,等等[9]。這些項目具有較大規模的知識庫,覆蓋廣泛的知識領域,能夠為用戶提供一定的智能搜索及問答服務。
1.2 醫學知識圖譜
近些年來,國內對醫學信息學領域知識庫的研究也逐漸活躍。醫學知識庫(NKIMed)[10]是中科院計算機研究院1995年所研發的用于檢索和挖掘醫學信息的本體知識庫,包括了多達52個醫學概念分類,1 691種醫學屬性,19 595個知識概念,共計錄入78 013 條知識。醫學知識庫是國家基礎知識設施(National Knowledge Infrastructure)的一個分集合,對醫學知識的分析和推理具有重要作用。
如中國中醫科學院中醫藥信息研究所基于已有的中醫藥學語言系統構建的中醫藥知識圖譜,哈工大信息檢索研究中心(HIT CIR)在文本智能化檢索領域進行了深入研究,主要包括文本過濾、篇章理解和知識分析等,其研究成果已應用于文本智能化檢索、機器翻譯、自動分類、自動文摘等系統。除了這些綜合類的比較全面的醫學領域知識系統外,國內的研究還有些專門針對具體某種疾病或者某一具體領域的知識體系。比如專門用于診斷腎臟疾病的PIP(Present Illness Program),PIP 采用框架語義網結構,框架涵蓋生理狀態、臨床表現、典型的病癥等,它主要使用匹配技術來進行診斷并給出相應的治療方案[11]。
但是現有的各種對醫學信息學領域知識庫的研究大多是基于互聯網上公開的醫學文獻,以及各種開放數據庫和電子資源,這類知識雖然獲取比較方便。由于知識來源比較局限,如何利用真實醫學數據來構建知識圖譜,獲取更準確、更全面、更權威的知識成為醫學知識圖譜領域的研究需求。
本文專注于乳腺腫瘤這一特定病種的知識圖譜構建研究。下面給出乳腺腫瘤知識圖譜相關概念的形式化定義。
定義1(乳腺腫瘤醫學實體E):乳腺腫瘤醫學實體E指的是乳腺腫瘤EMR記錄中各種可唯一標識的醫學實體。
一般在醫院EMR中,乳腺腫瘤醫學實體包括了乳腺腫瘤患者實體、基本信息實體、乳腺腫瘤診斷實體、乳腺腫瘤檢查實體、乳腺腫瘤檢驗實體等。
定義2(乳腺腫瘤醫學事實關系R):乳腺腫瘤醫學事實關系表示不同乳腺腫瘤醫學實體之間所發生的醫療事實聯系即R{Ei,Ej},其中Ei、Ej為乳腺腫瘤醫學實體。
結合乳腺腫瘤EMR記錄,在醫學領域專家的幫助下,一共整理出以下幾種乳腺腫瘤醫學事實關系類型,具體包括了:
(1) has_a關系:表示實體A和實體B之間的隸屬關系。
(2) instance_of關系:表示實體A與實體B間的實例關系。換言之,實體B是實體A的一個實例。
(3) attribute_of關系:表示實體A是實體B的屬性值。
(4) part_of關系:表示整體與部分的關系,例如,檢查報告中的特征描述實體A是檢查報告實體B的一部分。
(5) owns關系:表示病人實體A擁有檢查報告實體B或者病理報告實體C。
(6) diagnosis關系:表示診斷結論實體A與患者實體B之間是診斷關系。
(7) detect關系:表示儀器實體A與患者實體B是檢測關系。
在定義了上述乳腺腫瘤醫學實體和醫學事實關系的基礎上,乳腺腫瘤知識圖譜的形式化定義如下。
定義3(乳腺腫瘤知識圖譜G):乳腺腫瘤知識圖譜為一張有向標簽圖G=(E,R,T),其中E為知識圖譜的頂點集,用于表示乳腺腫瘤醫學實體集合;R為知識圖譜的邊集,用于表示乳腺腫瘤醫學事實關系;T為EXE→R的函數,表示了知識圖譜中的所有元組。
表1為一位乳腺腫瘤患者的具體EMR記錄。從中可見,該EMR記錄中蘊含著患者實體,基本信息實體(其下包含了性別實體、年齡實體和地區實體),檢查實體(其下包含了超聲檢查實體、CT檢查實體、MRI檢查實體和病理檢查實體)和診斷實體(包含了超聲診斷實體、CT診斷實體、MRI診斷實體和病理診斷實體)。這些實體間具有不同的關系,例如患者實體與基本信息實體之間存在has_a關系,患者實體與檢查實體之間存在Detect關系,檢查實體與診斷實體之間存在Diagnosis關系。乳腺腫瘤醫學實體及其關系表示了乳腺腫瘤知識圖譜的模式結構,類似于關系數據庫的概念模式。圖1所示為乳腺腫瘤知識圖譜模式結構圖即概念層結構。
表1 乳腺腫瘤患者A的EMR記錄
圖1 乳腺腫瘤知識圖譜概念層結構
基于上述的乳腺腫瘤知識圖譜概念層結構,建立EMR記錄各項值與概念層實體及關系之間的對應關系,構建<主語,謂語,賓語>三元組,完成乳腺腫瘤知識圖譜實例層。以EMR的乳腺腫瘤患者基本信息為例,患者基本信息表中的列名“姓名”可以轉化成RDF數據中的謂詞,表中對應的取值為RDF賓語,如ID為“102413148”的患者姓名可以用三元組<102413148,姓名,張三>表示。圖2所示為乳腺腫瘤知識圖譜實例層結構。
圖2 乳腺腫瘤知識圖譜實例層
如2節所述,EMR記錄蘊含著豐富的醫療事實知識,是醫學知識圖譜的重要數據來源。本節提出一種基于EMR的乳腺腫瘤知識圖譜構建方法,該方法由概念層設計和實例層設計兩個階段組成。下面分別給出兩個階段的具體流程。
3.1 概念層設計
乳腺腫瘤知識圖譜概念層設計的主要任務是在領域專家的幫助下,根據領域知識創建乳腺腫瘤知識圖譜的概念模式結構。
目前,乳腺腫瘤知識圖譜概念模式結構是以上海交通大學醫學院附屬瑞金醫院的實際EMR記錄結構為基礎,結合美國國家綜合癌癥網絡(NCCN)的乳腺癌臨床指南[12],構建了乳腺腫瘤知識圖譜的概念層。其中,以患者實體為中心,在同一層次與基本信息實體、檢查實體和診斷實體之間存在不同的聯系。具體而言,患者實體與基本信息實體之間存在Has_a關系,患者實體與檢查實體之間存在Detect關系,患者實體經檢查實體與診斷實體之間存在Diagnosis關系。患者實體有醫療卡號和姓名兩個屬性,而基本信息實體的屬性則有性別、年齡和地區等。由于乳腺腫瘤檢查有不同檢查手段,所以檢查實體包含了超聲檢查實體、CT檢查實體、鉬靶檢查實體和病理檢查實體等子層次實體。檢查實體與這些子層次實體之間存在Instance_of關系。不同子層次檢查實體還具有不同的屬性,例如超聲檢查實體具有位置、方位、大小、形態、表面、回聲分布、血流信號等屬性。對應于不同的檢查手段,診斷實體也包含了超聲診斷實體、CT診斷實體、鉬靶診斷實體和病理診斷實體等子層次實體。
3.2 實例層設計
實例層設計屬于知識抽取范疇,其主要任務是從無語義信息的EMR記錄中抽取與概念層相匹配的醫療事實知識。實際的EMR記錄既有結構化數據如患者基本信息、就診信息、處方信息、檢驗信息等,也有半結構化數據如出院小結,還有非結構化內容如超聲文本報告等。實例層設計的目標就是從不同格式的EMR記錄內容中提取乳腺腫瘤醫學實體及關系,并表示為主謂賓三元組形式。
1) 乳腺腫瘤醫學實體提取
乳腺腫瘤醫學實體提取是構建乳腺腫瘤知識圖譜的首要步驟,目的在于從EMR記錄中找到用于表示乳腺腫瘤醫學實體或屬性的相關術語或標記集合。其中,EMR記錄中的結構化和半結構化數據由于具有較好的模式結構,實體提取的規則相對容易制定;而對于非結構化文本數據由于格式較為自由,在實體提取規則上需要借助自然語言處理技術對EMR文本內容進行結構化處理。
下面結合瑞金醫院實際的EMR記錄,闡述如何實現上述概念層各種實體的具體操作步驟。
(1) 患者實體提取:從EMR記錄的患者ID和姓名兩個字段,提取每位乳腺腫瘤患者的ID和姓名字段值作為患者實體的屬性值。
患者基本信息實體提取:從EMR記錄的患者性別、年齡和地區三個字段,提取每位乳腺腫瘤患者的性別、年齡和地區字段值作為患者基本信息實體的屬性值。
(2) 檢查實體提?。好總€患者根據不同的病情需要,進行不同類型的檢查,從檢查實體中,提取出鉬靶、超聲、CT、MRI、病理等不同檢查類型,作為檢查實體的子類實體。
(3) 檢查實體屬性值提取:由于檢查報告為文本格式,本文首先采用作者提出的臨床文檔結構化處理方法[13]對各種檢查文本報告進行結構化處理,提取文本報告中的指標和指標值,以提取出來的指標和指標值作為檢查實體屬性值。
(4) 診斷實體提取:患者所做的每項檢查均有對應的診斷結論,從診斷實體中,提取出鉬靶診斷、超聲診斷、CT診斷、MRI診斷、病理診斷等不同檢查的診斷結論,作為診斷實體的子類實體。
2) 實體間的關系類型
如前所述,乳腺腫瘤患者的EMR記錄經抽取后形成五類醫學實體。這些實體可與概念層的概念屬性相關聯,作為這些屬性的屬性值。
結合概念層的概念間關系,可知患者實體與患者基本信息實體之間的關系為has_a關系;患者實體與檢查實體之間的關系為detect關系;檢查實體與診斷實體之間的關系為diagnosis關系。患者的姓名實體與患者之間的關系為instance_of關系;患者的性別、年齡、地區等實體與基本信息實體之間的關系為instance_of關系;超聲檢查、鉬靶檢查、CT檢查、MRI檢查、病理檢查實體與檢查實體之間的關系為instance_of關系;超聲診斷、鉬靶診斷、CT診斷、MRI診斷、病理診斷結果實體與診斷實體之間的關系為instance_of關系。將該患者的患者實體和基本信息實體之間為has-a關系?;颊叩男彰麑嶓w與患者實體之間的關系為instance_of關系;基本信息實體與性別、年齡和地區實體之間為instance_of關系。患者實體和檢查實體之間為detect關系。檢查實體與超聲檢查和病理檢查實體之間為instance_of關系。患者實體和診斷實體之間為diagnosis關系。診斷實體與超聲診斷和病理診斷實體之間為instance_of關系。
在提取出實例層的實體及關系之后,即可將EMR的乳腺腫瘤數據轉換成RDF形式的鏈接數據D2R(Relational Database to RDF)[14]。乳腺腫瘤知識圖譜中主謂賓三要素關系如表2所示。
表2 乳腺腫瘤患者A構建知識圖譜的主謂賓三要素
本文以醫院內部實際的EMR記錄為基礎,選擇乳腺腫瘤為具體病種,提出基于EMR的乳腺腫瘤知識圖譜的構建方法,特別對其中的概念層設計和實例層設計進行了詳細闡述。乳腺腫瘤知識圖譜的構建為后續疾病知識學習和推理奠定了數據基礎,因此下一步工作將是基于乳腺腫瘤知識圖譜的輔助診斷、智能問答。
[1] Zhang L.Knowledge graph theory and structural parsing[D].Enschede:Twente University,2002.
[2] Singhal Amit.Introducing the Knowledge Graph:things,not strings[EB/OL].Official Google Blog.[2012-5-16].http://googleblog.blogspot.co.uk/2012/05/intro_ ducing-knowledge-graph-things-not.html.
[3] 阮彤,孫程琳,王昊奮,等.中醫院知識圖譜構建與應用[J].醫學信息學雜志,2016,37(4):8-13.
[4] 賈李蓉,劉靜,于彤,等.中醫藥知識圖譜構建[J].醫學信息學雜志,2015,36(8):51-53,59.
[5] 王俏,王偉.基于知識圖譜的國際基因組流行病學可視化分析[J].中華醫學圖書情報雜志,2013,22(4):2-9.
[6] 黃鑫,胡榜利,鄧莉,等.基于知識圖譜的生物醫學信息可視化研究進展[J].中國臨床新醫學,2012,5(11):1090-1093.
[7] 葉華蓉,楊怡,林萱,等.BP神經網絡在高頻彩超特征診斷乳腺癌中的應用[J].中國衛生統計,2016,33(1):71-72.
[8] 劉嶠,李楊,段宏.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
[9] 程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.
[10] 周肖彬.醫學本體和醫學知識獲取的研究[D].中國科學院研究生院(計算技術研究所),2003.
[11] 黃小燕.基于潛在語義關系的更年期綜合癥知識圖庫的構建及其應用研究[D].四川:電子科技大學,2015.
[12] 周斌,劉世偉,高國璇,等.2016年NCCN乳腺癌臨床實踐指南(第1版)更新與解讀[J].中國實用外科雜志,2016,36(10):1066-1027.
[13] 田馳遠,陳德華,王梅,等.基于依存句法分析的病理報告結構化處理方法[J].計算機研究與發展,2016,52(12):2669-2680.
[14] Bizer C,Seaborne A.D2RQ-Treating Non-RDF Databases as Virtual RDF Graphs[C]//International Semantic Web Conference,2005.
STUDYONTHECONSTRUCTIONOFKNOWLEDGEGRAPHOFBREASTTUMORBASEDONEMR
Cui Jie1,2Chen Dehua3*Le Jiajin3
1(GloriousSunSchoolofBusinessandManagement,DonghuaUniversity,Shanghai200051,China)2(ComputerCentre,RuijinHospitalShanghaiJiaoTongUniversitySchoolofMedicine,Shanghai200025,China)3(ComputerScienceandTechnology,DonghuaUniversity,Shanghai200051,China)
As a new method to describe entities and their relationships, knowledge graph has been paid more and more attention in the medical field. However, most of the knowledge of the medical knowledge graph is derived from the open medical literature, and less related to the EMR electronic medical records. EMR electronic medical records cover the whole process of patient diagnosis and treatment with a wealth of medical facts, which is an important source of knowledge of medical knowledge graph. Therefore, this paper takes the specific disease of breast tumor as an example. According to the basic principle of knowledge graph technology, we firstly gave the definition of knowledge of breast tumors. Combined with the actual EMR electronic medical records data set of Ruijin Hospital Affiliated to Shanghai Jiaotong University School of Medicine, the knowledge of breast cancer medical facts was extracted from EMR by means of knowledge extraction technology. On this basis, a method for constructing knowledge map of breast tumors is proposed.
EMR Breast tumor Knowledge graph Information transformation
2017-01-25。上海市科委科研計劃項目(15511106902)。崔潔,高工,主研領域:醫院信息化,信息管理。陳德華,副教授。樂嘉錦,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.12.023