韓普 馬健 張嘉明
摘 要:[目的/意義]隨著大數據和人工智能時代的來臨,基于數據驅動的醫療輔助決策以及醫療健康知識挖掘受到人們的極大關注。醫療知識圖譜是醫療信息分析和知識服務的基礎,在醫療人工智能和醫療信息檢索中發揮著重要作用。[方法/過程]本文以醫療領域的實際應用需求為出發點,從醫療大數據獲取、醫療實體及關系標注、醫療實體識別、醫療實體鏈接、醫療實體關系挖掘、中文醫療知識圖譜表示和存儲等關鍵技術入手,提出了多數據源融合的醫療知識圖譜構建的理論框架。[結果/結論]面向醫療領域的知識圖譜構建是一項非常重要的基礎任務,同時也是人工智能領域的重要發展方向。
關鍵詞:醫療知識圖譜;多源數據融合;實體識別;實體鏈接;實體關系
DOI:10.3969/j.issn.1008-0821.2019.06.009
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)06-0081-10
Abstract:[Purpose/Significance]With the approaching of the big data and artificial intelligence age,people have been paying great attention to the medical-assisted decision making and mining for the medical health knowledge based on the data driving.As the basis of medical information analysis and medical knowledge services,medical health knowledge graphs play a significant role in the medical artificial intelligence and medical information retrieval.[Method/Process]Therefore,based on the actual application demand in medical field and proceeded with such key technologies as acquisition of medical big data,annotation of medical entities and their relations,identification of medical entities,linkage of medical entities,mining for relations of medical entities,as well as expression and storage of Chinese medical health knowledge graphs,this paper put forward a theoretical framework regarding construction of the medical health knowledge graph integrated with multi-data sources.[Result/Conclusion]The construction of knowledge maps for the medical field was a very important basic task,and it is also an important development direction in the field of artificial intelligence.
Key words:medical knowledge graph;multi-data source fusion;entity recognition;entity linking;entity relationship
隨著醫療信息化的迅猛發展,醫療機構以及各類互聯網平臺產生了大量的醫療數據,這些數據蘊含著豐富的醫療知識,經過處理和分析的醫療大數據不僅可以為醫生的臨床診斷提供輔助決策[1];還可以通過各種應用平臺為公眾提供高質量的醫療信息服務,提升公眾的醫療信息素養。因此,如何深入挖掘并利用各類醫療大數據成為當前人們關注的熱點。
近些年,受到自然語言理解和人工智能的推動,基于大數據的語義知識庫自動構建受到了學界和業界的極大關注。2012年,Google提出了知識圖譜的概念,此后國內外出現了面向各種應用的知識圖譜。常見的如DBpedia[2]、Freebase[3]、Knowledge Vault[4]、NELL[5]、YAGO[6]等,這些知識圖譜的數據主要來自維基百科。國內中文知識圖譜主要有百度的“知心”、搜狗的“知立方”、SSCO[7]和Zhishi.me[8]等,這些通用知識圖譜以各類非結構化或半結構化數據為來源,體量大,覆蓋面廣。但在面向專業領域的信息分析等需求時,通用知識圖譜在實體粒度以及領域語義知識表征不夠細化,尤其是對于專業要求非常高的醫療領域。因此,在醫療領域的信息分析和人工智能應用中,面向領域的知識圖譜更有針對性。Ernst P等[9]基于科學文獻、健康記錄以及問答社區等多種網絡數據源構建了健康和生命科學的英文知識圖譜。此外,國外已經建成了醫療領域資源庫一體化醫學語言系統(UMLS)[10]、醫學系統命名法—臨床術語(SNOMED CT)知識庫[11]等資源。在國內,由復旦大學等構建了面向細分領域的中文知識圖譜OpenKG.cn。雖然國內出現了一些探索和嘗試,但更多的還是處于探索階段。陳德華[12]等提出了一種基于增量學習的臨床領域時序知識圖譜鏈接預測模型。Weng H等[13]基于臨床病歷,提出了自動構建中醫知識圖譜的研究框架。He B[14]等建立了一個包含句法和語義的中文電子病歷語義知識庫。阮彤等[15]、賈李蓉等[16]基于中醫病癥分類代碼和中醫藥學語言系統,構建了中醫藥知識圖譜。通過文獻梳理可以發現,通用領域知識圖譜已經比較成熟,但領域知識圖譜更多的還處于探索中。和國外相比,國內醫療領域知識圖譜才剛剛開始起步,亟需學界和業界齊心協力構建面向各類醫療需求的領域知識圖譜,進而提升國內的醫療信息服務和人工智能水平。
醫療健康是人們關注的重點,與此相關的信息檢索和知識服務是當前人們最為迫切的需求之一。據公開數據顯示,百度每天搜索量約60億次,其中25%與疾病健康有關。相比國外較為完善的醫療語義資源,中文醫療資源建設起步比較晚,開放的醫療資源更是很有限。在當前背景下,構建中文醫療知識圖譜是一項非常迫切的研究課題,其意義主要體現在以下幾個方面:1)有助于提高臨床治療水平,為醫生提供輔助決策。在臨床中,醫生的診斷水平受到醫學知識水平和臨床經驗的影響,因此一套輔助決策和導向作用的決策支持系統是非常有必要的,而決策支持系統離不了醫療知識圖譜的支撐。2)提升公眾的醫療健康信息素養和健康信息意識。和發達國家相比,國內公眾的醫療健康知識水平偏低,醫療健康信息意識比較薄弱,這些問題一定程度上影響著醫患關系,影響著醫療領域的整體服務水平。3)醫療知識圖譜是醫療健康信息化發展的重要資源,醫療知識圖譜構建是人工智能在醫療領域的發展趨勢,同時也是醫療健康信息化的必然要求。雖然國外出現了一些英文的醫療知識圖譜探索和研究,但中文的特點決定了其它語言的醫療知識圖譜不能直接照搬,其理論和實踐還亟待研究和探索。4)各類醫療數據包含了不同的醫療知識,只有融合多種醫療數據,才能充分發揮各類醫療大數據的價值。本文以多源醫療大數據為數據源,從數據獲取、實體識別、實體鏈接及數據融合、實體關系挖掘、知識圖譜表示和存儲方面,系統地提出一套面向多源大數據的醫療知識圖譜構建的概念模型,為國內醫療健康知識圖譜的相關理論和實踐提供借鑒和參考,進而推動國內醫療健康信息化的快速發展。
1 知識圖譜概念
通常認為,知識圖譜就是現實世界中根據實體間關系相互連接起來所形成的一種網絡結構[17],其本身就是結構化的語義知識庫[18],屬于語義網絡的范疇[12]。目前,知識圖譜已經成為一種新的關系表現形式,用于呈現各類實體以及實體間的關聯關系。根據知識圖譜的覆蓋范圍不同,可分為通用知識圖譜和領域知識圖譜。目前國內外通用知識圖譜的相關研究比較多見,領域知識圖譜的研究剛開始起步。相比于領域知識圖譜,通用知識圖譜覆蓋面更加廣泛,能夠滿足多方面需求,但因其范圍過于寬泛,造成其專業領域知識深度表征不夠,無法描述更細化的領域實體知識。與其它領域不同的是,醫療領域實體數量巨大,新詞頻出、復合詞組合多樣以及實體間關系復雜,通用知識圖譜難以承載這一領域的專業知識。同時,醫療知識圖譜是醫療信息處理、信息檢索以及問答系統的重要組成部分,也是當前需求最為迫切的基礎資源之一,因此醫療知識圖譜的構建是一項非常重要的研究方向。本文的知識圖譜是指實體以及實體間關系的語義網絡結構。而另外一個研究方向主要是用圖形的方式直觀地呈現學科或領域知識的各種聯系[19]。雖然名稱上完全一樣,但屬于兩個不同的研究領域。本文所述的知識圖譜則是以自然語言處理和文本挖掘為基礎,通過數據獲取、文本挖掘、語義分析以及人工智能的方法來挖掘并采用網絡結構來表示的醫療實體以及實體間的關聯關系,是一種可以不斷更新的醫療領域語義資源知識網絡。
2 醫療知識圖譜數據源
2.1 醫療文本數據的分類
常見醫療大數據既有較為規范的電子病歷,也有醫療健康社區中的用戶生成內容(UGC),以及醫療詞典資源和相關政策文件。根據數據的表現形式,可以將醫療健康數據分為結構化數據、半結構化數據以及非結構化數據3類。1)結構化醫療數據:主要包括醫療疾病詞典、中醫藥詞典等,如國際疾病分類手冊ICD11;2)半結構化醫療數據:主要包括電子病歷和醫學文獻等;3)非結構化醫療數據:主要包括各類百科中的醫療詞條、以及好問康、家庭醫生在線和求醫網等醫療論壇上的文本數據。
2.2 醫療文本數據的獲取
醫療數據直接影響著醫療知識圖譜的質量。已有的醫療語義知識庫數據來源單一,對專家知識依賴性強,沒有充分利用當前的各類醫療大數據,尤其是以醫院真實電子病歷為數據源的醫療知識圖譜還不多見[12]。吳運兵等[20]提出通過融合多方數據資源構建知識圖譜的方法,以提升知識圖譜的實際應用價值。針對臨床輔助決策和醫療問答系統應用場景的實際需求,醫療健康知識圖譜構建需重點考慮以下數據資源。
1)醫療詞典:這類資源主要包括已有的醫療詞典資源,如國際疾病分類手冊ICD11等,這類資源具有較高的專業性,是醫療知識圖譜的重要數據源之一;
2)電子病歷:電子病歷是臨床醫生對病程的記錄,主要包括出院小結和各類病程記錄,如入院記錄、檢查記錄和治療記錄等等,是醫療知識圖譜的非常重要的數據源;
3)醫學文獻:醫學文獻是科學研究成果的呈現,也是高質量的醫療數據源之一。醫學文獻摘要是論文內容的高度凝練,也是醫療知識圖譜中醫學文獻數據源的關鍵內容;
4)互聯網上的用戶生成內容:隨著信息技術的發展,互聯網上積累大量關于醫療健康的用戶生成內容。這類數據的量十分巨大,數據質量也在日趨提高,是醫療知識圖譜的重要補充數據。
3 中文醫療知識圖譜模型構建研究
3.1 多數據源融合的醫療知識圖譜構建思路
融合多源數據的醫療知識圖譜首先通過各個渠道獲取醫療文本大數據,然后對各類數據采用XML統一格式、進行數據清洗、分詞和詞性標注,接著采用機器學習方法進行醫療實體識別及實體關系標注;然后以疾病為中心,挖掘其它實體與疾病之間的關系,并利用RDF和Neo4j進行存儲和呈現;針對不斷增長的各類醫療大數據和實際應用需要,可以利用Spark技術生成動態醫療知識圖譜,最后在醫療知識圖譜基礎上,為臨床輔助診斷決策和醫療健康問答系統提供醫療知識來源。具體思路如圖1。
3.2 醫療文本數據處理
醫療大數據來源渠道多樣,數據格式、編碼方案和存儲格式不盡相同,為了后續多源數據融合以及醫療知識圖譜構建的需要,該部分工作主要包括以下幾個方面。1)統一數據格式:包括統一數據存儲格式、編碼方案,針對后續RDF標準和多數據源融合需求,將多數據源的醫療數據轉換為包含數據來源、時間和類型等屬性的XML文件。2)數據清洗和篩選:互聯網醫療文本數據中存在大量廣告信息,電子病歷中也存在較大比例的重復段落以
及質量較低的信息。通常的做法是去除那些可信度較低,信息欠完整的數據(如成分殘缺的句子),來確保數據的質量[21]。3)分詞和詞性標注:醫療文本分詞是知識圖譜構建中非常重要的環節,直接影響著實體識別的效果。目前常用的有ICTCLAS、Stanford Parser、Ansj、Jieba及mmseg4j[22]。此外,哈爾濱工業大學的語言技術平臺(LTP)也提供分詞和詞性標注功能。針對醫療領域分詞問題,基于ICTCLAS,李國壘等[23]提出了中文病歷的分詞策略;也有學者[24]對不同的分詞方法進行測評,探索更適合于醫療領域的分詞策略,如張立邦等[25]提出了基于無監督學習的中文電子病歷分詞方法。
雖然有不少成熟的分詞工具供選擇,但醫療領域詞匯專業性非常強,新詞頻現,加上各類復合詞的組合規律十分復雜,造成目前醫療領域分詞結果很不理想。因此,醫療領域不僅需要適合的分詞算法,還需要高質量的醫學詞典。在醫療詞典資源上,國外有比較知名的ICD11、UMLS等資源,但中文領域的醫學詞典資源還比較匱乏。
3.3 醫療實體識別
醫療實體識別是知識圖譜構建的關鍵技術環節。根據所采用的方法,可將醫療實體識別分為基于醫學詞典的方法、基于規則的方法和基于機器學習的方法。基于醫學詞典的方法是利用實體詞典抽取相關實體,Sasaki Y等[26]等通過加入實體詞性來構建實體詞典以提高蛋白質實體的識別效果,該方法的實體識別準確率比較高,但對醫療詞典的要求非常高,基于規則的方法則是根據實體的表現特征制定相應規則,葉楓等[27]通過加入語言符號、詞性、構詞特征、詞邊界和上下文的特征,來提高醫療實體的識別效果。在CCKS2017任務中,Hu J等[28]針對不同類型實體構建了眾多規則來提高實驗效果。雖然規則在一定程度上能提升實體識別效果,但由于醫療文本來源多樣,基于先驗知識的規則也會變得非常復雜,并且可遷移性較差。
機器學習是目前醫療實體識別中最為流行的方法,常見的機器學習方法有最大熵模型(ME)、支持向量機(SVM)、隱馬爾可夫模型(HMM)、條件隨機場(CRF)以及循環神經網絡(RNN)。在通常的命名實體識別任務中,CRF和SVM在使用同樣特征時有著非常相近的表現[29]。在英文領域,Jiang M等[30]發現CRF對醫療實體識別的效果要好于SVM。Lei J等[31]通過采用同樣的特征對CRF、SVM、SSVM和ME 4種方法進行了對比,結果發現SSVM方法在中文醫療實體識別中要略好于其它方法。Chen Yanxu等[32]在CCKS2017任務中,發現單純CRF的F值要高于LSTM-CRF。Liu Z等[33]利用2010、2012和2014 i2b2 NLP的比賽數據進行了多組對照實驗,發現LSTM要好于CRF方法。在中醫實體識別研究中,王世昆等[34]發現CRF對中醫實體的識別效果要好于ME和SVM。Wang Y等[35]比較了CRF、HMM、MEMM 3種模型在中醫癥狀實體識別上的效果,發現CRF模型更適合于中醫實體的識別。此外,也有研究者采用改進的機器學習方法,如燕楊[36]等提出了基于層疊條件隨機場的中文醫療實體識別方法;針對電子病歷語料標注的難題,在不增加標注量的前提下,王潤奇等[37]基于Tri-Training的半監督學習方法進行中文醫療實體識別;Hu J[28]等在CCKS2017任務中采用多種方法進行了對照實驗,發現加入特征的BI-LSTM方法要好于CRF方法。
從以上研究可以發現,在醫療實體識別模型中,CRF有著較好的表現。隨著深度學習和人工智能的推進,基于循環神經網絡以及長短時記憶網絡(LSTM)的改進算法[38]和CRF相結合,利用海量的醫療數據特征作為詞向量在醫療實體識別上取得了比較顯著的結果。另外,從已有研究來看,由于醫療領域分詞帶來的問題過多,基于字的實體識別效果要高于基于詞的識別效果。
3.4 醫療實體及實體關系標注
3.4.1 醫療實體標注
醫療實體標注是實體識別和實體關系挖掘的基礎,在已有研究基礎上,結合實體識別算法的格式要求,可采用BX、IX、EX、SX以及O作為實體標識符,其中B(實體開頭)、I(實體中間)、E(實體結尾)、S(獨立詞位實體)、O(非實體),X表示實體所屬類別,包括D(疾病)、S(癥狀)、C(檢查)、T(治療)以及O(組織器官)。例如,風濕性關節炎是一種常見的急性或慢性結締組織炎癥,分詞后可標注為:
風濕性/BD關節炎/ED是/O一種/O常見的/O急性/O或/O 慢性/O結締組織/SO炎癥/SS。
3.4.2 醫療實體關系標注
3.5 醫療實體鏈接與知識融合
醫療實體鏈接是將多數據源中的實體通過鏈接關聯起來,以更好地表述不同數據源實體間的語義關聯關系,進而實現多源數據融合以用于醫療人工智能中的語義理解和語義分析。在各類醫療文本數據源中,疾病、癥狀、檢查和藥物等各類實體的表述是多樣化的,醫療實體縮寫、簡寫以及中英文混合等不規范表述以及實體的上下文指代不明給實體鏈接帶來了極大困難。根據所采用的相關關系計算方法,實體鏈接方法主要分為兩大類,一類是基于實體本身的方法,該方法主要是利用實體字符本身的特征進行計算,如字符串編輯距離、Jaro距離、Jaro-Winkler距離和Smith-Waterman算法;另一類是基于實體背景信息的計算方法,通常有余弦相似度、Jaccard系數、主題模型、詞向量、SimRank和圖結構的方法。周鵬程等[40]提出了一種基于多知識庫的實體鏈接方法,進而實現對多個知識庫的實體鏈接。王雪鵬等[41]給出了一種基于網絡語義標簽的多源知識庫實體對齊算法。通過獲取實體各種屬性值之間的相似度特征,李陽等[42]提出了基于語義的實體相似度計算方法。Wang Y[43]等采用基于字面的相似度、基于特征的相似度方法以及混合相似度的方法對中醫實體名稱進行了歸一化研究。由于醫療實體的復雜性,通常輔助標準化的醫療術語庫(如ICD11)進行多源醫療實體鏈接。通過多源醫療實體鏈接融合不同數據源的同一實體,解決單一數據源知識圖譜覆蓋面過低的問題,從根本上促進醫療數據融合。
3.6 醫療實體關系抽取
實體關系抽取是醫療知識圖譜構建的關鍵環節,本文中實體關系主要是疾病實體與其它幾類實體的關系,具體如表1所示。從已有研究來看,目前醫療實體關系挖掘可分為基于模式匹配、基于語義詞典、基于特征和基于機器學習的方法。模式匹配是以實體識別結果為基礎,以句子為單位,根據標志詞來制定相應模式,進而通過模式匹配比對,確定相應實體間的關系。如“服用吲哚美辛后,關節腫痛緩解”,能夠匹配治療類實體+癥狀類實體+“緩解”這一模式,進而將“吲哚美辛”與“關節腫痛”關系標注為TBS。基于詞典的方法是在語義詞典資源基礎上,根據實體間的關聯確定實體關系。基于特征的方法是根據實體類型、詞性、詞與詞之間的位置、實體前后的詞與詞性等特征,通過不斷迭代與聚合,將具有相同特征的實體組(通常為兩個非同類實體)視為同一類型,然后進行實體關系挖掘。當前醫療實體關系挖掘比較常用的是機器學習法,這類方法的思路是將關系挖掘轉換為分類問題。Demner-Fushman D等[44]采用多種方法對I2B2 2010電子病歷中的實體進行了挖掘研究,發現詞典資源在實體關系挖掘中有著重要作用。Frunza O等[45]采用多種機器學習方法探究疾病和治療之間的3種關系,發現貝葉斯分類法和其它特征組合取得了較好的效果。Wang X等[46]根據上下文共現關系對疾病和癥狀間的關聯關系進行了挖掘。Luo Y[47]采用循環神經網絡對I2B2 2010電子病歷中的實體關系進行了抽取,發現加入醫療詞向量有助于實體關系的挖掘。Hwang S等[48]基于PubMed文獻數據,采用TF-IDF和共現關系識別了疾病和癥狀關系。吳嘉偉等[49]從特征選擇角度,采用深度學習算法對英文電子病歷中的實體關系進行了抽取研究。Zhao C等[50]基于實體共現關系構建了疾病和癥狀關系的二分網絡。李夢箐等[51]通過二分圖和復雜網絡的結構來挖掘疾病與中藥之間的關系。通過構建K-partite網絡,Kamdar M R等[52]采用隱條件隨機場來挖掘藥物及藥物反應實體間的隱藏關系。可以發現,醫療實體關系挖掘目前是醫療信息處理和分析研究中的熱點,基于機器學習的方法是醫療實體關系抽取中的常用方法。目前在多源醫療文本大數據中,通常將實體關系抽取研究視為分類問題,然后挖掘實體各種特征來提升實體關系的抽取效果。
3.7 中文醫療知識圖譜表示及存儲
知識圖譜表示和存儲是將醫療實體以及實體關系按照一定規范存儲,為后續的醫療知識分析和知識服務做好準備。目前較為廣泛的數據描述模型有RDF以及最近興起的圖數據庫兩種存儲方案。夏宇航等[53]通過數據庫與RDF三元組相結合對電子病歷進行拆分存儲,以提高實體的檢索效率。阮彤等[54]將中醫藥關系轉為RDF格式數據來存儲中醫藥領域知識圖譜。Beyan O D等[55]提出一種基于RDF的結構來描述電子病歷中的時序關系。Kamdar M R等[52]通過RDF框架存儲藥物、蛋白質等實體間的隱藏關系并基于SPARQL進行查詢。遵從RDF規范,Wang M等[56]通過構建病人、藥物和治療的RDF圖,進而鏈接已有的知識圖譜資源,并提供基于SPARQL的在線查詢。在醫療知識圖譜存儲時,可以基于RDF語法,構建以疾病為中心,其它四類為屬性的疾病——屬性——關系三元組,以此存儲實體識別及實體間關系。每一個實體都有一個URL(Uniform Resource Locator,統一資源定位符)與之對應,通過URL就能跳轉到相應的實體,實現實體數據間的鏈接。如下所示。
在上例醫療知識圖譜中,描述的是以風濕疾病為中心,以及相關的癥狀等其它實體間的關系。醫療知識圖譜本身是一種圖結構,而圖形數據庫通過鍵和鏈接存儲實體及實體關系,因此在網絡結構存儲時比較占優勢,近些年基于圖數據庫的語義關系存儲受到研究者的重視。但由于圖數據庫技術發展時間較短,在標準和規范方面還不夠完善[57]。目前常用的圖形數據庫有Neo4j、Titan和FlockDB等。Neo4j是由Java和Scala語言寫成NoSql數據庫,也是目前使用較多的圖形數據庫。通過Neo4j可以直觀呈現實體間的各種關系(如圖2所示),可為臨床輔助診斷以及公眾的醫療健康信息服務提供更易于理解和交互的知識呈現方式。Neo4j代碼格式和可視化呈現如下。
3.8 醫療知識圖譜的動態構建
隨著信息技術的發展,醫療領域的各類大數據在飛速增長,面向各類醫療應用需求的醫療知識圖譜需要即時進行動態更新。針對多源的醫療文本大數據,可通過加州大學伯克利分校AMP實驗室開源的Spark[58-59]技術平臺行大數據的快速處理,根據已有的癥狀、檢查、治療、組織器官4類實體所占的關系權重,快速確定疾病與其它實體間的距離。同時,該技術有著比MapReduce更為快捷迅速的處理效率,基于內存的操作更是大大加快了大數據的處理速度,此外,通過Spark的流技術還可以實現醫療知識圖譜的持續更新,面對當前呈現指數增長醫療數據以及人們迫切的應用需求,實時更新知識圖譜的重要性不言而喻。通過引入Spark技術,可以大大提升醫療知識圖譜的實際應用價值,加快推進醫療大數據應用的快速發展。
4 結 語
醫療知識圖譜是醫療信息分析和知識服務的基礎,同時也是醫療領域人工智能的重要知識源。本文針對臨床和公眾兩大用戶需求,提出了融合多種數據源的醫療知識圖譜構建的概念模型,該模型主要包括各類醫療數據的獲取、醫療文本數據的處理、醫療實體及實體關系標注、醫療實體識別、醫療實體鏈接、實體關系挖掘以及知識圖譜的存儲和表示等關鍵技術環節。本文一方面提出了融合多種醫療文本數據源的理念,所構建的醫療知識圖譜更為全面、更具實際應用價值;另一方面,提出了基于Spark技術的醫療知識圖譜動態更新思路,即所構建的醫療知識圖譜是隨著數據增長而動態更新的,具有較強的現實意義和應用價值。盡管如此,在醫療知識圖譜的具體實施和推廣時,仍然面臨著許多問題,如電子病歷屬于患者的個人隱私,任何機構和個人在沒有經過授權情況不能擅自使用,所以從國家層面亟待出臺相關的法律法規,同時也需要學界和業界的協力推進,進一步推動醫療知識圖譜的理論和實踐。
參考文獻
[1]李徐曼,沈江,余海燕.數據驅動的醫療與健康決策支持研究綜述[J].工業工程與管理,2017,22(1):1-13.
[2]Lehmann J.DBpedia:A large-scale,Multilingual Knowledge Base Extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.
[3]Bollacker K,Evans C,Paritosh P,et al.Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C].Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.ACM,2008:1247-1250.
[4]Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:601-610.
[5]Mitchell T,Cohen W,Hruschka E,et al.Never-ending Learning[J].Communications of the ACM,2018,61(5):103-115.
[6]Biega J,Kuzey E,Suchanek F M.Inside YAGO2s:A Transparent Information Extraction Architecture[C].Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:325-328.
[7]Hu F H,Shao Z Q,Ruan T.Self-Supervised Chinese Ontology Learning from Online Encyclopedias[J].The Scientific World Journal,2014:Article ID 848631.
[8]Niu X,Sun X,Wang H,et al.Zhishi.me-weaving Chinese Linking Open Data[C].International Semantic Web Conference.Springer,Berlin,Heidelberg,2011:205-220.
[9]Ernst P,Siu A,Weikum G.KnowLife:A Versatile Approach for Constructing a Large Knowledge Graph for Biomedical Sciences.[J].Bmc Bioinformatics,2015,16(1):1-13.
[10]Bodenreider O.The Unified Medical Language System(UMLS):Integrating Biomedical Terminology[J].Nucleic Acids Research,2004,32(suppl_1):D267-D270.
[11]Uzuner ,Solti I,Cadag E.Extracting Medication Information from Clinical Text[J].Journal of the American Medical Informatics Association,2010,17(5):514-518.
[12]陳德華,殷蘇娜,樂嘉錦,等.一種面向臨床領域時序知識圖譜的鏈接預測模型[J].計算機研究與發展,2017,54(12):2920-2930.
[13]Weng H,Liu Z,Yan S,et al.A Framework for Automated Knowledge Graph Construction Towards Traditional Chinese Medicine[C].International Conference on Health Information Science.Springer,Cham,2017:170-181.
[14]He B,Dong B,Guan Y,et al.Building a Comprehensive Syntactic and Semantic Corpus of Chinese Clinical Texts[J].Journal of Biomedical Informatics,2017,69:203-217.
[15]阮彤,孫程琳,王昊奮,等.中醫藥知識圖譜構建與應用[J].醫學信息學雜志,2016,37(4):8-13
[16]賈李蓉,劉靜,于彤,等.中醫藥知識圖譜構建[J].醫學信息學雜志,2015,36(8):51-53.
[17]Singhal A.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].http://googleblog.blogspot.ie/2012/05/introducing-knowledgegraph-things-not.html,2018-07-12.
[18]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
[19]馮新翎,何勝,熊太純,等.“科學知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J].情報雜志,2017,36(1):149-153.
[20]吳運兵,陰愛英,林開標,等.基于多數據源的知識圖譜構建方法研究[J].福州大學學報:自然科學版,2017,45(3):329-335.
[21]張坤麗,馬鴻超,趙悅淑,等.基于自然語言處理的中文產科電子病歷研究[J].鄭州大學學報:理學版,2017,49(4):40-45.
[22]黃翼彪.開源中文分詞器的比較研究[D].鄭州:鄭州大學,2013.
[23]李國壘,陳先來,夏冬,等.中文病歷文本分詞方法研究[J].中國生物醫學工程學報,2016,35(4):477-481.
[24]于清,陳永杰,丁巖.適用于醫療衛生領域的中文分詞方法研究[J].新疆師范大學學報:自然科學版,2017,36(1):62-66.
[25]張立邦,關毅,楊錦峰.基于無監督學習的中文電子病歷分詞[J].智能計算機與應用,2014,(2):68-71.
[26]Sasaki Y,Tsuruoka Y,McNaught J,et al.How to Make the Most of NE Dictionaries in Statistical NER[J].BMC Bioinformatics,2008,9(11):S5.
[27]葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實體的智能識別[J].中國生物醫學工程學報,2011,30(2):256-262.
[28]Hu J,Shi X,Liu Z,et al.HITSZ_CNER:A Hybrid System for Entity Recognition from Chinese Clinical Text[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[29]Keerthi S S,Sundararajan S.CRF Versus SVM-struct for Sequence Labeling[R].Yahoo Research Technical Report,2007.
[30]Jiang M,Chen Y,Liu M,et al.A Study of Machine-learning-based Approaches to Extract Clinical Entities and Their Assertions from Discharge Summaries[J].Journal of the American Medical Informatics Association,2011,18(5):601-606.
[31]Lei J,Tang B,Lu X,et al.A Comprehensive Study of Named Entity Recognition in Chinese Clinical Text[J].Journal of the American Medical Informatics Association,2013,21(5):808-814.
[32]Chen Yanxu,Zhang Gang,Fang Haizhou,et al.Clinical Named Entity Recognition Method Based on CRF[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[33]Liu Z,Yang M,Wang X,et al.Entity Recognition from Clinical Texts Via Recurrent Neural Network[J].BMC Medical Informatics and Decision Making,2017,17(2):67.
[34]王世昆,李紹滋,陳彤生.基于條件隨機場的中醫命名實體識別[J].廈門大學學報:自然版,2009,26(3):359-364.
[35]Wang Y,Yu Z,Li C,et al.Supervised Methods for Symptom Name Recognition in Free-text Clinical Records of Traditional Chinese Medicine:An Empirical Study[J].Journal of Biomedical Informatics,2013,47(2):91-104.
[36]燕楊,文敦偉,王云吉,等.基于層疊條件隨機場的中文病歷命名實體識別[J].吉林大學學報(工),2014,44(6):1843-1848.
[37]王潤奇,關毅.基于Tri-Training算法的中文電子病歷實體識別研究[J].智能計算機與應用,2017,7(6):132-134.
[38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Thirteenth Annual Conference of the International Speech Communication Association,2012.
[39]zlem Uzuner,South B R,Shen S,et al.2010 i2b2/VA Challenge on Concepts,Assertions,and Relations in Clinical Text[J].Journal of the American Medical Informatics Association Jamia,2011,18(5):552.
[40]周鵬程,武川,陸偉.基于多知識庫的短文本實體鏈接方法研究——以Wikipedia和Freebase為例[J].現代圖書情報技術,2016,32(6):1-11.
[41]王雪鵬,劉康,何世柱,等.基于網絡語義標簽的多源知識庫實體對齊算法[J].計算機學報,2017,40(3):701-711.
[42]李陽,高大啟.知識圖譜中實體相似度計算研究[J].中文信息學報,2017,31(1):140-146.
[43]Wang Y,Yu Z,Jiang Y,et al.Automatic Symptom Name Normalization in Clinical Records of Traditional Chinese Medicine[J].BMC Bioinformatics,2010,11(1):40.
[44]Demner-Fushman D,Apostolova E,Islamaj Dogan R.NLMs System Description for the Fourth i2b2/VA Challenge[C]//Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data.Boston,MA,USA:i2b2,2010.
[45]Frunza O,Inkpen D.Extraction of Disease-treatment Semantic Relations from Biomedical Sentences[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing.Association for Computational Linguistics,2010:91-98.
[46]Wang X,Chused A,Elhadad N,et al.Automated Knowledge Acquisition from Clinical Narrative Reports[J].AMIA.Annual Symposium Proceedings/AMIA Symposium.AMIA Symposium,2008,(6):783-787.
[47]Luo Y.Recurrent Neural Networks for Classifying Relations in Clinical Notes[J].Journal of Biomedical Informatics,2017,72:85-95.
[48]Hwang S,Kim J,Kim J,et al.CSnet:Constructing Symptom Network Based on Disease-symptom Relationships[C]//IEEE International Conference on Systems,Man and Cybernetics.IEEE,2017:960-965.
[49]吳嘉偉,關毅,呂新波.基于深度學習的電子病歷中實體關系抽取[J].智能計算機與應用,2014,4(3):35-38.
[50]Zhao C,Jiang J,Xu Z,et al.A Study of EMR-based Medical Knowledge Network and Its Applications[J].Computer Methods and Programs in Biomedicine,2017,143:13-23.
[51]李夢箐,朱友澤,馬利,等.基于二分圖的疾病與中藥關聯性研究[J].世界科學技術:中醫藥現代化,2016,(4):575-581.
[52]Kamdar M R,Musen M A.PhLeGrA:Graph Analytics in Pharmacology Over the Web of Life Sciences Linked Open Data[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:321-329.
[53]夏宇航,高大啟,阮彤,等.基于知識圖譜的醫療病歷數據存儲研究[J].計算機工程,2018.
[54]阮彤,孫程琳,王昊奮,等.中醫藥知識圖譜構建與應用[J].醫學信息學雜志,2016,(4):8-13.
[55]Beyan O D,Decker S.An RDF Based Semantic Approach to Model Temporal Relations in Health Records[C]//SWAT4LS,2016.
[56]Wang M,Zhang J,Liu J,et al.Pdd Graph:Bridging Electronic Medical Records and Biomedical Knowledge Graphs Via Entity Linking[C]//International Semantic Web Conference.Springer,Cham,2017:219-227.
[57]王仁武,袁毅,袁旭萍.基于深度學習與圖數據庫構建中文商業知識圖譜的探索研究[J].圖書與情報,2016,(1):110-117.
[58]Han Z,Zhang Y.Spark:A Big Data Processing Platform Based on Memory Computing[C]//Seventh International Symposium on Parallel Architectures,Algorithms and Programming.IEEE,2016:172-176.
[59]Wills J,Owen S,Laserson U,et al.Advanced Analytics with Spark:Patterns for Learning from Data at Scale[M].OReilly Media,Inc.,2015.
(責任編輯:郭沫含)