醫學知識圖譜研究綜述

2023-05-29 10:20:24劉悅悅

軟件導刊 2023年5期

劉悅悅，李燕

（甘肅中醫藥大學信息工程學院，甘肅蘭州 730000）

0 引言

大數據（也稱巨量資料）時代，醫療數據量以幾何級數的形式高速增長，數據增長速度可以用“爆炸式”來形容。醫療數據是醫生在對病患進行診療救治的過程中生成數據的總和，包括病患的基本信息、電子病歷、醫學管理、診斷數據、儀器數據、功能檢驗數據等。概括而言，凡是留存于醫療衛生領域的大數據都可稱為醫療數據。大數據具有“4V1O”的特征，即數據量大（Volume）、類型繁多（Variety）、價值密度低（Value）、速度快時效高（Velocity），以及數據在線（Online）。在此基礎上醫療大數據還具有獨特特征，如長期保存性、時空性、語義性和隱私性。總之，醫療數據增長迅速且來源多樣，這使得如何有效擷取、組織管理以及合理運用海量醫學數據成為亟需解決的問題。

智能離不開知識，知識始終是人工智能的核心之一。知識圖譜（Knowledge Graph）并不是突然興起的新興技術，而是在語義網、本體論、自然語言處理等相關技術的影響下產生的結果。知識圖譜的概念于2012 年5 月由谷歌公司基于數據基礎Freebase 正式推出知識圖譜搜索引擎后正式產生，其從關系的角度分析事物間的聯系，由節點（抽象的概念或實體）和邊（實體的屬性或關系）構成知識圖譜。知識圖譜的最初目標是提高搜索引擎的能力，隨著技術的推進開始在自然語言理解、數據分析、智能問答以及人工智能等方面體現出極大價值。

近年來，關于醫學知識圖譜構建的成果不斷被提出，國外知名醫學知識圖譜包括Gene.Ontology、DrugBank、Watson Health 等，國內知名醫學知識圖譜包括鵬城實驗室人工智能研究中心智慧健康醫療課題組，北京大學計算語言學研究所，鄭州大學自然語言處理實驗室共同構建的中文醫學知識圖譜CMeKG，中國科學院計算機技術研究所的OpenKN，上海曙光醫院中醫藥知識圖譜，中國中醫科學院中醫藥信息研究所的中醫臨床知識圖譜，中文開放知識圖譜OpenKG，阿里巴巴的“醫知鹿”，百度的“靈醫智慧”，平安智慧醫療的“平安好醫生”，騰訊的“覓影”以及北京左醫科技有限公司旗下的“左手醫生”等。國內知識圖譜在醫療領域的應用相對于國外來說起步較晚，趙悅淑等［1］通過對中國知網和PubMed 英文數據庫的中文醫學知識圖譜相關文獻進行檢索及可視化分析，發現有關醫學知識圖譜的研究開始于2009 年，2018 年得到快速發展，并在中醫藥、影像智能以及疾病風險預測方面取得較大進步。

知識圖譜按照領域通常可以分為通用知識圖譜和特定領域知識圖譜，相對于通用知識圖譜而言，領域知識圖譜的知識結構更復雜并且質量要求更高；在準確率方面，通用知識圖譜往往有一定程度的容錯率，但在領域知識圖譜，尤其是醫療領域對知識圖譜構建過程中各類技術的要求極其苛刻。本文探討的醫療知識圖譜屬于領域知識圖譜，在醫療領域中關乎人類生命，知識來源必須是高質量且準確率更高，盡可能做到完全避免知識錯誤。本文通過介紹醫學知識圖譜的相關概念，歸納總結醫學知識圖譜的研究現狀與發展，以此探索醫學知識圖譜領域的整體概況。

1 醫學知識圖譜構建關鍵技術

醫學知識圖譜的構建相較一般知識圖譜更具挑戰性。醫學知識存在著1-1、1-N、N-1、N-N 的關系，復雜、歧義等特點使其知識圖譜的構建困難諸多。單單針對疾病實體而言，如心血管疾病就包括冠心病（胸痹）、高血壓（眩暈）、心肌梗死（真心痛）、心絞痛（胸痹心痛）、心律失常（心動悸）、心悸（包括驚悸和怔忡）。本文結合知識圖譜的構建，從醫學數據源、醫學知識抽取、醫學知識融合、醫學知識表示、醫學知識存儲、醫學知識推理和醫學質量評估7 個方面介紹醫學知識圖譜的構建過程。從3 類不同數據源中抽取醫學知識，針對抽取知識異構的情況對知識進行融合，并以三元組的形式進行醫學知識的表示，然后對處理好的醫學知識進行知識庫存儲，以構建知識圖譜。對于醫學知識圖譜構建不完整的問題，采用知識圖譜推理技術進行知識圖譜補全，最后通過質量評估提高醫學知識圖譜的質量和置信度。醫學知識圖譜構建框架如圖1所示。

Fig.1 Construction framework of medical knowledge graph圖1 醫學知識圖譜構建框架

1.1 醫學數據源

醫學信息技術的快速發展導致醫學數據不斷大量增長，而這些醫學數據的來源也盡不相同。概括而言，在目前的醫療領域中，醫學數據源可以分為結構化數據、半結構化數據以及非結構化數據3 類。其中，結構化數據包括部分醫療信息系統中的醫學知識庫、疾病知識庫以及臨床業務數據等；半結構化數據包括表格、網頁、藥品說明書、心/腦電圖數據等；非結構化數據包括醫學文獻、古籍等文本數據［2］。在知識圖譜的構建過程中，難點在于如何將非結構化以及半結構化知識轉化為結構化知識，因為非結構化數據對于計算機而言是難以直接理解的，需要將其轉化為結構化數據，這就需要借助醫學知識抽取技術。

1.2 醫學知識抽取

知識抽取是構建知識圖譜的重要技術，對于實現自動化構建具有重大意義。知識抽取即從數據源中通過自動化或者半自動化的方式抽取有價值的知識。知識即指知識單元，包括實體、屬性和關系，以三元組的形式進行存儲。醫學知識抽取的主要目標是從不同醫學數據源知識中抽取醫學實體、醫學關系以及醫學屬性等，同時保證抽取的準確性。以下按照知識單元的構成從實體抽取、關系抽取以及屬性抽取3方面進行醫學知識抽取介紹。

1.2.1 醫學實體抽取

實體抽取又名命名實體識別，是知識抽取最基本的任務。實體指具有可區別性且獨立存在的某種事物。醫學領域實體指科室、癥狀、藥物、疾病、處方等。早期醫學實體識別主要采用基于字典和規則的方法，由醫學領域知識專家手工編寫規則的方法對實體進行抽取，通過字符串匹配從而達到識別命名實體的效果，這種方法在數據集小時具有很高的準確率和召回率，但對于大規模的數據集來說，這種方法不管是在時效性還是復用性上均較差。為此，有研究者開始將機器學習算法與統計模型相結合為應用到實體抽取中，利用完全標注或部分標注的語料信息進行模型訓練，常用相關模型為隱馬爾可夫模型（Hiden Markov Model，HMM）、條件馬爾可夫模型（Conditional Markov Model，CMM）、最大熵模型（Maximum Entropy Model，MEM）以及條件隨機場模型（Conditional Random Fields，CRF）、雙向長短時記憶模型（Bidirectional Long Short-Term Memory，Bi LSTM）。基于機器學習的醫學實體抽取存在著醫學質量不一且人工標注專業性不高的問題。

近年來，深度學習技術開始應用于醫學知識圖譜領域。例如，景慎旗等［3］針對中文電子病歷文書的命名實體識別問題，提出一種基于半監督深度學習的方法，結合專家權威半自動化實體標注法和BERT-GCN-CRF 框架構建BERT-GCN-CRF 模型，與其他模型相比在準確率、召回率和F1 值方面均有提高，人工標注工作量也顯著減少，對于電子病歷非結構化文本挖掘具有重要意義。針對BERT 模型語義單一、詞匯量有限的問題，馬詩語等［4］提出一種ALBERT-BILSTM-CRF 模型，以糖尿病相關論文及臨床指南為數據集，通過比較不同模型F1 值的變化情況，最終得出融合ALBERT 的實體識別效果優于現有主流模型，且較BERT 訓練速度有所提升的結論；李小亞［5］提出超聲數據命名實體識別模型，在基線模型BiLSTM-CRF 上引入Bert，設計實驗解決了非結構化數據的實體識別問題。

1.2.2 醫學關系抽取

關系抽取是指從文本數據中抽取兩個或多個實體間的語義聯系，與實體抽取密切相關。醫學領域實體間的關系包括疾病—部位、疾病—癥狀、疾病—檢查、疾病—疾病等。早期關系抽取方法主要為基于共現和基于規則模板匹配的方法。基于共現的方法通過文本出現頻次反映實體之間的相關性，方法簡單、召回率高但準確率低。基于規則模板匹配的方法由醫學專家手工構造規則模板，然后人工匹配有特定關系的實體，準確率較高，但召回率低、移植性差。近年來，基于深度學習的關系抽取模型不斷被提出，總體分為流水線關系抽取和聯合關系抽取兩類。流水線關系抽取方法是在實體抽取后再進行關系抽取，兩者過程相互獨立，但關系抽取位于實體抽取后，又受其影響，常用抽取模型包括Att-Pooling-CNN 模型、depLCNN+NS 模型、CR-CNN 模型等。流水線方法存在誤差不斷積累的缺陷，從而使得抽取性能下降。為此，一些學者提出了聯合抽取的方法，聯合關系抽取是在同一模型中將關系抽取與實體抽取相結合，共同優化。例如，Miwa 等［6］基于嵌入層、LSTM-RNN 層以及依存關系層三層表示層構建了實體抽取以及關系抽取的聯合模型；劉蘇文等［7］針對因果關系抽取關聯性問題，提出了二元關系抽取和一元功能識別共同決策的聯合學習模型，解決了生物醫學實體因果關系抽取問題；鐘靈玥［8］針對實體抽取和關系抽取兩者間聯系較弱、模型處理重疊三元組效果欠佳的問題提出TagRE 系列模型，采用聯合抽取方法重新定義子任務的方式進行處理，從而避免了兩者間缺乏關聯的問題。

1.2.3 醫學屬性抽取

屬性抽取即以結構化的形式呈現識別文本中關于屬性的信息。醫學實體屬性的存在，如藥品不良反應、服用劑量等，使得對實體的認識更加具體。實體屬性作為實體的一種附屬關系，其抽取問題在一定程度上可以轉化為關系抽取問題。

1.3 醫學知識融合

醫學知識融合是指在專業術語的規范下對異構或冗雜的多源數據進行整合、消歧、加工，其主要任務是消除由于醫學數據源不同而引起醫學知識重復、質量良萎不齊、錯誤冗雜的問題。本體所述語義內容存在重疊或關聯的問題，在表示語言和模型上存在差異，從而造成本體異構。實體同樣存在異構的問題，存在一對多或多對一的關系，這種共指問題會對知識圖譜產生影響。也就是說知識融合最重要的工作就是解決構建知識圖譜過程中的異構問題。本文將醫學知識融合分成醫學實體對齊和醫學知識庫融合兩部分。

實體對齊的主要任務是解決同義異名的問題，即異構數據中的實體沖突、指向不明問題，以此獲取高質量知識。目前針對醫學領域的知識融合，學者也進行了相關探索。針對醫學數據的多源化，張坤麗等［9］依據術語標準和主題詞表對多來源的200 余萬字非結構化產科疾病文本進行人工校對和異構數據的整合、消歧、加工、更新等知識融合形成了中文產科知識圖譜（COKG）數據層；宋培彥等［10］在復用疫苗、人類疾病、癥狀的基礎上進行本體的形式合并，利用Word2vec 方法和Owready2 功能模塊完成本體語義融合，取得了較高的本體語義關系準確度，實現了公共衛生領域多本體融合；胡正銀等［11］針對知識圖譜多源異構問題，基于SPO 三元組模型，通過實體對齊、概念層析融合與關系融合實現多源異構數據融合，生成了完整領域的知識圖譜。

之所以進行知識庫融合，是因為醫學知識圖譜往往針對的是某一個具體科室或者疾病構建，不同的醫學數據庫獨立存在，這種情況下有必要對不同醫學數據庫進行融合，以獲得涵蓋范圍更廣的醫學知識圖譜。例如，劉雷等［12］在構建精準醫學知識庫時利用跨庫知識融合技術對生物醫學知識進行融合；劉新奎等［13］采用眾包的方式解決疾病診斷相關分組知識融合的問題；廖開際等［14］針對多來源醫療知識庫融合過程存在知識冗雜的問題，利用綜合多種注意力機制和圖卷積神經網絡的MuGNN 模型對互聯網醫療知識進行融合。目前醫學知識庫融合技術仍停留在人工干預階段，自動化融合算法還有待相關學者進一步研究。

1.4 醫學知識表示

知識表示面向的對象是知識庫中的實體和關系，通過在低維空間中高效計算實體和關系的語義關系，有效解決數據稀疏的問題，對知識獲取、知識融合以及知識推理有著重大意義，可提高知識圖譜構建的效率。醫學知識主要以符號化、形式化、模式化的形式進行知識的表示。目前主流醫學知識表示方式為三元組（頭實體—關系—尾實體）的形式，這種知識表示由Sem Rep 依托于UMLS 三大知識源，通過句法分析、短語映射、詞性消歧、語義謂詞歸一化等，最終輸出SPO（Subject-Predicate-Object）三元組“概念a|語義謂詞|概念b”表示的語義知識，并廣泛應用于知識圖譜的知識發現。SPO 語義表達豐富，對于語義關系復雜的醫學領域來說極為適用。例如，蔡妙芝等［15］利用Sem-Rep 提出基于SPO 語義三元組的疾病知識發現模型，并基于糖尿病相關文獻驗證了該模型揭示大規模文獻中隱含生物醫學知識的可行性。三元組雖然已得到使用和認可，但在進行醫學領域三元組表示時需要圖算法進行計算，而這些圖算法計算復雜度較高，在大規模知識圖譜上難以快速運行，從而導致計算效率低的問題。

隨著深度學習的發展，醫學知識表示技術有了一定進展，按照計算方式的不同分為距離平移模型和語義匹配模型兩大類［2］，如表1所示。

Table 1 Knowledge representation model based on deep learning表1 基于深度學習知識表示模型

1.5 醫學知識存儲

知識存儲的主要目的是確定合理高效的存儲方式，其好壞會直接影響后續查詢的效率。目前主流知識存儲主要可分為基于資源描述框架（Resource Description Framework，RDF）的存儲與基于圖的存儲兩大類。在RDF 存儲方面，語義萬維網領域的三元組庫更好地實現了三元組數據的存儲，而數據庫領域提出了專門用于管理屬性圖的圖數據庫。三元組數據庫與圖數據庫的相互融合發展為知識圖譜的存儲奠定了強大基礎。

知識存儲貫穿醫學知識圖譜構建的整個周期，數據存儲對醫學領域非常重要。目前在圖存儲方式中，基于Neo4j 的原生圖數據庫成為主流，Neo4j 屬性圖為三元組專門設置存儲方案，因此其存取效率優于關系數據庫。王明強等［16］利用RDF 模型與Neo4j 構成的相似性，通過將RDF模型映射到Neo4j 數據模型的方式將三元組存儲到Neo4j，最終基于Neo4j 圖數據庫構建的中醫皮膚病“病—證—治”本體具有更強的擴展性，數據準性也較高。可見如何根據知識特點選擇存儲方案，或采取一定方法將兩種不同的方案結合起來提升準確率，是知識存儲過程中需要解決的重要問題。

1.6 醫學知識推理

知識推理指根據已有知識推斷未知知識的過程，是完善知識圖譜的重要手段之一。醫學領域知識圖譜的構建因知識的復雜性和歧義性而存在嚴重的非完整性，目前醫學知識圖譜亟需解決的就是如何根據已存在的醫學知識推斷出那些尚未被挖掘出來的隱含醫學知識，進而補全醫學知識圖譜。針對這一問題，醫學知識推理技術應運而生。知識推理方法可以分為邏輯推理和非邏輯推理，邏輯推理又可細分為演繹推理和歸納推理（包含溯因推理和類比推理）。而針對知識圖譜的知識推理方法［17］包括本體推理、基于邏輯編程的推理、基于圖結構的推理、基于規則學習的推理、基于分布式表示學習的推理、基于強化學習的推理、基于神經網絡的推理、基于深度學習的推理，目前主流知識圖譜推理算法為基于圖結構的算法。在大數據時代下，基于深度學習的推理方法廣受學者的青睞，其中基于知識表示技術、知識計算應用技術、知識獲取技術的知識推理在醫學領域有著廣闊的應用前景。然而，醫學知識推理仍處于初步階段，通過董文波等［18］對現階段醫學知識推理研究現狀的概述可知，醫學知識推理現階段存在缺乏高效的動態推理模型、推理過程耗時耗力、推理泛化能力低等眾多問題，現階段針對樣本數據存在缺少頭尾實體、查詢路徑過長、樣本數據錯誤等各種缺陷，零樣本、單樣本、少樣本和多樣本的知識圖譜推理更受矚目，但在醫學領域的知識推理仍有許多工作需要學者進行完善和創新。

1.7 圖譜質量評估

知識圖譜質量評估指通過去粗取精來保證圖譜質量，換言之，質量評估是通過篩選置信度高的知識來保障知識圖譜構建質量，這一過程是保障知識質量的重要環節，并貫穿始終。醫學知識圖譜質量評估包括但不限于對知識質量、專家信息、醫學知識庫、醫學知識圖譜本體等方面的評估。整體評估過程要注意錯誤預警，著重檢查知識質量。醫學知識圖譜本體的評估方法可分為基于黃金標準、基于本體任務/應用、基于數據驅動、基于指標的方法四大類，各有優缺點，其中基于黃金標準的評估比較客觀，但是黃金標準卻難以定義或不存在；基于本體任務/應用的評估具有針對性，直接面對本體應用，但因對具體應用較為依賴從而導致可移植性和通用性較差；基于數據驅動的評估方法結果相較于專家的主觀評估更具客觀化，同時容易驗證，但受限于本體概念的覆蓋度；基于指標的評估方法具有較為全面的指標體系，但卻面臨著指標難以統一的問題。例如，張曉冉等［19］提出一個與領域無關的通用數據質量檢測和評估的數學模型，同時采用本體技術定義了該模型到本體模型的轉換，用于解決數據的質量問題；趙地等［20］提出一種新的面向知識圖譜構建全流程的質量評估框架，以用戶的角度系統評估知識圖譜從而達到優化知識圖譜的目的。

2 醫學知識圖譜的應用

知識圖譜在醫學領域的應用促進了醫療智能化水平的提高，目前醫學知識圖譜主要應用于輔助診斷、臨床決策支持、風險評估和智能語義搜索等方面。

2.1 臨床決策支持診斷

決策支持系統（Decision Support Systems，DSS）隸屬于管理科學的范疇。20 世紀70 年代中期，Keen 和Scott Morton 首次提出DSS 的概念。基于DSS 的相關理論和技術，臨床決策支持系統（Clinical Decision Support Systems，CDSS）應運而生。CDSS 是醫學決策支持系統的重要組成部分，是推進精準醫療的關鍵以及提升醫療質量的重要手段，根本目的是為了評估和提高醫療質量。利用醫學知識圖譜技術可以極大減少醫療決策中的失誤和醫療差錯，并有效解決臨床醫生知識的局限性，提高診斷效率。根據患者對自身情況的自述以及檢查數據初步給出診斷結果和治療方案等，同時針對醫生的方案進行核實檢查，一定程度上避免誤診，使診斷更加精確。現有臨床決策支持系統在建模過程中一般會用到人工神經網絡、貝葉斯網絡、遺傳算法、產生式規則系統、邏輯條件、因果概率網絡等。例如，時雨［21］采用功能應用界面展示設計實現了支持相似病歷檢索、疾病診斷以及治療方案分析的基于知識圖譜的腦血管輔助決策支持系統，為腦血管病的臨床診療決策提供了支持；鄭少宇［22］面向臨床經驗相對不足的社區醫生，基于圖譜和癥狀特征抽取算法、癥狀分類算法、癥狀檢索算法設計開發了基于知識圖譜的常見病診斷輔助系統，能夠在癥狀采集階段對當前癥狀的所有相關疾病進行預覽，便于用戶在后續鑒別診斷環節中合理地制定治療流程；董麗麗等［23］針對深度學習技術用于診斷需大規模依賴標注數據，且缺乏醫生或專家經驗知識的問題，提出一種融合醫學知識圖譜與深度學習的疾病診斷方法；劉勘等［24］結合知識圖譜、表示學習、深度神經網絡等技術構建了并發癥輔助診斷模型，該模型對于提高并發癥的診斷準確率起到積極作用。目前臨床決策支持應用方面存在的問題主要為支持疾病類型單一，準確率也有待提高，而構建一整套全面的疾病臨床決策支持系統所耗費的人力和物力也較大，目前尚未較好的解決方案。

2.2 醫學問答系統

智能問答系統是自然語言處理領域備受關注的研究方向，在醫學知識圖譜領域具有廣闊的應用前景。基于醫學知識的專業性和復雜性，非醫護人員很難理解，進而導致醫患間的溝通問題。而醫學問答系統在一定程度上可以起到普及公民醫學知識的作用，通過醫學問答的形式將醫學規范用語用一種通俗易懂的方式反饋給患者及其家屬。問答系統采用人機交互的形式，通過自然語言處理技術實現機器與用戶的交流。基于醫學知識圖譜的問答系統通過自然語言處理技術對用戶問題進行解析，然后基于知識圖譜的查詢語句在對應醫學知識圖譜中進行查詢，并返回答案。目前不少學者對醫學問答系統進行了探索，例如李俊卓等［25］基于兒科醫學知識圖譜，利用AC 自動機（Aho-Corasick Automaton）和正則表達式融合數據源，最終實現了兒科疾病及保健知識問答系統的構建；馬滿福等［26］針對中文醫療領域分詞困難的問題，提出基于格子卷積神經網絡（Lattice CNN，LCN）的醫療知識問答模型，準確率達到89.0%，比同類模型提高2%。

2.3 智能語義搜索

基于知識圖譜的語義搜索與傳統依靠網頁間超鏈接實現網頁搜索不同，前者搜索的對象是具體事物，如醫療領域的病患、癥狀、藥物等，這些事物的來源可以是電子病歷、醫學診斷圖片、文本數據等各種信息資源，而知識圖譜和語義技術為這些事物提供了實體、屬性和關系的描述，使得搜索引擎可以直接對這些具體事物進行索引。概括而言，醫學語義搜索是指在已存在的大規模醫學數據庫中通過對關鍵字以及相關內容進行語義標注，最終實現從醫學知識圖譜中檢索查詢相應實體、實體間的關系以及屬性的擴展查詢，達到高效便捷搜索醫療信息的效果。目前，有關醫學領域智能語義搜索的相關應用有搜醫網、360 良醫、搜狗明醫、春雨醫生、丁香醫生等醫學搜索引擎，騰訊醫典和訊飛健康平臺等醫學相關產品，同時相關學者也在學術方面對醫學語義搜索進行了探究，如楊笑然［27］為解決互聯網醫療科普搜索需求增加與現有科普網站導航過于專業用戶無法找到針對性答案的問題，基于運用語義搜索和問答系統相關技術，設計開發了基于知識圖譜的醫療專家系統，提供醫療語義搜索和醫療智能問答服務；翟姍姍等［28］將知識圖譜與分面檢索相結合，構建了基于醫學知識圖譜的慢性病在線醫療社區分面檢索模型，提高了用戶檢索的效率和質量。

3 現存問題

知識圖譜是大數據時代最有效的知識表示和整合方法之一，泛指各種大型知識庫，是將所有不同種類的信息連接在一起而得到的一個關系網絡，是機器大腦中的知識庫。作為一種以圖譜形式描述實體與屬性關系的新技術，知識圖譜用于醫療領域可有效對海量數據進行挖掘、處理和分析，但目前仍面臨諸多挑戰。

3.1 數據語料標注問題

構建醫學知識圖譜最重要的步驟是數據處理，高質量的數據往往來源于中醫醫案、醫學古籍或是由權威機構發布的文件，獲取數據后如何對這些數據進行標注成為一個重大難題。一般數據標注通常采用BIO 標注方法，但方劑所含實體類型較多，包括藥物、疾病、功效、炮制方法等，若按照BIO 標注工作量極大。此外，醫學古籍內容晦澀，需要人工命名實體標注，且會由于標注人的不同而導致標注結果不盡相同。

3.2 知識圖譜存儲問題

目前知識圖譜存儲主要方式是基于RDF 和基于圖數據庫的存儲，目前醫學知識圖譜主要采用基于圖數據庫的存儲方法。雖然基于RDF 的存儲方法總體不如圖數據庫，但其仍有圖數據庫未涉及的優點。例如，圖數據庫最大的缺點就是不支持SQL 的查詢，是否可以將RDF 與圖數據存儲相融合有待學者驗證和嘗試，而面對醫療數據的快速增長以及數據復雜化等問題，現有存儲方式能否應對還有待驗證。

3.3 知識推理能力問題

知識推理技術的準確率提高是一大難題，主要原因有二：其一是數據質量越高，推理越準確，而高質量數據的訓練耗時耗力耗財；其二是關系預測能力有限，隨著知識圖譜的擴展，關系預測路徑長度也不斷增長，現有預測方法長度有限，這在一定程度上影響了準確率。

3.4 知識處理算法問題

不論是醫學知識抽取、醫學實體對齊還是醫學知識融合方面，相關算法或多或少存在準確率低、擴展性低、復雜度高等問題，高效、可擴展性強的相關算法仍有待學者深入研究。

3.5 醫學知識圖譜表現單一

現有知識圖譜大多以文本、網頁的形式進行展示，能否采用多模態技術將聲音、影像、信號數據以及古籍中的醫學信息一起融入醫學知識庫中將有待學者進一步研究。

4 結語

本文針對醫學知識圖譜的構建技術以及應用進行了分析，并對目前醫學知識圖譜面臨的挑戰進行了相關總結和展望，認為醫學知識圖譜具有廣泛的應用前景。隨著技術的不斷成熟、經驗的不斷積累，目前存在的不足終會被解決，知識圖譜在醫學領域的應用將會更加準確、具體，成為推動醫學智能化一種不可或缺的助力。醫學知識圖譜的意義在于推動了醫學自動化和智能化的發展，對于中醫來說更是如此。相信醫學知識圖譜可以成為中醫得以傳承和創新的一種推動力，為整個醫療產業發展注入鮮活血液。