陳月月 李燕
甘肅中醫藥大學信息工程學院 甘肅 蘭州 730101
知識圖譜的概念于2012年5月被美國Google公司正式提出,用以提升搜索引擎的能力。知識圖譜本質上是一種以三元組的形式來對數據進行表示,用以揭示萬物之間關系的語義網絡。它能夠對領域的異構知識進行結構化處理,并能夠很好地描述實體間的交互關系,解決領域中分散、復雜和孤立的數據問題,在醫療、生物、金融等領域得到廣泛應用[1]。
知識圖譜技術提供了一種從海量文本和圖像中提取結構化知識的方法,運用可視化技術對知識資源及其載體進行描述,挖掘、分析、構建、映射和顯示知識及其之間的相互關系,是近年來互聯網領域中出現的一項新興技術。知識圖譜與大數據技術、深度學習技術相結合,正在成為推動人工智能發展的核心驅動力[2]。
醫學是知識圖譜應用最廣泛的領域之一,醫學知識圖譜可以利用信息技術對海量醫學數據中的信息進行提煉,實現對知識的快速儲存和增加[3]。構建醫學知識圖譜,抽取醫學領域的相關知識并對其進行合理的管理和應用,能夠解決當前醫療數據龐雜、知識管理困難等問題。
特定的醫療服務需求通常需要構建特定的醫療知識圖譜[4]。國內部分學者針對某種疾病的治療對醫療知識圖譜進行了研究。例如,牟梓君[5]利用西安中醫腦病醫院電子醫療記錄和中醫兒科常見病診療指南等數據作為參考,構建了小兒腦癱中醫診療知識圖譜,對小兒腦癱中醫辨治的相關的隱性知識進行挖掘和可視化管理,為小兒腦癱中醫診療方案做出優化。孫敏敏等人[6]以醫學資源網站數據為基礎,設計構建肺部疾病知識圖譜,旨在幫助醫生或患者及時發現病情,為醫學決策提供技術支持。楊江[7]在現有知識圖譜的構建基礎上,構建了以影像檢查為中心的醫療知識圖譜,并根據構建完成的醫療影響知識圖譜進行了應用平臺的搭建,為用戶提供了相應的醫療影像知識查詢以及疑似疾病推斷等功能,促進了醫療影像知識的應用。
知識圖譜的構建是利用知識表示、知識抽取、知識融合、知識推理和知識存儲等自然語言處理技術對海量異構數據進行整合和抽取,從中提取精準的知識,并將知識低冗余的進行存儲的過程。知識圖譜的構建過程如圖1所示。

圖1 知識圖譜構建過程
知識圖譜中,知識表示是描述知識的一種方式,其運用計算機可以理解和接受的數據格式將真實世界中的海量信息轉化為符合計算機處理模式的結構化數據。醫學知識表示主要是以形式化和模式化的語言來對醫學知識進行表示,提高計算機在醫學知識獲取、處理、存儲以及應用上的效率。近年來,本體表示法已成為最常用的知識表示方法。
知識抽取是從異構數據中抽取出實體、關系和屬性的過程。知識抽取包括命名實體識別和關系抽取兩個核心任務。在醫學領域,知識抽取工作包括從醫學文本中識別出疾病、癥狀、藥物等實體(如圖2所示),并對這些實體間的交互關系進行提取,這對于醫學數據挖掘和知識發現研究的開展有著重要的意義和應用價值[8]。

圖2 醫學文本中的實體
命名實體識別是知識抽取和知識挖掘的第一步,其目的是識別出文本中的實體,并將其按照統一的規范進行表示。醫學實體抽取是從醫學數據中抽取出特定類型的命名實體,比如疾病、藥物、癥狀等。近年來,隨著深度學習的興起以及深度學習在命名實體識別任務中的出色表現,使得基于深度學習的實體識別方法得到廣泛的應用。
實體關系抽取的目的是為了將抽取出來的實體間的語義關系表示為實體關系三元組。醫學實體關系抽取可以分為醫學實體層級關系抽取和非層次關系抽取兩個層級,對于不同類型實體層級關系抽取而言,關系類型通常分為兩種,一種是上下位關系、一種是部分和整體的關系[9]。例如,“卒中”與“缺血性卒中”是上下位關系,“偏癱”與“卒中”是癥狀與疾病的關系,屬于部分和整體的關系。由于醫學領域知識的嚴謹性和規范性,這部分關系往往在醫學詞典、標準化指定中進行專家構建[10]。由于深度學習方法具有自動提取特征、泛化能力強等優點,隨著醫學領域數據集的不斷擴大,針對醫學領域實體關系的抽取,多采用深度學習的方法。
醫學知識融合的目的是將醫學信息抽取中獲得的不同來源、不同結構、不同表示方式的數據進行整合,最終實現多源異構醫學數據在同一框架下的標準化表示。知識融合建立在知識抽取的基礎上,通過醫學知識融合技術,從知識抽取中提取的事實可以減少歧義、冗余和錯誤。醫學知識融合的關鍵技術有實體對齊技術、實體鏈接技術和關系推演技術。其中,實體對齊技術用于消除本體和數據源的異構性;實體鏈接是醫學知識融合的基礎,通過消歧等操作消除知識中的不一致;關系推演用于發現隱含知識,從而擴展和完善醫學知識庫。
知識推理是根據已有知識庫,采用相關算法,實現對知識圖譜的探索和挖掘。通過知識推理,可以發掘并推斷出缺失和隱藏的醫學知識,自動地把醫學知識圖譜中的舊知識進行更新,并為知識圖譜補充新的知識。在醫學知識圖譜中,知識推理要有搜集數據、診斷疾病、提供治療方法的功能。
知識存儲的目的是確定合理高效的知識圖譜存儲方式。如圖3所示,知識圖譜主要有基于資源描述框架(Resource Description Framework,RDF)的存儲、傳統關系型數據庫(Relational Database,RDB)存儲和基于圖數據庫(Graph Database,GDB)的存儲。

表1 知識存儲
基于醫學知識圖譜更側重于實體之間的關系(例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征)的特點,醫學知識圖譜的存儲基本采用圖數據庫,其中應用最廣泛的為Neo4j系統[11]。Neo4j是一個高性能的、開源的非關系型圖形數據庫系統,具有完整的ACID支持,是構建知識圖譜的可視化工具。Neo4j將數據存儲在一個超大型的網絡上,不僅可以將數據中的知識存儲成直觀的圖模式,還可以通過Neo4j的遍歷工具對圖模式進行知識檢索與數據分析[12],非常適用于基于圖結構的知識圖譜的存儲。
醫學知識圖譜以特有的技術優勢順應了醫療信息化時代的發展,高效地將知識圖譜應用于醫學領域將給人類的醫療衛生帶來革命性的變化[13]。
隨著醫療信息化的發展,以醫學知識圖譜為核心的醫療信息搜索引擎已經成為最重要的醫學信息檢索方式。知識圖譜與醫療信息搜索引擎相結合,可以提高搜索引擎的檢索效率,優化搜索結果,為用戶的查詢工作和搜索引擎的更新發展提供了有力的支持和保障[14]。目前,主流的醫療信息搜索引擎包括Web Md、Pub Med等,它們聚合了權威的醫療知識,可以為用戶提供真實可靠的醫療信息知識,很好地解答了用戶的醫療知識疑問。
隨著互聯網醫療的興起,各種提供醫療健康信息的在線咨詢平臺迅速發展起來。基于知識圖譜的醫療問答系統可以快速響應醫患用戶提出的問題,并給出準確、有效的解答。由于該方式具有快捷、方便、隱私等特點,使得各醫療平臺的問答數據激增,有限的醫生資源無法對這些問答數據做出及時的解答[15]。因此,基于現有的網絡問診數據,構建醫學智能問答系統可以有效減輕醫生的負擔,合理配置醫療資源,提高患者的使用體驗。醫療問答系統是知識圖譜在醫學領域中典型的應用場景,正在改變著醫療生態的發展,知識圖譜與醫療問答系統相結合是目前的研究熱點,具有重要的應用前景。
隨著醫療數據的快速增長,人們越來越重視醫療決策工作的效率,應用知識圖譜輔助醫療決策工作的開展,可以有效提高決策效率,逐漸成為醫療決策支持系統開發的研究熱點。醫療決策支持系統可以根據患者的癥狀表現和檢查數據模擬醫生的診斷,給出合理的治療方案,還可以對醫生給出的診療方案進行評估和分析,輔助醫生診療。醫療決策直接影響到患者的健康狀況和疾病的治療效果,因此,醫療決策必須保持真實性和正確性。在醫療決策系統的實際應用中,由于其仍然存在知識不完善和決策結果可靠性不高等方面的問題,因此,基于知識圖譜的醫療決策系統在實際應用中更多的還是扮演輔助診療的角色。
知識圖譜為醫療信息系統中海量、異構、動態的醫療大數據的表達、組織、管理及利用提供了一種更為有效的方式,使醫療系統能夠更加接近于人類的認知思維,提高了醫療系統的智能化水平。利用知識圖譜技術,可以更好地理解各種各樣的知識,從而為用戶提供智能化、結構化的數據源和服務。構建醫學知識圖譜,可以解決醫學領域知識數據復雜、知識管理困難的問題,未來將具有廣闊的應用和發展前景。
