999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學領域知識融合研究進展

2024-05-11 03:32:54熊玲珠杜建強劉安棟
計算機工程與應用 2024年9期
關鍵詞:語義融合信息

彭 琳,宋 珺,熊玲珠,杜建強,葉 青,劉安棟

江西中醫藥大學計算機學院,南昌 330004

長期以來,醫學領域的知識分散在各種信息載體中,未充分利用其價值。為發揮信息技術對醫學傳承創新發展的支撐作用,研究人員將知識圖譜(knowledge graph,KG)引入醫學領域,以提升電子病歷、醫案、古籍等知識的研究與利用效果。然而,不同知識圖譜的來源多樣,呈現多樣性和異質性,可能導致數據重復和冗余,同時醫學知識間存在互補。因此,如何有效融合和充分利用多源的醫學知識,并減少研究中的重復工作,是一項意義深遠的任務。

知識融合作為知識圖譜研究中的核心問題之一,能夠將不同知識圖譜融合為一個統一、一致且簡潔的形式,以實現應用間的互操作性[1]。在醫學領域,知識融合旨在利用融合技術將分散在各個知識圖譜或不同數據源中的醫學知識進行對齊與合并,形成一個更全面的醫學領域知識圖譜,在提高知識質量、擴大規模、提高醫學知識利用率和共享性等方面具有促進作用。

根據匹配對象的不同,知識融合可分為本體匹配(ontology matching)、實體對齊(entity alignment)和實體鏈接(entity linking)三類。本體匹配是指將不同本體之間的概念進行對齊和匹配;實體對齊旨在找到不同知識圖譜中對應的實體;實體鏈接則用于將文本中的實體與外部知識圖譜中的實體進行關聯。由于技術發展迅速,本文主要調研了近5年醫學領域知識融合任務的相關文獻,并發現以下現象:(1)描述醫學本體匹配的文獻數量逐漸減少,且均不足另外兩類文獻的三分之一。(2)近年來,關于本體匹配的文獻研究進展不多,本體更多用于輔助實體對齊或實體鏈接,以增強知識融合的準確性。(3)醫學實體鏈接文獻相對最多,但隨著技術的發展以及各類知識圖譜的構建,醫學實體對齊的研究在近幾年不斷增長。因此,本文將聚焦于實體對齊和實體鏈接這兩個核心任務。

目前,醫學領域中與知識融合相關的綜述較少,French 等[2]梳理了1980 年至2022 年生物醫學實體鏈接的發展狀況;Shi等[3]從技術角度分析了生物醫學實體鏈接的發展歷程,并探討了應用于不同場景的數據集特征以及不同方法在各類數據集上的效果。上述兩篇文獻僅綜述了實體鏈接任務,未涉及實體對齊任務。同時,本文緊扣“問題-方法”的思路,從任務的問題切入,通過分析現有研究方法給出相應的解決方案,具體結構如圖1 所示。首先,系統梳理醫學領域知識融合的定義、評價指標及數據集;歸類醫學領域知識融合中存在的問題。然后,按照問題、技術兩個維度,綜述了近年來醫學領域知識融合中實體對齊、實體鏈接任務的相關方法,重點對最新研究進展進行對比和深入分析;在此基礎上,針對每類問題,總結現有研究工作的解決思路與策略。最后,根據前文的分析,給出了醫學領域知識融合的未來研究方向。

圖1 組織結構圖Fig.1 Organizational structure diagram

1 醫學領域知識融合概述

1.1 問題定義

知識圖譜是一個有向圖,一般表示為G={E,R,T},其中,E、R、T分別代表知識圖譜中的實體、關系、三元組的集合[4]。實體對齊、實體鏈接的定義如下:

定義1實體對齊(entity alignment,EA)也稱實例匹配、實體消解,旨在將不同數據源或知識圖譜中指代相同事物的實體進行匹配。具體而言,給定兩個知識圖譜G1={E1,R1,T1},G2={E2,R2,T2},目標是找到它們之間等價的實體對,其中“≡”表示等價關系,即實體ei與實體ej指向同一個事物。一般情況下,會給定一組已對齊實體對作為訓練集,稱為種子對齊(seed alignment)。醫學實體對齊任務示例如圖2(a)所示。

圖2 醫學實體對齊與實體鏈接任務示意圖Fig.2 Schematic of medical entity alignment and entity linking tasks

定義2實體鏈接(entity linking,EL)有時也被稱為實體消歧,側重于將文本中的實體提及(mention)鏈接到知識圖譜或知識庫中對應的實體。其中,“實體提及”簡稱為“提及”,指用自然語言文本表示實體的語言片段;“實體”通常指代知識圖譜或知識庫中的實體對象。具體地,給定一個特定的醫學領域知識圖譜G={E,R,T},其中包含N個實體E={e1,e2,…,eN},同時,給定一個包含一組被識別的實體提及M={m1,m2,…,mM}的醫學文本D,目標是找到實體提及mj∈M對應的知識圖譜中的實體ei∈E。圖2(b)展示了醫學實體鏈接任務的示意圖。

1.2 評價指標

醫學領域知識融合任務采用的評價指標可分為兩類:第一類指標為精確率P(precision)、召回率R(recall)、F1 值(F1-measure);另一類指標為Hits@k、MR、MRR。其中,這兩類均可作為實體對齊任務的評價指標,實體鏈接任務則常用第一類作為評價指標。

(1)P、R、F1

以下公式中,TP表示模型正確預測的正樣本數目、FP為模型錯誤預測的負樣本數目、FN則代表被模型錯誤預測的正樣本數目。

其中,這三個指標的數值越大,模型效果越好。并且,F1 值是用來評估不同模型的綜合指標,綜合考慮了P和R 的調和平均值。

對于醫學實體對齊任務,P 表示正確預測的實體對數量與所有預測實體對數量之比,即正確對齊實體的比例;R 表示正確預測的實體對數量與所有真實存在的實體對數量之比,即正確對齊實體的覆蓋率。

對于醫學實體鏈接任務,P 衡量了鏈接到知識圖譜的實體中有多少是正確的,即模型給出的鏈接中有多少是準確的;R 衡量了模型是否能夠找到文本中的大部分實體提及并將它們正確地鏈接到知識圖譜中,即模型有多少能夠找到的實體提及被正確鏈接。

(2)Hits@k、MR、MRR

Hits@k:表示前k個命中率,即對齊結果中在前k名的正確對齊實體所占的比例,其中k是一個預先設定的整數。

MR(mean rank):平均排名,即正確對齊實體排名的平均值。

MRR(mean reciprocal rank):平均倒數排名,即計算正確對齊實體排名的倒數的平均值。該指標反映模型對于不同實體間相似度的區分能力。

其中,Hits@k、MRR 越大模型的效果越好,而MR 越小模型的效果越好。

1.3 數據集

基于知識圖譜構建的實體對齊數據集中,DBP15k[5]是由DBpedia 不同語言版本鏈接而成的大型通用實體對齊數據集,包含了DBP15KZH-EN、DBP15KJA-EN和DBP15KFR-EN三個子版本;D-W-100K[6]的數據來自DBpedia和Wikidata,用于支持多領域知識圖譜的實體對齊任務;MED-BBK-9K[7]是騰訊天衍實驗室構建的基于兩個醫療知識圖譜的實體對齊數據集,包含9 162 個一對一實體對。

醫學領域實體鏈接數據集中,NCBI 疾病語料庫是由Do?an 等[8]構建的科學領域醫學實體鏈接語料庫,包含793篇生物醫學文獻摘要,常見數據集劃分為593/100/100;COMETA[9]是一個醫學社交媒體領域的實體鏈接數據集,由Reddit論壇上的醫學實體提及和SNOMED CT[10]術語組成。醫學知識融合數據集見表1。

表1 醫學領域知識融合數據集Table 1 Knowledge fusion datasets for medical field

2 問題與挑戰

實體對齊和實體鏈接均為醫學領域知識融合的重要任務,但它們的關注點有所不同。(1)任務目標上,實體對齊致力于解決不同醫學數據源或知識圖譜中相同實體的對應問題,例如,將不同數據源中描述的相同疾病“高血壓”和“高血壓病”進行匹配,以便在整合后的知識圖譜中建立一致的關聯;而實體鏈接旨在將醫學文本中識別到的實體提及,如疾病、癥狀、治療等,鏈接到外部知識源中的規范實體,從而豐富實體的語義信息,其中外部知識源通常為預定義的知識圖譜。(2)在評測方面,實體對齊側重于匹配質量和數據源整合,解決語義差異和質量問題;而實體鏈接更關注正確的實體消歧和上下文理解,以確保鏈接準確性。(3)應用場景中,實體對齊用于整合多源知識,以實現跨數據源查詢和分析,如整合醫學知識圖譜以提供統一查詢接口;實體鏈接則將非結構化文本與結構化的知識圖譜關聯,是醫療智能問答、基于知識圖譜的信息檢索、內容推薦等應用的基礎。

相比于通用領域的知識融合,醫學領域由于其專業性與復雜性特點給知識融合研究帶來了諸多挑戰。下文將具體分析醫學領域知識融合任務所面臨的共有難點,以及實體對齊和實體鏈接各自的難點。

2.1 醫學知識融合中的共同難點

2.1.1 多樣性與歧義性

多樣性與歧義性問題分別表現出“多詞一義”與“一詞多義”的現象。(1)多樣性問題:不同的研究機構和研究人員對于命名的習慣存在差異,同一個醫學實體往往具有多個不同的名稱,例如,“乳腺導管內癌”和“乳腺導管內原位癌”,“帕金森病”和“帕金森氏癥”,“齲齒”和“爛牙”。這種實體命名多樣性增加了知識融合任務的復雜性。(2)歧義性問題:同一個實體名稱可以表示不同的含義,例如,“神曲”在中藥領域是中藥材,在文學領域屬于一部文學作品;“山楂”既可表示為藥物,也能表示為飲食。歧義性問題需要結合上下文信息進行消歧。示例如圖3所示。

圖3 多樣性和歧義性問題示例Fig.3 Examples of diversity and ambiguity issues

2.1.2 標注數據的缺乏

在實體對齊中,通常需要大量人工標注的預對齊實體對,以便連接兩個知識圖譜。同樣,在實體鏈接過程中也需標注數據進行訓練。然而,由于醫學領域的專業性,需依賴專業的醫學人員進行標注,因此,獲取高質量的標注數據困難且昂貴,這導致知識融合任務中標注數據的匱乏。

2.1.3 計算效率的問題

醫學領域的知識圖譜規模龐大,涉及大量的實體和關系。如何在合理的時間內高效完成實體對齊或實體鏈接計算,是一個具有挑戰性的問題。因此,需要設計高效的算法和優化策略,以提高知識融合的計算效率。

2.2 醫學領域實體對齊的難點

2.2.1 知識圖譜異質性

知識圖譜之間的結構異質性包含實體鄰域異質性及關系異質性。(1)實體鄰域異質性:目前許多研究建立在待對齊的實體對具有相似的鄰域結構這一假設之上,但由于結構異質性的存在,兩個知識圖譜的對齊實體不一定具有相似或相同的鄰域結構,如圖4 所示,中心實體“乳腺導管內癌”與“乳腺導管內原位癌”僅有實體“乳腺癌”這一共同鄰居,其余鄰居均不同。(2)關系異質性:在現實生活中,不同來源的知識圖譜通常具有關系獨立性,即在一個知識圖譜中存在的某個關系未必存在于另一個知識圖譜中。例如,圖4中知識圖譜1存在的“適宜飲食”關系在知識圖譜2中不存在。

圖4 知識圖譜異質性示例Fig.4 Examples of knowledge graph heterogeneity

2.2.2 利用潛在的信息

在傳統的實體對齊任務中,通常直接對醫學實體進行對齊,而忽略了實體相關的潛在信息,如結構信息、屬性信息和實體描述信息等。這種方法導致實體對齊任務的準確率較低,并容易產生大量的噪聲和錯誤數據,例如,“心臟病”和“心臟衰竭”在名稱上相似但不等價,若不考慮其他信息可能導致錯誤的匹配。因此,需要考慮如何更好地利用有效信息以提高醫學實體對齊準確性。

2.3 醫學領域實體鏈接的難點

2.3.1 未見實體問題

在醫學領域,存在大量專有名詞、罕見實體和新興概念,如新的醫學術語、疾病、治療方法等,這些實體可能未在訓練數據或知識圖譜中出現。因此,未見實體問題可細分為兩類:(1)訓練集中罕見實體,其出現的頻率較低,難以在有限數據中進行充分學習;(2)知識圖譜中缺乏對應提及,導致文本中部分實體提及無法在知識圖譜中找到對應項,通常稱為“NIL(unlinkable mentions)實體”,如“Curry-Jones 綜合征”[11]在2017 年前未被添加到SNOMED CT中。

2.3.2 短文本問題

醫學領域的一些文本往往篇幅較短,例如,臨床記錄、病歷摘要中簡潔的描述,如“患者接受了青霉素治療”;提及級別的文本很短,可能不足8個字符,如“腿扭傷后遺癥”“左朧骨骨折上端”。這類短文本的語義信息有限,導致其缺乏足夠的上下文信息來進行準確的實體識別和鏈接。因此,在醫學實體鏈接中,短文本上下文信息不豐富的問題是常見的挑戰。

3 醫學領域實體對齊方法

隨著研究的不斷深入,醫學實體對齊方法經歷了傳統方法和基于表示學習方法兩大發展階段。其中,傳統方法包括基于詞典和規則、基于相似性計算等方法,而基于表示學習的方法涵蓋了翻譯模型和深度模型等技術。各方法的區別、優缺點及適用范圍,如表2所示。

表2 醫學實體對齊方法分類Table 2 Classification of medical entity alignment methods

3.1 傳統的實體對齊方法

3.1.1 基于詞典和規則的方法

早期的醫學實體對齊方法大多采用詞典和規則的方式。這類方法通過事先構建醫學詞典或定義規則來匹配實體,其優點是簡單直接,易于實施。由于不同數據源的差異,醫學實體對齊中存在大量實體名稱不一致和術語描述不規范的情況。為此,王明強[12]以不孕癥相關古籍為數據來源,基于知識規范化規則和行業標準,并根據不同知識元素特點,通過異名字符串匹配與人工校驗相結合的方式實現實體對齊,解決了中醫古籍中異名、簡稱和錯誤的情況。翟東升等[13]則針對不同術語的特點,制定不同規則以實現實體對齊,包括利用詞典映射中醫藥別名,借助Uniprot 數據庫構造包含靶點和基因的映射詞典,通過字符串匹配標準化表述不一致的藥性、味和歸經信息等。

上述方法的共同特點是單純依賴自定義規則或術語詞典進行匹配,容易導致語義、語法等信息的缺失。為此,胡正銀等[14]基于SPO三元組模型,通過UMLS[15]超級詞表和多維映射技術,實現了多源異構領域知識的實體對齊。劉道文等[16]則嘗試將ICD[17]術語體系作為橋梁,利用同義詞與上下位關系對齊互聯網醫療數據和電子健康檔案真實數據,彌補了真實數據中疾病與科室關系的不足。然而,基于詞典和規則的方法對詞典、規則的依賴性高,且無法處理未知實體或術語,擴展性較差。

3.1.2 基于相似度計算的方法

為了克服基于詞典和規則方法的局限性,研究人號提出了基于相似性計算的實體對齊方法。這類方法考慮實體的屬性、關系和語義信息,通過計算相似度度量來確定實體對齊關系,較為靈活。Gong 等[18]提出將預處理與實體匹配方法相結合,以融合基于Web挖掘的多源糖尿病數據。而針對醫學實體名稱的獨特性,An[19]設計了一個三階段實體解析算法TSER,同時處理多源異構乳腺癌數據實體對齊過程中的標準庫規模大、措辭相似的不同實體、同一實體的名稱可能有大量字面差異等問題。

基于相似度計算的方法可以靈活應對不同的實體對齊需求,但受到數據質量和計算效率的限制,且在處理大規模數據時存在效率問題。隨著傳統機器學習的廣泛應用,學者們開始將機器學習技術引入到相似度計算中,以進一步提升對齊準確性。宋文欣[20]通過構建同義醫療實體庫應對多詞一義問題,并使用三種無監督實體對齊方法來判斷待對齊實體與候選實體間的相關程度,以緩解數據標注的不足,但由于數據廣泛且差異大導致對齊效果不佳。同時,以上方法均未考慮現實應用中正負例樣本占比不一致所引發的數據不平衡問題。針對這一問題,蔡嬌[21]采用基于不平衡數據的機器學習方法,從單分類、數據、算法三個角度探究不同分類模型對遺傳病領域實體對齊的影響,實驗表明,對不平衡數據集進行處理能夠提升對齊效果。傳統機器學習方法可以通過訓練模型來學習實體對齊的規律,具有一定的泛化能力,但需要手動調整模型參數和特征工程,這一過程相對繁瑣且耗時。

3.2 基于表示學習的實體對齊方法

傳統的實體對齊方法通常需要手工提取實體屬性和關系特征,并要求對齊的實體在知識圖譜中具有相同的屬性和關系,因此容易受到知識圖譜稀疏性和異質性的限制。而基于表示學習的方法可以自動學習實體的連續表示,通過學習實體的共同鄰居或關系路徑等信息來建模實體間的相似度。目前,基于表示學習的實體對齊方法以翻譯表示(translating embedding,TransE)[22]系列模型、圖神經網絡(graph neural network,GNN)[23]系列模型為主。

3.2.1 基于TransE系列模型的方法

TransE由Bordes等[22]在2013年提出,被公認為知識圖譜表示學習領域的里程碑。該模型基于距離度量思想,關注如何通過最小化實體在不同知識圖譜中的關系表示間的距離來進行實體對齊。孫倩南[24]將TransE 運用到醫院多個呼吸科室疾病數據庫實體對齊任務中,但由于建模的兩個知識圖譜規模和信息差異較大,導致向量學習不夠準確,進而影響了基于聯合知識嵌入的實體對齊方法效果。在大多數方法中,未充分利用本體資源。為提高對齊準確性,Xiang 等[25]提出采用本體語義來增強知識圖譜實體對齊的OntoEA 方法,該方法通過迭代共同訓練策略整合基于TransE的實體嵌入、本體嵌入、類別沖突矩陣、成員關系嵌入和初始對齊嵌入模塊,減少了類別沖突和誤報問題,并在多個基準測試中獲得良好效果。然而,引入本體會產生新的挑戰,如本體中的類別沖突很難處理。雖然TransE計算效率高,易于實現,但仍然存在一些局限性,如圖5 展示了TransE 的一系列改進方法。

圖5 基于TransE系列方法發展歷程Fig.5 Development process of TransE series methods

TransH[26]、TransR[27]和TransD[28]方法旨在解決TransE處理復雜關系的限制。TransH 利用關系特定的超平面投影實體的向量表示,使得一個實體在不同關系中有不同的表示。而TransR改進了TransE和TransH中實體和關系在同一語義空間中映射可能導致實體和關系語義相互混淆的問題,其通過引入新矩陣表示關系的轉換,將實體和關系分別映射到不同的語義空間中。由于醫學知識圖譜的復雜性,往往存在“一對多”關系。為此,Fang等[29]以TransR為基礎模型之一,通過提取電子病歷和網絡中與垂體瘤相關的數據,依次對齊尾、頭實體,并結合分類模型來學習和預測使用的字符、語義和結構三種特征,實驗證明該分步對齊方法具有良好效果。TransD在TransR的基礎上進一步改進,對頭、尾實體使用不同的轉換矩陣,以更好地處理復雜關系并降低計算復雜度。

PTransE[30]和IPTransE[31]方法彌補了TransE 缺乏考慮多步關系路徑能力的問題。PTransE結合了TransE和TransH 的思想,引入基于路徑的注意力機制,通過分配不同的注意力權重來捕捉多步關系的語義信息。在醫學實體對齊任務中,PTransE 方法考慮到了關系信息中的多步關系路徑,例如<小兒肺炎,表現為,發熱><發熱,對應藥品,布洛芬><小兒肺炎,對應藥品,布洛芬>。借助PTransE 的支持,程瑞[32]提出了一種聯合關系信息和屬性信息的迭代EA 方法,以解決現有方法忽略實體屬性信息或將屬性與關系信息混淆處理的問題。然而,PTransE 存在長路徑建模能力不足、路徑注意力的計算復雜度較高等問題。為了解決這些問題,IPTransE被提出,它采用矩陣分解和動態路徑選擇來改善PTransE的性能。

3.2.2 基于GNN系列模型的方法

基于TransE 系列實體對齊方法的優點在于其簡單而直觀的表示學習框架,通過學習實體間的關系向量進行對齊,取得了一定的效果。這類方法不依賴于復雜的圖結構和高階關系的建模,具有計算效率高、易于實現和解釋的優勢。但其未顯示地考慮實體的鄰居信息,因此可能無法捕捉到一些重要的上下文關系。隨著圖神經網絡(graph neural network,GNN)的興起,研究人員發現GNN 能夠更好地利用圖結構信息,通過多層次的鄰居聚合和信息傳遞,更全面地考慮實體的上下文信息和全局信息,從而實現更準確、魯棒的實體對齊。因此,研究重點逐漸轉向基于GNN 系列的實體對齊方法,以進一步提升對齊任務的性能和靈活性。

圖卷積網絡(graph convolutional network,GCN)[33]是最先被廣泛應用于實體對齊的圖神經網絡模型之一。Zhang等[34]通過結合語義和結構嵌入來衡量實體間的相關性,在采用預訓練語言模型獲得實體語義嵌入的同時,結合GCN捕獲實體下位詞和同義詞的結構嵌入,以完成電子病歷與術語庫之間的實體對齊。然而,GCN在處理圖數據時每個節點對鄰居節點賦予了相同權重,使得GCN 無法充分考慮不同鄰居節點的重要性差異。針對GCN 中固定權重聚合方式的不足,Velickovic 等[35]在2018 年提出圖注意力網絡(graph attention network,GAT)。GAT通過引入注意力機制使每個節點能夠自適應地分配不同權重給鄰居節點,從而更靈活地關注與當前節點相關性更高的鄰居節點,增強了圖神經網絡的表達能力和學習能力。廖開際等[36]重視實體鄰居的利用,借助多種注意力機制和圖卷積神經網絡清除實體冗余并賦予實體權重,通過實體鄰域信息增強實體嵌入以完成多源乳腺癌數據的實體對齊,解決了實體鄰域異質性問題。

上述方法未直接討論或解決GNN由于多層堆疊引起的噪聲問題,也較少關注實體與關系間的良性互動。對此,鄔萌[37]提出RD-HRGCNs模型,首先,通過構造原始實體圖的對偶關系圖和使用圖注意力機制,將關系信息融入實體表示中,彌補了GCN 忽略實體間關系信息的不足;其次,利用帶有高速路神經網絡門控(highway gates)的雙層RGCN進一步捕獲醫療實體的鄰域結構信息并過濾噪聲。次年,李麗雙等[38]針對中文電子病歷知識圖譜間結構異質性的特點,設計了一個名為DvGNet的雙視角并行圖神經網絡模型,該模型分別采用實體交互和關系交互視角緩解實體鄰域異質性和關系異質性,并利用門控機制聚合嵌入表示以解決噪聲傳播問題,進而提高了模型的性能和效果。基于GNN系列的實體對齊方法可以更好地捕捉圖結構中的關系和特征,因此整體效果略優于基于TransE系列的方法。在GNN模型中引入更豐富的知識來幫助實體對齊,仍然是一個值得探索的問題。

3.2.3 其他深度學習方法

除了基于TransE、GNN系列的方法,還有其他一些深度學習方法被應用于實體對齊任務。隨著2018 年BERT(bidirectional encoder representation from transformers)[39]預訓練語言模型的發布,研究者們也嘗試將BERT 模型應用于實體對齊,并取得了良好效果。通過將兩個實體的文本描述輸入BERT,可以獲得它們的語義表示,并對這些表示進行比較以判斷是否對應同一實體。劉旭利等[40]將醫療實體視為短句,從而把病人事件圖譜中醫療實體與醫療知識庫實體的對齊問題轉化為兩個句子之間的語義關系多分類問題,通過使用基于字符特征和語義相似性的BERT 分類算法實現了知識融合任務。上述方法將一對術語作為序列輸入到BERT中,并不生成單個術語的嵌入,可能會丟失術語級語義信息。針對這一問題,Ma 等[41]設計了SiBERT 模型,利用詞嵌入序列生成術語級嵌入以增強相似性計算中實體的特征,并引入遷移學習機制對模型進行預訓練有效緩解對數據的依賴,旨在將電子病歷中治療、檢查、疾病和癥狀四類實體與ICD 標準術語進行對齊。該模型采用孿生網絡使其訓練速度比CNN和BERT更快,但由于模型訓練數據量較小且數據標注難度大,在應用上存在局限。

在當前深度學習盛行的時代,也不乏有研究者將傳統方法與深度學習相融合,并提出新的框架,旨在提升醫學實體對齊的效果。例如,Tang等[42]提出了一種融合Gromov-Wasserstein 距離的無監督實體對齊框架,通過聯合優化實體語義和圖結構充分利用知識圖譜的結構信息,并結合三階段漸進優化算法以應對相關的計算挑戰,在多個數據集上取得了良好的結果,但該框架在處理懸掛實體時的能力有限。懸掛實體是近年來實體對齊新問題,指在不同知識圖譜之間找不到對應的實體,這些實體的存在可能會影響知識圖譜的完整性和準確性,即并非所有實體都有對應的等價實體。為了解決這一問題,Luo 等[43]基于UMLS 構建了一個具有實體對齊(EA)任務和懸掛實體檢測(DED)任務的醫學跨語言知識圖譜數據集MedED。此外,提出了一種聯合EA 和DED的無監督方法UED,該方法挖掘文字語義信息,為EA生成虛擬實體對和全局引導對齊信息,然后利用EA結果來協助DED,在解決懸掛實體對齊問題的同時消除了對種子對的需求。然而,所提出的方法依賴于文字語義信息的可用性,而該信息并不總是可靠的。對此,Xu 等[44]為充分利用知識圖譜中圖結構信息,提出一種弱監督框架WOGCL,其在模型、訓練和推理三個方面進行了改進。具體來說,通過引入門控圖注意力網絡來捕捉局部和全局圖結構相似性,設計了對比學習和最優傳輸學習的兩個學習目標;通過最優傳輸計劃獲得可區分的實體表示,提出了基于PageRank 的方法來計算高階結構相似性。WOGCL僅使用純圖結構信息,解決了跨語言知識圖譜中的懸掛實體對齊問題并增強了實體對齊框架的可推廣性。如表3 總結了基于表示學習的醫學領域實體對齊方法。

表3 基于表示學習的醫學實體對齊方法Table 3 Medical entity alignment method based on representation learning

4 醫學領域實體鏈接方式

實體鏈接各方法的優缺點及適用范圍,如表4所示。

表4 醫學實體鏈接方法分類Table 4 Classification of medical entity linking methods

4.1 傳統的實體鏈接方法

4.1.1 基于規則的方法

早期的醫學實體鏈接方法基于規則,以模式匹配、構建術語詞典為主要手段,主要用來消除醫學實體的歧義。模式匹配方法通常根據設定的拼寫規則、指示詞、構詞規則和前后綴字符串等來定義模板,然后應用這些模板進行精確或部分匹配。例如,Li等[45]提出的基于規則的模型通過創建一組句法規則或語義約束來解決醫學實體歧義性問題。然而,這種方法很難處理實體的別名、縮寫詞等多樣形式。基于詞典的方法將實體鏈接問題轉化為詞典匹配問題,該方法使用構建完善的詞典來識別和匹配實體,其中包含大量詞匯縮寫、變體、同義詞和昵稱等條目。Xiu 等[46]和Liu 等[47]利用構建的詞典擴展不匹配的實體提及,并采用基于排名的余弦相似度方法消歧,分別構建了消化系統腫瘤知識圖譜、類風濕關節炎知識圖譜。但由于醫學實體名稱的多樣性,這類方法需要維護一個龐大的詞典,并且難以處理新詞。

不同的技術可以用來輔助這兩種方法,以便更好地解決醫學實體鏈接中的問題。例如,為了解決中文醫學實體鏈接中可能出現的錯別字或音譯差異、措辭相似但不同的實體等困難,Sun 等[48]設計了多級相似性匹配方法。盡管基于規則的方法易于理解和實現,但存在以下問題:規則的構建需要大量的人力,且無法覆蓋所有情況;規則的設計往往依賴于實體的形態特征,因此在區分形態上相似但語義不同的語境時變得困難;一個領域中設計的實體規則無法直接遷移至另一個醫學領域,例如,專為電子病歷設計的規則并不適用于古籍。

4.1.2 基于傳統機器學習的方法

基于傳統機器學習的方法主要利用特征工程編碼實體提及和候選實體,然后通過相似度計算對實體進行排序和選擇,進而實現實體鏈接任務。相較于基于規則的方法,該方法靈活性和實用性更高。將機器學習應用于醫學實體鏈接的最早嘗試之一是DNorm[49]。該方法引入了成對學習排序的思想,通過學習文本中疾病實體提及與知識庫中概念名稱的相似性來進行評分,不僅能夠處理同義詞、多義詞和非一對一的關系,而且可以專門用于解決縮寫和詞序變化問題。然而,監督方法依賴于大量標注數據,且難以處理未見實體的情況。

相比于監督方法,無監督方法不需要標注數據,能夠自動發現實體間潛在的關聯關系。Wu等[50]同樣針對臨床縮寫問題,開發了一個臨床縮寫識別和消歧的框架CARD。與DNorm思想不同的是,CARD利用機器學習方法識別縮寫,并基于聚類生成縮寫的可能含義,然后利用基于概要和向量空間模型進行詞義消歧。Angell等[51]也設計了一個基于聚類的模型,考慮了文檔內和跨文檔間的實體提及關系,通過聚類多個提及并共同預測鏈接,以更好地應對醫學文本中存在的模糊或不明確指代的挑戰,但其性能受到聚類算法的選擇和參數設置的影響。

隨著研究的深入,研究人員嘗試在醫學實體鏈接中應用更多的機器學習算法。其中,PageRank 算法最初為評估搜索引擎結果相關性而設計,在使用基于圖的表示時也常用于實體鏈接。例如,Duque 等[52]利用基于共現信息的圖自動構建知識圖譜,并采用PageRank 進行詞義消歧,該方法不僅考慮了歧義詞的上下文信息,還能在不依賴大量外部資源的情況下提高消歧的準確性。而為了彌補知識圖譜中缺失的領域知識,Ruas等[53]提出一種將關系抽取用于實體鏈接的框架,通過自動提取的關系來構建消歧圖,然后利用PageRank 和本體信息選擇每個實體的最佳候選,從而提高實體鏈接性能。傳統機器學習方法在性能和準確性方面相較于基于規則的方法取得了顯著進展,但其性能高度依賴于特征工程的質量,需要人工設計和選擇適當的特征。此外,該方法的語義信息抽取和表示能力有限,難以處理復雜語義關聯和上下文依賴。

4.2 基于深度學習的實體鏈接方法

近年來,隨著深度學習的發展,神經網絡因其出色的泛化能力而在醫學實體鏈接中備受關注,并取得了良好的鏈接效果。這些模型可以自動學習特征和表示,具備強大的表達能力,并能有效地捕捉文本中的復雜語義和上下文關系。

4.2.1 卷積神經網絡和循環神經網絡

早期基于深度學習的實體鏈接技術主要采用卷積神經網絡(convolutional neural network,CNN)[54]。Luo等[55]通過引入匹配張量和多視圖CNN 模型,結合多任務共享結構,以解決中文醫學短文本規范化和非標準表達問題。但由于卷積核的大小限制,CNN 只能學習到文本中的局部信息。為了克服該局限,具有參數共享和記憶性的循環神經網絡(recurrent neural network,RNN)[56]被提出,并逐漸取代CNN的地位。

隨后,RNN 的變種之一,長短期記憶網絡(long short-term memory,LSTM)[56]因解決了RNN 存在的梯度消失、爆炸問題而成為許多自然語言處理應用的主要模型,并廣泛應用于醫學實體鏈接任務中。在后續研究中,Bi-LSTM[57]彌補了LSTM 處理上下文信息時的缺陷,可以更好地捕捉雙向上下文信息。Yan 等[58]提出了一種無監督方法,使用多實例學習來提高鏈接的準確性。通過構建一個中文醫療實體鏈接數據集,利用Bi-LSTM作為編碼器獲取實體和上下文的表示,并使用排序網絡對候選實體進行評分,在解決標注數據難以獲取的同時緩解了知識庫稀疏性。考慮到實體鏈接基于命名實體識別,部分學者嘗試對醫學命名實體識別和實體鏈接任務進行聯合建模。然而,在上述方法中,Yan等[58]將這兩項任務視為獨立步驟導致錯誤級聯和相互支持不足,而Luo 等[55]簡單地聯合建模兩項任務卻無法編碼復雜特征。為了解決這些問題,Zhao 等[59]提出了一種基于Word2Vec、CNN 和Bi-LSTM 方法的深度神經多任務學習框架。該框架通過顯式反饋策略共同建模這兩項任務,并通過多任務學習提供的通用表示增強任務之間的相互作用,從而提高了聯合執行效率。

4.2.2 BERT預訓練語言模型

最近,基于BERT的預訓練語言模型在許多醫學實體鏈接任務中得到了有效應用。Liu等[60]提出了一種自對齊的預訓練模型SAPBERT。該模型利用從統一醫學語言系統(UMLS)中通過聚類提取的同義詞集對BERT進行微調,以應對醫學領域特定的細粒度語義關系的挑戰,并有效提升了醫學實體鏈接的性能。同年,Liu等[61]在SAPBERT 基礎上引入領域特定知識,嘗試完成跨語言醫學實體鏈接任務。該研究通過建立一個包含10種語言的跨語言評估基準,并提出跨語言轉移方法,展示了如何將領域特定知識從英語傳遞到資源匱乏的語言,在目標語言中實現了性能的提升。

為了更好地利用BERT技術,研究人員結合特定任務需求進行改進,并引入數據增強、對抗訓練進一步提高鏈接性能。Dong等[62]專注于發現不在知識庫(out-of-KB)中的實體提及,提出一種基于BERT 的實體鏈接改進方法BLINKout。該方法通過將這些提及與特殊的NIL 實體進行匹配,能夠有效識別知識庫之外的提及;采用經過微調的NIL實體表示、同義詞增強和特定領域的語言模型,以增強同義詞對實體鏈接的作用。而針對實體提及表達的一致性問題,Li等[63]引入Stacking-BERT模型,利用基于BERT 的原始排名模型和Stacking-BERT 排名模型來捕獲語義信息,并通過堆疊機制選擇最佳映射對,以實現將臨床術語自動映射到中文ICD編碼。并采用對抗訓練和數據增強的技巧,有效地提高了模型在小樣本上的效果。

4.2.3 輕量級模型

然而,BERT模型參數過多且需要大量的計算資源,這限制了其在資源有限的場景中的應用。研究人員發現,當輸入的單詞順序被打亂或者注意力范圍受限制時,現有基于BERT 模型的醫學實體鏈接性能變化很小。這意味著在解決這類特定任務時,使用像BERT這樣的大型模型可能存在不必要的計算成本。為此,文獻[64-66]提出了用于醫學實體鏈接的輕量級神經網絡模型,這些模型分別采用具有注意機制的對齊層、殘差卷積神經網絡、基于內部和外部實體的注意力3種不同的方式,以降低模型的復雜性和資源消耗,實現了與基于BERT 模型的先前工作相媲美的性能,并且在資源有限的場景下具有更高的效率。其中,Abdurxit 等[66]通過整合自注意力和交叉注意力模塊,能夠更好地捕捉醫學提及和候選實體之間以及實體之間的信息。

4.2.4 生成式方法

不同于上述方法的思想,生成式方法試圖通過建立一個生成模型,將實體鏈接(EL)任務視為自然語言生成(NLG)任務。在該任務中,模型接收一個包含提及的文本作為輸入,然后生成相應鏈接的實體名稱作為輸出。Yuan 等[67]嘗試將生成式方法應用于醫學領域實體鏈接中,通過知識圖譜引導的預訓練和同義詞感知微調來提升生成式EL 效果,解決了缺乏大規模人工標注和多個同義詞的問題。De等[68]提出的自回歸實體鏈接模型也采用了生成式方法,通過生成觀察到的提及-實體對來學習。該模型采用淺層LSTM 解碼器實現并行計算,并引入判別性修正項來改進解碼器的排序,解決了以往自回歸生成方法中計算成本高、無法并行解碼和需要大量數據訓練的問題。然而,該方法需要候選集或知識圖譜的支持,并且缺乏對生成樣本的重新排序能力。

為了解決上述問題,Mrini 等[69]在De 等[68]的基礎上進一步改進,提出一種編碼器-解碼器的自回歸實體鏈接模型。通過將模型與提及檢測和實體匹配預測這兩個輔助任務一起進行訓練,并學習在推理時重新排序生成的樣本,取得了多個數據集上的最佳性能,同時解決對預定義候選集依賴問題。此外,消融實驗證明了每個輔助任務對主任務性能提升的重要性,以及重新排序對性能提升起到的關鍵作用。盡管在醫學領域應用生成式方法進行實體鏈接任務引起了相當大的關注,但生成式EL方法在訓練過程需要大量的計算資源才能達到高性能。因此,需要進一步研究以克服這一挑戰。表5總結了基于深度學習的醫學實體鏈接方法。

表5 基于深度學習的醫學實體鏈接方法Table 5 Medical entity linking methods based on deep learning

5 醫學知識融合難點的解決方案

5.1 解決兩任務共有難點思路

5.1.1 多樣性與歧義性

實體命名多樣性與歧義性是醫學領域知識融合中的常見問題。實體對齊任務中,實體命名多樣性表現為兩個不同知識圖譜中的實體在進行一對一對齊時可能由于命名差異而出現錯誤;而在實體鏈接任務中,則是多個實體提及鏈接到知識圖譜中的一個標準實體。以下是解決該問題的主要方法:

(1)借助同義詞詞典。包括維護癥狀詞匯字典[70]、構建同義醫療實體庫[20]、構造醫學詞根庫[38]等。例如,Xie 等[70]通過將疾病實體映射到ICD-10 以維護癥狀詞匯字典,并使用基于編輯距離的相似性函數對實體名稱進行匹配,解決實體命名多樣性問題。

(2)語義相似度匹配。利用自然語言處理技術計算實體名稱的語義相似度,將語義上相似的實體進行對齊,從而彌補命名差異帶來的問題。例如,An[19]通過對乳腺癌疾病術語的核心詞拆分候選,并結合編輯距離、BERT+Cosine和BERT+ESIM等多種語義相似性計算方法,最終融合得到相似性并對其排序。

(3)遷移學習與預訓練模型。劉龍航[71]設計融入多種傳統特征的BERT 匹配模型對臨床術語和疾病實體進行處理,提高實體對齊準確性。Ma 等[41]引入遷移學習機制并利用同義詞詞典對模型進行預訓練,提高模型對多樣性實體命名的適應能力。

(4)規范化和標準化。無論是實體對齊還是實體鏈接,都可以通過規范化和標準化方法統一不同數據源的實體命名,以緩解多樣性帶來的難題。例如,Yuan 等[72]提出基于知識圖譜和對比學習的CODER 方法,利用醫學知識圖譜中的術語和關系三元組進行對比學習,實現電子病歷術語規范化,從而解決多樣性問題。

相對于多樣性問題,醫學領域的歧義性問題常見于實體鏈接任務。王瑩[73]基于融入醫療實體的上下文語義信息特征對待消歧實體和候選實體進行余弦相似度計算,以完成實體消歧過程,從而提高實體準確性。例如,消歧完成后,對“山楂”一詞,查詢實體關系“藥物治療”時被細化為“山楂·藥物”,查詢實體關系“適宜飲食”時,該詞則細化為“山楂·飲食”。

5.1.2 標注數據的缺乏

針對標注數據缺乏問題,主要解決方法如下:

(1)自監督學習。其核心思想是通過設計輔助任務從數據中生成偽標簽,然后利用這些偽標簽進行模型訓練。如Zhang等[74]利用基于領域知識的自監督方法,并使用對比學習訓練上下文編碼器,彌補了標注數據缺乏的問題,但其自監督質量需進一步增強。

(2)主動學習。這是一種智能的數據采樣方法,它通過挑選對當前模型不確定的樣本,請求專家進行標注,從而有針對性地增加標注數據,提高模型性能。如Oberhauser等[75]通過使用主動采樣策略和基于BERT的雙編碼器技術,能夠支持醫學專家進行數據標注,并鏈接到大型知識圖譜中的實體,有效減輕標注負擔。

(3)對抗訓練。在醫學領域知識融合任務中,對抗訓練可以通過增強模型的穩健性來減少標注數據的需求。例如,Wiatrak等[76]通過設計和應用基于快速梯度符號方法(fast gradient sign method,FGSM)的對抗正則化方法,并結合基于代理的度量學習損失,模擬硬負樣本的采樣以增強訓練對抗性,從而有效地解決了候選檢索階段的標注數據缺乏問題。

(4)無監督方法。無監督實體對齊能夠在沒有任何先驗知識或者人工標注的情況下,自動地將兩個知識圖譜中相同實體進行匹配。Qi 等[77]首次嘗試將傳統概率推理和語義嵌入技術相結合,提出了PRASE方法,以消除種子對的需求。首先,使用概率推理選擇高置信實體映射作為種子對,然后基于這些種子對訓練語義嵌入模塊,并不斷迭代更新。相比之下,無監督實體鏈接方法的實現相對多樣,包括基于共現圖的無監督技術[52]、利用現有知識庫并基于自注意力機制的方法[78]、多實例學習結合ICD-10 聚類方法[58]、利用潛在細粒度信息的模型[79]、基于聚類的實體鏈接模型[51]等。

5.1.3 計算效率的問題

針對計算效率問題,主要從注意力機制、模型結構、嵌入表示、編解碼器四個方面進行改進。

(1)優化注意力機制:Abdurxit等[66]結合內部和外部實體注意力機制,整合醫學實體提及和候選實體之間以及實體之間的信息,實現更好的性能表現和更高的推理速度。

(2)模型結構優化:改進模型的結構,設計更高效、輕量級的神經網絡模型,如使用殘差卷積神經網絡ResCNN[65]或基于CNN 的輕量級神經模型[64],以減少參數數量和計算資源的需求,從而提高計算效率。

(3)改進嵌入表示:可以采用不同的方法來優化嵌入表示,例如,Chen等[64]引入更多特征來改進嵌入表示;Ma等[41]基于孿生式BERT網絡,通過直接計算每個術語級別的嵌入表示相似性,提高了準確性并降低了計算成本。

(4)優化編解碼器:Bhowmik 等[80]和De 等[68]將醫學實體鏈接任務看成一個端到端的過程,分別從編碼器和解碼器角度進行了改進,以提高處理速度。Bhowmik等[80]提出基于BERT 的雙編碼器模型,通過提及編碼器和候選編碼器的協同作用,可以一次同時處理文檔中的多個實體提及;而De 等[68]則通過引入判別性修正項和淺層解碼器,實現高效的并行解碼計算。如表6總結了醫學領域知識融合共有難點的解決方案。

表6 醫學領域知識融合共有難點的解決方案Table 6 Challenging solutions for knowledge fusion in medical domain

5.2 解決實體對齊難點的思路

5.2.1 知識圖譜異質性

針對知識圖譜之間的結構異質性,主要有引入圖注意力機制、引入遠距離鄰居以及多視圖學習三種方法。通用領域已有不少研究,在圖神經網絡中引入圖注意力機制可以對不同鄰域賦予不一樣的權重,以緩解實體鄰域異質性。例如,KGNN[81]、MuGNN[82]和NMN[83]等模型均引入了圖注意力機制,但在具體方法上略有不同。其中,KGNN 通過聯合訓練基于TransE 的模型和基于GAT 的模型來處理跨語言知識圖譜的異質性;MuGNN通過多個通道對知識圖譜進行編碼,實現了自注意力和跨圖注意力,從不同的角度增強了實體嵌入的結構信息;NMN通過采樣和匹配實體的鄰域,來選擇信息豐富的鄰域并捕捉鄰域之間的差異,從而更準確地估計實體之間的相似度。Sun等[84]提出的AliNet模型同時考慮了直接鄰居和遠距離鄰居,該模型通過引入遠距離鄰居來擴展實體鄰域結構的重疊部分,并使用注意機制和門控策略來聚合多跳鄰域信息,以減輕不同知識圖譜中實體鄰域異質性。

近年來,醫療領域對該難點的研究逐漸受到關注,廖開際等[36]將MuGNN 模型應用于醫學領域,通過引入跨圖注意力機制和基于注意力的跨圖鄰域匹配模塊等設計,來緩解實體鄰域異質性,從而有效地處理異質性問題。然而,以上研究主要聚焦于實體鄰域異質性,卻忽略了關系異質性對結構異質性的影響。對此,李麗雙等[38]采用多視圖學習的方式,嘗試從實體和關系兩個不同的圖譜視角學習嵌入表示,并通過門控機制將它們結合起來,以全面緩解電子病歷知識圖譜的結構異質性。

5.2.2 利用潛在的信息

現有研究通過考慮屬性信息、結構信息和語義信息來提高醫學實體對齊的準確性。一些研究[37,44]通過充分利用其中一種信息來達到不錯的對齊效果,而另一些研究[29,32,77]則考慮多種信息以融合多維特征。例如,程瑞[32]提出了兩種聯合實體對齊方法,用于解決現有方法忽略實體屬性信息或將其與關系信息混淆處理,以及使用相同模型對知識圖譜中不同信息建模限制精度提升這兩大問題。其中一種是迭代方法,它充分結合了關系信息和屬性信息;另一種方法則基于GCN和TransE,先對結構、關系和屬性信息分別建模,再有效地聯合利用這些信息。為了解決現有方法未充分利用圖結構信息的問題,Xu 等[44]采用門控圖注意力網絡來捕捉局部和全局圖結構相似性,同時,利用對比學習和最優傳輸學習的目標,以獲得可區分的實體表示。通過這種方式,能夠僅利用結構信息就完成醫學實體對齊任務。而Tang 等[42]在其最新研究中通過聯合優化實體語義和知識圖譜結構的方式,充分利用了知識圖譜的結構信息,而不是僅僅將其隱式編碼到嵌入中,實驗表明,該方法在多個基準數據集中取得不錯的效果。需要注意的是,信息的利用并非越多種類越好,有時過多信息反而會產生噪聲,從而干擾實體對齊。因此,應根據不同數據集特點及特定領域需求,充分利用有效信息。

5.3 解決實體鏈接難點的思路

5.3.1 未見實體問題

下面分別對未見實體中的兩類問題提供解決思路。

針對訓練集中罕見實體問題,Varma 等[85]使用跨領域數據集集成方法,將通用文本知識庫中的結構化知識轉移到醫學領域,增強醫學實體的結構資源,從而提高對罕見實體的泛化能力;Ujiie等[86]結合了跨度表示和字典匹配特征,其利用神經網絡將從跨度表示中獲得的上下文分數和字典匹配分數加權和,來預測每個跨度的疾病概念;Angell等[51]采用基于聚類的推理方法實現醫學實體鏈接。通過推理方法構建圖,并利用聚類將相似節點聚合形成提及組,若其中一個提及正確鏈接到實體,整個組即正確分類,間接解決未見實體問題。

而對于知識圖譜中缺乏對應提及問題,即不可鏈接實體的預測,可以采用后修剪和閾值法、利用深度學習模型等方法。例如,Yuan等[87]探索了醫學實體鏈接中的部分知識圖譜推理問題,并提出了后修剪和閾值法這兩種修復方法以解決無法鏈接提及(NIL)問題,從而提高部分知識圖譜推理的性能;Dong 等[62]提出了BLINKout方法,利用BERT 模型對實體鏈接進行改進,將未見實體的提及與特殊的NIL 實體匹配,以識別在UMLS、SNOMED CT等語料庫中不存在的提及。

5.3.2 短文本問題

在解決醫學領域尤其是中文的短文本問題上,研究人員專注于以下兩個方面:(1)如何擴展短文本內容;(2)如何巧妙運用語義匹配模式之間的微妙差異。Luo等[55]提出了多視圖卷積神經網絡的多任務框架,通過引入匹配張量將短文本比較擴展到字符、詞和句子層面建模提及與實體交互,解決中文臨床診斷和手術名稱的短文本問題。Li等[63]使用基于BERT的融合模型將中文實體鏈接視為句對分類任務,以捕捉臨床實體提及的語義信息,并通過生成硬負樣本增強模型的特征學習能力,該方法巧妙運用了語義匹配的細微差別。Vretinaris等[88]將文本片段中的實體提及表示為查詢圖以捕捉它們的相互關系,其中不同的節點類型表示藥物、不良反應、癥狀和發現,然后運用圖神經網絡將醫學實體鏈接問題建模成圖匹配問題,實現了擴展短文本內容并充分利用語義匹配的微妙差異。盡管其是在英文醫學文本上的應用,但思路對中文具有借鑒作用。這些方法為解決復雜領域的實體鏈接短文本問題帶來了新的視角和可能性。表7 總結了醫學領域實體對齊與實體鏈接各自難點的解決方案。

表7 醫學領域實體對齊與實體鏈接各自難點的解決方案Table 7 Challenging solutions for entity alignment and entity linking in medical domain

6 總結與展望

通過對醫學領域實體對齊和實體鏈接研究現狀的分析,發現國內醫學實體對齊的研究由于領域知識圖譜規模的限制和公開語料庫的稀缺,其起步相對較晚;相比之下,醫學實體鏈接的研究更為多樣與豐富。深度學習的興起促進了知識融合任務的發展,使得醫學領域知識融合中存在的實體命名多樣性、利用潛在的信息等問題得到了較好的解決。然而,標注語料的缺乏、模型的計算效率、知識圖譜異質性等問題仍需不斷研究,以探索更為高效的解決方案。根據本文的研究,未來醫學領域的知識融合將涵蓋以下幾個方面:

(1)多模態知識融合。醫學領域涉及臨床報告、醫學影像和音視頻等多種類型的信息,不同模態的信息之間存在互補性。例如,中醫臨床辨證依賴于四診合參,通過望聞問切獲取舌面象、脈象、體質信息和癥狀信息等多模態數據,這些數據的融合能更全面地評估患者的疾病狀況。目前,多模態知識融合主要包括特征級的早期融合、基于決策的晚期融合、混合融合三種方法。然而,不同模態間的信息貢獻存在差異,多數研究卻采用固定的權重融合各模態信息。未來可以考慮:如何確定不同模態數據之間的權重以保證數據一致性;如何設計模型提取特征以提高各模態信息的利用率。

(2)多視圖實體對齊。由于醫學知識圖譜中的實體存在各種特性,傳統的單一視圖對齊方法難以滿足精準對齊的需求。多視圖對齊可以將知識圖譜的不同特性劃分為不同的視圖,如實體名稱視圖、屬性視圖、關系視圖等,從而從特定視圖中學習到實體嵌入。通過聯合優化多個視圖的信息,可以提高實體對齊的性能。因此,多視圖實體對齊值得進一步研究。

(3)弱監督或無監督方法。為了適應醫學領域樣本少的特點,已有一些研究人員針對標注數據的缺乏難點進行了探索,但由于特定領域的復雜性,小樣本或零樣本問題將長期存在,這依舊是研究熱點。因此,未來可以期待更多研究專注于弱監督或無監督方法,以降低數據標注成本,并實現醫學知識融合過程的自動化和高效化。

(4)中西醫融合。中醫與西醫可以相互補充,將兩者的知識進行融合,構建跨領域的醫學知識圖譜,有利于融會貫通中西醫學的優勢,為下游應用提供全面的支持。此外,中西醫融合也促進中醫的現代化和標準化,推動中醫知識的共享和傳播。然而,由于中西醫在思維方式、診斷方法、治療途徑等方面存在差異,這將給知識融合研究帶來新的挑戰。因此,如何有效對齊中醫實體與西醫實體成為亟待解決的難題。

(5)大模型賦能知識融合。隨著“ChatGPT”“GPT-4”等大模型掀起的新浪潮,使得利用大模型增強醫學領域知識融合成為可能,例如,使用大模型作為編碼器和解碼器來實現知識融合與補全。此外,醫學領域也涌現出一些專用大模型,如“華佗GPT”“靈醫Bot”以及專注于中醫領域的“岐黃問道·大模型”,它們的出現可進一步提升醫學領域模型訓練的準確性。未來,利用大模型進行醫學術語定義補全、實體標準化對齊、同義詞的提取與融合等研究將成為醫療領域的重要突破。

猜你喜歡
語義融合信息
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 国产一区三区二区中文在线| 手机在线免费不卡一区二| 亚洲欧美成人网| 东京热av无码电影一区二区| 91久久青青草原精品国产| 四虎影视永久在线精品| 欧美亚洲国产精品久久蜜芽| a网站在线观看| 国产网站免费观看| 真人免费一级毛片一区二区| 亚洲一区免费看| 91成人在线观看| 乱人伦中文视频在线观看免费| 欧美日韩国产在线人| 99热国产这里只有精品无卡顿"| 69av免费视频| 国产网站一区二区三区| 亚洲精品视频在线观看视频| 98超碰在线观看| 免费在线播放毛片| 久久久久亚洲av成人网人人软件| 国产网站一区二区三区| 国产sm重味一区二区三区| 伊人精品视频免费在线| 波多野结衣视频网站| 国产成人精品一区二区秒拍1o| 色综合手机在线| 国产三级毛片| 国产国模一区二区三区四区| 特级毛片8级毛片免费观看| 五月婷婷激情四射| 欧美色亚洲| 亚洲香蕉久久| 91精品国产无线乱码在线| 手机在线看片不卡中文字幕| 国产一级毛片在线| 天天躁狠狠躁| 国产亚洲日韩av在线| 五月婷婷丁香综合| 99伊人精品| 欧美69视频在线| 免费观看国产小粉嫩喷水| 亚洲人成高清| 成人综合在线观看| 91精品免费久久久| 免费在线a视频| 欧美精品H在线播放| 四虎在线观看视频高清无码| 欧美日韩v| 国产男人天堂| 91精品人妻互换| 日韩毛片免费| 无码专区国产精品一区| 国产成人一区| 一本综合久久| 一区二区三区高清视频国产女人| 99国产精品免费观看视频| 亚洲综合精品香蕉久久网| 孕妇高潮太爽了在线观看免费| 亚洲色欲色欲www在线观看| 中文字幕天无码久久精品视频免费| 亚洲精品免费网站| 三上悠亚在线精品二区| 九色最新网址| 亚洲综合专区| 午夜精品一区二区蜜桃| 亚洲欧洲日产国产无码AV| 思思99热精品在线| 色网站在线免费观看| 日韩区欧美区| 国产日本视频91| 亚洲性视频网站| 国产成人超碰无码| 国产在线八区| 国产欧美亚洲精品第3页在线| 国产区在线观看视频| 欧美不卡在线视频| 韩日午夜在线资源一区二区| 手机在线看片不卡中文字幕| 精品偷拍一区二区| 天天色天天操综合网| 91精品久久久无码中文字幕vr|