康硯瀾 郭倩宇 張文強, 王昊奮
(1復旦大學工程與應用技術研究院,上海 200433 2復旦大學計算機學院 上海 200433 3 同濟大學 上海 200438)
生成式語言模型是自然語言處理領域的核心技術之一,能夠利用大規模無標注文本自動學習語言的語義、結構、語法等知識,從而提升對自然語言的理解能力及生成能力,根據不同輸入條件和目標生成多種風格和形式的文本。隨著預訓練技術和變壓器模塊(Transformer)的發展,以生成式預訓練轉換器(generative pretrained transformer-3.5,GPT)系列[1-9]為代表的通用大語言模型在文本生成、對話、問答等多種任務中展現出強大能力,廣泛應用于辦公、推薦系統、服務問答等。
隨著自動化輔助醫療和互聯網醫療的發展,高端醫療服務機器人、高質量臨床問答診斷、專業健康助手等均對語言模型與醫學領域的結合提出更高要求。然而,醫學領域包含大量專業醫學知識及用語、多模態復雜醫療影像等,通用語言模型難以通過大量無監督自然語料訓練習得。同時,醫療領域對語言模型的可解釋性、可信度、效率等有更高要求。因此,雖然生成式語言模型可應用于醫學領域的藥品說明理解、病例報告生成、簡單的醫療服務對話等[10],但仍然不能滿足臨床問答等專業醫學任務[11]。為解決以上問題,研究人員基于知識引入的方法提升通用語言模型對醫療專業知識的理解和應用能力。構建更全面、專業的醫學知識圖譜、知識庫,探索在醫療問答中更準確的知識增強方法是提升醫學語言模型問答有效性的關鍵。基于此,本文綜述了生成式語言模型在醫學領域的發展現狀和面臨挑戰、基于知識增強的技術原理及其在醫療領域的主要應用前景等,以期為相關研究人員快速了解語言模型在醫療領域中的研究現狀和未來發展方向、推動通用語言模型在醫療領域中更專業、廣泛和深入應用提供參考。
通用人工智能是指在各個領域和環境中,機器能夠像人類一樣具備廣泛的認知能力、自主適應復雜環境,并實現自主感知、理解、學習、推理、決策與規劃。近年來,人工智能在不同領域和場景取得重大進展,如圍棋[12-14]、圖像生成[15-17]和蛋白質結構預測[18-22]等。作為通用人工智能的核心能力之一,自然語言理解和生成在自然語言處理任務中取得顯著突破,以ChatGPT為代表的生成式人工智能(AI-generated content,AIGC)在文本生成、問答等任務上取得重大突破[1-6]。在現有技術條件下,大語言模型成為實現通用人工智能的有效技術路徑。
2.2.1 核心思想 通用大語言模型是一種能夠理解和生成自然語言文本的深度學習模型。其核心思想是通過掩碼預測下一個詞匯,從而訓練模型以實現對自然語言的理解和生成。為了實現這一目標,通用大語言模型需要大規模模型參數和預訓練數據。通過大規模參數和海量預訓練數據應用,通用大語言模型實現了泛化能力。在預訓練階段,其學習通用的語言表示、詞法和句法信息以及世界知識。基于此,在文本分類、命名實體識別、機器翻譯等傳統自然語言處理任務中能夠達到與單一領域最先進(state of the art,SOTA)模型性能相當的水平。此外,在多輪對話、復雜語言推理和自動編碼等領域,通用大語言模型展現了出色的性能,并具備情景學習、指令遵循和思維鏈推理等能力。
2.2.2 情景學習(in-context learning,ICL) 是一種基于貝葉斯推斷的學習方法,能夠使模型根據任務示例或指令生成預期輸出,無需額外訓練。這種方法在多個自然語言處理基準測試中表現出有效性。利用概念蘊含的語義先驗知識,模型可以學習輸入、標簽和輸出之間的映射關系,從而提高在特定任務上的性能。
2.2.3 指令遵循 是一種提高模型泛化能力的方法,使模型能夠根據任務指令執行新任務,而無需明確示例。如谷歌公司T5模型[23],其使用文本到文本的轉換框架,以統一各種自然語言處理任務,并且可以根據自然語言指令生成不同類型輸出,如摘要、翻譯、對話等。
2.2.4 思維鏈推理(chain-of-thought,CoT) 是一種通過分解推理步驟處理復雜任務、增強模型推理能力和可解釋性的方法。其體現了語言模型對推理過程的深度建模和控制能力。思維鏈推理采用提示策略,將問題分解為多個子問題,并將每個子問題的答案作為下一個子問題的輸入,形成連續推理鏈條。語言模型可以逐步解決每個子問題并最終匯總得出完整答案。這種方法不但提高了模型的準確性,還增強了推理過程的可解釋性,從而提高模型的可信度和用戶體驗。
醫學文本生成是自然語言處理在醫療行業中的重要應用。其利用自然語言生成技術,根據醫學知識圖譜、專業數據庫、醫學影像、醫學信號等數據源,生成專業化醫學文本,以實現輔助閱讀、創建病例報告、編寫摘要、提供問答建議等多種功能。近年來,生成式語言模型在醫學領域取得顯著進展和突破。例如,生成式預訓練轉換器4(generative pretrained transformer 4,GPT-4)在醫學問答任務上展現出較強的性能和準確性[24];專門針對生物醫學文本預訓練的大語言模型PubMed GPT[25]在多個醫學基準上達到較先進水平。Galactica[26]模型是集成科學知識圖譜進行預訓練的大語言模型,經測試發現在醫學領域具備一定零樣本生成能力。谷歌的Med-PaLM 2[27]模型是一種針對醫學問題進行優化的垂直領域大語言模型,能夠針對患者問題提供專家級醫師水平的回復,并在多個國家的醫學測試中達到及格水平。醫學生成式語言模型技術框架,見圖1。
3.2.1 醫學報告自動生成 基于醫學影像、檢測結果和其他醫療數據,語言模型可以自動生成結構化或非結構化的醫學報告。這些報告可能涉及X光診斷、心電圖分析、血液化驗單等,其信息量大且要符合專業規范,通過生成報告可以極大減輕醫生的文書負擔。
3.2.2 個性化醫療建議生成 語言模型可以根據患者的病史、癥狀等信息,自動生成針對個體情況的醫療咨詢、治療方案或用藥指導,提供個性化醫患服務。
3.2.3 醫學知識精簡總結 語言模型可以利用醫學文獻、數據庫和知識圖譜,對特定醫學主題進行匯總、提煉和知識精簡,自動生成知識概述或病例總結,幫助醫生快速掌握醫學前沿進展。
3.2.4 醫患問答服務 語言模型可以理解患者和醫生的問題,提供準確回復,涵蓋病因、治療、預后等信息。在問診、健康咨詢等場景中應用,可以改善醫患溝通效率。
3.3.1 數據收集 從互聯網獲取大量結構化和非結構化醫學文本數據,如醫學圖像、檢驗報告、病例描述等。通過專業的數據清洗和標注工作去除無關、有害或有偏見的信息,結合醫學論文、專著等文本提高預訓練語料質量。
3.3.2 模型訓練 采用無監督預訓練方法,基于Transformer的單一解碼器架構,使模型能夠學習和掌握醫學文本統計規律。
3.3.3 模型微調 采用監督微調方法,通過多樣化的高質量指令數據,使模型具備泛化理解能力,如對話問答和文本生成等,并提升模型在不同任務上的性能和準確性。
3.3.4 意圖對齊 在此過程中,通常由人類標注師對模型輸出結果進行評分,并基于評分訓練一個自動打分的獎勵模型,通過獎勵模型與微調后的語言模型之間的反饋和迭代,使模型能夠輸出符合人類醫師價值觀的結果,避免產生違背醫學倫理或帶有偏見的內容。
3.3.5 低秩自適應 針對需要深入領域知識的任務,可以采用低秩自適應方法,而無須重新訓練整個模型。該方法凍結預訓練模型權重,并在每個Transformer層中引入秩分解矩陣,從而使模型適應特定醫學專科任務。
醫學生成式語言模型是近年來醫學人工智能領域的一項重要發展。Moor M等[28]定義了通用醫療人工智能(generalist medical artificial intelligence,GMAI)模型,即能夠使用少量或未標記數據執行多個任務的醫療人工智能模型。其通過在大規模、多樣化的數據集上進行自我監督學習,能夠靈活地解釋不同醫療模式組合,并通過先進的醫學推理能力呈現易于人類理解的結果。GMAI模型具有高度靈活的可交互性、精準的醫學語言表達專業性以及強大的領域泛化理解能力。醫學生成式語言模型的代表[27,29,31-38],見圖2。

圖2 現有醫學生成式語言模型脈絡
ChatDoctor[29]是基于LLaMA微調的醫學大語言模型,能適應醫療場景需求。其使用10萬個在線醫療咨詢網站的真實患者-醫師對話數據進行微調,學習醫學知識和醫患對話語言風格。模型采用獨特的自主信息檢索機制,能夠訪問和利用來自維基百科或疾病數據庫等專業醫療數據庫的信息,提升準確性。大量實驗證實了該模型在準確率、召回率和F1值等方面的強大性能。研究結果表明,ChatDoctor能夠更好地理解患者需求并提供有根據的建議,具有廣泛的醫療應用前景。
Med-PaLM[27]是基于谷歌公司Pathways語言模型(pathways language model,PaLM)基座的醫學生成式語言模型。通過指令微調訓練Flan-PaLM模型,在MedQA、MedMCQA、PubMedQA和大規模多任務語言理解(massive multitask language understanding,MMLU)臨床問題數據集上取得了最優結果。進一步通過與醫學領域對齊的指令提示微調方法,建立Med-PaLM模型以及基于事實性、理解性、推理能力、潛在傷害與偏見等多角度的人工評測框架。人工醫師評估發現Med-PaLM模型在回答醫學問題方面具有與臨床醫師相當的效果。為進一步評估語言模型在醫學問題回答方面的能力和局限性,還建立了新的醫學問題回答基準測試數據集MultiMedQA。
Hu X等[30]設計了一個多模態專家知識感知的多關系圖網絡模型,并構建了最大的醫學視覺問答數據集MIMIC-Diff-VQA。該數據集基于放射科胸片報告,構建具有邏輯遞進和種類豐富的視覺問答對。同時還提出了圖像對比視覺問答任務,即給定兩張醫學影像圖片,回答關于這兩張圖片差異性的問題。這項研究進一步推動模型貼近臨床實踐,以提升醫師診療效率。
ZHANG H等[31]開發的華佗GPT旨在使語言模型具備類似于醫師的中文醫學診斷和醫療咨詢建議能力。該模型結合ChatGPT生成的“蒸餾數據”和真實世界中醫生回復患者問題的對話數據來構建微調語料,以保持與用戶交流內容的知識豐富性。經過自動測評和醫師評估,展現出較強性能。
醫療數據包含大量患者隱私信息,在生成式語言模型的訓練和微調過程中,應嚴格遵循國內外相關法律法規,包括《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》,美國《健康保險攜帶和責任法案》(Health Insurance Portability and Accountability Act,HIPPA)及歐盟《通用數據保護條例》(General Data Protection Regulation,GDPR)等。為確保患者隱私和數據安全,必須采用加密、脫敏、匿名化和去標識化等技術手段,防范醫療數據泄露或濫用,并避免模型生成的輸出暴露個人敏感信息。
生成式語言模型在輸出醫學文本時必須具備豐富的醫學知識和經驗,確保其內容符合醫學規范和標準,包括正確使用醫學術語、符號以及規范格式,以保證輸出的準確性與可信度。模型應避免使用具有誤導性和不專業的表達方式,并避免導致誤診、漏診或不當治療的情況。
生成式語言模型在輸出內容時必須尊重和保護人類的生命健康,不能提供有害、歧視性或違反醫學倫理和價值觀的建議。模型內部應嵌入醫學倫理約束,并對輸出進行風險評估,確保其安全性,不產生對患者生命健康存在潛在影響的建議。
為確保模型的可信度和透明性,生成的內容要具有強烈的可解釋性。模型應能夠清晰地展示其推理依據、循證支持和診療邏輯,及時檢測并糾正可能存在的偏見、錯誤或虛構等問題,確保其輸出結果既準確又可靠。
生成式語言模型在醫學常識問答中具有廣闊應用前景。要應對上述挑戰并確保生成文本的專業性、準確性和可信性,針對醫學數據的復雜性、稀缺性和敏感性,降低偏見、事實性錯誤或虛構輸出的風險,可利用領域知識圖譜對生成模型的輸出進行約束。迫切須要建立基于知識圖譜約束的醫學語言模型,知識圖譜蘊含豐富的領域結構化知識,其中基于實體、關系和屬性的圖結構具有高度清晰的醫學行業診療邏輯。通過將這些領域知識圖譜的約束應用于語言模型的生成過程,可以輸出專業、準確和可信賴的醫學文本。
6.2.1 醫學生成式語言模型面臨多重挑戰 如數據安全隱私保護、知識專業性不足和倫理規范性欠缺等問題,迫切需要有效的解決方案以確保模型在醫療領域的安全合規應用。結構化的醫學領域知識圖譜應用于生成式語言模型,可以有效提供外部約束和指導,幫助模型生成專業準確、符合規范的醫學文本。知識圖譜是一種將實體概念及其語義關聯關系以網絡化、結構化形式表示的知識框架。相較于文本語料,知識圖譜的結構化表示形式更易被模型理解和應用。具體來說,知識圖譜可以為生成式語言模型提供專業理解力等5方面支持,見圖3。

圖3 知識圖譜增強的醫學生成式語言模型優勢框架
6.2.2 增強專業理解力 依托知識圖譜中豐富的醫學實體及其關聯關系,可以大幅提升生成式語言模型對專業知識的理解能力。充足的專業知識引導是避免模型產生幻覺、輸出不準確或不規范醫學文本的重要前提。
6.2.3 強化邏輯推理 生成式語言模型可以進行更準確的邏輯推理。實體之間的關聯為模型提供可靠的事實依據和嚴密的推理鏈,有助于生成條理清晰、事實準確的醫學文本。
6.2.4 知識更新拓展 借助持續擴展的知識圖譜,模型可以實時獲取最新醫學知識,避免產生過時、錯誤的輸出。
6.2.5 減少幻覺輸出 知識圖譜的約束作用可以減少模型偏見、事實性錯誤及幻覺輸出,降低生成無意義或有害醫療文本的可能性。
6.2.6 增強可解釋性 知識圖譜可以清晰展示每條生成語句所基于的知識來源,促進診療決策過程有據可循。
6.3.1 知識結構引導的醫學語言模型預訓練 為提升醫學語言模型對醫學知識的了解和認知,通常將醫學知識結構融入大語言模型的預訓練階段。通用大語言模型通過對現有醫學知識語料、知識庫進行大量的基于自監督學習的無監督訓練,或通過相似性任務(判斷模型生成的醫學回答是否與標準答案相似)、選擇任務(在給定的問題中選擇最優答案)等[28]監督學習訓練,將醫學文本內容輸入語言模型,不斷對語言模型輸出的醫學文本進行監督和優化,提升語言模型對醫學領域的基本了解和認知,形成初步醫學語言模型。
6.3.2 醫學知識增強的語言模型微調訓練 現有醫學知識庫、知識圖譜等,可以自動生成用于微調的指令數據,從而將知識融入訓練過程。基于知識圖譜生成大量高質量指令模板,醫學語言模型可以將大部分指令分類并快速學習[39],在面對真實用戶的指令要求時,語言模型可以簡單匹配用戶指令與模板指令,理解任務要求,從而完成對應任務。基于知識圖譜生成的醫學指令模板可以高效提升語言模型面對醫學任務指令的響應能力。
6.3.3 醫學外掛知識庫檢索增強推理 將醫學知識庫、知識圖譜作為醫學模型推理時的外掛知識庫,類似使用檢索增強的方式協助語言模型獲得更多領域知識[40]。通過對用戶問題中的關鍵信息在相關醫學知識庫中進行自動檢索,輔助語言模型理解和推理用戶意圖、生成更具有解釋性的內容。
6.3.4 基于醫學知識引導的提示學習 基于醫學知識圖譜生成合適的提示學習[41],可以提升醫學模型的推理能力,特別是在復雜場景和多步交互的情況下。現有工作[42-43]表明情景學習對其中包含的例子順序、質量等非常敏感,一個非常小的改變可能會引起模型效果的較大變化。因此,通過從醫學知識圖譜中抽取相關醫學專業術語等知識,自動引導產生有利于醫學模型挖掘相關的醫學信息,提升在交互問答時的推理性能。
6.3.5 知識協同的智能中控路由 單獨一個醫療語言模型往往難以獨立完成復雜的任務,通常須要調用外部的應用程序接口、組合利用小模型、使用第三方工具等,這使語言模型類似于一個自適應的智能中控路由。醫學語言模型在理解用戶任務后進行任務規劃,自適應地依據任務規劃結果調用相關工具產生更專業的結果。
7.1.1 通用語言模型應用價值 傳統基于規則的醫學知識圖譜構建方法需要花費大量時間和精力進行模板設計;而依賴預訓練語言模型的方法,則需要大量醫學文本的人工標注和模型調參。這兩類方法在專業醫學領域泛化理解能力方面都存在局限,構建過程耗時費力。通用語言模型的出現徹底改變了這一狀況,通過大量多樣化數據預訓練,內化豐富的醫學領域知識,無需額外的醫學領域微調就可以直接應用到下游任務。獨特的語義理解能力使其可以準確解析醫學文本語義,準確識別實體并抽取實體關系,從而實現對醫學知識圖譜的高效自動化構建。具體來說,通用語言模型可以快速從海量非結構化醫學文獻中,準確抽取實體(如疾病、藥物等)以及實體之間的關系(如“癥狀-疾病”“藥物-疾病”等),并持續更新知識圖譜,確保知識圖譜的及時性。構建于通用語言模型之上的醫學知識圖譜質量更高、覆蓋面更廣,為依托知識圖譜進行醫療決策支持、信息檢索等提供了堅實的知識基礎。
7.1.2 實體與關系抽取 在處理醫學文本時,語言模型可以識別文本中的特定領域詞匯,并對疾病、藥物、患者、醫生等實體進行分類。同時,還可以根據參數化的領域知識,通過語義理解能力構建這些實體的屬性和關系[44]。語言模型由此可以實現命名實體識別、實體分類、實體鏈接、關系抽取和指代消解等多項任務。試將以下段落基于GPT-4進行命名實體識別、實體分類和關系抽取分析:“李某某,60歲女性,在北京協和醫院被某醫師診斷出患有糖尿病,醫師囑咐用胰島素治療”。在該過程中大語言模型成功完成以下任務。(1)命名實體識別。識別出“李某某”“糖尿病”“某醫師”“北京協和醫院”“胰島素”等實體。(2)實體分類。“李某某”被分類為患者(Patient類),“糖尿病”分類為疾病(Disease類),“某醫師”分類為醫生(Doctor類),“北京協和醫院”分類為機構(Organization類),“胰島素”分類為藥物(Drug類)。(3)實體鏈接。將新識別的實體與已有的知識圖譜進行關聯,避免冗余或歧義。(4)關系抽取。識別出“診斷”(

表1 基于語言模型的實體識別與關系抽取示例
7.1.3 知識補全 通過模型參數化的醫學知識,結合語言模型的邏輯推理能力,可以實現知識圖譜的補全。假設已有知識圖譜記錄了胰島素作為治療糖尿病的藥物,但對于其不良反應、副作用或替代藥物等方面描述不完整。在這種情況下,大語言模型可以提供專業信息來填補這些缺失,見表2。

表2 基于大語言模型的藥物不良反應知識補全示例
醫學常識問答是一項典型任務,基于語言模型回答與醫學相關的常識性問題,對促進患者健康教育和基層醫師培訓等方面具有一定價值。然而由于醫學領域的專業性與復雜性,生成式語言模型往往可能會生成片面、事實性錯誤甚至幻覺的回答。為解決準確性問題,醫學常識問答往往通過醫學知識圖譜進行提示學習,引導語言模型輸出,使其生成專業的醫學文本[45-46]。具體而言可以將數據源中的實體、關系和屬性作為輸入條件,然后使用GPT模型生成相應文本描述或問答。例如,給定實體“阿司匹林”和其屬性“藥理作用”,模型可能生成的文本描述為:“阿司匹林是一種常用的非甾體抗炎藥,具有抗炎、鎮痛、退熱和抗血小板聚集等藥理作用”。又如給定實體“阿司匹林”和問題“阿司匹林有哪些不良反應”,模型可能根據知識圖譜中相關實體和關系生成如下回答:“阿司匹林的不良反應主要包括胃腸道出血、過敏反應、雷耶氏綜合征、耳鳴、頭痛等”。通過這種方式不僅可以提高醫患溝通和教育的便利性和質量,還可以提升醫學研究和寫作的效率和質量。為了展示這種方法的效果,使用大規模中文開放知識圖譜(OpenKG)[47]中抽取的一些實體、關系和屬性,并利用GPT-4的語言表征能力生成相應的文本描述或問答,見表3。

表3 基于知識圖譜約束的醫學常識問答示例
7.3.1 醫學視覺問答 是將自然語言處理和計算機視覺相結合的復雜任務,旨在對醫學圖像進行深度分析,并生成自然語言形式的問答。這一任務在醫學領域具有重要的潛力和價值,但同時也面臨挑戰,包括醫學圖像的多樣性、復雜性和噪聲性,以及醫學知識的動態性和不確定性。目前已有的視覺語言模型實踐主要基于微調現有開源模型[48-49]。例如MedSAM[50]項目利用深度學習技術構建醫療影像模型,從醫學圖像中提取有用信息。PMC-CLIP[51]項目則是一個醫療多模態模型,基于科學文獻構建了高質量的醫療多模態數據集,稱為PMC-OA數據集,并在醫療圖文檢索、圖像分類及視覺問答等任務中取得最佳效果。此外,微軟基于GPT-4構建的醫療病歷生成多模態模型可以將床邊對話的語音識別與語言模型的邏輯能力相結合,生成臨床病歷草稿,并經過醫師審核,最終形成嚴謹的臨床病歷文書。
7.3.2 局限 上述醫學跨模態語言模型在提供基礎疾病診斷時存在一定局限性。例如無法準確理解和回答具有高度專業性和復雜性的醫學問題,在處理醫學罕見病理或特定類型影像時遇到困難。此外在面對醫學知識的動態性和不確定性時,模型可能無法提供最新、最準確的醫學知識,從而給出過時的醫療診斷和決策回復。
7.3.3 基于知識圖譜和多模態數據融合技術的醫學語言模型 此類模型可以有效解決上述問題。例如在解讀一張X光片顯示的“左肺上葉有一塊圓形致密影”時,模型不僅從知識圖譜中提取肺結核、肺癌、肺膿腫和肺水腫等可能的病因,還能結合患者的具體情況作出更全面的判斷。
考慮以下案例:一位名為趙某的45歲女性患者。患有Ⅱ型糖尿病(已持續10年)和原發性高血壓2級(已持續5年),其父親有冠心病史,母親則患有Ⅱ型糖尿病和高血壓。近期為了緩解腰痛,自行服用了非甾體類抗炎藥萘普生鈉,并于服藥5日后出現氣喘和伴隨的胸痛癥狀。考慮到萘普生鈉在少數情況下可能引發肺水腫,結合對患者的病史事件圖譜分析,模型可以進一步識別其藥物使用記錄中的潛在風險,并根據診斷建議待完善的檢查和治療,從而為醫生、研究人員和患者提供更加準確、專業和可靠的醫學視覺問答服務。
可見模型能有效解決多種內科慢性疾病和藥物干預帶來的復雜診斷問題,融合最新醫療領域知識圖譜作為可靠知識來源,利用語言模型強大的邏輯推理能力和豐富的領域知識圖譜,綜合處理醫學圖像、語音和醫患對話文本等多模態信息。協助醫療專家快速獲取初步診斷、治療建議和決策支持,進而提高醫療服務質量和效率。
本文全面論述和分析了生成式語言模型在醫學領域的應用前景及挑戰。醫學文本生成的復雜性和專業性對自然語言處理帶來巨大考驗,借助預訓練模型能夠生成一定程度具備專業性和準確性的醫學文本。即使GPT-4等模型在醫學文本生成方面已經取得較良好表現,其性能的優化和提升還依賴更深層次醫學知識的輔助增強,以確保答案的精確性和可靠性,防止對醫療決策和患者生命健康產生負面影響。知識圖譜增強的語言模型提供了一種理想的解決方案,可以從無標注的大規模文本中挖掘和學習豐富的醫學知識,從而加深對醫學文本知識的理解和應用。然而,如何設計更加精確和高效的知識圖譜構建方法,以更好地滿足醫學領域的應用需求,仍然面臨挑戰。此外,利用知識圖譜可以進一步提高模型在處理醫學視覺問答任務時的性能,實現更深層次的視覺理解和解釋。但如何有效地整合知識圖譜和視覺信息,以提高模型的解釋能力和準確性,仍需更深入的研究。
生成式語言模型在醫學領域具有巨大應用潛力,但在模型泛化能力、準確性、解釋性等方面仍有待提升。未來可以借助因果機器學習增強語言模型的邏輯推理和醫學證據支持,進而增強醫學問答的完整性和可信度。