摘 要:大型語言模型(Large Language Model,LLM)正逐漸成為醫療領域的重要工具,其在體檢報告解讀、個性化健康推薦和醫學決策中的應用展現了巨大潛力。本文綜述了LLM及相關人工智能技術(Artificial Intelligence,AI)技術在醫療健康領域的多項研究進展,重點探討其在體檢報告解讀、健康建議生成、疾病預測、患者互動以及醫學AI系統安全性和倫理等方面的最新成果。研究表明,LLM在提高醫療服務效率、支持個性化健康管理以及擴展患者自我診斷能力方面具有顯著優勢。然而,模型在準確性、推理能力和背景知識整合方面仍面臨局限,尤其在復雜診斷和專科醫療中的應用亟需改進。本文還分析了LLM在醫療實踐中的潛在風險與倫理挑戰,提出未來需通過改進模型性能、加強臨床驗證和完善監管框架來確保其安全性和可靠性。本研究旨在為LLM及相關技術在醫療健康領域的應用和發展提供理論依據和實踐參考。
關鍵詞:人工智能;體檢健康建議;大型語言模型
中圖分類號:TP29" 文獻標識碼:A" 文章編號:1673-260X(2025)01-0034-06
隨著人工智能技術的快速發展,大型語言模型在醫療領域的應用成為研究熱點。體檢報告解讀和健康建議生成等任務通常涉及海量非結構化數據的處理和復雜推理需求,而LLM憑借其卓越的自然語言處理能力,為這些任務提供了新思路。同時,個性化健康推薦和疾病預測領域逐步采用基于AI和大數據的技術,通過深度學習模型與醫學知識的結合,推動了醫療決策支持的創新。然而,LLM在醫療實踐中的應用也面臨諸多挑戰,如生成內容的準確性和可靠性問題,以及潛在的倫理和安全風險。
近年來,多項研究探索了LLM在體檢報告解讀、健康建議生成和疾病預測中的表現。部分成果顯示,LLM在提高可讀性、同理心和建議準確性方面優于傳統方法,但模型在多輪對話中的推理能力和背景知識應用仍有待加強。此外,患者對AI建議的信任度和接受度也受到多種因素的影響,需要進一步分析。在醫學AI系統的安全性和倫理問題方面,LLM的輸出內容可能影響患者決策,強調了對模型安全性和倫理規范的關注。
本文通過系統綜述LLM在體檢報告解讀及健康建議生成中的應用現狀,總結其優勢與不足,并探討未來發展方向,旨在為醫學領域中AI技術的研究與應用提供參考。
1 基于大型語言模型的醫療應用概述
近年來,人工智能技術的迅猛發展正深刻改變著各行各業的運行模式。其中,在醫學領域,AI展現出了前所未有的潛力,為疾病的預防、診斷、治療及個性化健康管理提供了全新視角。特別是基于大型語言模型的自然語言處理技術,通過強大的數據處理和分析能力,正在逐步融入醫療實踐。然而,這一過程也伴隨著諸多技術、倫理和實踐層面的挑戰,亟需深入探討。在本文中,我們將圍繞LLM在醫學中的應用展開討論,重點涵蓋個性化健康推薦、疾病預測、醫學數據分析與決策支持等多個方面,同時探索患者對AI的信任與接受度以及醫學AI系統的安全性與倫理問題。
1.1 大型語言模型在醫療中的應用現狀
針對大型語言模型(LLM)在醫療中的應用,多項研究探索了其在體檢報告解讀及臨床建議中的潛力與局限性。AI Hospital框架[1]通過模擬多智能體醫療互動,評估了LLM在癥狀收集、檢查建議和診斷方面的準確性,指出盡管存在改進,但LLM在多輪交互中的表現仍不及單步方法,強調了進一步研究的必要性以提升其在臨床診斷中的應用能力。此外,Singhal等人[2]通過MultiMedQA基準,評估了LLM在醫學問答中的表現,發現盡管Flan-PaLM在多個數據集上取得了較高準確率,但人工評估仍揭示了模型在推理和知識回憶方面的差距。
在健康建議的可靠性方面,Huo等人[3]探討了LLM驅動的聊天機器人在提供健康建議時的角色,指出了由于準確性問題而引發的患者安全風險,強調了醫療專業人員提供準確健康信息的責任。同時,Du等人[4]通過觀察患者使用GPT-4進行自我診斷,發現患者的信任主要取決于他們對AI建議有效性的評估,進一步強調了醫生經驗在建立信任方面的重要性。
為確保LLM提供的健康建議不誤導用戶,Cheng等人[5]提出了HeAL基準,用于評估LLM在提供健康建議時的能力和準確性,為醫療環境中的LLM部署提供了有效的保護措施。此外,Ong等人[6]通過對比傳統的健康教練與基于RAG的LLM在健康指導中的表現,發現LLM在可讀性、有用性和同理心方面優于人類健康教練,顯示了其在自動化健康指導領域的潛力。
針對個性化健康管理,Jin等人[7]提出了Health-LLM框架,通過結合LLM和醫學知識進行疾病預測,并利用檢索增強生成機制改善特征提取,提高了疾病預測的準確性。同時,Li等人[8]通過開發ChatDoctor模型,解決了現有LLM在醫學知識方面的局限性,顯著提高了模型理解患者需求和提供準確建議的能力。
然而,LLM在醫療領域的應用也面臨一些挑戰,如生成虛構內容、缺乏對診斷和治療計劃的深入理解等[9]。這些問題妨礙了其在專科醫療中的部署,需要傳染病臨床醫生與LLM互動,以明智地決定如何在專科護理中利用這項技術,并避免其誤用。總體而言,LLM在體檢報告解讀及臨床建議中的應用仍處于發展階段,需要進一步的研究和改進以確保其在臨床實踐中的安全性和有效性。
此外,有研究者將BERT框架應用于結構化電子健康記錄(EHR)數據,提出了Med-BERT模型[10]。該模型通過在大規模EHR數據上進行預訓練,并在疾病預測任務上進行微調,顯著提高了預測準確性。特別是在小型訓練集上,Med-BERT展現出了與大型訓練集模型相當的性能,這有望降低數據收集成本,加速AI輔助醫療的發展。這一研究展示了LLM在醫療數據挖掘和疾病預測方面的潛力。
LLM在醫學對話和健康建議方面的應用仍面臨挑戰。盡管LLM在理解人類指令方面已有顯著進展,但在醫學領域的表現仍不理想,特別是在中文醫學對話的適應性、診斷和藥物推薦等方面。有研究通過收集中文醫學對話數據庫,并結合多種技術訓練了易于部署的LLM(如DoctorGLM[11]),并在有限時間內成功進行了微調。這表明,為醫療用途部署LLM既可行又經濟,但仍需進一步完善以提高準確性和可靠性。
另一方面,LLM在提供健康建議方面也引發了關注。Lautrup等人[12]通過回顧和分析涉及ChatGPT的PubMed文章,并結合實驗評估了ChatGPT在處理心血管疾病領域健康提示時的表現。結果發現,ChatGPT的回答質量參差不齊,既有簡潔正確的回答,也有荒謬或危險的錯誤。這表明,盡管LLM在健康建議中展現潛力,但其廣泛使用可能加劇健康不平等,并增加醫療保健系統的負擔。因此,需要謹慎評估LLM在醫療領域的應用,并確保其提供的健康建議不會誤導用戶。
此外,Haupt等人[13]還探討了AI技術如何影響醫療服務提供,以及存在的潛在風險。作者強調,AI的風險取決于其是用于協助醫生還是替代醫生,以及臨床醫生如何保持對技術的控制。因此,在醫療領域應用LLM時,需要權衡其帶來的便利和潛在風險,并制定相應的監管措施以確保患者的安全和利益。
綜上所述,LLM在醫療領域的應用仍處于發展階段,需要進一步的研究和改進。未來,隨著技術的不斷發展和完善,LLM有望在醫療領域發揮更大的作用,為臨床醫生和患者提供更加準確、可靠和個性化的醫療服務。
1.2 個性化健康推薦與疾病預測:LLM的潛力
在個性化健康推薦與疾病預測領域,AI、大模型、大數據等技術正發揮著日益重要的作用。Wu等人提出了一種基于局部可解釋模型不可知解釋的可解釋推薦系統,該系統通過深度學習算法分析老年人中常見的慢性病(如心臟病和糖尿病)數據,并利用LIME確定影響模型預測結果的特征重要性,從而提供了個性化的治療建議[14]。這種方法不僅提高了推薦的可解釋性,還增強了患者的信任度,為醫療決策提供了有力支持。
同時,Sahoo等人開發了一種基于受限玻爾茲曼機和卷積神經網絡的智能健康推薦系統,該系統通過分析患者的生活方式、身體健康記錄和社交活動等信息,實現了對健康狀況的精準預測和健康建議的個性化推薦[15]。實驗結果表明,與其他方法相比,RBM-CNN模型在預測中表現出更高的準確性,為遠程醫療環境中的健康推薦提供了新的思路。
在體檢大數據的利用方面,謝昌錕等人通過機器學習算法對大量體檢數據進行了探索性分析和特征工程,建立了體檢評分模型。該模型能夠綜合各項體檢指標,客觀地描述用戶的身體健康狀況水平,不僅降低了醫患溝通成本,還促進了用戶對自身健康的關注[16]。
此外,Galitsky探討了如何利用元學習和溯因推理技術提升大型語言模型在個性化健康建議中的表現。通過設計個性化提示和維護用戶隱私,LLM能夠基于用戶的健康記錄等信息生成量身定制的回答,從而提高了建議的針對性和準確性[17]。
最后,Jin等人提出了一個名為Health-LLM的創新框架,該框架結合了大規模特征提取和醫學知識權衡評分,通過檢索增強生成機制和半自動化特征更新框架,實現了對疾病預測和個性化健康管理的精準支持。實驗結果表明,Health-LLM系統超越了現有系統,為智能醫療的發展注入了新的活力[7]。綜上所述,AI/大模型/大數據等技術在個性化健康推薦與疾病預測領域的應用前景廣闊,值得進一步深入研究和探索。
1.3 醫學數據分析與自然語言處理技術的結合
在醫學領域的數據分析與NLP技術應用方面,AI、大模型和大數據等技術正逐漸展現出其在體檢報告解讀方面的巨大潛力。Alsentzer等人[18]提出了專門用于臨床文本的BERT模型,并證明領域特定模型在三種常見的臨床NLP任務上相較于非特定嵌入能顯著提高性能,這為體檢報告解讀提供了更為精準的自然語言處理工具。Health Catalyst Editors指出[19],NLP技術通過使用AI能夠從約80%的文本形式的健康數據中提取和分析有意義的見解,具有挖掘非結構化數據的潛力,這對于體檢報告中大量存在的非結構化數據而言,無疑是一個巨大的福音。
謝昌錕等人在《基于體檢大數據的健康指數建模》中[16],通過機器學習算法對大量體檢數據進行分析,建立了體檢評分模型,該模型能夠綜合各項體檢指標,較為客觀地描述用戶身體健康狀況水平,不僅降低了體檢用戶同醫生的溝通成本,還督促用戶更加關注身體整體健康水平。這一研究不僅展示了大數據在體檢報告解讀方面的應用潛力,還提供了具體的實踐案例。
此外,Zhou等人[20]強調了深度學習和大數據分析在生物醫學應用和數字醫療領域的重要性。他們指出,憑借大量歷史數據,DL和大數據分析技術能夠識別特征與可能風險之間的潛在聯系,為醫療診斷做出重要決策。這一觀點進一步支持了AI、大模型和大數據等技術在體檢報告解讀方面的應用前景,即通過深度學習等技術對大量體檢數據進行分析,可以識別出潛在的健康風險,為醫生提供更準確的診斷依據,同時也為患者提供更加個性化的健康管理建議。
1.4 人工智能在醫學決策中的作用與技術挑戰
在人工智能參與醫學決策的作用與挑戰中,AI技術在體檢報告解讀方面的應用逐漸展現出其潛力與局限性。具體而言,Li等人[21]提出了一種經濟高效的方法,通過利用從PubMed Central中提取的大規模生物醫學圖片標題數據集,訓練出能夠回答生物醫學圖像開放式研究問題的視覺語言對話助手LLaVA-Med。該模型在不到15小時的時間內訓練完成,并在三個標準的生物醫學視覺問答數據集上表現出色,展現出其在體檢報告圖像解讀方面的潛在應用價值。然而,盡管LLaVA-Med具有出色的多模態對話能力,但其在實際醫學決策中的準確性和可靠性仍需進一步驗證。
與此同時,Whiles等人[22]的研究揭示了ChatGPT在提供泌尿科健康建議方面的局限性。該研究通過向ChatGPT詢問基于泌尿科指南的問題,并使用Brief DISCERN評估答案的恰當性,發現ChatGPT雖然能在超過一半的情況下提供適當的回答,但會曲解臨床護理指南、忽略重要背景信息,并提供不恰當的參考。這一發現表明,盡管AI聊天機器人在醫療領域具有廣闊前景,但用戶在解讀其提供的醫療建議時應保持謹慎。
此外,Gaube等人[23]的研究進一步探討了AI建議在醫生決策中的影響。該研究發現,非專業領域的醫生在從AI獲得帶有視覺注釋的正確診斷建議時,診斷準確率最高,且對AI建議質量的評價高于人類建議。這一發現表明,可解釋的AI建議有助于提升非專業醫生在體檢報告解讀方面的能力。然而,該研究也指出,任務專家和非任務專家在受影響程度上存在差異,這提示我們在實際應用中應根據醫生的專業領域和經驗水平來合理使用AI建議。
綜上所述,AI技術在體檢報告解讀方面展現出巨大潛力,但同時也面臨著準確性和可靠性等方面的挑戰。未來研究應進一步探索如何提升AI模型的準確性和可解釋性,以及如何根據醫生的專業領域和經驗水平來合理使用AI建議,從而推動AI技術在醫學決策中的廣泛應用和深入發展。
1.5 患者對AI系統的信任與接受度研究
在患者與AI互動的信任與接受度方面,相關研究揭示了多種影響因素。Delong Du等人[4]指出,患者對于AI驅動的大型語言模型如ChatGPT提供的臨床建議的信任程度,受到其能力評估的混雜因素影響。具體而言,患者往往更信任受過教育、有資質的醫生提供的醫療指導,而非AI代理,因為患者認為醫生的專業知識和經驗更能有效實現其健康目標。這一發現強調了基于能力的信任在患者決策中的重要性,也揭示了AI在臨床建議領域面臨的挑戰。
Christopher Robertson等人[24]探討了不同患者群體對AI診斷工具的看法。研究發現,受訪者的選擇幾乎平分秋色,一部分選擇人類醫生,另一部分則選擇AI診所。然而,初級保健醫生對AI的解釋和推薦、AI診所的個性化服務以及避免種族和財務偏見的承諾等因素,均顯著提高了患者對AI的接受度。此外,研究還發現,不同種族、年齡、政治傾向和宗教觀念的患者對AI的接受度存在差異。例如,黑人受訪者選擇AI的頻率較低,而美洲原住民則較高;年長的受訪者、自認為政治保守或認為宗教很重要的人也更傾向于選擇人類醫生。教育水平的提高則增加了選擇AI提供商的可能性。
這些研究共同表明,患者與AI互動的信任與接受度是一個復雜且多維的問題,受到患者個人特征、AI系統的性能以及醫生推薦等多種因素的影響。為了提高患者對AI的信任和接受度,未來的研究應進一步探索如何優化AI系統的設計和性能,以及如何通過有效的溝通和解釋來增強患者對AI系統的理解和信任。同時,針對不同患者群體的特點和需求,制定個性化的推廣策略也是提高AI接受度的關鍵。
1.6 醫學AI系統的安全性與倫理思考
在醫學AI系統的安全性與倫理方面,特別是在體檢報告解讀的應用場景中,大型語言模型(LLM)的引入帶來了諸多挑戰與考量。Bright Huo[3]等人在其研究中指出,隨著LLM鏈接的聊天機器人越來越多地使用在線資源進行訓練,其性能得到了顯著提升,但在醫療保健領域的應用卻引發了患者安全的擔憂。這些擔憂主要源于LLM輸出信息的準確性問題,因為醫生和患者經常依賴互聯網獲取健康建議,而LLM鏈接聊天機器人的廣泛使用可能因信息不準確而導致誤導。這一發現強調了在使用AI系統進行體檢報告解讀時,必須嚴格確保信息的準確性和可靠性,以避免對患者造成潛在傷害。
此外,Ilan S Schwartz等人的研究[9]進一步揭示了LLM在傳染病咨詢等專科領域應用時的局限性。他們指出,LLM目前存在頻繁的虛構信息、缺乏對細致入微的診斷和治療計劃至關重要的背景意識、訓練數據和方法難以捉摸且無法解釋,以及重復偏見的傾向等問題。這些問題不僅妨礙了LLM在安全臨床環境中的部署,也引發了關于認知專業未來的擔憂。因此,在將AI系統應用于體檢報告解讀時,必須充分考慮其安全性和倫理問題,確保系統能夠準確、可靠地提供醫療建議,同時避免對患者造成不必要的困擾或傷害。
在探討患者是否更傾向于遵循AI醫生還是人類醫生的醫療建議的研究中,基于醫患溝通路徑模型的一項析因實驗[25]揭示了關鍵問題。該實驗通過對比不同醫療服務提供者(AI與人類醫生)、信息支持程度(低與高)以及響應延遲(慢與快)的組合影響,對535名被試進行了深入分析。結果顯示,患者對人類醫生的醫療建議遵從性顯著高于AI醫生。特別是在響應延遲較慢的情況下,被試認為人類醫生在提供健康益處和以患者為中心方面表現更佳,而AI醫生在這些方面的評價則相對較低。這一發現進一步強調了醫學AI系統在安全性與倫理方面的挑戰,尤其是在體檢報告解讀等應用場景中,需要更加注重AI建議的準確性和可靠性,以贏得患者的信任與遵從。
綜上所述,醫學AI系統在體檢報告解讀方面的應用雖然具有廣闊前景,但在安全性和倫理方面仍存在諸多挑戰。為了確保系統的有效性和安全性,未來的研究應更加關注LLM的準確性和可靠性問題,以及如何在保證患者隱私和權益的前提下,合理利用AI技術進行醫療決策支持。
2 結語
綜上所述,AI和大型語言模型(LLM)在體檢報告解讀、健康建議生成及個性化健康管理中的應用展現了巨大的發展潛力。這些技術不僅為醫學數據分析和健康管理提供了新的工具,還為醫生和患者之間的信息傳遞和互動開辟了新路徑。然而,LLM在醫學領域的實際應用仍然面臨一系列挑戰,包括準確性、可解釋性和患者信任等問題。為實現LLM技術在醫療中的安全部署,未來的研究應著重于提升模型的臨床推理能力、減少虛構信息生成,并加強多學科合作以確保技術在倫理與法律層面符合醫學規范。
隨著AI技術在醫療領域的深入發展,建立以患者安全為核心的AI監管框架、完善技術支持和隱私保護機制,將有助于推動AI和LLM在醫療實踐中的廣泛應用。未來,我們期待AI在醫療健康領域的創新發展能夠更有效地服務于個性化健康管理,提升體檢報告解讀的準確性和有效性,從而在臨床實踐中發揮更大的價值。
——————————
參考文獻:
〔1〕Fan Z, Tang J, Chen W, et al. Ai hospital: Interactive evaluation and collaboration of llms as intern doctors for clinical diagnosis[J]. arXiv preprint arXiv:2402.09742, 2024.
〔2〕Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.
〔3〕Huo B, Cacciamani G E, Collins G S, et al. Reporting standards for the use of large language model-linked chatbots for health advice[J]. Nature Medicine, 2023, 29(12): 2988-2988.
〔4〕Du D, Paluch R, Stevens G, et al. Exploring patient trust in clinical advice from AI-driven LLMs like ChatGPT for self-diagnosis[J]. arXiv preprint arXiv:2402.07920, 2024.
〔5〕Cheng K, Gentile A L, Li P, et al. Don’t be my Doctor! Recognizing Healthcare Advice in Large Language Models[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2024: 970-980.
〔6〕Ong Q C, Ang C S, Chee D Z Y, et al. Advancing health coaching: A comparative study of large language model and health coaches[J]. Artificial Intelligence in Medicine, 2024, 157: 103004.
〔7〕Jin M, Yu Q, Shu D, et al. Health-llm: Personalized retrieval-augmented disease prediction system[J]. arXiv preprint arXiv:2402.00746, 2024.
〔8〕Li Y, Li Z, Zhang K, et al. Chatdoctor: A medical chat model fine-tuned on a large language model meta-ai (llama) using medical domain knowledge[J]. Cureus, 2023, 15(06).
〔9〕Schwartz I S, Link K E, Daneshjou R, et al. Black box warning: large language models and the future of infectious diseases consultation[J]. Clinical infectious diseases, 2024, 78(04):860-866.
〔10〕Rasmy L, Xiang Y, Xie Z, et al. Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction[J]. NPJ digital medicine, 2021, 4(01): 86.
〔11〕Xiong H, Wang S, Zhu Y, et al. Doctorglm: Fine-tuning your chinese doctor is not a herculean task[J]. arXiv preprint arXiv: 2304. 01097, 2023.
〔12〕Lautrup A D, Hyrup T, Schneider-Kamp A, et al. Heart-to-heart with ChatGPT: the impact of patients consulting AI for cardiovascular health advice[J]. Open heart, 2023, 10(02): e002455.
〔13〕Haupt C E, Marks M. AI-generated medical advice—GPT and beyond[J]. Jama, 2023, 329(16): 1349-1350.
〔14〕Wu Y, Zhang L, Bhatti U A, et al. Interpretable machine learning for personalized medical recommendations: A LIME-based approach[J]. Diagnostics, 2023, 13(16): 2681.
〔15〕Sahoo A K, Pradhan C, Barik R K, et al. DeepReco: deep learning based health recommender system using collaborative filtering[J]. Computation, 2019, 7(02): 25.
〔16〕謝昌錕,趙明琪,林世明.基于體檢大數據的健康指數建模[J].Hans Journal of Data Mining, 2021,11:1.
〔17〕Galitsky B A. LLM-Based Personalized Recommendations in Health[J]. 2024.
〔18〕Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
〔19〕Health Catalyst Editors.Healthcare NLP: The Secret to Unstructured Data’s Full Potential[EB/OL].https://www.healthcatalyst.com/learn/insights/how-healthcare-nlp-taps-unstructured-datas-potential,2024.
〔20〕Zhou X, Leung C K, Kevin I, et al. Editorial Deep Learning-Empowered Big Data Analytics in Biomedical Applications and Digital Healthcare[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2024, 21(04): 516-520.
〔21〕Li C, Wong C, Zhang S, et al. Llava-med: Training a large language-and-vision assistant for biomedicine in one day[J]. Advances in Neural Information Processing Systems, 2024, 36.
〔22〕Whiles B B, Bird V G, Canales B K, et al. Caution! AI bot has entered the patient chat: ChatGPT has limitations in providing accurate urologic healthcare advice[J]. Urology, 2023, 180: 278-284.
〔23〕Gaube S, Suresh H, Raue M, et al. Non-task expert physicians benefit from correct explainable AI advice when reviewing X-rays[J]. Scientific reports, 2023, 13(01): 1383.
〔24〕Robertson C, Woods A, Bergstrand K, et al. Diverse patients’ attitudes towards Artificial Intelligence (AI) in diagnosis[J]. PLOS Digital Health, 2023, 2(05): e0000237.
〔25〕Li S, Chen M, Liu P L, et al. Following Medical Advice of an AI or a Human Doctor? Experimental Evidence Based on Clinician-Patient Communication Pathway Model[J]. Health Communication, 2024: 1-13.