醫療大模型需要全標準評價體系

2023-12-27 03:06:43閔棟

財經 2023年26期

閔棟

在人工智能的引領下，新一輪科技革命和產業變革已經展開。

當2016年IBM的人工智能（AI）“沃森”學習海量醫學論文后，在人類醫生們對一名病人束手無策的情況下，10分鐘內判斷出病人得的是罕見白血病，并給出了治療方案，人工智能給醫療領域帶來的就不僅是沖擊，還有無限可能的未來。

AI“思考”出針對每一個病人的單獨的結論，是基于它運轉的規則不是事先輸入的程序，而是依托龐大的后臺數據庫。在人工智能領域，這被稱為“深度學習”。作為AI領域的重要技術，深度學習是從數據中學習，而大模型則是通過使用大量的模型來訓練數據，可以說是深度學習模型。

2023年風靡全球的ChatGPT，就是大模型的經典范例，其已應用于多個醫療場景，在病歷書寫、報告生成、病例歸納、輔助診療等醫療服務領域已有應用，未來將進一步支持病歷記錄、醫療咨詢、患者管理、學術交流等醫療場景，為患者、醫生和研究人員提供高效、智能的解決方案。

醫療大模型差異化，滿足用戶需求

截至目前，在醫療領域的國產大模型數量不少于40個。

就技術而言，大模型本質基本相同，通過對大量數據的學習和分析，提取出隱藏在數據中的規律和特征，如醫療大模型重點支持醫學圖像識別和分析、醫療數據分析和預測，實現更準確、高效的醫療診斷和治療。

大模型因側重點不一樣，如開源或閉源，后續發展各有特色。互聯網巨頭騰訊、百度、京東等的大模型開發，涵蓋藥物研發、智慧診療、醫療設備運維、醫院管理等多個領域。其中，京東健康正式發布面向醫療健康行業的大模型“京醫千詢”，以京東言犀通用大模型為基礎，開發覆蓋全流程醫療需求、實現智能決策、支持多模態的醫療大模型；華為云與廣州金域醫學正式簽署盤古大模型戰略合作協議，雙方將合力打造醫檢行業AI大模型，驅動醫學檢驗全鏈條多場景的智能化；醫聯自主研發的基于Transformer架構的醫療大語言模型——MedGPT，能夠支持循序漸進多輪問診，引導患者收集足夠的診斷決策因素，保證后續診斷有效，在與三甲主治醫生診斷相比中，已達到96%的一致性。

從技術實現方面來看，一類是直接開發形成的醫療大模型，如醫聯的MedGPT、深睿醫療的Deepwise MetAI等；另一類是基于通用大模型而進一步訓練形成垂類行業大模型，如華為云盤古大模型、京東健康“京醫千詢”、科大訊飛的“星火認知”等。各大模型應用根據自身既有業務基礎進一步深化應用場景，呈現出差異化發展特點。

由于是產業發展早期，國內大模型產業對標ChatGPT同步發展，目前處于跟進復刻的階段，創新性總體偏弱。當國內大模型技術積累達到一定階段，不同應用定位的模型優勢將會在產業中顯現出來，呈現出差異化。

國外多數公司采用直接在基礎模型開發具備多樣性的應用，相對聚焦且貼合行業痛點，可以有效規避通用大模型的同質化。現階段通用大模型雖在同質化發展，但已顯現出垂直領域大模型在應用端的差異化創新突破。

差異化發展是大模型商業落地的主要途徑。用戶對于大模型產品的需求側重點各有不同，如需求強弱、單一或綜合功能要求等，會根據最切實的需要來適配大模型產品。同時，大模型數據分析、代碼編寫等能力對于用戶自身素質也有一定門檻。因此，大模型提供者落地的主要場景不同，角色定位各有差異。各大互聯網公司在用戶端各有固定場景，如騰訊在社交、百度在搜索、京東在購物等。

大模型要交一份“考卷”

讓大模型成為一個好用的工具，在交付用戶之前，還要通過一個考試。當前模型應用效果測評方式多樣，工具化、智能化的綜合評價體系已具備雛形。

大模型是由海量數據和算法組成的復雜系統，在訓練和推理過程中會考慮很多因素。通過大模型測評能夠更好了解模型的性能和特點，評估使用價值和意義，明確局限性和潛在風險等，公平、客觀、直觀地感知大模型真正的效果，支持用戶選擇合適的大模型。

模型測評基準是通用人工智能的基石，需要同步探索構建測試集和測試方法。國內圍繞大模型測試集，各類機構紛紛入場，如真格基金構建了大模型測試集Z-Bench；清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。依托多種評測數據集，進一步形成針對不同維度的測評方法。

由于大模型發展太快，國際上對于大模型測評目前尚無絕對標準。《麻省理工科技評論》的一個評測相對全面，從研發、商業化能力、外界態度以及發展趨勢等方面檢測大模型的全面能力。其評測使用的測試集包含600道題目，覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類，126個二級分類，290個三級標簽，并針對問題的豐富性和多樣性做了優化。

另外，國際數據公司IDC的測評，是將大模型分為三層，服務生態、產品技術以及行業應用，對每一層的能力都提供測評，主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業，以及配套服務和大模型生態等，具體包括36項細分維度的評估標準。

在醫療健康大模型評測方法演進中，谷歌和DeepMind進行了較為全面的實踐。2023年7月12日，谷歌和DeepMind的科研人員在《自然》雜志上發表了研究，通過MultiMedQA（美國醫師執照試題）評估基準，評估大語言模型在編碼臨床知識方面的表現，并詳解了谷歌醫療大模型Med-PaLM的進化過程。

國內大模型產業對標ChatGPT同步發展，目前處于跟進復刻的階段，創新性總體偏弱。圖/視覺中國

首先，構建了全新的美國醫師執照試題評估基準，專門用于評估大語言模型在編碼臨床知識方面的表現。該基準結合了六個現有醫療問答數據集（MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU），涵蓋臨床知識、醫學研究和患者問答等多個方面，以及一個全新的在線搜索醫療問題庫數據集HealthSearchQA，旨在從多方面把AI培養成一名合格的醫生。其次，依托MultiMedQA，形成基于人類評估的框架模型，包括事實、理解、推理，以及可能的偏見等多個維度。

谷歌大型語言模型PaLM（Pathways Language Model）及其變體Flan-PaLM評估顯示，Flan-PaLM在MedQA的多項選擇題上表現出色，準確率為67.6%，比之前的技術水平高出17%以上，但它對病人醫療問題的回答卻暴露出關鍵的差距。然而，經過指令提示調整產生的Med-PaLM，一組臨床醫生對其回答的評分為92.6%，與現實中臨床醫生的水平（92.9%）相當。

在上述谷歌評測中，安全性、公平性和偏見方面的評估內容尚不完全。隨著模型規模的擴大和提示詞的調整，其理解能力、知識回憶和推理能力均有所提高，顯示出醫學領域的潛在實用性。

綜合來看，較為全面的評測主要由技術能力、行業服務能力、合規及安全四個維度組成。其中，技術應包括穩定性、效率、效果等；行業服務能力應關注應用效果、成本可控、服務完整等；合規主要考慮數據、模型、應用治理能力；安全應確保大模型應用的全生命周期可控。

醫療服務嚴謹復雜，將大模型運用到臨床應用前，應通過相對完備的標準測試，對不同大模型性能和效果進行評估比較，幫助用戶選擇適合自己需求的大模型。

因此，評估標準需綜合患者、消費者、大模型研究人員、臨床醫生、社會科學家、倫理學家、政策制定者和其他利益相關方之間的共識。

可以說，標準化工作，是促進醫療健康行業大模型從“作坊式”走向“工業化”的關鍵。

誰來做主

從標準化角度看，目前，全球知名的人工智能標準化組織主要有四個，分別是ISO/IEC JTC1（國際標準化組織和國際電工委員會第一聯合技術委員會）、ISO（國際標準化組）、IEC（國際電工委員會）和ITU（國際電信聯盟）。

其中，ISO/IEC JTC1在人工智能領域的標準化工作已有20多年的歷史，并于2018年4月成立人工智能分技術委員會（SC42），圍繞基礎標準、計算方法、可信賴和社會關注等方面開展國際標準化工作；ISO與人工智能標準化研究上的工作主要集中在工業機器人、智能金融、智能駕駛三大領域；IEC主要在可穿戴設備領域開展人工智能標準化工作；從2016年起，ITU開展人工智能標準化研究，提出了人工智能和物聯網、機器學習等領域的標準化項目。

中國高度重視新一代人工智能發展，2020年7月，國家標準委、中央網信辦等五部門共同發布《國家新一代人工智能標準體系建設指南》，主要包括基礎共性、支撐技術與產品、基礎軟硬件平臺、關鍵通用技術、關鍵領域技術、產品和服務、行業應用、安全與倫理八部分。

圍繞醫療健康領域，中國信通院依托中國通信標準化協會、互聯網醫療健康產業聯盟，關注醫療健康行業大模型的總體技術框架、應用服務能力、合成服務治理及安全管理能力等四個方面，發布醫療健康行業大模型領域的系列標準，推動人工智能技術與醫療健康的深度融合。

其中，《醫療健康行業大模型應用技術要求》中“第1部分：醫院側醫療服務”、《醫療健康行業大模型應用技術要求》的“第2部分：患者側醫療服務”，這兩項標準針對門診、急診、住院等不同臨床場景中醫生、護士、患者等不同角色所進行的活動，定義醫療健康行業大模型在醫療服務應具備的功能，規范大模型的實際落地應用能力。

同時，通過規范模態支持數量，語言任務、視覺任務、語音任務、跨模態任務等不同模態的任務支持度，語言理解、文書生成、多輪主動交互等基本能力，明確醫療大模型的醫療服務的應用優勢及業務范圍，支持醫療健康服務效率及質量的提升。

此外，通過規范軟硬件、數據、算法模型、應用等方面的安全要求及易用性、穩定性、魯棒性、公平性、可解釋性、可審查性等模型服務要求，保障醫療健康信息安全及大模型的服務可靠性。

展望及發展建議

可以預見，人工智能將在醫療領域，能夠提高醫生效率，滿足更多患者需求，推動優質醫療資源擴容下沉，應對醫療資源短缺的全球共同難題。醫療大模型聚焦嚴肅且謹慎的醫療場景，對錯誤的容忍度更低，對準確性和安全性要求更高。研制并推廣大模型技術在醫療健康領域應用的相關標準，將大幅降低醫療健康大模型應用的研發門檻和創新成本，助力醫療健康行業的數字化轉型，提升醫療服務效率，讓優質醫療資源觸達更多患者群體。

大模型在醫療健康領域應用所面臨的挑戰和難題是基本一致的，業界亟須搭建良好的公共服務生態環境促進良性發展。

筆者認為，一是需要大量訓練數據和計算資源，醫療數據的獲取和處理比較困難，應用過程中應重點關注數據合規；二是大模型的結果和決策相對難以解釋和理解，涉及科技倫理治理的工作；三是大模型的安全性和隱私保護是后續規模化應用的基本前提，醫療數據涉及個人隱私和敏感信息，需采取相應的措施來保護數據安全。大模型走向應用落地時，在保障產品好用、可用、易用前提下，應契合場景的核心痛點，發展核心優勢，支持后續差異化發展。

對標準體系的建立，中國亦不能落于人后。標準體系建設貫穿醫療健康行業大模型應用的全生命周期，涉及規劃論證、科研生產、使用管理等多個部門，是復雜的系統工程，需要人工智能技術與衛生健康兩個領域傾力協作配合，相互銜接、互為補充與支撐，以期盡快建立國家標準、行業標準。

筆者建議，從國家層面，推動標準應用試點示范。也就是依托人工智能標準體系，以“優勢先行、成熟先用、應用牽引”為原則，通過重點標準的先試先行，總結提煉可借鑒、可復制、可推廣的實踐經驗，以點帶面拓展標準應用深度和廣度，持續推動大模型技術在醫療健康領域的應用，為醫療健康服務數字化轉型及智能化發展奠定基礎。

另外，重視數據資源安全防護。從技術層面看，大模型技術在醫療健康領域應用有利于提高診斷治療效率，但也存在數據泄露、模型被篡改破壞導致診療輔助決策誤判等情況，要加強對數據資源的安全防護。通過技術、標準與規范等方式排除系統遭黑客攻擊、程序被修改而導致錯誤內容輸出等的可能性。

從過往經驗看，技術跑馬快行時，要有倫理作為束縛的韁繩。大模型技術在醫療健康領域的發展尤其要注意科技倫理風險，由人工智能算法所帶來的偏見歧視、責任缺失、技術失控、隱私侵犯等倫理問題在醫療健康領域將會引發嚴重后果，要加強對醫療健康大模型的科技倫理治理工作，由產學研用各方聯合開發科技倫理治理工具，引導醫療健康大模型有序、安全發展。

（編輯：王小）