雷芳,杜亮,2,3,4,董敏,劉雪梅*
1.610041 四川省成都市,四川大學華西醫院華西醫學期刊出版社
2.610041 四川省成都市,四川大學華西醫院華西人工智能醫療器械臨床試驗中心
3.610041 四川省成都市,四川大學華西醫院醫療器械監管研究與評價中心
4.610041 四川省成都市,四川大學華西醫院中國循證醫學中心
近十年來,為提高醫療服務質量和效率,人工智能(AI)已廣泛應用于臨床診斷、篩查等方面[1-5]。盡管有研究指出在臨床前的計算機模擬研究中一些基于AI的算法準確性與臨床專家相似[6],但基于AI的臨床決策支持系統在臨床決策中的應用受到復雜的人為和環境因素影響,從算法到臨床應用需要經過多個階段的評估,包括計算機模擬試驗、早期臨床評估和臨床隨機對照試驗等[7-8]。基于AI的臨床決策支持系統的早期臨床評估目的是,在大型臨床隨機對照試驗前,于臨床應用場景中對基于AI的臨床決策支持系統的臨床性能、安全性和人為因素等進行驗證,為以后的大規模臨床試驗奠定基礎。因此,基于AI的臨床決策支持系統的早期臨床評估十分重要。
臨床研究報告的透明化有助于提高臨床試驗的可靠性和結果的可重復性。此外,從倫理學角度來講,基于AI的臨床決策的透明性和可解釋性也是相當重要的[9]。目前,AI相關的臨床研究報告的透明度和完整性尚待提高。有系統評價研究指出,AI相關的臨床研究報告缺乏透明性,甚至有些研究本身也存在較大缺陷,如未報告數據預處理信息、偏倚風險等,也有研究未評估模型適用性或未經外部驗證[10]。AI相關的臨床研究報告規范可幫助研究者提高報告的完整性和透明度。2022年5月,基于AI的臨床決策支持系統早期臨床評估報告指南(DECIDE-AI)[11]正式在線發表。DECIDE-AI主要針對早期臨床評估,該研究階段類似于藥物開發的第1/2階段,或外科創新技術/器械臨床研究設計、開發、評價、長期隨訪(IDEAL)框架的第2a/2b階段[12]。DECIDE-AI共包含27個報告條目,其中AI相關報告條目17個(共28個子條目)、通用報告條目10個。DECIDE-AI主要關注臨床可用性、安全性和人為因素,因此其對臨床試驗評估環境、實施過程、人為因素等均提出了具體要求。
為推動我國基于AI的臨床決策支持系統早期臨床研究及其報告的規范化和透明化,本文將結合DECIDE-AI中的AI相關報告條目及相關文獻,從基于AI的臨床決策支持系統的預期用途、研究過程、倫理和數據共享幾個方面探討基于AI的臨床決策支持系統早期臨床評估的透明化報告,以促進報告規范的理解與應用,提高基于AI的臨床決策支持系統早期臨床評估報告的透明度。
基于AI的臨床決策支持系統的早期臨床研究報告需要對系統的目標用戶、臨床應用場景和預期效果進行適當描述。基于AI的臨床決策支持系統融合了多種跨學科知識和技術,對用戶有一定的要求,包括專業、培訓水平、計算機技術等;此外,對于基于AI的臨床決策支持系統的臨床應用場景和預期效果的描述,包括其適用范圍、可能給現有臨床路徑帶來的改變和影響等,不僅有利于增加臨床醫生或患者對基于AI的臨床決策支持系統的了解,提高其對基于AI的臨床決策支持系統的信任和滿意度,也可促進基于AI的臨床決策支持系統的傳播和應用。
盡管行業協會或組織均發布政策,要求在衛生保健和研究領域開發AI項目時保持透明性,但由于其固有的復雜性,AI項目仍缺乏透明性,包括算法缺乏可解釋性、所有階段數據不夠透明、數據偏見以及模型版本化不夠透明等。AI項目的透明性對各利益相關方均意義重大,包括研發者、使用者、審批和監管機構等。下面主要從參與者、基于AI的臨床決策支持系統、實施、安全和故障、人為因素5個方面對研究過程透明化報告進行闡述。
AI診斷工具相關的Meta分析顯示,大部分研究存在較高的患者選擇偏倚風險[13-14]。患者選擇偏倚不僅影響AI診斷模型的推廣,更重要的是,可能會產生系統錯誤,即輸出錯誤的結果。因此,應加強患者招募過程的透明化報告,從患者和數據層面報告納入與排除標準,以及患者招募數量的確定方法。基于AI的臨床決策支持系統的參與者除患者以外,還包括用戶,用戶與基于AI的臨床決策支持系統之間的交互也將對系統性能和研究結果產生影響,因此不僅需要報告用戶的招募過程以及納入與排除標準,還需要描述用戶熟悉基于AI的臨床決策支持系統使用所需時間和工作量,但DECIDE-AI不推薦從數據層面排除用戶。此外,研究者也可在臨床試驗注冊平臺進行預注冊,這是提高臨床研究過程透明化的重要途徑,同時這也符合《赫爾辛基宣言》、WHO和國際醫學雜志編輯委員會對臨床試驗注冊的要求。
基于AI的臨床決策支持系統可能會經歷多次迭代和更新。有研究表明,與決策支持過程相匹配的算法可在一定程度上減少系統的固有偏倚[15]。除了算法,基于AI的臨床決策支持系統的另一大核心便是數據,大多數基于AI的臨床決策支持系統需要大型數據集來進行訓練和驗證,因此數據的獲取、輸入以及處理均在一定程度上決定了基于AI的臨床決策支持系統的性能[15-16]。基于AI的臨床決策支持系統輸出方面,輸出內容和呈現方式一定程度上影響了用戶對系統的使用和接受度[17],而良好的人機交互建立在合理的用戶界面設計基礎上。為此,研究者在研究設計和撰寫研究報告時,均應仔細考慮并描述算法類型和版本、輸入數據相關信息以及輸出內容和交互界面設計等。
在實施方面,與AI臨床試驗報告統一標準(CONSORT-AI)和AI臨床試驗方案報告指南(SPIRIT-AI)不同,DECIDE-AI除了要求報告基于AI的臨床決策支持系統的輸出如何應用到臨床決策外,還要求清楚描述評估環境,如醫療中心的類型和規模、軟硬件支持等。這些環境因素可能會影響數據的獲取或測量,進一步影響輸出結果。研究者還需要報告最終的臨床決策是如何形成的、用戶使用系統情況及對現有診療和護理流程的重要改變,這可能在一定程度上反映了基于AI的臨床決策支持系統的可用性和臨床實用性。
安全問題是醫學AI項目的首要問題,其涉及各種法律和倫理問題[18],并貫穿整個臨床研究和實踐過程。因此,在大型臨床研究前,對基于AI的臨床決策支持系統進行安全評估尤為重要,可避免造成災難性后果。當然,在使用基于AI的臨床決策支持系統的過程中,安全風險或故障不僅涉及系統本身,軟硬件支持和用戶使用情況也可能會產生錯誤。如何識別這些故障、如何評估患者安全風險、如何最小化患者傷害,均需要研究者提前制定好相應的安全風險預案,并詳細報告。
人為因素的評估主要圍繞用戶的使用情況,即可用性。可用性是指一個產品可以被指定用戶使用,并在指定使用情景中有效地、有效率地、滿意地達到指定目標的程度[19],這直接影響了用戶對系統的接受度。研究者可采用量表、問卷調查等方式,從滿意度、完成任務的效率和工作量等方面進行評估。如廣泛用于系統可用性研究的系統可用性量表(SUS)[20]可快速評估可用性,該量表包含10個條目,每個條目的得分為0~4分。另外,也可采用凈推薦值(NPS)[21],即用一個簡單的問題來評估用戶的滿意度。事實上,生活中類似的NPS調查也很常見,如“你向朋友推薦XX產品的可能性有多大?”或“你會向你的朋友推薦XX產品嗎?”。關于如何選擇恰當的方法,可以參考相關指導文件[22]。
DECIDE-AI指出,報告中需要對結果是否支持基于AI的臨床決策支持系統的預期用途、安全提示進行充分闡述,這充分體現了早期臨床評估的目標,即臨床應用性和安全性。在臨床應用性方面,研究者應根據研究結果客觀描述系統的臨床表現,避免夸大其應用潛能,這將對后期是否繼續優化和完善基于AI的臨床決策支持系統以及是否進一步進行臨床驗證提供重要的證據支持,避免不必要的人力、物力和財力的浪費。對系統安全性的討論可促進基于AI的臨床決策支持系統優化,并增強用戶或患者對系統的信任。
基于AI的臨床決策支持系統在促進醫療服務質量提升和生產力提高的同時也帶來了一系列倫理挑戰,比如患者的數據隱私、系統的準確性、算法偏見等。盡管在醫療AI項目中,醫療保健數據集通常在開發人員使用前被去識別化,但軟件也有可能通過與其他數據之間的交叉引用來重新識別底層個體。2022年3月,發布的我國首個國家層面的科技倫理治理指導性文件《關于加強科技倫理治理的意見》提出,科技倫理是開展科學研究、技術開發等科技活動需要遵循的價值理念和行為規范,是促進科技事業健康發展的重要保障[23]。2023年2月由國家衛生健康委、教育部、科技部和國家中醫藥局聯合發布的《涉及人的生命科學和醫學研究倫理審查辦法》強調了倫理審查的重要性,并指出“涉及人的生命科學和醫學研究應當尊重研究參與者,遵循有益、不傷害、公正的原則,保護隱私權及個人信息”[24]。在基于AI的臨床決策支持系統的開發和應用中需要始終堅持“倫理先于技術”的原則,必要時可采用適當的技術方法或倫理學方法以降低相關倫理風險,如隱私計算技術可使數據“可用而不可見”,避免隱私數據泄露。AI相關的倫理內容與傳統醫學倫理并不完全一致,因此應當加強AI相關醫學倫理的宣傳與審查。學術期刊作為研究結果的重要傳播平臺,應發揮好宣傳與審查作用。然而,根據本課題組的調查,目前鮮見醫學期刊更新投稿指南或作者須知并補充AI相關的醫學倫理要求[25]。
如前所述,算法和數據是基于AI的臨床決策支持系統的兩大核心,分享相關數據一方面可供讀者驗證研究結果,另一方面也可促進交流、完善算法代碼,同時這也符合透明化和可重復性原則。數據獲取是驗證和共享AI產生的科學知識的方式。數據共享不僅是為了促進科學發展,同時也是為了提高科學的嚴謹性。由于AI研究與代碼和數據密不可分,因此應該更加強調代碼和數據共享,深化AI相關臨床試驗的價值,預防錯誤、欺詐或偏倚。因此,除了聲明利益沖突外,研究者還應該聲明相關數據和代碼是否可獲取以及如何獲取。隨著開放科學時代的到來,數據共享將變得越來越重要。
隨著AI在醫學領域的廣泛應用,為增加研究報告的完整性和透明性,相應的報告規范(指南)不斷地被開發出來。DECIDE-AI為基于AI的臨床決策支持系統的研究報告提供了一個框架,以幫助開發人員和研究者報告開發、實施和評估過程中的關鍵信息,該指南主要關注了早期臨床評估的3個方面:小規模臨床使用的臨床實用性、安全性和人為因素。為進一步促進DECIDE-AI的傳播,加強相關研究報告的規范性、完整性和透明性,同時為研究者在研究設計、方案制定和研究注冊過程中提供參考標準,建議學術期刊將DECIDE-AI納入稿約或作者須知。但由于基于AI的臨床決策支持系統在臨床應用中可能面臨多種多樣的問題和挑戰,因此研究者在運用該指南時,需要根據實際情況進行調整和改進。
作者貢獻:雷芳負責論文的構思與設計、初稿撰寫;杜亮負責論文修訂、質量控制及審校;董敏負責資料收集與整理、論文修改;劉雪梅負責論文設計與修改,對文章整體負責。
本文無利益沖突。