張建楠,李瑩瑩,周佳卉,朱燁琳,李蘭娟
(1.浙江數字醫療衛生技術研究院,杭州 311100;2.浙江大學醫學院附屬第一醫院,杭州 310003)
獨立醫用軟件(SaMD)是獨立于醫療設備硬件而在通用計算機上使用并直接用于一個或多個醫療目的的一類軟件[1]。隨著人工智能技術的快速發展和領域滲透,基于人工智能技術的獨立醫用軟件正在快速發展。世界范圍內已經涌現的一批人工智能獨立醫用軟件產品,包括常見的醫學影像診斷軟件及一些放射診斷器械、臨床化學檢測系統、心血管診斷和監測器械、神經病學診斷器械和眼科診斷器械等[2]。人工智能(AI)新技術賦能催生了監管部門對這類特殊產品的監管需要[3],對此美國食品藥品監督管理局(FDA)等世界AI發展領先國家監管部門和國際醫療設備監管機構論壇(IMDRF)等領域相關國際組織開展了熱烈討論并開啟了針對智能化新興醫療器械軟件的監管變革。FDA總結了此次變革歸因于AI的技術特殊性在傳統監管模式中的不兼容,不同于傳統計算機醫用軟件程序代碼完全固定可完全適應于靜態的醫療器械監管模式,AI技術以數據、算法和算力為技術特征,由數據或算法驅動的獨立醫用軟件會隨著算法和數據的變化而動態變化,加劇了產品安全性和有效性中的不確定性風險,增加了實時軟件監管和高頻變更控制需要[4]。這意味著AI獨立醫用軟件在上市后的監管包括變更控制、質量控制和安全監測將尤為關鍵。
當前,大部分國家監管機構面向AI獨立醫用軟件上市的監管制度和政策已逐步建立。2019年,美國FDA開展了基于人工智能/機器學習的醫療器械軟件(AI/ML-based SaMD)的監管框架討論以應對AI醫用獨立軟件監管[5]。FDA延用了IMDRF對SaMD制定的風險分類分級框架[6];并依照AI算法特征將相關產品對應于各自適用的510(k)、上市前審評(PMA)和 產品重新分類申請(De Novo)監管審批通道,初步制定了不同嚴格程度的上市前/后監管程序和必須遵照的監管規則。FDA從算法性質出發將人工智能獨立醫用軟件開發算法分為“鎖定”(locked)和“自適應”(adaptive),分類分級了其中的不確定性風險程度。基于“鎖定”算法,軟件算法不隨使用改變,相同輸入即得相同輸出。而基于“自適應”算法,軟件通過既定學習進程可改變軟件的根本性能表現,算法的更新及確認受其本身控制,相同輸入在軟件迭代更新前后可能會得到不同輸出結果。在FDA監管框架下,IDx-DR成為FDA批準的第一個提供糖尿病視網膜病變診斷決策的自主AI系統[7],而另30余種AI獨立醫用軟件產品均以“鎖定算法”經FDA批準上市[8]。FDA目前對于算法自適應的AI獨立醫療軟件如何監管尚未有萬全的應對方案[9]。中國國家藥品監督管理局(NMPA)對于AI獨立醫用軟件監管給出了不同的理解。NMPA定義人工智能獨立醫用軟件為基于醫療器械數據,采用人工智能技術實現其醫療用途的獨立軟件[10]。《深度學習輔助決策醫療器械軟件審批要點》從數據和算法角度入手將人工智能獨立醫用軟件分為數據驅動和算法驅動,并將算法成熟度作為風險分類分級的核心考慮因素。《人工智能醫用軟件產品分類界定指導原則》指明對于算法在醫療應用中成熟度低(指未上市或安全有效性尚未得到充分證實)的人工智能醫用軟件,若用于輔助決策,如提供病灶特征識別、病變性質判定、用藥指導、治療計劃制定等臨床診療建議,按照第三類醫療器械管理;若用于非輔助決策,如進行數據處理和測量等提供臨床參考信息,按照第二類醫療器械管理。目前NMPA批準的12個按照第三類醫療器械管理的人工智能獨立醫用軟件產品[11]依據審批要點對照FDA分類均可歸于鎖定算法。可以看出,盡管各國監管部門對于風險的具體評判標準有所不同,但對于高風險性的AI獨立醫用軟件表示擔憂,對于低風險的AI獨立醫用軟件監管持審慎態度呈現一致。
在AI獨立醫用軟件發展初期,監管者對于影響人工智能獨立醫用軟件全生命周期監管的關鍵要素仍在積極探索中,其范疇主要圍繞:①關鍵監管策略,即適應于AI/ML透明度、可解釋性差、泛化能力和魯棒性及算法自適應等特殊技術屬性的實時性強、靈活性高的監管制度或框架;②監管支撐保障,即與之相適應的質量評價和安全監管標準、強依賴的標準化數據集儲備、測試方案、技術工具等實現科學監管的支撐體系。相比相對成熟的上市前準入,本文認為隨著申請和上市產品的持續增加,如何通過監管科學積極發揮對人工智能獨立醫用軟件市場化發展的引導和監督,防范人工智能獨立醫用軟件的算法風險,積極應對準入后的AI獨立醫用軟件應用的持續監管問題更不容忽視,因為醫用軟件一直存在開發人員無法完全了解臨床環境導致錯誤和風險的問題。2018年10月至2019年5月,美國、英國、加拿大、澳大利亞、中國等公開的136例國際醫療器械嚴重不良事件導致的醫療器械召回中,由于軟件缺陷原因引起的比例占到了16.91% [12]。而這種情況在AI獨立醫用軟件不可解釋的黑盒模式下無疑將更甚。
由此,本文重點從AI/ML技術特征出發分析國內外對于AI醫療軟件監管制度建設及指南、標準和標準化支撐的建設現狀;并以上市后監管的變更控制、質量控制和安全監測為側重梳理當前監管體系下我國AI醫療軟件在上市后監管上面臨的問題,并提出了相關措施建議,以期為進一步完善我國AI獨立醫用軟件全生命周期管理提供參考。
AI獨立醫用軟件監管制度是實施監管的根本依據。美國、歐盟、日本、中國等已初步建立了AI獨立醫用軟件監管制度。以FDA為代表,監管機構面向AI/ML技術影響下關鍵的上市后算法變更、質量控制和安全監測問題提出了概要性的解決策略或方案。
對于上市后AI醫用軟件的算法變更問題,美國FDA《基于AI/ML的醫療器械軟件的監管框架更改協議》(討論稿)提出了一種將變更控制前置的方案,以保障上市后AI獨立醫用軟件迭代時算法可控。FDA通過變更控制計劃中的獨立醫用軟件預先性能說明(SaMD Pre-Specifications)和算法更改協議(Algorithm Change Protocol)框定軟件規格的潛在變化區域和預期更改描述;并通過新的產品全生命周期監管方法(TPLC)確保產品能夠遵循算法更改協議按照預先指定的性能目標實施算法更改[13]。與之類似,日本PMDA于2019年12月更新的《藥品和醫療器械法》(PMD Act)面向算法的快速迭代提供了上市后使用AI持續改進SaMD性能的審批審核流程[14],并規定性能必須是單向改進,由上市許可持有人(MAH)進行管理。MAH可開發一種程序以確保“改進過程”并在上市前審批審核流程中提交。
對于上市后質量控制監管,各國針對透明性、可解釋性、可信賴性等算法模型的質量評價方案仍處于探索階段,質量監管將通過新的質量評價體系/系統實現。
2021年1月,FDA器械和放射健康中心(CDRH)內設的獨立部門數字健康卓越中心發布了《基于人工智能/機器學習的軟件醫療設備行動計劃》,提出了5項研究要點用以探索保證人工智能獨立醫用軟件的安全性和有效性監測的實現路徑(見表1)[15]。歐盟在2021年5月生效的《2017/745歐盟醫療器械法規》(下稱新法規)中側重強化了制造商的上市后義務,要求制造商重新評估當前的質量管理和文檔編制戰略,并建立包括質量管理體系(QMS)和技術文檔售后監督程序等在內的全面流程。我國針對AI獨立醫用軟件監管部分延用傳統監管模式,經由質量管理系統、臨床表現和評估等進行質量監管。NMPA于2019年制定并發布了《醫療器械生產質量管理規范附錄獨立軟件》,從獨立軟件、軟件組件生產管理、質量控制、不良事件監測分析等8個方面提出要求。此外,2021年3月,國家藥監局正式發布的修訂后的《醫療器械監督管理條例》(以下簡稱新條例)在較大范圍內強化了醫療器械的上市后監管力度。新條例提出要強化醫療器械注冊人、備案人應當履行的義務:要求建立與產品相適應的質量管理體系并保持有效運行;制定上市后研究和風險管控計劃并保證有效實施。

表1 FDA基于AI/ML軟件醫療設備行動計劃概要
對于上市后安全監管,基于不良事件報告系統以及產品召回制度是上市后監管的主流應對機制。此外,提升產品上市后追溯能力是另一個可幫助及時獲取AI獨立醫用軟件產品安全相關信息及解決AI引起的不良事件定責問題的可行解決方案。歐盟實行了統一的身份識別系統(UDI)計劃,將優先支持醫療設備軟件(MDSW)的UDI獲取;針對新引入IIa級別以上產品,要求制造商提供上市后臨床跟蹤調研評估報告(PMCF)作為定期安全更新報告(PSUR)的一部分。FDA的上市后監管策略包括基于真實世界數據的追溯和安全監測,該方案作為試點計劃正在探索當中[14]。我國國家藥監局組織于2020年11月制定發布的《真實世界數據用于醫療器械臨床評價技術指導原則(試行)》同樣提出利用真實世界數據進行上市后臨床評價和不良事件監測。此外,新條例明確了增設產品唯一標識追溯、延伸檢查等監管措施。通過基于唯一標識符的追溯體系建立和不良事件監測系統實現上市后的安全監管。
AI獨立醫用軟件相關指南或標準是進行AI獨立醫用軟件科學監管的重要支撐。美國FDA與國際標準化組織(ISO)、國際電工委員會(IEC)、電氣與電子工程師協會(IEEE)等國際標準化組織建立了廣泛合作,正積極參與面向人工智能獨立醫用軟件的國際標準制訂。同時,FDA還與美國醫療儀器促進協會(AAMI)、英國標準協會(BSI)等機構合作開發關于醫學人工智能術語和分類的方案、醫學人工智能認證過程的方案。國際電信聯盟(ITU)和世界衛生組織(WHO)于2018年7月聯合成立健康醫療人工智能焦點組(FG-AI4H)正在創建健康評估指南,涵蓋AI獨立醫用軟件健康倫理、監管法規、需求規范、軟件生命周期規范、數據規范、測試實踐規范、評估規范、示范應用、應用和平臺的通用要求和針對各類醫學應用的專用要求[16]。國際標準化組織ISO已發布部分AI獨立醫用軟件適用的可參考標準,如健康信息學—機器學習技術在成像和其他醫療應用中的應用(ISO/TR 24291: 2021),機器系統的狀態監測和診斷—數據處理、通信和展示(ISO 13374-4: 2015),健康軟件和健康IT系統安全、有效性和保障—第1部分:原則和概念(ISO 81001-1: 2021)等。另外,安全、有效和可靠的健康軟件和健康IT系統—鑒證案例應用指南 ISO/AWI TS 6337,健康軟件—第 2 部分:健康和保健應用—質量和可靠性(ISO/PRF TS 82304-2)等質量和安全評價相關標準正在開發中。
國內AI獨立醫用軟件標準建設正處于初始階段。藥監局醫療器械技術審評中心(CMDE)為促進AI獨立醫用軟件標準化發展發布了兩項指南:一是《深度學習輔助決策醫療器械軟件審批要點》,從適用范圍、審批關注要點、軟件更新、相關技術考量、注冊申報資料說明五個部分進一步明確產品審批細則。二是《肺炎CT影像輔助分診與評估軟件審評要點(試行)》,結合新冠肺炎國情通過綠色通道和適當的程序寬松進一步推動肺炎相關SaMD軟件的審評審批。中國檢驗檢疫科學研究院牽頭成立的人工智能醫療器械工作組(AIMDWG)立項了安全有效性評價術語標準IEEE P2802、數據集質控標準IEEE P2801。另外,人工智能醫療器械標準化技術歸口單位根據《醫療器械標準管理辦法》初步構建了我國人工智能醫療器械標準體系,具體分為基礎標準、管理標準、方法標準和產品標準。基礎標準主要面向行業基礎共性問題,對人工智能醫療器械的術語、分類、編碼、數據質量、數據標注、數據集等進行規范。其中,《人工智能醫療器械質量要求與評價 第1部分:術語》和《人工智能醫療器械質量要求與評價 第2部分:數據集通用要求》處于起草階段。面向人工智能生產質量管理面臨的特殊問題,包括風險管理、算法開發、基礎設施管理、產品迭代變更管理、人員管理等方面的管理標準處于申報立項階段。方法標準主要面向產品、組件的質量評價需求,包括產品/系統性能評價方法、產品變更評價方法、安全測試方法等方面,也涉及測試工具評價、標注工具評價等內容。目前,人工智能醫療器械創新合作平臺發布《基于眼底彩照的糖尿病視網膜病變輔助決策產品性能指標和測試方法》和《基于胸部 CT 的肺結節影像輔助決策產品性能指標和測試方法》兩項技術文件。在產品標準方面,根據產品上市數量與監管需求,目前冠狀動脈CT血流分析、神經系統影像輔助診斷等方向已形成草案初稿。
為系統提升AI獨立醫用軟件產品質量評價能力,一些國家和地區正在積極推動標準化數據集、測試用例、測試方法、工具、指標、平臺等關鍵監管支撐的研究。例如,國際電信聯盟ITU和世界衛生組織WHO于2018年7月聯合成立健康醫療人工智能焦點組(FG-AI4H),目標創建在線基準測試平臺和協助注釋或數據收集等相關工具的開源軟件包。平臺將收集形成可以驗證人工智能模型的未公開的測試數據集,建立人工智能金標準數據集[6]。歐盟集合21國啟動了AI4EU項目,希望實現數據集、算法、技術工具等技術資源的共享與整合。項目通過網站www.ai4europe.eu已提供臨床用例等數據集、支持以增強圖像的形式創建解釋的解釋器ABELE等共享資源[17]。中國食品藥品檢定研究院在2020年7月啟動了《醫學人工智能產品全生命周期檢測平臺研發與應用示范》項目,為包括上市前驗證確認、上市后監管、臨床在用質控、產品變更評價等監管環節提供技術服務[18]。項目在數據接口、軟件界面、體系架構、測試方法等方面已取得初步進展,以醫學數字成像和通信(DICOM)格式的醫學影像應用為切入點,開發和整合數據上傳、統計分析、數據標注、測試集抽取等主要模塊,聯通數據、算法和算力。人工智能醫療器械創新合作平臺已初步建立醫療人工智能測評公共服務平臺,一期建立糖尿病視網膜病變常規眼底彩色照相Al標準數據庫。
AI獨立醫用軟件在上市后具有算法頻繁變更、算法模型不可解釋等固有屬性,較傳統監管模式實時性和靈活性要求更高。依據AI/ML靈活的算法變更方式,上市后的監管顯然值得引起更大重視。一方面,對于已準入產品的上市后算法追溯和實時監測實際仍存在挑戰,目前國內還未建立成熟的直接應對機制。另一方面,基于現階段FDA、NMPA等監管框架仍無法真正應對自適應算法驅動型AI獨立醫用軟件的監管,因為人們無法清楚解釋黑盒算法更新前后的機制和原理,這種固有高風險因素無法被醫務人員所接受。盡管當前有一種基于深度泰勒分解(DTD)的解釋方法Layer-wise Relevance Propagation可以識別出哪些輸入數據(特征)對算法起決定性作用[19],但其僅面向數據驅動的AI獨立醫用軟件在可解釋性問題上可能有效,且需進一步考察其在醫療領域內的真實世界表現。面向AI獨立醫用軟件算法可解釋性問題是國內外監管科學共同面臨的短板。針對AI醫療領域的算法模型解釋器的研究與開發難度較大,國內還未見成熟成果。
我國大多AI獨立醫用軟件標準處于在研階段,受標準研制周期和其他不確定性因素干擾影響,標準缺乏問題嚴重。我國的AI獨立醫療設備軟件在監管支撐上仍缺乏明確統一、全面細致的上市后評估/評審標準,評審/審批細則的缺乏影響監管工作的快速、準確落實。當前,我國面向AI獨立醫用軟件產品技術性能、應用效果等的評估體系仍未建立,僅部分學者在研究層面提出了醫療人工智能產品應用效果的評估框架[20],面向AI獨立醫用軟件的技術安全規范標準和質量評價體系尚未建立。
在高質量數據層面,上市后的監管缺乏大型數據集支撐。在面向新出現的AI獨立醫療設備軟件時無法訪問足夠的測試數據是預測算法模型性能的一個主要限制因素。大型的標準數據集、測試集、驗證集對上市后AI獨立醫用軟件的迭代和驗證至關重要。但當前AI醫療領域的金標準數據集嚴重缺乏,無法提供參照。一方面,由于訪問健康數據受法律和隱私保護約束較大以及信息化水平和互聯互通影響,當前我國大型標準測試數據集缺乏嚴重,造成上市后臨床評估困難等監管制約。另一方面,盡管AI獨立醫用軟件在其模型準確性方面多做相關報道,但在真實臨床環境中的應用評價數據目前仍顯匱乏,包括臨床有效性、成本效益和安全性評估方面的數據等。上市后軟件的真實世界數據難以收集和利用,造成軟件迭代監管難以真正落地,大大增加AI獨立醫用軟件使用的潛在風險。這對基于自適應算法的AI獨立醫用軟件的發展尤為不利。
建議面向AI獨立醫用軟件全生命周期監管引入“監管沙盒”機制,系統性完善AI獨立醫用軟件監管體系。加快完善AI獨立醫用軟件上市后監管機制,加強上市后產品預期應用場景規制和應用效果評估及基于真實世界數據的“不良反應”監測預警研究,建立面向高風險AI獨立醫用軟件的危險預警機制。基于《深度學習輔助決策醫療器械軟件審批要點》等建立前瞻性的AI獨立醫用軟件監管框架,吸納AI系統技術下可預見的其他技術分支,在全生命周期監管流程、質量監管體系、臨床評價/試驗、上市后追溯和再審查機制中建立廣泛適用的安全性和有效性監管機制。
建議基于人工智能醫療器械標準體系框架加快推進AI獨立醫用軟件國家標準和行業標準制定,并適當引入或轉化面向AI獨立醫用軟件質量、安全、管理等國際標準。在國際社會建立AI獨立醫用軟件標準體系建設協作機制,開展AI獨立醫用軟件標準在國際國內的協同建設,促進AI獨立醫用軟件在世界范圍內的統一建設并制定醫療AI全球標準化監測計劃。
在數據支撐上加快推進基于真實世界數據的AI獨立醫用軟件研究。面向數據驅動型AI獨立醫用軟件,加快功能化、標準化測試數據集集群建設。深化基于真實世界數據的AI獨立醫用軟件上市后監測研究,從試驗設計、臨床表現、工作流程、數據管理等方面的數據需求出發,加快真實世界數據采集和分析研究工具系統和數據互聯互通建設。面向算法驅動型AI獨立醫用軟件,探索開發適應于基于自適應算法的AI獨立醫用軟件的全生命周期監察評估系統,通過實時監測自適應算法跟蹤性能等建立AI獨立醫用軟件上市后的安全可控機制,利用數字化、可視化手段強化“算法追蹤”的可及性。