人工智能醫療器械質量評價測試集樣本量分析

2021-09-03 10:43:36孟祥峰王浩李佳戈

中國醫療設備 2021年8期

孟祥峰，王浩，李佳戈

中國食品藥品檢定研究院光機電室，北京 100050

引言

隨著人工智能技術的發展，人工智能醫療器械得到了飛速的發展，目前在國內外已有多種類型及用途的人工智能醫療器械上市，種類及數量呈上升趨勢。2018年4月11日，美國FDA批準了IDx公司IDx-DR糖尿病視網膜病篩查軟件，這是美國FDA批準的第一款采用新一代人工智能技術的糖網篩查軟件產品。隨后在輔助診斷、輔助篩查等諸多領域，基于影像、信號、文本等多種數據模態的產品出現[1-3]。2020年8月10日，我國兩款糖尿病視網膜病變眼底圖像輔助診斷軟件產品獲批上市[4]；2020年11月，又有兩款肺結節CT影像輔助檢測軟件獲批上市。

我國人工智能醫療器械產品功能不斷增加、快速迭代，目前還有多個產品處于注冊臨床試驗狀態，不久以后將迎來人工智能產品上市的爆發期。大量產品的上市，將給市場監管帶來壓力。目前對于人工智能醫療器械的評價方法已經有相關機構展開了研究[5-13]，《人工智能醫療器械質量要求和評價第1部分：術語》《人工智能醫療器械質量要求和評價第2部分：數據集通用要求》兩項標準已完成審定[14]，即將發布。

人工智能醫療器械在特定訓練集訓練或測試時，會得到較好的效果，然而在新的數據集上的表現很難保證，即說明其泛化能力差，魯棒性能有待提高。目前對其性能指標的評價主要通過利用產品在封閉測試集上的表現進行，因此封閉測試集的樣本量及樣本構成必須進行合理的設計。本文對數據集的樣本量進行分析，在一定的樣品構成情況下（對應特定應用場景），分析國內已上市輔助診斷產品對于測試集樣本量的需求，在滿足測試的條件下，節約社會資源，以小樣本達到性能準確評價的目的。

1 試驗設計

建立一個測試集，需嚴格控制各類偏倚，設計標注流程，投入很大的人力物力，在人工智能產品不斷多樣化、模態與病種不斷聚合的情況下，為快速、有效地實現產品驗證，首先需考慮資源問題。人工智能醫療器械測試集樣本量的估計是基于主要評價指標的相應假設進行的，樣本量的大小和構成應與產品預期要應用的目標群體匹配，測試集樣本應能很好地代表目標人群參數。適合的樣本量可有助于研究者用合理的資源發現有意義的性能差異；過少的樣本量難以準確地發現測試的科學問題；而過多的樣本量會造成資源的浪費[15-18]。

以診斷試驗為例，在臨床評價試驗中，其評價指標為靈敏度和特異度，可用靈敏度或特異度計算總體的樣本量[19]。

為保證靈敏度的抽樣誤差不大于允差，樣本量應不低于式(1)的計算結果。

為保證特異度的抽樣誤差不大于允差，樣本量應不低于式(2)的計算結果。

本文測試采用回顧性數據對產品進行性能驗證，參考臨床評價試驗中的樣本量計算方案，觀測該方法樣本量估算是否滿足測試需求。

1.1 試驗1：糖尿病視網膜病變眼底圖像輔助診斷軟件測試

根據衛健委和中華醫學會的統計，我國糖尿病視網膜病變在糖尿病患者人群中的發病率約為25%[20]，以此作為數據庫的患病率，假設產品預期靈敏度和特異度為90%，置信區間95%，允許誤差5%，因此根據公式，二者的最大值是單次測試樣本數量的最低要求。對于糖尿病視網膜病變眼底圖像輔助診斷軟件，以靈敏度計算測試集樣本量，樣本最低數量為554例，以特異度計算測試集樣本量，樣本最低數量為185例。

選取某一糖尿病視網膜病變眼底圖像輔助診斷軟件，在特定陰陽性比例情況下，采用分層隨機抽樣，陰陽性比例保持不變，設置18個不同樣本量，見表1，分別進行靈敏度、特異度測試，并對結果進行波動分析。

表1 糖尿病視網膜病變眼底圖像輔助診斷軟件不同樣本量設置

1.2 試驗2：肺部CT影像輔助診斷軟件測試

肺癌的早期診斷和早期治療是提高患者生存率、降低醫療負擔的關鍵。近年來，我國人工智能在肺結節檢測上是研究的熱點。但肺結節不一定意味著是腫瘤，此外肺結節的發病率目前沒有具體的流行病學統計，如果以結節為單位估算召回率和精確度，按照式(1)和式(2)較難進行樣本量估算。本文從實際檢測角度出發，對肺部CT影像輔助診斷軟件的測試樣本量進行估計和推測。

本文對某兩個肺部CT影像輔助診斷軟件，在測試集中（每個病例平均結節個數為10個）按照病例隨機抽樣，設置14個不同樣本量（表2），分別進行召回率、精確度測試，并對結果進行波動分析。

表2 肺部CT影像輔助診斷軟件不同樣本量設置

2 試驗結果

2.1 試驗1測試結果

糖尿病視網膜病變眼底圖像輔助診斷軟件在不同樣本量下靈敏度和特異度的測試結果如圖1所示。波動值的計算公式為式(3)，靈敏度的波動度為11%，506例及以后的波動度為0.6%，633例及以后的波動度為0.4%；特異度波動度為2.6%，506例及以后的波動度為1.5%，633例及以后的波動度為0.6%。

圖1 糖尿病視網膜病變眼底圖像輔助診斷軟件測試結果

式中，Pmax為測量結果最大值；Pmin為測量結果最小值；P為測量過過平均值；S為波動度。

2.2 試驗2測試結果

肺部CT影像輔助診斷軟件兩個樣品在不同樣本量下召回率和精確度的測試結果如圖2～3所示。樣品1召回率的波動度為10.9%，精確度的波動為6.1%；400例（3942個結節）及以后召回率的波動度為1.5%，精確度的波動為0.7%；450例（4635個結節）及以后召回率的波動度為0.8%，精確度的波動為0.4%。樣品2召回率的波動度為5.5%，精確度的波動為2.4%；300例（2940個結節）及以后召回率的波動度為0.6%，精確度的波動為1.1%；350例（3625個結節）及以后召回率的波動度為0.5%，精確度的波動為0.9%。

圖2 樣品1測試結果

圖3 樣品2測試結果

2.3 試驗結果分析

從圖1～3可知，隨著樣本量的增加，被測參數的波動不斷減小，當樣本量達到一定數量時，被測參數的波動趨于穩定，說明在測試過程中找到這個拐點即可保證統計結果準確性，也可不必追求更高數量的測試集。如果假設1%的波動能夠滿足測試要求，那么對于糖尿病視網膜病變眼底圖像輔助診斷軟件，本文試驗能夠同時滿足靈敏度和特異度的最低限為633例。測量結果與理論計算值相近。即說明對于人工智能產品基于回顧性樣本的測試集測試，其樣本量的估算可按照本文式(1)～(2)的方法進行估計。

對于肺部CT影像輔助診斷軟件，如果假設1%的波動能夠滿足測試要求，那么樣品1的樣本量為450例（4635個結節），樣品2為350例（3625個結節）。二者結果的差異也體現了產品性能的差異，從圖2～3可知，樣品2整體波動量比樣品1低了2倍，樣品2的性能要優于樣品1。造成差異的原因可能是產品的魯棒性能和泛化能力對結果的影響，產品抽樣更細分的構成如結節尺寸、結節類型、數據質量等，這些都會對測試結果帶來影響，因此在實際評價中也應考慮測試集中各種維度抽樣帶來的統計偏倚。產品的魯棒性能、泛化能力越強，對于測試集數量的依賴程度越低。采用測試集對人工智能的評價是一種統計的評價方式，應該在測試集數量的選取上考慮實際應用場景，以預計測試指標和發病率等情況為基礎進行估計。

3 討論

本文通過對糖尿病視網膜病變眼底圖像輔助診斷軟件及肺部CT影像輔助診斷軟件兩類產品性能評價的試驗，測算其測試集樣本量。考慮實際抽樣的偏差，以本實驗＜1%的波動推算，抽樣數量以百位向前取整，推薦糖尿病視網膜病變眼底圖像輔助診斷軟件的測試集樣本量不低于700例，肺部CT影像輔助診斷軟件的測試集樣本量不低于500例（5300個結節）。

目前對于人工智能醫療器械的功能越來越多，應用場景也不盡相同。因此需要組建各類測試集對產品質量進行檢測。測試集區別于訓練集，測試集更突出對于檢測結果的客觀性、代表性和權威性，因此它的建設需要投入大量的人力、物力等社會資源?，F有的方法多建議選取大量的數據作為測試集，以保證評估結果有統計學意義，但是針對應用場景不定，無流行病學統計的病種，大量數據的樣本量是多少很難把握。本文通過理論計算和試驗驗證相結合的方法，給出了目前兩類已取得醫療器械注冊證產品的測試集樣本量，這將有利于指導企業自檢或第三方檢驗機構檢測對于測試集樣本量的構成，而不必追求大樣本量進行測試，節約社會資源。

4 結論

人工智能輔助診斷軟件樣本量的估算方法可參考臨床評價診斷試驗的樣本量估算方法。在沒有流行病學統計的情況下，可根據產品的預期用途、應用場景進行發病率的推測，來估計樣本量。但人工智能醫療器械的模態已經從影像擴展到信號、文本，甚至是多模態，適用病種也包含多種，按照上述方法確定樣本量依然是個難題，需進一步研究。本文通過理論計算和實際驗證的方式，給出目前已上市的兩類人工智能輔助診斷產品的測試集樣本量估計，為人工智能醫療器械的測試集樣本量的研究提供了研究基礎，具有實際應用價值。