999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能醫療器械質量評價測試集樣本量分析

2021-09-03 10:43:36孟祥峰王浩李佳戈
中國醫療設備 2021年8期
關鍵詞:人工智能評價

孟祥峰,王浩,李佳戈

中國食品藥品檢定研究院 光機電室,北京 100050

引言

隨著人工智能技術的發展,人工智能醫療器械得到了飛速的發展,目前在國內外已有多種類型及用途的人工智能醫療器械上市,種類及數量呈上升趨勢。2018年4月11日,美國FDA批準了IDx公司IDx-DR糖尿病視網膜病篩查軟件,這是美國FDA批準的第一款采用新一代人工智能技術的糖網篩查軟件產品。隨后在輔助診斷、輔助篩查等諸多領域,基于影像、信號、文本等多種數據模態的產品出現[1-3]。2020年8月10日,我國兩款糖尿病視網膜病變眼底圖像輔助診斷軟件產品獲批上市[4];2020年11月,又有兩款肺結節CT影像輔助檢測軟件獲批上市。

我國人工智能醫療器械產品功能不斷增加、快速迭代,目前還有多個產品處于注冊臨床試驗狀態,不久以后將迎來人工智能產品上市的爆發期。大量產品的上市,將給市場監管帶來壓力。目前對于人工智能醫療器械的評價方法已經有相關機構展開了研究[5-13],《人工智能醫療器械質量要求和評價 第1部分:術語》《人工智能醫療器械質量要求和評價 第2部分:數據集通用要求》兩項標準已完成審定[14],即將發布。

人工智能醫療器械在特定訓練集訓練或測試時,會得到較好的效果,然而在新的數據集上的表現很難保證,即說明其泛化能力差,魯棒性能有待提高。目前對其性能指標的評價主要通過利用產品在封閉測試集上的表現進行,因此封閉測試集的樣本量及樣本構成必須進行合理的設計。本文對數據集的樣本量進行分析,在一定的樣品構成情況下(對應特定應用場景),分析國內已上市輔助診斷產品對于測試集樣本量的需求,在滿足測試的條件下,節約社會資源,以小樣本達到性能準確評價的目的。

1 試驗設計

建立一個測試集,需嚴格控制各類偏倚,設計標注流程,投入很大的人力物力,在人工智能產品不斷多樣化、模態與病種不斷聚合的情況下,為快速、有效地實現產品驗證,首先需考慮資源問題。人工智能醫療器械測試集樣本量的估計是基于主要評價指標的相應假設進行的,樣本量的大小和構成應與產品預期要應用的目標群體匹配,測試集樣本應能很好地代表目標人群參數。適合的樣本量可有助于研究者用合理的資源發現有意義的性能差異;過少的樣本量難以準確地發現測試的科學問題;而過多的樣本量會造成資源的浪費[15-18]。

以診斷試驗為例,在臨床評價試驗中,其評價指標為靈敏度和特異度,可用靈敏度或特異度計算總體的樣本量[19]。

為保證靈敏度的抽樣誤差不大于允差,樣本量應不低于式(1)的計算結果。

為保證特異度的抽樣誤差不大于允差,樣本量應不低于式(2)的計算結果。

本文測試采用回顧性數據對產品進行性能驗證,參考臨床評價試驗中的樣本量計算方案,觀測該方法樣本量估算是否滿足測試需求。

1.1 試驗1:糖尿病視網膜病變眼底圖像輔助診斷軟件測試

根據衛健委和中華醫學會的統計,我國糖尿病視網膜病變在糖尿病患者人群中的發病率約為25%[20],以此作為數據庫的患病率,假設產品預期靈敏度和特異度為90%,置信區間95%,允許誤差5%,因此根據公式,二者的最大值是單次測試樣本數量的最低要求。對于糖尿病視網膜病變眼底圖像輔助診斷軟件,以靈敏度計算測試集樣本量,樣本最低數量為554例,以特異度計算測試集樣本量,樣本最低數量為185例。

選取某一糖尿病視網膜病變眼底圖像輔助診斷軟件,在特定陰陽性比例情況下,采用分層隨機抽樣,陰陽性比例保持不變,設置18個不同樣本量,見表1,分別進行靈敏度、特異度測試,并對結果進行波動分析。

表1 糖尿病視網膜病變眼底圖像輔助診斷軟件不同樣本量設置

1.2 試驗2:肺部CT影像輔助診斷軟件測試

肺癌的早期診斷和早期治療是提高患者生存率、降低醫療負擔的關鍵。近年來,我國人工智能在肺結節檢測上是研究的熱點。但肺結節不一定意味著是腫瘤,此外肺結節的發病率目前沒有具體的流行病學統計,如果以結節為單位估算召回率和精確度,按照式(1)和式(2)較難進行樣本量估算。本文從實際檢測角度出發,對肺部CT影像輔助診斷軟件的測試樣本量進行估計和推測。

本文對某兩個肺部CT影像輔助診斷軟件,在測試集中(每個病例平均結節個數為10個)按照病例隨機抽樣,設置14個不同樣本量(表2),分別進行召回率、精確度測試,并對結果進行波動分析。

表2 肺部CT影像輔助診斷軟件不同樣本量設置

2 試驗結果

2.1 試驗1測試結果

糖尿病視網膜病變眼底圖像輔助診斷軟件在不同樣本量下靈敏度和特異度的測試結果如圖1所示。波動值的計算公式為式(3),靈敏度的波動度為11%,506例及以后的波動度為0.6%,633例及以后的波動度為0.4%;特異度波動度為2.6%,506例及以后的波動度為1.5%,633例及以后的波動度為0.6%。

圖1 糖尿病視網膜病變眼底圖像輔助診斷軟件測試結果

式中,Pmax為測量結果最大值;Pmin為測量結果最小值;P為測量過過平均值;S為波動度。

2.2 試驗2測試結果

肺部CT影像輔助診斷軟件兩個樣品在不同樣本量下召回率和精確度的測試結果如圖2~3所示。樣品1召回率的波動度為10.9%,精確度的波動為6.1%;400例(3942個結節)及以后召回率的波動度為1.5%,精確度的波動為0.7%;450例(4635個結節)及以后召回率的波動度為0.8%,精確度的波動為0.4%。樣品2召回率的波動度為5.5%,精確度的波動為2.4%;300例(2940個結節)及以后召回率的波動度為0.6%,精確度的波動為1.1%;350例(3625個結節)及以后召回率的波動度為0.5%,精確度的波動為0.9%。

圖2 樣品1測試結果

圖3 樣品2測試結果

2.3 試驗結果分析

從圖1~3可知,隨著樣本量的增加,被測參數的波動不斷減小,當樣本量達到一定數量時,被測參數的波動趨于穩定,說明在測試過程中找到這個拐點即可保證統計結果準確性,也可不必追求更高數量的測試集。如果假設1%的波動能夠滿足測試要求,那么對于糖尿病視網膜病變眼底圖像輔助診斷軟件,本文試驗能夠同時滿足靈敏度和特異度的最低限為633例。測量結果與理論計算值相近。即說明對于人工智能產品基于回顧性樣本的測試集測試,其樣本量的估算可按照本文式(1)~(2)的方法進行估計。

對于肺部CT影像輔助診斷軟件,如果假設1%的波動能夠滿足測試要求,那么樣品1的樣本量為450例(4635個結節),樣品2為350例(3625個結節)。二者結果的差異也體現了產品性能的差異,從圖2~3可知,樣品2整體波動量比樣品1低了2倍,樣品2的性能要優于樣品1。造成差異的原因可能是產品的魯棒性能和泛化能力對結果的影響,產品抽樣更細分的構成如結節尺寸、結節類型、數據質量等,這些都會對測試結果帶來影響,因此在實際評價中也應考慮測試集中各種維度抽樣帶來的統計偏倚。產品的魯棒性能、泛化能力越強,對于測試集數量的依賴程度越低。采用測試集對人工智能的評價是一種統計的評價方式,應該在測試集數量的選取上考慮實際應用場景,以預計測試指標和發病率等情況為基礎進行估計。

3 討論

本文通過對糖尿病視網膜病變眼底圖像輔助診斷軟件及肺部CT影像輔助診斷軟件兩類產品性能評價的試驗,測算其測試集樣本量。考慮實際抽樣的偏差,以本實驗<1%的波動推算,抽樣數量以百位向前取整,推薦糖尿病視網膜病變眼底圖像輔助診斷軟件的測試集樣本量不低于700例,肺部CT影像輔助診斷軟件的測試集樣本量不低于500例(5300個結節)。

目前對于人工智能醫療器械的功能越來越多,應用場景也不盡相同。因此需要組建各類測試集對產品質量進行檢測。測試集區別于訓練集,測試集更突出對于檢測結果的客觀性、代表性和權威性,因此它的建設需要投入大量的人力、物力等社會資源。現有的方法多建議選取大量的數據作為測試集,以保證評估結果有統計學意義,但是針對應用場景不定,無流行病學統計的病種,大量數據的樣本量是多少很難把握。本文通過理論計算和試驗驗證相結合的方法,給出了目前兩類已取得醫療器械注冊證產品的測試集樣本量,這將有利于指導企業自檢或第三方檢驗機構檢測對于測試集樣本量的構成,而不必追求大樣本量進行測試,節約社會資源。

4 結論

人工智能輔助診斷軟件樣本量的估算方法可參考臨床評價診斷試驗的樣本量估算方法。在沒有流行病學統計的情況下,可根據產品的預期用途、應用場景進行發病率的推測,來估計樣本量。但人工智能醫療器械的模態已經從影像擴展到信號、文本,甚至是多模態,適用病種也包含多種,按照上述方法確定樣本量依然是個難題,需進一步研究。本文通過理論計算和實際驗證的方式,給出目前已上市的兩類人工智能輔助診斷產品的測試集樣本量估計,為人工智能醫療器械的測試集樣本量的研究提供了研究基礎,具有實際應用價值。

猜你喜歡
人工智能評價
我校新增“人工智能”本科專業
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 成人自拍视频在线观看| 国产电话自拍伊人| 亚洲色图欧美视频| 香蕉eeww99国产在线观看| 国产精品第一区| 免费毛片网站在线观看| 国产麻豆精品久久一二三| 四虎国产永久在线观看| 国产尤物视频在线| 蜜芽国产尤物av尤物在线看| 毛片在线播放a| 国产91丝袜在线观看| 午夜天堂视频| 国产成人一区| 免费无码又爽又刺激高| 一本大道香蕉久中文在线播放 | 久青草免费视频| 欧美色亚洲| 精品欧美一区二区三区久久久| 美女无遮挡拍拍拍免费视频| 亚洲an第二区国产精品| 亚洲无线视频| 国产丝袜啪啪| 亚洲精品欧美日本中文字幕| 国产亚洲精品97AA片在线播放| 91视频国产高清| 大香网伊人久久综合网2020| 欧美在线视频a| 亚洲精品无码不卡在线播放| 精品撒尿视频一区二区三区| 中文字幕在线永久在线视频2020| 日本五区在线不卡精品| 福利一区在线| 高清久久精品亚洲日韩Av| 91精品国产91久久久久久三级| 日韩毛片免费| 九色在线视频导航91| 99re这里只有国产中文精品国产精品 | 国产99视频免费精品是看6| 人妻无码中文字幕第一区| 成人亚洲视频| 精品亚洲麻豆1区2区3区| 久久精品一卡日本电影| 四虎成人精品在永久免费| 国产精品久久久久无码网站| 九一九色国产| 国产精品视屏| 日韩一级毛一欧美一国产 | 热re99久久精品国99热| 亚洲欧美在线看片AI| 国产精品久久久久久久久久久久| 久久五月视频| 亚洲色图欧美视频| 国产精品国产主播在线观看| 日韩不卡高清视频| 欧美国产视频| 久久国产黑丝袜视频| 国产精品综合色区在线观看| 国产精品观看视频免费完整版| 欧美亚洲第一页| 香蕉久久国产精品免| 内射人妻无码色AV天堂| 国产精品大白天新婚身材| 国产无码性爱一区二区三区| 综合久久久久久久综合网| 欧美国产中文| 国产亚洲一区二区三区在线| 亚洲精品色AV无码看| 四虎影视8848永久精品| 天堂亚洲网| 免费毛片全部不收费的| 又黄又湿又爽的视频| 亚洲av成人无码网站在线观看| 欧美福利在线| 色综合激情网| 欧美激情成人网| av天堂最新版在线| 久久综合丝袜日本网| 999国内精品久久免费视频| 青青草原国产av福利网站| 国产色偷丝袜婷婷无码麻豆制服| 久久国产毛片|