999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用多閱片者多病例設計評估AI輔助醫療產品臨床試驗的樣本量估算和應用*

2022-03-17 08:08:48尚美霞閻小妍李雪迎朱賽楠
中國衛生統計 2022年1期
關鍵詞:方法設計研究

尚美霞 閻小妍 李雪迎 朱賽楠 姚 晨,Δ

【提 要】 目的 探索基于多閱片者多病例研究設計的人工智能輔助醫療器械或軟件進行確證性臨床試驗的病例和閱片者樣本量的選擇依據和方法。方法 以某三甲醫院收集的某胸部CT影像輔助診斷系統用于肺結節診斷的試驗數據為例,采用R軟件對數據進行方差分析和診斷準確度統計,以方差和協方差分析的結果為依據對計劃開展的正式試驗樣本量進行估算,同時探索分析不同參數組合條件下的樣本量變化情況。結果 7名具有不同胸部CT閱片經驗的影像科醫生對回顧性納入的200例病例影像分別在AI輔助條件和無AI輔助條件下進行讀片,采用AI輔助醫生讀片的診斷準確性優于醫生獨立讀片的準確性[AF-ROC差值0.119(95%CI:0.078,0.161),P<0.001],不同閱片者提高的準確度水平不同。同一閱片者分別在兩種診斷模式下診斷結果的相關系數越大,需要病例樣本量越小;相同閱片模式下不同閱片者間診斷結果的相關系數和不同閱片者在不同診斷模式間診斷結果的相關系數的差值越大,需要的病例樣本量越大。結論 基于多閱片者多病例研究設計的人工智能或機器學習輔助醫療類的器械或軟件的確證性臨床試驗中采用多閱片者會適當減低病例的樣本量,采用合適的統計學方法可以對閱片者和病例的樣本量進行科學的估算。

目前的影像診斷實踐中,影像判讀和疾病診斷基本上都是由影像科醫生人工完成,比例大約在90%以上[1],但診斷需求日益增長,臨床醫生資源相對短缺,兩者之間存在著很大的不平衡,為此影像科醫生面臨著很大的工作壓力[2]。另一方面,以深度學習(deep learning)為核心的人工智能技術(artificial intelligence)與醫學影像技術的結合,輔助臨床醫生進行疾病的判讀和診斷,可大大減少臨床醫生的診斷時間,同時可明顯提高醫學影像的診斷效率[3-4],為此AI輔助條件下醫學影像的分析與處理已成為醫學信息中發展最快的領域之一,之前已有關于利用人工智能系統預測大面積腦梗死患者的轉歸的文章發表[5]。基于大量的醫療數據信息和各種算法研發深度學習輔助決策醫療器械軟件,幫助臨床進行輔助篩查、診斷、治療和結局預測等工作,是目前醫療器械行業研發和注冊申報的熱點和焦點[6]。

從批準上市前對深度學習輔助醫療器械軟件確認的臨床試驗角度出發,考慮到軟件的真實使用場景和使用對象的差異性,國家監管和有關評審部門建議臨床試驗采用多閱片者多病例(multireader multicase,MRMC)研究設計[7]。但多閱片者多病例的研究設計目前在國內的相關研究和參考較少,如何從方法學角度對整個臨床試驗進行把控設計,尤其是樣本量的選擇一直是申辦者和監管部門等比較關心的問題。為此,本文參考國外相關研究情況,從統計方法學角度對樣本量計算的參數需求和計算過程進行闡述,結合開展的一項MRMC設計的AI臨床試驗實例對此類研究設計的分析思路和樣本量選擇進行示例,最后評估不同參數條件下可能的樣本量,希望可以對今后開展的深度學習或人工智能之類醫療產品的確證性臨床試驗的設計和開展提供方法學的幫助和參考。

MRMC設計的臨床試驗中統計學評價指標常基于ROC曲線計算得到的曲線下面積(AUC)以及相關的一些衍生指標(如FROC-AUC、AFROC-AUC等)[8],或者是靈敏度和特異度等診斷類評價指標。目前,國外針對MRMC設計的文獻或研究中最常用統計分析方法有OR(Obuchowski-Rockette)法和DBM(Dorfman-Berbaum-Metz)法兩種[9-10],兩種方法略有不同,OR模型的假設更科學合理且相對容易理解,從方差及協方差估計角度考慮DBM方法與OR方法之間相關參數可以進行互相轉換[10-11]。本研究統計學假設和方法部分的樣本量闡述假定研究分析是基于以非參數法估計的ROC-AUC為主要評價指標的Obuchowski-Rockette方法進行統計。

材料與方法

采用OR方法對多閱片者多病例研究設計收集的數據進行統計分析,首先需構建如下的統計學模型,該模型構建與我們常見的混合效應方差分析模型一致:

依據模型方差分解變異解釋的原理[14-15],但與常用的方差分析模型不同,混合效應方差分析模型中的誤差項不獨立,標準F檢驗對于結果估計會存在偏差,據此Hills[11]考慮相同閱片模式下不同閱片者間和不同閱片方式下不同閱片者間的協方差估計值指出Obuchowski-Rockette方法針對上述混合效應線性模型,構建進行模型假設檢驗的可以考慮相關的一個關鍵修正統計量FOR,且FOR服從近似F分布Ft-1,df2,其中FOR和df2計算如下:

同時用不同閱片方法與閱片者間的二階交互隨機效應項實際測量均方所對應均方替換公式中的期望均方,用如下ddfH的計算方法去替代估計df2,

其中,H(.)為Hills定義的一個函數,解釋如下:

假定c*和r*為預實驗估計結果對應的入組病例和閱片者的數量,c和r為計劃開展正式試驗擬入組或需要的病例和閱片者數量,對應上述計算公式轉換如下:

基于上述過程,最終推導出基于預試驗參數在目前的病例(c)和閱片者(r)樣本量組合條件下,可檢驗出兩種情況診斷準確性具有差異的統計學檢驗效能如下[11]:

實例應用

關于肺結節檢出與診斷的某基于深度學習理論的胸部CT影像輔助診斷系統AI輔助系統臨床試驗,研究目的為評價系統輔助醫生閱片診斷的診斷準確性是否優于醫生獨立診斷。研究正式開始時,參考MRMC的思路開展了臨床試驗的預試驗,此預試驗最終入組回顧性收集自某三甲醫院的200例臨床病例,其中“金標準”診斷為陽性病例110例,陰性病例90例。同時研究納入7名具有不同胸部CT影像閱片經驗的影像科醫生作為研究的讀片醫生,閱片者按照事先培訓規定的讀片流程記錄自己所觀察到的結節位置、結節大小和判定肺結節的可能性評分。

研究以判定肺結節的可能性分值對比金標準結果估計的AFROC-AUC(以結節為評價單位)作為主要評價指標,采用MRMC方差分析方法對研究中的各種變異進行分解,估計兩種閱片方法和閱片者間的各種相關,最終分別統計軟件輔助醫生診斷和醫生獨立診斷的兩種方法的診斷準確性并做出統計學比較。具體統計結果見表1。

表1 兩種診斷方法的診斷準確性結果(AFROC-AUC)

探索分析

可以看出,MRMC設計的臨床試驗中樣本量估計需要分病例和閱片者數目兩部分,影響樣本量的參數可以概括為試驗效應、變異和相關三部分。試驗組和對照組間效應差值和變異的大小會影響樣本量的大小[16],診斷準確性的預期差別越大,說明試驗效應差值越大,需要的樣本量會越少;同時方差分量反映的是變異的可解釋程度,方差分量越大,變異越大,需要的樣本量會越大。相同閱片者或不同閱片者相同閱片方法下閱片數據的各種相關性也會影響樣本量,本文對在不同相關性的組合條件下病例和閱片者的例數組合隨著相關系數的變化情況做了初步的探索和分析。在本部分進行相關性與估計樣本量的變化關系探索時,首先對其他參數的定義如下:

(1)優效假設,單側檢驗α=0.025,檢驗性能power為80%;

(2)兩種閱片方法條件下診斷準確性的預期差別θΔ=0.05;

(5)預試驗中入組病例總數為100例,其中陽性病例和陰性病例的比例為1∶1;

(6)正式試驗擬納入的閱片人數為8人。

如前所述,若從相關性角度分析樣本量的變化過程,與樣本量相關的分別是同一閱片者分別在不同閱片方法下閱片結果的相關系數r1,以及相同閱片方法下不同閱片者閱片結果間的相關系數和不同閱片者分別在不同閱片方法中閱片結果相關系數的差值r2-r3。根據Rockette(1999)[17]一文中對20個MRMC試驗的報道,同一閱片者分別獨立閱片和聯合輔助軟件閱片結果的相關系數(r1)范圍為0.35~0.59,中位數為0.48,匯總r2-r3的范圍為-0.0196至0.0139,所以本次研究中選擇相關系數r1的取值范圍為0.10~0.60,r2-r3差值的取值范圍為0.00~0.30,匯總得到不同相關系數組合情況下的病例數目如表2所示。可以看出隨著相關系數r1的逐漸變大,需要的病例樣本量逐漸減少;同時相關系數r2和相關系數r3的差值也會影響病例的樣本量,差值越大,需要的病例樣本量越大。

表2 不同閱片相關性條件下對應的病例數目

此外,為進一步明確閱片者數目和病例數目的組合變化情況,還分別定義在相關系數r1為0.30和0.60兩種條件,以及r2-r3為0.00和0.05兩種條件下不同閱片者數目和病例數目的變化曲線如圖1所示。從圖1可以看出,多閱片者多病例設計研究可以適當減少需要的入組病例數目,但閱片者數目超過一定數(如圖1中提示的12名)之后所需病例的數目變化影響很小。

圖1 不同相關條件下閱片者和病例數目組合變化情況

討 論

綜上所述,除試驗設計類型和常規樣本量計算的參數外,基于MRMC設計的深度學習輔助醫療器械或軟件確證性臨床試驗樣本量計算需明確的主要參數有:

(1)診斷準確性的預期差別θΔ;

(7)入組病例中金標準判定的陽性病例和陰性病例的比例。

對于入選病例中陽性病例和陰性病例的比例,本文并未探索不同陰陽比例與樣本量的變化關系,但不同入選人群中如果陽性病例的患病率不同,也會導致閱片者的閱片結果受到影響(或稱為背景偏倚),所以在通過預試驗估計正式試驗的預期結果和樣本量計算的所需參數時,需要注意兩部分人群中的陰陽比例情況。此外,研究設計類型也是影響樣本量計算的一個關鍵考慮因素,為方便理解本文統計過程中假設的設計類型為優效設計(AI輔助醫生診斷優于醫生獨立診斷),申辦者在計劃開展試驗時需要結合產品實際情況選擇合理的設計類型。國家監管部門也建議優先選擇同品種產品或臨床參考標準進行非劣效對照設計,若無同品種產品且難以獲取臨床參考標準可選擇替代方法,如選擇用戶結合軟件聯合決策與用戶單獨決策進行優效對照設計[7]。但是不論是哪種設計,非劣效界值或優效界值的確定應當有充分的臨床依據。

綜上所述,針對MRMC設計的關于輔助診斷軟件確證性臨床試驗研究中的樣本量估算相對較復雜,需考慮的因素較多,其中參數的定義主要來源于MRMC研究設計中多名閱片醫生同時對不同組別的同一群入組病例的影像結果做出判定的過程中,存在病例和閱片者兩部分的主要變異,以及相同或不同閱片醫生在比較組別間或比較組別內判讀結果的相關性。開展的臨床試驗不同,這部分的變異和相關也不同,建議在開展MRMC設計類型的臨床試驗前先進行預試驗,通過預試驗的研究一方面熟悉規范整個試驗的流程,另一方面也為正式試驗病例和閱片醫生的數量估計提供參數依據。

猜你喜歡
方法設計研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 午夜在线不卡| 高清无码不卡视频| 精品撒尿视频一区二区三区| 亚洲乱码视频| 亚洲欧美成人影院| 欧美日一级片| 无码粉嫩虎白一线天在线观看| 真实国产精品vr专区| 91精品久久久无码中文字幕vr| a级毛片一区二区免费视频| 午夜限制老子影院888| 亚洲一区二区三区国产精品 | 日本欧美在线观看| 国产日韩丝袜一二三区| 亚洲精品无码av中文字幕| 韩日无码在线不卡| 免费女人18毛片a级毛片视频| 中国国产高清免费AV片| 国产麻豆aⅴ精品无码| 在线国产91| 麻豆AV网站免费进入| 日韩第一页在线| 亚洲一区二区在线无码| 熟女日韩精品2区| 亚洲欧美激情另类| 经典三级久久| 久久9966精品国产免费| 国产微拍精品| 制服丝袜亚洲| 色天天综合久久久久综合片| 久久中文字幕2021精品| 91欧美在线| 亚洲成人免费看| 99色亚洲国产精品11p| 伊人激情综合| 97在线碰| 国产成人精品高清在线| 亚洲浓毛av| 成人自拍视频在线观看| 亚洲国产欧洲精品路线久久| 国产福利不卡视频| 在线国产三级| 草草影院国产第一页| 人妻无码中文字幕一区二区三区| 无码AV动漫| 精品一区二区三区自慰喷水| 国产亚洲精| 幺女国产一级毛片| 99热最新在线| av一区二区无码在线| 真实国产乱子伦视频| 不卡视频国产| 精品视频一区在线观看| 伊伊人成亚洲综合人网7777| 亚洲AV无码久久天堂| 国产美女在线免费观看| 一级成人a毛片免费播放| 一级毛片高清| 亚洲精品自产拍在线观看APP| 亚洲清纯自偷自拍另类专区| 日韩A级毛片一区二区三区| 熟妇丰满人妻| 色婷婷亚洲十月十月色天| 午夜精品久久久久久久2023| 在线免费无码视频| 国产97视频在线观看| a天堂视频| 国产经典三级在线| 亚洲精品动漫| 国产精品第5页| 国产特级毛片aaaaaa| 天天综合网亚洲网站| 欧美视频在线观看第一页| 人人91人人澡人人妻人人爽| 日韩国产综合精选| 日韩精品视频久久| 国产在线啪| 亚洲成A人V欧美综合| 国产一级妓女av网站| 久久精品国产999大香线焦| 香蕉eeww99国产在线观看| 2020精品极品国产色在线观看 |