999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

歡迎人工智能臨床研究的新指南

2020-11-28 02:37:24譯者熊云云李子孝丁玲玲谷鴻秋王春娟王春雪王擁軍
中國(guó)卒中雜志 2020年11期
關(guān)鍵詞:深度研究

譯者:熊云云,李子孝,3,丁玲玲,谷鴻秋,王春娟,3,王春雪,王擁軍,3

目前,人工智能在醫(yī)學(xué)領(lǐng)域的臨床試驗(yàn)數(shù)量十分有限,因此相關(guān)研究方案和報(bào)告的首份指南的出現(xiàn)恰逢其時(shí)。更好的研究方案設(shè)計(jì),以及一致、完整的數(shù)據(jù)展示將極大地促進(jìn)對(duì)這些試驗(yàn)的理解和驗(yàn)證,并促進(jìn)該領(lǐng)域向前發(fā)展。

過去十年中,深度學(xué)習(xí)算法在醫(yī)療保健領(lǐng)域的應(yīng)用前景令人興奮。作為人工智能(artificial intelligence,AI)的亞類型,它能夠提高解釋大型數(shù)據(jù)集(如圖像、語(yǔ)音和文本)的準(zhǔn)確性和速度。然而,若要在患者醫(yī)療管理中接受和應(yīng)用深度學(xué)習(xí),尚需要隨機(jī)臨床試驗(yàn)的證據(jù)支持。

隨機(jī)臨床試驗(yàn)在19世紀(jì)80年代初期開始廣泛應(yīng)用,旨在為醫(yī)學(xué)實(shí)踐提供證據(jù)基礎(chǔ),但是直到近二十年后的1996年,才制定出《試驗(yàn)報(bào)告統(tǒng)一標(biāo)準(zhǔn)》(Consolidated Standards of Reporting Trials,CONSORT)[1]。相比之下,AI,特別是深度神經(jīng)網(wǎng)絡(luò),在醫(yī)學(xué)中的應(yīng)用仍處于初級(jí)階段,使用AI的臨床試驗(yàn)直到過去兩年才開始。Nature Medicine雜志新發(fā)表兩篇姊妹篇文章,分別針對(duì)AI干預(yù)試驗(yàn)方案報(bào)告標(biāo)準(zhǔn)(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence extension,SPIRIT-AI extension)和出版(CONSORT-AI extension)的指南進(jìn)行了介紹[2-3]。

1 回顧性分析僅為第一步

雖然目前有數(shù)百篇AI“臨床試驗(yàn)”范疇的回顧性報(bào)告,但這些并不是真正的試驗(yàn)。盡管這是奠定基礎(chǔ)的必要步驟,但這些研究是通過對(duì)數(shù)據(jù)集進(jìn)行計(jì)算機(jī)評(píng)估來研究深層神經(jīng)網(wǎng)絡(luò)執(zhí)行臨床任務(wù)的能力,并將其與少數(shù)醫(yī)師的工作進(jìn)行比較。此類AI研究沒有模擬臨床實(shí)踐,而是處理清潔的、相對(duì)原始的、帶注釋的數(shù)據(jù)集。相比之下,真實(shí)的醫(yī)學(xué)世界是混亂的,廣泛存在缺失數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其重點(diǎn)是管理患者而不是為研究分析提供“原料”。決不能忽視臨床環(huán)境與計(jì)算機(jī)模擬環(huán)境的鮮明差別,因此需要進(jìn)行AI的臨床試驗(yàn)。

目前共有2篇關(guān)于AI臨床研究的系統(tǒng)綜述和Meta分析,這也說明了這方面的研究嚴(yán)重不足[4-5]。一項(xiàng)對(duì)82項(xiàng)研究的綜述發(fā)現(xiàn),這些試驗(yàn)的報(bào)告缺乏某些關(guān)鍵方面的信息,從而導(dǎo)致數(shù)據(jù)、某些關(guān)鍵術(shù)語(yǔ)及這些關(guān)鍵術(shù)語(yǔ)定義的缺失。作者還發(fā)現(xiàn),模型性能和效度指標(biāo)變化很大,缺乏外部驗(yàn)證(在測(cè)試和內(nèi)部驗(yàn)證之外的樣本外驗(yàn)證)。尚沒有一項(xiàng)研究進(jìn)行樣本量計(jì)算以保證研究的功效。最大的問題是深度學(xué)習(xí)模型很少將算法和醫(yī)療專業(yè)人員對(duì)相同數(shù)據(jù)集進(jìn)行評(píng)估的綜合方法進(jìn)行比較。另一項(xiàng)對(duì)81項(xiàng)研究的綜述肯定了之前綜述的觀點(diǎn),并進(jìn)一步指出了其他不足[5]。其作者發(fā)現(xiàn):研究透明度存在重大問題;用于可重復(fù)性評(píng)估的可用數(shù)據(jù)集和代碼有限;可以與算法性能進(jìn)行比較的臨床醫(yī)師數(shù)量非常少;結(jié)論夸張。這種臨床醫(yī)師與機(jī)器的較量是臨床實(shí)踐的對(duì)立面——臨床實(shí)踐總需要人的參與,至少在任何重要的、嚴(yán)肅的診斷中應(yīng)該如此。我們不能僅僅依靠神經(jīng)網(wǎng)絡(luò)來決定患者的生死。

2 人工智能臨床試驗(yàn)案例

患者管理相關(guān)的前瞻性試驗(yàn)至關(guān)重要。例如,AI在醫(yī)學(xué)領(lǐng)域的首批重要研究之一:將深度神經(jīng)網(wǎng)絡(luò)與21名經(jīng)認(rèn)證的皮膚科醫(yī)師通過分析病變照片進(jìn)行皮膚癌診斷比較[6]。當(dāng)皮膚科醫(yī)師評(píng)估皮膚病變時(shí),他們不是單獨(dú)地分析一張照片,而是結(jié)合患者的病史和體格檢查,這與深度神經(jīng)網(wǎng)絡(luò)的使用非常不同。此外,曾有多項(xiàng)回顧性研究發(fā)現(xiàn),視網(wǎng)膜成像算法診斷糖尿病性視網(wǎng)膜病變的準(zhǔn)確性是顯著的、近乎完美的。但是,首次使用這些算法的前瞻性試驗(yàn)發(fā)現(xiàn),其診斷準(zhǔn)確性雖然是可接受的,甚至可視為自動(dòng)化診斷的進(jìn)步,但并不是很高[7]。因此,醫(yī)療領(lǐng)域中AI的回顧性研究?jī)H可提供一些假設(shè),通常為理想狀態(tài),并不能作為確定的支持證據(jù)。然而不幸的是,目前美國(guó)食品和藥物管理局(Food and Drug Administration,F(xiàn)DA)對(duì)算法的審批大多依賴于這樣的初步證據(jù)[8]。此外,私營(yíng)公司用于開發(fā)算法的回顧性數(shù)據(jù)很少被公開,因此對(duì)于計(jì)劃將基于它們所研發(fā)的算法用于患者診療的臨床社區(qū)來說,這是不透明的,可能無意中傷害真實(shí)診療的患者。

雖然這并不是AI算法的意圖,但臨床算法可能無意中造成傷害。當(dāng)一種算法內(nèi)部存在偏差,或者該算法開發(fā)時(shí)所基于的群體不能很好地代表它將被應(yīng)用的群體時(shí),可能會(huì)出現(xiàn)嚴(yán)重的診斷誤差或預(yù)測(cè)誤差。一旦應(yīng)用于臨床實(shí)踐,鑒于這類軟件的可擴(kuò)展性非常強(qiáng),可能很快就會(huì)對(duì)患者產(chǎn)生潛在的無意的傷害,并呈指數(shù)樣增加。為了識(shí)別和理解算法導(dǎo)致這種危害的可能,來自臨床試驗(yàn)的可靠證據(jù)就必不可少。

3 新時(shí)代需要新的指南

AI臨床應(yīng)用的最終證據(jù)將來自于隨機(jī)試驗(yàn),理想情況是這些隨機(jī)試驗(yàn)通過臨床醫(yī)師與算法相結(jié)合,來比較深度學(xué)習(xí)算法與臨床醫(yī)師的診斷準(zhǔn)確性。目前,僅有約12項(xiàng)前瞻性試驗(yàn)(表1)和7項(xiàng)隨機(jī)試驗(yàn)(表2)的公開信息。7項(xiàng)隨機(jī)試驗(yàn)中有6項(xiàng)與內(nèi)鏡息肉診斷相關(guān),到目前為止,除1項(xiàng)以外,其他研究均在中國(guó)進(jìn)行(表2)。有限的前瞻性和隨機(jī)試驗(yàn),表明AI在醫(yī)學(xué)領(lǐng)域的應(yīng)用尚處于萌芽階段。

表1 在臨床環(huán)境中評(píng)估人工智能深度神經(jīng)網(wǎng)絡(luò)性能的前瞻性試驗(yàn)

表2 醫(yī)療領(lǐng)域人工智能深度神經(jīng)網(wǎng)絡(luò)的隨機(jī)試驗(yàn)

這個(gè)潛在的AI臨床實(shí)踐轉(zhuǎn)折點(diǎn)并沒有被浪費(fèi),醫(yī)學(xué)AI臨床試驗(yàn)必須以透明和無傷害的方式進(jìn)行,這也是出臺(tái)新指南的關(guān)鍵所在。值得一提的是,這些指南的產(chǎn)生是由一個(gè)龐大的國(guó)際跨學(xué)科團(tuán)隊(duì)經(jīng)過多個(gè)階段的艱苦工作完成的。起草之初,先是由在臨床試驗(yàn)開展和方法學(xué)方面有豐富經(jīng)驗(yàn)的學(xué)術(shù)工作者組成的指導(dǎo)小組對(duì)300多項(xiàng)注冊(cè)試驗(yàn)(僅7項(xiàng)已發(fā)表,62項(xiàng)已完成)進(jìn)行審查,之后進(jìn)行了為期兩個(gè)階段的專家調(diào)查(德爾菲研究審查),并由169名跨學(xué)科專家就候選內(nèi)容(“項(xiàng)目”)進(jìn)行投票,最終于2020年1月在伯明翰大學(xué)舉行了為期兩天的共識(shí)會(huì)議。會(huì)議產(chǎn)出了15個(gè)必要項(xiàng)目,以用于臨床試驗(yàn)研究方案和報(bào)告兩種獨(dú)立清單形式呈現(xiàn)。這些項(xiàng)目旨在彌補(bǔ)目前AI醫(yī)學(xué)研究存在的關(guān)鍵不足,增加臨床試驗(yàn)的可重復(fù)性和獨(dú)立評(píng)估的簡(jiǎn)易性。

簡(jiǎn)單來看,深度學(xué)習(xí)模型由輸入(數(shù)據(jù),如圖像)和輸出(解釋或預(yù)測(cè),如胸部X光片是否表明存在肺炎)組成。在AI的臨床試驗(yàn)中,對(duì)于輸入環(huán)節(jié),我們必須知道患者的納入和排除數(shù)據(jù),它們對(duì)于相關(guān)的臨床問題的代表性如何,以及數(shù)據(jù)的質(zhì)量和來源。對(duì)于輸出環(huán)節(jié),也有許多重要特征,比如它們是如何被具體化的,對(duì)臨床決策的貢獻(xiàn)等。指南規(guī)定研究需要提供大量關(guān)于算法本身的信息,比如是哪個(gè)版本,在測(cè)試和內(nèi)部驗(yàn)證期間發(fā)生的更改,以及模型的擬合度等。需要避免醫(yī)療數(shù)據(jù)的過度擬合,即將狹隘的分析結(jié)果推廣到更廣泛、無限制的臨床環(huán)境中。該指南要求詳細(xì)說明如何檢測(cè)、預(yù)測(cè)和解釋任何已經(jīng)產(chǎn)生的錯(cuò)誤,這將有助于說明AI應(yīng)用的相對(duì)安全性。此外,試驗(yàn)中人類-AI的交互必須被閱讀臨床試驗(yàn)的讀者完全理解,為此,作者以一個(gè)結(jié)腸鏡臨床試驗(yàn)為例,說明了為什么讀者需要了解供胃腸病專家審查使用的視頻片段是如何準(zhǔn)備的細(xì)節(jié)[2-3]。同時(shí),機(jī)器學(xué)習(xí)依賴于正確標(biāo)注數(shù)據(jù),標(biāo)注數(shù)據(jù)代表著絕對(duì)正確的標(biāo)準(zhǔn),但建立算法時(shí)所基于的標(biāo)注數(shù)據(jù)可能不是實(shí)際的真實(shí)數(shù)據(jù),推薦建議中要求詳細(xì)說明這些細(xì)節(jié)。這些只是兩個(gè)指南組確定的對(duì)于構(gòu)建研究方案和出版很重要的一些項(xiàng)目。

毫無疑問,建立這些標(biāo)準(zhǔn)和保持透明度將有助于推動(dòng)這一領(lǐng)域的發(fā)展。但必須承認(rèn),關(guān)于臨床試驗(yàn)的最佳實(shí)踐,還有更多方面需要注意,未來幾年中可能會(huì)修訂新的標(biāo)準(zhǔn)。目前指南主要是以影像數(shù)據(jù)為中心,對(duì)語(yǔ)音和文本數(shù)據(jù)尚無有意義的詳細(xì)說明。目前,幾乎所有的臨床應(yīng)用都使用了監(jiān)督學(xué)習(xí),如何處理無監(jiān)督、自我監(jiān)督形式尚存在疑問。此外,幾乎所有的臨床試驗(yàn)都僅包含與醫(yī)療專業(yè)人員相關(guān)的AI,AI中患者自我診斷的功效并沒有被證實(shí)。目前已經(jīng)有深度學(xué)習(xí)算法被消費(fèi)者大規(guī)模使用,如智能手表上根據(jù)靜息心率診斷心房纖顫的應(yīng)用程序[9]。目前還沒有任何在真實(shí)世界進(jìn)行的前瞻性、使用后試驗(yàn)來進(jìn)行另一種形式的驗(yàn)證。除了實(shí)用性評(píng)估外,此類研究還將面臨其他挑戰(zhàn),包括軟件故障和惡意的敵對(duì)攻擊。

深度神經(jīng)網(wǎng)絡(luò)的一個(gè)特殊優(yōu)勢(shì)是其自動(dòng)學(xué)習(xí)能力,學(xué)習(xí)的數(shù)據(jù)越多,性能越好。然而目前的指南還沒有解決這個(gè)問題,就像監(jiān)管機(jī)構(gòu)一直在努力解決這個(gè)問題一樣。顯然我們希望利用這種能力為醫(yī)療服務(wù),但不確定的是,一旦算法進(jìn)一步“學(xué)習(xí)”,其性能是否會(huì)與已公布的臨床試驗(yàn)證據(jù)之間產(chǎn)生偏差。相反,目前當(dāng)一個(gè)算法發(fā)布后,它會(huì)被凍結(jié),這就抑制了AI潛在的最強(qiáng)大的一部分能力。

我們將期待未來CONSORT-AI 和SPIRIT-AI團(tuán)隊(duì)進(jìn)行更新,以解決醫(yī)療AI應(yīng)用于現(xiàn)實(shí)世界時(shí)所面臨的問題。現(xiàn)在,我們需要對(duì)他們?yōu)樘嵘鼳I醫(yī)學(xué)研究的標(biāo)準(zhǔn)所做的努力表示深深的感謝。

文章來源:TOPOL E J. Welcoming new guidelines for AI clinical research[J]. Nat Med,2020,26:1318-1320.

本翻譯獲得Nature Medicine出版社同意,參見知識(shí)共享許可http://creativecommons.org/licenses/by/4.0/。譯文對(duì)原文未做刪減。

猜你喜歡
深度研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
深度理解一元一次方程
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
深度觀察
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 五月激激激综合网色播免费| 色吊丝av中文字幕| 国产毛片不卡| 国产成本人片免费a∨短片| 久操线在视频在线观看| 国产一区在线观看无码| 成人午夜天| 亚洲午夜天堂| 热思思久久免费视频| 婷婷六月综合网| 国产精品福利一区二区久久| 在线国产欧美| 亚洲一区精品视频在线| 一本一道波多野结衣一区二区| 福利视频99| 又大又硬又爽免费视频| 久久精品国产免费观看频道| 97在线免费| 性做久久久久久久免费看| 成人免费黄色小视频| 亚洲免费黄色网| 久久久久亚洲精品成人网| 丰满少妇αⅴ无码区| 亚洲娇小与黑人巨大交| 免费av一区二区三区在线| 亚洲熟妇AV日韩熟妇在线| 国产女同自拍视频| 久久久久久高潮白浆| 欧美午夜理伦三级在线观看| www.日韩三级| 一级毛片在线播放免费| 国产亚洲高清视频| 国产又色又刺激高潮免费看| 999国产精品永久免费视频精品久久| 日韩AV手机在线观看蜜芽| 亚洲香蕉在线| 国产精品综合久久久| 91麻豆精品国产91久久久久| 欧美日本不卡| 精品少妇人妻无码久久| 国产综合网站| 2020国产精品视频| 亚洲中文字幕23页在线| 色吊丝av中文字幕| 中文字幕在线一区二区在线| 91麻豆精品国产高清在线| 亚洲人成网址| 国产美女无遮挡免费视频| 一本一道波多野结衣av黑人在线| 久久精品中文字幕少妇| 五月丁香伊人啪啪手机免费观看| 国产一级毛片网站| 青青青视频91在线 | 青草91视频免费观看| 青青草欧美| 婷婷亚洲综合五月天在线| 视频二区中文无码| 国产成人区在线观看视频| 欧美黄色a| 午夜毛片免费观看视频 | 日韩国产综合精选| 亚洲精品色AV无码看| 日韩欧美亚洲国产成人综合| 亚洲中文字幕久久无码精品A| 99精品免费在线| 国产精品永久久久久| 成人午夜福利视频| 日本高清成本人视频一区| 国产乱人免费视频| 好吊妞欧美视频免费| 奇米影视狠狠精品7777| 蜜芽国产尤物av尤物在线看| 成年人国产网站| 91精品视频播放| 高清欧美性猛交XXXX黑人猛交| 国产精品久久久免费视频| 国产国拍精品视频免费看| 国产日韩精品一区在线不卡| 欧美午夜在线播放| 国产激情在线视频| 国产自无码视频在线观看| 亚洲午夜国产精品无卡|