999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的醫(yī)學影像數(shù)據(jù)的瑕疵及對策

2022-03-06 06:13:08任曉麗
醫(yī)療裝備 2022年3期
關(guān)鍵詞:深度模型

任曉麗

山西醫(yī)科大學汾陽學院 (山西汾陽 032200)

近年來,隨著數(shù)據(jù)的劇增、算法的不斷優(yōu)化及計算能力的迅猛提高,大規(guī)模的神經(jīng)網(wǎng)絡逼近不同函數(shù)及大數(shù)據(jù)擬合成為可能。深度學習(deep learning,DL)融入醫(yī)學影像數(shù)據(jù),逐步涌現(xiàn)出了各種輔助診斷、預后預測和決策分析的智能模型[1]。基于醫(yī)學影像智能計算是目前智慧醫(yī)療領(lǐng)域的研究熱點[2],相應的產(chǎn)品也已落地,相關(guān)文獻[3]全面分析了使用DL 技術(shù)為新型冠狀病毒肺炎診斷所開發(fā)的系統(tǒng)應用。基于DL 醫(yī)學影像正逐步邁向智慧醫(yī)療下精準診斷的環(huán)節(jié),期間也存在尚待解決的些許問題。

1 DL 概述

DL 是先進的機器學習(machine learning)方法,以數(shù)據(jù)驅(qū)動方式分析任務,針對特定問題的大規(guī)模數(shù)據(jù)集自動學習數(shù)據(jù)特性,從訓練數(shù)據(jù)中選擇正確的特征,最后在測試數(shù)據(jù)中做出正確決策。其中深度模型是手段,特征學習是目的。迄今為止在醫(yī)學影像領(lǐng)域,國內(nèi)外學者主要就MRI、CT、X 線、超聲、正電子發(fā)射計算機斷層顯像(positron emission tomography,PET)、病理、光學圖像等開展了DL研究工作[4]。

1.1 DL 算法機理

DL是具有多層非線性處理單元的神經(jīng)網(wǎng)絡[5],基礎(chǔ)模型主要是深度神經(jīng)網(wǎng)絡,從函數(shù)逼近論的角度講,深度神經(jīng)網(wǎng)絡是一個多層復合函數(shù)。理論上任意一個多元函數(shù)可以表示成若干個單變量函數(shù)的復合,這是機器學習中通過深度神經(jīng)網(wǎng)絡來逼近任意高維函數(shù)的理論依據(jù),故可基于多層次的“神經(jīng)元”結(jié)構(gòu),采用多隱層,進行分層非線性映射學習。其中非線性激活函數(shù)為最終擬合函數(shù)生成基函數(shù),訓練神經(jīng)網(wǎng)絡就是在學習這些基函數(shù),通過數(shù)量眾多的激活函數(shù)的線性變換及復合來逼近非常復雜的函數(shù),由此解決了人工設(shè)計基函數(shù)的困惑。

1.2 DL 主要優(yōu)勢

DL將特征提取融入算法,省去了傳統(tǒng)機器學習中手工提取的步驟,直接的好處在于,從原始輸入到最終輸出無需人工設(shè)計模塊,模型根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間變大,模型的整體契合度增加。DL借助多層函數(shù)(或深度)復合的多次變換,將樣本在原空間的特征表示變換到一個新特征空間,通過逐層特征變換,自動提取不同空間的“特征”,進而發(fā)現(xiàn)高維數(shù)據(jù)中的復雜結(jié)構(gòu),從輸入端的數(shù)據(jù)直接得到輸出端的結(jié)果,是一種端到端的學習方法。其中卷積神經(jīng)網(wǎng)絡憑借強大的特征自動提取功能,成為DL的一個重要組成部分[6],傳統(tǒng)CNN由輸入層、卷積層和池化層的組合、全連接層及輸出層構(gòu)成,如圖1所示。深度神經(jīng)網(wǎng)絡具有不同的體系結(jié)構(gòu)和拓撲,適合某些特定的應用程序[7],目前有關(guān)醫(yī)學圖像分割的DL最新研究大多數(shù)都依賴于U-Net網(wǎng)絡,針對不同的分割任務,網(wǎng)絡結(jié)構(gòu)也有相應的更改[8]。

圖1 傳統(tǒng)CNN 結(jié)構(gòu)圖

2 醫(yī)學影像數(shù)據(jù)在DL 中的不完備性

當前醫(yī)療中高達90% 的數(shù)據(jù)來自醫(yī)學影像,影像歸檔和通信系統(tǒng)(picture archiving and communications system,PACS)融合了不同設(shè)備(如MRI、CT、超聲等圖像)的數(shù)據(jù),并進行統(tǒng)一存儲、管理。醫(yī)學數(shù)字成像與通信標準(digital imaging and communication in medicine,DICOM)定義了臨床影像數(shù)據(jù)交換的格式,其發(fā)展和完善為醫(yī)學影像的發(fā)展創(chuàng)造了新的契機。據(jù)不完全統(tǒng)計影像數(shù)據(jù)的年增長率高達30%之多[5],總量已然達到“5V”數(shù)據(jù),即大量(volume)、高速(velocity)、多樣(variety)、價值(value)、真實性(authenticity)。

醫(yī)學影像屬非結(jié)構(gòu)化數(shù)據(jù)(患者受保護類的信息屬結(jié)構(gòu)化數(shù)據(jù)),數(shù)據(jù)對象的空間關(guān)系信息及蘊含的特異性情況具有重要的統(tǒng)計學意義,對各種疾病信息的挖掘會產(chǎn)生潛在的利用價值。DL模型“訓練”和“驗證”得以穩(wěn)定運行的根本是大數(shù)據(jù),尤其是高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),而醫(yī)學影像中數(shù)據(jù)的諸多變化及不完備因素一度成為DL在醫(yī)學領(lǐng)域發(fā)展的瓶頸。

2.1 數(shù)據(jù)的孤立、異構(gòu)性

由于缺乏標準約束和整體規(guī)劃,不同的醫(yī)院或醫(yī)師使用的操作系統(tǒng)的無線多址協(xié)議不同,對于不同的醫(yī)用場景,成像模態(tài)、掃描參數(shù)、重建卷積、質(zhì)控各不相同,以及針對特定需求的特殊設(shè)計等,諸多因素導致數(shù)據(jù)的廣泛異質(zhì)異構(gòu)性,如數(shù)據(jù)本身異構(gòu),表現(xiàn)為數(shù)據(jù)結(jié)構(gòu)、語義等差異;數(shù)據(jù)環(huán)境異構(gòu),表現(xiàn)為硬件平臺、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)等差異。上述迥異性整體上使得數(shù)據(jù)信息孤立、分布漂移,制約共享。當影像數(shù)據(jù)與疾病類型相結(jié)合時,DL 在醫(yī)學影像各類任務(重建、分類、檢測、分割和配準等)中,以及與一些應用程序相關(guān)聯(lián)的任務中,面臨著大量的高度復雜性[9]。由此如何將大量不同數(shù)據(jù)提取、篩選并標注以便捷地用于DL,是醫(yī)學影像數(shù)據(jù)處理的根本問題。

2.2 樣本數(shù)據(jù)分布不平衡

不同類別的醫(yī)學影像的樣本數(shù)量差異很大,陰性和陽性樣本數(shù)往往表現(xiàn)為陽性明顯少于陰性。臨床病例數(shù)據(jù)規(guī)模表現(xiàn)出典型的長尾分布[9],少數(shù)的常見疾病有足夠的數(shù)量供大規(guī)模分析,而多數(shù)疾病在臨床上的數(shù)據(jù)量缺欠。但少數(shù)樣本有時恰是DL 關(guān)注的根本。這種不平衡現(xiàn)象通常用不平衡率(imbalance rate,IR)衡量:

式中nmaj為多數(shù)類樣本數(shù)據(jù)量,nmin表示少數(shù)類樣本數(shù)據(jù)量[10]。

網(wǎng)絡在類別不平衡的數(shù)據(jù)中進行訓練,結(jié)果易偏向較大數(shù)量的類別[11],因為DL 在關(guān)系抽取任務中,往往基于類別平衡、數(shù)據(jù)分布均勻的假設(shè)。這種天然的樣本不平衡問題導致DL 在醫(yī)學影像領(lǐng)域的算法泛化能力下降。

綜上由于醫(yī)學影像數(shù)據(jù)各異不均,且數(shù)據(jù)的采集、整理及標注過程煩瑣且代價昂貴,使得大型標注數(shù)據(jù)集匱乏,嚴重影響DL算法的普適性,因為標注數(shù)據(jù)的多少決定了DL擬合函數(shù)的“智能”。目前DL技術(shù)在針對新型冠狀病毒肺炎的診斷應用中,主要挑戰(zhàn)是患者的影像數(shù)據(jù)不完整、雜亂、不明確及缺乏標準性[3]。

3 應對策略

3.1 數(shù)據(jù)的采集與規(guī)范

構(gòu)建高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)集,有效提高DL模型的準確性和魯棒性,具體如下。(1)采集:進一步規(guī)范相關(guān)醫(yī)療系統(tǒng)數(shù)據(jù)標準,以滿足DL模型對數(shù)據(jù)參數(shù)及質(zhì)量的要求,盡量覆蓋各種成像模態(tài)設(shè)備的機型、質(zhì)控指標及疾病類型等參數(shù)變量,弱化影像多源數(shù)據(jù)的異質(zhì)性;進一步優(yōu)化影像的采集與重建過程,對數(shù)據(jù)進行高倍降采樣,充分利用DL技術(shù)填充未采集的數(shù)據(jù),DL技術(shù)可以突破傳統(tǒng)依靠圖像稀疏性的假設(shè),利用大量數(shù)據(jù)來優(yōu)化求解圖像重建問題[12],替代了常見的基于多次迭代優(yōu)化的圖像重建的逆問題求解算法,提高了采集效率,同時可降低噪聲、提高圖像質(zhì)量,基于數(shù)據(jù)驅(qū)動DL的 MRI重建,重點在于利用深度網(wǎng)絡學習欠采樣數(shù)據(jù)到全采樣數(shù)據(jù)(k空間或圖像)的端到端映射關(guān)系[2]。(2)標注:立足數(shù)據(jù)和場景需求,直接面向?qū)W習目標,利用專業(yè)醫(yī)師的領(lǐng)域量化知識,如病變位置、范圍、良惡性評分等,盡量使用“金標準”進行學習標簽標注(如病理、基因型、生存期等),提高標注的準確性。(3)建立數(shù)據(jù)集:建立多中心數(shù)據(jù)集,創(chuàng)新數(shù)據(jù)共享機制,建立標準的醫(yī)學影像大樣本數(shù)據(jù)庫。

3.2 學習方法融合

基于DL 對高維數(shù)據(jù)強大的特征提取能力,有機融合其他方法,具體如下。(1)深度主動學習:主動學習即通過標記少量的樣本獲得模型的收益最大化[13],從數(shù)據(jù)集入手,設(shè)計精妙的查詢規(guī)則,從未標記的數(shù)據(jù)中選擇最佳樣本并查詢其標簽[13],學習算法主動地提出一些標注請求,將經(jīng)過篩選的數(shù)據(jù)反饋給專家以備標注,這樣可減少訓練數(shù)據(jù)集及其標注成本,其核心過程是篩選,有機結(jié)合深度、主動學習,將深度主動學習應用于醫(yī)學影像領(lǐng)域的具體工作有很多。(2)深度遷移學習:適當解脫DL 的數(shù)據(jù)獨立且分布均勻的依據(jù),將知識從源域遷移到目標域以解決數(shù)據(jù)不足的問題,基于網(wǎng)絡的深度遷移學習,首先在原領(lǐng)域預訓練網(wǎng)絡(如結(jié)構(gòu)、參數(shù)等),再用于目標任務中,使其成為新的神經(jīng)網(wǎng)絡的一部分[14],即在多種類別的大規(guī)模基準數(shù)據(jù)集上預訓練網(wǎng)絡,幫助網(wǎng)絡學習在目標任務上重用的通用特征,之后在預訓練網(wǎng)絡感興趣的目標(對應的標簽數(shù)據(jù)集較少)上進行微調(diào),遷移學習已成功應用于某些器官的影像分析中,但其推廣還需要更多的證據(jù)[7]。

3.3 探索基于因果表征的算法模型

目前,機器學習主要存在于產(chǎn)生統(tǒng)計依賴性的物理機制中[15],現(xiàn)有的DL同樣依據(jù)樣本數(shù)據(jù)獨立且均勻分布的假設(shè),沒有考慮變量的因果屬性。DL關(guān)注的重點是學習,缺乏良好的被理解的方式,故DL通常被認為是不易解釋的“黑匣子”,與醫(yī)師依據(jù)因果關(guān)系溯源病因不同。由于目前關(guān)于模型是基于何種特征做預測的研究較少,當模型預測結(jié)果與醫(yī)師判斷不一致時,醫(yī)師就得不到有效證據(jù)的解釋[16]。醫(yī)師如要理解DL在醫(yī)學影像中的現(xiàn)實性、可行性和實用性意義[7],這種費解確實是一個鴻溝。因此,探索基于因果關(guān)系的學習算法將有助于發(fā)現(xiàn)更豐富、更自然的醫(yī)學問題[17]。未來的模型應注重系統(tǒng)變量的因果生成過程,于學習中介入推理,生成基于因果性的接近醫(yī)師的診病方式,如利用因果關(guān)系的某一層級——反事實的方法賦予機器一種“想象”,當患者的疾病與原有模板中的病例不同時,可能對此自動聯(lián)想加工,做出正確的診斷。相關(guān)文獻[17]使用由1 617個臨床場景組成的測試集,得到反事實算法性能較關(guān)聯(lián)算法有大幅提升,這有利于通常難以診斷的罕見病及重癥病例的檢測,同時避免了基于相關(guān)性的診斷產(chǎn)生的誤差對這些病例帶來的嚴重后果。可見因果推理是將機器學習應用到醫(yī)學診療中的重要元素,它可促進統(tǒng)計依賴結(jié)構(gòu)的表象學習方法向支持干預、計劃和推理的模型改進[15]。同時基于因果屬性的學習模型對數(shù)據(jù)集所蘊含的規(guī)律、知識的理解,也有助于解決目前DL的弱解釋性問題。

4 結(jié)語

醫(yī)學影像是以DL為核心的醫(yī)療人工智能最有潛力的落地領(lǐng)域[16],DL的中心任務是提取蘊含在圖像中的信息,目前學習主要是基于數(shù)據(jù)驅(qū)動進行多層復合函數(shù)的擬合,其擬合的智能程度深受影像數(shù)據(jù)的諸多變化、不確定因素的制約,故需規(guī)范數(shù)據(jù)、改善采集,讓數(shù)據(jù)成為新的范式,并結(jié)合其他方法改進算法,如在DL中有機嵌入主動學習等方法,削弱DL對標注數(shù)據(jù)的貪婪程度,同時鑒于現(xiàn)階段DL在數(shù)學本質(zhì)上只有“記憶”能力,沒有“理解”能力,從而探索基于因果關(guān)系的學習方法,以增強影像輔助診療的準確性,有助于未來DL精準賦能醫(yī)療,以及促進智慧醫(yī)療距離真正落地更進一步。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲天堂首页| 国产乱人激情H在线观看| 91美女视频在线| 国产乱子伦视频在线播放| 天天综合天天综合| 欧美三级日韩三级| 亚洲第一网站男人都懂| 2020最新国产精品视频| 免费国产好深啊好涨好硬视频| 欧美一级黄色影院| 国产精品人莉莉成在线播放| 99久久精品视香蕉蕉| 亚洲精品va| 自慰高潮喷白浆在线观看| 日韩在线视频网站| 国产在线精品99一区不卡| h视频在线播放| 色男人的天堂久久综合| 欧美日韩精品综合在线一区| 69视频国产| 综合成人国产| 日韩免费毛片| 日韩精品资源| 国产精品视频999| 国产成人无码Av在线播放无广告| 国产成人禁片在线观看| 亚洲精品无码成人片在线观看| 日韩一区精品视频一区二区| 国产一级妓女av网站| 欧美激情伊人| 国产美女无遮挡免费视频网站| 亚洲日产2021三区在线| 欧亚日韩Av| 国产精品视频第一专区| 国产精品99在线观看| 亚洲最大综合网| 青青草原国产精品啪啪视频| 欧美日韩午夜| 国产精品午夜电影| 全部免费毛片免费播放| 91小视频在线| 国产一区在线观看无码| 亚洲最大福利网站| 91午夜福利在线观看| 久久无码免费束人妻| 国产欧美视频在线观看| 国禁国产you女视频网站| 免费一级成人毛片| 最新国产成人剧情在线播放| 亚洲va视频| 毛片一级在线| av无码一区二区三区在线| 亚洲高清日韩heyzo| 欧美国产日韩在线观看| 国产精品嫩草影院av| 欧美午夜理伦三级在线观看| 91无码国产视频| 中文字幕无码制服中字| 亚洲AV色香蕉一区二区| 午夜欧美理论2019理论| 欧美日韩精品在线播放| 黑人巨大精品欧美一区二区区| 亚洲成人高清无码| 亚洲国产精品无码AV| 欧美成人影院亚洲综合图| 精品无码国产自产野外拍在线| 婷婷六月天激情| 国产精品亚洲一区二区在线观看| 国产欧美精品专区一区二区| 亚洲精品卡2卡3卡4卡5卡区| 国产成人一区| 国产国拍精品视频免费看| 农村乱人伦一区二区| 国产成人精品午夜视频'| 国产九九精品视频| 夜夜操国产| 91色老久久精品偷偷蜜臀| 国产91av在线| 国产成人综合亚洲欧美在| 国产伦片中文免费观看| 国产美女免费网站| 欧美性猛交一区二区三区 |