999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

COVID-19醫(yī)學(xué)影像數(shù)據(jù)集及研究進(jìn)展

2021-11-26 07:21:30尚媛園邵珠宏
關(guān)鍵詞:分類特征模型

劉 銳,丁 輝,2,尚媛園,2,邵珠宏,3,劉 鐵,4

1.首都師范大學(xué) 信息工程學(xué)院,北京100048

2.成像技術(shù)北京市高精尖創(chuàng)新中心,北京100048

3.高可靠嵌入式系統(tǒng)技術(shù)北京市工程研究中心,北京100048

4.電子系統(tǒng)可靠性技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100048

醫(yī)學(xué)影像用于疾病的輔助診斷,已經(jīng)成為一種常見、有效的方法。自COVID-19爆發(fā)以來,雖然CT影像對(duì)早期的新冠病變特征缺乏一定的敏感性,但利用CT影像對(duì)新冠肺炎患者進(jìn)行輔助診斷和治療跟蹤,以及利用X 射線圖像進(jìn)行輔助檢測(cè)仍然是一種必要的輔助方法[1-3]。目前,利用人工智能技術(shù)對(duì)新冠CT影像和CXR影像進(jìn)行圖像分類和病灶分割已經(jīng)成為醫(yī)學(xué)圖像分析中廣泛關(guān)注的內(nèi)容,學(xué)者們也開展了大量的相關(guān)研究。

數(shù)據(jù)集和算法模型是當(dāng)前基于深度學(xué)習(xí)方法開展研究最重要的兩大因素。在新冠肺炎爆發(fā)初期,由于涉及到患者隱私,很少公開相關(guān)COVID-19 影像數(shù)據(jù)集,多數(shù)研究工作使用的COVID-19 影像數(shù)據(jù)集包含幾十到幾百?gòu)埖膱D像數(shù)據(jù)。也有些論文采用了數(shù)據(jù)較多的私有數(shù)據(jù)集,但這些數(shù)據(jù)集不支持廣泛使用[4-8]。由于缺乏足夠的訓(xùn)練數(shù)據(jù),大部分研究工作采用數(shù)據(jù)增強(qiáng)(Data Augmentation)方式擴(kuò)充訓(xùn)練集,并提出了多種基于小樣本COVID-19數(shù)據(jù)集的檢測(cè)分割模型。

隨著相關(guān)研究工作的展開和醫(yī)學(xué)圖像數(shù)據(jù)的積累,陸續(xù)有多個(gè)大型COVID-19 影像數(shù)據(jù)集公開發(fā)布。本文通過對(duì)不同文獻(xiàn)和報(bào)道中提到的大量分散的開源數(shù)據(jù)集進(jìn)行梳理,提供相關(guān)描述和下載鏈接;分析并綜述COVID-19圖像分類和圖像分割主流算法模型和應(yīng)用特點(diǎn);對(duì)CT影像和CXR影像的特征進(jìn)行描述。

1 COVID-19影像表現(xiàn)

計(jì)算機(jī)斷層掃描圖像(CT)和X射線(CXR)圖像是常見的,也是重要的胸部醫(yī)學(xué)影像數(shù)據(jù)。在醫(yī)學(xué)影像分析中,病灶影像的統(tǒng)計(jì)和紋理特征是非常重要的圖像檢測(cè)與識(shí)別依據(jù),被廣泛地應(yīng)用于定量化描述病灶圖像的特性[9]。

1.1 影像特征

1.1.1 統(tǒng)計(jì)特征

醫(yī)學(xué)影像大多數(shù)為灰度圖像,且灰度值統(tǒng)計(jì)呈現(xiàn)低對(duì)比灰度特性。以下介紹兩種在醫(yī)學(xué)影像中能比較有效進(jìn)行灰度區(qū)分的統(tǒng)計(jì)特征。

偏度:相對(duì)于灰度均值不對(duì)稱程度的度量。通過對(duì)偏度系數(shù)的測(cè)量,能夠判定數(shù)據(jù)分布的不對(duì)稱程度以及方向。其公式如下:

式中,σ為標(biāo)準(zhǔn)方差;m為平均灰度;rj為直方圖上概率密度不為0的灰度值;p(rj)為rj對(duì)應(yīng)的概率密度。

熵:反映了圖像中平均信息量的多少,常用于描述圖像的復(fù)雜度。用p(rj)表示rj對(duì)應(yīng)的概率密度,則熵的定義如下:

1.1.2 紋理特征

紋理特征通常不是從圖像上直接得出的,而是先通過某種計(jì)算將原始圖像的特性提取出來并存在一個(gè)中間矩陣中。在醫(yī)學(xué)影像研究中,最常用的一種紋理特征就是灰度共生矩陣[10-12],并以灰度共生矩陣的一些特性進(jìn)行度量。以下是逆差距和相關(guān)性的定義。

逆差距:反映圖像紋理的局部變化。其公式如下:

式中,pij為位置j距離位置i在指定距離為d時(shí)出現(xiàn)次數(shù)的歸一化計(jì)數(shù)。

自相關(guān):反映圖像紋理的相似程度。其公式如下:

式中,mr和mc分別是行和列的均值,σr和σc分別是行和列的標(biāo)準(zhǔn)差。

1.2 CT影像表現(xiàn)

胸部計(jì)算機(jī)斷層掃描是一種非侵入式掃描,以獲取患者胸部的精確圖像。對(duì)不同嚴(yán)重程度的COVID-19 患者,其胸部CT圖像表現(xiàn)不同的特征[13]。

COVID-19 患者在肺部CT 上最常見的表現(xiàn)為毛玻璃混濁(GGO)和實(shí)變(CL)。當(dāng)病情加重時(shí),GGO和實(shí)變數(shù)量增加,并且主要分布于肺邊緣;而隨著疾病改善,病灶逐漸被吸收形成纖維化條紋[14-19]。多數(shù)患者同時(shí)還會(huì)表現(xiàn)出小葉間隔增厚、支氣管血管增厚等影像特征[20]。圖1為患者肺部CT影像學(xué)表現(xiàn)。

圖1 COVID-19患者肺部CT圖像Fig.1 CT image of lungs of a COVID-19 patient

結(jié)合圖像的統(tǒng)計(jì)特征,在CC-CCII數(shù)據(jù)集[21]中隨機(jī)選取COVID-19 中的三組正常和感染的肺部CT 樣本,對(duì)病灶及正常肺組織區(qū)域的統(tǒng)計(jì)特征進(jìn)行分析和對(duì)比,結(jié)果如表1所示。CC-CCII數(shù)據(jù)集是目前數(shù)據(jù)圖像比較清晰,且具有較好分割標(biāo)簽的分割數(shù)據(jù)集,將在2.1節(jié)中詳細(xì)介紹。

表1 病灶和正常組織CT圖像紋理特征分析Table 1 CT image texture features of lesions and normal tissues

從表1 中可以看出,病灶區(qū)域和正常組織的標(biāo)準(zhǔn)差、偏度以及熵方面數(shù)值明顯不同。病灶區(qū)因?yàn)榫哂忻A匦裕跃蹈?,而且不?duì)稱性高,偏度值較小?;诮y(tǒng)計(jì)特征,雖然不能明顯用于病灶檢測(cè)與判斷,但這些特征的差異性對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的特征學(xué)習(xí)和結(jié)構(gòu)設(shè)計(jì)具有一定的參考價(jià)值。

1.3 X射線影像表現(xiàn)

與CT 掃描斷層成像相比,X 射線的CXR 圖像更容易獲得,從而廣泛用于胸部的影像檢測(cè)。在COVID-19影像診斷中,使用CXR 的主要障礙是缺乏可以通過視覺確認(rèn)的細(xì)節(jié),CXR影像表現(xiàn)為空域渾濁,主要分布于肺邊緣[22],如圖2所示。實(shí)際使用中,通常將CXR與CT結(jié)合進(jìn)行更好的診斷分析[23]。

圖2 正常和COVID-19患者肺部CXR圖Fig.2 Lungs CXR of normal and COVID-19 patients

由于CXR 影像缺少細(xì)節(jié)信息,從而對(duì)整幅圖像的紋理特征進(jìn)行對(duì)比。在COVID-19 Radiography Database數(shù)據(jù)集[24]中分別隨機(jī)選取三組正常和患者的肺部CXR樣本。COVID-19 Radiography Database數(shù)據(jù)集的介紹在2.2節(jié)中進(jìn)行。

采用紋理特征分析的結(jié)果如表2 所示,正常肺的CXR 圖像和感染COVID-19 肺的CXR 圖像相比,在基于灰度共生矩陣的紋理特征上具有一定的差異性。但有些差異不是很明顯,只有對(duì)比度的數(shù)據(jù)差異較明顯,感染者圖像的對(duì)比度是正常肺圖像的2~3倍。

表2 正常和患者胸部CXR圖像紋理特征分析Table 2 CXR texture features of normal and patient’s chest

2 相關(guān)開源數(shù)據(jù)集

數(shù)據(jù)集是構(gòu)建基于深度學(xué)習(xí)的COVID-19 診斷和分割模型的重要基礎(chǔ),尤其是能開源下載的數(shù)據(jù)集[25]。本文整理了目前比較重要的18 個(gè)相關(guān)數(shù)據(jù)集,其中13個(gè)數(shù)據(jù)集包含CT影像,8個(gè)數(shù)據(jù)集包含CXR影像。表3列出各數(shù)據(jù)集的數(shù)據(jù)類型、數(shù)量和數(shù)據(jù)來源,并對(duì)其使用進(jìn)行了描述。

表3 18個(gè)開源數(shù)據(jù)集Table 3 18 open-source datasets

由于肺部CT圖像攜帶更多的細(xì)節(jié)信息,CT數(shù)據(jù)集被廣泛運(yùn)用于COVID-19的檢測(cè)與分割,而CXR數(shù)據(jù)集多用于COVID-19 的檢測(cè)[40]。這些數(shù)據(jù)集中的圖像包含.nii.gz、JPG、PNG 和DICOM 等多種格式存儲(chǔ)。附錄中表A1給出了所有數(shù)據(jù)集的圖例。

2.1 CT分割數(shù)據(jù)集

構(gòu)建用于COVID-19 病灶分割的數(shù)據(jù)集需要大量的標(biāo)注工作,經(jīng)過整理和查找,目前可用于COVID-19分割的開源數(shù)據(jù)集有以下5個(gè)。

(1)COVID-19-CT-Seg 數(shù)據(jù)集(http://medicalsegmentation.com/covid19/):該數(shù)據(jù)集由意大利醫(yī)療和介入放射協(xié)會(huì)收集,包含超過40名COVID-19患者的100張CT圖像。用于訓(xùn)練COVID-19病灶分割模型,標(biāo)簽包含毛玻璃影、實(shí)變和胸腔積液。該數(shù)據(jù)集在病灶分割中最常見。

(2)Segmentation dataset nr.2數(shù)據(jù)集(http://medicalsegmentation.com/covid19/)該數(shù)據(jù)集源于Radiopaedia中9例新冠肺炎患者的三維CT影像。共包含829張切片,并對(duì)其中373張切片進(jìn)行了標(biāo)注,標(biāo)簽包含肺和感染區(qū)域。

(3)COVID-19-CT-Seg-Benchmark 數(shù)據(jù)集(https://zenodo.org/record/3757476#.YAj7HO):該數(shù)據(jù)集由Ma等創(chuàng)建[26],包含20 例標(biāo)記的COVID-19 患者肺部三維CT影像,切片大小為512×512 像素。分割標(biāo)簽包含左肺、右肺和感染區(qū)域。

(4)COVID19_1110 數(shù)據(jù)集(https://mosmed.ai/datasets/covid19_1110):該數(shù)據(jù)集[27]由莫斯科醫(yī)院提供,包含1 100例COVID-19患者三維肺部CT圖像,切片大小為512×512像素。其中50例帶有分割標(biāo)簽,對(duì)毛玻璃影和實(shí)變區(qū)域進(jìn)行標(biāo)注,用于病灶區(qū)域分割。

(5)CC-CCII 數(shù)據(jù)集(http://ncov-ai.big.ac.cn/download):該數(shù)據(jù)集存儲(chǔ)于國(guó)家生物信息中心,包含COVID-19肺炎(NCP)、普通肺炎(CP)和正常(Normal)。其中對(duì)來自150例患者的共750張CT切片手動(dòng)標(biāo)注為背景、肺部、GGO和CL,用于分割。該數(shù)據(jù)集圖像大小均為512×512像素,且圖像清晰,適合分類和分割任務(wù)。Zhang等人[21]公布了該數(shù)據(jù)集,并利用該數(shù)據(jù)集開發(fā)輔助診斷AI系統(tǒng),檢測(cè)并分割COVID-19 病灶區(qū)域,并進(jìn)一步分析影像特征與臨床數(shù)據(jù)的相關(guān)性。

在病灶分割領(lǐng)域中,COVID-19-CT-Seg 和CC-CCII數(shù)據(jù)集包含帶有標(biāo)簽的二維CT 圖像。對(duì)于三維CT 影像,經(jīng)過切片后可采用對(duì)比度增強(qiáng)方法提升圖像質(zhì)量,以構(gòu)建數(shù)量更多的二維分割數(shù)據(jù)集。

2.2 CT分類數(shù)據(jù)集

COVID-CT-Dataset(https://github.com/UCSD-AI4H/COVID-CT)和SARS-CoV-2 CT(https://www.kaggle.com/plameneduardo/sarscov2-ctscan-dataset)是早期最常用的二分類診斷數(shù)據(jù)集[28-29],但這些數(shù)據(jù)集樣本數(shù)量太少且圖像大小不統(tǒng)一。COVID-19-CT-CXR(https://github.com/ncbi-nlp/COVID-19-CT-CXR)數(shù)據(jù)集[35]是從PubMed Central Open Access(PMC-OA)文章中提取的,數(shù)據(jù)質(zhì)量不高。以下是整理的目前3 個(gè)數(shù)據(jù)質(zhì)量較好且數(shù)量充足的CT分類數(shù)據(jù)集。

(1)COVID-CTset數(shù)據(jù)集(https://github.com/mr7495/COVID-CTset):該數(shù)據(jù)集由伊朗Sari的Negin醫(yī)療中心收集[30],包含95名患者和282名正常的CT影像,分辨率均為512×512像素。區(qū)別于其他數(shù)據(jù)集,該數(shù)據(jù)集圖像的灰度級(jí)為16 位,在目前整理的數(shù)據(jù)集中圖像質(zhì)量最高,用于二分類檢測(cè)。

(2)CT-COVID-19-August2020 數(shù)據(jù)集(https://wiki.cancerimagingarchive.net/display/Public/COVID-19):該數(shù)據(jù)集[32]在癌癥影像檔案館(TCIA)上發(fā)布,包括兩部分,第一部分包含632 名COVID-19 感染患者的650次肺部CT 掃描,第二部分包含29 名患者的121 次CT 掃描。TCIA 是一個(gè)醫(yī)學(xué)圖像的大規(guī)模公用數(shù)據(jù)庫(kù),包含多種腫瘤數(shù)據(jù),其影像模態(tài)包括MRI、CT 等,并且網(wǎng)站內(nèi)數(shù)據(jù)在持續(xù)增加,提供影像數(shù)據(jù)的來源接口。

(3)HUST-19 數(shù)據(jù)集(http://ictcf.biocuckoo.cn/):該數(shù)據(jù)集由華中科技大學(xué)提供,并開發(fā)了一個(gè)以患者為中心的資源庫(kù)(iCTCF),包含COVID-19、正常和可疑患者的肺部CT切片以及相應(yīng)的臨床數(shù)據(jù)。其中手動(dòng)標(biāo)記了19 685張CT影像用于模型訓(xùn)練。Ning等[31]開發(fā)一套混合學(xué)習(xí)模型,通過整合CNN對(duì)影像分類結(jié)果和DNN對(duì)臨床數(shù)據(jù)分類結(jié)果預(yù)測(cè)患者的嚴(yán)重程度以及死亡率。

2.3 CXR數(shù)據(jù)集

CXR影像數(shù)據(jù)集通常包括COVID-19陽(yáng)性、其他病毒性肺炎和正常的胸部X射線圖像。pneumonia-chestxray dataset(https://www.kaggle.com/paultimothymooney/chestxray-pneumonia)來自廣州市婦幼保健中心[33],該數(shù)據(jù)集不包含COVID-19CXR影像,但常用于數(shù)據(jù)擴(kuò)充。COVIDchestxray-dataset(https://github.com/ieee8023/covid-chestxraydataset)來自在線開源數(shù)據(jù)、網(wǎng)站以及文獻(xiàn)中的圖片[34],該數(shù)據(jù)集公開較早,但數(shù)據(jù)量較少。COVID-19 Radiography Database(https://www.kaggle.com/tawsifurrahman/covid19-radiography-database)由卡塔爾大學(xué)和達(dá)卡大學(xué)的研究人員合作建立[24],該數(shù)據(jù)集包含3 616張COVID-19 陽(yáng)性、1 345 張病毒性肺炎、6 012 張肺部不透明(非COVID-19)和10 192張正常圖像。

2.4 CT和CXR混合數(shù)據(jù)集

(1)COVID-19-AR數(shù)據(jù)集(https://wiki.cancerimagingarchive.net/display/Public/COVID-19):該數(shù)據(jù)集[36]是TCIA上發(fā)布的,其中包括105 名患者的233 次CXR 和23 次CT掃描,圖片總數(shù)為31 935張。所有圖像數(shù)據(jù)以DICOM標(biāo)準(zhǔn)格式存儲(chǔ)。每個(gè)患者都有一組臨床數(shù)據(jù)來描述。

(2)BIMCV COVID-19+數(shù)據(jù)集(https://osf.io/nh7g8/):該數(shù)據(jù)集來源于巴倫西亞醫(yī)學(xué)圖像存儲(chǔ)庫(kù)(BIMCV)[37],其中包含COVID-19 患者的胸部CXR 和CT 圖像,以及相關(guān)臨床數(shù)據(jù)。此外,一組放射線專家對(duì)23 張圖像進(jìn)行標(biāo)注,用于病灶區(qū)域的語(yǔ)義分割。

(3)MIDRC-RICORD 數(shù)據(jù)集(https://wiki.cancerimagingarchive.net/display/Public/COVID-19):該數(shù)據(jù)集[38]也是在TCIA上發(fā)布,包括CT掃描和X射線掃描。其中所有COVID-19 CT 圖像的病灶區(qū)域進(jìn)行逐像素標(biāo)注,所有X光片進(jìn)行了分類標(biāo)記。該數(shù)據(jù)集有三部分,共包含240例CT和1 000例CXR影像。

(4)COVIDx數(shù)據(jù)集(https://github.com/lindawangg/COVID-Net):該數(shù)據(jù)集[39]來源于COVID-Net開源計(jì)劃,由加拿大達(dá)爾文AI公司和加拿大滑鐵盧大學(xué)視覺與圖像處理研究組負(fù)責(zé)維護(hù)。在最新的COVIDx8B版本中,包含16 352 張CXR 影像,在COVIDx-CT 版本中包含194 922個(gè)CT圖片。

在分類領(lǐng)域中,國(guó)內(nèi)發(fā)布的CC-CCII 和HUST-19 CT 影像數(shù)據(jù)集質(zhì)量可靠,期待更多的模型在此數(shù)據(jù)集上訓(xùn)練對(duì)比;TCIA上發(fā)布的CT-COVID-19-August2020、COVID-19-AR 和MIDRC-RICORD 數(shù)據(jù)集中包含高質(zhì)量的CT 和CXR 影像數(shù)據(jù),但這些數(shù)據(jù)以患者為單位,研究人員需要在此數(shù)據(jù)集上重新構(gòu)建適合深度學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)集,具有潛在的研究?jī)r(jià)值。

3 基于深度學(xué)習(xí)的研究模型

基于深度學(xué)習(xí)的COVID-19 研究可以從模型任務(wù)(分類或分割)角度進(jìn)行分類與闡述。不同嚴(yán)重程度的肺部病灶表現(xiàn)有所差異,給分類分割任務(wù)帶來一定挑戰(zhàn)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)通過學(xué)習(xí)圖像的高級(jí)特征,并將其映射為一維向量,經(jīng)過softmax層輸出分類結(jié)果;分割基于U型結(jié)構(gòu),編碼器先通過卷積提取特征,解碼器再通過反卷積進(jìn)行像素分類,最終輸出分割標(biāo)簽。圖3為CNN在不同任務(wù)中的應(yīng)用結(jié)構(gòu)。

圖3 卷積神經(jīng)網(wǎng)絡(luò)在不同任務(wù)中的應(yīng)用Fig.3 Application of convolutional neural network in different tasks

隨著大量數(shù)據(jù)集公布,高質(zhì)量的數(shù)據(jù)集可以幫助模型精確地提取病灶特征,多數(shù)數(shù)據(jù)集已被科研工作者使用,用于COVID-19 的高效診斷和預(yù)后。圖4 為各數(shù)據(jù)集的使用情況總結(jié)。

由圖4 可以看出,分類的數(shù)據(jù)集較多,分類檢測(cè)的應(yīng)用要多于病灶區(qū)域分割,多數(shù)模型在多個(gè)數(shù)據(jù)集上訓(xùn)練,以提高模型泛化能力。一些開源較早的數(shù)據(jù)集使用得較多,部分?jǐn)?shù)據(jù)集還未獲得廣泛使用。

圖4 各數(shù)據(jù)集中模型使用情況總結(jié)Fig.4 Summary of model usage in each dataset

3.1 COVID-19分類模型

對(duì)于新冠肺炎的分類任務(wù),一般多為二分類(區(qū)分COVID-19和非COVID-19)和三分類(區(qū)分COVID-19、普通肺炎和正常)。

3.1.1 CT圖像分類

對(duì)CT影像的分類模型的性能對(duì)比見表4所示。3D分類模型一般效果好于2D 模型,但目前沒有普遍可用的3D預(yù)訓(xùn)練模型,且3D模型參數(shù)量較大,在數(shù)據(jù)量較少的情況下難以收斂,容易過擬合。在COVID-CT-Dataset上訓(xùn)練的模型分類效果不佳,原因可能與數(shù)據(jù)量太少或質(zhì)量不好有關(guān)。在SARS-CoV-2 CT數(shù)據(jù)集上,DenseNet201的分類表現(xiàn)最好。

表4 CT數(shù)據(jù)集上分類模型性能對(duì)比Table 4 Performance comparison of classification models on CT datasets

(1)常見骨干網(wǎng)絡(luò)

采用常見的骨干網(wǎng)絡(luò)(包括VGG、ResNet、DenseNet等)進(jìn)行有效的特征提取,并用于后續(xù)的融合、分類等操作。Li 等[41]通過對(duì)比不同的3D ResNet,發(fā)現(xiàn)輸入深度為4 且批量為32 切片時(shí)3D ResNet-18 分類效果最好。Benmalek等[52]通過對(duì)比Resnet-18、InceptionV3和Mobile-NetV2在CT和CXR上的分類性能,發(fā)現(xiàn)ResNet-18在CT上精度最高,InceptionV3在CXR上精度最高。Yang等[28]訓(xùn)練DenseNet-169 用于COVID-19 的檢測(cè),利用特征提取網(wǎng)絡(luò)和空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)提取更準(zhǔn)確的特征。Peng等[35]在COVID-19-CT-CXR 數(shù)據(jù)集上訓(xùn)練DenseNet121 對(duì)CT 分類性能測(cè)試。Rahimzadeh 等[30]使用ResNet50v2 和修改的特征金字塔結(jié)構(gòu),在COVID-CTset上提高分類準(zhǔn)確性。

(2)數(shù)據(jù)增強(qiáng)

為了避免模型訓(xùn)練過擬合和提高模型分類的準(zhǔn)確度,常使用數(shù)據(jù)增強(qiáng)方法擴(kuò)充數(shù)據(jù)集。常用的數(shù)據(jù)增強(qiáng)方法包括有監(jiān)督的幾何變換和無監(jiān)督GAN(Generative Adversarial Network)[53]。Jaiswal 等[48]對(duì)SARS-CoV-2 CT 數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)、傾斜、翻轉(zhuǎn)以及像素填充等操作。Li等[45]對(duì)COVID-CT-Dataset使用仿射變換和平移等操作。此外,多數(shù)模型使用無監(jiān)督GAN增強(qiáng)數(shù)據(jù)。Mobiny等[47]使用基于條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)的pix2pix 網(wǎng)絡(luò)在COVID-CT-Dataset 上生成圖像。Jiang 等[54]利用循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)在大規(guī)模的肺癌數(shù)據(jù)集上生成GGO 圖像。He 等[42]在三維模型中使用混合數(shù)據(jù)增強(qiáng)(mixup)[55]方法,并證明該方法可以有效地提高模型精度。Loey等[46]使用傳統(tǒng)數(shù)據(jù)增強(qiáng)和CGAN的結(jié)合,改善了實(shí)驗(yàn)準(zhǔn)確性和性能。

(3)遷移學(xué)習(xí)

使用遷移學(xué)習(xí)的方法也可以彌補(bǔ)數(shù)據(jù)集不足的問題,通常加載ImageNet上的預(yù)訓(xùn)練參數(shù)。Jaiswal等[48]使用深度遷移學(xué)習(xí)模型(Deep Transfer Learning,DTL),通過使用預(yù)訓(xùn)練的DenseNet201 在SARS-CoV-2 CT 數(shù)據(jù)集上訓(xùn)練。Loey 等[46]使用五種深度遷移學(xué)習(xí)模型在COVID-CT-Dataset 上進(jìn)行訓(xùn)練,并結(jié)合數(shù)據(jù)增強(qiáng),結(jié)果表明ResNet50 的分類效果最好。Li 等[45]提出了一種基于遷移學(xué)習(xí)的COVID-19檢測(cè)方法,通過微調(diào)預(yù)先訓(xùn)練好的CheXNet[56]模型在COVID-19-Dataset上進(jìn)行實(shí)驗(yàn)。

(4)集成學(xué)習(xí)

使用集成學(xué)習(xí)集成多個(gè)分類模型,通過投票等方式?jīng)Q定分類結(jié)果,可以有效提高分類準(zhǔn)確度。Gifani 等[44]使用15 種不同的預(yù)先訓(xùn)練好的分類模型用于分類任務(wù),利用集成學(xué)習(xí)方法在COVID-CT-Dataset進(jìn)行訓(xùn)練,采用投票數(shù)輸出分類結(jié)果。

(5)輕量級(jí)模型

針對(duì)COVID-19數(shù)據(jù)集的特點(diǎn)以及分類任務(wù),多篇文獻(xiàn)提出輕量級(jí)的分類模型。Mobiny 等[47]提出了面向細(xì)粒度識(shí)別的膠囊網(wǎng)絡(luò)(CapsNet)結(jié)構(gòu)DECAPS,利用激活圖裁剪并提取感興趣區(qū)域的細(xì)粒度表示。He等[42]設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的神經(jīng)結(jié)構(gòu)搜索(Neural ArchitectureSearch,NAS)[57]方法生成輕量級(jí)三維模型MNas3DNet41,通過堆疊預(yù)定義的單元構(gòu)建模型。Gunraj 等[51]提出了針對(duì)肺炎CT圖像分類的模型COVIDNet-CT,通過堆疊映射-復(fù)制-映射-擴(kuò)展(PRPE和PRPE-S)的模塊。Wang等[50]提出了一種聯(lián)合學(xué)習(xí)方案,通過從異構(gòu)數(shù)據(jù)集中學(xué)習(xí)改善診斷效果。Shah等[43]提出CTnet-10模型,并與五種模型對(duì)比,VGG-19 的分類效果最佳,但CTnet-10 的預(yù)測(cè)時(shí)間最短。

3.1.2 CXR圖像分類

CXR 分類模型與CT 分類模型類似,使用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、集成學(xué)習(xí)等方法,分類準(zhǔn)確度較高。值得注意的是,一些輕量級(jí)CNN 往往比復(fù)雜結(jié)構(gòu)的分類效果更好。CXR影像分類模型的性能對(duì)比見表5。

表5 CXR數(shù)據(jù)集上分類模型性能對(duì)比Table 5 Performance comparison of classification models on CXR datasets

在數(shù)據(jù)增強(qiáng)方面,Ragb等[58]、Sousa等[59]和Chouhan等[60]均采用傳統(tǒng)有監(jiān)督數(shù)據(jù)增強(qiáng)方法。Khalifa 等[61]采用無監(jiān)督GAN 擴(kuò)充數(shù)據(jù)集。在遷移學(xué)習(xí)方面,Ragb 等[57]、Chouhan 等[60]和Khalifa 等[61]均使用在ImageNet 上預(yù)先訓(xùn)練好的模型作為骨干網(wǎng)絡(luò)。區(qū)別于使用ImageNet上的預(yù)訓(xùn)練模型,Hertel 等[64]通過預(yù)先在ChestX-ray14 數(shù)據(jù)集[65]上進(jìn)行訓(xùn)練,提高了對(duì)病灶區(qū)域特征的捕捉能力。在集成學(xué)習(xí)方面,Ragb 等[57]集成了3 個(gè)分類模型,Chouhan 等[60]集成5 個(gè)分類模型,通過投票決定分類結(jié)果以提高分類準(zhǔn)確度。Qi 等[63]通過增強(qiáng)圖像局部相位信息作為數(shù)據(jù)擴(kuò)充輸入到神經(jīng)網(wǎng)絡(luò)中,并結(jié)合半監(jiān)督訓(xùn)練方法,利用小型已標(biāo)記的數(shù)據(jù)訓(xùn)練大型未標(biāo)記數(shù)據(jù)。

通過設(shè)計(jì)輕量級(jí)的X 射線分類模型,減少模型參數(shù),也能達(dá)到很好的表現(xiàn)。Wang 等[39]提出一種輕量級(jí)的CXR 分類模型COVID-Net,使用PEPX 模塊,即通過1×1卷積實(shí)現(xiàn)映射到擴(kuò)展到映射到擴(kuò)展的設(shè)計(jì)模式,分類效果超過VGG-19和ResNet-50。

3.2 COVID-19分割模型

COVID-19 病灶區(qū)域的分割主要用于CT 影像上。目前用于分割的數(shù)據(jù)集較少,并且COVID-19病灶邊緣模糊,導(dǎo)致針對(duì)病灶區(qū)域分割的Dice 指標(biāo)還未達(dá)到90%,模型的泛化能力也不強(qiáng),該分割領(lǐng)域仍然存在挑戰(zhàn)。各模型間的分割性能對(duì)比如表6所示。

表6 各分割模型性能對(duì)比Table 6 Performance comparison of each segmentation model

(1)數(shù)據(jù)增強(qiáng)

宋瑤等[73]對(duì)現(xiàn)有的數(shù)據(jù)集圖像和標(biāo)簽同時(shí)隨機(jī)旋轉(zhuǎn)、裁剪和翻轉(zhuǎn),采用ImageNet 上預(yù)先訓(xùn)練的Efficient-Net-B0作為特征提取器,并通過Dusampling上采樣[75]代替?zhèn)鹘y(tǒng)的上采樣結(jié)構(gòu)以改進(jìn)U-Net。使用GAN 網(wǎng)絡(luò)合成感染圖像,一定程度上解決數(shù)據(jù)標(biāo)注困難的問題。Jiang 等[70]提出了一種基于CGAN 的CT 圖像合成方法用于COVID-19 分割,在生成器上使用動(dòng)態(tài)元素加權(quán)(Dynamic Element-wise Sum,DESUM),在判別器上使用動(dòng)態(tài)特征匹配(Dynamic Feature Matching,DFM),提高合成圖像的質(zhì)量。Zhang等[71]提出了一種生成模型CoSinGAN,結(jié)合GAN 和特征金字塔結(jié)構(gòu),通過條件約束和跨尺度重建圖像細(xì)節(jié)。

(2)注意力機(jī)制

結(jié)合注意力機(jī)制可以更好地突出分割區(qū)域特征,豐富上下文依賴信息。Zhou 等[68]提出了將注意力機(jī)制結(jié)合到U-Net 架構(gòu),引入scSE 注意力模塊,捕獲上下文信息以獲得更好的特征表示;在編碼器和解碼器部分使用擴(kuò)張卷積的殘差塊(Res_dil),以增加感受野。Rajamani等[69]提出一種動(dòng)態(tài)可變形的注意力網(wǎng)絡(luò)DDANet,將CCA(Criss-Cross Attention)模塊[76]引入到U-Net架構(gòu)中以連續(xù)學(xué)習(xí)注意力系數(shù),該模型分割效果較U-Net和Inf-Net有了明顯的提升。Zhao 等[72]提出一種擴(kuò)張卷積的雙重注意力機(jī)制模型(D2A U-Net)自動(dòng)分割CT切片中的肺部感染,通過擴(kuò)張卷積增大感受野,防止信息丟失。同時(shí),引入門控注意力模塊(Gate Attention Module,GAM)和解碼注意力模塊(Decoder Attention Module,DAM)細(xì)化特征,GAM 融合豐富的語(yǔ)義特征,DAM 提高解碼質(zhì)量。

(3)輕量級(jí)模型

為適應(yīng)數(shù)量不足的分割數(shù)據(jù)集,相對(duì)輕量級(jí)的基于小樣本數(shù)據(jù)集的模型相繼被提出。Fan等[66]提出了一種COVID-19 病灶區(qū)域CT 分割模型Inf-Net,該網(wǎng)絡(luò)利用反向注意力(Reverse Attention,RA)模塊和邊緣注意力(Edge Attention,EA)模塊來改進(jìn)感染區(qū)域邊界的識(shí)別。Qiu等[67]提出了MiniSeg模型,結(jié)合注意層次空間金字塔(Attentive Hierarchical Spatial Pyramid,AHSP)模塊,進(jìn)行有效的多尺度學(xué)習(xí),并且證明了相同數(shù)據(jù)集上,該模型比Inf-Net的分割效果更好。

4 結(jié)束語(yǔ)

本文主要對(duì)新冠肺炎不同的影像學(xué)數(shù)據(jù)集在不同任務(wù)下的應(yīng)用進(jìn)行分析,收集和整理了18 個(gè)開源影像數(shù)據(jù)集,其中13個(gè)包含CT影像和8個(gè)包含CXR影像的數(shù)據(jù)集,提供了這些數(shù)據(jù)集的描述和下載鏈接。由于數(shù)據(jù)集來源于不同國(guó)家、不同機(jī)構(gòu)和不同設(shè)備,采集的影像數(shù)據(jù)在質(zhì)量上參差不齊,而且缺乏一定的質(zhì)量標(biāo)準(zhǔn),導(dǎo)致一些數(shù)據(jù)集不能被很好地使用。因此,借鑒TCIA上對(duì)影像數(shù)據(jù)采集的一些標(biāo)準(zhǔn),建議在進(jìn)行新數(shù)據(jù)采集時(shí),應(yīng)對(duì)影像數(shù)據(jù)格式的一致性、元數(shù)據(jù)(數(shù)據(jù)、日期、位置、影像的分辨率等)的規(guī)范性和數(shù)據(jù)標(biāo)簽的完整性進(jìn)行統(tǒng)一的規(guī)范要求,或開展采集圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)的研究。此外,由于醫(yī)學(xué)影像數(shù)據(jù)經(jīng)常包括患者的個(gè)人信息,在數(shù)據(jù)集采集中應(yīng)進(jìn)行去隱私化,使圖像和病灶標(biāo)記信息與病人信息分離。

結(jié)合COVID-19圖像的分類和分割任務(wù),對(duì)目前主流的深度學(xué)習(xí)算法模型中的應(yīng)用進(jìn)行了比較。注意力機(jī)制思想在醫(yī)學(xué)圖像分析中取得較為明顯的效果,但目前使用的都是全局注意力機(jī)制,醫(yī)學(xué)影像病灶區(qū)域具有典型的局部特性,局部注意力機(jī)制的研究會(huì)成為未來一個(gè)更為有效的研究思路。同時(shí),小樣本集和數(shù)據(jù)不均衡方法的研究也仍然是醫(yī)學(xué)圖像處理領(lǐng)域值得深入討論的問題。

附錄

文中共整理了18個(gè)COVID-19圖像數(shù)據(jù)集,包括二維肺部圖像以及三維圖像的二維切片,表A1 展示了圖像大小、存儲(chǔ)格式、特點(diǎn)以及圖像示例信息。

表A1 各數(shù)據(jù)集部分信息統(tǒng)計(jì)Table A1 Partial information statistics of each dataset

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产午夜无码专区喷水| 91精品国产综合久久不国产大片| 中文字幕首页系列人妻| 免费一极毛片| 国产精品久久久久婷婷五月| 91免费观看视频| 国产无码高清视频不卡| 色综合天天操| 91精品国产一区自在线拍| 亚洲男人在线天堂| 91毛片网| 国产精品网址在线观看你懂的| 久久精品日日躁夜夜躁欧美| 国产人成乱码视频免费观看| 国产免费高清无需播放器| 免费看一级毛片波多结衣| 国产精品爽爽va在线无码观看| 亚洲国产中文在线二区三区免| 综合天天色| 中文字幕va| 欧美日韩一区二区在线免费观看| 91色爱欧美精品www| a级毛片网| 欧美三级视频在线播放| 免费在线a视频| 国产91在线|中文| 四虎免费视频网站| 国产一区二区三区日韩精品| 色综合色国产热无码一| 少妇极品熟妇人妻专区视频| 欧美一区二区自偷自拍视频| 蜜臀AV在线播放| 97视频精品全国免费观看 | 日韩视频精品在线| 精品久久久久久中文字幕女 | 亚洲免费成人网| 91免费在线看| 国产成人三级| 亚洲国产精品成人久久综合影院| 久久久91人妻无码精品蜜桃HD| 日韩色图区| 亚洲日韩在线满18点击进入| 国产欧美日本在线观看| 日韩一区精品视频一区二区| 精品久久久久无码| 在线观看免费黄色网址| 精品国产香蕉伊思人在线| 日本草草视频在线观看| 国产成人调教在线视频| 色天堂无毒不卡| 国内a级毛片| 久久网欧美| 亚洲香蕉伊综合在人在线| 欧美特级AAAAAA视频免费观看| www.精品国产| 91口爆吞精国产对白第三集| 亚洲精品国产综合99| 国产成人精品无码一区二| 欧美啪啪网| 国产鲁鲁视频在线观看| 高清无码一本到东京热| 日韩精品成人网页视频在线| 国产第三区| 国产自产视频一区二区三区| 国产精品精品视频| 亚洲午夜天堂| 国产精品久久久久无码网站| 久久久久亚洲AV成人人电影软件| 中文一区二区视频| 狠狠色噜噜狠狠狠狠奇米777| aaa国产一级毛片| 视频二区中文无码| 57pao国产成视频免费播放| www亚洲天堂| 国产又粗又猛又爽视频| 无码日韩人妻精品久久蜜桃| 亚洲小视频网站| 成年网址网站在线观看| 四虎影视8848永久精品| 91在线高清视频| 无码高潮喷水在线观看| 久草网视频在线|