余 鎮 吳凌云 倪 東 陳思平 李勝利 汪天富* 雷柏英*
1(深圳大學生物醫學工程學院,廣東省生物醫學信息檢測和超聲成像重點實驗室, 廣東 深圳 518060)2(深圳婦幼保健院超聲科,南方醫科大學附屬醫院,廣東 深圳 518060)
基于深度學習的胎兒顏面部超聲標準切面自動識別
余 鎮1吳凌云1倪 東1陳思平1李勝利2汪天富1*雷柏英1*
1(深圳大學生物醫學工程學院,廣東省生物醫學信息檢測和超聲成像重點實驗室, 廣東 深圳 518060)2(深圳婦幼保健院超聲科,南方醫科大學附屬醫院,廣東 深圳 518060)
在常規胎兒超聲診斷過程中,精確識別出胎兒顏面部超聲標準切面(FFSP)至關重要。傳統方法是由醫生進行主觀評估,這種人工評判的方式不僅耗費時間精力,而且嚴重依賴操作者經驗,所以結果往往不可靠。因此,臨床超聲診斷亟需一種FFSP自動識別方法。提出使用深度卷積網絡識別FFSP,同時還分析不同深度的網絡對于FFSP的識別性能。對于這些網絡模型,采用不同的訓練方式:隨機初始化網絡參數和基于ImageNet預訓練基礎網絡的遷移學習。在研究中,數據采集的是孕周20~36周胎兒顏面部超聲圖像。訓練集包括1 037張標準切面圖像(軸狀切面375張,冠狀切面257張,矢狀切面405張)以及3 812張非標準切面圖像,共計4 849張;測試集包括792張標準切面圖像和1 626張非標準切面圖像,共計2 418張。最后測試集實驗結果顯示,遷移學習的方法使得網絡識別結果增加9.29%, 同時當網絡結構由8層增加至16層時,分類結果提升3.17%,深度網絡對于FFSP分類最高正確率為94.5%,相比之前研究方法的最好結果提升3.66%,表明深度卷積網絡能夠有效地檢測出FFSP,為臨床自動FFSP檢測方法打下研究基礎。
胎兒顏面部標準切面識別;超聲圖像;深度卷積網絡;遷移學習
在胎兒疾病的常規檢查中,超聲檢查已經成為最受歡迎的影像診斷技術[1- 7]。胎兒顏面部標準切面(FFSP)的獲取對于超聲精確診斷和測量至關重要[1,3- 4]。臨床上,胎兒超聲檢查需要操作者具有完備的知識儲備,以及大量的經驗實踐。經驗豐富的醫生可以高效地利用超聲進行診斷,而在欠發達地區,缺少有經驗的專家以及先進的超聲成像設備。在這種情況下,自動識別胎兒超聲顏面部標準切面的方法可以有效地彌補專家等醫療資源的不足,同時減少醫生診斷時間[8]。因此,研究自動識別技術對臨床診斷意義重大。
臨床上,傳統檢測FFSP的方法是基于醫生對于獲取的胎兒超聲圖像進行主觀評估。但是,這種人工評估的方法除了比較耗時外,其評估結果往往具有很大的主觀性,不同的醫生可能會得到不同的診斷結果。而利用計算機技術,也就是圖像分析與機器學習的方法,可以自動檢測出醫生所需的異常或標準面圖像,從而方便醫生診斷流程,同時改善診斷結果。這種計算機輔助診斷技術往往需要大量的標注數據,然而在臨床應用上,數據采集與處理過程極具挑戰且相當耗時。與此同時,在超聲圖像中,由于大量偽影和噪聲的存在,使得圖像類間差異小而類內差異大。如圖1所示,胎兒顏面部超聲標準切面FFSP與其他非標準切面之間差異并不明顯。所以,精確識別FFSP具有相當大的挑戰。為了解決這些困難,很多研究者提出了不同的方法,其中最常見的是利用低層特征(即SIFT、Haar和HoG特征)作為圖像表述中介來表達圖像。隨后,對這些低層特征進一步編碼來改善識別的結果,常見的編碼方法有視覺詞袋(bag of visual words, BoVW)、局部特征聚合描述符(vector of locally aggregated descriptors, VLAD),以及Fisher向量(Fisher vector, FV)[1,4- 5]。然而,這些從連續二維超聲圖像中提取的手工特征,最后得到的FFSP識別結果并不能令人滿意。

圖1 胎兒超聲顏面部切面。(a)非標準切面;(b)軸向標準切面;(c)冠狀標準切面;(d)矢狀標準切面Fig.1 Original samples of FFSP. (a) Others (non- FFSP); (b) Axial plane; (c) Coronal plane; (d) Sagittal plane
與此同時,由于大規模數據集(ImageNet)[9]的出現,以及具有極強表達能力的深度卷積網絡的發展,深度網絡在圖像識別領域取得了巨大成功[10-12]。受此啟發,在本研究中,用深度卷積網絡模型去檢測FFSP。由于深度網絡往往需要大量的訓練樣本,而臨床采集數據又相當困難,往往會導致網絡訓練出現過擬合現象,最后無法得到預期結果。對此,本研究采用遷移學習策略,結合數據增強技術,以改善深度網絡識別FFSP結果。此外,還研究了不同深度的網絡結構的FFSP識別性能。據了解,這是首次使用深度網絡來自動識別FFSP的方法,對于常規超聲檢查和產前診斷具有巨大的應用前景。
本研究的主要目標是從胎兒超聲圖像中精確識別出顏面部標準切面,創新性地提出了利用深度學習結合特殊數據預處理的方法,以及引入遷移學習方法來自動識別胎兒顏面部標準切面。下面將會對整個研究所用到的方法進行介紹,包括卷積神經網絡原理、CNN網絡結構、數據增強方法以及遷移學習策略。
1.1 卷積神經網絡
受到生物神經系統的啟發,卷積神經網絡(convolutional neural network,CNN)在物體識別和檢測領域已經獲得了巨大成功。不同于傳統的神經網絡,卷積神經網絡結合了局部連接和權值共享策略,因此使得卷積神經網絡的參數大大減少,從而使構建更深層數的卷積網絡成為可能。CNN結合了特征提取和特征分類兩個過程,相比傳統的手工特征表達分類方式,它可以根據給定的訓練樣本自動地學習特征。CNN一般由多個帶參數的學習層構成,每個學習層都能學習一定特征,使得整個網絡可以從輸入圖像中自動提取特征并不斷組合、抽象化迭代,形成具有極強表達能力的高層級特征,并在最后進行分類輸出。
CNN的主要組成成分是卷積層(convolutional layer, Conv),卷積層包含許多神經元,每個神經元帶有一組可學習的權值和一個偏置項。這些權值會在網絡訓練的過程中不斷改變。每個神經元對于前一層的局部區域進行感知,即將該局部區域作為其輸入。假定xlj是第l層卷積層的第j個神經元的輸出,且x(l-1)m(m=1,…,M)是第l-1層的神經元輸出,M表示當前神經元的局部輸入大小,那么xlj可以表示為
(1)

池化層(pooling layer, pool,本研究采用最大池化,因此在下面表示為max- pool)和全連接層是CNN的另一主要成分。在本研究中,將分類層softmax層作為全連接層的附屬層。一般而言,在卷積層之間會加入池化層,池化層本身不帶參數,其作用是減少卷積層的輸出尺寸大小,從而大大減少整個網絡的參數數量,同時增強卷積層輸出特征的空間穩定性。因此,池化層在一定程度上可以避免網絡出現過擬合的情況。全連接層(fully- connected layer,FC)類似于卷積層,同樣是由許多神經元組成,但這里的神經元與前一層輸入之間是全連接的方式,即每個神經元與前一層所有輸入進行作用。
Softmax層是CNN網絡的最后一層結構,其功能是對網絡提取的特征進行分類。為了評價網絡預測輸出與輸入圖像真實標簽之間的一致性,這里用到了損失函數。具體而言,假定Ii(i=1,…,N)為輸入圖像,Ti∈{0,1,…,K}是其對應的真實標簽,則損失函數可以表示為
(2)
(3)

CNN訓練的目的就是獲取合適的權值參數,使整個網絡能夠針對目標數據自動學習合適的特征表達,從而讓未知樣本得到比較好的預測結果。
1.2 CNN結構設置
本課題主要研究了兩種深度的CNN結構,其中16層的深度網絡是基于VGGNet改進而來,作為對比,另一深度較淺的8層CNN網絡是以AlexNet為設計基礎的。對于這兩個網絡結構,在下文中分別稱為CNN- 8和CNN- 16。針對CNN- 8,本研究分別采用隨機初始化網絡參數和遷移學習的方式來進行訓練,訓練的結果分別稱為CNN- 8- RI和CNN- 8- TR。對于像CNN- 16這種深度的網絡,在直接隨機初始參數的情況下訓練會出現收斂速度極慢的情況,在反向傳播更新參數過程中會出現梯度消失的情況[13- 15],因此這里直接采用遷移學習的方式來初始化設置網絡,相應結果表示為CNN- 16- TR。本實驗中CNN的具體結構細節如表1所示。

表1 CNN模型結構Tab.1 Architecture of our CNN models.
CNN-8結構主要以AlexNet為設計基礎[11]。該網絡在ImageNet等數據集上都取得了極大的成功,同時在2012 年大規模視覺識別挑戰競賽(Large Scale Visual Recognition Challenge, ILSVRC2012)中超過了其他各類深度學習模型,并取得了第一名的好成績。因此,本研究的CNN- 8模型也由5層卷積層、3層池化層以及3層全連接層構成,不同的是,將第一層卷積層卷積核大小由11×11改為8×8[16],同時減少最后全連接層通道數,即由原來的4096-4096-1000減少至1024-1024-4。
CNN-16結構與VGGNet[12]類似,相對于其他CNN模型,VGGNet在深度上有了極大的提升,共有16與19層兩個版本。在本研究中,CNN-16所有層的卷積核大小都為3×3,且卷積步長為1。一方面,小尺寸卷積核能夠提取更為豐富的細節特征;另一方面,相對于5×5、7×7甚至11×11等較大尺寸的卷積核,使用3×3卷積核可以大大減少網絡參數,從而防止潛在過擬合問題的出現。對于最后的全連接層,同樣將其通道數從4096- 4096- 1000減少至1024- 1024- 4。
1.3 數據增強
CNN網絡作為一種深度學習模型,對于訓練數據量具有極大的要求。某種程度上,數據量的大小直接決定了網絡的規模,以及網絡的可訓練性。臨床上,收集大量且具有代表性的醫學圖像本身就相當困難,再加上這些數據還需要人工進行標注,因此構建高質量、大規模的醫學圖像數據集極具挑戰。在保持圖像本身標簽不變的情況下,對圖像數據進行多種變換來增大數據集的規模,是一種可行且有效的數據增強方式[11]。通過這種方式,可以擴大數據集規模,從而解決醫學圖像數據集因為數據量不足而無法訓練CNN模型的情況。
在本研究中,同樣采用了這種數據增強技術,即從原始FFSP數據集中,對每一張US圖像在裁剪掉非數據區后進行采樣,提取新的子圖像。由于數據集的分布不均勻,標準切面與非標準切面的數量存在較大的差異,會導致帶偏差的經驗(biased prior)[17],這樣的數據集訓練網絡會降低其最后分類性能。
為此,對胎兒顏面部超聲非標準切面與標準切面圖像分別提取不同數量的子圖像,從而保持兩者數量上的均衡。具體而言,對于初始的FFSP超聲圖像,其大小為768像素×576像素,首先裁掉周圍的黑色區域(即非數據區),而后調整其尺寸至256像素×256像素,并從該圖像下裁剪出5張224像素×224像素大小的子圖像(左上、左下、右上、右下以及中心塊),再水平翻轉,從而每張初始圖像最后總共得到10張子圖像,如圖2所示。

圖2 數據增強Fig.2 Data augmentation
由于非標準切面的數量遠遠多于標準切面,因此,對于每張非標準切面,只提取其中間塊子圖像。相應地,在測試過程中,原始圖像分類結果由其子圖像類別分數綜合決定。
1.4 遷移學習
即便CNN網絡具有極強的特征表達能力,在很多醫學圖像上得到了成功應用,但訓練的數據量依舊是最大的限制。因此,過擬合問題是有監督深度模型始終無法回避的一個話題。在這種情況下,先從大規模的數據集上預訓練一個CNN網絡,而后將該網絡的參數復制到目標網絡中,這是一個有效的網絡初始化方式,可以大大加快網絡訓練速度,同時避免訓練數據量過小而出現的過擬合現象。近來,有很多研究證明了該方法的有效性[18-20]。
這種遷移網絡學習層參數的方法,其有效性在于網絡提取的特征具有層級特性,不同層的學習層提取不同層次的特征信息。在網絡的淺層部分,提取的特征是低層特征,即該類特征具有一般共性,相對于網絡后面層所提取的特征而言,抽象度更低,表述的是目標顏色、輪廓等常見的基本特性,而且不同數據集得到的低層特征相似度很大。而在網絡的后面層部分提取的高層特征則具有很大的特異性,即不同的數據集得到的高層特征往往差異很大。對此,在不同數據集訓練的網絡之間,可以通過遷移網絡淺層學習層參數來共享低層特征。
目前,最常見的遷移學習方法是:首先在其他數據集上預訓練一個基礎網絡,然后將該網絡的前層參數復制到目標網絡對應層,而后目標網絡余下層則隨機初始化參數。根據訓練的方式不同,遷移學習可以分為兩種:一種是保持這些遷移過來的學習層參數固定,訓練過程中只改變后面隨機初始化的學習層參數;另一種則是在訓練過程中微調這些遷移的學習層參數。根據文獻[20]的研究結果,由于ImageNet數據集與FFSP數據集之間的圖像差異巨大,因此遷移層數較多的情況下,采取前一種固定遷移參數的訓練方式并不適用,因此在本研究中采取微調的遷移學習方式。
在本實驗中,首先在ImageNet數據集上預訓練AlexNet與VGGNet,分別作為CNN-8與CNN-16模型的基礎網絡,再分別復制AlexNet與VGGNet除最后3層全連接層外所有卷積層參數至CNN-8與CNN-16對應學習層。在訓練過程中,對于遷移參數層與隨機初始化參數學習層分別設置不同學習率。具體而言,CNN-8與CNN-16所有遷移參數的學習層學習率設置為0.001,并在訓練過程中逐漸減小。隨機初始化參數的學習層學習率設置為0.01,在訓練過程中逐漸減小。圖3是本實驗中所采用的遷移學習方法的整個流程。

圖3 遷移學習流程Fig. 3 Flowchart of our fine- tuning strategy
1.5 實驗驗證
本研究協議經本地協會倫理委員會批準與審核,相關課題均獲許可通知。
1.5.1 實驗數據集及系統設置
1)訓練集:在本實驗中,所有胎兒超聲圖像數據均由本項目組成員采集,原始超聲數據由深圳婦幼保醫院的專門超聲醫生掃描并標注,超聲儀器型號為西門子Acuson Sequoia 512型,胎兒孕周為20~36周。數據集圖像由超聲原始格式數據分解成單幀位圖,整個訓練集包括375張軸狀標準切面(axial plane)、257張冠狀標準切面(coronal plane)、405張矢狀標準切面(sagittal plane)以及3 812張非標準切面(others plane)。如本文第1.3節所述,本研究采用數據增強的方式,分別將軸狀標準切面增至3 750張,冠狀標準切面增至2 570張,矢狀標準切面增至4 050張,非標準切面保持3 812張不變,故數據增強后整個FFSP數據集共包含14 182張圖像。最后,對整個訓練集提取均值,即每幅圖像減去整個訓練集圖像均值。
近年來,重慶市各區縣職業教育競相發展、百花齊放。2017年,全市中職學校達182所,在校生39.8萬人,校均學生數2884人。重慶市云陽縣是人口大縣、教育大縣,在職業教育發展方面具有一定代表性。通過分析云陽縣的情況,可對全市區縣職業教育發展態勢進行大致了解和把握。
2)測試集:在本研究中,測試集共包含2 418張圖像(其中軸狀切面axial plane 491張、冠狀切面coronal plane 127張、矢狀切面sagittal plane 174張、非標準切面others plane 1 626張)。在測試過程中,同樣采用數據增強的方式,對每張測試圖像裁剪出10張子圖像,再綜合訓練好的網絡對這10張子圖像預測分數,得到原圖像的預測結果(10- crop testing)[11]。
3)系統執行:本研究采用Matlab CNN工具包Matconvnet[21]進行CNN設計與測試,整個實驗運行硬件環境為8核2.9 GHz CPU、128 GB內存計算機。訓練整個CNN- 8網絡耗時10 h,而訓練CNN- 16網絡耗時4 d。測試階段則速度較快,加載完訓練好的網絡,單張圖像只需要幾秒鐘就能得到預測結果。

圖4 t- SNE可視化實驗結果。(a) 訓練集初始數據;(b) CNN- 16- TR訓練集特征;(c) CNN- 8- TR訓練集特征;(d) CNN- 8- RI訓練集特征;(e) 測試集初始數據;(f) CNN- 16- TR測試集特征;(g) CNN- 8- TR測試集特征;(h) CNN- 8- RI測試集特征Fig. 4 t- SNE visualizations of experimental results. (a) Raw training data; (b) CNN- 16- TR features of training data; (c) CNN- 8- TR features of training data; (d) CNN- 8- RI features of training data; (e) raw testing data; (f) CNN- 16- TR features of testing data; (g) CNN- 8- TR features of testing data; (h) CNN- 8- RI features of testing data
1.5.2 定性與定量方法說明
為了更好地分析比對不同CNN模型分類性能,本研究從定性和定量兩個角度進行結果討論。首先,通過可視化CNN網絡提取的高層特征,直觀展示CNN分類結果;其次,通過分析通用分類參數指標,具體評價CNN網絡識別FFSP性能。
定性評價即對數據特征進行可視化,數據可視化是顯示高維特征向量常用的方法,可以很直觀地表示特征的分布。在本研究中,采用t- SNE方法[22],分別對訓練集初始數據、測試集初始數據以及由CNN提取的訓練集與測試集高層特征進行可視化。對于初始圖像數據(像素數據),首先將其轉換成一維行向量,即每張圖像得到一個行向量,再將所有圖像向量拼接成二維矩陣,最后將這些行向量連同圖像本身標簽一同輸入至t- SNE函數。對于特征的可視化,則先提取CNN倒數第二層(即第二層全連接層)輸出,得到的1024維向量即為特征向量,再按照之前可視化圖像像素數據的方法,將所有圖像特征及相應標簽輸入至t- SNE函數。
在定量評價過程中,采用國際通用分類評價參數:準確率(precision)、精確率(accuracy)、召回率(recall)、F1分數(F1- score)。為了更好地評估本研究方法的優勢,除了對CNN模型分類結果進行定量的分析,同時還加入了與通用人工特征分類方法的對比。目前,這些主流的分類識別技術主要基于人工特征,同時結合通用分類器進行分類識別,該類方法的基本思想是先從圖像中提取特征,同時對特征進行編碼,再訓練分類器進行分類識別,如基于DSIFT特征的編碼方式識別,包括直方圖編碼BoVW模型、局部特征聚合描述符VLAD編碼以及FV向量編碼。筆者先前的研究工作就是利用這些方法進行FFSP的自動識別[1,4- 5],對比結果見本文第2.2節所述。
2.1 定性分析結果
2.2 定量分析結果
表2給出了不同CNN模型以及人工特征結合分類器方法識別FFSP的結果。DSIFT人工特征方法與先前的研究工作[4- 5]類似,BoVW模型中聚類中心為1 024,單張圖像采用空間金字塔模型,總共劃分7個區域(2×2, 3×1)來進行特征提取,最后特征維度為7 168。VLAD模型中聚類中心為64,最后特征維度44 800。FV模型中高斯元素個數為64,最后特征維度71 680。

表2 CNN識別結果Tab.2 Recognition results.
從表2可以看出,FV分類結果在各項參數上均高于BoVW以及VLAD。同時,在未使用遷移學習的情況下,基于DSIFT特征的3類模型結果均好于深度網絡CNN- 8- RI。其中,最大原因在于深度網絡優化嚴重依賴于大量訓練數據,而在本研究中的4類切面總共只有14 182張圖像,數據規模相對較小。然而,利用大規模自然圖像數據預訓練網絡,再利用目標數據(超聲圖像)對網絡微調(遷移學習),可以有效改善深度網絡因訓練數據不足而導致的性能下降問題。在表2中,微調后的網絡CNN- 8- TR結果相對于CNN- 8- RI有顯著改善,其中準確率提升約8%,精確度提升約10%。另外,網絡結構深度對于分類結果也有較大影響,更深層網絡表達能力要更強,在同樣使用遷移學習條件下,CNN- 16- TR較CNN- 8- TR在準確率上有約3%的提高,準確度提升約6%。因此,加深CNN模型的深度能夠很好地改善最后的分類效果。
圖5是各個CNN網絡的分類性能ROC曲線和混淆矩陣(見下頁)。對于4類切面,識別率相對低的是非標準切面,原因在于非標準切面數據中含有大量與其他3類切面差異較小的圖像,這對于識別有較大影響。總體而言,所有CNN模型識別結果都表現良好,尤其是在使用微調策略以后,性能都優于人工特征分類結果。雖然CNN具有極強的分類性能,但在實驗結果中也觀察到了一些值得注意的細節:首先,在測試階段,每張圖像綜合其10張子圖像的預測結果,這種10- crop testing比直接測試單張圖像的結果提升了3%左右;其次,采用遷移學習策略時,網絡訓練收斂的速度大大加快,比隨機初始化參數的網絡收斂時間快50%以上。

圖5 CNN模型分類ROC曲線與混淆矩陣。(a) CNN- 8- RI ROC曲線;(b) CNN- 8- TR ROC曲線; (c) CNN- 16- TR ROC曲線;(d) CNN- 8- RI混淆矩陣;(e)CNN- 8- TR混淆矩陣;(f) CNN- 16- TR混淆矩陣Fig.5 ROC curves and confusion matrixes for our CNN models. (a) ROC curve of CNN- 8- RI;(b) ROC curve of CNN- 8- TR;(c) ROC curve of CNN- 16- TR;(d) Confusion matrix of CNN- 8- RI;(e) Confusion matrix of CNN- 8- TR;(f) Confusion matrix of CNN- 16- TR
深度網絡作為一種表達學習方法[23],通過組合迭代不同層次的特征,最后形成高層抽象特征,這種特征相對于傳統的人工特征(SIFT,HoG)而言,在概念表達方面更具魯棒性或者說更具不變性。而且,深度網絡可以根據給定的數據,學習到對應的特征,因此,其泛化能力更強,可以推廣應用到不同的圖像領域。近年來,由于計算機的發展以及數據集規模的擴大,深度學習模型在圖像分類檢測領域內取得了廣泛應用。然而,深度學習模型普遍要求足夠多的訓練數據量,否則網絡訓練會出現過擬合問題。在不同的圖像領域,顯然數據采集的難度不盡相同,且自然圖像數據集的規模往往遠大于醫學類圖像數據。因此,醫學圖像領域內,深度網絡應用的最大困難在于數據集規模的限制。
利用自然圖像數據集訓練基礎網絡,再進行遷移學習,是解決當前不同圖像領域應用深度網絡數據量不足的有效方式。因此,本研究結合了遷移學習與數據增強的方式來綜合提升深度網絡分類性能。最后的結果分析也表明,其FFSP分類性能要遠遠好于筆者之前的研究,即采用人工特征結合分類器分類的方法。
然而,本研究依然存在一些不足之處。首先,測試集數量有限,只有2 418張測試圖像,雖然在一定程度上可以反映CNN模型的分類性能,但更大量的數據才能更具說明性,這也是以后所需改進的方向之一。其次,在測試結果方面,依然存在提升的空間,不少接近FFSP的非標準切面被識別為標準切面,這跟圖像本身的噪聲以及差異度小有極大的關系。在未來的研究中,可以通過給訓練集圖像隨機添加噪聲來增加網絡識別的穩定性。另外,臨床醫生在尋找FFSP過程中,會考慮前后幀圖像的上下文信息,因此在網絡訓練過程中加入當前圖像上下文信息,可以消除FFSP與非FFSP類內差異小所帶來的干擾。
在本研究中,提出了用深度卷積網絡的方式來識別胎兒顏面部的超聲圖像,同時分析研究了不同深度結構的CNN模型對于FFSP分類的結果。為了防止由于訓練數據集數量不足而引發網絡訓練出現過擬合問題,采用了數據增強(data augmentation)結合遷移學習的方式來改善網絡分類結果。最后的結果表明,深度網絡可以有效地識別FFSP標準切面,同時更深層的深度網絡能夠帶來更好的分類性能。因此,深度網絡與遷移學習的結合在臨床應用方面具有極大的前景,值得進一步探索和研究。
[1] Lei Baiying, Zhuo Liu, Chen Siping, et al. Automatic recognition of fetal standard plane in ultrasound image [C]//International Symposium on Biomedical Imaging. Beijing: IEEE, 2014:85- 88.
[2] Chen Hao, Dou Qi, Ni Dong, et al. Automatic fetal ultrasound standard plane detection using knowledge transferred recurrent neural networks [C] // Medical Image Computing and Computer- Assisted Intervention. Munich:Springer International Publishing, 2015: 507- 514.
[3] Chen Hao, Ni Dong, Qin Jing, et al. Standard plane localization in fetal ultrasound via domain transferred deep neural networks[J]. IEEE J Biomed Health Inf, 2015. 19(5): 1627- 1636.
[4] Lei Baiying, Tan Eeleng, Chen Siping, et al. Automatic recognition of fetal facial standard plane in ultrasound image via fisher vector[J]. PLoS ONE, 2015, 10(5): e0121838.
[5] Lei Baiying, Yao Yuan, Chen Siping, et al. Discriminative learning for automatic staging of placental maturity via multi- layer fisher vector[J]. Scientific Reports, 2015. 5: 12818.
[6] Rahmatullah B, Papageorghiou A, Noble J. Automated selection of standardized planes from ultrasound volume[C] //Machine Learning in Medical Imaging.Toronto: Springer Berlin Heidelberg, 2011: 35-42.
[7] Zhang Ling, Chen Siping, Chin CT, et al. Intelligent scanning: automated standard plane selection and biometric measurement of early gestational sac in routine ultrasound examination[J]. Medical Physics, 2012. 39(8): 5015- 5027.
[8] Ni Dong, Li Tianmei, Yang Xin, et al. Selective search and sequential detection for standard plane localization in ultrasound[C] //Medical Image Computing and Computer- Assisted Intervention. Nagoya: Springer Berlin Heidelberg, 2013: 203- 211.
[9] Deng Jia, Dong Wei, Socher R, et al. Imagenet: A large- scale hierarchical image database[C]//Computer Vision and Pattern Recognition. Anchorage: IEEE, 2009: 248- 255.
[10] Szegedy C, Liu Wei, Jia Yangqing, et al.Going deeper with convolutions[C]//Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1- 9.
[11] Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C]//Neural Information Processing Systems. Lake Tahoe: Nips Foundation, 2012: 1097- 1105.
[12] Simonyan K, Zisserman A. Very deep convolutional networks for large scale image recognition[J]. Computer Science, 2014.
[13] Bengio Y, Simard P, Frasconi P. Learning long- term dependencies with gradient descent is difficult[J]. IEEE Trans Neural Netw, 1994, 5(2): 157- 166.
[14] Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge- Based Systems, 1998. 6(02): 107- 116.
[15] Hinton G, Osindero S, The Y. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527- 1554.
[16] Zeiler M, Fergus R. Visualizing and understanding convolutional networks[C]//Computer Vision-ECCV. Zürich: Springer International Publishing, 2014: 818- 833.
[17] Shin H, Roth H, Gao Mingchen, et al. Deep convolutional neural networks for computer- aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Trans on Medl Imaging, 2016, 35(5): 1285- 1298.
[18] Donahue J, Jia Yangqing, Vinyals O, et al. Decaf: A deep convolutional activation feature for generic visual recognition[C]//International Conference on Machine Learning. JMLR.org, 2014: 1-647.
[19] Razavian A, Azizpour H, Sullivan J, et al. CNN features off- the- shelf: an astounding baseline for recognition[C]//Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 806- 813.
[20] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]//Neural Information Processing Systems. Montréal: Nips Foundation, 2014: 3320- 3328.
[21] Vedaldi A, Lenc K. MatConvNet: Convolutional neural networks for matlab[C]//The ACM International Conference. ACM, 2015:689-692.
[22] Maaten L, Hinton G. Visualizing data using t- SNE[J]. J Mach Learn Res, 2008. 9: 2579-2605.
[23] Yann LC, Yoshua B. Geoffrey H. Deep learning[J]. Nature, 2015. 521(7553):436- 444.
Fetal Facial Standard Plane Recognition via Deep Convolutional Neural Networks
Yu Zhen1Wu Lingyun1Ni Dong1Chen Siping1Li Shengli2Wang Tianfu1*Lei Baiying1*
1(Schoolof Biomedical Engineering, Shenzhen University, National- Regional Key Technology Engineering Laboratory for Medical Ultrasound, Guangdong Key Laboratory for Biomedical Measurements and Ultrasound Imaging, Shenzhen 518060, Guangdong, China)2(Department of Ultrasound, Affiliated Shenzhen Maternal and Child Healthcare, Hospital of Nanfang Medical University, Shenzhen 518060, Guangdong, China)
The accurate recognition of fetal facial standard plane (FFSP) (i.e., axial, coronal and sagittal plane) from ultrasound (US) images is quite essential for routine US examination. Since the labor- intensive and subjective measurement is too time- consuming and unreliable, the development of the automatic FFSP recognition method is highly desirable. In this paper, we proposed to recognize FFSP using different depth CNN architectures (e.g., 8- layer and 16- layer). Specifically, we trained these models varied from depth to depth and mainly utilize two training strategy: 1) training the “CNN from scratch” with random initialization; 2) performing transfer learning strategy by fine- tuning ImageNet pre- trained CNN on our FFSP dataset. In our experiments, fetal gestational ages ranged typically from 20 to 36 weeks. Our training dataset contains 4849 images (i.e., 375 axial plane images, 257 coronal plane images, 405 sagittal plane images and 3812 non- FFSP images). Our testing dataset contained 2 418 images (i.e., 491 axial plane images, 127 coronal plane images, 174 sagittal plane images, and 1626 non- FFSP images). The experiment indicated that the strategy of transfer learning combined with CNN improving recognition accuracy by 9.29%. When CNN depth changes from 8 layer to 16 layer, it improves the recognition accuracy by 3.17%. The best recognition accuracy of our CNN model was 94.5%, which was 3.66% higher than our previous study. The effectiveness of deep CNN and transfer learning for FFSP recognition shows promising application for clinical diagnosis.
fetal facial standard plane recognition; ultrasound image; deep convolutional network; transfer learning
10.3969/j.issn.0258- 8021. 2017. 03.002
2016-06-08, 錄用日期:2016-09-09
廣東省科技創新重點項目(2014KXM052)
R318
A
0258- 8021(2017) 03- 0267- 09
*通信作者(Corresponding author),E- mail: tfwang@szu.edu.cn, leiby@szu.edu.cn