關天下 傅彰凱
四川大學華西第二醫院 四川 成都 610041
在20世紀80年代末基于精子質量計算機輔助分析技術得到了迅速發展。人們發現利用計算機圖像分析技術自動測量評估精子的各項數據有諸多優點,它不僅操作簡單、分析速度快、計算精度高、可重復性好、為人工授精提供準確參考數據、提高了檢驗醫生的檢驗水平減少了他們的工作量,而且可以克服傳統測定方法中存在的缺點,比如耗時、測量精度差、人為主觀性強等[1]。基于圖像語義分割的深度學習技術近年來得到了非常好的發展,本文就是在深度學習框架下提供了一種精子尾部識別方法,其優點是能夠通過精子具有尾部的結構形態,過濾掉精液中的非精子細胞或雜質,清晰的呈現精液中的精子數量,具有良好的臨床意義。
FCN是圖像的像素級分類,來解決圖像分割的問題。FCN是一種經典的語義分割方法。和CNN在卷積層上使用全連接層得到固定長度的特征向量來進行分類不同,FCN可以接受任何分辨率的輸入圖像,采用反卷積層來對最后一個卷基層的特征圖來進行上采樣操作,使得它變為和輸入圖像相同的分辨率,從而可以對每一個像素進行預測,并保留了原始輸入圖像上的空間信息,最后對特征圖進行像素級分類。
圖像經過多個卷積和一個最大池化變為pool1 feature,寬高變為原來的1/2;pool1 feature再經過多個卷積和一個最大池化變為pool2 feature,寬高變為原來的1/4;pool2 feature再經過多個最大池化和一個最大池化變為pool3 feature,寬高變為原來的1/8;直到pool5 feature,寬高變為原來的1/32。再對pool5 feature進行32倍的上采樣,從而獲得32x 上采樣特征,再對32x 上采樣特征每個點做softmax 預測獲得32x上采樣特征預測,即分割圖。
FCN的優點主要有模型的拓展性簡單和速度快;缺點是語義分割的結果不夠精細和沒有考慮像素直接的關系缺乏空間一致性。
DeepLabV3+是Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam等人在2018年提出的。
其具體過程可以分為以下4步[2]:①將圖片A輸入到改進后的深度卷積網絡B中進行特征提取,將會得到相應的語義特征C和語義特征G;②將語義特征C傳入到空洞金字塔池化模塊ASPP中,并分別和四個空洞卷積層進行卷積和一個池化層進行池化,從而會得到五個特征圖,并將其合并成5層結構D。D再和一個1×1的卷積層進行卷積后得到結構E; E再通過上采樣得到結構F;③通過在深度卷積網絡層中得到的一個與結構F在分辨率上相同的語義特征圖G;經過1×1卷積后降低通道數使得和結構F所占通道數一樣,再與F進行合并;④第3步中合并生成H,然后通過一個3×3卷積進行細化操作;再通過雙線性上采樣將圖像變為原來的4倍,最終得到語義分割的結果。將語義特征C傳入到空洞金字塔池化模塊ASPP中,并分別和四個空洞卷積層進行卷積和一個池化層進行池化,從而會得到五個特征圖,并將其合并成5層結構D。D再和一個1×1的卷積層進行卷積后得到結構E;E再通過上采樣得到結構F;
Ross B. Girshick在2016年提出了新的Faster RCNN,
Faster R-CNN的訓練,是在已經訓練好的model(如VGG_CNN_M_1024,VGG,ZF)的基礎上繼續進行訓練。實際中訓練過程分為6個步驟:
在已經訓練好的model上,訓練RPN網絡,對應stage1_rpn_train.pt;
利用步驟1中訓練好的RPN網絡,收集proposals,對應rpn_test.pt;
第一次訓練Fast RCNN網絡,對應stage1_fast_rcnn_train.pt;
第二訓練RPN網絡,對應stage2_rpn_train.pt;
再次利用步驟4中訓練好的RPN網絡,收集proposals,對應rpn_test.pt;
第二次訓練Fast_RCNN網絡,對應stage2_fast_rcnn_train.pt。
DeepLabV3+是對物體進行語義分割。其具體過程可分為3步[3]:①通過標注軟件Labelme對精子尾部進行人工標注;②通過標注好的數據,將其處理為.tfrecord格式文件,在TensorFlow框架下進行訓練;③通過調用訓練得到的模型來對精子尾部進行分割。其中步湊2中進行訓練時,要將訓練的類別改為1類,訓練的網絡模型為xception_65,訓練時圖片的大小要設置為513×513,迭代次數設置為100000次,以保證訓練足夠充分,初始學習率為0.0001。修改好參數后,運行訓練命令,進行訓練,等待最終模型生成。
Deeplabv3+和fcn進行語義分割結果如下:
圖1 經典算法實驗對比圖
其中第一列為原圖,第二列為Deeplabv3+語義分割圖,第三列為fcn語義分割圖,第四列為ground truth。從上圖可以看出,Deeplabv3+語義分割效果優于fcn的語義分割效果。
我們這里通過對Deeplabv3+和fcn語義分割的圖像分別求得軌跡點,并對應到標注的圖像中,統計在標記區域內軌跡點個數分別為num1和num2,并對標記的圖像進行求軌跡點,記錄軌跡點個數為num3,從而可以計算出Deeplabv3+和fcn語義分割圖像對應原始標記圖像中軌跡點的百分比。其中第一列圖像中標記圖像求得軌跡點個數為1356,Deeplabv3+語義分割圖像求得軌跡點個數為1195,則百分比為88.13%,fcn語義分割圖求得軌跡點為365,百分比為26.92%;第二列圖像中標記圖像求得軌跡點個數為520,Deeplabv3+語義分割圖像求得軌跡點個數為510,則百分比為98.08%,fcn語義分割圖求得軌跡點為122,百分比為23.08%;第三列圖像中標記圖像求得軌跡點個數為1068,Deeplabv3+語義分割圖像求得軌跡點個數為933,則百分比為87.36%,fcn語義分割圖求得軌跡點為532,百分比為49.81%。從而可以看出,通過deeplabv3+來對精子尾部進行語義分割比FCN進行語義分割來識別精子尾部效果明顯更精準。