單怡晴,黃夢醒,張 雨,李玉春,張新華,馮思玲,陳 晶
1.海南大學 計算機與網絡空間安全學院,海口 570228
2.海南大學 信息與通信工程學院,海口 570228
3.海口市人民醫院 放射科,海口 570228
在最新的全球癌癥統計報告中,男性病例中最常見的肺癌(14.5%),其次是前列腺癌(13.5%),男性患癌率最高的疾病是前列腺癌的國家已經超過100個[1]。在傳統的前列腺癌診斷過程中,病理學專家通過穿刺活檢取得病例樣本,經過H&E染色得到病理圖像并在顯微鏡下觀察細胞的組織形態模式,確認該組織中是否有癌癥存在并進行Gleason評級[2]。
Gleason(格里森)評級模式[3]在評估前列腺癌組織微陣列中是被廣泛接受且認可的一種標準,自1966年發展至今,由國際泌尿病理學學會修訂多次并已應用于臨床階段[4],不僅僅是病理學的評價指標,也能在臨床診斷中為醫生診斷提供可靠的依據。包含活檢的切片中可以顯示前列腺腺體結構的形態學組織,在低級別的腫瘤中,上皮細胞仍然是腺體結構,然而在高級別腫瘤中,腺體結構最終丟失。Gleason中前列腺癌微陣列組織被分為5種生長模式,1到5對應不同細胞組織形態,從預后較好,與正常組織基本無差別到預后較差,細胞分化較差的組織,1和2在前列腺癌診斷中較少出現。按照生長模式的占比大小,將一張病理切片的生長模式分為主要結構和次要結構,最終評分結果由主要結構和次要結構相加得出,根據分數不同歸類為不同的預后組,當不超過6分時通常有較好的預后結果。如表1所示,在最新修改的Gleason評級模式中被分為5個不同的預后組。當分數不高于3+3時為G1;3+4為G2;4+3為G3;3+5、5+3及4+4為G4;更高的分數為G5。如圖1所示,分別代表良性,Gleason為6分、8分和10分。

表1 Gleason評級預后組分布Table 1 Gleason rating prognostic group distribution

圖1 前列腺癌組織微陣列示例Fig.1 Prostate cancer tissue microarray example
前列腺癌Gleason自動分級系統中常用的方法是提取特征組織,然后對所選擇的特征使用如SVM(support vector machine,支持向量機)、隨機森林或Bayesian分類器等進行分類。文獻[5]采用ResNet18為基礎模型,認為神經網絡可分為區分網絡和生成網絡,區分網絡采用分類模型。文獻[6]首先利用腺體的紋理特征識別單個腺體結構的存在,然后從腺體單元獲得的紋理特征和形態計量學應用到分類階段,最后將圖像標記為1到5級。文獻[7]的研究表明圖像的紋理特征是根據圖像不同的功率譜進行表示,將輸入的圖像通過分類器分配不同的Gleason評分。除此之外,另一種方法是基于深度學習,特別是卷積神經網絡(convolutional neural network,CNN),能在一個框架內同時執行特征學習和分類步驟,當訓練數據達到一定規模時能取得較好結果,同時并不過度依附于手工標注。
深度學習和計算機視覺[8]的發展使得CAD(計算機輔助診斷系統)在越來越多的醫療臨床治療中得以使用[9-10]。文獻[11]利用inceptionv3訓練12萬張圖片,通過分類算法達到了皮膚科醫生專家級的水平。文獻[12]在使用具有確診及最佳轉診的組織圖進行上萬次掃描訓練后,使用深度網絡分類器得出預測診斷概率和轉診建議。相比較于全卷積神經網絡(fully convolutional network,FCN)[13],U-Net[14]在醫療圖像處理方面更具有優勢,兩者共用一個經典思路-編碼和解碼(enconderdecoder),U-Net的網絡架構兩側是完全對稱,并且使用的是疊操作(concatenation),與FCN的不同之處在于FCN采用的是加操作(summation)[15-16]。
由于容易受到病理學專家觀察者之間主觀因素的影響,手工觀片工作量大耗時高效率低,且不同的觀察者之間對同一切片的評級也會存在差異,隨著人口老齡化,前列腺癌患者逐年增多,需要進行活檢的人數也呈現遞增趨勢[17];CAD工具觀察范圍是切片的所有區域,CAD工具的優勢是避免了人工觀察所發生漏查;并且CAD工具只與內部算法有關,與勞動強度和時間大小無關,能夠復用計算機資源來提供可重復的結果,能大大提高診斷治療效率,緩解醫患緊張局勢[18]。
與分類器算法不同,本文提出了一種基于卷積神經網絡的前列腺癌組織微陣列區域分割格里森分級研究,如圖2所示,在前列腺癌診斷治療中具有重大的臨床意義。有不少研究表明區域分割可以成功應用到臨床試驗中[19-20],多數研究中只注重Gleason3和Gloason4的區分,本文的研究范圍涵蓋良性及Gleason1~5所有類型,范圍更廣。與對MR圖像及X光片圖像進行分割不同點在于,組織微陣列圖像的分割基于細胞形態學組織,不同的細胞組織形態之間,尤其是格里森3級與4級生長模式識別難度系數高,在癌癥存在的情況下,前列腺活檢中的癌組織細胞占比不高于1%[21],活檢的評估步驟繁瑣易出錯,這將導致在前列腺癌檢測的過程中不能給出正確的格里森評級。本文在原始U-Net基礎上進行改進,增加密集連接塊,經過合并特征映射后網絡增加了梯度路徑,使各層之間的計算趨于平衡,既改善了原始U-Net網絡存在的梯度及模型特征利用率不高的問題,又能防止過度重復的信息流占用內存流量。通過公開數據集上進行訓練和測試,并在海口市人民醫院病理科現存的前列腺癌病理圖像上進行驗證,使得實驗結果更加真實可靠。

圖2 基于區域分割的Gleason分級Fig.2 Gleason classification based on region segmentation
在本研究中所使用的前列腺組織微陣列圖像由兩部分組成:第一部分來自公開數據庫總計886張,帶有詳細的病理學專家注釋;另一部分來自海口市人民醫院病理科在存前列腺癌病理切片圖像,從中篩選出135張。這些圖像數據被分成訓練組、驗證組、測試組3組,每組的詳細情況如表2所示。

表2 Gleason評分在訓練、測試和驗證集中的分布Table 2 Distribution of Gleason scores in training,testing and validation sets
在組織病理學中,掃描樣本通常具有百萬級像素,當前內存和顯存限制了對整個圖像的訓練,如圖3所示,原始圖像尺寸為3 100×3 100的RGB圖像,為了獲取最優實驗結果,本文對獲取的原始前列腺癌組織微陣列圖像,首先利用對所有用于測試訓練及驗證中所有的圖像數據的原有進行灰度化處理,再將每幅灰度化后的原圖和標簽圖按照對應的順序分割成不重疊的100份,大小為256×256。

圖3 微陣列組織病理切片灰度化Fig.3 Gray processing of microarray histopathological sections
在醫療圖像分割區域,慣用的網絡模型有全卷積神經網絡(FCN)、DenseNet和U-Net。U-Net網絡架構能夠在數據集并不充足的基礎上進行模型訓練,并能將底層信息和高層進行結合,原始的U-Net網絡模型,以端到端的模式從網絡階段的開始到結束通過特征映射的集成來解決梯度的可變形,經過4次,共16倍的下采樣,相對應的再進行4次上采樣,將下采樣過程中得到的特征信息恢復到與原圖相同的大小,并在相互對應的階段采用跳躍鏈接,使得特征圖能融合了底層的信息,使分割和預測結果更精準。
在分割網絡中,可以被描述為編碼階段U,后面緊跟解碼操作R。當輸入圖像為x時,模型可用g(x)來表示,公式如下:

U表示將輸入圖像x降維并對圖像內容進行編碼,R把獲得的特征信息重構回像素空間。網絡架構的目標是在U-Net架構中,先對輸入的圖像下采樣,再上采樣,最后進行回歸操作。前一層需通過卷積操作將學習到的特征信息傳遞給靠后的一層,但每層之間的聯系稀疏。為了使每一層網絡的特征信息得以充分利用,采用密集連接,使層與層之間的信息進行傳遞,最后一層能獲取豐富的特征信息,實現特征信息復用如圖4所示,特征維度上的拼接使參數總量比傳統結構少。

圖4 密集連接塊Fig.4 Densely connected blocks
本文在U-Net架構中增加部分密集鏈接模塊和部分過渡層,如圖4所示將底層特征映射通過部分密集連接塊,新的特征圖融合上一層輸出的結果,作為下一個模塊的輸入,每經過一個密集連接塊將進行兩次卷積和特征融合操作,改進后的網絡架構如圖5所示。為了提高網絡的性能,避免過度擬合及正則項參數選擇的問題在卷積層后增加了BN層和ReLu激活層。ReLu層能減輕梯度消失問題,相比sigmoid能訓練更深的網絡,速度快,計算代價小。變換重構能恢復本層歸一化操作對已存在特征信息的影響,引入可學習的重構參數后,BN層的定義如下:

圖5 改進后的網絡架構Fig.5 Improved network architecture

其中,μ是平移參數,σ是縮放函數,m為塊的大小,γ、β為重構參數。上述公式的計算結果分別為均值、標準差、歸一化、重構變換。
本文通過定義loss來優化目標函數,網絡架構模型設計的目標在于把訓練的標簽與網絡模型輸出層之間的像素損失最小化。本文在訓練過程中,采用sigmoid作為神經元的激活函數且每個訓練標簽是獨立的,在二分類任務中經常采用二元交叉熵損失函數(binary cross entropy),公式如下:

其中,yi為像素點的預測結果,為像素點的真實分類。假設當標簽為1,預測結果越大時,loss越小,在理想的情況下預測結果為1,返回的loss為0;反之預測結果為0時,預測結果越小時loss越小。如圖6所示,預測結果在數據分布比較均衡時具有良好的計算效果,并對反向傳播造成不利的影響,容易使訓練變得不穩定。針對本研究中像素類別不平衡明顯,使用二元交叉熵損失函數會被像素較多的類主導,在先前實驗中,當損失函數采用二元交叉熵為損失函數時,測試集預測圖像結果并不理想。

圖6 二元交叉熵損失函數Fig.6 Binary cross entropy loss function
Dice函數的提出最初是在V-Net[22]中,對于類別不均衡的問題效果更優,常被用來計算兩個樣本的相似度,取值范圍在0到1之間。假設用A、B表示兩個輪廓區域像素相同的集合,那么Dice的定義如下:

也可以表示為:

當目標值和預測值過小時,會導致梯度發生劇烈變化,不利于模型訓練。
本文將二元交叉熵損失函數和Dice相結合BCE_Dice_loss作為本實驗的損失函數,公式如下:

本研究中,每個被訓練的對象x都必須有與之對應的標簽y,選擇與輸入輸出具有相同高度和寬度的標簽圖像完成語義分割任務。卷積神經網絡執行的語義分割基于像素級。與分類算法不同的是輸出結果是一個標簽圖像,每個像素都有一個固定的值。共采用了641張標注詳細的前列腺癌病理切片訓練模型,245張數字病理切片做測試訓練,并在驗證集中隨機抽取一定的數量進行評價,測試集中由兩位病理學專家進行標注。由于原病理切片較大,首先要用Matlab對每張圖像進行灰度化,再將每張圖分割成大小相同且不重疊的100份,切分完成后的圖像數據集擴充了100倍,訓練集和測試集共88 600條數據。再把大小設置成256×256,將每張圖按照位置順序從0編碼重命名,然后將預處理的圖像數據送入模型中。為了更好地體現該研究的性能,從驗證隊列中隨機抽取若干張圖像進行預測,將結果與ground truth進行比對。
本文在訓練過程中,采用Adam優化器進行優化,學習率lr為0.001,選擇BCE_Dice_loss作為目標函數。在測試集上,采用混合矩陣和Cohen’s Kappa指標。表3是改進后U-Net模型中各層參數設置。

表3 網絡模型各層的參數設置Table 3 Parameters setting of each layer of network model
如圖7所示Padding設置為same,metrics為accuracy。

圖7 Padding設置為sameFig.7 Padding set to same
2.3.1 評價指標
本文采用Kappa系數對NU-Net模型試驗預測結果與專家手工標注結果進行一致性檢驗,公式如下:

其中,M為圖像數據類目數,i和j代表不同圖像類別,1≤I,j≤M,O i,j是被第一位評分者分類為i且被第二位評分者分類為j的個數,E i,j指預期里希望第一位評分者把圖像標注為i類且第二位評分者把圖像標注為j類的個數。
2.3.2 實驗
為了對比改進前后U-Net模型與FCN、DenseNet性能,本文在相同訓練集、測試集上訓練和測試上述4個模型。FCN8以預先訓練好的VGG16模型為基礎,步長為8;DenseNet在ImageNet數據集上進行測試,步長為2;U-Net模型以標準配置為架構;NU-Net中添加了密集連接模塊。
本研究在公開數據集和海口市人民醫院放射科中分別選擇886和135張前列腺癌微陣列組織圖像進行預處理,擁有良好的病理學家標注,分為訓練集、測試集、驗證集三部分,每個數據集中的圖像相互獨立且不重復。通過預先訓練好的FCN8、DenseNet、原始U-Net模型及改進后NU-Net的模型在驗證集里隨機抽取的80張圖像進行在實驗對比,結果如表4所示。

表4 不同模型Gleason分割結果精確度對比Table 4 Comparison of accuracy of Gleason segmentation results of different models %
改進后的NU-Net模型相比較于原U-Net模型和另外兩個分割算法中主流的模型,在不同等級的Gleason模式識別上都展示了良好的性能,其中原U-Net和DenseNet在識別良性組織和G3、G4、G5的L平均值分別為61.37%、73.35%,結果顯示在本文的數據集上DenseNet模型的性能優于U-Net,性能表現最差的是FCN8模型。添加了密集連接塊的U-Net模型L平均值達到了77.73%,在Gleason為3級、4級5級的分割性能上較原U-Net模型均有不同程度的改善。
為了計算改進后NU-Net模型實驗結果與手動觀片標注結果ground truth之間的一致性,本文在測試集上進行實驗并使用了Kappa指標進行評價,將模型預測結果與ground truth標注結果進行一致性檢驗。實驗結果如圖8和圖9所示,其中相對Kappa值為每個單元格中的案例數除以每行的總案例數,模型實驗結果與ground truth之間的一致性達到了0.797,誤差集中出現在G2、G3上,其次是G4。

圖8 測試集上一致性檢測絕對Kappa值Fig.8 Absolute Kappa value for consistency detection on test set

圖9 測試集上一致性檢測相對Kappa值Fig.9 Relative Kappa value for consistency detection on test set
模型預測與ground truth間的對比如圖10所示,第一行為前列腺癌微陣列組織原圖,中間為ground truth,最后一行為本研究改進后NU-Net模型預測結果,從整理分割效果來看,NU-Net的分割結果大體上與ground truth相當。為了更好地展示實驗結果,標簽圖根據不同的細胞組織形態進行了彩色處理,綠色、藍色、黃色、紅色分別代表良性、Gleason為3級、4級和5級。

圖10 專家標示與模型預測結果對比Fig.10 Comparison of expert mark and model prediction results
實驗結果表明NU-Net網絡擁有更強的學習能力,能夠批量的進行歸一化操作,對分布均勻的訓練數據良好,收斂速度得到改善,模型的性能也有所提高,區域分割更加準確。
本文提出了一個改進的U-Net模型對前列腺癌微陣列組織進行評級,實驗結果表明在測試集和驗證集中,在相同評價參照標準下,該模型的實驗結果與病理學家手工標注結果具有很高的相似性。本文通過對4種不同的網絡在驗證集上進行實驗,結果顯示改進后的NU-Net在良性、G3、G4和G5分割效果最優,L均值為77.73%。在測試集上NU-Net模型的分割結果在良性、G1、G2等不同評級中與病理學家手工標注結果具有很高的一致性,Kappa值為0.797。先前研究側重點在區分G3和G4,本文對Gleason的評級涵蓋G1~G5,研究更全面。
目前的研究還有需改進之處:首先沒有結合臨床診斷中病理學家最常見的錯誤;模型關注的重點是前列腺癌微陣列組織分級,在穿刺活檢結果中可能存在其他類型的細胞組織;實驗中所用到的圖像數據染色完好,清晰度高,圖像質量好,理想的系統應該能同時處理染色和掃描儀校準等外在技術因素帶來的差異;本研究中每一個活檢組織檢查都是由病理學家和深度學習模型獨立完成的,在臨床實踐中,需要對每個前列腺不同部位進行多次穿刺檢查;此外,研究中所使用的數據基于活檢組織而不是患者,可能會導致過度估計。在新的深度學習模型中,應該立足于多個穿刺活檢組織,并從患者角度出發給出Gleason等級預測。