李蒙蒙
(河南科技大學第一附屬醫院腫瘤內科,河南洛陽 471000)
隨著人工智能(Artificial Intelligence)和大數據時代的到來,深度學習技術成為推動臨床醫療領域快速發展的新引擎[1-2]。乳腺癌(breast cancer)作為當前全球女性常見的癌癥,早期發現和及時治療尤為重要[3-4]。通過調研發現,傳統的醫療診斷技術在檢測過程中難免會出現一些人為誤差,而且也花費了醫療工作者大量的時間和精力[5]。因此,為了獲得準確、高效的診斷結果,提升乳腺癌診斷的智能化水平,如何創造性地將深度學習技術[6]和乳腺癌診斷相結合,成為當前乳腺癌檢測領域亟待解決的關鍵科學問題之一。在國際上,LECUN 等[7]研究學者在深度學習領域提出了一種卷積神經網絡(Convolutional Neural Networks)方法,為醫療工作者在輔助診斷疑似患者方面提供了新的思路。本文首先通過對臨床上常用的乳腺癌數據集進行數據清洗和數據處理,其次運用深度學習中的卷積神經網絡技術來訓練模型,使得該模型能夠自動地輔助診斷出乳腺癌患者,減少人工操作在時間和經驗方面的影響。在臨床實踐過程中,通過選取本文所采用的乳腺癌疑似患者的檢測指標,并將檢測指標輸入到卷積神經網絡模型中,能夠快速準確地檢測出待測患者是否為惡性腫瘤患者。該方法不僅可以輔助醫生及時發現惡性乳腺癌腫瘤患者,而且為癌癥診斷的智能化和信息化指明了新的方向。
本文采用由威斯康星醫學院William H.Wolberg 博士提供的乳腺癌公開數據樣本。該數據集是乳腺癌領域研究人員常用的公開數據集。公開數據集的選取為乳腺癌領域的研究人員進行對比和評估提供了共同基礎。本文采用的數據樣本都來自于真實的臨床案例,每個案例具有32 個屬性,每個屬性值由不同量綱的數值表示。其中第1個屬性是患者的編號(ID 號),第2 個屬性是分類屬性(benign 表示良性,malignancy 表示惡性),第3~30 個屬性是檢測惡性乳腺癌患者常用的指標。見表1。

表1 乳腺癌公開數據樣本
卷積神經網絡是深度學習領域中的一項關鍵技術,它的研究可追溯到20 世紀80 年代,而后隨著深度學習理論的進一步完善和計算機設備的不斷更新,卷積神經網絡理論也取得了快速發展,成為大型醫院自動化輔助檢測疾病的一項關鍵技術[8]。從理論上講,卷積神經網絡是一種包含卷積層并具有深度結構的前饋型神經網絡。該神經網絡通常有輸入層、隱藏層(卷積層、池化層和全連接層)和輸出層構成。其中輸入層主要處理一維和二維數據,卷積層主要是卷積核構造和卷積層參數的設置,池化層是在卷積層的基礎上進行信息過濾和特征選擇。輸出層通常使用邏輯函數輸出分類的標簽。
支持向量機[9]是機器學習領域中一種經典的分類方法。它的核心思想是通過選擇合適的特征,進而在特征空間(Feature Space)中找到一個最優的平面(直線),將良性腫瘤患者和惡性腫瘤患者分開。如圖1 所示,藍色圓點和紅色圓點分別代表良性腫瘤患者和惡性腫瘤患者。為了獲得更加準確的分類效果,通常將腫瘤患者的特征數據轉換成更高的維度,從而找到能準確區分兩類患者的高維度分類平面(直線)。

圖1 支持向量機結構
本文研究中主要使用深度學習領域的卷積神經網絡方法和傳統機器學習領域的支持向量機方法。我們分別使用R 軟件(3.6.1 版本)中神經網絡包中的nnet 軟件包和kernlab 軟件[10]。為了進一步驗證本文提出的卷積神經網絡模型性能,我們使用傳統的支持向量機方法作為對比。本文提出的卷積神經網絡模型的詳細步驟如下:
2.1.1 卷積神經網絡模型的數據輸入 分別選取表1 中良性腫瘤患者和惡性腫瘤患者中的腫塊厚度、細胞大小的均勻性、細胞形狀的均勻性、邊緣粘性、單上皮細胞的大小、裸核、乏味染色體、正常核和有絲分裂等特征數據作為卷積神經網絡輸入層。
2.1.2 建立卷積神經網絡優化模型 第一層:輸入層。輸入的樣本數據為腫塊厚度、細胞大小的均勻性、細胞形狀的均勻性、邊緣粘性、單上皮細胞的大小、裸核、乏味染色體、正常核和有絲分裂等9 個。這些特征數據作為判斷惡性和良性腫瘤患者的歷史數據,因此輸入層由9 個神經元構成。
第二層:隱藏層。首先,通過將9 個輸入神經元正向傳播,同時計算隱層的總輸出結果。其次,將隱層中每一個神經元的結果傳遞給輸出層。根據卷積神經網絡的輸出層傳遞的誤差信號,計算隱層中每一個神經元的誤差信號值。最后,由于卷積神經網絡模型受到神經元數量與隱層層數的影響,我們分別將隱藏神經元的數量設為10~15個,并從中選取出準確率最高時所對應的隱層神經元的數量。
第三層:輸出層。通過計算期望值與輸出值之間的相對誤差,當兩者之間相對誤差的絕對值保持在0.0~0.5%時,停止訓練。該層的輸出值為良性腫瘤患者(用“0”表示)和惡性腫瘤患者(用“1”表示)。通過準確構建輸入層、隱層和輸出層神經元的數量,保證卷積神經網絡模型能夠具有自適應性和準確性。
本文通過運用卷積神經網絡模型和支持向量機模型,選取腫瘤患者中的9 種常用的特征來預測疑似惡性腫瘤患者。首先對常用的腫瘤特征進行選取,其次運用卷積神經網絡模型和支持向量機模型進行訓練,獲得預測效果最好時對應的模型參數,從而建立一種具有高度智能化和自適應性的卷積神經網絡模型,實驗結果如表2 所示。結果表明,本文提出的卷積神經網絡模型與傳統的支持向量機模型相比,在準確率、特異性、敏感性和曲線下面積(area under curve,AUC)方面分別提高了2.7%、2.9%、2.8% 和3.0%,表現出更好的預測結果。該方法的提出能夠有效地輔助醫療人員檢測惡性乳腺癌患者,提高了乳腺癌檢測的智能化水平。

表2 兩種方法的實驗結果比較 (%)
針對當前乳腺癌檢測過程中,人為誤差造成的檢測結果不準確和檢測效率低等問題,本文創造性地將人工智能領域的卷積神經網絡技術與真實臨床中的乳腺癌數據集進行結合,提出了一種基于卷積神經網絡的乳腺癌智能化檢測方法。從檢測結果上分析,本文提出的卷積神經網絡方法優于傳統的支持向量機模型。為了進一步在臨床實踐中驗證本文所提出方法的有效性,我們運用臨床上的醫療工具分別測定待測患者的9 種指標數值,并將其輸入到卷積神經網絡模型,便可以準確快速地診斷出待測患者是否為乳腺癌惡性腫瘤。
綜上所述,該方法是新一代人工智能技術與乳腺癌診斷相結合的很好展示,不僅提高了乳腺癌檢測的準確率和效率,而且為乳腺癌智能化檢測提供了新的思路。在未來,我們將繼續研究人工智能方面的其它深度學習技術在乳腺癌診斷和早期發現治療方面的應用。