李斌,李霄,胡廣芹,張新峰
北京工業大學 a.環境與生命學部;b.信息學部,北京 100124
中國傳統醫術已形成了以“望、聞、問、切”四診合參以及中醫理療為核心的完整診療體系。痧療作為中醫理療的重要組成部分,以其無傷、便捷等優點深受人們的青睞[1]。痧象是指痧療后人體皮膚所反映出的機體的健康狀態,因每個人體質、病因、患病程度等各不相同,皮膚所反映出的痧象也存在差異[2]。醫師可以通過痧象的特征要素來對患者進行初步的診斷,主要包括痧象的顏色、形狀等,一般情況下,顏色可以反映出機體的熱寒狀況,而形狀則可以反映機體的嚴重程度[3-4]。隨著中醫需求量的增加,通過傳統中醫醫師去辨別痧象特征,診斷機體健康狀態會消耗大量的精力和時間。因此如何快速而又準確地辨識中醫痧象的特征要素,進而判斷機體健康狀態尤為重要。
現代技術的發展為解決上述問題提供了一個新的途徑,近年來,機器學習、深度學習成為醫學領域研究的熱門[5]。VGG19 網絡作為深度學習分類模型的代表[6],因其結構簡單、易擴展等優勢受到人們廣泛關注,該模型由16 個卷積層、5 個池化層、3 個全連接層堆疊而成,采用小卷積核代替之前網絡的大卷積核,能夠捕獲到更多的細節特征信息。此外由于模型結構簡單,因此易對模型結構進行改進,進一步提升分類任務的精度,這也為分類研究奠定了基礎?;诖耍疚囊灾嗅t背部痧象為切入點,通過對采集的痧象圖片數據進行前期的處理,采用VGG19 網絡模型為主干進行研究,并在網絡模型中引入多任務學習模型的思想以及混合注意力模塊機制,旨在實現中醫背部痧象特征要素的準確分類,并依據分類識別結果判斷人體健康狀態。
本文采用的痧象圖片數據來自北京工業大學環境與生命學部健康工程研究室痧象數據庫。所有圖片均采用數碼相機設備,在自然光源下進行拍攝,采自北京工業大學醫院胡廣芹主任醫師刮痧治療的各種臨床疾病患者。通過篩選處理,去除拍攝模糊、背景過亮、過暗以及拍攝缺失的圖片,共得到可用于實驗研究的圖片數據818 張。之后參照《家庭刮痧邊學邊用》[7]、《養生專家的刮痧筆記》[8]等中醫刮痧書籍中對于痧象辨識的標準以及數據實際情況,將痧象顏色劃分為暗紅、紅、淡紅3 類,形狀劃分為點和片兩類。最后將圖片按照訓練集∶驗證集∶測試集=8 ∶1 ∶1 的比例進行劃分,其中訓練集圖片共654張,驗證集圖片共82張,測試集圖片共82張。
基于數據集圖片較少、分類任務簡單的特點,本文采用了比較成熟的VGG19 網絡模型作為網絡主干進行了實驗[9]。VGG19 網絡模型由16 個卷積層、3 個全連接層和 5 個池化層構成,與之前的卷積神經網絡相比,其采用了多個3×3 的卷積核來代替之前的大卷積核,在保證感受野的同時極大地減少了網絡參數,降低了計算量。如圖1 所示為實驗采用的VGG19 網絡架構圖。網絡模型的輸入圖片大小為256×256×3,經過網絡卷積、池化層后,在全連接層展開輸出。由于實驗對顏色和形狀特征進行分別訓練輸出,因此圖中輸出n 分別代表了顏色三分類以及形狀的二分類。

圖1 VGG19網絡模型
計算機視覺中的單任務學習目前已經取得了很大的成功,但現實生活中許多的問題本質上是多樣的,如同一張圖片上包含有多種物體,如果對這些問題采用單任務網絡去學習訓練會增大網絡的參數量,并且會忽略數據相關的噪音以及泛化性能,而多任務學習同時對多個任務進行訓練學習,這會對不同任務的噪音進行平均,從而使模型更加泛化[10]。此外多任務學習引入了歸納偏置機制,與正則化起到了相同的作用,可以減少網絡模型過擬合的風險。本文的痧象特征分類任務包含顏色和形狀兩個任務,且采用的是同一數據集,這種情況下使用多任務學習是最優的選擇。
基于深度神經網絡的多任務學習常用的方法有兩種,一種為隱層參數的硬共享,另一種為隱層函數的軟共享。參數的硬共享機制是多任務神經網絡訓練學習最常見的方式,其可以應用到所有任務的隱層上,共享訓練層參數,保留各自的輸出層,減少網絡的訓練參數,降低過擬合的風險[11-12]。而軟共享則是指每個任務具有單獨權重的單獨任務模型,不同任務模型參數之間的距離被添加到聯合目標函數中。本文基于數據的特點,考慮到任務之間存在一定的相關性,因此使用了多任務學習的參數硬共享機制進行實驗。
多任務神經網絡的結構對于任務的學習具有很大的影響,本文針對訓練任務采用了共享主干線的架構模型。數據輸入采用統一數據集作為網絡模型的輸入,而后經過由所有任務共享的卷積層構成的全局特征提取器,最后對每個任務進行單獨的結果輸出。網絡模型結構如圖2 所示。

圖2 多任務學習模型
注意力機制源于對人類視覺的研究,其是指人類有選擇地關注所有信息中的一部分,而忽略其他可見的信息,從而避免無關信息的干擾。在神經網絡中,注意力機制主要是針對在計算能力有限的情況下,將計算資源分配給更重要的任務,同時解決信息超載問題的一種資源分配方案,其可以聚焦于對當前任務更關鍵的信息,提高任務處理的效率和準確性[13-16]。根據注意力作用的不同維度可以將其劃分為通道注意力、空間注意力、時間注意力、分支注意力以及混合注意力。不同的注意力機制代表不同的含義,通道注意力機制重點在于重要通道的選擇,原因為不同的通道往往代表不同的物體;空間注意力機制更關注信息中的哪一部分信息具有意義;時間注意力機制側重于何時去關注信息;分支注意力則側重于關注多分支結構的某一分支;混合注意力則是通過上述不同注意力的結合來對信息進行更加準確的關注,以提升任務的效率和準確率。
本文采用了卷積注意力模塊(Convolutional Block Attention Module,CBAM)[17-19],其結合了空間注意力機制和通道注意力機制,能夠序列化地在通道和空間兩個維度上產生注意力特征圖信息,而后與輸入特征圖進行相乘從而進行自適應的特征修正,產生最后的特征圖,見圖3。由于CBAM 是一種輕量級的模塊,因此可以嵌入到任何主干網絡中提高網絡性能。本實驗將CBAM嵌入到了VGG19 主干網絡中的第一層卷積和最后一層卷積中,從而提高了網絡的性能,改進后的網絡模型如圖4 所示。

圖3 CBAM機制

圖4 改進VGG19網絡模型
在復雜的深度神經網絡的背景下,需采用消融實驗來描述去除網絡的某些部分的過程,以更好地理解網絡的行為。采用消融實驗方法,通過分別添加不同網絡模塊,保持其他不變,比較本文提出的3 種網絡模型的可行性與有效性,進而說明該模塊的有效性。首先對VGG19 網絡模型的參數進行設置,具體的參數如表1所示;然后在保證參數一致的前提下,加入多任務模型和CBAM。實驗結果采用訓練準確率以及測試準確率進行評價,并設置了平均準確率,即顏色與形狀準確率的均值,以此判斷網絡模型的性能高低,通過消融實驗比較最終的分類準確率。

表1 網絡模型參數
消融實驗結果如表2 所示,以VGG19 網絡模型為主干,引入多任務學習模型后,顏色及形狀的分類準確率都有所提升,平均準確率上升了約2%。在加入CBAM 后,模型的準確率得到了進一步的提升。通過消融實驗確定在引入多任務學習模型并加入CBAM 后的改進VGG19 網絡模型,取得了最好的分類結果。

表2 3種網絡模型的消融實驗結果
采用改進的VGG19 網絡模型訓練batch_size 以及CBAM 中多層感知器的縮減率。多層感知器的縮減率可以控制感知器中的神經元個數,從而降低參數開銷。實驗訓練結果如表3 所示,通過對不同的batch_size 和縮減率進行研究發現,當縮減率為1/8、batch_size 為8 時得到的訓練結果最好,顏色分類準確率為93.90%,形狀分類準確率為95.12%,平均準確率為94.51%。

表3 模型訓練結果
通過咨詢北京工業大學醫院胡廣芹主任醫師,獲得了中醫痧象特征與證型間的對應關系,之后結合網絡模型的分類結果(表4),可以對中醫證型進行初步的判別,輔助醫師進行診療。

表4 痧象特征與證型關系
研究表明,VGG19 結構簡單,具有較深的網絡結構,能提取到足夠的圖像信息,且其以3×3的小卷積核為主,使得網絡能提取到更多的局部細節信息,此外針對數據集圖片模糊、分辨率低,從而影響模型識別精度的問題,可以引入注意力機制以增強模型特征提取的能力,同時針對神經網絡參數大、易過擬合的問題,利用深度可分離卷積代替原始卷積,從而減少模型的參數量,使模型在訓練時能更快收斂[20-21]。
本實驗以VGG19 網絡模型為主干,融合了多任務學習模型、CBAM,并在改進模型上進行了參數調優,實現了對于痧象顏色和形狀特征的準確分類,二者的準確率分別達到了93.90%和95.12%,較武文強等[22]采用支持向量機針對痤瘡痧象的自動分類結果提升了20%左右。但本研究還存在以下問題:由于痧象特征沒有進行更加細致的劃分,其對應的癥狀可能存在一定的偏差,因此未來可以考慮對痧象特征進行更加細致的分類,從而使證型診斷更加準確。另外,中醫舌、面、痧、脈等通常是一個整體,僅僅通過痧象對證型進行診斷存在一定的偏差,而通過不同診斷結果的結合能夠對證型進行更加準確的判斷。因此未來可以考慮和舌面等結合,提高診斷的科學性與合理性。
綜上所述,本研究采用多任務學習模型并加入CBAM 的改進網絡取得了最高的分類準確率,對于顏色特征的三分類準確率可以達到93.90%,對于形狀特征的二分類準確率可以達到95.12%,實現了對于痧象特征的自動化分類,可以用于中醫輔助診斷以及臨床教學,此外結合中醫傳統經驗知識,能夠實現對于中醫證型的初步診斷,進而實現中醫智能化。