胡 耿,蔡延光
廣東工業大學自動化學院,廣州 510006
2019年12月起,武漢地區部分醫院出現多起新型冠狀病毒肺炎(COVID-19)[1],隨后席卷全國。COVID-19歸為“β 冠狀病毒”屬,具有診斷困難、診斷周期長等特點,為了節省醫務人員的寶貴時間,文獻[2]利用深度神經網絡構建模型,智能識別COVID-19 患者的胸部CT影像[3],進行自動化診斷。
隨著人工智能技術的發展,深度學習[4]在圖像數據相關任務上的顯著成功引人矚目,越來越多的研究人員參與其中,出現了許多性能優越的神經網絡架構。然而,當運用于如醫療這種安全等級高的領域時,深度神經網絡的安全性顯得尤為重要。DNN對抗攻擊研究表明,現有的神經網絡系統存在安全性問題、魯棒性存在問題。例如,基于梯度的對抗攻擊算法,為針對相關圖像數據,利用梯度信息,向良性樣本中增加各種各樣的擾動,達到梯度異常的效果,進而制作出各種不同的對抗樣本。這部分的對抗樣本對比良性樣本,不易被人類感知系統所察覺,但卻能被神經網絡系統的決策體系判定成假陰樣本。相對于其他基于梯度的對抗攻擊方法,本文方法不需要增加額外的計算負擔,同時也不需要增加額外的人類先驗知識,且具有通用性的優點。
在卷積神經網絡中,通過局部連接將所有的神經元關聯起來,取代人工提取圖像特征。VGGNet[5]憑借7.3%的Top-5 錯誤率在2014 年ILSVRC 取得了第二名的成績,其擁有卷積層13個以及全連接層2個。相比于2012年ILSVRC的冠軍網絡——包含5個卷積層和3個全連接層的AlexNet[4],VGGNet 一方面通過加深網絡,另一方面提出了增加正則后的7×7卷積層效果,其相當于疊加3個3×3的卷積層,從而獲得了更佳的性能和更少的參數。He等[6]首先提出使用Resnet block(殘差塊)解決深度網絡性能退化問題;文獻[7]在inceptionV3 結構中提出了通過連續非對稱卷積核,同時增加卷積與池化并行的設計,提升網絡性能,達到優化結構的目的。對于硬注意力機制,簡單地對圖像特定區域進行擦除,就可實現硬注意力;但是,其不可微的問題導致梯度下降算法進行學習,為了解決此問題,大量軟注意力機制被提出。文獻[8]通過將Squeeze結合Excitation,實現了通道維度的參數可學習的注意力機制。
早在2014 年,文獻[9]就提出了深層矩陣空間中線性關系的觀點,引起了廣泛的關注。首先,根據攻擊者對于攻擊的目標模型獲取信息的多少,對抗攻擊可分為黑盒威脅攻擊、白盒威脅攻擊、灰盒威脅攻擊。獲取信息包括網絡結構、梯度數字空間信息、參數權重等。文獻[10]提出了一種如何生成對抗樣本的方法,針對的是良性樣本的梯度空間,通過生成有效擾動的對抗樣本,以達到誤導神經網絡使其錯誤預測的目的,屬于基于梯度的方法;如果能夠持續通過FGSM進行更新攻擊目標的梯度,所以文獻[11]提出了一種I-FGSM算法,解決了單次攻擊的問題,從而實現了可迭代式,但對于緩解梯度下降過程中陷入局部最優的問題,并沒有提供解決方案,但是文獻[12]中,討論了添加動量后的梯度攻擊算法的有效性,提出的MI-FGSM大大提高算法的效率。
2.1.1 殘差單元與空洞殘差卷積單元
對于新冠肺炎CT圖像分類網絡深度與性能退化的矛盾,如圖1 所示。通過使用殘差結構,其中的跳躍連接,解決了因網絡加深而產生的網絡性能退化問題。其組成包括兩部分:第一部分為恒等映射;第二部分為瓶頸結構,即首先經過一個卷積核為1×1 的2D Conv,隨后通過3×3卷積核的2D Conv,然后又進過一個卷積核為1×1 的2D Conv,與此同時,不同卷積操作之間均進行BN[13]操作與Relu操作。

圖1 殘差單元Fig.1 Residual unit
對于新冠肺炎CT 圖像分辨率與感受野的矛盾,本文算法通過設計擴張殘差結構,如圖2所示。其與殘差結構不同的是,如圖3所示,通過增加3×3的擴張卷積,成功建模更大的感受野,一定程度上解決了感受野單一的缺陷。

圖2 殘差空洞單元Fig.2 Residual dilated unit

圖3 3×3卷積和3×3殘差卷積Fig.3 3×3 conv and 3×3 dilated conv
2.1.2 整體結構
對于DNN 中基礎卷積操作,其天然存在過于關注新冠肺炎CT 圖像局部區域計算的缺陷。針對此缺陷,AMDRC-Net中的MS(長短注意力引導的多路聚合空間編碼)大大緩解了其不足。相比較一般的通道注意力機制,本文長短注意力特點在于使用了并行的通道注意力與空間注意力,將特征圖Conv4_x分別與并行注意力模塊得到的縮放系數進行相乘,然后進行對經過注意力模塊后的新特征圖Conv4_x進行concat(拼接)操作。如圖4所示,在通道注意力模塊中:著重關注不同通道的權重分配,如式(4),輸入尺寸為H×W×C的Conv4_x,經過AvgPool(平均池化)和MaxPool(最大池化),大小轉換為1×1×C,考慮到需要充分利用兩個池化操作獲取到的不同信息,故增加參數共享的MLP(多層感知機),然后通過激活函數σ得到縮放因子,最后與最初的新冠肺炎CT 圖像特征圖Conv4_x 進行相乘;空間注意力模塊與之不同的是:著重關注空間信息的權重分配,具體操作為輸入尺寸H×W×C的Conv4_x,轉換后的大小為H×W×1;最后,自注意力模塊網絡提供新冠肺炎CT圖像長距離建模的作用。其具體計算過程如下:

圖4 注意力引導機制示意圖Fig.4 Diagram of attention mechanism

式(1)為通道注意力模塊表達式;如(2)所示,其為激活函數sigmoid 表達式;式(3)為MLP 公式,其中,σ表示sigmoid,F為特征圖,如Conv4_x,同時,其中3×3表示使用的為3×3卷積核,AvgPool為平均池化操作,MaxPool為最大池化操作;式(4)為自注意力公式,yi,C(x),f(xi,xj),g(xj)依次表示輸出矩陣、標準化操作、輸入矩陣、特征值。
2.1.3 損失函數
如圖5 所示,AMDRC-Net 中的S(a)模塊建模過程分為五階段,最后的新冠肺炎CT 圖像特征進入全連接層進行3 分類。分類器使用softmax loss,本質上為:將輸入新冠肺炎CT圖像轉化為在概率空間中的對數似然的大小。其通過前向傳播和反向傳播將損失值(loss value)最小化,softmax 損失函數可以有效區分類間差異,為網絡提供非線性化表達能力,此時,softmax 將全連接層輸出的N維向量(N=3)進行歸一化(所有維度值之和為1)處理,N維向量中的值分別表示預測標簽的概率值。

圖5 多重聚合空間編碼結構Fig.5 Coding structure of multiple aggregation space
具體計算過程如(5)所示,在表達式中,LS表示對softmax 的結果采用梯度下降的損失函數,n表示總輸入訓練數據,xi表示輸入數據,yj表示輸入新冠肺炎CT 圖像所屬類別,C表示訓練數據所屬類別總數,W與b表示網絡模型訓練學習的參數。
隨著對抗攻擊方法的研究,基于梯度方法往往存在單一性問題,即沿著梯度增大、增加噪聲等單一方向設計方法。受啟發于DNN 對抗攻擊最新研究,考慮到卷積神經網絡中存在的長距離語義關系問題,本文研究通過注意力機制為新冠CT 圖像自適應增減擾動,降低人為感知性,同時導致DNN誤判。
其他很多研究通過迭代的方法沿著梯度上升,尋找對抗擾動生成對抗樣本,最后成功進行攻擊,其通過將單步改為迭代尋求最優解,雖然一定程度緩解了梯度方法的邊界性,但并沒有很好地解決運行速度和實用性問題。不同于需要基于物理空間的對抗攻擊方法,本文針對注意力引導神經網絡的特點,通過在數字空間設計軟約束性模塊,達到誤導神經網絡的效果,直接效果就是降低其識別新冠肺炎CT圖像的準確率。
對于迭代式的梯度攻擊方法,針對的是良性樣本全局數字空間,最后求得梯度攻擊的最優解,得到的新冠肺炎CT 圖像存在易被人為感知的問題。與此同時,不需要生成人眼可辨的對抗擾動,且不需要在良性樣本生成全局特定噪聲,本文研究一種基于松弛化的攻擊器,只在網絡關注的區域增加對抗擾動,降低攻擊被發現的風險;且通過其中的注意力感知器,確保了攻擊器針對模型關注的新冠肺炎CT 圖像部分信息,確保合適的感知損失函數的有效性。不需要引入額外約束,從而緩解時間復雜的問題,且保證有效性。本文提出的A-IM-FGSM具體過程如下:
算法注意力引導機制DNN對抗攻擊算法

本實驗采用的數據來自COVID-19 Chest X-ray Database 的新冠肺炎CT 影像數據,數據庫中的數據收集于40 余篇論文,其中的圖像數據均為RGB 三通道圖像,如圖7所示,為訓練數據中部分數據樣本示意圖,其中三類CT影像樣本數量分別為:新冠肺炎病例219張,其他肺炎病例1 345 張,正常1 341 張。考慮COVID-19 Chest X-ray Database的特點,實驗訓練集、驗證集劃分為80%和20%。通過模型從圖像中提取特征信息,使用ImageNet 1000分類的預訓練權重,在CT影像數據上遷移訓練,進行3 分類,最后在驗證集上進實驗測試。此外,模型訓練時均使用同樣的數據增強方法。
針對新冠肺炎圖像數據完成模型訓練的實驗設備:CPU為Intel@CoreTMi7-8700 CPU @ 3.20 GHz×12;GPU為NVIDIA GeForce 1080Ti;操作系統為ubuntu16.04;實驗實現通過python,圖形顯卡驅動依賴為cuda 9.0。
在模型分類性能方面,使用的直觀有效的性能評估指標acc1(average precision),如(6)所示;在對抗攻擊算法方面,如(7)所示(為降低人為發現圖像變化的可能性,使用的距離度量公式為L2范數,即良性樣本與對抗樣本對應像素空間的最大差別不超過32):

首先,實驗中將AMDRC-Net 與其他幾種深度神經網絡模型進行對比;隨后,進行注意力可視化實驗;然后通過使用A-I-FGSM進行單一模型攻擊實驗,其分為白盒攻擊和黑盒攻擊。
3.3.1 對比實驗
為了進一步分析文中網絡結構的性能,在本文所用的圖像數據集上,設計對比實驗,從不同模型配置和消融實驗雙方面衡量,其分為兩部分:在第一部分中,對AMDRC-Net 等模型進行對比測試;在第二部分中,進行注意力消融實驗。其均使用預訓練模型,控制batch size(批處理大小)相同,每訓練一輪記錄一次數據。通過本文網絡架構取得了最高的性能。如圖6 所示,分別表示本文網絡的訓練輪數與acc 關系曲線、訓練輪數與loss 關系曲線、訓練集混淆矩陣、驗證集混淆矩陣。

圖6 訓練曲線和混淆矩陣Fig.6 Training curve and confusion matrix
表1 展示了不同網絡之間的測評結果,分別為GoogleNet、VGG16、Resnet50、SE、AMDRC-Net 的驗證集top-1 準確率;表2 為AMDRC-Net 中注意力機制的消融實驗,測試模型分別表示:MS(無注意力機制AMDRC-Net)、channel attention、spatial attention、longshort guided attention。

表1 圖像分類模型對比實驗Table 1 Comparison experiment of image classification model

表2 針對注意力機制的消融實驗Table 2 Ablation experiment for attention mechanism
3.3.2 可視化實驗
為了緩解DNN存在的黑盒問題,在可視化實驗中,通過對模型參數使用激活熱力圖[14],可以直觀顯示DNN網絡模型關注區域,如圖7 所示,分別為普通注意力的激活圖、原圖、本文網絡注意力的激活圖。從中可以看出,本文注意力對CONVID-19、NORMAL、Viral Pneumonia三類特征學習得更好,學到的類別特征更精確、更豐富,即注意力熱圖中的激活點更精確、更豐富。

圖7 本文模型和普通注意力的熱力圖對比Fig.7 Comparison of activation maps between this model and normal attention
3.3.3 對抗攻擊實驗
如圖8所示,本文提出基于改進注意力機制的對抗攻擊算法,通過對良性樣本添加對抗擾動,生成對抗樣本。從而導致DNN 對測試目標失去分類能力。如表2所示,最后進行的實驗表明,白盒攻擊實驗中,準確率下降達97%,黑盒攻擊實驗中,準確率下降達47%,對抗攻擊效果顯著。

圖8 A-IM-FGSM生成的對抗樣本Fig.8 Adversarial examples generated by A-IM-FGSM
本文提出了一種AMDRC-Net 結構,在新冠肺炎圖像數據集上達到最高準確率;提出了一種注意力引導機制的DNN對抗攻擊策略A-IM-FGSM,保證高效攻擊性能的同時,解決其他同類算法的單一性問題,且一定程度上針對新冠肺炎CT 影像數據,進一步降低攻擊被發現的風險。目前,只在三大類的新冠肺炎圖像數據進行模型訓練,接下來研究將從細粒度任務角度出發,設計網絡訓練模型進行識別。在對抗攻擊任務方面,未來可針對約束損失問題展開研究,通過增加額外的約束損失來逼近對抗擾動矩陣空間;也可針對數字空間和物理空間的區別,將物理空間擾動考慮在內。希望通過本文的研究,推動智能醫療,期待未來研究出更具魯棒性、理論性更強的人工智能系統。