呂學強,趙興強,賈智彬,韓 晶
(1.北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101;2.北京信息科技大學 機電系統測控北京市重點實驗室,北京 100192)
近年來,隨著以卷積神經網絡(Convolutional Neural Network,CNN)為代表的深度學習的發展,顯著提高了計算機視覺相關任務的執行能力。然而,由于卷積神經網絡內在的黑盒特性,解釋深層CNN仍存在巨大的挑戰。即使模型能產生正確的輸出,也需要合理推理以防止人們對結果不信任。因此,除了性能之外,神經網絡的可解釋性至關重要,尤其在高風險的軍事領域[1-2]。
目前,國內外研究人員提出了幾種不同的深層神經網絡理論和解釋方法,一些綜述性論文對此進行了總結[3-4]。為了理解網絡學習到的特征,越來越多的研究利用可視化的方式探索神經網絡。文獻[5]提出的類別激活映射(Class Activation Mapping,CAM)方法,通過提取特征圖與目標類別全連接層之間的權重,直接加權求和并通過歸一化獲得類激活圖,但該方法需要調整模型結構、插入全局平均池化層以及重新訓練網絡,靈活性較差;文獻[6]提出了Score-CAM,將每個特征圖作為掩碼干擾原始輸入圖像來獲得權重并加權,以便獲得最終的解釋圖像。但上述方法只探索了最后一層特征的感興趣區域,對于網絡如何根據這個區域進行分類并沒有給出明確的解釋。
在判斷一張圖片是哪一類的過程中,并不是所有神經元都起到了正面的作用,通過CGNIS 算法,嘗試針對某一類別進行實驗,找出對判斷這一類別起到重要作用的神經元,進一步挖掘神經元關注區域,更加細化可視化區域的關注點。
通過觀察重要神經元的關注區域,發現這些區域多為某個物體關鍵部位,但該部位的概念具有一定的主觀性。神經網絡只是對圖像背后像素點數值特征進行學習,把擁有相似特征的圖片歸為一類,此過程并不能使人理解,人類則是通過圖像中表達的各種信息理解圖像,傾向于用文字描述圖像[7]。因此,嘗試模擬人對物體的分類過程,將這些部位的視覺特征轉換成語義特征,使解釋網絡的判斷過程更符合人的思維。為了讓轉換過程更加客觀,設計一個新的網絡,將各個重要神經元關注的區域進行標注訓練,使網絡可以得到語言化的結論。該網絡融合目前較為主流的殘差思想和多尺度思想,提出簡化Inception 殘差模塊(Simplified Inception Residual Module,SIRM),將網絡中間層的3×3 卷積替換掉,使網絡可以獲得更多的特征。同時該算法在網絡中采用有效通道注意力機制(Efficient Channel Attention,ECA)[8],提高了算法性能,并在重要神經元類激活圖分類的任務中表現出良好的泛化能力。在得到重要神經元的語義特征后,結合其視覺特征以及CGNIS 獲得的對應權重,可以生成解釋性語句,對分類網絡的判定過程進行更好的詮釋。
綜上所述,本文提出一種面向分類網絡的視覺語義解釋模型。綜合考慮前向與反向傳播,提出CGNIS 算法獲取分類過程對結果重要的神經元。在得到重要神經元的基礎上,采用類激活圖映射的方式生成重要神經元關注區域,完成從抽象的數學特征到視覺特征的轉換。隨后嘗試將得到的視覺特征轉換成語義特征。為了保證轉換過程的客觀性,設計一種圖像分類網絡——IRENet,在VGG16 網絡中間層添加簡化Inception 殘差模塊與有效通道注意力機制,將分類結果視為重要神經元的語義特征,并將各個重要神經元的權重信息、視覺特征、語義特征相結合生成解釋性語句。
基于反向傳播的視覺解釋方法通過計算特定類別相對于輸入梯度的預測得分,將可視化的解釋結果作為每個像素對預測結果的重要程度,文獻[9]提出的可視化和理解卷積網絡方法是這種思路的代表方法,由于反向傳播產生的誤差,使得上述方法效果不佳;文獻[10]通過積累落在圖像距離向量上圖像梯度的方式來克服由于不連續梯度的存在以及梯度彌散消失產生的誤導作用;文獻[11]在輸入圖像上進行多次加噪處理,再對多個噪聲樣本的解釋結果圖像進行平均,降低解釋結果圖像的噪聲;文獻[12]引入導向系數,使其在計算反向傳播時只保留正梯度;文獻[13]提出全梯度的概念,將中間層偏差梯度和輸入梯度結合,得到最終的解釋結果。基于反向傳播的解釋方法計算速度相對較快,且可以獲得高分辨率的解釋結果圖,但其結果通常存在噪聲,很難確定哪些像素在預測時發揮了重要作用。
基于類激活圖映射的解釋方法通過特定方式計算出特征圖對應的權重信息,并對特征圖進行加權求和獲得最終的解釋信息。CAM[5]方法通過提取特征圖與目標類別全連接的權重,直接加權求和并歸一化獲得類激活圖,但該方法需要調整模型結構、插入全局平均池化層和重新訓練網絡,靈活性較差;文獻[6]提出的Score-CAM 方法將每個特征圖作為掩碼干擾原始輸入圖像獲得其權重并加權,以便獲得最終的解釋結果圖像;此外,Ablation-CAM[14]以及Salience-CAM[15]也取得了不錯的效果。文獻[16]提出權重向量的二步優化方式,第一步盡量縮短原始圖像與干擾圖像的特征間距,第二步提高對干擾圖像的估計得分。此外,類激活映射的方式還可以與反向傳播方法(如Guided back propagation)相結合,獲得效果更好的解釋性圖像。上述方法獲得權重的方式不同,其計算速度和解釋圖噪聲也不盡相同,且方法傾向于激活圖像中某一個重要區域[17],往往忽略其他可能存在的重要區域。
本文提出的模型利用類激活圖首先獲取網絡關注的整體視覺特征,然后結合前向與反向傳播尋找重要神經元,獲取重要神經元的關注區域,將整體視覺特征細化為局部視覺特征,最后將局部視覺特征轉換成語義特征。
本文首先提出CGNIS 算法,綜合考慮前向與反向傳播獲取對分類結果起重要作用的神經元,并利用CAM 將重要神經元的關注區域映射到原圖,獲取更加細化的視覺特征。然后提出IRENet 網絡,更加客觀地將視覺特征轉換成語義特征。最終結合重要神經元權重、視覺、語義等信息生成解釋性語句。具體結構如圖1 所示。首先將圖片送入訓練好的分類網絡,獲取分類網絡在分類過程中的數據,然后經過CGNIS 算法計算最后一層特征圖中對分類過程起到重要作用的神經元,并保留權重信息,利用CAM 提取視覺特征,隨后將特征送入IRENet 中,提取機頭、機身等語義信息,最后將權重信息、視覺信息、語義信息生成解釋性語句。下文將詳細介紹重要神經元視覺特征和語義特征提取。

圖1 視覺語義解釋模型Fig.1 Visual semantic interpretation model
2.1.1 基于前向與反向傳播的重要神經元獲取方法
圖像分類是將輸入圖像經過卷積和池化操作,提取特征向量并將特征向量傳入全連接層中得到分類結果的過程。在前向傳播中,每個神經元都或多或少地對分類結果造成影響,神經元提取的特征越重要,該神經元對網絡的影響越大。同時,反向傳播也體現出神經元存在一定依賴程度:即第l+1 層的每個神經元誤差和第l層每個神經元相關,如誤差的20%由導致,50%由導致,30%由導致,這些值是連接的權重值,在反向計算誤差時,第l層每個神經元將對應的誤差值成比例地推向前一層,且比例越大,對應的神經元對當前神經元的影響越大。基于此觀點,提出一種基于前向傳播與反向傳播的重要神經元獲取方法,首先采用置信度思想,利用前向傳播獲取高層卷積的重要神經元信息,然后利用鏈式求導法反向推導出高層卷積層每個神經元的重要程度,將兩者按位相乘得到最終的分數。
此方法對分類網絡普遍適用,本文僅以VGG16網絡為例進行分析。文獻[18-19]的研究表明,最后一層卷積識別特征最多且此卷積對最后的分類也最重要,所以CGNIS 算法主要挖掘高層卷積的重要神經元。
給定一個訓練好的VGG16 網絡,利用CAM 算法得到最后一層卷積的置信度,其結果是一個512 維的向量,分別對應最后一層每個神經元在前向傳播過程中的重要程度。
本文從結果出發,反推輸出層對結果的影響,綜合評判置信度分數。VGG16 網絡具體計算公式的推導過程如圖2 所示。

圖2 VGG16 CGNIS 網絡推導過程Fig.2 VGG16 CGNIS network derivation process
經過VGG16 第18 層的卷積核池化操作后可獲得7×7×512 的特征圖,將其轉化為25 088 維的向量以便作為全連接層的輸入,該過程輸出為a18:
其中:w、a、b分別表示權重、輸入值、偏置。
最后輸出層采用Softmax 激活函數,如式(3)所示:
得到分類結果后,利用反向傳播推導出高層卷積層每個神經元的重要程度。
首先該網絡采用交叉熵損失函數,如式(4)所示:
其中:aL是輸出層的激活向量;y是樣本標簽向量;i為神經元數。
其中:zL表示當前層的輸入值。
然后根據鏈式求導法則,計算出第l個隱含層第j個節點的反向傳播誤差,得到第l個全連接層的反向傳播誤差公式如式(6)所示:
當反向傳播傳到第19 層時,會存在由全連接層到池化層的反向傳播誤差,如式(7)所示:
其中:F-1表示全連接的逆運算;δ18為第18 層的池化層。
由δ18推導第18 層的反向傳播誤差時,對于最大池化,需要上采樣將δ18中每個通道的元素放在之前前向傳播最大值處,其他元素值設置為0。反向傳播公式如式(8)所示:
算法1 描述了實現整個算法的全部細節。
算法1CGNIS 算法
2.1.2 重要神經元視覺特征區域裁剪
第2.1.1 節獲得對分類結果起重要作用的神經元,本節將可視化神經元的關注區域,通過借鑒類激活圖的方式將神經元映射到原圖,實現細化關注點的目的。具體來說,利用全局平均池化層將輸出層中某個類別標簽所對應的權值映射到前一層卷積特征圖上并重復多次,得到每個通道卷積特征圖對輸出結果的重要性,并將每個卷積特征圖線性相加得到整體類激活圖。該圖大小與原始圖像相同,且像素取值從0 到1,其取值越大表示原始圖片對應區域對網絡的響應越高,貢獻越大。而在本節中主要提取最后一層卷積特征圖的類激活映射圖,以獲得某個重要神經元的視覺特征,不需要進行最后線性相加操作。
為了提取更具判別性的局部視覺特征,對映射區域進行裁剪,首先設置超參數閾值θ1,然后對神經元計算其所需的掩碼,如式(10)所示:
其中:A表示上采樣后的神經元類激活圖;(i,j)代表像素點的位置;M代表處理后的特征圖。
令xmin和xmax分別表示M中值為1 的橫坐標的最小值和最大值,ymin和ymax分別表示M中值為1 的縱坐標的最小值和最大值。根據這4 個坐標即可定位出當前神經元的關注區域。若X為原始輸入圖像,高和寬分別為h和w,p為填充尺寸,則所需裁剪的區域邊界框坐標的計算公式如式(11)所示:
在確定出裁剪區域后,將處理好的卷積特征圖與原圖相乘并裁剪對應區域,如式(12)所示:
最后將裁剪后的圖像上采樣到原始圖像尺寸。對于卷積神經網絡來說,圖像的分辨率越大,提取的特征越豐富,模型效果的上限也就越高;將裁剪后的圖像上采樣為原始圖像尺寸,可以作為統一輸入圖像,添加對比實驗證明提出網絡的可行性與優越性。圖3 所示反映了針對某張飛機圖像生成整體類激活圖,某個神經元的掩碼、裁剪并上采樣生成擴充圖像的過程和結果。

圖3 神經元映射區域裁剪和生成流程Fig.3 Procedure of neuron mapping region cropping and generation
裁剪并上采樣的圖像代表該神經元的視覺特征,下一步嘗試將此特征轉換為語義特征。
采用第2.1.2 節的神經元映射方式,可以將神經元抽象的數學特征轉換為關鍵區域的視覺特征,本節在此基礎上,將這些視覺特征轉換為便于人類理解的語義特征,并生成描述分類過程的可解釋性語句。觀察第2.1.2 節獲得的神經元映射圖可以發現,這些圖像包含的特征較少,四周存在大量黑邊,僅憑這些圖像得到對應的語義特征無異于盲人摸象。針對這一問題,設計分類網絡IRENet 將這些圖像識別出來,從而使語義特征的生成更加客觀。
本文設計的網絡基于VGG16 網絡,在此基礎上,融 合ResNet 和Inception 的優點,結 合VGG 網絡自身易解釋和可塑性強的特點,對VGG 網絡進行優化。具體的網絡特征提取部分結構如圖4所示。

圖4 IRENet 特征提取網絡Fig.4 IRENet feature extraction network
網絡特征提取部分將VGG16 中間層3×3 卷積替換為SIRM 模塊。卷積神經網絡淺層主要學習簡單的特征,比如顏色、形狀等[20-22]。網絡在中間幾層關注的特征逐漸抽象,這些復雜的特征需要較深的神經網絡進行擬合,若只使用簡單的3×3 卷積提取特征,可能導致關鍵特征丟失,對分類結果產生巨大影響。在網絡的最后幾層,由于感受野的降低,無須再使用多尺度特征提取,過多提取反而會降低分類準確性。所以,本文嘗試改變中間層卷積模塊,提高網絡分類準確率。此外,本文網絡還使用了有效通道注意力機制ECA,ECA 克服注意力模塊為了獲得較好性能忽略其復雜程度和計算量的問題,實現超輕量級注意模塊,該模塊可以靈活地整合到現有的CNN 架構中。
圖5 所示為SIRM 模塊,在理想狀態下,通常假設輸入圖片為x,f(x) ?Rn表示網絡中某一個特定中間層的特征,網絡的輸出為y=D(f(x))?Rc,c指代分類任務中類別的數量,D表示在f(x)之上的網絡模塊。而在真實情況下,網絡中某一層特征應表示如下:

圖5 SIRM 模塊Fig.5 SIRM module
其中:f′表示某一層實際特征;Δf表示卷積提取時網絡未關注的特征,此特征因圖像信息位置存在巨大差異,難以選擇合適卷積核大小而產生。信息分布分散的圖像適合大的卷積核,反之則適合小的卷積核,若只是簡單串聯各種尺度的卷積,不僅會加深網絡深度使網絡更容易過擬合,還會使梯度更新變得困難,SIRM 模塊采用1×1 卷積和3×3 卷積進行多尺度組合,代替原始的3×3 卷積,并且減少了多尺度分支,提高了推理速度。除此之外,該模塊采用ResNet的殘差思想,如圖5 所示,該模塊中存在兩種殘差結構,一種在1×1 卷積和3×3 卷積處添加殘差結構,另一種在各分支融合處添加殘差結構,使深層網絡能夠獲得更魯棒的特征表示。
IRENet 獲取到重要神經元的語義特征之后,通過模板將CGNIS 得到的重要神經元權重、視覺特征、語義特征相結合,生成解釋性語句,相對于CAM,更加便于理解,且語義特征可以在NLP 領域作為先驗知識組成知識庫,為后續的研究和應用提供便利。
CGNIS 算法獲取重要神經元實驗采用PyTorch框架提供的VGG16 模型,數據集為ImageNet2012 數據集,分類準確率為88.6%。實驗在ImageNet2012 數據集中隨機抽取10類圖像,數據集樣例如圖6所示。

圖6 ImageNet2012 數據集樣例Fig.6 Sample of ImageNet2012 dataset
針對IRENet 進行的實驗可以提取指定類別語義特征,本文只以飛機與坦克為例,從fgvc-aircraft-2013b和ImageNet2012 數據集中分別抽取10 000 張圖片進行網絡的二分類訓練。
在二分類網絡訓練結束后,使用第2.1 節的方法獲取重要神經元,找出神經元的關注區域,映射到原圖并遮蓋不重要的區域。最后將獲取到的神經元類激活圖對應原圖信息進行人工標注,并對訓練好飛機、坦克二分類的VGG16 網絡中的重要神經元類激活圖進行分類,類激活圖樣例如圖7 所示。

圖7 數據集劃分樣例Fig.7 Sample of dataset partition
本文提出的IRENet 網絡的有效性主要通過網絡分類效果進行評估。對于分類算法的效果評估,本節使用以下4 項評價指標:即精確率(P)、F1 值(F1)、召回率(R)、準確率(ACC)。
本節實驗使用PyTorch 框架,在具體實驗中使用隨機梯度下降優化器進行模型優化,其動量設置為0.9,學習率設置為0.001。IRENet 網絡模型與對比實驗模型的迭代次數均為100 次。實驗相關具體配置如表1 所示。

表1 實驗環境配置Table 1 Experimental environment configuration
3.4.1 重要神經元在分類過程中的作用
實驗在VGG16 網絡進行特征提取的最后一層卷積使用CGNIS 算法獲得神經元的重要程度,以此為基礎進行探索。在神經元可視化方面,本實驗將每個神經元對應的特征圖與原圖相乘,獲得神經元的對應區域。
CGNIS 計算結果表明,每個類別的重要神經元會在此類圖片分類過程中重復出現,本文猜測這些神經元就是對分類起到作用的重要神經元,并嘗試進一步證實這個猜想。表2 展示的是“飛機”、“汽車”、“貓”等類別重要神經元出現的次數,神經元按所在層數從上到下依次編號,實驗對每個類別均隨機選取100 張圖片,對每個圖片均計算CGNIS 分數,并統計重要神經元出現的頻率。

表2 重要神經元出現的次數Table 2 Number of important neuron occurrences
從表2 可以看出:對“飛機”而言,重要神經元出現次數最多的是6 號神經元;對“狗”而言,重要神經元出現次數最多的是129 號神經元。
圖8 展示了每個類別重要神經元主要關注的特征。“飛機”最重要的6 號神經元,將其可視化,發現此神經元對“飛機”這個類而言,關注的特征是“機艙”。本實驗還發現,對于同一類型的特征,不同種類的重要神經元也不同,比如“人”的“頭部”和“鳥頭”。

圖8 多類別重要神經元關注區域可視化展示Fig.8 Visualization of important neuronal regions of interest in multiple categories
為了了解這些神經元是對每個類別都重要還是針對特定類別才會有較高的貢獻度,本節嘗試對多個類別進行實驗。實驗采用100 張圖像,其中50 張同一類別,另外50 張不同于上一類別,每張圖像獲取某個特定神經元的重要程度。
圖9 分別展示對飛機和坦克重要的神經元是否對其他類別也重要的實驗結果,其中重要程度數值越高影響程度越大。實驗結果表明,對某個特定類別最重要的神經元,在其他類別中不一定會起到關鍵作用。

圖9 神經元對各類別的重要程度Fig.9 Importance of neurons for each category
3.4.2 重要神經元影響程度
為了深入了解這些重要神經元對網絡準確率的影響,本節測試移除一些神經元對網絡分類的影響。將需要測試的神經元權重設置為0,且保持其他神經元輸出,實現刪除神經元的效果,并不對網絡重新訓練,直接測試這些神經元對當前類別和整體網絡的影響。
網絡分類準確率的高低由神經元提取的特征是否重要決定。例如,對“飛機”這一類別,最后一層卷積的6 號神經元主要檢測到的目標是“機艙”,而將該神經元刪除后,網絡在訓練集和驗證集上對該類別的圖像識別準確率均有所下降,如表3所示。

表3 刪除神經元后準確率的變化Table 3 Change in accuracy after deleting neurons %
在表3 中,神經元分別對應各個類別的重要神經元,當這些神經元被刪除時,均會造成對應類別的準確率下降。
本節還對某個具體類別嘗試去掉一些重要和不重要的神經元進行實驗,觀察該類別分類準確率變化。首先,將CGNIS 得分按遞增和遞減進行排序,前者表示重要神經元,后者表示不重要神經元,然后每次按順序選擇一定數量的神經元進行刪除來判斷對分類準確率造成的影響。實驗結果如圖10 所示,該圖展示了在“飛機”和“坦克”兩個類別中去掉重要和不重要神經元準確率發生的變化。從圖10 可以看到,當刪除一些重要神經元時,對應類別的準確率均會下降,刪除的越多準確率下降的越大。然而,在刪除不重要的神經元時,準確率變化不大,有時反而有所提升,說明網絡在分類時受到不重要神經元的干擾。從該實驗可以得出,網絡僅從最重要的神經元中獲得了分類的大部分性能,甚至可以通過刪除最不重要的神經元達到提高單類別精度的效果。

圖10 刪除重要與不重要神經元對兩類別準確率的影響Fig.10 The effect of removing significant and insignificant neurons on the accuracy of two categories
為了測試網絡對某一類別進行分類的能力是否可以歸因于這些重要神經元,刪除選定的神經元集合來驗證這些神經元對當前類別和整體的影響程度,如表4 所示。

表4 刪除相關神經元后多類別準確率的變化Table 4 Change in multi category accuracy after removing related neurons %
從表4 可以看出,刪除少量相關神經元對自身類別準確率影響較大,對整個數據集影響不大,說明CGNIS 算法確實提取到單類重要神經元。但當刪掉100 個神經元時,對“飛機”的影響達到了86.8%,對整體的影響也達到了26.5%,分析得出此次整體準確率下降主要原因是移除的神經元過多,包含了其他類別中的重要神經元,從而損害網絡對其他類別進行分類的能力。
從上述實驗可以發現,CGNIS 算法提取到的重要神經元刪除后確實對相關類的分類準確率有影響。可視化重要神經元關注區域發現,在網絡分類過程中,主要依靠重要神經元對物體關鍵部位的學習。某個類別對應的重要神經元對其他類的貢獻度很小,且刪除后減少了噪聲,準確率有時不降反升。當刪除少量某個類別的重要神經元時,對整個數據集的分類準確率影響不大。
3.5.1 語義特征識別網絡IRENET 消融實驗
本節采用消融實驗來驗證對網絡中間層卷積的改進以及在高層添加通道注意力機制是否有助于提升分類準確度。首先本節在RESNET18 網絡上進行消融實驗,實驗結果如表5 所示,對于未采用任何模塊的RESNET18 來講,無論采用SIRM 和ECA 中的任何一個模塊,其實驗得到的評價指標均有一定的提升,這說明這兩個模塊均可以作為單獨方法使用。而在兩個模塊一起使用的情況下,網絡分類的精度和單獨使用相比又有了進一步的提升,這也說明了本節算法能夠更加準確地學習和獲取到圖像的重要特征,使分類結果更準確。

表5 消融實驗1 結果Table 5 Results of ablation experiment 1
同時,在IRENet 模型上做了相同的消融實驗,該實驗將本文提出的SIRM 模塊和使用的ECA 模塊單獨使用,探討這兩個模塊的有效性。實驗結果表明,在單獨使用時,兩模塊對神經元的類激活映射圖的分類也能達到不錯的效果,結果如表6 所示。實驗結果表明,較單獨使用其中模塊的情況下,同時使用兩者會使網絡效果更好,這也進一步證實了提出的IRENet 網絡的有效性。
3.5.2 語義特征識別網絡IRENet 分類對比實驗
為了進一步驗證本文提出的網絡對當前神經元映射區域圖像分類任務的有效性與優越性,利用現有經典卷積網絡算法進行對比實驗。其中,使用的主流卷 積網絡 框架包 括VGG16[23]、RESNET[24]、INCEPTIONNETV3[25]、MOBILENETV3[26]和EFFIC IENTNET[27]網絡。分類結果如表7 所示。

表7 分類實驗結果Table 7 Classification experimental results
從表7 可以看出,本文提出的IRENET 與目前已有且比較主流的分類網絡相比,在相同的訓練環境和參數設置下,在神經元類激活圖的數據集上各項指標均有提升。IRENET 在網絡中間層將3×3 卷積替換成由1×1 卷積和3×3 卷積構成的輕量化模塊,使網絡更加關注中間層特征并更好地獲取特征,同時融入殘差連接思想,使IRENET 與VGG16 和RESNET101 兩個網絡相比均有不錯的提升。在網絡分類時,IRENET 在網絡高層的語義獲取層以及全局平均池化層中添加通道注意力機制,使網絡更加關注重要神經元的貢獻,進一步提升性能。
同時,選取VGG16、RESNET101、IRENET 分別對“飛機”類別生成解釋性語句進行比較,結果如圖11 所示,VGG16 將機頭錯誤分類為機尾,將機尾錯誤分成機身,將機翼錯誤分成機頭,RESNET101把機頭錯誤分成機身,IRENET 則準確地提取各個重要神經元視覺特征對應的語義特征,使生成的解釋性語句更加客觀。

圖11 各模型生成的解釋性語句對比Fig.11 Comparison of explanatory statements generated by each model
本文提出的視覺語義解釋模型首先綜合考慮前向傳播與反向傳播,然后給出CGNIS 算法,得到分類過程中起重要作用的神經元,利用類激活圖的方式可視化并裁剪出重要神經元的視覺特征,最后提出IRENet,在VGG16 的基礎上添加SIRM 和ECA,利用IRENet 識別視覺特征對應的語義特征。實驗結果表明,刪除CGNIS 算法得到的某一類別的重要神經元后,對應類別的分類準確率下降3%以上,在語義特征提取任務上,IRENet 的F1 值、準確率、精確率和召回率4 項指標較ResNet101 等分類網絡提升2%以上。下一步將對語義提取部分進一步優化,嘗試將原始數據進行更細粒度的標注,通過計算IoU達到獲取語義特征的目的。