多感知興趣區域特征融合的圖像識別方法

2021-07-05 10:56:48閆涵張旭秀張凈丹

智能系統學報 2021年2期

閆涵，張旭秀，張凈丹

（大連交通大學電氣信息工程學院，遼寧大連 116028）

圖像識別是計算機視覺領域的一個分支[1-2]，圖像識別是指利用計算機對圖像進行特征提取，從而識別各種不同模式下的目標和對象。圖像識別在生活中的應用非常廣泛，如人臉識別、指紋識別、安防監控等各個領域[3]。

圖像識別方法可分為傳統的圖像識別方法與基于深度學習的圖像識別方法。傳統的圖像識別手段主要建立在特征提取的基礎上[4]，首先提取圖像的底層像素信息或圖像的特征，如圖像邊緣特征、紋理特征以及顏色特征等[5-9]。也有學者采用小波變換、傅里葉變換、EMD(empirical mode decomp-osition)變換等方法進行特征提取[10-12]。然后將提取的特征送入機器學習模型中進行分類識別。傳統的圖像識別方法都需要一定的先驗性知識，而且對于一些相似的圖像依靠人為尋找特征仍較為困難，算法實現的精度較低且難以轉換。近年來，隨著計算機性能的提升以及數據量的爆炸式增長，深度學習(deep learning)作為一種新興的機器學習手段取得了飛速的發展[13]。采用深度學習方法進行圖像識別的優勢在于圖像識別精度高，無需特征工程，適應性強易于轉換，可使用數據進行有效縮放，方便實際應用與部署[14-15]。現有的深度學習網絡淺層主要通過對輸入圖像進行特征提取與降采樣獲得圖像低階特征，深層網絡則通過更深層變換獲得圖像特征的語義信息與更高分辨率特征圖[16]。近年來，針對自然圖像識別任務，一系列深度學習算法被提出，AlexNet是最早的深度學習網絡模型[17]。AlexNet有八層網絡結構，采用新的relu激活函數和dropout機制抵抗過擬合以提高特征提取的有效性。VGGNet采用多個尺寸更小的卷積核模擬大尺寸卷積核[18]，在保證感受野的同時減少參數數量，同時引入1×1卷積核增加網絡的表征能力、降低計算量。ResNet的提出主要通過跨層連接和擬合殘差項的方法解決了隨著網絡層數的加深[19]，網絡模型難以訓練的問題。DenseNet是一種密集連接卷積神經網絡，該模型設計了dense block模塊，使得網絡結構更窄，參數更少[20]。同時該連接方式也使得特征和梯度的傳遞更加有效，網絡更易訓練。上述深度學習網絡模型在圖像識別任務中均有較好表現，但現有深度學習方法的圖像識別任務仍有如下難點[21]：1)AlexNet作為最早的深度學習模型雖然取得較好的圖像識別效果，但是由于其層數只有八層，導致其在特征的表征能力上仍有上升空間。2)VGGNet、ResNet以及DenseNet網絡模型各自采用創新技術達到模型層數加深的目的，提升了網絡的學習能力。但是對于特定任務，從頭訓練上述模型成本代價過高。3)隨著人工智能技術的發展，深度學習圖像識別網絡層出不窮，但深度學習網絡需要大量的數據進行訓練及擬合，現實情況難以有足夠的數據支撐網絡進行訓練。4)在研究過程中，通過可視化數據特征發現，不同的網絡模型關聯和提取到的特征也是不同的，關注的圖像特征區域也有所差異。如何在機器學習集成架構下，將不同的網絡特征相融合及集成，進一步提升網絡的分類準確率，需要進行研究和討論。

針對上述問題，本文提出了一種基于多感知興趣區域特征融合的圖像識別方法，對深度卷積模型VGG網絡與殘差網絡引入融合機制與微調機制，結合深度遷移學習方法，將網絡模型的識別能力進行增強。本文的主要工作如下：1)利用特征可視化方法對模型的興趣區域特征進行熱力圖標注，獲得的結論為不同模型在識別相同圖像時所關注興趣區域有所差異；2)根據特征可視化結論，引入模型多尺度性質和投票融合機制，設計3種網絡融合方法；3)在Kaggle數據集上進行對比實驗以驗證本文方法的有效性。實驗結果表明本文方法比融合前方法具有更高的識別準確率。

1 相關理論

本文將遷移學習方法引入到VGG網絡模型和ResNet網絡模型作為算法的模型基礎。通過CAM可視化機制對模型的興趣特征進行可視化分析。最后通過集成學習方法將含有不同興趣特征的網絡模型進行融合得到本文算法。

1.1 遷移學習

在機器學習、深度學習和數據挖掘的大多數任務中都會假設訓練和測試時采用的數據服從相同的分布并且來源于相同的特征空間[17]。然而在深度學習實現的過程中，由于網絡模型的深度較大且參數過多，在訓練網絡模型時往往會遇到以下問題：

1)帶標記的訓練樣本數量不夠。當處理A領域任務時，缺少足夠數量訓練樣本和標簽。與A領域具有一定關聯的B領域，卻擁有數量巨大的訓練樣本。但由于B領域與A領域具有一定差異，因而導致其特征處于不同的空間分布，或樣本服從不同分布。

2)數據分布會發生變化。對于相同的任務，在不同時期、地點或受其他動態因素影響，數據分布會發生一定變化，因此需要重新收集數據并建立模型。

遷移學習作為一種機器學習的方法，可以把為任務A開發的模型作為初始點，重新應用在任務B的模型開發過程中。即把B領域中的知識遷移到A領域中來，提高A領域分類效果，不需要花大量時間去標注A領域數據。對于深度學習目標識別任務，在預訓練模型中存在各種特征數據與權重信息。其中一些是與分類識別對象本身關聯比較緊密的特征數據與權重信息，還有一些比較共性的特征數據與信息，是可以被不同任務或者對象之間共享的。遷移學習是要遷移那些共性特征數據與信息，從而避免再次學習這些知識，實現快速學習[18]。遷移學習微調示意圖如圖1所示，為了方便圖像進行卷積操作，首先使用函數F(0)對圖像進行預處理，去掉邊緣像素值，縮小圖像尺寸。

圖 1 遷移學習微調示意Fig. 1 Schematic diagram of migration learning fine-tuning

以上模型分為兩部分，一部分是基于ImageNet訓練的深度學習模型，另一部分為根據自身任務微調的網絡模型。在訓練時可針對特定任務，固定原始網絡的相關層，修改網絡的輸出層，以使結果更符合任務需要。

1.2 集成學習

集成學習(ensemble learning)是使用一系列學習器進行學習，并使用某種規則把各個學習器結果進行整合，從而獲得比單個學習器更加優越的泛化性能[19-20]。集成學習算法策略主要有Bagging算法、Boosting算法以及Stacking算法。本文涉及到的算法為Bagging算法，算法示意圖如圖2所示。

圖 2 集成學習Bagging算法示意Fig. 2 Schematic diagram of integrated learning Bagging algorithm

集成學習優勢在于：

1)使用相同數據對不同的個體學習器進行訓練會得到不同結果，進而導致分類器的分類邊界不同，還可能影響最終分類結果，產生錯誤輸出。將多個體學習器合并后，可獲得更為合理的分類邊界，提升分類準確率。

2)對于數據集包含樣本數量差異較大的情況，可以對樣本數量較大的數據集進行劃分操作并對樣本數量較小的數據集進行放回操作，進而產生不同數據子集，再使用數據子集訓練不同學習器，最終合并成為一個強學習器。

3)當數據劃分邊界過于復雜時，單一使用線性分類器很難獲得較好結果。可以考慮訓練多個模型，再進行模型融合。

4)對于多個難以直接融合的異構特征集，可以考慮使用每個數據集單獨構建分類模型，再將多個模型進行融合。

1.3 CAM可視化

CAM是深度學習中一種常用的網絡可視化方法。利用GAP(global average pooling)替換掉全連接層，以把GAP視為一個特殊的平均值池化層，其池化核尺寸和整個特征圖一樣大，即求每張特征圖所有像素的均值。GAP的優點在于由于沒有了全連接層，輸入不需固定大小，因此可支持任意大小的輸入。此外，引入GAP更充分地利用了空間信息，且沒有了全連接層的各種參數，避免過擬合。同時在最后的卷積層生成了和目標類別數量一致的特征圖，經過GAP以后再通過softmax層得到結果，這樣就給每個特征圖賦予了很明確的意義，也就是類別置信度特征圖。CAM模型示意圖如圖3所示。

圖 3 CAM模型示意Fig. 3 Schematic diagram of the CAM model

經過GAP得到最后一個卷積層每個特征圖的均值，通過加權和得到輸出。對每一個類別C，每個特征圖k的均值對應w。當解釋模型分類依據時，可將該類別對應的所有w求取出，并求出它們與自身對應的特征圖的加權和。由于輸出的大小和特征圖是一致的，需要對它進行上采樣并與原圖進行疊加，得到CAM可視化圖。CAM以熱力圖的形式表明模型對目標進行分類的特征。圖4是在kaggle數據集上VGG-16分類CAM可視化圖。如圖4所示，對于貓或者狗的分類判斷區域全部集中在頭部，頭部特征的確能夠區分貓和狗。

圖 4 基于VGG-16貓狗大戰數據CAM模型可視化圖Fig. 4 Visualization of CAM model based on VGG-16 cat and dog data figure

2 本文方法及實驗

本文實驗所采用的實驗數據為自然圖像貓狗分類數據集。該數據集主要分為兩類：貓、狗。訓練集為20 832張，測試集為4 168張。為了驗證本文算法的有效性，在貓狗數據集上進行對比實驗，同樣的訓練數據集和同樣的測試集。實驗在2.2 GHz Intel Core i7處理器(4核)，macOS Mojave 10.14.4系統上進行。編程環境為python2版本，編程語言為python語言，編譯器為jupyter notebook。仿真軟件的深度學習框架為基于Tensor-Flow后端的keras，顯卡為GTX 1070TI，顯存大小為 8 GB。

2.1 VGG-16、VGG-19、ResNet的CAM可視化實驗

為了對比3種模型在圖像識別時所關注的特征點，選取16張?貓狗單獨存在的圖像和4張貓狗共存的模糊語義圖像對3種模型進行測試。在實驗前首先通過遷移學習與微調機制，固定網絡模型的淺層權重參數，設置分類層與深層部分權重參數可優化。以VGG-16網絡模型為例，其遷移學習微調示意圖如圖5所示。

圖 5 遷移學習微調結構示意Fig. 5 Schematic diagram of the migration learning finetuning structure

圖6、圖7為VGG網絡模型和ResNet網絡模型識別目標單獨存在時的CAM可視化圖。

圖 6 單目標CAM可視化結果Fig. 6 Single target CAM visualization results

圖 7 模糊語義下CAM可視化結果Fig. 7 CAM visualization results under fuzzy semantics

通過模型識別單獨目標的CAM可視化圖可以看出，VGG網絡模型更容易將貓分類成狗，而Resnent識別結果與之相反，說明兩種不同的網絡模型在進行目標識別時關注的興趣區域不同。通過模型識別模糊語義的CAM可視化圖可以看出，VGG網絡模型將4張測試圖像分類成貓，而ResNet將其分類成狗，該現象也可驗證上述結論。

2.2 本文方法

方案1 特征拼接(Multi view Fusion方案)

不同的模型在同一張圖片關注的興趣區域不一，可考慮將多個模型特征進行融合，將會使得融合后的模型具有關注多視角興趣特征的功能。本方案運用DenseNet的思想，將不同尺度特征相拼接，引入模型多尺度性質。設計的Multi view Fusion模型結構如圖8所示。

圖 8 多視圖融合模型融合示意Fig. 8 Multi view Fusion model fusion diagram

將3個預訓練模型提取特征之后，選擇預訓練模型參數不進行更新，ResNet-50提取得到2 048個特征標量，而VGG-16和VGG-19分別提取512個特征標量，將2 048+512+512=3 072個特征合并成一個新的特征向量。然后加入Dropout層，設置drop概率為0.5。最后加入1個神經元，指定激活函數為sigmoid。對于二分類問題，可以通過logistic二分類實現。分類損失設置為二進制交叉熵損失函數。二進制交叉熵損失函數公式如下：

式中：y為實際神經元輸出；為真實輸出標簽，0表示第一類，1表示第二類。

優化器選擇Adadelta優化方式，基準學習率設置為1.0。模型訓練迭代次數為3 500次，batch size設為16。

Multi view Fusion模型訓練和測試的準確率和損失示意圖如圖9所示，圖9(a)為訓練準確率的變化，圖9(b)為損失值變化。可以看出隨著迭代次數的增加，該算法準確率逐步上升，誤差值減小。

圖 9 多視圖融合模型訓練和測試的準確率和誤差Fig. 9 Accuracy and error of training and testing of the Multi view Fusion model

方案2 特征平均+特征拼接(Multi view Fusion-tiny方案)

方案1將3個不同的模型特征進行融合，但是對于VGG-16和VGG-19來說，這兩個模型構造非常相似，即提取的特征也會非常類似。兩個類似的模型提取的特征之間融合，造成特征的冗余，并干擾特征提取。針對上述問題，設計特征平均后再進行特征拼接的網絡模型。采用Res-Net和DenseNet的思想，將VGG-16和VGG-19的特征進行特征相加，然后與ResNet-50模型特征進行不同尺度特征拼接，引入模型多尺度性質。該方法會使模型特征維度減少，減少網絡運行的測試時間。設計的Multi view Fusion-tiny模型如圖10所示。

將3個預訓練模型提取特征之后，選擇預訓練模型參數不進行更新，ResNet-50提取得到2 048個特征標量，而VGG-16和VGG-19分別提取512個特征標量，首先將VGG-16和VGG-19兩個模型特征進行平均，得到一個新的512維度特征，與ResNet-50的2 048特征合并成一個新的特征向量，一共為2 560維度特征。相比方案一減少了特征維度，以及模型訓練和測試的時間。加入Dropout層，設置drop概率為0.5。加入1個神經元，指定激活函數為sigmoid。

Multi view Fusion-tiny模型在每個批次上訓練和測試的準確率及誤差示意圖如圖11所示，圖11(a)為訓練準確率的變化，即驗證數據在每個迭代次數上準確率的變化。圖11(b)為訓練誤差的變化。同Multi view Fusion模型訓練時的準確率及誤差圖相比，Multi view Fusion-tiny模型準確率曲線震蕩減少，穩定上升，同時誤差曲線下降。

圖 10 多視圖融合微調模型融合示意Fig. 10 Multi view Fusion-tiny model fusion diagram

圖 11 多視圖融合微調模型訓練和測試準確率及誤差Fig. 11 Accuracy and error of training and testing of the Multi view Fusion-tiny model

方案3 結果融合投票(Voted Model)

以上兩種方案，融合之后還是單個模型的決策，但對于VGG-16和VGG-19，ResNet-50 3個模型來說，可以通過大多數分類的結果來決定最終模型的分類結果。即3個模型決策投票來決定分類。設計的模型投票決策如圖12所示。

針對貓狗分類數據訓練好的3個模型為VGG-16、VGG-19、ResNet-50，將這3個模型對同一張數據做測試，會分別得到一個測試結果。然后將這3個結果投票，投票策略采取投票結果最多的情況作為最后的分類結果。

圖 12 投票決策模型融合示意Fig. 12 Voted Model fusion diagram

為定量分析本文基于多感知興趣區域圖像識別方法3種模型性能，對本文算法與VGG-16、VGG-19、ResNet模型及3種模型的微調模型，DenseNet模型在kaggle數據集上進行實驗對比。識別準確率實驗結果如表1所示。

表 1 模型準確率對比Table 1 Comparison of model accuracy ratio

從表1可以看出，本文設計的模型Multi view Fusion、Multi view Fusion-tiny和Voted Model模型比單個模型的準確率要高，說明了基于多感知興趣區域特征融合的圖像識別方法更為有效。同時也驗證了不同的模型關注的圖像興趣區域不一，學習到的特征不一，多興趣區域特征融合有利于提高分類精度的結論。同時VGG-16、VGG-19關聯的特征興趣區域極其相似，為了防止特征冗余，將這兩個模型特征平均，以降低特征維度和分類時間。

3 結束語

本文給出了一種基于多感知興趣區域特征融合的圖像識別方法，通過對單獨分類網絡的復現與可視化分析，發現不同的模型關注的圖像興趣區域及學習到的特征有所差異。針對上述問題構建了多個模型融合機制，通過借鑒DenseNet模型的多尺度特征拼接及ResNet特征相加機制，設計了Multi view Fusion模型、Multi view Fusion tiny模型和Voted Model。實驗結果表明本文算法在相似目標的二分類問題上具有更高的識別準確率。下一步的研究方向可放在網絡結構輕量化與模型的加速上。