999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模型特征與精簡注意力融合的圖像分類①

2022-01-06 08:05:08宋東情朱定局
計算機系統應用 2021年11期
關鍵詞:分類特征模型

宋東情, 朱定局, 賀 超

(華南師范大學 計算機學院, 廣州 510631)

圖像分類是計算機視覺領域最基本的任務之一,其性能取決于算法和特征的選取.早期圖像分類方法主要基于人工提取特征, 如使用SIFT[1]和HOG[2]等特征算子提取特征.后來學者們開始采用傳統機器學習算法, 如隨機森林[3], 支持向量機[4]等進行分類, 但分類性能仍有提升空間.

2012年, 隨著AlexNet卷積神經網絡[5]在圖像分類領域的成功應用, 深度卷積神經網絡(DCNN)引起了人們高度關注.DCNN的基本研究理念是開發先進的卷積神經網絡架構以及相應的訓練算法.隨著DCNN的蓬勃發展, 各種視覺任務的精度得到了極大提升[6-8].其成功主要歸功于深度架構和端到端的學習方法, 該方法能夠自動學習輸入圖像在不同層次的內部特征,從而大幅度提高分類精度.為了提取更有效的特征進行識別, 近年來學者們不斷提出先進的深度卷積網絡架構和相應訓練算法.

最近研究[9-11]表明加深網絡深度和拓寬網絡寬度能夠提高卷積神經網絡的性能.加深網絡深度方面,He等[8]提出了一種152層的ResNet網絡, 比VGGNet[9]深8倍, 在2015年的ILSVRC多項任務中都取得了最先進的性能.拓寬網絡寬度方面, Zagoruyko等[12]提出的WRN網絡減小了ResNet的深度, 增加了ResNet的寬度, 并取得了不錯的性能.此外, 減小卷積核或池化的步幅[9,13]、提出新的非線性激活函數[14,15]、增加新的層數[10,16]以及有效的規則等都能夠提高網絡性能.本文在現有的卷積神經網絡基礎上, 通過結合不同的卷積神經網絡特征層增加網絡寬度, 學習互補特征, 提取更準確的圖像表示進行識別.

原始輸入圖像往往包含許多無關的背景干擾信息, 從而干擾分類決策.圖像分類任務中的小物體目標往往只占圖像的一小部分, 準確識別這小部分特征對分類決策來說至關重要.本文引入注意力機制, 在進行圖像特征提取時能夠讓網絡自動選擇需要關注的區域, 在網絡學習過程中, 能夠更關注圖像的關鍵目標區域, 對模型提取的特征進行選擇, 以獲取更有效的信息.

基于以上, 本文提出一種多模型特征和注意力模塊融合的圖像分類算法(image classification algorithm based on Multi-model Feature and Reduced Attention fusion, MFRA), 通過多模型特征融合, 讓網絡學習圖像的不同特征, 增加特征互補性, 增強網絡特征提取能力.并引入了注意力機制, 使網絡更關注目標區域.在幾大公開數據集上進行了試驗對比, 驗證了本文算法的有效性.

1 本文算法

在提高特征表達能力及提取顯著性特征方面, 目前的主流分類算法仍有上升空間.基于遷移學習技術, 本文提出MFRA算法.本文網絡架構如圖1所示,不同網絡架構能夠學習到不同圖像特征, 為了提高特征互補性, 本文使用Inception-v3[17]和MobileNet[18]網絡作為特征提取器, 輸入圖像分別經過Inception-v3網絡的mixed9特征層和MobileNet網絡的conv_pw_12_relu特征層, 并在提取高層語義特征后嵌入注意力模塊,可使網絡將注意力放在重要特征上, 降低背景信息.并在算法最后添加一個全連接層進行圖像分類.

圖1 基于多模型特征與注意力模塊融合的網絡結構

1.1 遷移學習與目標模型

為節約訓練時間與資源, 本文使用在ImageNet數據集上預先訓練好的Inception-v3和MobileNet網絡,并在目標數據集上進行微調.遷移學習與構建新的網絡結構相比, 能夠取得更好的效果.

Inception-v3網絡在包含1000個不同類別的被認為是計算機視覺分類任務基準數據集的ImageNet上進行訓練, Inception-v3網絡結構如圖2所示, 由圖2可知, Inception-v3網絡內部集成了多個不同尺度大小的卷積核, 能夠學習到不同尺度的特征.Inception-v3還通過將一個大卷積分解為幾個小卷積, 以及將空間分解為非對稱的卷積等操作減少網絡參數, 從而節省計算開銷, 加快網絡訓練速度.在ImageNet數據集上,Inception-v3達到了目前較高的分類性能, 錯誤率僅為17.3%.

圖2 Inception-v3網絡結構

MobileNet網絡是針對手機等移動嵌入式設備提出的輕量級深層神經網絡模型, 其核心是采用可分解的深度可分離卷積, MobileNet網絡結構如圖3所示.由圖3可知, MobileNet網絡架構由正常卷積和深度可分離卷積交叉組成, 深度可分離卷積是對常規卷積做出小規模調整, 對于來自上一層的多通道特征圖, 將其全部拆分為單通道特征圖, 分別對其進行單通道卷積后重新堆疊.深度可分離卷積可以降低模型計算復雜度, 并降低模型體積.

圖3 MobileNet網絡結構

1.2 精簡注意力機制

在計算機視覺領域, 研究者們圍繞著注意力機制的本質提出了許多注意力機制變體.Hu等[19]提出的通道注意SE塊采用兩個全連接層結構, 從而獲取各通道的重要性權重.Woo等[20]提出的卷積注意力模塊(CBAM)采用通道和空間注意力串行的方式, 對于通道注意模塊,特征向量分別經過最大池化和全局平均池化進入權值共享的網絡, 空間子模塊同樣利用最大池化和全局平均池化的輸出, 沿通道軸匯集到卷積層.Park等[21]將通道和空間注意力結果相加形成瓶頸注意模塊.為了在盡可能少增加網絡參數的情況下提高網絡的特征提取能力, MFRA算法簡化了注意力機制結構, 只保留最本質的注意力結構, 因為本文提出的注意力機制結構簡單, 因此稱之為精簡注意力.本文提出的精簡注意力結構如圖4所示.

由圖4可知, 精簡注意力由通道注意力和空間注意力串行組成.特征提取器提取的特征向量先輸入通道注意模塊, 根據各通道的重要程度得到通道權重矩陣, 然后將通道權重矩陣輸入空間注意模塊, 根據特征圖的重要區域得到空間權重矩陣.網絡通過嵌入精簡注意力模塊, 可以使網絡更關注有意義的特征.具體過程可表示為:

圖4 本文精簡注意力機制網絡結構

其中,F為輸入特征,Wa和Wb分別為空間注意特征權重矩陣和通道注意特征權重矩陣,Fa和Fb分別為空間注意特征矩陣和通道注意特征矩陣, σ為 S igmoid激活函數, ?為矩陣相乘操作,out為輸入特征經過精簡注意力后的輸出特征.

1.3 通道注意力

輸入圖像經過Inception-v3和MobileNet特征提取器提取特征, 不同通道表示不同類型的視覺特征, 以Inception-v3模型的mixed9特征層為例, mixed9特征圖中包含2048個通道, 每個通道均描述圖像部分特征,而對分類器而言, 不同特征算子提取到的特征重要性不同, 因而每個通道的重要程度不同, 應該給予每個通道不同權重, 讓分類器更加關注對網絡有意義的通道,加強顯著性區域特征, 減弱非顯著性區域特征.

傳統通道注意力網絡SENet[19]在空間維度采用全局平均池化進行壓縮, 經過兩個全連接層和激活函數,得到通道注意力權重矩陣.由于全連接層參數較多, 加重網絡負擔, 增加網絡過擬合風險, 因此本文采用一種精簡的通道注意力模塊, 其結構如圖5所示.

圖5 本文通道注意力機制網絡結構

由圖5可知,F為特征提取器提取到的特征向量,維度為 (B,H,W,C), 經過全局平均池化操作得到維度為(B,1,1,C)的特征矩陣, 輸入神經元個數為C為的全連接層, 經過 σ 激活函數得到通道注意權重矩陣, 其特征通道權重矩陣和為1, 其過程表示為:

其中,F為輸入特征,AvgPool為全局平均池化,Dense為全連接層, σ為激活函數,Fb為通道注意特征權重矩陣.

1.4 空間注意力

在原始輸入圖像經過特征提取器提取的特征圖中,特征圖是原始輸入圖像的映射.對于圖像而言, 目標總是只占據圖像部分區域, 而其余區域則是背景信息.如何更好地讓分類器更加關注存在目標的區域, 而降低背景信息干擾對圖像分類性能起著關鍵作用.因此, 本文采用一種簡單的通道注意力模塊, 其結構如圖6所示.

圖6 本文空間注意力機制網絡結構

由圖6可知,F為特征提取器提取到的特征向量,維度為 (B,H,W,C), 經過卷積操作得到維度為(B,H,W,1)的特征矩陣, 然后經過激活函數得到空間注意權重矩陣, 其特征空間權重矩陣和為1, 其過程表示為:

其中,F為輸入特征,Conv為卷積操作, σ為激活函數,Fa為空間注意特征權重矩陣.

2 實驗結果及分析

本文實驗環境為Windows系統, 顯卡型號為NVIDIA GeForce RTX 2060, 采用基于TensorFlow[22]的Keras深度學習框架和Python編程語言, 分別在Caltech-101[23], Cifar-10[24], Cifar-100[24]這3個數據集上進行實驗, 采用網絡的錯誤率來驗證本文算法的有效性.

2.1 Cifar-10數據集

Cifar-10數據集是圖像分類常用數據集, 分為10類, 每類6000張圖像, 共60 000張圖像, 其中50 000張圖像用于訓練, 10 000張圖像用于測試, 圖像尺寸為32×32.在模型訓練過程中, 為了提高模型的泛化性, 使用隨機翻轉, 亮度變化等數據增強技術.在參數設置方面, 學習率初始化為0.01, 批處理大小為32, 使用SGD優化器, 并在訓練中使用學習率遞減策略, 當驗證集的準確率3個epoch不再下降時, 學習率遞減為原來的一半.

基于Cifar-10數據集, 表1為本文提出的MFRA算法與其他算法的實驗結果對比, 從表1可知, MFRA算法的錯誤率為3.86%, 相較于其他網絡錯誤率降低1.11%至6.55%, 據作者所知是目前同種類分類網絡中錯誤率較低, 說明MFRA具有更佳的分類性能.

表1 不同算法錯誤率對比 (Cifar-10數據集)

2.2 Cifar-100數據集

Cifar-100數據集由100個類的60 000張32×32彩色圖片組成, 每個類有6000張圖片.分為50 000張訓練圖像和10 000張測試圖像.與Cifar-10不同的是,Cifar-100數據集的每類圖像都帶有一個精細標簽即它所屬的類和一粗糙標簽即它所屬的超類, 因此Cifar-100數據集比Cifar-10數據集更具有挑戰性.在模型訓練過程中, 為了提高模型的泛化性, 使用隨機翻轉, 亮度變化等數據增強技術.在參數設置方面, 學習率初始化為0.01, 批處理大小為32, 使用SGD優化器, 并在訓練中使用學習率遞減策略, 當驗證集的準確率3個epoch不再下降時, 學習率遞減為原來的一半.

基于Cifar-100數據集, 表2為MFRA算法與其他算法的實驗結果對比, 從表2可知, MFRA算法的錯誤率為17.51%, 與其他網絡相比錯誤率至少降低8.34%,說明MFRA算法具有更佳的分類精度.

表2 不同算法的錯誤率對比 (Cifar-100數據集)

2.3 Caltech-101數據集

Caltech-101是一個非常流行的圖像分類數據集,共9144張圖像, 分為102個類別.每個類別的圖像數量在31至800圖像之間.在實驗中, 為了比較的結果更具說服力, 與比較的其他算法一致, 我們使用每個類的隨機選擇的30張圖像進行訓練, 其余的圖像用于測試.

在模型訓練過程中, 為了提高模型的泛化性, 使用隨機翻轉, 亮度變化等數據增強技術.在參數設置方面,學習率初始化為0.001, 批處理大小為16, 使用SGD優化器, 并在訓練中使用學習率遞減策略, 當驗證集的準確率3個epoch不再下降時, 學習率遞減為原來的一半.

基于Caltech-101數據集, 表3為MFRA算法與其他算法的實驗結果對比, 從表3可知, 本文算法的錯誤率為5.36%, 與其他網絡模型相比有所降低, 說明MFRA算法具有更好的分類能力.

表3 不同算法的錯誤率對比 (Caltech-101數據集)

2.4 消融實驗

MFRA算法的核心在于多模型特征融合及精簡注意力模塊, 在實驗參數設置相同的前提下, 本節基于Cifar-100數據集上進行兩組消融實驗來分別證明多模型特征融合及精簡注意力模塊的有效性.其中, 第1組實驗驗證精簡注意力模塊對本文網絡結構性能的提升,第2組實驗驗證了多模型特征融合對本文網絡結構性能的提升.

圖7為不使用注意力模塊的網絡和只使用一種注意力模塊的網絡與使用精簡注意力模塊的網絡在Cifar-100數據集的準確率曲線對比, 其中, A曲線為不使用任何注意力模塊的網絡, B曲線為使用空間注意力模塊的網絡, C曲線為采用通道注意力的網絡, D曲線為采用精簡注意力的網絡.由圖7可知, 使用精簡注意力模塊的網絡模型與其他網絡模型相比, 收斂速度更快且分類準確率更高, 證明了在網絡模型中加入精簡注意力可以加快模型的訓練速度, 使模型更快收斂,從而提高網絡性能.

圖7 不同模塊的準確率曲線對比

從表4可知, 在Cifar-100數據集上, 不使用注意力模塊的網絡分類錯誤率為18.96%, 只使用了空間注意力或通道注意力模塊網絡錯誤率相比不使用注意力模塊的網絡性能會有所下降, 分類錯誤率降低了0.22%至1.19%, 使用精簡注意力模塊的網絡分類性能最佳,達到了17.51%的分類錯誤率, 這充分驗證了精簡注意力模塊的有效性.

表4 不同模塊的錯誤率對比

圖8為使用單一模型和多模型特征網絡在Cifar-100數據集上的準確率曲線對比.其中, A曲線為只使用Inception-v3模型mixed9特征層的準確率曲線,B曲線為單一MobileNet模型conv_pw_12_relu特征層的準確率曲線, C曲線為多模型特征融合的準確率曲線.由圖8可知, 采用多模型特征融合網絡比單一模型網絡分類性能更佳.收斂速度更快且分類準確率較高, 證明了多模型特征融合網絡的有效性.

圖8 不同模塊的融合結果對比

由表5可知, 在Cifar-100數據集上, 使用單一Inception-v3模型特征的網絡分類錯誤率為19.02%, 使用單一MobileNet模型特征的網絡分類錯誤率為19.98%, 而使用多模型特征網絡的分類錯誤率為18.96%.這充分驗證了多模型特征融合的有效性.

表5 不同模型的錯誤率對比

3 結束語

本文提出一種多模型特征和注意力模塊融合的圖像分類算法——MFRA算法.該算法選取當前主流的卷積神經網絡進行遷移學習, 節省訓練成本.根據不同的網絡架構學習到圖像的不同特征, 利用模型的多樣性提取互補的視覺特征, 通過融合不同模型的所提取的特征提高網絡的特征提取能力, 提高網絡分類性能,并在網絡中嵌入精簡注意力模塊, 使網絡將注意力集中于重要特征上, 降低背景干擾.在幾個常用的分類數據集上的實驗結果表明, MFRA算法取得了較好的圖像分類性能, 相較于其他算法, 其準確率有顯著提升.

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 成人免费黄色小视频| 91无码人妻精品一区| 日韩av高清无码一区二区三区| 亚洲av无码人妻| 国产超碰一区二区三区| 999精品在线视频| 小说区 亚洲 自拍 另类| AV无码无在线观看免费| 在线看免费无码av天堂的| 色一情一乱一伦一区二区三区小说| 男女性色大片免费网站| 婷婷成人综合| 欧美中出一区二区| 中文精品久久久久国产网址| 国产手机在线ΑⅤ片无码观看| 国产白浆一区二区三区视频在线| 亚洲精品午夜无码电影网| AⅤ色综合久久天堂AV色综合| 在线免费亚洲无码视频| 日韩无码视频网站| 日韩天堂视频| 久草视频一区| 国产jizzjizz视频| 日韩一二三区视频精品| 免费人成黄页在线观看国产| 国产高清在线精品一区二区三区 | 天天摸夜夜操| 亚洲精品高清视频| 免费无码在线观看| 精品国产成人av免费| 国产欧美成人不卡视频| 亚洲精品国产综合99久久夜夜嗨| 尤物国产在线| 国产极品美女在线| 国产亚洲精品无码专| 黄色网站不卡无码| 国产精品jizz在线观看软件| 全部免费毛片免费播放| 青青操视频免费观看| 亚洲成人黄色在线观看| 波多野结衣无码中文字幕在线观看一区二区| 国产资源免费观看| 国产传媒一区二区三区四区五区| 2021国产精品自产拍在线| 免费一极毛片| 萌白酱国产一区二区| 青青青伊人色综合久久| 亚洲性视频网站| 91网在线| 欧洲成人在线观看| 久久精品视频亚洲| 中文字幕在线欧美| 国产福利小视频在线播放观看| 真实国产精品vr专区| 国产欧美日本在线观看| 日韩专区欧美| 91精品啪在线观看国产| 亚洲精品国产自在现线最新| 亚洲一区二区三区国产精品| 5388国产亚洲欧美在线观看| 无码丝袜人妻| 91色综合综合热五月激情| 19国产精品麻豆免费观看| 国产呦精品一区二区三区网站| 日韩二区三区无| 色综合色国产热无码一| 91视频精品| 国产成人av一区二区三区| 精品伊人久久久久7777人| 欧美怡红院视频一区二区三区| 91精品视频在线播放| 狠狠色婷婷丁香综合久久韩国| 亚洲国产看片基地久久1024| 久久99热66这里只有精品一| 色综合天天操| 暴力调教一区二区三区| 六月婷婷精品视频在线观看| 国产精品999在线| 欧美日本在线| 国产精品中文免费福利| 五月天福利视频| 手机在线免费毛片|