基于多尺度感受野網(wǎng)絡(luò)和注意力機(jī)制的場景識(shí)別方法研究

2020-04-16 05:26:10張能歡王永濱

中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年5期

張能歡，王永濱

(1.中國傳媒大學(xué)協(xié)同創(chuàng)新中心，北京 100024；2.中國傳媒大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院，北京 100024)

1 引言

給我們一張圖像，場景識(shí)別能預(yù)測出該圖像內(nèi)容的場景所在地，比如是辦公室、操場還是書店。場景識(shí)別是計(jì)算機(jī)視覺的基本任務(wù)之一，近年來受到越來越多的關(guān)注，它可以廣泛應(yīng)用于人機(jī)交互、圖像/視頻檢索、智能場景匹配拍攝等領(lǐng)域。然而，由于場景圖像往往具有豐富的背景信息、多種多樣的物體對(duì)象和靈活多變的拍攝視角，導(dǎo)致存在嚴(yán)重的類別模糊。場景識(shí)別的困難主要有以下兩點(diǎn)：

一是場景圖像對(duì)尺度敏感

關(guān)于場景圖像對(duì)尺度敏感的問題，我們可以從數(shù)據(jù)集的角度來分析。深度學(xué)習(xí)的快速發(fā)展一方面得益于硬件條件的成熟，另一方面也得益于具有海量標(biāo)注數(shù)據(jù)的數(shù)據(jù)集的出現(xiàn)，比如ImageNet、COCO等。考慮到場景圖像中也包含很多的物體，所以利用ImageNet中包含的海量物體信息來輔助場景識(shí)別，提高場景識(shí)別的準(zhǔn)確率應(yīng)該是有效的。然而，Zhou等人[1]利用ImageNet和Places兩個(gè)數(shù)據(jù)集來直接訓(xùn)練場景識(shí)別的任務(wù)模型，但是結(jié)果卻比只用Places數(shù)據(jù)集來訓(xùn)練更差，額外增加的物體信息反而降低了準(zhǔn)確率。另外，2016年，Herranz等人[2]提出了一個(gè)數(shù)據(jù)集偏差的概念，認(rèn)為不同任務(wù)的數(shù)據(jù)集的尺度中心點(diǎn)是不一樣的，一類是以Places為代表的的以場景為中心，另一類是以ImageNet為代表的以物體為中心，由于這兩類數(shù)據(jù)集存在嚴(yán)重的尺度偏差問題，導(dǎo)致簡單的融合這兩類數(shù)據(jù)集來訓(xùn)練同一個(gè)網(wǎng)絡(luò)，結(jié)果差強(qiáng)人意，所以，Herranz等人又提出了一個(gè)多尺度并行的模型結(jié)構(gòu)，用不同尺度的模型來適應(yīng)不同的數(shù)據(jù)集，最后結(jié)果進(jìn)行融合，這樣反而能取得很好的效果，由此表明尺度問題對(duì)場景識(shí)別來說很關(guān)鍵。圖1中(a)展示了具有不同尺度的wave場景圖像，(b)展示了需要大尺度信息的胡同場景，這些圖像都需要網(wǎng)絡(luò)能靈活捕捉不同尺度的場景特征。

圖1 尺度敏感和特征模糊的例子

二是場景圖像的特征模糊

場景中涵蓋的背景信息和物體信息非常豐富，導(dǎo)致很難明確出什么是某一類場景的特征，比如圖1中(c)展示的沙龍場景，雖然是同一類場景，但是內(nèi)容卻完全不同。而(d)中展示的內(nèi)容很相似，但是場景卻不同，所以場景的特征存在模糊性。以往的方法，很多都采用多特征融合來實(shí)現(xiàn)場景識(shí)別。Sun等人[3]提出融合物體信息、全局外觀信息和背景信息來表征場景特征。Seong等人[4]提出用物體信息和場景信息結(jié)合來訓(xùn)練場景識(shí)別的模型。雖然已經(jīng)有了很多的嘗試，但是效果卻不是很顯著。場景特征的選擇還是需要依靠網(wǎng)絡(luò)訓(xùn)練來自適應(yīng)地完成。

在本文中，我們引入空洞卷積，設(shè)計(jì)了一個(gè)多尺度感受野模塊，來解決尺度敏感問題，同時(shí)加入注意力機(jī)制來提高特征的區(qū)分度和代表性，最后，我們?cè)谌齻€(gè)公開的場景識(shí)別數(shù)據(jù)集上驗(yàn)證了方法的可行性和有效性。

2 模型介紹

本文提出一種基于多尺度感受野和注意力機(jī)制的場景識(shí)別模型，整體模型結(jié)構(gòu)如圖2所示。模型結(jié)構(gòu)中主要包括兩個(gè)模塊：多尺度感受野模塊和注意力模塊，其中多尺度感受野主要基于空洞卷積設(shè)計(jì)的。注意力模塊包括空間注意力和通道注意力兩部分內(nèi)容。我們的基礎(chǔ)網(wǎng)絡(luò)模型根據(jù)數(shù)據(jù)集大小分別采用了ResNet-18和ResNet-50兩種不同的網(wǎng)絡(luò)結(jié)構(gòu)。

圖2 基于多尺度感受野和注意力機(jī)制的場景識(shí)別模型整體結(jié)構(gòu)

2.1 多尺度感受野模塊

空洞卷積是由Holschneider等人[5]首先在小波分解任務(wù)中提出的。由于空洞卷積能夠在不增加額外計(jì)算量的同時(shí)捕獲大的感受野信息，所以空洞卷積開始在很多領(lǐng)域得到廣泛應(yīng)用。本文的多尺度感受野模塊就是基于空洞卷積設(shè)計(jì)的。具體多尺度感受野模塊結(jié)構(gòu)如圖3所示。

圖3 多尺度感受野模塊結(jié)構(gòu)圖

假設(shè)模塊的輸入為F∈H×W×4C，然后送入到具有不同空洞因子的卷積層中，再將輸出進(jìn)行拼接，最后再送入到一個(gè)普通卷積層中，實(shí)現(xiàn)特征降維，具體操作可表述如下：

(1)

(2)

其中l(wèi)表示層，di表示空洞因子，在本文中我們選了1，2，4，8四種空洞因子，*r表示空洞卷積操作，concat(·) 表示拼接操作，CONV2(·) 表示一個(gè)二維卷積操作。

2.2 注意力模塊

注意力的設(shè)計(jì)初衷是模仿人類的視覺機(jī)制，人類在觀看一張圖片時(shí)，并不是所有內(nèi)容都一視同仁，而是有選擇地看更重要的內(nèi)容，注意力機(jī)制就是讓網(wǎng)絡(luò)模型去學(xué)習(xí)更相關(guān)的特征。在場景識(shí)別任務(wù)中，不同的圖像空間區(qū)域和語義特征對(duì)識(shí)別的準(zhǔn)確率貢獻(xiàn)是不一樣的，所以我們加入了空間注意力和通道注意力來提高模型的特征選擇能力。

具體注意力模塊的結(jié)構(gòu)如圖4所示，其中，空間注意力的操作如下：

Fl=concat(GMP(Fl-1)，GAP(Fl-1))

(3)

Fl+1=CONV2(Fl)

(4)

Fl+2=σ(Fl+1)

(5)

通道注意力的操作如下：

Fl=GAP(Fl-1)

(6)

Fl+1=CONV1(Fl)

(7)

Fl+2=σ(Fl+1)

(8)

其中GMP(·)和GAP(·) 分別表示全局最大池化和全局平均池化操作，σ表示激活函數(shù)，CONV1(·) 表示一維卷積操作。

圖4(a)是空間注意力模型結(jié)構(gòu) (b)是通道注意力模型結(jié)構(gòu)

3 實(shí)驗(yàn)及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)配置

本實(shí)驗(yàn)主要采用了三個(gè)公開的場景識(shí)別數(shù)據(jù)集，分別是Places365[6]，SUN397[7]和MIT Indoor67[8]。

Places365數(shù)據(jù)集是Places2數(shù)據(jù)集的子集，有兩個(gè)版本，分別是Places365 challenge和Places365 standard，我們采用的是Places365 standard，它有365類場景，每類場景大約有3068到5000張圖片不等，總共有1803460張訓(xùn)練圖片。

SUN397數(shù)據(jù)集有397類場景，108754張圖片。我們采用和大多數(shù)對(duì)比實(shí)驗(yàn)相同的實(shí)驗(yàn)方案，隨機(jī)從每個(gè)類別中選取50張圖片用于訓(xùn)練，50張圖片用于測試。

MIT Indoor67數(shù)據(jù)集有67類室內(nèi)場景，15620張圖片，實(shí)驗(yàn)中，我們從每個(gè)類別中隨機(jī)選取80張圖片用于訓(xùn)練，20張圖片用于測試。

在本文實(shí)驗(yàn)中，所有數(shù)據(jù)集圖片均調(diào)整為224×224 的大小，學(xué)習(xí)率初始化為0.001，然后每30輪降為0.1倍。批大小為64。采用SGD的優(yōu)化算法。采用PyTorch框架，在一個(gè)NVIDIA Titan Xp GPU(12G)上進(jìn)行實(shí)驗(yàn)。

3.2 模型分析

這一部分的實(shí)驗(yàn)，我們采用Places365數(shù)據(jù)集來進(jìn)行的，主要分三部分進(jìn)行對(duì)比，第一部分是關(guān)于多尺度感受野模塊的有效性驗(yàn)證；第二部分是空間注意力的可視化效果；第三部分是通道注意力的可視化效果。

為了驗(yàn)證多尺度感受野模塊的有效性，我們?cè)O(shè)計(jì)了三個(gè)模型的對(duì)比實(shí)驗(yàn)方案，其中均采用了基于ImageNet的預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化。首先，我們?cè)谠糝esNet-50網(wǎng)絡(luò)上基于Places365數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，之后加入了本文提出的多尺度模塊重新進(jìn)行了實(shí)驗(yàn)，最后，我們用普通的3x3卷積操作替代了多尺度感受野模塊，最終三個(gè)實(shí)驗(yàn)的對(duì)比結(jié)果如圖5所示。從圖5可以看出，本文提出的多尺度感受野模塊的效果是最優(yōu)的。

圖5 三種網(wǎng)絡(luò)的準(zhǔn)確率對(duì)比

同時(shí)，為了更直觀地看出多尺度感受野模塊的效果，我們進(jìn)行了可視化展示，如圖6所示，可以看出多尺度感受野模塊有效提高了模型的感受野，從而間接提高了場景識(shí)別的準(zhǔn)確率。

圖6 多尺度感受野模塊的可視化效果

表7展示了注意力模塊的可視化效果。其中前兩列展示的是通道注意力的效果，可以看出提取的特征更準(zhǔn)確。后兩列展示的是空間注意力的效果，可以看出加入空間注意力模塊后，在空間區(qū)域的定位上更精準(zhǔn)。

圖7 注意力模塊的可視化效果

3.3 與其他方法的對(duì)比

為了更進(jìn)一步驗(yàn)證本文方法的先進(jìn)性，我們?cè)谌齻€(gè)公開數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，并與其他場景識(shí)別方法進(jìn)行了對(duì)比。

表1給出了在Places365-standard數(shù)據(jù)集上的統(tǒng)計(jì)結(jié)果。從表1可以看出，在ResNet50基礎(chǔ)網(wǎng)絡(luò)模型上分別單獨(dú)增加的多尺度感受野模塊、空間注意力模塊和通道注意力模塊的結(jié)果都比原始ResNet50要好，表明這三個(gè)模塊是有效的。之后，我們將這三個(gè)模塊進(jìn)行融合，其結(jié)果時(shí)最優(yōu)的，表明了本文方法的有效性。

表1 在Places365 standard上的實(shí)驗(yàn)結(jié)果

表2是基于MIT Indoor67數(shù)據(jù)集的對(duì)比結(jié)果，考慮到MIT Indoor67數(shù)據(jù)集的規(guī)模比Places365 standard小很多，所以基礎(chǔ)網(wǎng)絡(luò)我們采用了ResNet-18。從表2的結(jié)果可看出本文的方法取得了最優(yōu)的效果。

表2 在MIT Indoor67上的實(shí)驗(yàn)結(jié)果

表3是基于SUN397數(shù)據(jù)集的對(duì)比結(jié)果，也可以看出本文方法是有效的。

表3 在SUN397上的實(shí)驗(yàn)結(jié)果

續(xù)表

4 結(jié)論

本文提出了一種利用感受野和注意機(jī)制來提高場景識(shí)別性能的新方法。我們首先設(shè)計(jì)了一種基于空洞卷積的多尺度感受野模塊，可以提取更大感受野的特征，從而對(duì)場景圖像有更全面的了解。其次，采用了一個(gè)空間注意模塊和一個(gè)通道注意模塊，它們能夠自適應(yīng)地提取與場景更相關(guān)的區(qū)域和語義特征。最后，通過大量的實(shí)驗(yàn)表明，我們的方法比現(xiàn)有的場景識(shí)別方法簡單、高效。作為下一步的工作，我們將根據(jù)不同的場景類別和圖像內(nèi)容來研究感受野的自適應(yīng)大小。