摘 要: 由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)大多側(cè)重于全局特征學(xué)習(xí),忽略了包含更多細(xì)節(jié)的局部特征信息,使得室內(nèi)場景識別的準(zhǔn)確率難以提高。針對這一問題,提出了基于改進(jìn)全局—局部注意網(wǎng)絡(luò)(GLANet)的室內(nèi)場景識別方法。首先,利用GLANet捕捉場景圖像的全局特征和局部特征,增加圖像特征中的細(xì)節(jié)信息;然后,在局部網(wǎng)絡(luò)中引入non-local注意力模塊,通過注意力圖和特征圖的卷積來進(jìn)一步保留圖像的細(xì)節(jié)特征,最后融合網(wǎng)絡(luò)不同階段的多種特征進(jìn)行分類。通過在MIT Indoor67和SUN397數(shù)據(jù)集上的訓(xùn)練和驗(yàn)證,所提方法的識別準(zhǔn)確率與LGN方法相比分別提高了1.98%和3.07%。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效捕獲全局語義信息和精細(xì)的局部細(xì)節(jié),顯著提高了識別準(zhǔn)確率。
關(guān)鍵詞: 深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); 室內(nèi)場景識別; 全局特征; 局部特征
中圖分類號: TP391.4"" 文獻(xiàn)標(biāo)志碼: A
文章編號: 1001-3695(2022)01-057-0316-05
doi:10.19734/j.issn.1001-3695.2021.05.0207
Indoor scene recognition method based on improved global-local attention network
Xu Jianglanga,b, Wan Xinjuna,b, Xia Zhenpinga, Hu Fuyuana,b
(a.School of Electronic amp; Information Engineering, b.Virtual Reality Key Laboratory of Intelligent Interaction amp; Application Technology of Suzhou, Suzhou University of Science amp; Technology, Suzhou Jiangsu 215009, China)
Abstract: Because convolutional neural networks(CNN) mostly focus on global feature learning and ignore local feature information containing more details,it is difficult to improve the accuracy of indoor scene recognition.To solve this problem,this paper proposed an indoor scene recognition method based on improved global-local attention network(GLANet).Firstly,it used GlANet to capture the global and local features of the scene image to increase the detail information of the image features.Then,it introduced a non-local attention module into the local network to further preserve the detail features of the image through the convolution of attention diagram and feature graph.Finally,it used various features of different stages of the network for classification.Through training and verification on the MIT Indoor67 and the SUN397 dataset,the recognition accuracy of the proposed method was increased by 1.98% and 3.07% respectively compared with the LGN method.Experimental results show that the algorithm can effectively capture global semantic information and fine spatial details,and significantly improves the recognition accuracy.
Key words: deep learning; convolutional neural network; indoor scene recognition; global features; local features
0 引言
隨著深度學(xué)習(xí)的不斷發(fā)展,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行室內(nèi)場景識別已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域中最具開拓性和挑戰(zhàn)性的領(lǐng)域之一。室內(nèi)場景識別技術(shù)作為場景識別領(lǐng)域的重要組成部分,它的進(jìn)步可以極大地推動家庭智能機(jī)器人、視頻監(jiān)控等人工智能技術(shù)的發(fā)展。因此越來越多的工作對其進(jìn)行了研究[1~3]。
近年來,基于深度學(xué)習(xí)的方法成為主流方法。目前卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于室內(nèi)場景識別,并取得了很好的性能。Zhou等人[4]提出了一個新的場景數(shù)據(jù)集Places,并用其專門訓(xùn)練了Places-CNN,它的出現(xiàn)為人們研究場景識別提供了新的思路。Khan等人[5]提出了一種卷積特征譜描述方法,采用光譜特征進(jìn)行圖像分類任務(wù)的深度學(xué)習(xí)方法,在MIT Indoor67、SUN397和Place-205數(shù)據(jù)集上證明了有效性。Li等人[6]提出了一種融合預(yù)訓(xùn)練CNN模型的多層特征融合策略,通過融合多層卷積特征并考慮場景圖像的多尺度信息,比使用一兩個卷積層的有限信息進(jìn)行分類獲得了更好的性能,但它不可避免地增加了分類的計(jì)算負(fù)擔(dān);而且,這種特征融合過程減少了由不同預(yù)訓(xùn)練CNN模型構(gòu)造的特征表示的多樣性。因此,Sun等人[7]提出了一種綜合的場景識別表示方法,該方法融合了目標(biāo)語義信息、全局外觀信息和上下文外觀信息三種深度特征,增加了融合特征的多樣性,有效提升了識別效果。Jiang等人[8]在 ImageNet和Places以及兩者混合的數(shù)據(jù)集上對CNN模型進(jìn)行預(yù)訓(xùn)練來提取圖像特征,使得在混合數(shù)據(jù)集上提取的特征中同時(shí)包含了目標(biāo)屬性及場景屬性。Herranz等人[9]也是采用目標(biāo)網(wǎng)絡(luò)和場景網(wǎng)絡(luò)分別對圖像提取特征的方法,解決了圖像尺寸和網(wǎng)絡(luò)的匹配問題,但是也使得計(jì)算量不斷增加。在Antonio等人[10]提出的室內(nèi)場景識別方法中,著重分析了局部特征對于室內(nèi)場景的重要性,但是識別效果并沒有顯著提升。此后很多學(xué)者在這方面進(jìn)行了創(chuàng)新,如Xiong等人[11]提出包含全局網(wǎng)絡(luò)和局部網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)來提取特征,Cheng等人[12]也提出利用local patches來識別場景,但它們在提取局部特征方面依然有較大的提升空間。
綜上所述,這些方法通常利用全連接層(fully connected)的輸出作為圖像的全局表示,而忽略了局部信息。然而,在室內(nèi)場景識別中,局部信息可以起到重要的作用。因此,在CNN學(xué)習(xí)的基礎(chǔ)上,如何進(jìn)一步更準(zhǔn)確地學(xué)習(xí)全局上下文特征和局部語義部分,是室內(nèi)場景分類有待解決的問題[13~16]。為了解決這個問題,本文提出了基于改進(jìn)全局—局部注意網(wǎng)絡(luò)(global-local attention network,GLANet)的室內(nèi)場景識別方法,該方法首先通過目標(biāo)網(wǎng)絡(luò)和場景網(wǎng)絡(luò)提取得到初始特征,再分別由全局特征網(wǎng)絡(luò)和局部特征網(wǎng)絡(luò)提取圖像的全局特征和局部特征,彌補(bǔ)圖像特征中細(xì)節(jié)信息的缺失;然后通過利用non-local注意力模塊[17]來增強(qiáng)網(wǎng)絡(luò)對于局部細(xì)節(jié)特征的捕獲;最終融合網(wǎng)絡(luò)多個階段的特征,利用融合后的特征進(jìn)行分類,提高了室內(nèi)場景識別的準(zhǔn)確度。
1 基于改進(jìn)全局—局部注意網(wǎng)絡(luò)的室內(nèi)場景識別
1.1 改進(jìn)全局—局部注意網(wǎng)絡(luò)結(jié)構(gòu)
本文主要由兩個部分組成:特征提取和全局—局部注意網(wǎng)絡(luò)(GLANet),網(wǎng)絡(luò)框架如圖1所示。a)特征提取部分是由ObjectNet和PlacesNet共同實(shí)現(xiàn),然后融合兩組特征作為全局—局部注意網(wǎng)絡(luò)的輸入;采用目標(biāo)檢測和場景識別相結(jié)合的網(wǎng)絡(luò)代替原主網(wǎng)絡(luò)的方法,使得圖像特征兼具目標(biāo)屬性和場景屬性,有利于保留局部細(xì)節(jié)特征,通過主干網(wǎng)絡(luò)獲得大小為C×H×W的特征圖X,其中H為高度、W為寬度和C為通道。b)GLANet分別由全局特征分支和局部特征分支構(gòu)成,通過它們分別得到全局特征和局部特征,并利用non-local注意力機(jī)制進(jìn)一步增強(qiáng)局部特征信息。另外,本文將網(wǎng)絡(luò)的高低層特征進(jìn)行融合,即將網(wǎng)絡(luò)第一階段中objectNet和placesNet提取的特征融合到全局—局部特征中,增加融合特征的多樣性,最后由softmax進(jìn)行分類。
2.3 實(shí)驗(yàn)結(jié)果及分析
MIT Indoor67和SUN397數(shù)據(jù)集都包含了多種場景,本文挑選了臥室、廚房、客廳、盥洗室、走廊五種常見的室內(nèi)場景作為實(shí)驗(yàn)數(shù)據(jù)展示,并以折線圖的形式展示,如圖4、5所示。本文選取了當(dāng)前在這兩個數(shù)據(jù)集上性能表現(xiàn)好的幾種算法作為對比:多視圖完整空間學(xué)習(xí)法(multi-view intact space learning,MISL)[18]、多視點(diǎn)潛在空間學(xué)習(xí)法(multi-view latent space learning based on local discriminant embedding,MLSLDL)[18]、SDO(semantic descriptor with objectness)[12]和LGN(layout graph network)[19]。從圖4整體來看,在臥室和盥洗室兩個場景上的效果較好,而在走廊上的準(zhǔn)確率較低,這說明了臥室和盥洗室中存在顯著的目標(biāo),局部特征較為明顯,利于識別;而走廊場景開闊,沒有具體的目標(biāo),導(dǎo)致準(zhǔn)確率較低。從圖4(a)可以看出,在走廊這個場景上,本文算法的識別率稍稍低于MLSLDL算法的識別率,但都相比SDO、LGN和MISL算法的表現(xiàn)均有所提升,本文算法的平均識別率為89.74%,比MLSLDL算法的87.55%提高了2.19%;從圖4(b)看出,本文方法在五種場景上也均有提升;圖5(a)(b)分別是不同算法在兩個數(shù)據(jù)集上的PR曲線,可以看出本文方法具有性能更好的PR曲線。從上述實(shí)驗(yàn)結(jié)果表明,本文提出的基于改進(jìn)GLANet的室內(nèi)場景識別算法在室內(nèi)場景識別方面具有一定的優(yōu)勢,在識別室內(nèi)場景時(shí),具有更高的識別準(zhǔn)確度。
為了驗(yàn)證non-local注意力模塊的效果,本文在部分場景圖(盥洗室、辦公室、廚房)上進(jìn)行了對比實(shí)驗(yàn),通過non-local注意力模塊使得網(wǎng)絡(luò)更加關(guān)注圖像局部區(qū)域,獲得更多的局部細(xì)節(jié)特征,然后,本文以Grad-CAM[20]展示該模塊對識別效果的影響,實(shí)驗(yàn)效果如圖6所示。在圖6中,上面紅色框線中的(以下簡稱紅色)是在沒有non-local注意力模塊的情況下的效果,下面藍(lán)色框線中的(以下簡稱藍(lán)色)是本文采用non-local注意力模塊之后的注意力圖(見電子版)。從圖中效果可以看出,紅色比藍(lán)色分別在馬桶、電腦、盥洗池和微波爐的目標(biāo)區(qū)域得到了改善,顯示了更多的細(xì)節(jié)特征。該實(shí)驗(yàn)表明,在non-local注意力模塊的作用下,網(wǎng)絡(luò)捕捉了圖像中更多的局部特征,并且圖中的目標(biāo)在注意力圖中顯示得相對完整,證明了本文方法在提取局部特征方面具有很好的效果。
為了更好地分析多特征融合方法的有效性,本文對三種特征融合方法進(jìn)行了實(shí)驗(yàn)結(jié)果對比分析,展示了不同的融合方法對于識別效果的影響。場景識別通常通過K∈[1,K]的top-K精度度量來評估,本文選擇了top-{K = 1,2,5}精度指標(biāo)[21]。top-1表示驗(yàn)證或測試圖像中得分最高的類別與真實(shí)標(biāo)簽一致的百分比,top-2和top-5則是得分排名前2和前5的類別與真實(shí)標(biāo)簽一致的百分比。表1展示了不同融合方法在數(shù)據(jù)集MIT Indoor67上的效果。
根據(jù)表1的數(shù)據(jù)可以看出,只針對全局特征和局部特征進(jìn)行additive combination和concatenation時(shí),它們的top值總體較低,最高的top-5分別只有80.70%和83.64%;而對四種特征進(jìn)行融合時(shí),效果有所改善:相較于additive combination融合,concatenation在top-1、top-2和top-5方面分別提高了2.25%、3.65%和4.81%;和Hadamard combination相比,除了top-1和top-2相差1.8%和1.45%,在top-5上提升了2.36%。總體而言,Hadamard combination在融合特征方面表現(xiàn)更好,而conca-tenation相比additive combination也展現(xiàn)了較好的融合效果。
2.4 多種模型對比
目前,很多深度學(xué)習(xí)算法都產(chǎn)生了不錯的效果。為了測試局部特征對于室內(nèi)場景識別效果的影響,本文對比了多種先進(jìn)方法在數(shù)據(jù)集MIT Indoor67和SUN397上的準(zhǔn)確率和F1,實(shí)驗(yàn)結(jié)果如表2、3所示。
a)MIT Indoor67數(shù)據(jù)集上。Places[24]提供了一個更加多樣性,包含各類環(huán)境類型的大型場景數(shù)據(jù)集,準(zhǔn)確率達(dá)到了79.76%;VSAD[25]雖然利用了PatchNet來指導(dǎo)特征提取,但是該網(wǎng)絡(luò)對local patch的提取能力并不好,準(zhǔn)確率只有86.20%;SDO[12]是一種用于場景識別的具有對象性的語義描述符方法,研究對象在場景中的共現(xiàn)模式選擇有區(qū)別的對象,但是當(dāng)場景中出現(xiàn)的目標(biāo)很多時(shí)表現(xiàn)并不好,其準(zhǔn)確率為86.76%;Semantic-Aware[21]在場景的語義信息方面有所改善,但是面對復(fù)雜場景時(shí)受語義分割效果的影響,場景識別效果也受到相應(yīng)的限制,準(zhǔn)確率為 87.10%;LGN[19]達(dá)到了最高的88.73%,而本文方法通過結(jié)合全局特征和局部特征,采用空間注意力模塊對局部細(xì)節(jié)特征進(jìn)行了改善,使得準(zhǔn)確率達(dá)到了90.71%,比LGN提高了1.98%;在F1方面也有所提高。
b)SUN397數(shù)據(jù)集上。本文方法識別準(zhǔn)確率為76.93%,相比于其他對比方法中準(zhǔn)確率最高的幾種方法LGN(74.06%)、Semantic-Aware(74.04%),準(zhǔn)確率提高了3.07%。實(shí)驗(yàn)結(jié)果表明,本文通過提取局部特征與全局特征相結(jié)合,并在空間注意力模塊的作用下,局部特征有所改善,顯著提高了場景識別的F1分?jǐn)?shù)和準(zhǔn)確率。
2.5 消融實(shí)驗(yàn)
為了研究所提方法對室內(nèi)場景識別的影響,本文以準(zhǔn)確率為評價(jià)指標(biāo),在數(shù)據(jù)集MIT Indoor67和SUN397上進(jìn)行了消融實(shí)驗(yàn),如表4所示。從表4中可以看出,當(dāng)僅僅采用GANet或LANet時(shí),在數(shù)據(jù)集MIT Indoor67上的識別準(zhǔn)確率分別為85.20%和87.06%,在數(shù)據(jù)集SUN397上的識別準(zhǔn)確率分別為72.35%和74.06%;GLANet集合了兩者的優(yōu)點(diǎn),在保留全局特征的基礎(chǔ)上,增加了局部特征,識別準(zhǔn)確率分別達(dá)到了88.94%和75.28%;而本文方法使得網(wǎng)絡(luò)在局部特征提取方面更進(jìn)一步,包含更多的局部細(xì)節(jié)信息,最終識別準(zhǔn)確率達(dá)到了90.71%和77.13%,分別提高了1.77%和1.85%。該實(shí)驗(yàn)表明,所提方法在增強(qiáng)局部特征方面的有效性。
為了更好地展示不同測試方法的中間過程,本文選取浴室、臥室、餐廳和廚房四種常見的室內(nèi)場景作為實(shí)驗(yàn)數(shù)據(jù)展示,將表4的四種消融測試方法通過Grad-CAM進(jìn)行可視化。如圖7所示,GANet關(guān)注于全局區(qū)域信息,缺乏局部鑒別信息;LANet缺乏目標(biāo)全局特性,且關(guān)注的局部信息不具有針對性,對局部細(xì)節(jié)信息提取效果不明顯;GLANet將兩者集成,融合了全局特征信息和局部特征信息,但是由于缺乏特定目標(biāo)引導(dǎo)的注意力,性能提升受限;而本文方法結(jié)合了全局—局部網(wǎng)絡(luò),并且在non-local模塊和多特征融合的幫助下,關(guān)注了目標(biāo)更加明顯的區(qū)域,提取了更多的場景細(xì)節(jié)特征,有效地提高了識別準(zhǔn)確率。
3 結(jié)束語
本文主要針對大部分室內(nèi)場景方法重視全局特征,而忽略包含更多細(xì)節(jié)的局部特征的問題,在結(jié)合目標(biāo)特征和場景特征的基礎(chǔ)上,提出了基于改進(jìn)全局—局部注意網(wǎng)絡(luò)(GLANet)的室內(nèi)場景識別方法,利用non-local注意力模塊使得網(wǎng)絡(luò)獲得更多的局部特征,最終通過融合全局特征和局部特征提高室內(nèi)場景識別準(zhǔn)確率;而且,本文還融合了網(wǎng)絡(luò)多個階段的特征,增加了融合特征的多樣性,通過實(shí)驗(yàn)證明了該方法的有效性。最終,通過在MIT Indoor67和SUN397數(shù)據(jù)集上與其他方法的對比實(shí)驗(yàn)表明,本文方法在結(jié)合全局特征和局部特征的基礎(chǔ)上,利用空間注意力機(jī)制獲得了更多細(xì)節(jié)的局部特征,提高了室內(nèi)場景識別的效果。然而,本文算法對復(fù)雜室內(nèi)場景中目標(biāo)多樣、類內(nèi)空間可變性大的問題缺乏關(guān)鍵特征選擇,如何選擇關(guān)鍵區(qū)域特征,將局部上下文信息嵌入到識別網(wǎng)絡(luò)中來改善模型對關(guān)鍵目標(biāo)特征的學(xué)習(xí)是今后需要繼續(xù)研究的問題。
參考文獻(xiàn):
[1]Rezanejad M,Downs G,Wilder J,et al.Scene categorization from contours:medial axis based salience measures[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4116-4124.
[2]Song Xinhang,Jiang Shuqiang,Wang Bohan,et al.Image representations with spatial object-to-object relations for RGB-D scene recognition[J].IEEE Trans on Image Processing,2019,29:525-537.
[3]田艷玲,張維桐,張鍥石,等.圖像場景分類技術(shù)綜述[J].電子學(xué)報(bào),2019,47(4):915-926. (Tian Yanling,Zhang Weitong,Zhang Qishi,et al.Overview of image scene classification technology[J].Chinese Journal of Electronics,2019,47(4):915-926.)
[4]Zhou Bolei,Agata L,Xiao Jianxiong,et al.Learning deep features for scene recognition using places database[C]//Advances in Neural Information Processing Systems.New York:ACM Press,2014:487-495.
[5]Khan S H,Hayat M,Porikli F.Scene categorization with spectral features[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5639-5649.
[6]Li Erzhu,Xia Junshi,Du Peijun,et al.Integrating multilayer features of convolutional neural networks for remote sensing scene classification[J].IEEE Trans on Geoscience and Remote Sensing,2017,55(10):5653-5665.
[7]Sun Ning,Li Wenli,Liu Jixin,et al.Fusing object semantics and deep appearance features for scene recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2019,29(6):1715-1728.
[8]Jiang Shuqiang,Chen Gongwei,Song Xinhang,et al.Deep patch representations with shared codebook for scene classification[J].ACM Trans on Multimedia Computing Communications and Applications,2019,15(1s):1-17.
[9]Herranz L,Jiang Shuqiang,Li Xiangyang,et al.Scene recognition with CNNs:objects,scales and dataset bias[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:571-579.
[10]Antonio T,Ariadna Q.Recognizing indoor scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:413-420.
[11]Xiong Zhitong,Yuan Yuan,Wang Qi.MSN:modality separation networks for RGB-D scene recognition[J].Neurocomputing,2020,373:81-89.
[12]Cheng Xiaojuan,Lu Jiwen,F(xiàn)eng Jianjiang,et al.Scene recognition with objectness[J].Pattern Recognition,2018,74:474-487.
[13]賈澎濤,楊麗娜.基于多特征的視頻場景分類[J].計(jì)算機(jī)應(yīng)用研究,2018,35(11):3472-3475. (Jia Pengtao,Yang Lina.Video scene classification based on multi-features[J].Application Research of Computers,2018,35(11):3472-3475.)
[14]Bi Qi,Qin Kun,Li Zhili,et al.A multiple-instance densely-connected convNet for aerial scene classification[J].IEEE Trans on Image Processing,2020,29:4911-4926.
[15]Kim J H,F(xiàn)rahm J-M.Hierarchy of alternating specialists for scene re-cognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:471-488.
[16]馬瑩,惠斌,金天明,等.基于概率圖與視覺顯著性的海面目標(biāo)檢測方法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(5):1595-1600. (Ma Ying,Hui Bin,Jin Tianming,et al.Maritime object detection method based on probabilistic graph and visual saliency[J].Application Research of Computers,2021,38(5):1595-1600.)
[17]Wang Xiaolong,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7794-7803.
[18]Zhao Yue,You Xinge,Wei Yantao,et al.Multi-view latent space learning based on local discriminant embedding[C]//Proc of the 7th International Conference on Cloud Computing and Big Data.Pisca-taway,NJ:IEEE Press,2016:225-230.
[19]Chen Gongwei,Song Xinhang,Zeng Haitao,et al.Scene recognition with prototype-agnostic scene layout[J].IEEE Trans on Image Processing,2020,29:5877-5888.
[20]Selvaraju R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[J].International Journal of Computer Vision,2020,128(2):336-359.
[21]Lopezcifuentes A,Escuderovinolo M,Bescos J,et al.Semantic-aware scene recognition[J].Pattern Recognition,2019,102:107256.
[22]Zhao Zhengyu,Larson M.From volcano to toyshop:adaptive discriminative region discovery for scene recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1760-1768.
[23]Sun Xiao,Zhang Luming,Wang Zepeng,et al.Scene categorization using deeply learned gaze shifting kernel[J].IEEE Trans on Cybernetics,2019,49(6):2156-2167.
[24]Zhou Bolei,Lapedriza A,Khosla A,et al.Places:a 10 million image database for scene recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(6):1452-1464.
[25]Wang Zhe,Wang Limin,Wang Yali,et al.Weakly supervised patchNets:describing and aggregating local patches for scene recognition[J].IEEE Trans on Image Processing,2017,26(4):2028-2041.