李昊璇,閆新艷
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
隨著生活水平的不斷提高,人們對(duì)于商品種類(lèi)的需求也日漸多樣化. 零售超市作為大型超市的一種補(bǔ)充,更好地滿(mǎn)足了互聯(lián)網(wǎng)時(shí)代消費(fèi)者的需求和偏好. 零售店相較于大型超市來(lái)說(shuō),商品種類(lèi)少,利潤(rùn)較低,但是其運(yùn)營(yíng)成本并不低,比如人工成本就是一大項(xiàng)支出,因此,無(wú)人零售超市的出現(xiàn)成為了一種趨勢(shì). 其中,無(wú)人零售中需要應(yīng)用到的關(guān)鍵技術(shù)為商品識(shí)別. 實(shí)現(xiàn)基于深度學(xué)習(xí)的商品圖像識(shí)別,可以加快商品的流通速度,節(jié)約人們的時(shí)間,從而為人們提供更優(yōu)質(zhì)的服務(wù).
目前,商品識(shí)別中較為成熟的技術(shù)為RFID技術(shù),但該技術(shù)的成本比較高. 對(duì)于一些利潤(rùn)空間較小的商品來(lái)說(shuō),RFID技術(shù)并不友好. 隨著深度學(xué)習(xí)技術(shù)的發(fā)展,商品識(shí)別技術(shù)也得到了飛速地發(fā)展. 將深度學(xué)習(xí)應(yīng)用到商品識(shí)別中,前人做出了很多研究. 2014年,郝騰[1]提出一種二次分類(lèi)的方法對(duì)商品進(jìn)行識(shí)別. 該方法將超橢球神經(jīng)網(wǎng)絡(luò)(HENN)[2]和糾錯(cuò)支持向量機(jī)(EC-SVM)[3]兩種分類(lèi)器各自的特點(diǎn)有效結(jié)合起來(lái),實(shí)現(xiàn)對(duì)商品的識(shí)別,且達(dá)到了較好的識(shí)別分類(lèi)效果; 2017年,曾志等[4]提出一種基于圖像內(nèi)容的多特征融合的深度學(xué)習(xí)分類(lèi)算法,實(shí)現(xiàn)了大型網(wǎng)絡(luò)購(gòu)物網(wǎng)站商品圖像的分類(lèi); 2018年,王曉超[5]提出了基于RGB-D多維信息深度學(xué)習(xí)的圖像識(shí)別算法; 梅啟成等[6]采用AlexNet網(wǎng)絡(luò)模型對(duì)商品圖像進(jìn)行識(shí)別; 2019年,隨玉騰[7]提出了利用ResNet18實(shí)現(xiàn)對(duì)26種200多張商品圖像的識(shí)別.
由于日常商品圖像中往往存在許多與商品信息無(wú)關(guān)的東西,比如其他商品的一些信息,這些無(wú)關(guān)信息可以定義為噪聲. 而噪聲的出現(xiàn)會(huì)對(duì)商品圖像識(shí)別的準(zhǔn)確率造成一定的影響. 因此,為了削弱噪聲對(duì)準(zhǔn)確率的影響,本文提出將一種深度殘差收縮網(wǎng)絡(luò)應(yīng)用到商品圖像識(shí)別中的算法. 該算法將注意力機(jī)制與殘差網(wǎng)絡(luò)結(jié)合,生成一種新的神經(jīng)網(wǎng)絡(luò),命名為深度殘差收縮網(wǎng)絡(luò)(DRSN),以實(shí)現(xiàn)對(duì)商品圖像的識(shí)別.
無(wú)線射頻識(shí)別即射頻識(shí)別技術(shù)[8](Radio Frequency Identification,RFID),屬于自動(dòng)識(shí)別的范疇,該技術(shù)使用無(wú)線電波實(shí)現(xiàn)對(duì)物體的識(shí)別,具有非接觸式的獨(dú)特優(yōu)勢(shì). RFID技術(shù)使得閱讀器與標(biāo)簽之間通過(guò)天線實(shí)現(xiàn)雙向數(shù)據(jù)傳輸,從而達(dá)到識(shí)別的目的. 但是根據(jù)市場(chǎng)定價(jià)可以得出,RFID識(shí)別碼的單價(jià)最低為0.1元. 在實(shí)際應(yīng)用中,對(duì)于利潤(rùn)較低的商品來(lái)說(shuō),應(yīng)用該技術(shù)的可能性較小.
圖像識(shí)別是指借助計(jì)算機(jī)工具實(shí)現(xiàn)對(duì)圖像的處理、分析和理解,達(dá)到對(duì)不同模式下目標(biāo)對(duì)象的識(shí)別分類(lèi),是將深度學(xué)習(xí)理論到實(shí)際的一種應(yīng)用[9].圖像識(shí)別技術(shù)的過(guò)程分為獲取目標(biāo)信息、預(yù)處理圖像、對(duì)圖像特征進(jìn)行提取和篩選、分類(lèi)器設(shè)計(jì)和分類(lèi)決策.
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別是一種較為新穎的圖像識(shí)別技術(shù),它是在傳統(tǒng)圖像識(shí)別的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)的算法,使圖像識(shí)別領(lǐng)域邁向智能化[10]. 卷積神經(jīng)網(wǎng)絡(luò)是對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的改進(jìn),該網(wǎng)絡(luò)一般是對(duì)圖像的特征進(jìn)行提取,然后將提取到的特征映射到神經(jīng)網(wǎng)絡(luò)中,從而實(shí)現(xiàn)圖像的識(shí)別及分類(lèi)[11]. 輸入層、卷積計(jì)算、激勵(lì)層、池化層、全連接和輸出層6個(gè)部分可以組成一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò). 在輸入層對(duì)圖像做一些簡(jiǎn)單的預(yù)處理,隨后將其輸出給卷積層,使得卷積層對(duì)圖像的特征進(jìn)行提取; 然后,將提出的特征輸出給激勵(lì)層,激勵(lì)層對(duì)其做一些非線性映射,再通過(guò)池化層將圖像的主要特征提取出來(lái); 最后,通過(guò)全連接層將提取到的所有特征進(jìn)行匯總,產(chǎn)生分類(lèi)器,實(shí)現(xiàn)對(duì)圖像的識(shí)別分類(lèi). 神經(jīng)網(wǎng)絡(luò)憑借局部感知和參數(shù)共享兩大特點(diǎn)在圖像處理領(lǐng)域占有一定的地位,局部感知使得卷積核對(duì)輸入的空間局部模式有較好的響應(yīng),而參數(shù)共享降低了網(wǎng)絡(luò)模型復(fù)雜度和權(quán)值數(shù)量[12]. 兩者的結(jié)合不僅可以使網(wǎng)絡(luò)有效地從大量樣本中學(xué)習(xí)到想要的特征值,還降低了模型的復(fù)雜度,避免了復(fù)雜的特征提取過(guò)程.
殘差網(wǎng)絡(luò)[13]在卷積網(wǎng)絡(luò)中增加了直連通道,將原始輸入信息與后面層的輸出直接連接,形成殘差塊,極大地改善了網(wǎng)絡(luò)深度不斷增加帶來(lái)的梯度消失問(wèn)題[14]. 深度殘差網(wǎng)絡(luò)是通過(guò)堆疊許多殘差塊形成的,其不僅增加了網(wǎng)絡(luò)深度,還減少了網(wǎng)絡(luò)的計(jì)算和參數(shù)值數(shù)量,緩解了網(wǎng)絡(luò)訓(xùn)練的難度. 其中,殘差塊是殘差網(wǎng)絡(luò)的核心部分,其常見(jiàn)的結(jié)構(gòu)如圖 1 所示.

圖 1 殘差網(wǎng)絡(luò)基本模塊Fig.1 Basic module of residual network
注意力機(jī)制是根據(jù)人類(lèi)視覺(jué)機(jī)制演變而來(lái)的[15]. 在人類(lèi)視覺(jué)中,人們會(huì)對(duì)所看到的事物進(jìn)行特點(diǎn)檢索,將有用的信息著重關(guān)注,而對(duì)其他的信息忽略. 注意力機(jī)制借鑒人類(lèi)視覺(jué)的這一特性,提取輸入圖像中的有用信息,忽略其他不相關(guān)的信息.
近幾年對(duì)注意力機(jī)制應(yīng)用較為成功的是SENet(Squeeze-and-Excitation Networks),該算法主要通過(guò)嵌入一個(gè)小型網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)每個(gè)特征通道的重要度,然后提取重要特征并抑制一些相關(guān)性較小的特征. 該思想主要通過(guò)squeeze和excitation兩個(gè)關(guān)鍵操作實(shí)現(xiàn),其結(jié)構(gòu)如圖 2 所示.
squeeze操作在空間維度上對(duì)特征進(jìn)行壓縮,將每個(gè)二維的特征通道變成一個(gè)實(shí)數(shù),使得該實(shí)數(shù)在某種程度上具有全局的感官野. Excitation操作通過(guò)參數(shù)w為每個(gè)特征通道生成權(quán)重. 最后通過(guò)一個(gè)reweight操作將excitation的輸出權(quán)重通過(guò)乘法逐通道加權(quán)到先前的特征上,以對(duì)原始特征的重新標(biāo)定,實(shí)現(xiàn)對(duì)特征重要度的篩選.

圖 2 Squeeze-and-Excitation模塊Fig.2 Squeeze-and-Excitation module
圖像信息中難免會(huì)存在噪聲,軟閾值函數(shù)[12]則是降噪的核心步驟. 軟閾值函數(shù)表達(dá)式及對(duì)x的偏導(dǎo)函數(shù)為

(1)

(2)
假設(shè)τ的值為1,軟閾值函數(shù)及其偏導(dǎo)函數(shù)圖像如圖 3 所示.

(a) 軟閾值函數(shù)

(b) 偏導(dǎo)函數(shù)圖 3 軟閾值函數(shù)(a)及其偏導(dǎo)函數(shù)(b)Fig.3 Soft threshold function(a) and its partial derivative function(b)
根據(jù)表達(dá)式及其函數(shù)圖像可得出,該函數(shù)可以將部分區(qū)間的特征值設(shè)置為0,實(shí)現(xiàn)對(duì)部分特征信息的抑制. 根據(jù)其偏導(dǎo)函數(shù)表達(dá)式可以看出,該函數(shù)對(duì)x求偏導(dǎo),值為0或1,這樣有利于梯度的反向傳播.
深度殘差收縮網(wǎng)絡(luò)將深度殘差網(wǎng)絡(luò)、注意力機(jī)制和軟閾值函數(shù)相結(jié)合,實(shí)現(xiàn)深度注意力機(jī)制下的軟閾值化,如圖 4 所示.
在圖 4 的子網(wǎng)絡(luò)中,先對(duì)輸入的所有特征求平均值; 然后,經(jīng)過(guò)全局均值池化和平均等操作得到一個(gè)特征A. 在另一條路徑,將全局均值池化之后的特征圖輸入到一個(gè)小型的全連接網(wǎng)絡(luò)中. 這個(gè)全連接網(wǎng)絡(luò)將輸出進(jìn)行歸一化操作,使輸出保持在0和1之間并獲得一個(gè)系數(shù),記為α; 最后,將兩條路徑得到的系數(shù)相乘,得到一個(gè)自動(dòng)學(xué)習(xí)到的閾值α×A. 從該表達(dá)式可以得出,該閾值的內(nèi)涵是一個(gè)0和1之間的數(shù)字×特征圖的絕對(duì)值的平均. 該閾值的意義在于使得不同的樣本有了不同的閾值,而且閾值為一個(gè)不大的正數(shù). 該子網(wǎng)絡(luò)的實(shí)現(xiàn)應(yīng)用了注意力機(jī)制的概念,如果與當(dāng)前任務(wù)無(wú)關(guān)時(shí),通過(guò)閾值化將它們置為0,實(shí)現(xiàn)對(duì)無(wú)關(guān)信息的抑制.

圖 4 深度殘差收縮網(wǎng)絡(luò)的子網(wǎng)絡(luò)Fig.4 Subnetworks of deep residual shrinkage networks
深度殘差收縮網(wǎng)絡(luò)由輸入層、卷積層、堆疊的基本模塊、激活函數(shù)、全局均值池化以及全連接輸出層等組成,如圖 5 所示.
3.1.1 圖像翻轉(zhuǎn)
本文利用python爬蟲(chóng)工具,從百度圖片中爬取了51種商品的圖像,首先,對(duì)圖像進(jìn)行預(yù)處理; 然后,對(duì)圖像進(jìn)行鏡像處理以及加噪處理,擴(kuò)充數(shù)據(jù)集,形成具有44 066張圖像的數(shù)據(jù)庫(kù).
圖像鏡像分為水平鏡像、垂直鏡像和對(duì)角鏡像3 種. 其中,水平鏡像是指將圖像的左右部分以圖像垂直中軸線為中心進(jìn)行鏡像對(duì)換. 在深度學(xué)習(xí)的訓(xùn)練過(guò)程中,常常使用圖像水平鏡像變換的圖像增強(qiáng)方法以提高模型的泛化能力.
假設(shè)原圖像的高度為h,寬度為w,經(jīng)過(guò)水平鏡像變換后,原圖像中像素點(diǎn)P(x0,y0)的像素變?yōu)樾聢D像坐標(biāo)P′(w-x0,y0)處的像素值.若用(x0,y0)表示原圖像坐標(biāo),(x1,y1)表示經(jīng)水平鏡像變換后圖像的坐標(biāo),那么兩張圖像的關(guān)系可表示為

(3)

(4)
圖 6 和圖 7 為部分原圖像及翻轉(zhuǎn)后的圖像.

圖 6 原圖像Fig.6 Original image

圖 7 水平鏡像翻轉(zhuǎn)后圖像Fig.7 Horizontal mirror image after flipping
3.1.2 圖像加噪
圖像噪聲是圖像在獲取或傳輸過(guò)程中受到的隨機(jī)信號(hào)的干擾,在圖像上出現(xiàn)的一些隨機(jī)的、離散的、孤立的像素點(diǎn),這些點(diǎn)會(huì)干擾人眼對(duì)圖像信息的分析.圖像的噪聲通常是比較復(fù)雜的,很多時(shí)候?qū)⑵淇闯墒嵌嗑S隨機(jī)過(guò)程,因而可以借助于隨機(jī)過(guò)程描述噪聲,即使用概率分布函數(shù)和概率密度函數(shù).
本文所用算法在處理噪聲圖像時(shí)具有優(yōu)勢(shì),因此,此次實(shí)驗(yàn)對(duì)圖像數(shù)據(jù)進(jìn)行了加噪處理,為圖像添加了高斯噪聲和椒鹽噪聲,這樣做不僅更好地模擬了現(xiàn)實(shí)中的圖像,也對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充.
加性噪聲和圖像信號(hào)強(qiáng)度不相關(guān),這類(lèi)噪聲可以看成理想無(wú)噪聲圖像f和噪聲的和,高斯噪聲和椒鹽噪聲都屬于加性噪聲. 其中,高斯噪聲是指服從高斯分布(即正態(tài)分布)的一類(lèi)噪聲,在不良照明和高溫條件下引起的傳感器噪聲.
圖 8 為添加了高斯噪聲的部分圖像,高斯分布為

(5)
式中:μ,σ2為分布的參數(shù),分別為高斯分布的期望和方差.

圖 8 高斯噪聲下的圖像Fig.8 Image under Gaussian noise
椒鹽噪聲也稱(chēng)為脈沖噪聲,是圖像中經(jīng)常見(jiàn)到的一種噪聲,它是指隨機(jī)出現(xiàn)的白點(diǎn)或者黑點(diǎn),一種是鹽噪聲(salt noise),另一種是胡椒噪聲(pepper noise),鹽=白色(0),椒=黑色(255). 前者為高灰度噪聲,后者屬于低灰度噪聲,一般兩種噪聲同時(shí)出現(xiàn),呈現(xiàn)在圖像上就是黑白雜點(diǎn). 椒鹽噪聲的成因可能是影像訊號(hào)受到突如其來(lái)的強(qiáng)烈干擾而產(chǎn)生,類(lèi)比數(shù)位轉(zhuǎn)換器或位元傳輸錯(cuò)誤等.
圖 9 為添加了椒鹽噪聲的部分圖像.

圖 9 椒鹽噪聲下的圖像Fig.9 Image under salt and pepper noise
本文的實(shí)驗(yàn)環(huán)境配置如下: Inter酷睿i5-9400F處理器,16 G內(nèi)存,技嘉1660顯卡,CUDA 版本為 10.2.8,CUDNN 版本為8.0.3 ,OpenCV 版本為 4.4.0,操作系統(tǒng)為win10.
3.2.1 閾值化
對(duì)比不同閾值處理對(duì)圖像的特征提取效果,本實(shí)驗(yàn)將對(duì)輸入的圖像分別使用全局閾值和自適應(yīng)平均閾值進(jìn)行處理. 如圖 10 所示代碼處理,得到了如圖 11 的效果. 從實(shí)驗(yàn)結(jié)果可以看出,自適應(yīng)平均閾值相對(duì)于全局閾值來(lái)說(shuō),其特征提取的效果更好,因此,在深度殘差收縮網(wǎng)絡(luò)中應(yīng)用了自適應(yīng)平均閾值處理.

圖 10 閾值化處理Fig.10 Thresholding

圖 11 閾值化處理的圖像Fig.11 Thresholding image
3.2.2 模型對(duì)比
1) DRSN與ResNet
將本文模型與深度殘差網(wǎng)絡(luò)進(jìn)行了對(duì)比,實(shí)驗(yàn)對(duì)比如圖 12 所示,從圖中可以看出,深度殘差收縮網(wǎng)絡(luò)準(zhǔn)確率可以保持在97.02%左右,而深度殘差網(wǎng)絡(luò)準(zhǔn)確率在95.24%左右. 從實(shí)驗(yàn)結(jié)果可以看出,本文模型相較于深度殘差網(wǎng)絡(luò),具有更好的識(shí)別準(zhǔn)確率. 該結(jié)果也證明了加入了軟閾值函數(shù)及注意力機(jī)制的網(wǎng)絡(luò)具有更好的性能,該模型對(duì)含噪聲圖像具有更好的識(shí)別效果.

圖 12 DRSN與ResNet準(zhǔn)確率對(duì)比Fig.12 Comparison of accuracy between DRSN and ResNet
根據(jù)深度殘差網(wǎng)絡(luò)和深度殘差收縮網(wǎng)絡(luò)得到的訓(xùn)練結(jié)果對(duì)選取的部分圖像進(jìn)行了預(yù)測(cè),得到如表 1 所示的結(jié)果,測(cè)試的圖像如圖 13 所示. 從表 1 數(shù)據(jù)可以看出,雖兩個(gè)網(wǎng)絡(luò)的測(cè)試結(jié)果都不是特別好,但DRSN測(cè)試結(jié)果的準(zhǔn)確率相較于ResNet測(cè)試結(jié)果的準(zhǔn)確率提高了2倍~3倍,這也說(shuō)明了DRSN在圖像識(shí)別中的優(yōu)勢(shì).

圖 13 測(cè)試的部分圖像Fig.13 Partial images of test

表 1 DRSN與ResNet測(cè)試結(jié)果對(duì)比Tab.1 Comparison of test results between DRSN and ResNet
2) DRSN與SENet
將本文模型與SENet網(wǎng)絡(luò)進(jìn)行對(duì)比,對(duì)比結(jié)果如圖 14 和圖 15 所示. 從圖中可以看出,兩者的準(zhǔn)確率在訓(xùn)練過(guò)程中都可維持在97.02%,但是本文模型在訓(xùn)練時(shí)導(dǎo)入一次訓(xùn)練樣本所用的時(shí)間為3 ms,而SENet網(wǎng)絡(luò)在訓(xùn)練時(shí)的導(dǎo)入時(shí)間大概為50 ms左右,兩者相差了大約17倍.
因此,深度殘差收縮網(wǎng)絡(luò)相較于SENet網(wǎng)絡(luò),不僅保證了訓(xùn)練的準(zhǔn)確率,還提高了模型的訓(xùn)練速度.

圖 14 DRSN與SENet準(zhǔn)確率對(duì)比

圖 15 樣本導(dǎo)入所用時(shí)間對(duì)比
本文將DRSN網(wǎng)絡(luò)分別與ResNet、SENet網(wǎng)絡(luò)進(jìn)行對(duì)比,得出DRSN網(wǎng)絡(luò)具有更高的識(shí)別準(zhǔn)確率和更快的運(yùn)算效率. 實(shí)驗(yàn)結(jié)果表明,注意力機(jī)制和軟閾值函數(shù)的結(jié)合對(duì)于帶有噪聲信息的信號(hào)有更好的效果. 由于噪聲信息存在于各種信號(hào)中,因此,深度殘差收縮網(wǎng)絡(luò)也有著更廣泛的應(yīng)用.