999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于移動端的場景分類模型

2020-02-08 04:10:10黃凱凱余萬里陸黎明
計算機工程與設計 2020年1期
關鍵詞:分類特征方法

黃凱凱,余萬里,陸黎明

(上海師范大學 信息與機電工程學院,上海 201400)

0 引 言

場景識別是計算機視覺中一個研究熱點,有很多研究者提出各種識別模型。利用手工標注特征進行場景識別的方法:文獻[1]提出方向金字塔匹配(OPM)算法在Indoor67和SUN397數據集上分別取得了63.48%和45.91%的分類準確率;文獻[2]提出局部顏色對比描述符(LCCD)算法在Indoor67和SUN397數據集上分別取得了65.96%和49.68%的分類準確率。利用深度學習進行場景分類的識別的方法:文獻[3]利用多神經網絡結合多分辨率和類間相似性知識這種多模型集成的方法在Indoor67數據集上取得了84.80%的分類準確率;文獻[4]利用FV(fisher vector)編碼將神經網絡的中層輸出與全連接輸出結合的方法在Indoor67和SUN397數據集上分別取得了83.75%和67.56%的分類準確率。

在移動端且有高實時性要求的系統中,大型深度學習模型[5-7]無法使用。雖然有適合運行于移動端的網絡[8-11],但由于識別準確率太低,不能直接應用于場景識別任務。基于此,本文提出一種能夠運行于移動設備上的端到端的深度學習模型進行場景識別。

1 相關工作

模型壓縮。模型壓縮與輕量模型是兩個不同的概念,雖然兩者的目標都是想要減少網絡參數和計算量,但兩者的實現方法不同。模型壓縮有剪枝[12]、知識遷移[13-15]等方法。現今網絡修剪方法主要有,通過評估神經元的重要性進行修剪[12]、保持神經元多樣性,合并相似結構。知識遷移[13-15]主要是通過一個或多個預訓練好的大模型,提取大模型中的某樣先驗知識,將這個大模型的先驗知識加入到需要訓練的小模型中,使小模型能夠在大模型的監督下訓練,從而使小模型能加速收斂,提高模型準確率。知識遷移主要差別在于知識,文獻[13]提出將預訓練好的模型的輸出作為物體的“軟標簽”,與手工標注的one hot標簽一起監督網絡學習,而這里的知識就是“軟標簽”。文獻[14]提出在特征圖中,不同神經元所關注的圖像區域是不同的,所以將預訓練大模型某層的特征圖與小模型進行特征匹配,使小模型的特征與預訓練大模型特征更加接近,而這里的知識就是預訓練大模型的卷積特征圖。

卷積網絡不同層特征。深度學習模型的一大優勢就是可以自動提取圖像特征,而且卷積網絡不同層所提取的特征性質也有很大區別。卷積網絡中層含有圖像局部和細節信息,而卷積網絡頂層含有圖像全局信息。但提取的特征直觀上很難讓人理解,所以想要探究深度學習模型不同層的特征圖有什么特點,直接查看各層特征圖的參數是無法得出有效結論的。所以本文通過類激活圖[16](CAM)的方法,直接把卷積不同層提取的特征可視化,在原圖上顯示特征重點關注的部分。圖1是我們在MIT Indoor67數據集上做的CAM實驗,從上下對應的對比圖可以證實,中層特征包含圖像局部信息,更關注圖像背景、物體細節,而頂層特征包含圖像全局信息,關注點集中于圖中某樣區分性很強的物體。所以通過卷積網絡多層特征融合,能夠更加全面的表示圖片,能夠更好完成場景識別任務。

圖1 卷積網絡中層(上圖)與頂層(下圖)特征激活圖

FLOPs(floating point operations)浮點運算數,用來衡量算法、模型的復雜度。在卷積神經網絡中,卷積的方式各有不同,對應的計算復雜度也有很大差異。普通卷積核(如ResNet)浮點運算次數的計算公式[10]如下

FLOPs=HWK2CinCout

普通分組卷積核(如ResNeXt)浮點運算次數的計算公式[10]如下

其中,H,W,Cin分別為輸入特征圖的高,寬和通道數,K為卷積核的寬(假設是一個對稱的卷積核),Cout是輸出特征圖的通道數,G是分組卷積的分組數。

2 場景識別模型

根據上述分析,場景識別在圖像信息表示上有其特殊性,所以原有的ShuffleNet[10]網絡無法滿足該任務。根據場景識別的特性,對ShuffleNet[10]1x(g=8)這個版本的網絡結構做出改動(如圖2所示),使其不僅能夠進行多特征融合,還可以在同一個網絡中使用多分辨率輸入進行訓練,而且網絡依然保持端到端,保證了網絡在移動設備上高速運行的可能。

圖2 基于移動端的場景識別網絡結構

2.1 網絡結構

ShuffleNet主要的卷積結構分別在3個Stage中。我們將Stage2、Stage3和Stage4輸出的特征圖進行融合,從而使其符合場景識別對圖像的表示。通過對Stage的Output Size分析,每個Stage內部卷積的H(高)、W(寬)都是不變的,而在每個Stage與Stage之間也沒有通過Pooling下采樣,而是通過將卷積的Stride設為2來減小卷積尺寸。而進一步分析ShuffleNet的小結構單元,與ResNet的結構單元極其相似,也使用了一個跨層連接,而在跨層連接時,使用Avarage Pooling,并將Stride設為2來使跨層連接的卷積與主網絡卷積尺寸相同,然后進行合并,而在ResNet中,是進行相加。借鑒ShuffleNet小結構單元,將Stage2跨層連接,首先與Stage3的輸出進行合并,但由于Stage2與Stage3輸出的卷積尺寸不同,通過在Stage2后加入一個卷積層(Conv1)來調節Stage2的卷積尺寸,使其與Stage3卷積尺寸一致,從而使Stage2與Stage3的輸出能夠合并。Conv1只改變卷積高與寬,不改變深度,具體卷積參數設為Padding=1,kernel_size=3,Stride=2,然后用同樣的方式將Stage4的特征輸出與Stage2、Stage3合并后的特征再次進行合并,這樣就完成了卷積層多層特征融合。

2.2 同一網絡多分辨率輸入

同一張圖片,在不同分辨率下所保持的信息量是不同的。低分辨率下,圖片會損失很多細節信息,而在高分辨率下圖片的信息更加豐富。雖然同樣使用了多分辨率的策略去訓練網絡,但實現方法是完全不同的。Wang等[7]把不同分辨率使用不同的網絡訓練,通過多網絡的方式將不同分辨率下獲得分類結果集成。而我們是在同一個網絡中使用多分辨率進行訓練,通過隨機輸入3種不同分辨率{180*180*3,224*224*3,386*386*3,512*512*3}對網絡進行訓練。與多網絡集成不同,這將不同信息的圖片集成在同一個網絡中,在分類層之前使用global average pooling,使最后網絡的特征輸出只與最后特征圖的深度有關和特征圖的H(高)、W(寬)無關。這不僅保證了端到端學習,而且有效防止過擬合。

2.3 訓 練

首先在原圖的基礎上隨機裁剪,隨機裁剪大小的比例是原圖的0.08~1.0,然后將裁剪之后的圖隨機resize到{180*180*3,224*224*3,386*386*3,512*512*3},將隨機resize之后的圖再經過隨機水平翻轉之后輸入到網絡中進行訓練。我們使用隨機梯度下降算法進行優化,在單張1080ti顯卡上訓練,將batch size設為32,momentum設為0.9,weight decay 設為5e-4,learning rate根據準確率調整,當準確率在10輪之后依然不提高,就將learning rate 乘以0.2,learning rate最小值設為e-8。

3 知識遷移

深度學習模型輸出層經過softmax激活之后,各神經元的輸出就代表概率分布。在一個有N個神經元的輸出層中,用P(y=i|x),i∈[0,N-1] 代表第i個類的概率輸出,若P(y=j|x)=max(p(y=i|x),i∈[0,N-1]) 代表在0~N-1個類中第j個類輸出值最大,那就代表此次分類的預測結果為第j個類。但并不能完全保證此次預測結果就一定是對的,可能目標類并不是第j個類,可能是top-K(輸出值經過排序后前K個大的值所對應的類)個類中的其中一個類。對于當前輸入,將輸出層的top-K個類稱為相似類,這K個類相對于剩下的N-K個類來說,目標類更可能在K個類中,而在N-K個類中的可能性應該是微乎其微的,因為當P(y=i|x),i∈[0,N-1] 值小到一定程度時,說明目標類不可能是其對應的i類。

針對上文討論的場景識別普遍存在的類間相似性問題,本文提出一種相似類知識遷移的模型壓縮方法對目標模型進行監督訓練。

首先選用一個大型深度學習模型(下文統稱為teacher模型)提取相似類知識,然后將teacher模型在當前運行的數據集上進行fine-tune,最后在訓練目標模型(下文統稱為student模型)時,將teacher模型的輸出經過閥值篩選出相似類之后,作為先驗知識來監督student模型訓練。student模型損失函數如下

其中,D是訓練數據集,Ii是第i張圖片,N是模型輸出向量的維度,yi是圖片Ii的真實one hot標簽向量,H(yi=n) 是向量yi索引位置為n上的值,Pi,x是圖片Ii在student模型中沒有經過softmax激活的預測輸出,λ是真實標簽造成的損失與相似類知識標簽造成的損失的調節參數,fi,n是圖片Ii在teacher模型中的輸出值經過相似類篩選之后的值。fi,n具體計算過程如下

其中,F(xi,n) 是圖片Ii在teacher模型中篩選后且沒有經過softmax激活第n個節點的預測輸出值,具體篩選方法如下

本文實驗中λ=1,K=10。 網絡加入這種相似性先驗知識之后可以有效加速收斂速度與分類準確率,從表1中的A2可以看到加入相似性知識后網絡分類準確率明顯提高。因為CNN學習到的特征更加多元化,不至于像使用one hot標簽一樣,分類的概率分布會不斷趨向于單一類,所以CNN學習到的特征也會變得單一,無法學到相似類的特征。文獻[3]通過使用混淆矩陣的方式對相似類進行合并,從而解決場景識別中類間相似性問題,但求混淆矩陣的算法很復雜,而且此時深度學習模型也無法實現端到端。文獻[13]也使用網絡輸出作為先驗知識加入到student模型中,但它并沒有使用相似類篩選。文獻[13]提出的方法其實是本文提出的相似類知識的一個特例,即K為數據集分類數。在MIT Indoor67上對這兩種方法做了對比,即在上文提出的網絡結構相同的基礎上,分別設置K=10與K=67。K=10時分類準確率為75.9%,K=67時分類準確率為73.1%。在本文提出的網絡結構的基礎上,加入本文相似類先驗知識要比加入文獻[13]中所提出的知識,在場景識別上能獲得更高的分類準確率。

表1 ShuffleNet與本文提出方法的比較

4 實 驗

我們主要是在兩個常用的場景識別數據集MIT Indoor67和SUN397上進行實驗,從而評估我們為場景識別改進的ShuffleNet網絡、同一網絡的多分辨率輸入和相似類知識遷移,以及網絡在測試集上的結果與其它實現方法在相同測試集上的結果進行對比。

MIT Indoor67數據集一共有15 620張圖片,每一個類至少有100張圖片,一共有67個不同的室內場景。我們的實驗使用原論文的評估協議,即每一個類80張圖作為訓練集,每一個類20張圖作為測試集。SUN397一共有108 754張圖片,397個不同的場景,每一個類至少有100張圖,我們同樣根據原論文的評估協議,即每類50張圖作為訓練集和50張圖作為測試集。最終在10個這種數據集下對測試集進行評估,取其平均。

在MIT Indoor67上分別評估:為場景識別問題改進的網絡,單網絡多分辨率輸入,相似類知識遷移。這3種情況與原始的ShuffleNet網絡分別進行對比,其結果在表1中。在評估為場景識別改進的移動網絡中,采用單分辨率輸入方式,先從圖片中隨機剪切一個區域,然后resize到224*224,不加入遷移知識。在評估單網絡多分辨率輸入中,使用原始ShuffleNet網絡,在圖像中隨機剪切一個區域之后從{180,224,386,512}隨機選擇尺寸進行resize,不加入遷移知識。在評估相似類知識遷移中,預訓練網絡使用DenseNet162,移動網絡使用原始ShuffleNet,采用單分辨率輸入方式,先從圖片中隨機剪切一個區域,然后resize到224*224,預訓練網絡的輸出中保留相似類個數的閾值threshold=10。以上4種方法中,在測試數據集上都采用將原圖resize到338 * 338作為輸入,然后直接預測結果。

在MIT Indoor67和SUN397上將為場景識別改進的ShuffleNet網絡、同一網絡的多分辨率輸入和相似類知識遷移這3種方法同時使用,并且為移動網絡提供相似類知識遷移的預訓練網絡都使用DensNet162。MIT indoor67和SUN397都是使用原始論文中的評估協議選擇訓練數據集和測試數據集。每輪數據輸入從{180,224,386,512}中隨機選擇尺寸進行resize,測試數據只做resized到338*338的簡單處理。之所以測試數據不進行multi-crop處理,是因為在實際應用中,multi-crop之后再取預測結果的平均值會大幅降低預測速度,不符合移動設備應用的實際需求。

雖然場景識別研究方法[3-5,21,22]很多,但端到端的方法并不多,而且有些方法[3,21,22]使用的是多模型集成的方法,因此我們的方法在與其它方法對比時,會與對比網絡在同一標準下進行對比。表2是與早期手工提取特征進行對比。表3是與各端到端的卷積網絡進行對比,同時利用FLOPs計算公式[10]分別計算了各網絡在輸入圖片長寬都為224時的FLOPs。表4是與多模型集成進行對比,我們使用多模型集成時,通過訓練時調節相似類個數K,獲得不同模型。從以上的對比表中可以看出以下幾點:①即使是使用輕量卷積網絡,其準確率要遠高于傳統手工標注場景識別特征的方法;②多模型集成是提高分類準確率非常簡單卻有效的方法,我們模型通過集成之后,與各個大型集成模型準確率相差很小;③使用與目標問題相似的預訓練模型進行fine-tune,準確率可以獲得大幅提高。例如表3中文獻[4,20]方法都是在Place205或Place365數據集上預訓練好的網絡(VGGNet-16、GoogLeNet)再分別在數據集MIT Indoor67和SUN397上進行fine-tune,相對于使用在ImageNet上預訓練的VGGNet-16再在MIT Indoor67和SUN397進行fine-tune,前者[20]準確率要比后者[5]高很多。本文使用的是在ImageNet上預訓練的網絡,但相比于文獻[5]方法,不僅FLOPs只有它的1%,而且分類準確率比其高8.2%,顯示了本文方法的有效性。

表2 手工標注特征的方法與本文提出方法的比較

表3 端到端的場景分類方法與本文提出方法的比較

表4 多模型集成方法與本文提出方法的比較

5 結束語

本文研究了在移動設備上能夠端到端高效運行的場景識別模型,困難主要來自兩方面:一方面是需要能夠在移動神經網絡中能夠有一種端到端高效運行且場景識別分類準確率高的網絡。二是來自場景識別問題本身,即場景識別需要更加豐富的特征表示和場景識別存在類間相似性。針對這兩方面的問題,本文分別提出了相應的解決方法,但由于硬件條件的限制,主要在MIT Indoor67和SUN397數據集上進行了實驗。在單模型的對比中,雖然我們網絡的FLOPs只有其它模型的1%,但分類準確率依然獲得了明顯優勢。在多模型集成的對比中,通過調節相似類個數K來進行多模型集成的效果并不顯著,分類準確率提高非常有限,仍然需要進一步研究。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 秋霞国产在线| 波多野结衣视频一区二区| 色综合天天综合| 狠狠躁天天躁夜夜躁婷婷| 亚洲综合18p| 亚洲综合18p| 波多野衣结在线精品二区| 呦女精品网站| 亚洲欧美日韩色图| 久草视频一区| 国产成人亚洲无码淙合青草| 热99精品视频| 国产后式a一视频| 亚亚洲乱码一二三四区| 国产成人区在线观看视频| 亚洲天堂网在线播放| 3344在线观看无码| 毛片网站观看| 人人妻人人澡人人爽欧美一区| 亚洲精品不卡午夜精品| 婷婷色在线视频| 无码区日韩专区免费系列| 动漫精品啪啪一区二区三区| 在线不卡免费视频| 国产乱肥老妇精品视频| 亚洲美女高潮久久久久久久| 91精品亚洲| 国产最新无码专区在线| 国产精品无码制服丝袜| 99国产在线视频| 亚洲另类色| 国产自无码视频在线观看| 国产福利拍拍拍| 先锋资源久久| 草逼视频国产| 亚洲综合色婷婷中文字幕| 草逼视频国产| 午夜精品久久久久久久无码软件 | 白丝美女办公室高潮喷水视频| 中国精品自拍| 人妻熟妇日韩AV在线播放| 国产精品免费福利久久播放| 亚洲综合经典在线一区二区| 久久久精品无码一二三区| 国产区精品高清在线观看| 国产主播一区二区三区| 国产激情影院| 国语少妇高潮| 欧美日韩高清| 国产在线第二页| 精品福利一区二区免费视频| 日本欧美视频在线观看| 97久久人人超碰国产精品| 国产网站黄| 国产本道久久一区二区三区| 中文字幕伦视频| 亚洲码一区二区三区| 久久国产亚洲欧美日韩精品| 亚洲国产精品无码久久一线| 九色综合伊人久久富二代| 伊人久久久久久久| 亚欧美国产综合| 永久免费AⅤ无码网站在线观看| 网友自拍视频精品区| 亚洲日本一本dvd高清| 日韩精品无码免费一区二区三区 | 日本不卡视频在线| 欧美日韩精品一区二区在线线| 乱人伦视频中文字幕在线| 欧美日本在线一区二区三区| 国产性猛交XXXX免费看| 99一级毛片| 国产精品人人做人人爽人人添| 国产免费a级片| 国产永久无码观看在线| 一级爆乳无码av| 中国美女**毛片录像在线| 国产精品19p| 国产高清在线观看91精品| 国产成人无码AV在线播放动漫| 亚洲精品国产精品乱码不卞| 久久99这里精品8国产|