999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SqueezeNet和動態網絡手術的脫機手寫漢字識別

2021-03-21 05:11:54周於川譚欽紅奚川龍
小型微型計算機系統 2021年3期
關鍵詞:特征模型

周於川,譚欽紅,奚川龍

(重慶郵電大學 通信與信息工程學院,重慶 400065)

1 引 言

脫機手寫漢字識別在50年以來的研究中,在票據自動識別、手寫漢字錄入、自動化教學辦公等領域具有重要意義;相較于于打印字,人們有著風格迥異的字體,更難于提取和識別特征.傳統方法中,MQDF[1]和DLQDF[2]在CASIA[3]數據集上有好的效果,達到近93%的準確率,但傳統方法逐漸達到瓶頸.基于卷積神經網絡(CNN)的模型在模式識別方面效果很好,用于脫機手寫漢字識別中的CNN模型也有許多,基于CNN的Fujitsu[4]模型在測試集ICDAR-2013以94.77%準確率獲得冠軍;輪換訓練松弛卷積神經網絡(ATR-CNN)[5]最新模型達到3.94%的錯誤率進一步縮小機器和人眼識別差距;HCCR-Gabor-GoogLeNet(HEGL)[6]在Fujitsu基礎上修改后準確率達到96.58%,HEGL在損失部分速度和存儲情況下達到96.74%的準確率;基于ResNet的傾斜校正網絡[7]更是達到了98.4%準確率.

盡管基于CNN模型的手寫漢字識別在準確率上取得了很大提升,但是其運算資源、功耗和存儲空間要求大、參數多、訓練復雜、難于進行分布式訓練;很難將相應模型部署于硬件資源有限的ARM板和FPGA等嵌入式平臺中.本文為實現有限資源條件下的手寫漢字識別,在保證模型預測性能良好的情況下,盡可能減小模型的體量.

壓縮CNN模型體積常用方法[8]有5類,分別是網絡剪枝、參數共享、量化、網絡蒸餾和緊湊網絡設計,都可以得到明顯的壓縮效果.其中緊湊網絡改進了網絡參數量和計算量較多的卷積,Iandola等提出SqueezeNet[9],曠視科技提出的ShuffleNet[10],谷歌團隊的MobileNet[11],以及Francois等提出的Xception[12]都是在卷積設計上做了相關工作.

其中SqueezeNet將FireModule引入AlexNet卷積模型,在保證準確率較好的情況下,將模型壓縮50倍,并成功應用于嵌入式平臺.本文對脫機手寫漢字模型壓縮進行研究,將SqueezeNet模型修改后,加入動態網絡手術(Dynamic Network Surgery)[13]對模型參數壓縮,包含裁剪和修復,壓縮參數同時保證模型準確率.

2 SqueezeNet卷積神經網絡模型

SqueezeNet是基于AlexNet的卷積神經網絡模型,設計更少參數的CNN模型,減少大量參數的同時,仍然擁有接近AlexNet網絡的準確率.

SqueezeNet核心在于FireModule,小卷積核代替部分大卷積核,當分別用5*5和3*3卷積核對5*5*1圖像進行卷積,前者產生25個參數,25次計算,后者會產生18個參數,90次計算,但計算機讀取內存的速度遠慢于乘法計算,參數量少的小卷積核卷積速度更快,故文中采用1*1替代部分3*3會加快卷積速度,剩余3*3卷積核保證收斂速度.

如圖1所示,分為Squeeze層和Expand層,其中Squeeze層是S個1*1卷積核的卷積層,Expand層是e1個1*1和e2個3*3卷積核的卷積層,其激活層都是ReLU.其中FireMoudle輸入特征圖大小為H*W*M,輸出特征圖大小為H*W*(e1+e2),變化的僅是維數,并未改變其分辨率.首先H*W*M的特征圖經過Squeeze層,得到S個特征圖,S均是小于M,起到壓縮效果;在Expand層,H*W*S分別用e1個1*1卷積核和e2個3*3卷積核進行卷積,并將兩部分卷積結果進行合并,得到H*W*(e1+e2)大小的輸出結果,所選取e1+e2的值要求大于M,因此FireMoudle增加了輸入的維數.其中S、e1、e2是可調參數,都是代表卷積核個數,也反映輸出特征圖的維數,文中取e1=e2=4S.

此外,模塊中采用下采樣操作來保證卷積層具有更大的激活函數,在有限網絡參數的條件下保證模型精度.

3 改進SqueezeNet模型

3.1 網絡結構

如圖2所示,SqueezeNet網絡結構設計思想與傳統卷積神經網絡結構類似,通過堆疊卷積操作來實現,只是SqueezeNet堆疊的是FireMoudle.

本文改進的SqueezeNet模型,在原模型的基礎上進行3個部分的改進:1)將最大池化層加入下層FireMoudle層進行融合,改善小卷積核的過擬合問題,這個過程中保證最大池化

圖2 原始和改進的SqueezeNet網絡結構設計Fig.2 Original and improved SqueezeNet structure design

層特征圖和融合的FireMoudle特征圖大小匹配;2)針對FireMoudle層的特征圖參數,采用動態壓縮網絡手術算法動態連接修剪、降低網絡復雜度;3)采用L2范數約束[14]的Softmax代替原先的Softmax進行分類,通過正則化來實現更好的約束效果.模型參數見表1.

表1 改進SqueezeNet模型參數Table 1 Improved SqueezeNet module parameters

3.2 動態網絡手術

常用的模型參數裁剪算法是通過閾值來刪除不重要的參數來壓縮CNN模型,但是參數重要性往往伴隨著網絡性能而變化,也就導致兩個常見問題:1)有可能將重要的參數刪除,降低模型精度;2)時間很長,收斂過慢.動態網絡手術壓縮模型,對參數進行調整,其流程采取剪枝和拼接結合、訓練與壓縮同步的方式,在減少大量參數的同時保證精度.此模型包含兩部分,即剪枝和拼接,如圖3所示.其中,剪枝是壓縮網絡模型;拼接是為了彌補在剪枝不正確而造成的精度損失,對不正確的剪枝進行恢復拼接.不僅提高學習效率,而且更好接近壓縮極限.對于問題2,通過兩個方式來加快訓練速度:1)降低參數的刪除概率,提高收斂速度;2)將FireMoudle和卷積層分開進行參數裁剪.

圖3 動態網絡手術策略Fig.3 Dynamic network surgery strategy

式(1)表明網絡的損失函數:

(1)

L(Wk⊙Tk)是網絡損失函數,⊙代表是矩陣哈達瑪乘積;hk(w)是分類函數,判定重要就為1,否則為0;Tk是0-1矩陣,表明網絡的連接狀態,是否被剪枝.I代表矩陣Wk中的元素.

分類函數hk(w)如式(2)所示,參數的重要性以權值絕對值為基礎,設置ak,bk2個閾值,其中bk=ak+Tk.

(2)

Wk和Tk確定后,通過式(3)來更新Wk的值,其中β為正向學習效率.式(3)不僅更新重要的參數,而且更新已被認定為不重要或對減少損失函數無效的參數,即對Tk中已被定為0的參數依然進行更新.

(3)

算法中剪枝和拼接是不斷循環的過程,通過不斷更改連接的權重Wk和Tk的值來實現,直到迭代次數iter達到預設值.動態網絡算法步驟如表2所示.

3.3 融合算法

最大池化層和下層的FireMoudle層相融合[15],不僅改善小卷積核的過擬合問題;而且底層特征分辨率更高含有更多位置、細節信息,但噪聲很多,而高層特征分辨率低,但是對細節感知能力差;將高層特征和底層特征進行融合會提高對小目標(手寫漢字中的點)的檢測效果;前層學習的特征映射可以被后層訪問,整個網絡公用一部分特性,使模型更緊湊.

融合方法[16]體現于圖2,將池化層得到的特征圖和后面

表2 動態網絡手術算法步驟Table 2 Dynamic network surgery algorithm procedure FireMoudle得到的特征圖進行融合,得到新的特征圖,算法如式(4)所示,將池化層提取得到的特征圖和其后FireMoudle得到的特征圖進行融合,得到新的特征圖.

(4)

其中n,i,j分別代表新特征圖個數,池化層所提取的特征圖個數和FireMoudle處理后的特征圖個數.

3.4 L2約束的Softmax分類

Softmax對于給定的測試輸入,通過假設函數針對估算出每一個類別概率值并歸一化處理,得到類別的歸一化概率值,如式(5)所示;在模式識別任務中,可以有效分離多個類別并且容易實現;但是也有明顯缺點:1)如果類別過多,那么會出現匹配問題;2)受限于最大化條件概率的處理方式,其更適用于高質量圖像,不適用于困難罕見圖像.

圖4 Softmax和L2-Softmax在mnist數據集特征 分布情況對比Fig.4 Comparison of Softmax and L2-Softmax feature distributions in the mnist dataset

當限制最后的隱藏層輸出為2時,實現特征可視化,得到圖4從左到右為Softmax和L2-Softmax在mnist數據集上得到的特征分布情況,L2-Softmax準確率要高于Softmax.

由于本文手寫漢字識別類別較多,故本文采用L2范數約束的Softmax進行分類,加上范數約束條件后,同一類別圖像在歸一化特征空間更接近彼此,不同類別圖像距離更遠,給樣本平均化的關注,可以很好地處理到質量較差的樣本.

(5)

式(6)為L2-Softmax類別概率值歸一化處理,其中f(xi)是規模為M的一張輸入圖像,yi表示第i個目標的類別描述,只有一個元素為1,f(xi)是最后的全連接層之前的d維特征描述量,C是類別的數量,W和b分別代表網絡中可訓練的權重和偏差.

(6)

在網絡中實現L2約束如圖5,Softmax直接對Softmax損失進行歸一化處理得到概率值,而L2-Softmax對Softmax輸出前引入L2格式化層和Scale層.其中L2格式化層將輸入的特征x歸一化為單位向量;Scale層根據給定參數α,將單位向量縮放到固定的半徑,鑒于將參數a同其他網絡參數同時訓練所得值過大,本文直接將a固定為較小常量,效果更好.

圖5 Softmax與L2-Softmax網絡Fig.5 Softmax and L2-Softmax network

4 實 驗

本文選擇CASIA-HWDB1.1數據集作為模型訓練集,其中的漢字更多變,更難識別,包含3755類漢字;ICDAR-2013競賽數據集作為測試集.實驗環境:操作系統是Ubuntu 18.04,CPU是Intel Core i7-8700K CPU@3.70GHzX12,GPU是NVIDIA GTX1080TI 16G,RAM是DDR4 3200 16G,采用深度學習框架是Tensorflow 1.4.0和Keras 2.1.0,基于python3.6.3.

4.1 脫機手寫漢字集預處理

數據集中漢字字跡深淺不一,對識別準確率有影響,對圖像進行增強對比度操作.

(7)

式(7)中Imax,Imin分別為原圖像的最大、最小灰度像素值,I(x,y)為原圖像像素值,D(x,y)為目標圖像像素值.

圖片尺寸過大會增加網絡負擔,過小會降低識別性能,通過最近鄰插值法將漢字圖像歸一化為56×56大小.

結合梯度特征可以提高手寫漢字識別的有效性和準確率[17].從0,π/4,π/2,3π/4,π,5π/4,3π/2,7π/4這8個方向提取手寫漢字特征,可以涵蓋漢字的橫、豎、撇、捺等筆畫.通過sobel算子得到水平和垂直方向的梯度,再根據平行四邊形分解原 則得到八個方向的特征圖,最后進行疊加得到平均梯度圖像.

圖6左上角為原始圖像“的”,中間為圖像增強處理后的圖像,右上角為梯度圖像疊加后的平均梯度圖像,后面8幅圖像為對應方向的梯度圖像.

圖6 對“的”預處理Fig.6 Pretreatment of “的”

4.2 在CASIA-HWDB1.1數據集中實驗

本數據集中每個漢字大概含有300個樣本,共計1121749個漢字,分為訓練集和驗證集;訓練集中每個漢字包含250個樣本,驗證集中每個漢字包含50個樣本.測試集ICDAR-2013依然采用32×32的輸入尺寸.

表3 超參數設置Table 3 Improved SqueezeNet module parameters

對卷積神經網絡超參數進行設置,如表3所示,其中FireMoudle中設置壓縮比為0.5,3×3的filter個數占總個數比例為0.25.

4.3 實驗結果與分析

表4中展示幾種典型方法在ICDAR-2013數據集上的識別效果,MQDF-HIT和MQDF-THU是通過提取灰度化后字符圖像的特征向量后,采用級聯的MQDF分類器分類.CNN-Fujitsu作為ICDAR-2013漢字識別的冠軍模型,根據4個CNN模型投票來產生最終輸出結果.ATR-CNN采用松弛卷積神經網絡識別手寫漢字,即通過改變傳統卷積中一個特征圖內共享卷積核策略.HEG是通過10個改進后的GoogLeNet的投票結果來產生最終結果.

由表可得,本文所提模型的識別準確率和模型體積量都比以MQDF為代表的傳統手寫漢字識別更有優勢;比卷積神經網絡AlexNet、CNN-Fujitsu和ATR-CNN有小幅度準確率提升并降低了模型體積;其準確率僅低于Skew Correction ResNet的98.4%,但有更小的體積.

對比SqueezeNet模型直接剪枝后的結果,雖然模型體積變得很小,同時準確率降低較多;本文中采用的動態網絡手術來剪枝并拼接被誤刪重要的參數,雖模型體積相對直接剪枝更大一些,達到了3.2MB,但準確率得到顯著提高,達到96.03%;最后對輸入圖片進行增強和梯度提取后,在預處理輸入的基礎下,得到模型的準確率提高到96.32%.

表4 改進SqueezeNet模型參數Table 4 Improved SqueezeNet module parameters

注:SN表示SqueezeNet,SCR表示Skew-correction-ResNet,DNS表示動態網絡手術,HEG表示HCCR-Ensemble-GoogLeNet

5 總 結

本文提出的模型是在卷積神經網絡SqueezeNet的基礎上,引入動態網絡手術降低參數輸入,加快訓練和收斂并在保證精度的情況進行合理剪枝,進一步減少參數,將模型壓縮到了3.2MB,采用L2約束Softmax分類函數加速漢字分類的收斂,速度得到提升,達到很好的效果.但是模型的準確率對比最新的模型偏低2.37%,后面會加入HWDB1.0訓練集,提高準確率;模型在計算機上已經有較好的壓縮和識別效果,故下一步將本模型部署在ARM板或FPGA等硬件資源限制有限的平臺,實現對脫機手寫漢字的識別,并評估準確率和速率等性能.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99在线视频精品| 国产迷奸在线看| 国产成人一区在线播放| 91在线中文| 久久精品丝袜| 无码aaa视频| 亚洲av成人无码网站在线观看| 人妻无码中文字幕一区二区三区| 国产乱人伦AV在线A| 99精品免费在线| 手机在线国产精品| 91福利国产成人精品导航| 精品精品国产高清A毛片| 欧美久久网| 午夜福利在线观看成人| 爆乳熟妇一区二区三区| 久久青青草原亚洲av无码| 91蜜芽尤物福利在线观看| 亚洲视频在线观看免费视频| 亚洲国产欧美目韩成人综合| 国产区人妖精品人妖精品视频| 日本精品视频| 性色一区| 亚洲无码高清一区二区| 一级爆乳无码av| 精品久久人人爽人人玩人人妻| 欧美天堂在线| 国产成人永久免费视频| 另类专区亚洲| 四虎精品国产AV二区| 婷婷99视频精品全部在线观看| 狠狠做深爱婷婷综合一区| 欧美亚洲综合免费精品高清在线观看| 丁香五月激情图片| 国产亚洲美日韩AV中文字幕无码成人| 国产人成午夜免费看| 欧美国产综合视频| 高清无码不卡视频| Jizz国产色系免费| 香蕉视频国产精品人| 好紧太爽了视频免费无码| 日本一本正道综合久久dvd | 影音先锋丝袜制服| 午夜无码一区二区三区| 无码有码中文字幕| 国产欧美日韩18| 国产无码精品在线播放| 人妻一区二区三区无码精品一区 | 国产视频 第一页| 综合亚洲色图| 日韩精品成人在线| 欧美日韩另类在线| 欧美日韩在线亚洲国产人| 色综合久久88| 四虎永久在线精品国产免费| 亚洲看片网| 综合久久五月天| 最新亚洲人成网站在线观看| 波多野结衣一区二区三区AV| 激情爆乳一区二区| 国产成人91精品| 欧美人在线一区二区三区| 久久精品一品道久久精品| 欧美一级片在线| 欧美成人综合视频| 九九视频在线免费观看| 色综合热无码热国产| 极品av一区二区| 粉嫩国产白浆在线观看| 精品国产aⅴ一区二区三区 | 国产色网站| 在线观看91香蕉国产免费| 成人av专区精品无码国产| 亚洲综合经典在线一区二区| 国产精品成人观看视频国产| 无码人妻热线精品视频| 欧美日韩中文字幕二区三区| 免费看a毛片| 亚洲一区毛片| 在线欧美日韩国产| 91丝袜在线观看| 国产精品久线在线观看|