999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大權值抑制策略用于訓練卷積神經網絡

2020-01-17 01:42:34范純龍何宇峰王翼新
計算機工程與應用 2020年2期
關鍵詞:優化方法模型

范純龍,何宇峰,王翼新

沈陽航空航天大學 計算機學院,沈陽110136

1 引言

近年來,隨著與深度學習相關技術的不斷成熟和發展,計算機視覺[1-3]領域方面的相關研究和應用也得到了巨大的提升。卷積神經網絡(Convolutional Neural Network,CNN)因其在圖像分類和特征提取等方面相較于其他神經網絡具有獨特的優勢,所以在學術界和工業界都受到了廣泛的關注。

CNN 作為深度學習領域中的重要研究方向,目前眾多學者和研究人員已經提出了多種基于CNN 的模型,如Lecun等提出用于手寫字符識別和圖像分類領域的LeNet[4]、Krizhevsky 等提出在2012 年大型圖像數據庫ImageNet[5]的圖像分類競賽中獲得冠軍的AlexNet[6]、Google 提出的2014 年ILSVRC 挑戰賽冠軍GoogleNet[7]以及微軟提出的2015 年ImageNet 圖像分類競賽冠軍ResNet[1]等等。

CNN模型有比傳統神經網絡更好的特征學習和表達能力,但其缺點在于CNN 提取的訓練數據特征容易受噪聲影響,會出現學習模型在訓練過程中參數過度擬合訓練數據集的現象,從而導致在測試數據集上損失函數不收斂,進而影響了模型在測試數據集的泛化能力。訓練數據特征中隱藏的噪聲對于結果的影響程度往往與訓練方法、目標函數等密切相關。

為降低這些噪聲的影響,研究了連接權值對網絡性能的影響,通過對比不同的訓練過程和訓練結果,驗證了CNN模型參數存在較大的冗余性,發現CNN連接權值大小對模型性能的貢獻存在很大差異,權值越大的連接對模型性能的影響也越大。據此,提出了一種基于CNN大權值抑制(Weight Restrain of CNN,WR-CNN)的訓練優化方法。在訓練過程中抑制大權值連接的增長速度,控制連接權值分布,降低個別大權值連接對模型的負面影響,分散單獨的較大權值對訓練結果的影響,提升CNN模型的魯棒性和泛化能力。另外,本文的訓練方法還可以對已訓練好的模型進行再優化,進一步提升模型的泛化能力和魯棒性。

在CIFAR-10和CIFAR-100數據集對LeNet和AlexNet網絡應用WR-CNN 方法訓練,結果表明經過WR-CNN方法訓練后,模型的泛化能力和魯棒性得到普遍提升,Top1錯誤率下降1.8%~5.0%。

2 相關工作

CNN 基本訓練過程中,首先通過訓練樣本計算當前網絡模型下的誤差或目標函數,然后利用反向傳播算法逐層從后向前更新多層網絡的連接參數權值,參數調整策略一般采用梯度下降方法,如此經過多次迭代,直到獲得相對穩定CNN 模型。因為CNN 模型的參數數量多、迭代計算量大使訓練成本較高且容易產生過擬合,所以相關學者從噪聲抑制、網絡設計和訓練策略等方面提出多種優化方法[8-9]。

Krizhevsky和Wan分別提出Dropout[10]和DropConnect[11]方法,通過隨機丟棄網絡中的卷積核或連接參數,減少卷積核間的互相依賴,在提高網絡準確率的同時,也使網絡更具魯棒性。但這些訓練方法,在隨機刪除卷積核或連接參數的時候,沒有考慮刪除內容對模型結果的正面或負面影響,刪除過程缺乏對刪除內容必要的選擇機制和策略,這樣的刪除過程主要通過增加卷積核或連接參數之間的獨立性,可理解為將大網絡訓練轉化為多個小規模網絡訓練,以達到抑制大網絡公共噪聲和過擬合的目的。

2016 年Iandola 等人提出SqueezeNet[12],通過設計網絡結構和采用模型壓縮技術,將網絡參數數量減少到AlexNet 的1/50,而精確度基本與AlexNet 相近。SqueezeNet選用的網絡結構,其參數數量較常規網絡大幅減少,其尋求的網絡設計不是為了獲取最優識別結果,而是在網絡設計和識別結果之間的一種平衡,另外,模型壓縮技術在小模型上又進一步通過降低精度減小模型規模。Han等人提出DSD[13]訓練方法,通過刪除網絡中小絕對值的連接參數提升網絡稀疏性,再通過重新訓練提升精度,是從優化參數訓練方法的角度改進訓練結果。這些方法為降低網絡復雜性提供方案,同時也證實了CNN 網絡中連接參數具有較大的冗余性,即對于常規CNN網絡模型,存在冗余度更低的替代模型,但直接簡化網絡結構或批量刪除連接參數,對網絡訓練效果帶來較大的不確定性,并且對刪除連接參數后訓練效果改善的原因沒有深入說明。

3 CNN大權值抑制優化訓練

3.1 算法思想

針對現有方法的不足,主要在優化連接參數的更新策略方面改進網絡訓練方法。網絡中的不同連接參數對于網絡性能的影響也各不相同,采取了兩組實驗方案檢測連接權值的絕對值大小對網絡性能的影響。(1)選擇刪除網絡中4%的連接參數,具體過程是選擇訓練好的CNN 模型,然后在各層內依據連接權值絕對值的大小對連接進行排序,接著從低到高依次刪除4%的連接參數,測試集錯誤率作為網絡性能變化的指標。實驗數據集為CIFAR-10和CIFAR-100,選擇基準網絡為LeNet,實驗重復三次后取平均結果,實驗結果如圖1(a)所示。(2)采用大端剪枝和小端剪枝對網絡性能進行測試,從而探尋不同連接的貢獻度。大端剪枝是指刪除網絡中絕對值最大的部分連接;小端剪枝是指刪除網絡中絕對值最小的部分連接。實驗中,分批刪除了LeNet中的不同連接,即首先刪除網絡中絕對值較大或較小前5%的連接,隨后將刪除比例逐漸增長至40%得到不同的網絡,接著觀察不同模型對于測試集的錯誤率來比較不同連接的貢獻度,實驗結果如圖1(b)所示。

從錯誤率變化情況可以看出,刪除連接會造成錯誤率上升,且這種影響呈現清晰的特點,刪除權值絕對值越大的連接對錯誤率增高的影響越大。當刪除絕對值最小的4%連接,兩個測試集上的錯誤率基本沒有變化,但刪除絕對值最大的4%連接,CIFAR-10 和CIFAR-100測試集的Top1錯誤率分別迅速提升至70%和90%。這說明刪除連接會影響錯誤率,但因為權值絕對值大的連接對網絡性能影響過大,所以通過逐步刪除大絕對值連接調整其影響的方法是不可行的。因此采用對大絕對值連接在反向傳播過程中權值增大的幅度進行抑制的策略,達到由更多的連接權值決定CNN模型性能,而不是高度地集中在極少數大絕對值連接上,進而抑制某些強噪聲干擾,提高網絡性能。

圖1 在LeNet上刪除不同連接

基于上述分析,提出CNN 大權值抑制策略(Weight Restrain of CNN,WR-CNN)訓練方法。WR-CNN方法針對傳統訓練過程中的權值更新部分進行優化,在經過一定次數的訓練后,每次反向傳播過程中進行連接權值調整時,根據連接權值的絕對值從小到大排序,然后根據給定需要抑制的絕對值大的連接比例(抑制率)選擇待抑制連接,并通過讓這些連接的梯度值與一個小于1的抑制系數相乘來達到抑制連接更新幅度的目標。WR-CNN優化訓練方法通過抑制對網絡性能影響較大的連接權值變化速度來增加較大影響力連接數量,可以有效增強網絡的泛化能力和魯棒性。

3.2 算法分析

絕對值較大的連接權值使網絡能夠更好地支持樣本數據,同時也限制了其他較小連接權值對于網絡性能的貢獻。WR-CNN方法通過控制絕對值較大的連接權值更新幅度,使網絡中的權值參數趨于均衡,提升參與決策的參數權值數量,從而提高模型的泛化能力和魯棒性。

抑制操作是對網絡中貢獻度較大連接(記為wb)的權值更新幅度加以控制,即對反向傳播過程中計算出的Δw 乘以抑制系數p(0 <p <1),其中p 與連接的貢獻度成反比,即貢獻度越大的連接,權值更新幅度越小。設抑制方式為線性抑制,網絡中最大連接權值為wmax,λ為線性抑制率(λ >1),則:

反向傳播算法中網絡參數的迭代調整普遍采用隨機梯度下降法,該方法中參數的更新方向是網絡對多個樣本損失值的平均梯度方向,而非最優調整方向,這使網絡容易被某些特定的樣本影響。抑制對網絡性能貢獻度較大的連接權值的增長速度會使網絡參數更趨于平均,同時使網絡損失值E 的變化更加穩定,避免網絡向某一參數的梯度方向大幅調整,提高了網絡的魯棒性和泛化能力。

算法1 WR-CNN算法的工作流程如下所示:

輸入:訓練集D;抑制率r

輸出:連接值確定的神經網絡模型

1. w(0)~N(0,1) /*隨機初始化網絡中所有連接*/

2. While 網絡不收斂do

3. Δw=?E/?w /*計算神經元的梯度值*/

4. Sort(w) /*根據貢獻度對連接進行排序*/

5. f(wb)=wb+Δw·p /*根據r 抑制貢獻度較大神經元的更新速率*/

6. end

另外,針對已經用傳統方法訓練好的CNN模型,可以利用WR-CNN方法對上述模型進行再優化訓練。首先,對于一個已經用傳統方法訓練完成的CNN 模型A進行大權值壓縮處理。設計了一個大權值壓縮函數,用于將模型A 中的絕對值較大的連接權值壓縮到絕對值較小的連接權值區間中。記模型A 中絕對值較大的連接權值為wb,其中絕對值最大的連接權值為wmax,需要壓縮的較大連接權值區間中最小的連接權值為wm,則大權值壓縮函數如下:

由上式可知連接權值的絕對值大于wm的這部分連接權值都將被壓縮到wm值以下,并且絕對值越大的連接權值被壓縮的比例越大。模型A 經過大權值壓縮處理后得到模型B,模型B中的連接權值將會集中分布在較小區間,連接權值的影響被強制趨于均衡。然后將模型B 作為初始化的輸入網絡,運用WR-CNN 方法進行優化訓練適當的輪數(一般在20 輪以內),最后將得到再優化的目標網絡模型C,通過實驗表明模型C相較于模型A的泛化能力和魯棒性都得到了明顯的提升。

4 實驗結果與分析

為驗證WR-CNN 方法的有效性,使用基于Matlab平臺的MatConvNet[14]工具包,在LeNet 和AlexNet 模型上對CIFAR-10、CIFAR-100以及SVHN數據集進行了多次實驗。首先,將WR-CNN 方法與Dropout、DSD 方法進行了綜合對比,其中DSD方法的稀疏率采用文獻[13]中對于多種卷積神經網絡的推薦設置值30%,具體實驗結果見表1。

由表1 數據可知DSD 方法對于網絡模型性能的提升效果不如WR-CNN優化方法明顯。DSD方法在LeNet上對于CIFAR-10 的提升效果為4.22%,而WR-CNN 方法的提升效果為5.02%。而且該方法中稠密訓練步驟使網絡中的參數數量與原模型相同,即并未減少訓練網絡所需成本。WR-CNN方法對網絡性能的提升程度明顯優于其他優化方法,在同等級的訓練數據集情況下,測試集的準確率進一步得到了提升,說明該優化方法增強了模型的泛化能力。

表1 CIFAR和SVHN數據集實驗結果

其次,將WR-CNN方法的抑制率設置為30%,觀察了不同稀疏率下多種優化方法的Top1 錯誤率,Dropout方法中,對于CIFAR-10和CIFAR-100數據集,當稀疏率大于50%,其識別效果較差,故不在圖中展現,具體結果見圖2、圖3。

圖2 不同方法下AlexNet錯誤率對比(CIFAR-10)

結合圖2、圖3 可以看出,Dropout 方法對于網絡性能的影響與稀疏度密切相關。對于CIFAR-10 數據集,當AlexNet 稀疏率大于50%,網絡的識別錯誤率開始出現明顯的上升;對于CIFAR-100 數據集,當稀疏率大于30%之后,網絡性能就受到了明顯的影響。而WR-CNN方法對稀疏率的敏感性明顯要低于其他方法,同時保持了較好的準確率。這說明用WR-CNN方法優化訓練好的網絡模型具有很強的魯棒性。

圖3 不同方法下AlexNet錯誤率對比(CIFAR-100)

然后,測試了上述幾種優化方法訓練好的網絡模型的魯棒性。將這些模型刪去部分大權值后在CIFAR-10數據集上的Top1錯誤率變化。具體結果見圖4。

圖4所示的結果再次驗證了本文的分析,用傳統訓練方法訓練好的網絡模型,其性能很大程度上依賴于網絡中少量的大權值連接參數。圖4中直觀地顯示出僅僅刪除了0.4%左右的大權值連接參數,其網絡性能就會急劇下降,Top1錯誤率接近未刪除大權值連接參數前的一倍,達到40%左右,體現了傳統訓練方法訓練好的網絡模型魯棒性較弱的特點。用Dropout方法優化訓練好的網絡模型在刪除了1.3%左右的大權值連接參數時,Top1錯誤率才達到40%左右,說明該方法對于分散網絡模型中大權值連接參數的貢獻起到了作用,其優化訓練好的網絡模型魯棒性也得到了增強。而WR-CNN方法優化訓練好的網絡模型直到刪除了約2.3%的大權值連接參數,其Top1錯誤率才達到了40%,可見通過WR-CNN方法對于分散網絡模型大權值連接參數作用的能力明顯要高于其他方法,進一步增強了網絡模型的魯棒性。

最后,在CIFAR-10 數據集上實現了對已經訓練好的LeNet 使用WR-CNN 方法再次優化訓練。該模型進行權值壓縮前的權值分布如圖5(a)所示,壓縮后的權值分布如圖5(b)所示。對比兩圖中的權值分布可以發現,在經過壓縮前的LeNet 少部分大權值絕對值分布在0.2左右,而在經過前述壓縮函數進行壓縮后,這部分大權值絕對值被壓縮到了0.05左右。經過17輪再優化訓練后的網絡模型在測試集上Top1 錯誤率達到了17.45%,進一步增強了模型的泛化能力,驗證了WR-CNN 方法對于已訓練好的CNN模型再優化能力。

圖4 在LeNet上刪去大權值連接后的錯誤率變化(CIFAR-10)

圖5 LeNet對權值壓縮前后的權值分布

優化深度神經網絡模型的難點之一在于鞍點的擴散[15],WR-CNN方法通過對大權值連接參數更新策略的調整,打破隱藏層中神經元的對稱結構,使神經元不依賴于其他特定神經元,在網絡的優化過程中擺脫局部最小值,跳離鞍點并收斂于全局最小值。網絡訓練過程中分散大權值作用的思想將網絡的優化轉移到對噪聲更具魯棒性的低維空間,從而減小方差并降低網絡的錯誤率。權值絕對值較大的連接體現了網絡的整體需求,但它們限制了剩余權值絕對值較小的連接對于網絡的影響,最終使網絡依賴于少量參數。其過快的變化速率打破了初始化時的參數分布[16],破壞了網絡訓練的平衡性和穩定性。因為抑制操作只增加一個超參數(抑制系數)用于調整權值更新策略,并沒有增加反向傳播過程中的計算資源,所以WR-CNN 方法對于網絡的訓練效率并沒有明顯降低。

5 總結

本文提出了針對卷積神經網絡訓練過程的WR-CNN優化訓練方法,WR-CNN 方法通過對網絡中貢獻度較高連接的權值更新幅度進行限制,最終提高了網絡的準確率,抑制訓練過程中過擬合現象的產生,優化了傳統卷積神經網絡的訓練過程。綜合多項實驗結果,WR-CNN方法對于CIFAR-10和CIFAR-100數據集,在LeNet模型上的Top1 精度分別提升5.02%和3.36%,在AlexNet 分別提升1.81%和3.69%。實驗結果表明了傳統訓練方法的不足,驗證了現有卷積神經網絡模型中廣泛存在泛化能力弱和魯棒性不足的事實。WR-CNN優化訓練方法可以將網絡模型的大權值連接參數作用分散到較小權值連接參數上,使網絡降低對于極少數大權值連接參數的依賴,增強了網絡的泛化能力和魯棒性。

猜你喜歡
優化方法模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 色婷婷亚洲综合五月| 伊人精品视频免费在线| 国产精品免费p区| 99精品热视频这里只有精品7| 国模极品一区二区三区| 国产成人精品一区二区| 国产成人精品三级| 亚洲婷婷在线视频| 精品国产99久久| 国内精品一区二区在线观看| 欧美成人综合视频| 亚洲人在线| 青草精品视频| 久久天天躁狠狠躁夜夜2020一| 国产一区免费在线观看| 国产另类乱子伦精品免费女| 亚洲欧美日韩精品专区| 亚洲精品第一页不卡| 欧美午夜理伦三级在线观看| 亚洲美女久久| 久热这里只有精品6| 综合天天色| 一本无码在线观看| 国产95在线 | 在线观看无码av免费不卡网站 | 亚洲欧美日韩高清综合678| 欧美成在线视频| 中文纯内无码H| 四虎免费视频网站| 欧美亚洲国产日韩电影在线| 国产十八禁在线观看免费| 中文字幕人成乱码熟女免费| 在线播放91| 国产自产视频一区二区三区| 亚洲色图另类| 无码福利视频| 亚洲成a人在线播放www| 国产18在线播放| 99精品在线看| 天堂在线www网亚洲| 国产手机在线观看| 国产成人无码AV在线播放动漫| 热99re99首页精品亚洲五月天| 欧美在线综合视频| 国产黄色片在线看| 男人的天堂久久精品激情| 日韩黄色在线| 亚洲精品在线91| 欧美在线伊人| 无码 在线 在线| 色丁丁毛片在线观看| 9丨情侣偷在线精品国产| 欧美.成人.综合在线| 亚洲电影天堂在线国语对白| 一区二区三区成人| 亚洲色成人www在线观看| 国产高清不卡| 少妇精品在线| 日韩a在线观看免费观看| 尤物国产在线| 久操线在视频在线观看| 熟妇人妻无乱码中文字幕真矢织江 | 99热最新网址| 毛片在线区| 亚洲精品国产首次亮相| 九色国产在线| 99国产精品国产高清一区二区| 国产主播在线观看| 2021国产v亚洲v天堂无码| 欧美精品影院| 免费一级毛片在线播放傲雪网| 国产精品不卡片视频免费观看| 区国产精品搜索视频| 国产在线观看精品| 亚洲男人的天堂久久香蕉| 国产成人精品在线| 福利在线不卡一区| 国产人在线成免费视频| 国产精品永久在线| 91精品国产一区| 九九热视频精品在线| 影音先锋丝袜制服|