999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

優化非線性激活函數-全局卷積神經網絡的物體識別算法

2021-03-13 06:33:22
小型微型計算機系統 2021年2期
關鍵詞:深度方法模型

安 鳳 平

(淮陰師范學院 物理與電子電氣工程學院,江蘇 淮安 223300)

(北京理工大學 信息與電子學院,北京 100081)

1 引 言

物流倉儲物體實時檢測屬于物體檢測的范疇,它的主要任務是提取得到物流倉儲物體的位置信息和類別信息.因此,能否快速、準確地識別和抓取物流倉儲的物體是當前面臨的巨大挑戰[1].傳統的物體識別算法主要有:Csurka 等人[2]提出了一種貝葉斯和支持向量機的融合方法,并利用該方法對物體進行分類,但是該物體分類效果較低.Yang 等人[3]提出了基于稀疏編碼進行物體分類方法,但是該方法需要建立足夠可信的稀疏集.Ning等人[4]提出了一種基于結構化支持向量機的方法,它在對象跟蹤基準測試中表現較好的分類性能.但是,復雜的優化方法限制了它們在實際應用中的部署.Alhalah等人[5]提出了一種層次化模型進行物體分類識別,在實際應用中取得了較好的效果.但是該方法的自適應性能較弱.Gualdi 等人[6]提出了一種新的多級粒子窗口搜索方法.雖然該方法取得了較好的應用效果,但存在較難收斂的問題.傳統的物體識別算法在某些應用場景下,盡管取得了一定的效果,但是存在識別精度低、自適應能力弱等問題.這一缺點被Hinton在2006年提出的深度學習(Deep Learning)技術所打破[7].深度學習技術[8]由于具有高度的特征提取能力,它已經被應用到計算機視覺[9]、圖像分類[10]等領域.鑒于此,很多學者將其引入到物體識別領域中.在物體分類方面主要有:Alex在2012年的ILSVRC會議上提出了AlexNet模型,它較傳統的卷積神經網絡模型(Convolutional Neural Networks,CNN)[11]進行了優化,并應用到物體分類當中,它將分類錯誤率從25.8%下降到16.4%,該方法成為當年會議中圖像分類的冠軍.Girshick 提出了Fast Region-based Convolutional Network[12]進行物體分類,它與之前的工作相比,它采用了多項新思路來提高訓練和測試速度,提高了分類精度.Gao等人[13]提出了一種物體分類方法,通過創建LIDAR數據上采樣的點轉換為像素級深度信息,進而獲得車輛特征信息,并進行分類.在物體識別方面主要有:Redmon 等人[14]提出了一種新的物體識別方法 YOLO.該方法通過回歸方法來實現物體位置、尺寸和類別等信息的識別,它可以有效提升檢測速度與精度.但是,該方法存在缺乏候選區域生成機制、無法精確定位等問題.Liu 等人[15]提出了將 YOLO 的回歸思想和快速卷積神經網絡的錨點機制相融合,該方法在VOC2007測試集上的識別平均準確率為74.3%,也基本滿足實時處理要求.綜上可知,深度學習理論在物體識別中得到了一定程度的應用.但是待識別物體特性千差萬別,如何依據這些物體特性構建性能更優異的卷積神經網絡,獲得更好的物體識別效果,依然是一個比較棘手的問題.而且現有的卷積神經網絡存在過擬合、非線性建模能力、大量重復的池化操作丟失信息等問題.鑒于此,本文提出了一種可學習的指數非線性單元.通過在ELU(Exponential Linear Units)中引入兩個學習的參數,它能夠表示分段線性函數和指數非線性函數,因而它具備更強的非線性建模能力.同時,為了改善池化操作丟失信息的問題.本文提出了一種深度全局卷積神經網絡模型,該模型充分利用了網絡中不同層特征圖的局部和全局信息.它可以減少丟失特征信息的問題.基于上述思想,本文提出了一種優化非線性激活函數-全局卷積神經網絡的物體識別算法.

本文第2節將主要闡述本文提出的優化非線性激活函數模型;第3節闡述提出的全局卷積神經網絡模型;第4節介紹提出的優化非線性激活函數-全局卷積神經網絡的物體識別算法;第5節對本文提出的算法進行實例分析,并與主流算法進行對比.最后對全文進行總結和討論.

2 基于優化表達的非線性激活函數

卷積神經網絡在物體識別中主要有兩個方面考慮:1) 找到更優化的非線性建模模型;2) 找到可以避免模型訓練過程的過擬合問題.從卷積神經網絡的發展來看,增加網絡非線性建模能力的同時,配合降低過擬合風險的方法.因此,本節通過解決非線性單元表達問題,從而提高網絡的非線性建模能力,同時配合正則機制降低過擬合風險.最終提升模型泛化能力和特征信息提取的目的.鑒于此,本文提出了一種參數形式統一且可學習的MPELU,并引入兩個學習的參數.它具有線性和非線性變換方法,使得該參數形式既可以表示分段線性函數,也可以表示指數非線性函數.因而它具有更強的非線性建模能力.

2.1 MPELU設計

本節定義的MPELU前向傳遞公式為:

(1)

式(1)中,α和β是該模型當中可以通過學習的參量,β>0,y代表該模型的參數輸入,i代表參數輸入的元素索引,c代表通道索引.故c∈{1,…,M}.故yi示輸入中第c個通道中的第i個元素.針對過擬合問題,本文參考PReLU(Parametric Rectified Linear Unit)[16]的方法,對這兩個參數分別設置“通道共享”和“通道獨立”.第1個模式下,輸入共用α和β,而且M=1;在第2個模式下,一樣通道輸入共用α和β.M為通道總數目個數.

MPELU利用改變βc線使得該形式在分段線性性和指數非線性函數相互切換.若βc較小,比如小于1,MPELU在yi<0內相當于線性函數.此時,它相當于PReLU.若βc較大,比如大于1,MPELU在yi<0內相當于非線性函數.MPELU函數類型可以通過αc調整得到,若αc=βc=1,它相當于ELU.此情況下若繼續減小βc,它會變成LReLU(Leaky Rectified Linear Unit).若αc=0,那么它相當于ReLU.

通過分析可知,MPELU已經包括了ReLU、LReLU、PReLU和ELU等激活函數.同時,MPELU形式上具有很強的靈活性,它可以涵蓋上述激活的有點,并且避免不足.

同時,MPELU處處可導,故αc和βc利用梯度更新數值,具體為:

top′=f(yi)+αc

(2)

(3)

(4)

(5)

(6)

式中,Σ的求和范圍為αc和βc對應的位置索引i.αc和βc對物體分類效果影響較大.本文通過大量實例總結可知,若αc=0.13或1.2,βc=1,網絡最終的識別誤差最小.

2.2 過擬合處理

由于MPELU加入了α和β,它會導致模型的過擬合問題.所以,本文對MPELU加入了α和β分別給予“通道共享”和“通道獨立”.在第一種模式中,均共享參數數,故網絡增加的參數量為網絡深度的1.5倍,可以忽略對模型訓練的影響.當為第二種模式時,各個通道內部才共享參數,不同通道不共享參數,新增參量也僅為網絡的1.5倍,對模型訓練不構成影響.因而,本文提出的激活函數不會增加模型訓練過程中的過擬合問題.相關參數優化通過L2正則實現.大量實驗證明,對模型參數使用L2正則可以提升模型泛化能力.

2.3 計算效率估計

本文所提出的參數學習方法會增加一定的計算時間.鑒于此,本文對提出的激活函數作優化操作,從而保證本文所提出的算法的計算效率較其他激活函數具有一定的優勢.首先,本文對本文提出的激活函數的后向傳遞優化.其次,本文優化python框架下的程序實現,在不同循環下分別計算獲得,不增加計算時間.為了對比相關激活函數的計算效率,本文以NVIDIA TitanX GPU為平臺,對其在python框架下網絡結構為32層網絡進行對比.

本部分對32層ReLU、PReLU、ELU和MPELU分別訓練700k次迭代,再計算單次迭代時間的平均值.具體結果如表1所示.通過表1可知,雖然MPELU引入了額外的參數,但是單次迭代所需要的平均時間與其他方法相近,甚至還有所減少.

表1 非線性激活函數計算效率對比表Table 1 Comparison table of calculation efficiency of nonlinear activation function

3 全局卷積神經網絡模型

本節提出的全局卷積神經網絡模型設計了局部特征信息和全局特征信息相融合的框架,為了準確突出細節信息,嵌入6個全局卷積模塊(Global Convolution Module,GCM)和24個邊界細化模塊(Boundary Refinement Module,BRM)到網絡架構中.

3.1 網絡結構

對于給定的圖像F,先將圖像F大小調整512×512,它是網絡的輸入模塊.再通過6個卷積塊(定義為 Conv-1 到 Conv-6)生成了相應特征圖,大小均為3×3.受全局卷積網絡[17]的啟發,本文提出了通過全局卷積模塊優化卷積塊和特征聯系.此外,本文提出的模型架構容桂加入邊界細化模塊來獲得更為豐富的邊緣信息.

全局特征圖TG通過特征圖{Ti,i=1,…,6}獲得特征信息,計算公式為:

TG=Conv(T6)

(7)

在 Conv-6塊中加入具有128特征的3個卷積層,使得T6分辨率為1×1.

(8)

(9)

(10)

3.2 全局卷積模塊

全局卷積模塊可以提升模型的物體識別,全局卷積模塊的內核較大,它有利于提取得到更多的空間特征信息,進而提升物體位置的定位精度.本文所提出的全局卷積模塊由左右兩側卷積操作構成.左側卷積操作由7×1卷積塊和一個1×7 卷積塊組成.右側卷積操作由1×7卷積塊和7×1卷積塊組成.此外,該全局卷積模塊模型的計算效率較高,它可以使得模型達到更高的計算速度.

3.3 邊界細化模塊

為了進一步提高模型定位精度,在該模型中再引入邊界細化模塊,該模塊可以提升物體的邊緣特征信息,盡可能保留更多的邊緣特征.本文所引入的邊界細化模塊是通過經典的卷積神經網絡的殘差模型得到的[18].該模塊的輸入輸出尺寸相同.

3.4 物體識別

令SM為顯著圖,GI為基準顯著圖,其計算公式如下:

(11)

式中,(wL,vL)和(wG,vG)分別為局部和全局特征圖的線性運算符.本文模型損失函數定義為交叉熵損失(用LossCE表示)和邊界損失(用LossB表示)之和,其計算公式如下:

(12)

式中αr和βr為LossCE和LossB的加權常數.其中,LossCE計算公式如下:

(13)

LossB為像素p在BT和BM的邊界損失,計算公式如下:

(14)

4 基于優化非線性激活函數-全局卷積神經網絡的物體識別算法

基于上述內容,本節構建優化非線性激活函數-全局卷積神經網絡的物體識別算法.首先通過解決非線性單元表達問題,從而提高網絡的非線性建模能力,同時配合正則機制降低過擬合風險.提出了一種參數形式統一且可學習的指數非線性單元MPELU,從而能夠表示分段線性函數和指數非線性函數,它具備更強的非線性建模能力.而后,為了改善大量重復的池化操作丟失信息的問題,本文提出了一種基于深度全卷積神經網絡模型來進行物體圖像的識別,減少大量池化操作丟失特征信息的問題.所提出物體識別算法的基本流程圖如圖1所示,它的基本步驟如下:

圖1 優化非線性激活函數-全局卷積神經網絡的物體識別算法基本流程圖Fig.1 Basic flow chart of object recognition algorithmfor optimizing nonlinear activation function-globalconvolutional neural network

1)首先對需要識別的物體圖像進行去噪或增強等處理.

2)利用本文提出的優化表達的非線性激活函數模型對卷積神經網絡進行激活并初始化,由于該函數具有很強的非線性建模能力.與其他方法相比,本文方法有較強的非線性建模能力和良好的初始化能力,并提升卷積神經網絡模型的自適應能力,從而能夠獲得更多的待識別物體的特征信息.

3)為了改善大量重復的池化操作丟失信息的問題.本文提出了一種基于優化卷積神經網絡模型進行物體識別,該模型充分利用了網絡中不同層特征圖的局部和全局信息.減少大量池化操作丟失特征信息的問題.實現更準確物體識別的目的.

4)將步驟3)的方法引入到步驟2)當中,通過步驟1)-步驟 3)建立優化非線性激活函數-全局卷積神經網絡的物體識別算法,利用該算法對相關實例進行分析,并與其他算法進行對比和分析.

5 實例分析

5.1 CIFAR100數據集實驗

為了驗證本文所提算法對物體的識別效果,本節將通過對CIFAR100數據集[19,38]進行分類識別測試,并與主流物體識別算法進行對比分析.

5.1.1 數據集及識別過程說明

CIFAR100數據集共有100個類別,每個類別包含500張訓練圖片和100張測試圖片,總共包含60000張圖像.部分示

例如圖2所示.本文利用標準數據拓展策略對CIFAR100數據集進行處理[20],具體為:首先對數據集所有圖片邊界填充3個 0像素,原圖像調整為38×38像素;再隨機裁剪,得到尺寸為32×32圖像.

圖2 CIFAR100數據集部分示例圖片Fig.2 Some example pictures of CIFAR100 data set

本實驗中所采用的深度學習模型基于Pytorch實現,在Titan-X GPU上進行訓練.深度學習模型中激活函數為本文第2部分所提出的激活函數,深度學習模型的網絡架構為第3部分提出的架構.初始學習率是0.1,模型訓練到60和100個Epoch時學習率降為其1/10,訓練共持續180個Epoch.本文所提出的模型基于隨機梯度下降法進行訓練,每個批次樣本的數量被設置為128.

5.1.2 物體識別結果與分析

利用本文提出物體識別算法與其他主流物體識別算法分別對CIFAR100數據集進行物體識別,識別結果如表2所示.

表2 CIFAR100數據集物體識別結果對比表Table 2 Comparison table of CIFAR100 data set object recognition results

通過表2可知,本文提出的基于優化非線性激活函數-全局卷積神經網絡的物體識別算法的識別精度比傳統物體識別算法、其它深度學習算法的識別精度有所提升,具有一定的優勢.具體來說,文獻[21,22]所提出的傳統機器學習方法對物體識別錯誤率分別為35.68%和32.39%.傳統機器學習方法是上述所列類別方法當中精度最低的一類.這是因為傳統機器學習方法對CIFAR100數據集的模型訓練效果較差.文獻[23-25]所提出的深度學習方法的物體識別錯誤率分別25.28%、26.52%和24.46%.它們的識別精度基本處于一個量級水平,但是文獻[23-25]所提出的方法的識別精度較傳統機器學習方法提升7%左右.這主要得益于深度學習模型能夠對大規模數據進行建模,將得到一個更為合理、可靠的物體識別模型.它表明深度學習方法適用于物體的識別.文獻[26-28]所提出的深度學習的物體識別錯誤率分別為21.95%、21.27%和21.05%.它們是物體識別精度高于文獻[23-25]所提出的深度學習方法.這是因為文獻[23-25]所提出的深度學習模型結構比較簡單,還不能完全提取獲得所有物體的特征信息.它也進一步證明了基于深度學習的物體識別模型能夠獲得比傳統機器學習方法更好的識別效果.本文所提方法錯誤率最低,僅為19.32%.這主要是因為本文所提方法較文獻[23-28]所提方法,不僅優化了深度學習模型的網絡結構,而且還改進了深度學習模型中的激活函數部分.

5.2 ImageNet數據集實驗

為了進一步驗證本文所提算法對物體的識別效果,本節將通過對ImageNet數據集[29]進行分類識別測試,并與主流物體識別算法進行對比分析.

5.2.1 數據集及識別過程說明

ImageNet數據集是用于ImageNet Large Scale Visual Recognition Challenge(ILSVRC)的子集.部分示例如圖3所示.

圖3 ImageNet數據集部分示例圖片Fig.3 Some sample pictures of ImageNet dataset

本實驗中所采用的深度學習模型基于Pytorch實現,在Titan-X GPU上進行訓練.深度學習模型中激活函數為本文第2部分所提出的激活函數,深度學習模型的網絡架構為第3部分提出的架構.初始學習率設為0.001,學習率共下降3次.訓練圖片先被調整到256×256,并裁剪至224×224,再輸入到本文提出的深度學習網絡,在模型訓練過程中不使用其它的數據增強技術.所有的測試結果均為平均準確率.

5.2.2 物體識別結果與分析

利用本文提出的算法與其他主流算法分別對該數據集進行識別,結果如表3所示.

表3 ImageNet數據集物體識別結果對比表Table 3 Comparison table of object recognition results in ImageNet dataset

通過表3可知,文獻[31-33]所提出的深度學習方法的物體識別正確率分別59.29%、59.15%和60.02%.它們的識別精度基本處于一個量級水平,較傳統的機器學習方法已有較大幅度提升,提升精度高達14%.這是因為傳統機器學習方法對包括大量樣本的ImageNet數據集的模型訓練效果較差,它直接導致實際物體識別精度低.同時,文獻[31-33]所提出的深度學習方法獲得的較高識別精度得益于深度學習模型能夠對大規模數據訓練得到一個更為合理、可靠的物體識別模型.文獻[34-37]所提出的深度學習的物體識別正確率分別為65.07%、66.31%、68.80%和69.97%.它們是物體識別精度高于文獻[31-33]所提出的深度學習方法,提升精度最少的也達到了5%.這是因為文獻[31-33]所提出的深度學習模型結構比較簡單,不能提取得到ImageNet數據集各類復雜圖片所蘊含的特征信息.同時,通過對文獻[31-33]的測試結果進行分析,可知該結果也進一步證明了基于深度學習的物體識別算法能夠得到比傳統機器學習方法更好的識別精度.本文所提方法得到物體識別正確率高達72.38%,它是所有方法當中識別精度最高的.它充分證明了本文提出的方法能夠更好地提取得到ImageNet數據集各類復雜圖片所蘊含的特征信息,進而大幅度提升物體識別準確率.

總之,傳統分類算法在物體識別任務中存在識別精度不高和穩定性差的缺點,它說明傳統物體識別方法對于物體識別效果難以進一步提升.深度學習分類算法在上述CIFAR100數據集和ImageNet數據集中的識別精度明顯地優于傳統機器學習算法,它從側面證明了深度學習模型所具有的優勢.此外,深度學習模型的物體識別算法具有很好的穩定性和魯棒性,其中,本文提出的基于優化非線性激活函數-全局卷積神經網絡的物體識別算法,相比其他提出的深度學習識別算法如Hashnet-Deep learning、Sparse CNN等,它可以得到最好的識別精度.這是因為本文提出的深度學習模型不但解決了模型網絡架構大量池化操作丟失信息問題,而且還解決了模型的激活函數問題.

6 結 論

為了更好地對物體進行識別,本文根據待識別物體特性構建性能更優異的卷積神經網絡,并提出了一種參數形式統一且可學習的MPELU,它可以進行分段線性函數和指數非線性函數的表述,提升卷積神經網絡的非線性建模能力.同時,為了減少深度學習模型中大量重復的池化操作丟失各類信息等問題,本文提出了一種全新的全局卷積神經網絡模型,該模型充分利用了網絡中不同層特征圖的局部和全局信息.它可以減少大量池化操作丟失特征信息的問題.并提出了優化非線性激活函數-全局卷積神經網絡的物體識別算法.

CIFAR100數據集和ImageNet數據集的實驗結果表明,本文所提物體識別方法識別精度最高,高達80.68%和72.38%.這是因為本文較好地解決了深度學習模型過擬合、非線性建模能力若、大量重復的池化操作丟失信息等問題.同時,本文所提物體識別方法能夠較好地對物體的特征信息進行提取,它有利于提升CIFAR100數據集和ImageNet數據集的實驗效果.所以,本文所提物體識別方法取得了最好的識別精度.但是,本文所提方法在ImageNet數據集上的識別精度低于CIFAR100數據集識別精度,這主要是因為ImageNet數據集的物體類別遠大于CIFAR100數據集,其物體類別相似度遠高于CIFAR100數據集的物體類別相似,這些信息對后續的深度學習建模訓練產生了較大影響.因而,后續的相關工作可以專門針對該類問題進行深入細致研究.

猜你喜歡
深度方法模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产va在线| 91网在线| 激情五月婷婷综合网| 最新精品久久精品| www.日韩三级| 欧美日韩激情| 亚洲精品日产精品乱码不卡| 国产欧美自拍视频| 天天摸夜夜操| 国产91丝袜在线播放动漫| 成人免费视频一区二区三区 | 91在线播放免费不卡无毒| 欧美精品aⅴ在线视频| 久久99精品久久久久纯品| 欧美一级视频免费| 19国产精品麻豆免费观看| 伊人成色综合网| 中国成人在线视频| 久久综合伊人77777| 亚洲无码A视频在线| 免费无码又爽又刺激高| 蝌蚪国产精品视频第一页| 国产日本欧美在线观看| 中文字幕丝袜一区二区| 中文字幕在线看| 波多野结衣视频网站| 色爽网免费视频| 精品伊人久久久香线蕉| 国产偷国产偷在线高清| 成人精品视频一区二区在线| 成AV人片一区二区三区久久| 国产美女免费网站| 日韩美一区二区| 男人天堂亚洲天堂| 中文字幕 91| 国产精品第5页| 四虎永久免费在线| 91福利免费| 日韩毛片免费视频| 亚洲国产精品VA在线看黑人| 日韩毛片视频| 免费不卡在线观看av| 操国产美女| 久久www视频| 久久久久国产精品熟女影院| 99热免费在线| 免费国产不卡午夜福在线观看| 台湾AV国片精品女同性| 伊人久综合| 欧美国产另类| 国产95在线 | 亚洲精品制服丝袜二区| 久久熟女AV| 久久人人妻人人爽人人卡片av| 日韩av在线直播| 日本道中文字幕久久一区| www.精品国产| 亚洲人成在线免费观看| 欧美日本在线一区二区三区| 亚洲美女高潮久久久久久久| 曰韩免费无码AV一区二区| 久久婷婷五月综合色一区二区| 亚洲国产成人精品无码区性色| 亚洲精品黄| 好吊日免费视频| 亚洲天堂啪啪| 亚洲一区二区在线无码| 欧美人在线一区二区三区| 国产欧美一区二区三区视频在线观看| 国产成人永久免费视频| 亚洲第一成年人网站| 日韩麻豆小视频| 亚洲性视频网站| 国产美女免费网站| 久久久久人妻一区精品| 日韩天堂视频| 久久久久无码国产精品不卡| 怡春院欧美一区二区三区免费| 成人在线欧美| 国产精品原创不卡在线| 在线观看视频99| 亚洲无码91视频|