999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全卷積深度學習模型的可抓取物品識別

2018-03-15 01:25:48皮思遠肖南峰
關鍵詞:深度模型

皮思遠,唐 洪,肖南峰

(華南理工大學 計算機科學與工程學院, 廣州 510006)

隨著工業4.0的發展,越來越多的工業機器人(包含末端執行器)正在替代工人進行各類生產作業,并且有效降低了生產成本[1]。目前的工業機器人大多是通過示教編程來完成一些特定的生產任務,但在實際應用中,通常需要工業機器人完成抓、握、捏、夾、推、拉、插、按、剪、切、敲、打、撕、貼、牽、拽、磨、削、刨、搓等20種生產操作。對于這些生產操作,現在通用的示教編程方法是令工業機器人在固定的軌跡空間中作業,通過工業機器人及其作業目標對象之間在時間上操作配合來完成上述生產操作。故現行的示教編程方法只適用于那些環境不確定性較低的作業任務。

工業機器人在上述20種實際應用中,核心問題是識別作業目標對象。比如,工業機器人抓取操作過程包括抓取檢測、軌跡規劃、抓取執行3個部分[2]。抓取檢測是識別作業場景中的物品或物品上的某些可抓取區域,而傳統的應用通過確保物品出現在預設位置或通過簡單的基于預設特征的視覺系統解決該問題。軌跡規劃即給出工業機器人從當前位置運動到目標位置的無障礙軌跡點。抓取執行是通過開環或閉環控制工業機器人執行軌跡規劃結果運動到目標位置。抓取檢測的本質是要對目標物品進行識別和定位,目前的主流方法是通過圖像傳感器或深度傳感器采集場景信息,利用特征算子如HOG、SIFT或粒子濾波[3-6],結合提取的不同特征與不同分類器算法等進行目標物品識別或目標分類,例如支持向量機[2]、條件隨機場和人工神經網絡等分類器算法[7]。這些算法通過提取過分割區域獲得特征向量并綜合區域內部的局部聯系給出分類結果。但同一分割區域存在不同類像素的干擾影響,且未完全考慮全局結構信息,因此很有必要利用全局信息來綜合考慮改善傳統方法。

目前,深度學習方法是機器學習中最重要的分支,表示為深度結構及復雜的多層次學習算法。研究和實踐表明:深度學習算法憑借多層結構能夠分布式學習樣本數據中的特征,在隱含層節點之間通過連接提取特征[8]。在某些關鍵任務如圖像識別、自然語言處理中獲得倍數關系于傳統機器學習算法的表現[9]。2012年Alex教授在ImageNet大規模視覺識別比賽(ILSVRC)中提出的AlexNet卷積深度學習模型在Top-5(最高5類概率)錯誤率表現為15.3%,將圖像分類水平提升到了一個新高度[10]。而其后的VGG、Inception、ResNet深度學習模型取得了90%以上的準確率,甚至超出人類專家的分類水平[11-13]。其中,基于VGG泛化出許多其他的結構,如R-CNN、Faster-RCNN等用于目標檢測[14-15]。Yolo[16]深度學習模型通過其網絡結構直接檢測物品,去掉了中間處理過程,大大加快了目標檢測速度。深度學習方法中的卷積深度學習模型對分類問題可以取得優秀的效果,但并不適合像素級的識別分割任務,因為最后全連接層的輸出維度固定會導致前端卷積層輸入緯度固定,輸入維度也被固定導致其不適合輸入圖片尺度變化。

在光學圖像語義分割問題中,有關學者提出了以全卷積深度學習(fully convolutional network,FCN)為代表的一類像素級識別分類學習模型,Long等[17]將其應用于圖像語義分割任務。全卷積神經網絡模型不同于以往的深度學習模型,它將后端全連接層去除,利用卷積神經網絡獲取的特征進行反卷積與反池化操作,以恢復出物品在像素級別的檢測結果。因為卷積操作并不限定輸入圖像的尺寸大小,從而消除了網絡輸出大小的限制,使得網絡夠適應各種大小尺寸的圖像,不需要對圖像進行尺寸規范處理,并避免了使用像素塊需要重復存儲和計算卷積的問題。由于全卷積神經網絡輸出尺寸可與輸入尺寸相同,因此適合于像素級的機器學習任務,如語義分割、圖像降噪等。

在上述基礎上,本文提出了一種改進型的基于全卷積深度學習模型的可抓取物品識別的機器學習算法,可在像素級層面上識別可抓取物品,分割可抓取物品與背景元素。相對于全卷積神經網絡,改進的方法提升了算法的識別準確性??勺ト∥锲纷R別與語義分割任務的區別在于語義分割需區別場景中各種物品,對其進行分類與確定位置,而可抓取物品識別只聚焦在工業機器人需要操作的目標對象在機器人視野中的位置,以配合工業機器人進行的后續操作。改進的算法不僅可用于可抓取物體識別,也可用于其他相關前景分割、物體定位問題。

1 全卷積深度學習模型

1.1 卷積深度學習模型

卷積深度學習模型是深度學習模型中效果突出的一類學習模型,卷積神經網絡學習模型通過將網絡層之間的全連接替換為卷積進行操作。例如,二維圖像卷積運算可表示為

(1)

式中:g表示二維卷積運算某一點的結果;f表示卷積核函數;m表示二維矩陣中以(x,y)左上角頂點的長S、寬T的區域。假設卷積神經網絡中某一層以k通道的圖像zi作為輸入,輸出為zi+1,該層共c個卷積核,用?表示二維矩陣與卷積核的運算,則卷積層運算可表示為

(2)

式(1)和式(2)表明實際卷積層通過卷積運算實現了權值共用,從而減少了大量中間權值參數的數量。并且卷積神經網絡通過在卷積運算后進行接池化操作(pooling)進一步地實現特征提取,即把二維卷積運算后提取的特征劃分到大小為m×n的不相交區域,然后對這些區域某一統計特征采樣,如平均值、最大值來獲取池化后的卷積特征。池化操作可以進一步降低網絡參數量,避免陷入過擬合狀況。卷積網絡結構如圖1所示,一般經過多層卷積層提取特征后,后端通過全連接層將卷積結果輸出為預測向量。

圖1 卷積深度神經網絡結構

1.2 全卷積深度學習模型

卷積操作可看作提取輸入不同的特征圖[18],而Zeiler等研究中提出的反卷積概念則與卷積層操作目的相反,其通過卷積運算從卷積提取的特征圖中重構原始圖像,如式(3)所示。

?fk,c

(3)

式(3)表明:反卷積可從將提取的k個特征圖z恢復原始圖像,通過學習過程調整卷積核參數。 Long等在研究中提出的全卷積深度學習模型去除VGG-16卷積神經網絡模型中最后的全連接層,將其通過反卷積操作(deconvtion)將VGG-16網絡的中間卷積層輸出的特征圖像恢復為二維語義分割圖像[17]。Long的研究實驗中還利用了VGG-16的中間卷積層結果分別給出了3種模型FCN-8x、FCN-16x、FCN- 32x,在pascal voc上超出了傳統的方法。全卷積模型結構如圖2所示。

本文針對全卷積深度學習模型的識別準確率進行改進,基于VGG16構建了13層全卷積深度學習模型,這13層網絡結構的各層如表1所示,其中每層包含若干次卷積操作,具體網絡結構模型如圖3所示。經過5層卷積層,每層卷積層后接池化層,再接2層卷積層,繼而經過5層反卷積層與反池化層輸出物品識別結果圖像。由表1可知:前6層卷積層與后6層反卷積層操作一一對應,第7層為中間過渡層,銜接卷積層與反卷積層,其中:convk-y,k表示卷積核大小為k×k;y表示使用的卷積核個數。

圖2 一般全卷積深度神經網絡結構

圖3 13層全卷積深度神經網絡結構

表1 全卷積深度學習模型結構配置

2 深度學習模型訓練方法

由于深度學習模型隨著層數加深使得模型變得難以訓練,所以Hinton教授等[7,19]于1988年提出反向傳播算法訓練神經網絡。但由于實際問題多是非凸性優化問題,隨著網絡層數加深容易陷入局部最優情況或出現過擬合情況,但基于動量的訓練算法能夠緩解這一情況[20]。為此,本研究中應用的反池化操作將對應最大池化采樣結果復原到原矩陣對應位置,并對余下位置進行線性插值填充。傳統的多層神經網絡由于采用Sigmoid函數而導致反向傳播時梯度發生彌散。Sigmoid激活函數及其導數表示為式(4)和式(5),式(6)為深度學習模型中權值更新方式。

(4)

f′(x)=f(x)(1-f(x))

(5)

wt=wt-ηL(Zn,wt)

(6)

式(6)中:L′(Z,wt)表示誤差函數對wt求導;wt表示第t層深度學習模型的權值;Z為深度學習模型每一層輸出;Zn為深度學習模型最終輸出。根據反向傳播方程鏈式法則,結合式(3),誤差函數L對中間層權值求導表示為式(7)和式(8)。

L′(Z,wt)=L′(zn,zn-1)f′(zn-1,wt)

(7)

f′(zn-1,wt)=f′(zn-2)(1-f′(zn-2)wn-1…f′(zt-1,wt)

(8)

當Sigmoid激活函數在趨近0或1時,梯度趨向于0,導致多層神經網絡前段神經單元得不到反饋激勵,即導致梯度彌散現象。限制性線性單元(rectified linear units,Relu)[21]是一種新的激活函數,表示為

(9)

Relu激活函數的梯度恒定(0或1),當x=0,定義其梯度為0,這一特性使其避免深度學習模型反向多層傳播導致梯度發生彌散現象,能使深度學習模型更快收斂,且Relu函數的一端為0,可以得到單側抑制,這與生物學神經元研究符合,并能使傳遞數據變得稀疏。

本研究提出的全卷積深度學習模型使用Relu函數作為網絡層中的激活函數。另在本文第3節的實驗中使用滑動平均權值更新方式,權值更新方式為

wt=awt+(1-α)(wt-ηL′(zn,wt))

(10)

與普通的權值更新方式相比,通過增加超參數α能夠控制權值變化速度,提高模型健壯性。并且通過對網絡輸出結果進行聚類分析,以最多分類像素點代表的物體表示前景物體,可得到最終識別結果。

3 試驗結果及分析

3.1 實驗數據與步驟

本文實驗所使用的測試數據為康奈爾抓取數據集(cornell grasping dataset,CGD),該數據集包含了281種生活中常見的物品,例如杯子、剃須刀、剪刀等,如圖4所示。數據集總共為1 034張圖像,每張圖像大小為640像素×480像素。由于原始圖像不包含物品標注信息。故需要對數據進行預處理,數據集中提供背景圖像信息。直接去除背景會導致存有陰影,因此需要手動對圖像進行精細處理,將圖片變換為以某一顏色指代物品與黑色指代背景的分割圖像,數據集處理流程如圖5所示,其中圖像與背景相減結果對應圖6(a);去除孤立像素,并手動去除陰影區域的結果對應圖6(b);分配圖像中物品特定顏色結果對應圖6(c)。數據預處理后,利用數據增強方法,以圖像為中心順時針旋轉5°,15°與-5°,-15°增加4倍數據,并通過以圖片中心截取邊界20像素與40像素,最后將樣本增大至8 272份樣例。

圖4 康奈爾抓取數據集中的樣例

本文研究的實驗基于Tensorflow框架,采用Linux系統作為運行平臺,在配置為intel I7 CPU,Nvidia Gtx1080 GPU,32 G內存的硬件平臺上進行試驗。預先使用Imagenet數據集對以前7層卷積層與3層全連接層組成的卷積神經網絡進行預訓練,學習大量物品的真實特征。之后將網絡后端的全連接層改為本模型中的5層反卷積層,以及本實驗提出的改進型全卷積深度學習模型,在康奈爾抓取數據集進行參數調整(fine-tuning)。

圖5 數據集處理流程

圖6 物品分割處理結果

3.2 結果分析

首先進行FCN-8x、FCN-16x、FCN-32x在預處理后的數據集上實驗。針對3種全卷積深度學習模型分別訓練選擇最佳的結果,與本文提出的全卷積物品識別深度學習模型算法進行對比實驗,結果如表2所示。本文研究利用的評判標準為像素分類的準確率,表示為

(11)

式中:ti表示為i類像素總數量;ni表示為分類為i類的i類像素數量。最終各模型的預測像素類別準確率如表3所示。由于每個測試用例包含單一的物體,因此前景準確率、背景準確率的計算方法都為式(11),而總準確率表示為

(12)

式中:f表示前景物物品像素;b表示背景像素。實驗結果表明:相對于FCN-8X只利用一次反卷積層,增加反池化層與反卷積層能夠使物品識別的準確率進一步提升,由于背景像素占圖片比例較大,可以看出背景區域的錯誤率較低,而由于物品形狀各異,識別屬于物品的像素比較困難。由表3所示的實驗結果可知:本文提出的模型相對FCN-8x的整體效果由71.2%上升到77.4%,提升了6.2%,且實驗結果也表明局部區域更加貼合數據樣本。

表2 模型預測結果

表3 模型準確率表現

4 結束語

本文引入和改進了全卷積深度學習模型用于解決可抓取物品的識別問題,對于已有的FCN-8x、FCN-16x、FCN32x進行試驗,并考慮其不足,提出了改進的全卷積深度學習模型用于可抓取物品識別,應用插值方式進行反池化操作,可以有效地改進像素級的物品識別準確率,將分類結果提升了3.8%,圖像細節信息得到改善。此方法不僅適用于可抓取物品識別領域,而且還可應用于其他像素級物品檢測問題。本文的后續工作將在不斷提高識別準確率的基礎上進一步提高時間效率。

[1] 王田苗,陶永.我國工業機器人技術現狀與產業化發展戰略[J].機械工程學報,2014,50(9):1-13.

[2] SAXENA A,DRIEMEYER J,KEARNSs J,et al.Learning to grasp novel objects using vision[M]//Experimental Robotics.[S.l.]:Springer Berlin Heidelberg,2008:33-42.

[3] 戰強,吳佳.未知環境下移動機器人單目視覺導航算法[J].北京航空航天大學學報,2008,34(6):613-617.

[4] 張雪華,劉華平,孫富春,等.采用 Kinect 的移動機器人目標跟蹤[J].智能系統學報,2014,(1):34-39.

[5] 王修巖,程婷婷.基于單目視覺的工業機器人目標識別技術研究[J].機械設計與制造,2011,(4):155-157.

[6] 胡仕玲,顧爽,陳啟軍.基于HOG的物品分類方法[C]//中國智能機器人學術研討會論文集.深圳:北京大學深圳研究生院,2011.

[7] ROSENBLATT F.The perceptron,a perceiving and recognizing automaton project para[M].New York:Cornell Aeronautical Laboratory,1957.

[8] BENGIO Y.Learning deep architectures for ai.foundations and trends R in machine learning [J].Cited on,2009,2(1):1-127.

[9] LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.

[10] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems.USA:[s.n.],2012:1097-1105.

[11] SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014(4):1409-1556.

[12] SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[C]//Computer Vision and Pattern Recognition.[S.l.]:IEEE,2015:1-9.

[13] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.[S.l.]:IEEE,2016:770-778.

[14] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.USA:IEEE,2014:580-587.

[15] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.

[16] REDMON J,FARHADI A.YOLO9000:better,faster,stronger[Z].2016.

[17] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(4):640-651.

[18] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[19] RUMELHART D E,HINTON G E,WILLIAMS R J.Learning internal representations by error propagation[J].Readings in Cognitive Science,1988,1:399-421.

[20] SUTSKEVER I,MARTENS J,DAHL G,et al.On the importance of initialization and momentum in deep learning[C]//International Conference on International Conference on Machine Learning.2013:1139-1147.

[21] GLOROT X,BORDES A,BENGIO Y.Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics.USA:[s.n.],2011:315-323.

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产女人18水真多毛片18精品| 搞黄网站免费观看| 国产浮力第一页永久地址| 成人免费午间影院在线观看| 国产69精品久久久久孕妇大杂乱 | 久久综合亚洲鲁鲁九月天| 在线亚洲小视频| 国产乱码精品一区二区三区中文| 黄色a一级视频| 日韩大乳视频中文字幕 | 亚洲第一视频区| 成人精品亚洲| 亚洲AⅤ永久无码精品毛片| 一本色道久久88综合日韩精品| 成人午夜免费观看| 国产成人成人一区二区| 毛片网站观看| 亚洲国产综合精品中文第一| 国内熟女少妇一线天| 亚洲欧美日韩精品专区| 国产一区二区三区夜色| 国产欧美中文字幕| 黑人巨大精品欧美一区二区区| 综合色天天| 国产99视频在线| 91精品久久久无码中文字幕vr| 亚洲国产成人在线| 午夜福利亚洲精品| 九色91在线视频| 日韩无码黄色| 中字无码精油按摩中出视频| 欧美日本在线一区二区三区| 不卡午夜视频| 伊人久久久大香线蕉综合直播| 欧美、日韩、国产综合一区| 国产激情影院| 人妻丝袜无码视频| 国产视频欧美| 五月婷婷综合网| 1769国产精品免费视频| 亚洲综合狠狠| 国产91麻豆视频| 色噜噜狠狠色综合网图区| 欧美一级在线| 日本一区二区三区精品AⅤ| 国产青榴视频| 成人在线第一页| 伊人久久久久久久| 伊人婷婷色香五月综合缴缴情| 久久窝窝国产精品午夜看片| 久久综合伊人 六十路| 亚洲国产综合自在线另类| 亚洲精品日产精品乱码不卡| 国产免费久久精品99re不卡| 欧美成人精品高清在线下载| 国产美女在线观看| 成人在线视频一区| 欧美精品H在线播放| 无码免费视频| 欧美激情视频一区| 欧美黄网在线| 亚洲av无码牛牛影视在线二区| 国产自在自线午夜精品视频| 成人国产小视频| 亚洲中文无码h在线观看 | 国产丝袜丝视频在线观看| 日韩高清欧美| 日韩国产亚洲一区二区在线观看| 亚洲欧美日韩动漫| 97久久超碰极品视觉盛宴| 一级爱做片免费观看久久| 视频一区视频二区中文精品| 亚洲水蜜桃久久综合网站 | 国产欧美视频综合二区| 国产主播在线一区| 午夜视频日本| 国产欧美视频在线| 狠狠操夜夜爽| 四虎永久免费在线| 中文字幕精品一区二区三区视频| 国产主播福利在线观看| 国产丝袜无码精品|