999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習水果檢測的研究與改進

2020-02-19 14:08:34黃豪杰段先華黃欣辰
計算機工程與應用 2020年3期
關鍵詞:特征檢測模型

黃豪杰,段先華,黃欣辰

江蘇科技大學 計算機學院,江蘇 鎮江212000

1 引言

隨著近年來人工智能技術的應用越來越多,計算機科學技術在日常生產活動中的應用越來越多,如無人車技術、智能監控系統、人臉識別[1]等應用領域,這些利用計算機圖像處理技術對目標進行檢測和監控越來越流行。目標檢測是計算機視覺的基本問題,但在自然環境中,水果的目標檢測存在以下挑戰:水果被枝葉遮擋或分割,果實之間相互重疊,光照不均勻帶來的一系列影響。近年來,許多研究已經提出了許多水果檢測和識別算法來解決上述問題。

Wshcs等[2]利用彩色相機來獲取果樹上綠色蘋果的彩色圖像,然后利用熱圖像來分析特征組合實現檢測,但是利用熱圖像的方法只能在陽光直射的情況下進行;Si等[3]通過利用基于面積特征和極線的匹配算法實現了蘋果目標的定位,但是果實的震蕩具有隨機性和復雜性,將會導致識別與定位的準確性降低;Ji等人[4]采用支持向量機對紅蘋果進行識別,識別率高達97%,但為了得到更好的模型,需要使用監督學習提取有效樣本;Rocha等[5]完善了IBM團隊開發的果蔬識別系統,采用監督學習方法,利用水果的顏色特征和分類器結合技術,識別率很高但是只對15類水果取樣。水果在自然環境下檢測的難度不僅是水果圖像獲得困難,分析提取水果圖像中組合特征也有固定性,因此上述傳統水果檢測方法不被廣泛使用,實用價值不大[6]。

隨著云時代的到來,卷積神經網絡(Convolutional Neural Network,CNN)[7]架構出現了分類和識別,對圖像識別精度做出了標志性貢獻。Liu等人[8]提出了一種基于CNN的SSD(Single Shot Detector)方法,用于深度學習對象的識別和檢測,在保證準確性的同時實時性也得到了加強。本文以蘋果、橘子、荔枝三種水果作為研究對象,對自然環境下水果識別檢測進行研究,將SSD訓練使用的VGG16網絡替換為深度殘差網絡ResNet-101[9],并利用FPN[10]將高層特征通過上采樣與低層特征進行自頂向下的連接,且每一層都會獨立預測,以此來提升自然環境下水果識別的精度和魯棒性。

2 深度學習SSD經典模型

SSD是一個基于前向傳播CNN網絡,從Conv4_3開始利用多級特征圖的組合作為分類和回歸的依據,以此達到多尺度特征預測的效果。SSD模型最開始主網絡是由VGG16[11]中部分卷積層組成并將最后兩層的Conv6和Conv7換成全連接層,用于圖像分類。隨后添加4個額外卷積層,卷積層大小遞減,完成多尺度下預測。SSD300框架如圖1所示,輸入圖像為300×300。

SSD中的默認框和Faster-rcnn錨(anchors)機制[12]類似,對不同尺度的特征圖使用不同大小和橫縱比的默認框。假設本文以m個特征圖做預算,那么默認框的大小計算公式:

式中,smin=0.2;smax=0.95,表示最底層的大小為0.2,最高層的大小為0.95。

同時,SSD采用默認框機制,對于同一特征層上的特征單元采取幾個不同的縱橫比,增強模型對不同物體形狀的魯棒性,記為ar={1,2,3,1/2,1/3},對于縱橫比等于1這一類,它的。對于Conv4_3,Conv10_2,Conv11_2不使用3,1/3的縱橫比,則:

圖1 SSD模型結構

圖2 改進的SSD模型結構設計

其中(cx,cy)為第k層特征層上某一個默認框的中心坐標;(wfeature,hfeature)為特征層上的寬和高;(wimg,himg)為原始圖像的寬和高。(xmin,xmax),(ymin,ymax)分別是該默認框對應到原圖上的目標框的左上角和右下角坐標。每個默認框需要預測c個類別的得分(score)和4個物體位置相對于邊界框的偏移量(offset),設一個特征圖的大小是m×n,則每個默認框表示類別的概率的置信度有c×k×m×n個輸出,;每個默認框回歸后坐標有4×k×m×n個輸出,那么這個特征圖一共有(c+4)×k×m×n個輸出。

3 改進的SSD模型

3.1 改進模型結構設計

經典的SSD模型無法完全提取圖像目標的特征。當特征層進行融合時,VGG16網絡結構的Conv4_3卷積層用于進行特征融合以預測小目標。以這種方式,會出現包含在低級卷積特征層中的語義信息不夠的問題。隨著網絡深度的加深,提取的特征不足,精度降低。為了克服SSD模型本身的缺陷,本文將基礎網絡模型替換為深度殘差網絡Resnet101并利用FPN將高層特征通過上采樣與低層網絡提取的特征進行融合,改進后檢測模型結構如圖2所示。

3.2 基于深度殘差的網絡結構

為減少網絡深度增加帶來的梯度彌散或梯度爆炸以及網絡層數增加引起的訓練集精確率下降等影響,本文將經典SSD模型中的VGG基礎訓練網絡替換為深度殘差網絡ResNet101,解決隨著網絡加深準確性下降的問題。

假定某段神經網絡的輸入的是X,期望輸出是H(X),直接將輸入X傳到輸出作為初始結果,此時需要學習的目標是F(X)=H(X)-X。如圖3所示,是深度殘差網絡的一個殘差學習單元,相當于將學習目標改變,不再是學習一個完整輸出H(X),只是輸入和輸出的差別H()X-X,即殘差。簡言之就是增加一個恒等映射,把原始所需要學習的H(X)轉化成F(X)+X。深度殘差網絡的核心思想是將一個復雜多元的問題拆分成多個尺度直接的殘差問題,對網絡模型的訓練起到很好的優化加速效果,即使網絡不斷加深,準確率也不會下降。

圖3 殘差學習單元

殘差單元通過恒等映射的引入在輸入和輸出之間建立了一條直聯通道,從而使得有參層集中學習輸入和輸出之間的殘差。用F( )X,Wi來表示殘差映射,當輸入和輸出維道相同時,那么輸出即為Y=F( )

X,Wi+X。當輸入維度與輸出維度不相同時,需要添加一個線性投影Ws來匹配維度,如下式所示:

3.3 特征金字塔網絡

在引入ResNet101網絡之后,為避免經典SSD模型中低層網絡語義信息不夠而導致提取的特征使用不充分,對小物體檢測效果較差這一問題,本文利用特征金字塔網絡(FPN)來搭建檢測模型。FPN是將高層特征通過上采樣與低層網絡提取的特征進行融合,網絡的每個層都是獨立測試的。圖4展示了傳統SSD模型和改進的SSD模型的利用特征形式。

圖4 特征形式比較圖

本文使用的主要網絡是Resnet101,將特征金字塔分成三個部分,一個自底向上的路徑、一個自頂向下的路徑和中間連接的部分,如圖5所示。

圖5 特征金字塔路徑結構圖

自底向上的路徑:自底向上的路徑是卷積網絡的前饋計算,該算法計算由不同比例的特征映射組成的特征層級。具體到這個改進網絡,本文使用conv3_x這個原始resnet101中的卷積層和后面擴展的三層SSD卷積層,將這些特征輸出表示為{C3,C6,C7,C8}。

自頂向下的路徑:自頂向下的路徑是將高層網絡上的更強的語義特征通過上采樣的方式來強化低層網絡上高分辨率的特征圖。接著通過橫向連接自底向上的路徑,增強高層特征。每個橫向連接自底向上路徑和自頂向下路徑的特征圖具有相同的尺寸。將低分辨率的特征圖做2倍上采樣(為了簡單起見,使用最近鄰上采樣)。然后通過按元素相加,將上采樣映射與相應的自底而上映射合并。這個過程是迭代的,直到生成最終的分辨率圖。

為了開始迭代,只需在C8上附加一個1×1卷積層來生成低分辨率圖P8。最后,為了減少上采樣引起的混疊效應,需要在每個合并的圖上額外添加一個3×3卷積來生成最終的特征映射。這個最終的特征映射集稱為{P3,P6,P7,P8},分別對應于{C3,C6,C7,C8},它們具有相同的尺寸。

4 模型訓練和結果分析

4.1 實驗工具

本文實驗是在深度學習架Caffe[13]框架下進行的,因此首先是對電腦的運行環境完成配置。實驗所需要的環境以及相對應的軟硬件設備:采用Ubuntu 16.04、Caffe、CPU為Intel Core i9-6700、GPU使用的是NVIDIA GeForce GTX 1080、顯存12 GB、內存128 GB、CUDA 8.0版本以及對應的CUDNN 5.1版本的深度神經網絡加速庫。

4.2 基于實驗數據與預處理

實驗所需要的水果圖片是由部分網上下載的圖片和在果園實地拍攝的圖片,為減小深度學習訓練運行時龐大計算量,先對實驗圖片進行預處理縮放后,在簡單縮放中,本文的目的是通過對數據的每一個維度的值進行重新調節(這些維度可能是相互獨立的),使得最終的數據向量落在[0,1]或[-1,1]的區間內,然后按照PASCAL VOC[14]數據集格式制作,分成互斥的訓練集、測試集和驗證集三部分,如表1所示。數據集制作過程中使用labelImg來標注圖片,每張圖片標注完成后會生成.xml文件20,生成的文件中包含標注框中四個角的真實坐標位置,可以表示為感興趣區域四元組參數(xmin,ymin,xmax,ymax),部分數據仿真圖如圖6所示。

表1 水果數據集

圖6 數據集制作圖

在評估模型的準確性時,根據輸出框和標簽框的符合率確定匹配分數,為網絡模型提供預定義的輸出。一般來說,一個比較成功的神經網絡需要大量的參數。神經網絡的許多參數都是數以百萬計的,這些參數可以正確工作,需要大量的數據進行訓練。在實際情況中,數據并沒有實際想象的那么多。因此通過使用額外的合成對數據進行修改,并訓練所需的神經網絡。常用的數據增強方法包括裁剪、平移、顏色抖動和水平翻轉等。本文因數據采集較少,采用水平翻轉的數據增強方法來驗證改進SSD模型的泛化能力。

本文采用的是端到端的檢測模型,用于自然環境下的水果識別檢測中,因為待訓練的數據集較小并且與ImageNet[15]數據集相似,利用遷徙學習[16]來訓練該檢測模型,這樣大大節省了新模型損失值收斂時間。為了更加直觀顯示深度卷積神經網絡的運作,本文將特征提取層做可視化操作,圖7所示是根據經典SSD512模型得到的卷積Conv4_3層。Conv4_3層是該模型特征提取的第一層,可以看出檢測水果的外貌特征,經過多層的卷積語義表達之后可以得到水果的目標區域。

4.2.1 實驗模型設計

實驗中,經典SSD512模型檢測效果并不理想,和預期的識別精度相差較多,出現漏框和誤框等情況。精度不高,泛化性不強是經典SSD模型出現的問題針對以上問題,本文按照之前的改進方法,將VGG輸入模型替換為ResNet-101,并按照特征金字塔網絡搭建網絡,并對數據增強后進行精度對比。

4.2.2 實驗模型訓練參數設置

圖7 SSD512檢測實例圖

為了節省訓練時間及加快收斂速度,本文將與預訓練好的SSD網絡的底層結構權值參數共享。使用隨機梯度下降算法,學習動量設為0.9,初始學習率設為10-3,權重衰減為5×10-4,批處理尺寸為32。前5×104次迭代學習率不變,后5×104次迭代學習率設為10-4。將訓練得到的權重作為本文初始權重。

在訓練過程中,正樣本的數量遠遠小于負樣本數量,導致訓練出的分類器效果不好。因此使用困難樣本挖掘(Hardnegative mining)[17],將其中得分較高的假陽(false positive)負樣本挖掘出,放入網絡再次訓練,提高分類器判別假陽性的能力。

4.2.3 評價指標

目標檢測模型中常用的度量指標mAP[18](mean Average Precision),是用來評估模型檢測精度。計算mAP之前,首先要計算數據集里每個類別的平均精度,即

式中,T為數據集中含有所需檢測類別的所有圖像數目,k表示數據集中目標對象的總數量。若第n個目標是所檢測目標對象,則Mn為1,反之則Mn為0。Tn表示為前n張圖像中所含檢測目標對象的個數。

得到所有類別的平均精度后,求它們的平均值,即mAP。mAP值越大,代表模型檢測精度越高,相反則越低。

4.3 結果分析

為了證明特征金字塔的效果,本文將以下三種網絡進行比較,分別是刪除自上而下路徑的網絡(低層特征)、刪除了橫向連接的網絡(上采樣特征)以及采用生成的最后一層做預測,本文以SSD512座位區基礎網絡模型,mAP(平均精度)作為評判標準,基于本文的水果數據集作為實驗對象,在C8上附加一個1×1卷積層來生成低分辨率圖P8的網絡即刪除自上而下連接采用最后一層與預測;每個合并的圖上額外添加一個3×3卷積來生成最終的特征映射即完整路徑下的FPN網絡,實驗結果如表2所示。

表2 FPN網絡實驗對比

FPN是將高層特征通過上采樣與低層網絡提取的特征進行融合,上采樣特征、低層特征、特征融合部分仿真結果如圖8所示。

圖8 特征預測對比

表3和圖9為本文提出不同網絡SSD模型檢測得到的對比結果。從表中得到的數據可以看出,經典SSD模型的檢測精度不如改進后SSD模型。從實驗得到的結果圖來看,經典SSD模型在對小物體進行檢測時容易出現漏框,誤框等情況,而改進后的模型相較于經典SSD模型有較為顯著的提升。

表3 不同SSD網絡模型檢測對比%

同時本文也繼續對改進模型的收斂性做出驗證,在數據集上進行損失分析。損失(Loss)函數隨迭代次(Steps)數的變化曲線如圖10所示。通過比較經典SSD和改進SSD的損失曲線圖可以看出,雖然改進SSD在起始階段損失值略微大于SSD,但是隨著迭代次數的增加其模型迅速收斂,并隨著迭代的進行而穩步降低直到趨于穩定。

圖9 改進前后SSD512模型檢測對比

圖10 損失曲線圖

經典SSD模型對小目標不能取得較好檢測結果的原因SSD是一種基于全卷積的網絡的檢測器,使用不同網絡層來提取不同大小物體的特征。這中間有個矛盾,低層網絡的特征圖大,但語義不夠;高層網絡的語義夠了,但經過模型中較多降維的池化層,使得獲得的特征圖變小。要檢測小物體,需要在網絡模型中充分使用較低層網絡,獲得更充分的特征來實現在特征圖上完成更加精密的采樣,同時也需要高層網絡的語義信息來完成對檢測目標的特征描述。而改進后的模型將基礎網絡模型替換為深度殘差網絡ResNet-101并利用FPN將高層特征通過上采樣與低層網絡提取的特征進行融合,充分利用低層網絡的特征提取和高層網絡的語義信息,通過改進來提高小目標檢測精度。

深度學習算法需要大量的訓練數據,由于受特定背景環境和實驗設備帶來的限制,本文并沒有收集不到太多的數據源。為了增加實驗的泛化性和魯棒性,沿著水平方向翻轉圖像,擴大數據集。數據集經數據增強[19]后,將原有的圖像數據沿水平方向翻轉,擴展了數據集數量,圖11是在水果訓練集和測試集上訓練得到的損失曲線圖,通過實驗觀察,測試集從起始階段就具有較低的損失,同時隨著迭代的進行,雖然測試集上的損失值始終略低于訓練集。但是測試集和訓練集的損失曲線具有相同的趨勢,且最終穩定在一定區域。可見改進SSD模型在保持了檢測精度和收斂性能的同時具有較高的魯棒性。

圖11 訓練/測試損失曲線圖

該操作后的檢測結果如表4中所示。由表中數據所示,經數據增強后的數據集,對網絡的檢測精度都有提升。改進后SSD300模型檢測精度提高了0.24%,SSD512模型檢測精度提高了0.21%。數據增強后的改進模型平均檢測精度可達至83.29%和84.45%,有效減少了網絡過擬合的問題,通過數據增強這一技巧獲得的網絡模型泛化能力更強,能更好實現相關應用場景下的適用。

表4 數據增強后不同SSD模型檢測對比%

5 結束語

提出了一種基于改進SSD深度學習模型水果檢測的研究。本文以蘋果、橙子、荔枝作為研究對象,自然環境為下研究背景。首先將經典SSD模型中的基礎訓練網絡VGG替換成能隨著網絡加深精度不下降的ResNet-101網絡,接著在改進底層語義信息的方法利用特征金字塔網絡的方式搭建網絡模型,進而將在大數據集上(ImageNet數據集)訓練好的權重參數賦值給改進的模型,完成對目標水果檢測模型的訓練。最后通過數據增強的技巧,將檢測精度提再次提升。實驗數據表明:改進的SSD300和SSD512兩個模型在精度上比經典SSD模型提高了2.47%和3.41%,驗證了本文提出的改進方法的有效性。接下去要對已改善的模型進行更大數據集的訓練與時效性的實驗,希望對水果的自動采摘化進行進一步的研究。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 日本免费一级视频| av一区二区三区高清久久| 亚洲91精品视频| 久久久久九九精品影院| 多人乱p欧美在线观看| 国产aⅴ无码专区亚洲av综合网| www.亚洲一区| 亚洲精品免费网站| 亚洲最大福利网站| 先锋资源久久| 国产乱人伦精品一区二区| 色男人的天堂久久综合| 亚洲天堂区| 欧美精品综合视频一区二区| 九九九九热精品视频| 老司机午夜精品视频你懂的| 国产亚洲现在一区二区中文| 久久窝窝国产精品午夜看片| 国产成人麻豆精品| 国产簧片免费在线播放| 女人18毛片水真多国产| 国产成人综合日韩精品无码首页 | 毛片网站观看| 欧美日韩国产系列在线观看| 中文国产成人精品久久一| 免费A级毛片无码免费视频| 日韩欧美91| 青青国产成人免费精品视频| 天天干天天色综合网| 午夜视频在线观看区二区| 中文字幕在线观看日本| 国产一区二区三区在线观看免费| 国产日韩欧美一区二区三区在线 | 欧美有码在线| 在线观看国产精品日本不卡网| 国产99在线| 国产男人的天堂| 在线播放真实国产乱子伦| 日韩精品无码不卡无码| 久久精品女人天堂aaa| 亚洲Av激情网五月天| 日韩人妻精品一区| 日本欧美一二三区色视频| 亚洲国产中文精品va在线播放| 高清大学生毛片一级| 妇女自拍偷自拍亚洲精品| 欧美成人综合视频| 日本免费a视频| 国产又大又粗又猛又爽的视频| 午夜福利免费视频| 色久综合在线| 国产三级国产精品国产普男人| 亚洲欧美综合另类图片小说区| 国模极品一区二区三区| 亚洲熟妇AV日韩熟妇在线| 91精品国产丝袜| 日韩在线欧美在线| 日韩高清一区 | 尤物成AV人片在线观看| 最新精品国偷自产在线| 欧美.成人.综合在线| 色妞永久免费视频| 精品在线免费播放| 国产流白浆视频| 亚洲va在线∨a天堂va欧美va| 国产精品自在在线午夜区app| 呦视频在线一区二区三区| 久久精品免费国产大片| 91小视频在线观看免费版高清| 在线看片中文字幕| 午夜日本永久乱码免费播放片| 日韩AV手机在线观看蜜芽| 激情国产精品一区| 亚洲欧美日韩成人高清在线一区| 国内毛片视频| 国产高清自拍视频| 欧美劲爆第一页| 人妻丰满熟妇αv无码| 日韩毛片在线播放| 日韩天堂在线观看| 久一在线视频| 亚洲有码在线播放|