張茹,張奮楠,周星宇,2,俞經虎,2*
1(江南大學 機械工程學院,江蘇 無錫,214122)2(江蘇省食品先進制造裝備技術重點實驗室,江蘇 無錫,214122)
近年來,隨著國民膳食結構的改變和人們對健康飲食的重視,食品安全健康問題逐漸得到關注,牛肉營養豐富且口感隨部位及烹飪方法的不同呈現多樣化,可適應不同飲食愛好者需求[1]。但因外界環境及微生物酶作用,生鮮牛肉在生產、流通及存儲中易出現新鮮度下降甚至變質的問題[2],這不僅對生產企業造成重大損失,嚴重則會影響食用者身體健康,因此對生鮮牛肉冷藏時間進行高效準確識別的研究尤為重要。
傳統的圖像識別方法通過對圖像中尺寸不變特征變換[3]、方向梯度直方圖[4]、顏色和紋理等特征進行提取來實現圖像識別,在此基礎上部分學者使用多種特征組合表達圖像[5]。如馬佳佳等[6]提出一種基于支持向量機的蟲害圖像識別方法,模型對復雜背景下的蟲害圖像識別準確率為93%。隨著對圖像識別任務要求的提高,傳統圖像識別方法效率不高、泛化能力不強等弊端也逐漸突出。于是學者們開始將卷積神經網絡應用于圖像識別檢測,卷積神經網絡的卷積層可自行提取圖像特征以達到分類效果,泛化能力和自學能力較強,多應用于人臉識別[7]、語音識別[8]等領域,便利人們的日常生活。目前卷積神經網絡在食品領域得到了廣泛應用,可實現食品外形尺寸高效識別,如樂萬德等[9]設計基于機器視覺的西紅柿尺寸分級檢測算法,對具有陰影干擾的西紅柿尺寸測量準確度達到95%以上。但面對圖像顏色紋理高相似的情況,時卷積神經網絡的識別效果有待改進,如肖旺等[10]使用卷積神經網絡檢測鴨蛋表面缺陷,對比實驗中AlexNet模型的準確率為85.43%。故在卷積神經網絡基礎上,學者將可重疊混淆樹[11]、多通道融合[12]等概念引入神經網絡模型,進行模型結構的優化或訓練機制的改進來提高準確率,如徐文龍[13]使用雙分支深度融合卷積神經網絡對不同品質紅棗的整體分類識別準確率達到了99.3%,相比于對比實驗中的LeNet、AlexNet、SqueezeNet模型提升了4%~13%。
結合傳統圖像識別和卷積神經網絡圖像識別已有成果分析可知:(1)依靠人工提取圖像特征的識別方法,由于數據誤差及數據表述信息量有限,識別準確率通常在75%~90%[14];(2)采用圖像分割和神經網絡模型相結合的算法需要依賴大量的手工處理圖像信息,增加了實驗的額外成本;(3)目前大多數食品識別檢測研究都是基于西方圖像數據集,如PFID[15]和Food-101[16],這些圖像集在特定場景中拍攝,目標物品的區分度高且背景簡單,難以適應現實場景復雜圖像區分要求,特別是對食品圖像的細粒度識別要求[17]。
針對以上問題,對于本研究保證在一般生活場景下進行生鮮牛肉的存儲、圖像拍攝,根據GB 20799—2016《食品安全國家標準 肉和肉制品經營衛生規范》中對于冷鮮肉的定義:畜禽屠宰后經過冷卻工藝處理并在經營環境過程中環境溫度始終保持0~4 ℃,且冷鮮肉在0 ℃存儲環境下約在5~6 d發生變質,變為二級新鮮度[18],故采集了在冰箱0 ℃的環境下,存儲了0、1、2、3 d的生鮮牛肉樣本圖像,利用Tensorflow框架搭建基于GoogLeNet神經網絡的改進模型,實現生鮮牛肉冷藏時間的識別。
用于本實驗的樣本肉品于上午6∶00在生鮮超市購得,樣本選取不考慮是否注水等背景因素。選取新鮮黃牛后腿肉350 g,將其切成100塊大小厚度為60 mm×50 mm×20 mm的規整均勻切片,按序放置在干燥清潔的冰箱托盤上,冷藏過程中使用保鮮膜封存并清空冰箱其他物品,保證冰箱溫度的同時避免冰箱中其他氣味對樣品的影響。實驗采集時間為上午6∶30,2次檢測間隔時間為24 h,每個時間點采集100張,共400張原始生鮮牛肉圖像作為后續分析處理對象,圖像樣本示例如圖1所示。

圖1 圖像樣本示例
硬件的選擇以及圖片采集環境直接影響到圖片的質量以及機器視覺算法的難易程度,為提高圖片采集的質量,使用工業相機和鏡頭將目標轉換為圖像信息,為規避不均勻光源的影響,采用前向照明和背光照明相結合的方法設置光源位置。如圖2所示,圖示采集系統由傳輸設備、上光源、攝像頭、支架、下光源構成。其中攝像頭型號為EF 50 mm f/1.8 STM(Canon)。

圖2 圖像采集系統
GoogLeNet結構如圖3所示,主要由前端3個卷積層、9個Inception模塊、1個全連接層、1個主分類器以及2個輔助分類器構成。相比于VGG模型,其在保證網絡深度和寬度的同時優化了參數量和計算量[19],可將目標識別錯誤率降低到6.67%,綜合來說性能更為優越,目前主要運用于醫療影像領域[20],在食品領域鮮見報道。

圖3 原始模型結構圖
Inception是構成模型的基礎模塊,本文采用的Inception模塊結構如圖4所示,分別在3×3卷積層和5×5卷積層前、3×3池化層后加入1×1卷積層[22],通過1×1的卷積層達到降維減少參數和削參降維的目的,卷積計算如公式(1)所示:

圖4 Inception結構圖[21]
(1)


(2)
式中:i為神經元輸入,R(i)為神經元輸出。
本文以GoogLeNet V1為原始模型,由于本實驗圖像背景簡單易區分,故簡化模型結構。如圖5所示,將前3層卷積層縮減為1個卷積層,Inception模塊個數縮減為7,并將結構簡化后的模型命名為GoogLeNet-M,以此模型開展生鮮牛肉冷藏時間的識別研究。

圖5 GoogLeNet-M結構圖
模型的搭建與訓練在江南大學高性能工作站上進行,工作站操作系統Windows 10,采用Anaconda3、Python3.5、PyCharm2019進行環境的配制,使用TensorFlow框架進行模型搭建。
1.4.1 圖像數據的預處理與增強技術
圖像預處理包括對像素的重新定義使之滿足模型輸入需求。GoogLeNet網絡模型要求固定維度輸入,故將像素尺寸統一轉換為224×224,經過像素標準化的圖像去除了大量冗余信息,有效減少了計算量。
圖像增強包括直接對原始圖像進行裁剪、旋轉、翻折等操作來改變圖片的形態,使得原數據集增加一定的倍數。使用MATLAB中的Imcrop函數對圖像進行特定區域裁剪,指定位置坐標和大小分別為(400,400),224×224。使用旋轉變換將圖像繞中心點順時針旋轉θ角度,本實驗分別取θ為90°、180°、270°,變換公式如公式(3)所示:
(3)
式中:x0和y0表示旋轉前各像素坐標值,x和y表示旋轉后圖像像素坐標值。
每張原圖可旋轉為3張不同角度的圖像。使用翻轉變換分別以圖像水平中線和垂直中線為軸將圖像上下左右對調,每張原圖經過翻折變換為3張不同圖像。具體變換結果如圖6所示,最終圖像集由3 200張圖像構成,按照8∶1∶1劃分訓練集、驗證集、測試集,即訓練集為2 560張、驗證集和測試集均為320張圖像,對模型進行訓練與測試。

圖6 圖像增強示意圖
1.4.2 遷移學習的訓練機制
卷積神經網絡的訓練需要一個龐大的數據集,但是經常由于數據集的規模不夠大、所覆蓋信息范圍不夠完整完善,而難以訓練出理想模型,造成小數據集在復雜網絡結構上的過擬合問題。基于以上問題,遷移學習理論被引入并應用到模型訓練方法中,遷移學習機制是在一個任務上訓練好的初始模型通過簡單調整使其適用于新任務的一種機器學習方法[23]。
1.4.3 模型的構建與訓練
本文將遷移學習理論引入GoogLeNet-M模型訓練中,首先使用ImageNet圖像集對改進模型訓練得到初始化模型,保存此時模型各層的權重和偏置,然后在此基礎上分別使用2種模式對模型進行訓練,一是凍結模型卷積層1,二是凍結模型全連接層。設置初始學習率為0.000 1,每次處理的數據15個,按照4分類任務將輸出層改為4維向量,其余參數值為默認。
由表1可知,凍結全連接層的準確率低于凍結練卷積層的準確率,原因是卷積神經網絡主要使用卷積層對圖像進行特征提取,所以經過遷移學習的權重及偏置可以在對新圖像特征提取時發揮更大作用,更為精確的表達圖像特征。而全連接層不直接參與圖像信息的提取,其主要作用是對提取的數據降維后分類,因此遷移訓練卷積層能夠達到更理想的效果。

表1 不同訓練機制下準確率 單位:%
由圖7可知,未引入遷移學習的模型收斂速度慢且收斂后不穩定,凍結全連接層的收斂速度較未引入遷移學習機制的訓練快一些,凍結卷積層收斂速度最快且收斂后趨向穩定,表明遷移學習可有效縮短模型收斂時間。

圖7 準確率收斂情況圖
由表1可知,各組準確率在訓練集上的表現都要優于驗證集,模型出現了過擬合。這是由于原始數據集太小,而構造的模型結構復雜,擁有出色的非線性擬合能力,可以擬合出更加復雜的函數,使網絡模型在訓練集上的表達能力較好,在測試集上泛化性能較差,說明遷移學習雖然可以緩解過擬合問題,但一定程度的數據擴充還是必不可少。
由表2可知,在遷移學習的基礎上輔以數據增強技術后,這2組不同學習機制的識別準確率都有了1到2個百分點的提升,說明對數據集的擴充有利于緩解模型過擬合問題。

表2 基于數據增強的準確率 單位:%
為進一步驗證模型的識別效果,相同實驗條件下對比了BP(back propagation)神經網絡、VGG模型及GoogLeNet V1模型對牛肉新鮮度的識別效果。
由表3可知在識別生鮮牛肉準確率方面,本文研究識別方法的平均準確率高于BP神經網絡、VGG卷積神經網絡模型和GoogLeNet經典模型。

表3 模型對比實驗 單位:%
傳統的BP神經網絡首先對牛肉圖像集進行了感興趣區域圈定、去噪、背景分割等圖像預處理后,將特征矩陣作為神經網絡的輸入,實現牛肉冷藏時間的識別。
VGG模型復雜的網絡結構使其可以擬合出復雜的數據特征,但由于其第1個全連接層的參數量大且多,對計算環境要求高,耗費大量的計算資源,與本研究模型相比而言,本研究模型的計算機資源占有率低,能夠實現更快收斂速度。
GoogLeNet經典模型與本研究模型在識別準確率上相差不多,但2個模型的運行時間差異明顯,GoogLeNet 模型的訓練時間需3 h,GoogLeNet-M模型的訓練時間需1.5 h,降低50%,表明改進后的模型在保證準確率的基礎上,大幅度降低模型運行時間,提高識別效率。
本研究在GoogLeNet模型基礎上進行結構改進,縮減模型前端卷積層數量及Inception模塊個數,引入遷移學習理論輔以圖像數據增強技術進行模型訓練,主要得到以下結論:
(1)基于遷移學習理論的模型實驗結果表明,引入遷移學習理論能夠使模型在訓練中能更快達到穩定狀態,有效縮減了模型收斂時間,且經過遷移訓練的卷積層權值和偏差使模型在測試上達到更理想的效果。
(2)基于圖像增強技術的模型實驗結果表明,使用數據增強技術在一定程度上能夠緩解小數據集在復雜網絡結構上產生的過擬合問題,體現了數據集規模在模型訓練中的重要作用。
(3)識別模型的對比實驗結果表明,本研究所建立模型與BP神經網絡相比能對牛肉新鮮度達到更好的識別率,與VGG深度卷積網絡及GoogLeNet經典模型相比,在保證平均準確率的基礎上,本模型耗費相對較少的計算資源。