張玨,田海清,張麗娜,王軻,于洋
1(內蒙古農業大學 機電工程學院,內蒙古 呼和浩特,010018) 2(內蒙古師范大學 物理與電子信息學院,內蒙古 呼和浩特,010020)
察哈爾羊肉為內蒙古錫林郭勒盟特產,其肉色鮮紅,脂肪呈乳白色,具有肌纖維細,口感細嫩、無膻味,是低脂肪高蛋白健康食品,深受消費者喜愛。新鮮度是衡量生鮮肉食用要求的客觀標準,可綜合反映產品營養性、安全性的可靠程度。傳統新鮮度檢測方法主要通過感官評價、理化檢測或微生物實驗方法確定[1],感官評價依據專業人員對肉品的色澤、氣味等特性做出綜合評定,檢測結果存在主觀性強,可重復性差,且測量誤差大等缺陷。理化檢測或微生物實驗法通常以pH值、揮發性鹽基氮(total volatile basic nitrogen,TVB-N)和菌落總數(total viable counts,TVC)等為主要檢測指標,該方法準確度高、可靠性好,但操作過程繁瑣,耗時費力。為提高檢測效率,研究者們依據理化指標提出了一些肉品新鮮度的快速檢測方法。FUNAZAKI等[2]發現L*值、a*值與原料肉的存放時間顯著相關,提出利用色彩色差計L*、a*、b*系統檢測原料肉的新鮮度。RUSSELL等[3]依據蛋白質分解產生游離氨基化合物與布三酮發生變色反應,提出借助布三酮顯色反應法判定肉品新鮮度。新鮮、次新鮮和變質與布三酮溶液反應后分別呈現微藍色、淺藍色和深藍色。栗紹文等[4]采用過氧化物酶試紙法檢測肉品新鮮度,浸液在數秒內呈現藍色為新鮮肉,3 min內無顏色反應則被判定為不新鮮肉。上述檢測方法檢測速度快、操作相對簡便,但檢測過程對樣本有損、受環境條件的影響較大,且難以準確地反映肉品的新鮮度狀態。
肉品腐敗過程中,蛋白質、脂肪和水分含量等營養成分的變化會影響光譜的吸收、散射等光學特性。因此,透過有機物的光學特性可分析肉品內部營養成分及品質變化。高光譜成像技術以其空間信息與內部組分信息相結合的獨特優勢,在生鮮肉營養成分分析、安全品質鑒定、肉色及新鮮度檢測等方面得到了廣泛應用[5]。CRICHTON等[6-7]基于高光譜成像技術分別對pH值和CIELAB顏色空間開展了牛肉新鮮度的檢測研究,取得了較好的研究效果。HE等[8-9]利用高光譜成像技術對鮭魚等養殖鮮魚表面乳酸菌、假單胞菌數分布和腐敗程度進行了深入的研究。BARBIN等[10]利用近紅外高光譜系統研究了新鮮豬肉表面微生物污染程度,分別將新鮮豬肉置于0 ℃和4 ℃的低溫環境貯藏21 d,借助PLSR模型分析TVC和嗜冷菌平板計數含量,模型的分析精確度可達到86%。
上述研究表明,高光譜成像技術在肉類檢測方面有很大的應用潛力,但目前多見于對豬肉、牛肉等肉類的相關報道,在羊肉新鮮度及質量分級方面的研究應用還相對較少且有待更深層次的研究。本文利用高光譜成像系統采集羊肉反射光譜信息,并采用2次S-G(Savitzky-Golay,簡稱S-G)平滑方法對羊肉反射光譜進行預處理。借助SPA法提取特征波長并建立基于反向人工神經網絡(back propagation artificial neural network,BPANN)和分類回歸決策樹(classification and regression trees,CART)算法的羊肉新鮮度判別模型,并分析CART分類算法主要參數對分類精度的影響并通過參數尋優以優化CART模型。研究基于高光譜數據源的CART分類模型在羊肉新鮮度等級分類方面的適用性,以期為高光譜遙感技術在肉品新鮮度診斷方面提供參考。
試驗所用樣本為察哈爾羊,取羊酮體里脊肉置于低溫冷藏箱運至實驗室。在無菌操作臺上將鮮羊肉剔除表面脂肪和肌膜,盡量保持樣本表面平整,用無菌刀分割成84塊,尺寸大小約為45 mm×45 mm×20 mm,自封保鮮袋密封后逐個編號,整齊無擠壓地擺放在貯藏溫度為4 ℃的冰箱環境中貯藏1~12 d。每隔24 h取出7個樣本,于室溫下靜置30 min后,用濾紙吸收表面水分后對樣本進行光譜采集。按照GB5009.228—2016[11]測定樣本TVB-N含量并進行新鮮度類別標定,根據國家標準[12]和彭彥昆等[13]研究成果將羊肉新鮮度劃分為3個等級,TVB-N≤15 mg/100g認定為“新鮮”,15 mg/100g
試驗采用高光譜成像系統,臺灣五鈴光學(ISUZU OPTICS),包括高光譜成像儀(ImSpector N25E),焦平面陣列相機(Xeva-FPA-2.5-320)、2個150W的鹵素燈、電控位移控制臺、暗箱和計算機等部件。高光譜成像儀光譜范圍為935~2 539 nm,光譜分辨率為8 nm。
數據采集前,打開光源和鏡頭蓋,預熱機器30 min。預實驗確定系統參數,設置如下:曝光時間2.1 ms,物鏡高度為40 cm,電控位移平臺速度22.9 mm/s,起點和終點位置分別為165 mm和235 mm,圖像分辨率選擇800像素×428像素。通過高光譜圖像采集軟件采集樣本高光譜圖像。先采集反射率為99%標準白板得到全白標定圖像W,然后封閉鏡頭采集全黑標定圖像D,最后進行羊肉樣本數據采集。為減弱攝像頭中傳感器暗電流以及光源不穩定的影響,確保光譜數據的準確性,在數據處理前對原始高光譜圖像按照公式(1)進行黑白校正[14]:
(1)
式中:R為黑白校正后樣本光譜反射率;Is為原始樣本反射的光譜強度;ID標準校正黑板反射的光譜強度;IW為標準校正白板反射的光譜強度。
避開羊肉結締、筋腱及反光嚴重的部位,將左上、左下、右上、右下、中間5個代表性位置作為感興趣區域(region of interesting,ROI),每個區域大小設定為20像素×20像素,計算ROI內所有像素的平均值得到樣本平均反射光譜,ROI選取及樣本反射光譜提取過程如圖1所示。除去首尾信噪比較低的波段(935~973 nm和2 457~2 539 nm),選取980~2 450 nm的光譜數據供下一步研究使用。

圖1 ROI選取及樣本反射光譜提取
Fig.1 ROI selection and sample reflection spectrum extraction for sample
BP人工神經網絡(back propagation artificial neural network,BPANN)[15]是一種根據誤差反向傳播法訓練的多層前饋網絡,網絡拓撲由輸入層、隱含層和輸出層組成。通過預測誤差反向傳播來調整網絡權值和閾值,使誤差函數沿相反的梯度方向移動,從而使BPANN的輸出值不斷逼近期望值,直到網絡的輸出誤差降低到設定值或者計算次數達到系統預設值為止。本研究選用3層結構的BP-ANN模型建立羊肉新鮮度判別模型,模型結構見圖2。k1,k2,…,ki為網絡的輸入層節點,r1,r2,…,rp為隱含層節點,y為神經網絡的輸出值。輸入層、隱含層、輸出層各神經元分別經權值、閾值及傳遞函數連接公式如公式(2)和公式(3)所示:
(2)
(3)
式中:n為輸入層神經元個數;p為隱含層神經元個數;q為輸出層神經元個數;f1、f2分別為隱含層和輸出層的激活函數;wnp為第n個輸入神經元到第p個隱含神經元的權值;wpq為第p個隱含神經元到第q個輸出神經元的權值;zp為輸入層到隱含層的閾值,zq為隱含層到輸出層的閾值;yq為神經網絡輸出。

圖2 羊肉新鮮度BPANN網絡預測模型
Fig.2 BPANN network prediction model for lamb freshness
決策樹[16]是數據挖掘中一種常用的分類方法,由根節點、內部節點、分支及葉節點組成。根節點表示一個待分類的數據類別或屬性,每個葉子節點代表一種分類結果。整個決策的過程從根節點開始,從上到下,根據最優劃分屬性選擇結果將實例劃分至相應節點,依次判斷,直至實例被劃分至葉節點而給出分類結果。CART算法為一種非參數數據分類與回歸方法,生成的決策樹是結構簡潔的二叉樹形式。由于解釋性強且分類效率高,該算法在通信運營商客戶預測、多光譜影像分類、空氣質量評價和交通擁堵檢測[17-20]等方面有較好的應用效果。利用CART方法進行數據分類時,首先遞歸劃分自變量區域,并在這些區域上確定預測的概率分布情況。劃分區域標準是CART算法的核心,本文通過Gini指數選擇最優解釋變量決定最佳二分值的切分點。
在分類問題中,假設樣本數據分為K類,樣本點屬于第k類的概率為pk,則概率分布的Gini指數定義如公式(4)所示:
(4)
對于二分類問題,若樣本點屬于第1個類的概率是p,則概率分布的Gini指數見公式(5):
Gini(p)=2p(1-p)
(5)
給定樣本集合D的Gini系數見公式(6):
(6)
若給定分裂屬性A,其某個取值將數據集D分割為D1和D2兩部分,D1和D2見公式(7):
D1={(x,y)∈D|A(x)=α},D2=1-D1
(7)
則分裂屬性A的Gini指數表達式見公式(8):
(8)
式中:K為數據集D的類別數;|Ck|為屬于第k個類別樣本的數量;|D|為數據集D的樣本總量。
Gini指數反映數據集中的純度,其值越小說明分類純度越高。CART算法取Gini指數值最小的解釋變量做出劃分,用準確率來判斷模型的辨識度。
CART算法分類模型構建步驟如下:
(1)設節點的校正集為D,對分裂屬性A的任意可能取值a,根據樣本點對A=a的分類為“是”或“否”,將集合D分割為D1和D2兩部分,并計算現有解釋變量Gini指數值;
(2)在所有可能的分裂屬性A中,選擇Gini值最小的屬性作為最優特征,則對應切分點a確定為最佳切分位置;
(3)依據最優特征變量和最佳切分點,從現結點生成2個子結點,將集合D的數據分配到2個子結點中;
(4)對2個子結點遞歸地調用(1)~(3),直到其滿足停止條件;
(5)生成CART模型。
羊肉樣本原始反射光譜曲線如圖3-a所示。光照強度、傳感器靈敏度和環境溫度等因素會影響光譜信息應用的準確性和有效性[21],致使原始光譜曲線包含較多毛刺。因此,對樣本反射光譜采用2次S-G平滑預處理,先采用11點S-G對較大噪聲波段進行局部平滑,其他波段保持不變,得到初步濾波結果,然后采用7點S-G進行整體平滑,最大程度上保留了光譜細節信息。預處理后光譜曲線如圖3-b所示。由圖3-b可知,光譜預處理后較原始光譜曲線更為平滑,減弱了系統噪聲并提高了信噪比。

a-原始光譜;b-S-G預處理后光譜
圖3 預處理前后樣本反射光譜曲線
Fig.3 Reflection spectrum before and after pretreatment for sample
考慮到全波段光譜信息量大且存在數據冗余,這會降低模型計算效率,且不便于高光譜測量平臺移植。研究選擇采用連續投影法方法[22]對全波段高光譜數據進行特征波長選擇。設定特征波長個數范圍為5~30,步長為1,根據圖4-a所示結果,隨著特征波長數目的增加,(root mean squared error,RMSE)逐漸減小,當計算波長數為12時均方根誤差RMSE取得最小值3.39,之后曲線變化平緩,考慮到較多的輸入量會增加模型的復雜度,因此,依據RMSE最小原則選擇如圖4-b所示的1 024、1 112、1 194、1 213、1 440、1 497、1 648、1 685、1 899、2 131、2 175、2 363 nm共12個特征波長。分析認為,羊肉新鮮度主要與水分、蛋白質和脂肪等營養成分的分解程度有關。肉類腐敗過程中,蛋白質、脂肪、糖類等化學成分改變的同時伴隨組織結構中C—H、O—H、N—H等含氫基團的變化,而肉品光譜特征信息與其這些含氫基團的倍頻和合頻吸收有關,透過肉品光譜則可分析肉類化學成分的變化規律。由于組織結構中分子所含基團種類多且差異較大,且不同基團在近紅外譜區的吸收位置及吸收強度各異,因此不同組分的分子基團都對應了特定的波長吸收組合。蛋白質主要包含—CHn、—NH等基團,1 021和1 057 nm附近為N—H基團伸縮二級倍頻;1 109 nm為N—H基團的三倍頻特征吸收帶;1 074 nm附近存在N—H基團伸縮振動二級倍頻,1 500 nm附近為N—H基團一級倍頻,1 192 nm為C—H基團三倍頻吸收帶[23-24]。脂肪主要含—OH、—CHn等基團,1 207 nm處的吸收峰為C—H基團伸縮二級倍頻;1 500 nm附近為N—H基團伸縮一級倍頻;1 211 nm處的相對弱峰為C—H基團伸縮振動二級倍頻;1 370和1 640 nm為CH3基團伸縮一級倍頻吸收帶[25-27]。水分主要含—OH基團,1 400~1 500 nm為O—H伸縮一級倍頻吸收帶,在974 nm和1 440 nm附近存在強吸收峰,分別為水分子O—H伸縮振動二級和一級倍頻[28-29]。通過上述波長下的光譜信息可獲得大量肉品品質的相關信息,也為利用特征波長下的光譜信息分析羊肉新鮮度提供了理論依據。

a-解釋變量個數對應RMSE的變化;b-SPA選取最優特征波長
圖4 SPA法選取特征波長過程
Fig.4 Characteristic spectral variables by SPA
2.3.1 數據集劃分
84個羊肉樣本中,去掉4個明顯離群樣本,共得到80個有效樣本。按照TVB-N測定濃度值排序,采用隔三選一法[30]確定數據集,56個樣本為校正集,24個為預測集。校正集和預測集差異性分析結果表明,校正集TVB-N的平均值為17.10 mg/100g,標準偏差為7.84 mg/100g,TVB-N的變化范圍為8.15~38.63 mg/100g;預測集TVB-N的平均值為18.16 mg/100g,標準偏差為8.71 mg/100g,TVB-N的變化范圍為8.63~40.08 mg/100g。樣本集中新鮮肉31個、次鮮肉26個、變質肉23個,表1為羊肉新鮮度類別劃分結果。

表1 不同新鮮度類別的樣本集劃分Table 1 The sample set for different freshness classes
2.3.2 BPANN模型
將SPA法優選的12個特征波長作為BPANN網絡模型輸入參數,校正集樣本類別作為模型輸出參數。隱含層節點個數根據公式(9)確定:
(9)
式中:n為輸入層節點個數;m為輸出層節點個數;a的取值范圍為1~10。
模型中,輸入量為12個特征波長,n=12;輸出量為樣本新鮮度類別,m=1。因此,隱含層節點個數L的取值為5~14。設定BPANN 模型訓練誤差為0.001,網絡訓練次數為2 000,多次試驗調整網絡結構,確定模型最佳參數如下:隱含層激活函數為logsig,輸出層激活函數為tansig,訓練函數為traingd,隱含層節點數為6。根據以上網絡參數,建立拓撲結構為12∶6∶1的3層BPANN模型。
2.3.3 CART模型
通過調整決策樹的最大深度(max depth, MD)防止“小樣本”數據過擬合[31],設定葉子節點包含的最小樣本數為2,分裂所需最小樣本數為1,緩慢提高MD值訓練模型,并計算預測集評分數據,預測集準確率隨決策樹深度的變化關系如圖5所示。當MD值為7時建立決策樹獲得最高的分類精度,預測集分類得分為0.916 7,決策樹結構如圖6所示。由圖6可知,決策樹Gini指數由初始計算值0.580經多次特征屬性分裂后,到第7層決策樹Gini指數降為0,完成決策樹構建。

圖5 分類得分隨決策樹深度變化關系
Fig.5 The relationship between the classification score and the depth of decision tree

圖6 CART模型結構圖
Fig.6 Structure chart of CART model
為比較BPANN模型和CART模型分類效果,分別以SPA法提取的12個特征波長分別作為BPANN模型、CART模型的輸入變量,羊肉新鮮度類別作為輸出量,建立羊肉新鮮度判別模型,并對模型預測效果進行驗證。
研究表明,BPANN和CART模型校正集的平均分類準確率均為100%,CART和BPANN模型預測集的測試分類結果如圖7所示。對于預測集的24個樣本,BPANN模型有4個樣本被誤判,其中第8個樣本由新鮮被誤判為次新鮮,第11和第18個樣本由次新鮮被誤判為新鮮,第20個樣本由變質被誤判為次新鮮;CART模型有3個樣本發生誤判,其中第6個樣本由新鮮被誤判為次新鮮,第18個樣本由次新鮮被誤判為新鮮,所有變質樣本判別全部正確。綜上所述,BPANN模型預測集平均分類準確率為83.33%,CART模型預測集平均分類準確率為91.67%,相比BPANN模型,CART模型的平均分類準確率提高了10.01%。

a-BPANN;b-CART
圖7 BPANN和CART模型測試分類圖
Fig.7 Classification
Figures by BPANN and CART model
BPANN、CART模型的新鮮度分類統計結果如表2所示,BPANN模型對預測集“新鮮”、“次新鮮”、“變質”3個新鮮度級別樣本的識別率分別為88.89%、75%和85.71%,CART模型的識別率分別為88.89%、87.50%和100%。相比BPANN模型,CART模型對每個新鮮度級別的識別率分別提高了0%、16.67%和16.67%。上述研究表明,CART模型分類更加準確且穩定性更好,發生誤判主要集中在相鄰新鮮度等級之間,造成類別誤判的原因可能是相鄰新鮮度的樣品TVB-N數值較為接近,類間差異較小所致。該模型的預測精度也略高于范中建等[32]利用SPA法提取特征波長建立的羊肉新鮮度BP神經網絡判別模型,在一定程度上反映出CART算法建模的有效性。分析認為,BPANN算法需要反復調整網絡結構參數,從而容易過度訓練且發生“過擬合”,反而降低了模型的泛化能力。CART算法更加注重對光譜信息深層次分析和挖掘且針對性更強,分類精度較BPANN模型明顯提高。該算法不是用一個決策規則把多個類別一次分開,而是綜合每個子集里被評價為分類能力最好的屬性變量進行逐級劃分,從而在一定程度上提高了模型的泛化能力,較好地求解復雜的多輸入多分類問題。

表2 模型分類結果統計Table 2 Statistics of classification results for model
為實現對羊肉新鮮度的快速、無損檢測,本研究采集不同存儲天數羊肉樣本近紅外高光譜圖像,以SPA法優選的12個特征波長為自變量,分別構建羊肉新鮮度BPANN和CART算法的判別模型。與BPANN模型相比,CART模型具有更高的精確度與魯棒性,可以很好地區分羊肉的“新鮮”、“次新鮮”、“變質”3個新鮮度類別,表明高光譜成像技術在羊肉新鮮度判別方面具有良好的應用潛力。