孫婷,田建平,胡新軍*,羅惠波,黃丹,黃浩平
1(四川輕化工大學 機械工程學院,四川 宜賓,644000)2(四川輕化工大學 生物工程學院,四川 宜賓,644000)3(釀酒生物技術及應用四川省重點實驗室,四川 宜賓,644000)
高粱是我國重要的糧食作物之一,因其籽粒中含有豐富的營養物質在釀酒行業有著“好酒離不開紅糧”的精辟論斷,每年需求量高達2 000萬t[1]。目前,釀酒高粱品種主要以高淀粉含量的瀘州紅、青殼洋、睿糯7號等糯高粱為主。由于釀酒高粱種類繁多,產地各不相同,籽粒中的淀粉、蛋白質、脂肪和單寧等含量有較大差異,導致釀造出的白酒在香型、風格、品質和產酒率上也有很大的差別[2]。由此可見,在高粱原材料分批入庫前準確高效地對高粱品種進行鑒別,對釀造過程中泡糧時間、用水量、蒸糧時間等生產工藝控制,對產出優質白酒具有十分重要的指導意義[3]。傳統的鑒別方式主要有人工經驗判別和生物抽樣檢測[4],前者易受主觀影響,效率低,難以形成統一的標準,后者操作繁瑣、費時費力,兩者都無法滿足現代白酒企業對釀酒原料高粱的鑒別需求[5],因此急需尋找一種快速、準確且簡便的高粱品種分類檢測方法。
高光譜技術作為一種高效無損檢測技術,可同時獲取對象的光譜信息和空間信息[6],光譜特征通常在農副產品的分類、質量檢測和指標評價等領域運用更多[7-9],空間圖像信息的應用較少,但也有研究人員試圖將高光譜的光譜信息和圖像信息結合起來,以提高模型的準確性和可靠性[10]。如王彩霞等[11]利用特征波長、顏色特征以及紋理特征分別建立了偏最小二乘判別模型(partial least squares discriminant analysis,PLS-DA)鑒別5個牛肉品種,結果顯示特征波長結合紋理特征的模型識別效果最佳,預測集識別率為93.55%,均高于純光譜數據的精度;HUANG等[12]結合玉米種子的光譜特征、形態特征和紋理特征分別建立了支持向量機模型(support vector machine,SVM)來判別17個玉米品種,結果顯示結合光譜信息和圖像信息在測試集上的準確率達到92%,高于只使用單一信息建模精度;邢素霞等[13]同樣結合光譜信息和圖像信息建立徑向基函數(radial basis function,RBF)神經網絡對雞肉品質進行分類,測試集分類正確率達到100%。
本研究的目標是結合光譜信息和圖像信息對11個高粱品種進行分類,同時通過比較及外部驗證優化高光譜技術結合機器學習方法鑒別不同高粱品種,以提高其在應用過程中的準確性和效率。主要對高粱高光譜數據進行預處理,選取特征波長,從圖像中提取灰度共生矩陣(gray level co-occurrence matrix,GLCM),分別基于全光譜、特征波長、紋理特征(GLCM)及其融合數據建立高粱的分類模型,最后使用未參與建模的驗證集數據對所建模型進行外部驗證。
實驗選用2個批次共11種不同品種的高粱,分別來自四川瀘州、宜賓地區和山東濟南地區,詳細的產地、收獲年份和批次如表1所示,其中矮抗8號、紅塔2號和鐵桿1號為白高粱,其余為紅高粱。樣本去除雜質,每次選取約120 g高粱裝袋為1個樣本,每種高粱取50個樣本,并均勻平鋪于直徑80 cm的培養皿中,直至與培養皿邊緣齊平,共計550個樣本。使用Kennard-Stone(KS)算法將樣本劃分為400個訓練集和150個測試集,此外,每種高粱再采集20個共計220個樣本用于模型外部驗證。

表1 高粱品種參數Tabel 1 Parameters of sorghum varieties
采用芬蘭Specim公司生產的高光譜采集系統,主要部件有:FX10E型號的高光譜相機(Specim,芬蘭),其外形尺寸為150 mm×75 mm×85 mm,質量為1.4 kg,探測器類型為InGaAs,視場角FOV為38°,相機輸出為12 bit,空間分辨率為1 024×628像素,2組功率為150 W的鹵素燈光源(OSRAM,德國),高精度電控載物臺(Specim,芬蘭)、Lumo-scanner專用軟件(DELL,美國)以及輔助支架。
為了保證樣本光譜信息和圖像信息的完整性,具體的參數設定如表2所示。

表2 高光譜采集參數設置Tabel 2 Hyperspectral acquisition parameter settings
采集前調整好系統參數,盡量保持外部環境一致,按照樣本編號將裝滿高粱的培養皿放置在載物臺上依次掃描,得到770組高粱樣本的原始高光譜數據。為了減少傳感器暗電流噪聲和光強變化對圖像信號產生的影響,需要對獲得的高光譜圖像進行黑白校正[14],校正公式見公式(1)
(1)
式中:R,校正后的光譜圖像;I0,原始高光譜圖像;Id,蓋上鏡頭采集的暗參考圖像;Iw,采集的標準白板圖像,這樣高光譜圖像的每一個像素點均對應一條光滑的光譜曲線。
感興趣區域(region of interest,ROI)的選取對后續的建模分析至關重要,每個高粱樣本統一選取一塊100×100像素無雜質、亮度均勻的區域,按照校正公式(1)計算出每個像素的反射率,再對ROI區域內所有像素點反射率求平均值,進而得到了樣本的光譜曲線。為了提取高光譜圖像中光譜有效信息,需要對光譜數據進行預處理來減少光譜信號中的光散射、高頻噪聲等干擾信息[6]。多元散射校正(multiplicative scatter correction,MSC)可有效地消除散射帶來的光譜差異,從而增強光譜與數據之間的相關性,該方法通過理想光譜修正光譜數據的基線平移和偏移現象[15],具體實現方法見公式(2)~(4)。
①計算平均光譜作為標準光譜:
(2)
②將每個樣本的光譜與平均光譜進行線性回歸運算,得到每個樣本相對于標準光譜的尺度平移量和偏移量:
Si=miP+bi
(3)
③原始光譜減去求得的基線平移量后除以偏移量,得到校正后的光譜:
(4)
式中:Pi,j,標準光譜矩陣;Si,j,原始光譜矩陣;n,樣本數量;j,波段數量;Si,每個樣本的光譜向量;mi,相對偏移系數;bi,平移量;Simsc,i樣本的MSC校正光譜。
采集的400~1 000 nm范圍內的高光譜數據有448個波長,存在大量冗余和多重共線性問題,需要從這些波段中選取最具代表性的特征波長。連續投影算法(successive projection algorithm,SPA)是一種使矢量空間共線性最小化的前向變量選擇算法[16],其運算過程為:首先隨機選擇一個波長,分別計算該波長與剩余向量的投影,將最大投影值的波長選入特征波長;再對沒選入的波長重復以上過程,直至獲得特征波長數量則截止[17]。選用此方法篩選特征波長。
不同品種的高粱顆粒在外形、大小、顏色上都有不同程度的差異,會直接反映在圖像信息中,而目前的相關研究大部分只使用了光譜信息,卻忽略了圖像信息。GLCM是一種描述圖像信息的常用方法,用于計算相鄰像素之間不同灰度值的組合數目,以此反映在指定方向上的梯度信息[18]。先將高粱灰度圖轉換為固定級數的灰度圖,分別從0、45°、90°、135°四個方向計算灰度圖的能量、熵、慣性矩和相關性,計算公式如(5)~(8),再以這4個參數的平均值和方差作為圖像紋理特征的典型性信息:

(5)

(6)

(7)

(8)
式中:L,灰度級數;P(i,j),轉換L級后的圖像;i,一個像素的灰度值;j,距離i固定步長像素的灰度值;μx和μy,平均值;δx和δy,方差;其中:
(9)
(10)
(11)
(12)
SVM是一種以結構風險最小化原則為基礎的模式識別算法,主要思路是把訓練集數據從輸入空間非線性地映射到一個多維度的特征空間,然后在多維度的特征空間中通過最小化某種損失函數獲得一個線性的擬合函數[19],尋找新的最優分類面作為決策面,實現不同類數據的分離。PLS-DA是一種多元分類模型,是基于偏最小二乘回歸的高維線性判別模型分類技術。該方法首先將樣本類別進行數值標定并作為反應變量,再運用偏最小二乘回歸建立反應變量與解釋變量之間的關系模型,比較模型的反應變量預測值大小,從而確定各樣本的類別[20],適合于變量數眾多且存在多重共線性的情況,是常用的有監督統計模式識別方法[21]。極限學習機(extreme learning machine,ELM)作為一種單隱層前饋神經網絡,主要由輸入層、隱含層和輸出層組成,隨機產生網絡的輸入權值和隱層節點偏置值,將輸入數據與權值矩陣作乘積運算再加上偏置矩陣的結果輸入到激活函數,輸出層把激活函數的輸出與連接權值作乘積運算,從而得到最終的預測結果[22]。訓練過程無需過多的人為干預,運算速度快,對于數據量很大地情況能夠有效的提高運算效率[23]。
通過正確率、運行時間及外部驗證結果對預測模型進行綜合評價分析[24],按公式(13)計算正確率:

(13)
式中:TP,正確分類的高粱類別;FP,錯誤分類的高粱類別。
11類高粱共計550個樣本的原始光譜曲線和MSC預處理后的光譜曲線如圖1所示,每個顏色代表不同的類別。

a-原始光譜曲線;b-經MSC預處理光譜圖1 高粱樣本的光譜曲線Fig.1 Spectral curve of sorghum samples
2幅圖在400~1 000 nm波長范圍內高粱光譜曲線的總體趨勢相似,均呈上升趨勢,波峰波谷變化較平緩,且出現了部分曲線交叉重疊的情況。預處理后的曲線重疊明顯減少,噪聲也更少,各樣本曲線的辨識度更高。其中白高粱矮抗8號、紅塔2號和鐵桿1號的光譜曲線均在其余高粱的上方,其在430~890 nm的曲線走勢也與其余高粱有明顯差異,這些信息可以將紅白高粱較容易地區分開。8類紅高粱在400~500 nm的反射率大致相同,這會對分類造成困難;幾乎對于所有品種,光譜均在600、890、950和990 nm附近出現峰和谷,這可能與羧基官能團所帶分子鍵的伸縮振動有關。以上的差異性為運用高光譜識別高粱品種提供了有效判別依據。

a-均方根誤差變化趨勢圖;b-SPA選擇的最優波長位置;c-典型特征波長下的高光譜圖像圖2 特征波長的提取過程Fig.2 The process of extracting characteristic wavelengths
使用SPA算法從448個波長中篩選特征波長,圖2-a為均方根誤差(root mean square error,RMSE)的變化趨勢圖,可見隨著波長數量不斷增加,誤差逐漸減少,在數量達到48之后誤差基本保持穩定,說明此時已沒有冗余波長可篩除,最終使用RMSE值為0.485 3時對應的48個波長為最優特征波長。它們的具體位置如圖2-b紅色標記所示,其中圖2-c是澳洲高粱5個典型特征波長的圖像,能夠代表大部分信息,具有特征性。將特征波長存儲在550×48矩陣中,光譜減少量為89.3%,極大地縮短了計算時間。
將每個樣本的灰度圖像轉換成16級灰度圖,依次對770個高粱樣本進行圖像特征提取,距離參數值取1,方向選取 0、45°、90°和135°,部分代表樣本的紋理特征如表3所示,將其存儲在550×8矩陣中作為圖像特征。

表3 高粱紋理特征參數Table 3 Sorghum texture feature parameters
使用11類高粱的全光譜數據、48個特征波長數據及其融合紋理特征的數據分別建立SVM、PLS-DA和ELM分類模型。其中SVM使用10折交叉驗證選取最佳的c、g值,核函數采用RBF;PLS-DA在建模前使用10折交叉驗證選取最佳主成分數,主成分數根據建模輸入數據不一,圖3為550個樣本全光譜建模前2個主成分PC1(74.04%)、PC2(21.49%)的散點圖,可以看出不同品種的高粱分布較分散,比較容易區分;ELM則隨機產生輸入層和隱含層之間的連接權值矩陣W,隱含層偏置矩陣B,激活函數選取Sigmoid函數。建模的參數設置和各模型的精度如表4所示。

圖3 PLS-DA全光譜建模前兩個主成分圖Fig.3 The first two principal component graphs of PLS-DA full spectrum model

表4 各模型參數及分類結果Table 4 Parameters and classification results of each model
對比不同模型在5類數據集上的表現,整體來看SVM模型在訓練集和測試集的正確識別率大于PLS-DA和ELM,但是運行時間也更長。使用紋理特征數據建模的精度均在80%~87%之間,相對其他數據集精度較低,說明單一的紋理特征信息不能全面地反映不同高粱品種的差異。比較使用全光譜和特征光譜建模時,特征光譜的正確識別率根據數據集而不同,有時高于全光譜,有時低于全光譜,總體來看兩者精度相差不大,說明篩選出的特征光譜中包含了大量有效的光譜信息,使用特征光譜對高粱進行識別是可行的,且減少了計算時間。此外可知,在結合了圖像信息紋理特征以后,全光譜和特征光譜的正確識別率均有所提升,可以說明結合紋理特征后的數據更全面地表達了樣本的分類信息,可以提高高粱品種的識別率。在上述的所有模型中,特征光譜結合紋理信息建立的SVM模型精度最高,訓練集和測試集的正確識別率分別為96%、95.3%,運行時間為9.561 s。綜上所述,結合光譜信息和圖像信息的高粱品種識別方法是可行的。
為了進一步驗證上述模型的準確性和穩定性,采用外部驗證方式驗證模型效果,即將未參與建模的220個驗證樣本組成的驗證集代入模型進行預測,代入模型的數據集以及模型參數與上述建立的模型保持一致,外部驗證的正確分類率如表5所示。綜合比較,SVM模型的驗證效果最好,ELM次之,PLS-DA相對來說最差,其中特征光譜結合紋理特征的SVM模型驗證集識別準確率達到91.8%,能夠滿足精度要求,但是由于SVM分類器訓練過程中需要尋找支持向量,所以耗時相對較長,未來可以與粗集理論等結合提高分類效率。

表5 各模型驗證集分類結果Table 5 Classification results of validation set of each model
本文基于高光譜技術光譜和圖像信息結合的方法對11個品種的高粱進行識別研究。采集高粱的高光譜圖像,使用SPA算法從MSC預處理后光譜中篩選出48個特征波長,再提取圖像的紋理特征,分別基于紋理特征、全光譜、特征光譜及其結合圖像信息分別建立了SVM、PLS-DA和ELM分類模型,最后使用未參與建模的數據進行外部驗證。結果表明,使用特征光譜結合紋理特征建立的SVM分類模型效果最佳,測試集的正確識別率為95.3%,驗證集的精度達到91.8%,可見光譜和圖像結合的方法可以有效實現釀酒高粱的快速識別,且提高了模型的識別精度,這為不同釀酒原料的檢測和釀酒自動化的實現提供了理論基礎。