尤 佳, 李景彬, 黃 勇, 黃蒂云, 彭順正
(1.石河子大學機械電氣工程學院,新疆石河子 832000; 2.石河子大學信息科學與技術學院,新疆石河子 832000)
棉種是棉花生產的基礎[1],棉種質量直接影響棉花的產量和纖維品質。棉種質量是指種子凈度、發芽率、活力和品種純度等指標所表示的綜合特性[2]。選用優良的棉種可以顯著增產,研究表明,作物增產中優質良種所起的作用約占1/3以上,而棉種活力是保障棉花高產的關鍵因素[3]。高活力種子具有明顯的生長優勢,對其活力測定對農業生產具有重要意義,播種前須要對種子活力進行測定,選用高活力種子確保田間苗齊、壯,且活力較高的種子抗逆性強,貯藏價值大[4]。
目前常規測定棉種活力主要方法有發芽試驗[3]、高溫燜種法[5]、四唑染色法[6]、電導率測定法[7]、介電常數法[8]、機器視覺[9]等。這些方法應用于棉種活力檢測,但存在對樣品造成損害、耗時、檢測結果不準確、速度慢、使用的化學試劑易造成環境污染等缺點。因此研究出一種快速、準確、無損、高效的棉種活力檢測方法是目前市場需求。
高光譜圖像應用于農產品檢測是近些年興起的一項新技術,它在獲取研究對象空間信息和光譜信息時,也可以更大范圍獲取樣本的內外部信息,能夠更加全面地對樣本進行分析研究。高光譜圖像技術已廣泛應用于農畜產品檢測[10-12]及水果品質檢測[13-16],基于高光譜圖像技術檢測種子品質、產地等近些年也開始新興于國內外。Cogdill等采用高光譜圖像技術對玉米種子的含油率和含水率進行檢測,得到了較好的成果[17];Wallays等基于高光譜圖像技術建立了小麥、大麥、玉米雜質檢測系統[18];Singh等利用近紅外高光譜成像系統對小麥進行檢測,對正常小麥與受損小麥進行了區分[19];Nansen等利用高光譜圖像技術對澳大利亞本地樹種萌發進行分類預測,其效果良好[20]。國內也有許多學者進行了相關研究,朱啟兵等研究了快速識別種子純度,把熵信息作為分類特征實現玉米種子的準確識別分類[21];王國慶等提出了用高光譜圖像技術對玉米種子年份和產地鑒別,其模型訓練集和測試集精度分別為99.11%和98.3%[22];張初等采用高光譜圖像技術結合化學計量學方法實現了黑豆品種的鑒別,得出利用小波分析提取光譜特征信息建立的極限學習機模型效果最好[23];李美凌等研究了水稻種子不同活力水平之間的差異,初步說明了利用高光譜圖像技術檢測種子活力的可行性[24]。
目前利用高光譜圖像技術對種子活力檢測的研究很少,且針對脫絨棉種活力進行檢測未見相關研究。本研究基于高光譜圖像技術對脫絨棉種活力進行檢測,為脫絨棉種活力測定提供了一種新方法,同時也為其他種子的活力檢測奠定了理論基礎。
試驗采用由新疆棉種加工廠提供的新陸早50、新陸早57、新陸早62脫絨棉種為研究對象篩選出新陸早50、新陸早57和新陸早62各270粒。
試驗前將脫絨棉種按照不同品種依次編號,同時為了避免種子之間的差異性,用于電導率和高光譜成像系統采集的脫絨棉種保持一致。
采用人工老化方法,將脫絨棉種分成不同老化程度。將新陸早50、新陸早57、新陸早62分別各選取180粒,分成2組,每組90粒,并對每組進行編號,編號如表1所示。將6組脫絨棉種放在溫度為45 ℃、濕度為100%條件的LH-250S老化箱內,對新陸早50、新陸早57、新陸早62的1組進行 24 h 的老化處理,對新陸早50、新陸早57、新陸早62的2組進行48 h的老化處理,由此得到2種不同老化程度的種子。

表1 脫絨棉種老化數據編號
注:1代表人工老化24 h的脫絨棉種,2代表人工老化48 h的脫絨棉種。
試驗采用如圖1高光譜成像系統。整個系統由圖像采集部分、光源、輸送裝置3個部分組成。其中,圖像采集部分包括光譜儀(ImSpector V10E-QE,Spectral Imaging Ltd,Oulu,Finland)、鏡頭、CCD相機(C8484-05G,Hamamatsu Photonics,Japan);光源由光源控制器(3900ER,Illumination Technologies,Inc,USA) 和150 W鹵素燈組成; 輸送裝置由電移平臺(PSA200-11-X,Zolix)和電移平臺控制器(SC300-1A,Zolix)組成。為了減少外界對圖像采集影響,采集樣本在密封的遮光柜中進行,為了保證圖像采集質量,物距、光心距離和光源角度可調節。高光譜測量的光譜分辨率為 2.8 nm,成像光譜校正后范圍408~1 013 nm。

在進行高光譜圖像采集前,須要對平臺移動速度、平臺移動行程、物距、曝光時間進行調整,從而獲得圖像大小合適、不失真、清晰的圖像。經過對此調試及參數優化,確定采集參數:物距高度設置為34 cm,曝光時間15.5 ms,圖像采集速度為1.25 mm/s。
在光照度分布弱的波長下獲得的圖像含有較大噪聲,因此在高光譜圖像采集前須要對圖像進行黑白校正,以消除部分噪聲影響。高光譜進行白板校正所得到的圖像為W,在關閉攝像頭全黑狀態下,采集的全黑圖像為B,得到校正后的圖像為Ic,見式(1)。
(1)
式中:Ic為校正后的圖像;Io為高光譜成像系統采集的原始圖像。
將采集完高光譜圖像的脫絨棉種進行電導率試驗。從上述3個品種共810粒種子按分組編號單粒放入4 mL的試管中,加入2 mL蒸餾水,在溫度為30 ℃的恒溫箱中靜置12 h。利用電導率儀分別對單粒種子進行測量,并記錄數據,得到對應的電導率如圖2至圖4所示。

高光譜儀提取波長范圍為408~1 013 nm的脫絨棉種圖像。高光譜圖像含有數據量大、冗雜,而光譜信息反映樣品的化學成分、物理結構,本研究只提取光譜信息作為研究對象,并且選取感興趣區(RIO)提取樣本的光譜數據。


為了消除多余背景對樣品影響,把單粒脫絨棉種全區域作為1個感興趣區域,提取單粒種子的光譜數據。3種脫絨棉種提取810個感興趣區域,并通過感興趣區域獲得單粒種子的光譜平均反射光強,得到平均反射光強如圖5所示。

采集的光譜范圍為408~1 013 nm,光譜圖顯示,在408~450、1 000~1 013 nm之間存在明顯噪音,因此選取450~1 000 nm 范圍的光譜反射率作為研究對象。為了消除儀器自身噪聲和隨機誤差,須要對光譜反射光照度進行濾波處理,本研究采用Savitzky-Golay平滑法。在高光譜圖像的獲取過程中,光譜信息受到環境因素以及種子顆粒大小不均等因素的影響,須要對光譜進行多元散射校正(MSC),校正種子顆粒因散射引起的光譜差異。
對光譜數據集進行歸一化處理。x、y∈Rn,xmin=min(x),xmax=max(x)將原始數據歸一到[-1,1]之間,區間為[-1,1]的映射函數為:
(2)
高光譜數據信息冗余多、相關性大,對數據處理、計算及存儲都極為不方便,對光譜數據預處理后須要對其進行降維處理,去除冗余信息。本研究采用主成分分析(PCA)處理,生成互不相關的輸出波段,用于隔離噪音和減少數據集的維數。高光譜多波段數據是高度相關,主成分變換找到一個原點為數據均值的新坐標,通過旋轉坐標軸使數據的方差達到最大,從而生成互不相關的波段。對脫絨棉種高光譜圖像進行主成分分析,得出新陸早50、新陸早57、新陸早62的前10個主成分分析及10個主成分(PC)圖像。如圖6所示,新陸早50的PC1、PC2、PC3圖像幾乎代表了原始光譜數據的大部分數據,且主成分累積貢獻率達到98%以上,PC1圖像接近于原始圖像包含了脫絨棉種大部分信息,但主要體現脫絨棉種表皮信息;PC2圖像中,棉種周圍邊緣和下端為白色,PC2包含部分棉種內部信息;PC3含有大量的背景信息,棉種中心區域為黑色,邊緣部分為白色,黑色部分為反光現象造成。PC4~PC10包含了少量的信息,PC10的累積貢獻率達到了99%左右,為了盡可能保證信息的丟失量較少,故選取10個主成分進行分析。
判別分析(discriminant analysis,DA)根據測量或觀察的變量值判斷研究樣本如何正確分類[25]。通過已知數量的1個分組變量及其特征變量,確定分組變量和特征變量的數量關系,建立判別函數,利用其數量關系對其未知分組類型的樣本進行判別分組。支持向量機(support vector machine,SVM)是一個凸二次規劃問題,在模式分類問題上具有很好的范化性。SVM是通過一個非線性映射P,將樣本空間映射到一個高位的特征空間中,使樣本空間的非線性問題轉化為特征空間的線性可分問題,應用核函數的展開定力在某種程度上避免了“維數災難”。對脫絨棉種的光譜數據進行預處理及主成分分析后,分別對3個品種的脫絨棉種進行判別分析,其判別結果如表2所示。根據主成分圖像結合貢獻率分別選取前10個主成分對脫絨棉種進行建模分析, 3個品種的脫絨棉種PC10累積貢獻率都達到99%以上;采用10個主成分進行判別分析,新陸早50、新陸早57、新陸早62的分類精度達到88.3%以上,分別對應找出每個品種的誤判樣本,與電導率試驗所測數據進行對比,發現部分誤判樣本劃分類別與其實際測量的電導率值相匹配。其中,新陸早50未處理1號、新陸早50人工老化24 h的13號、新陸早50人工老化48 h的11號、新陸早57人工老化48 h的33號、新陸早62人工老化24 h的29號、33號由于種子自身原因或光譜采集問題為異常樣本分類錯誤。
每個樣本的光譜信息預處理后,將3個品種各240個樣本的75%作為訓練集,其余的25%作為測試集,采用支持向量機(SVM)建立分類模型。用10個主成分作為輸入變量,選擇線性核函數,采用粒子群優化算法對懲罰參數c和核函數參數g尋求最優值。新陸早50、新陸早57、新陸早62的測試集鑒別率達到78%、82%、80%。


表2 脫絨棉種的判別模型分類結果
主成分1、主成分2和主成分3包含了大部分信息,其累計貢獻率達到了97%以上,大部分脫絨棉種能夠在3個主成分下較好地分類,采用各個波長對3個主成分權重值大小的方法尋求特征波長,權重系數絕對值越大,對主成分圖像影響越大,包含的信息也就越多;反之,權重系數絕對值越小,對主成分圖像影響越小,包含的信息也就相對較少。綜合考慮,選取505.22~509.54、677.57~682.64、1 007.81~1 013.13 nm等3個波段為特征波段。從選取特征波長分析,其中2個波段位于可見光范圍,而另外1個位于近紅外范圍。對特征波長建模分析,判別分析中新陸早50、新陸早57、新陸早62測試集判別率為98.3%、98.3%、96.6%;采用SVM對特征波長分析,得出新陸早50、新陸早57、新陸早62的測試集鑒別率為81.67%、85%、85%(圖7)。
對采集的脫絨棉種光譜圖像經過預處理、主成分分析,并且對光譜數據進行預處理、主成分分析、特征波段提取等工作后,分別對處理后的數據進行距離判別和SVM建模分析。以10個主成分為輸入量的判別分析模型的鑒別率最高可達到100%,SVM模型的鑒別率最高可達到82%;經過特征波段提取建立的距離判別和SVM模型鑒別最高可達到98.3%和85%。結果表明,采用距離判別模型對脫絨棉種活力檢測精度更高,且基于特征波段下對3個品種的脫絨棉種建立的距離判別和SVM模型比基于主成分下建立的更為穩定可靠、鑒別率差異小、鑒別效果良好。

本試驗采用高光譜圖像技術對脫絨棉種的活力檢測進行初步研究。采用Savitzky-Golay平滑法,多元散射校正和歸一化對數據進行預處理,并利用主成分分析法對采集的光譜圖像進行分析,根據貢獻率及圖像所包含信息量選取10個主成分進行分析,采用10個主成分建立不同老化程度下的判別模型和支持向量模型。結果表明,判別模型分類效果略優于支持向量機模型,其測試集分類精度達到88%以上,說明基于高光譜圖像技術檢測脫絨棉種活力方法是可行的,為脫絨棉種活力無損快速檢測提供了一種新方法。
采用權重法提取3個特征波段,建立判別模型和支持向量機模型,其中判別分析模型測試集分類精度可以達到96%左右。結果表明,采用主成分法建立的判別分析模型鑒別率略高,但利用特征波段建模法較為穩定,更具有可靠性,同時為了適應現實需求,以盡可能少的波段獲得最優的品種識別精度,波段選擇還須要進一步研究。