周 圣
(武漢輕工大學 湖北武漢 430000)
我國是油料生產和消費的大國,主要的油料作物有油菜、大豆、向日葵、胡麻、芝麻等[1]。油料及其相關制品都具有非常豐富的營養功能成分,如蛋白質、脂肪酸、維生素等,為人類的正常活動提供了必需的能量和營養物質[2]。氣相色譜法、液相色譜法、索氏提取法或聯用技術是目前油料品質檢測通常采用的方法。傳統化學方法如字面一般,無一例外都需要使用化學試劑,操作較為煩瑣,耗時較長,成本普遍偏高,且無法滿足現場快速無損檢測的需要。相較于這些傳統化學方法,近紅外光譜技術是一種綠色、無損的快速檢測技術,具有操作簡單、檢測成本低、無須化學試劑、綠色環保,以及可實現多品質參數同步檢測等優點,廣泛應用于油料品質的無損快速檢測。
近紅外光譜區的波長范圍介于中紅外光譜區和可見光區域之間。近紅外光譜主要是含氫基團伸縮和彎曲振動的倍頻與合頻吸收,通過透射和漫反射兩種方式獲得,主要用于分析固、液、氣三態樣品的物理化學性質[2]。
化學計量學方法同近紅外光譜技術緊密結合,已廣泛應用于油料產品品質的速測。近紅外光譜技術在快速測定油料特異品質中發揮著更重要的作用,然而該技術無法像氣相色譜等傳統化學方法那樣得到更加精確的數值,本文提出了一種基于LinearSVR(線性支持向量回歸)的模型,用以快速預測油菜含油量,并取得了較好的結果。
支持向量機(SVM)是機器學習中較為常見的一種分類算法,支持向量機作為二分類模型,尋找一個超平面(假若數據集是X維的,那么就需要X-1維的某個對象來對數據進行分割,這個分類的決策邊界就被稱為超平面)是它的最終目標。分割樣本遵循的規則是使間隔最大化,最終問題的實質是對一個凸二次規劃問題進行求解。在二維空間中的點僅能使用非線性的超平面才能分割開來,而映射到高維空間中,就能夠使用一個線性的平面給分割開。支持向量機需要完成的任務就是在這些能夠選擇的直線中選擇一條最優的直線作為分類的直線。遇到的情況分為幾種:(1)對于線性可分的訓練樣本,學習一個線性可分支持向量機,采用硬間隔最大化的方法;(2)對于近似線性可分的訓練樣本,學習一個線性支持向量機,使用方法是軟間隔最大化;(3)對于線性不可分的訓練樣本,學習一個非線性支持向量機,方法為軟間隔最大化和核技巧。在它們當中,坐落在數據邊界的兩邊超平面上的點稱為支持向量,即對于點的“犯錯”的忍耐度越大越好,通俗來講就是函數的間隔越大越好,最終擬合線也是由這些點來確定的。
超平面表達式:f(x) =wTx+b。其中f(x)表示目標超平面,b表示偏置參數,wT表示權重參數。在SVR中,認為只要f(x)與y偏離不大,即算預測正確,ε為擬合精度控制參數。
支持向量回歸表示,凡是在虛線內部的值均可認為是預測正確,需要計算的只有虛線外部值的損失。在日常的實際任務中很難確定一個切合的核函數來使得訓練樣本在特征空間中線性可分,適逢找到了某一個核函數使得訓練集在特征空間中線性可分,但也不能夠肯定是不是由于過擬合所造成的這個似乎是線性可分的結果。容許支持向量機在某些樣本上出現錯誤是解決這個問題的一個好辦法,因此就需要軟間隔(soft margin),即在前面介紹的支持向量機是要求在所有樣本均滿足超平面表達式的約束條件下,允許部分樣本不滿足約束,考慮到SVM中線性不可分的情形,引入拉格朗日乘數,得到線性擬合函數為:

這之中αi、αi*表示拉格朗日乘子。在線性不可分的情況下,支持向量機首先是在低維空間之中完成計算,再將輸入空間映射到高維特征空間,使用的方法是核函數,最后是構造,在高維特征空間中構造出最優分離超平面,從而把平面上那些本身并不好分的非線性數據分開。利用低維的輸入空間,使其轉換為高維空間,即將不可分離的問題轉化為可分離問題,這些函數稱為核。引入核函數,則得:

文中使用的數據來自中國農業科學院油料作物研究所。由于影響油菜含油量的因素眾多,在考慮各種的因素相關性之后,探究了油菜種子中脂肪酸組分同含油量的相關性,得到圖1。

圖1 相關系數熱力圖
關于誤差的評價指標常用的有MAE、MSE、RMSE、statD、MAPE、VAF等。本文研究的內容是含油量的預測問題,指標之間是大同小異的,所以應當選取其中最為合適的指標來評價預測的誤差。因此,本文僅選取MSE具有代表性的指標來評價模型的預測效果。

其中,yi為產品銷量的預測值,為產品銷量的實際值。MSE被稱為均方誤差,從表達式中也能夠看出,MSE值越小,模型的預測效果越好。
選取C16-0、C18-0、C18-1、C18-2、C18-3、C20-1、C22-1、C22-1IN、C22-1LOW,共九項指標作為模型的輸入,以油菜含油量這一項作為模型的預測輸出。以LinearSVR預測模型進行分析,該模型的平均相對誤差為1.725。表1為隨機選取200 份材料中的10 份樣本進行模型預測值與實際值的差值比較的結果。

表1 模型預測值同實際值的差值比較
由表1可知,預測模型具有良好的預測精度。
圖2是預測模型對隨機選取的10 份樣本的預測曲線圖,圖中的兩條曲線是分別根據產品的預測含油量和實際含油量數據繪制而成,將其放置在一張圖中能夠更加直觀地觀察預測誤差變化的情況。

圖2 油菜含油量預測
本文提出了基于LinearSVR的油菜含油量預測模型,SVR通過核函數將訓練樣本數據進行非線性映射至高維特征空間,并在此高維空間進行回歸預測。實驗表明,本文提出的基于LinearSVR的油菜含油量預測模型具有良好的預測準確度。與此同時,后續的改進及創新主要為:油菜含油量受多種因素影響,相互間的關系也較為復雜,接下來的工作中,可能考慮引入多目標的混合算法,通過對受多個因素影響的含油量進行最優規劃,進而得到更加準確的模型預測值。