基于機器學習方法的吉林大米產地確證模型研究

2018-11-19 03:16:42王靖會臧妍宇陳美文于合龍

中國糧油學報 2018年9期

王靖會臧妍宇曹崴崔浩鄭暉陳美文于合龍

(吉林農業大學信息技術學院1，長春 130118)

(吉林農業大學食品科學與工程學院2，長春 130118)

隨著食品貿易的全球化發展和糧食供給側改革的推進［1］，具有原產地保護(Protected Designation of Origin，PDO)和地域特色標志(Protected Geographic Indication，PGI)的農產品在過去幾年中受到普遍的認可［2］。吉林省地理標志大米由于其地理位置和氣候環境獨特，其米飯清香四溢、營養豐富，隨著人們對健康和天然食品的需求日益增長，具有多重優勢和獨特品質的吉林大米聞名全國。然而，由于內在的商業價值和產地確證技術的欠缺，針對地理標志大米的欺詐和模仿已嚴重干擾了大米市場，因此，確定地標大米(地理標志大米)原產地已成為一個嚴重的社會問題，迫切需要進行吉林大米產地確證技術研究。

國內外文獻表明，產地確證研究應用的機器學習技術主要有支持向量機［3］、人工神經網絡［4］等技術。Alcázar等［5］為區分歐洲啤酒(德國、西班牙和葡萄牙)地理產地，利用線性判別分析和支持向量機對20種元素變量判別力進行了研究，結果顯示，通過線性判別分析可在數據集中找出5個最有判別力的變量，結合交互算法可獲得支持向量機模型最優超平面，模型的靈敏度和特異性分別(99.3 ±1.2)%、(99.5 ±0.8)%。Binetti等［6］對阿普利亞的四個最有代表性橄欖油品種進行了神經網絡訓練和驗證，利用四個不同的數據集標準、兩種隱藏層數量、5種神經元數量來驗證預測因子，其結果表明，最小絕對收縮和選擇算子算法作為預測因子的人工神經網絡模型的準確率最高(88.2%)。Chung等［7］為研究區分亞洲大米地理產地的可行性，通過主成分分析和最小二乘判別模型評估6個國家的地理產地，其研究結果表明，主成分分析無法區分日本和菲律賓的大米，最小二乘判別模型可以區分韓國和其他國家的大米。Cheajesadagul等［8］通過主成分分析和判別分析對泰國香米和法國、印度、意大利、日本和巴基斯坦大米進行了產地分類，基于多變量的主成分分析結果顯示，通過 B、Sr、Mo、Se、Cd、Cu、Mg 等元素可以區分泰國大米、歐洲大米和亞洲大米的地理產地，但主成分分析無法對泰國香米的北部、東北部和中部地區進行分類，判別分析方法可較好地區分泰國香米的這三個產區，結果顯示對泰國東北部地區的分類精度最高(100%)，對中部地區的分類精度最低(71.43%)。

在大米產地確證方面，研究對象大多限于地理空間距離較遠的不同國家或省份，研究方法多采用主成分分析、判別分析等多元線性分析方法。我國現已擁有多個具有PDO/PGI認證的地理標志大米，其中多數產區具有相似的地域特征和屬性，由于地區氣候和地形特征等因素的制約，限制了水稻生產的集約化規模，又導致了稻作區域特征信息在地球化學因素、環境氣候、加工因素和人為因素等方面的差異性和復雜性，現有的化學計量學結合多元線性模型無法有效解決產地分類問題。機器學習方法克服了參數和非參數統計方法的缺點，如空間自相關，非線性和過擬合［9］，提高了空間模型的預測精度，尤其近年來，隨著食品數據量的激增和產地分類研究的不斷深入，目標元素的數量級別和樣本處理量越來越大，考慮到大數據分析的發展趨勢和食品認證現場數據的潛在需求，機器學習方法對于大米產地確證的重要性日益明顯。

為探究不同機器學習方法建立的產地確證模型對鄰近相似地域的分類效果，篩選出構建分類模型的特征變量，深層次挖掘數據中的隱藏模式，本研究對吉林省具有PDO/PGI認證的柳河大米與輝南大米進行數據挖掘研究，采用支持向量機、隨機森林和人工神經網絡三種機器學習方法進行模型開發，通過F－score進行變量評估和特征選擇，為進一步建立吉林地理標志大米產地數據庫及確證平臺，探究農特產品產地確證體系提供參考。

1 材料與方法

1.1 數據來源

1.1.1 樣本采集

本研究選擇吉林省柳河縣和輝南縣作為研究區域，該區域位于北緯 42.28°N ～42.68°N，東經12125.73°E ～126.03°E。為避免在不平衡數據集中，分類器偏向大多數類，忽略了少數類的重要性，進而影響分類模型的預測性能，本研究采用空間分層采樣方法在柳河縣采集62個樣本，輝南縣采集58個樣本，具體采樣區域及采樣點分布如表1所示。

表1 大米樣本采集點分布表

1.1.2 儀器與試劑

JLGJ4.5礱谷機;HNMJ3碾米機;JXFM 110錘式旋風磨;AA－6300原子吸收分光光度計。

檢測樣本主要試劑包括硝酸、高氯酸、鹽酸和氫氟酸溶液。

1.1.3 檢測方法

根據我國 GB/T 14609—2008、GB/T 5009.91—2003、GB5009.12—2010 檢測銅(Cu)、鋅(Zn)、鐵(Fe)、錳(Mn)、鉀(K)、鈣(Ca)、鈉(Na)、鎂(Mg)、鉛(Pb)、鎘(Cd)10種礦物質元素。

其中，Pb、Cd采用石墨爐原子吸收分光光度法，Fe、Na、K、Mg、Ca、Mn、Zn、Cu 采用火焰原子吸收分光光度法。

1.2 機器學習方法

1.2.1 人工神經網絡

人工神經網絡(Artificial Neural Network，ANN)是基于生物神經網絡結構的非線性統計數據建模工具，由一組相互關聯的計算單元或人造神經元組成［10－11］。其中反向傳播人工神經網絡(Back －Propagation Artificial Neural Network，BP －ANN)因其體系結構簡單，模型構建方便，計算速度快被廣泛應用。BP－ANN模型的體系結構如圖1所示。

圖1 反向傳播人工神經網絡結構圖

1.2.2 隨機森林

隨機森林(Random Forest，RF)是一種集合學習算法，其主要思想:首先，利用bootstrap抽樣方法(有放回)從原始訓練集D中抽取k個樣本集{}，且每個樣本容量均與原始訓練集一致;其次，對k個樣本集建立k個決策樹模型形成森林，每一個決策樹模型均從M個屬性中隨機選取m(m＜＜M)個屬性，得到組合的分類器，利用k個模型對測試集分別進行分類，得到k種分類結果;最后對k種分類結果累計投票決定其最終分類結果［12］。這種分類方法大大降低了計算成本，加快了運算速度［13］。

1.2.3 支持向量機

支持向量機(Support Vector Machines，SVM)是一種二元分類器，其主要思想是建立一個超平面作為決策曲面，使得正例和反例之間的隔離邊緣被最大化，即求最優分類超平面［14］。這不僅減少了預測誤差的可能性，而且還降低了過度擬合的風險［15］。

在支持向量機中可以使用核函數解決非線性分類問題，等價于將數據映射到高維空間并定義分割超平面。常用的核函數有:多項式核函數(Polynomial Kernel Function)、徑向基核函數(Radial Basis Function，RBF)、Sigmoid 核函數等。

1.3 特征選擇方法

所有的原始變量對于建立分類模型并非都有積極作用，其中存在一些與數據集分布不相關的噪聲數據，這些冗余噪聲會降低模型的分類性能并增加分類器的計算成本，同時變量間的多重共線性也會影響分類模型的預測準確度。特征選擇是常見的降維方法，基本思想是從原始數據集中選擇最優的特征變量子集去構建分類模型，不僅能夠提高模型的泛化能力、可理解性和計算效率，而且降低了“維度災難”的發生頻率［16］。F－score算法是典型的特征選擇方法，其本質是選取類內差異小，類間差異大的特征［17］，可以通過衡量特征子集在兩類之間的分辨能力，從而實現有效特征的選擇。F值越大表明該屬性的辨別能力越強，對分類模型的貢獻率就越大。F值的計算如公式(1)所示。

1.4 模型評估方法

為評估分類模型的性能，通常將數據分成兩組子集，一組用于訓練模型，一組用于測試訓練的模型。訓練集數量一般選取樣本總數的2/3［18－20］。

1.4.1 K 折交叉驗證

K折交叉驗證技術是常用的評價模型方法，能夠解決過度適應的問題，因此被廣泛應用于分類器性能評測領域［21］。其主要思想是將原始數據集隨機分為K份大小相近但不相交的數據集，將K－1份數據集作為訓練集，剩余的1份作為測試集，通過訓練集得到一個分類模型，然后用測試集調整參數Wi，i=1，…，m，即每一個個體分類器的權重因子，基于訓練集得到的分類模型就可以通過測試集來進行評估［22］。為了獲得穩定的結果，將該過程重復n次，根據n次檢驗的平均正確率作為模型分類的最終結果。

1.4.2 混淆矩陣

混淆矩陣是一種用可視化方式來呈現算法性能的評價標準，它通過矩陣描述樣本數據的真實類別屬性和預測結果的關系［23］。混淆矩陣由真正例(True Positive，TP)、假正例(False Positive，FP)、真反例(True Negative，TN)、假反例(False Negative，FN)四部分組成，總樣本數為四者之和。分類模型的準確度、靈敏度和特異度三個性能指標的計算如公式(2)、(3)、(4)所示。

式中:TP為真正例;TN為真反例;FP為假正例;FN為假反例。

2 結果與討論

本研究以R語言實現BP－ANN、RF及SVM的建模過程，建立柳河大米及輝南大米的產地確證模型。為保證數據劃分的隨機性和一致性，運用R3.4.2軟件內的sampling程序包中的strata()函數實現分層抽樣，將原始數據集的120個樣本以2∶1的比例劃分為訓練集和測試集，并保證來自于柳河與輝南的大米樣本比例一致，80個訓練集樣本用于模型的建立和優化，40個測試集樣本用于外部精度檢驗。

2.1 大米礦物元素的差異性

柳河縣與輝南縣大米樣本的礦物質元素檢測含量如表2 所示，兩產地中的 Cu、Zn、K、Ca、Na、Pb、Cd八種礦物質元素之間存在極顯著差異(P＜0.01)，Mn元素表現為顯著性差異(P＜0.05)，Mg元素和Fe元素差異性不顯著，由此可知兩產地之間的Cu、Zn、K、Ca、Na、Pb、Cd、Mn 具有其各自的特征，存在一定的差異性，采用礦物元素指紋信息進行產地確證具有可行性，可進一步探討。

表2 柳河大米和輝南大米的礦物質元素含量

2.2 模型建立與優化

2.2.1 BP －ANN 模型

本研究運用R3.4.2軟件的AMORE程序包建立3層BP－ANN模型。按照變量個數及輸出類目設定輸入層為10，輸出層為1，根據網絡訓練時間和模型泛化能力設置中間層的隱層數為1。隱含層節點數對于建立BP－ANN模型至關重要，根據公式(5)計算出其選擇區間為4～14，經遍歷后獲得隱層節點個數與BP－ANN模型準確率的變化曲線，如圖2所示。從圖2中可以看出，隱層節點數為6時，此時模型的分類能力最好，分類準確率為72.5%;當隱層節點數為7時，此時模型的分類效果最差，分類準確率僅為45%。所以，建立10－6－1結構的BP－ANN

式中:L為隱含層節點數;n為輸入層節點數;m為輸出層節點數;a為0～10之間的常數。

圖2 BP－ANN中不同隱層節點數的模型準確率

產地確證模型能夠達到產地分類的目的，但是分類效果一般，尚需要進行進一步優化驗證，提高模型的分類能力。

2.2.2 RF 模型

本研究使用R3.4.2軟件中的Random Forest程序包建立RF模型。隨機特征變量個數mtry和決策樹數量ntree兩個參數的值直接影響RF模型的性能，需要選取最優參數值進行模型訓練。特征變量mtry的值，通過實際模型的袋外估計誤差進行選擇，通常選擇誤差最小的mtry值，特征變量ntree的值則選擇誤差區域穩定時的值，此時建立準確率較高的RF模型。隨機森林mtry和ntree值誤差尋優的過程如圖3和圖4所示。當mtry=3時，此時模型袋外誤差估計值最小，最小誤差為0.001 89;當ntree=500時，此時模型袋外誤差估計值開始趨于穩定，不再隨著tree值的增加而波動。因此，選擇mtry=3，ntree=500建立隨機森林模型，此時模型的準確率可達到為100%，可以準確的對柳河和輝南兩產地進行分類。

圖3 mtry參數尋優

圖4 ntree參數尋優

2.2.3 SVM 模型

本研究使用R3.4.2軟件中的e1071程序包建立SVM模型，選擇對噪聲數據有良好抗干擾能力的徑向基核函數(Radial Basis Function，RBF)。RBF核函數建模時需要設置核函數gamma值和懲罰因子cost值，這兩個參數對核函數的性能有很大的影響［24］。gamma值和cost值的尋優過程如表3所示。從表3中可以看出，當gamma=0.062 5，cost=1時分類模型誤差最低，此時，error=0。因此gamma參數值確定為0.062 5，cost參數值確定為1，此時建立的SVM模型準確率可達100%。

表3 SVM參數尋優

2.3 特征變量選擇

通過F－score算法，對10種礦物質元素(Cu、Zn、Fe、Mn、K、Ca、Na、Mg、Pb、Cd)進行特征選擇，結果如圖 5所示，各元素的 F－score值分別為:Cu=7.593 2，Zn=2.991 9，Pb=2.644 6，Ca=2.179 4，Cd=0.769 3，K=0.661 49，Na=0.345，Mn=0.097 5，Mg=0.061 5，Fe=0.026 9，10 個元素的整體平均值為 1.737 1，其中 Cu、Zn、Pb、Ca 4 個元素的F－score值大于整體的平均值，對于建立大米產地確證模型具有較高的貢獻率，可作為建立模型的特征變量。

圖5 兩個產區大米中礦物元素的F分數

2.4 模型性能評估

三個模型的建立與優化均在相同的訓練集中，而測試集從未參與任何模型的建立，訓練集和測試集樣本均通過分層抽樣等比例抽取，因此基于測試集的三個模型的分類精度可以有效代表模型對未知樣本的預測能力。

本研究中混淆矩陣的預測類別和真實類別設置如表4所示。根據每個模型的分類混淆矩陣，計算相應的準確率，靈敏度和特異度，進而評估模型的預測性能。其中，準確率表示柳河產區及輝南產區大米樣本整體的分類精度，靈敏度表示柳河產區大米樣本正確分類的精度，特異度表示輝南產區大米樣本正確分類的精度。

表4 柳河大米和輝南大米產區分類的混淆矩陣

在計算出F－score值的基礎上，建立特征變量集合K，K={k1，k2，…k10}，子集k1僅包含貢獻率最高的元素，子集k2包含貢獻率前兩名的兩個元素，依此類推，最后一個子集k10包含所有原始變量，即變量子集 k1={Cu}，k2={Cu，Zn}，… ，k10={Cu，Zn，Pb，Ca，Cd，K，Na，Mg，Mn，Fe}，通過逐步添加屬性變量訓練模型，能夠觀察到每個屬性變量對模型預測性能的影響。

在10次10折交叉驗證下，按照F－score值得到的變量子集，依次對BP－ANN、RF和SVM 3個模型進行評估比較，得到準確率的變化如表5所示。從表中準確率判斷，僅用 Cu元素建立的產地確證模型就達到了較高的分類精度(BP－ANN:94.29%;RF:87.40%;SVM:91.52%);RF 模型和SVM模型的分類精度隨著特征變量的增加而提高，其中 RF 模型在變量子集為 k6(Cu、Zn、Pb、Ca、Cd、K)時判別準確率達到100%，SVM在變量子集為k3(Cu、Zn、Pb)時即可達到判別準確率為100%，同比BP－ANN模型的分類精度則有較大變化，在k2變量子集時，判別準確率為99.17%，k3變量子集中雖然增加了Pb元素，但判別準確率并沒有變化，而隨著其他礦物質元素變量的逐步增加，模型的分類精度反而呈下降趨勢。

表5 使用不同的變量子集的模型分類精度

BP－ANN、RF和SVM選取其準確率最高的變量子集結果，計算其對應的靈敏度和特異度，結果如表6所示，RF模型和SVM模型的靈敏度均為100%，而BP－ANN的靈敏度98.61%，存在將柳河大米數據錯分成輝南產地的情況。三個模型的特異度均為100%，模型預測性能優異。

表6 大米產地確證模型的最佳性能比較

從檢測成本及運算代價上評價，選擇Cu和Zn兩個變量建模時三個模型均達到了很高的預測精度，此時 SVM(99.23%)＞BP－ANN(99.17%) ＞RF(98.46%);從預測準確率上評價，SVM與RF均可達到100%，而BP－ANN最高精度為99.17%，略遜于其他兩個模型。

三種機器學習方法就柳河縣與輝南縣兩個產地確證而言，各自的最佳模型分別是:用(Cu，Zn，Pb)訓練出來的準確率100%的SVM模型，用(Cu，Zn，Pb，Ca，Cd，K)訓練出來的準確率100%的RF模型，以及用(Cu，Zn)訓練出來的準確率99.17%的BP－ANN模型。

3 結論

研究結果表明，采用機器學習方法建立的產地確證模型是有效的，BP－ANN、RF和SVM三種模型均達到了較好的預測性能。通過三個模型之間交叉驗證結果和混淆矩陣結果的比較可得到，RF模型和SVM模型分類精度優于BP－ANN模型。SVM模型相比于RF模型對變量更加敏感，能夠以更少的特征變量建立柳河與輝南的產地確證模型。

值得關注的是，在區分柳河縣與輝南縣的大米樣品過程中，Cu元素在整個模型建立過程中起著重要的作用，盡管隨著特征變量的逐漸增加，模型的性能有所提高，但不能忽視單個Cu元素就達到了較高的分類精度，可以將其作為代表該地區空間特征的典型變量。

本研究中BP－ANN、RF和SVM產地確證模型的建立與比較和建模特征變量的選擇對于開發該區域地理標志大米數據庫及確證平臺有積極意義，隨著樣本數據量與空間特征維度的不斷擴充，機器學習方法將更能展現其強大的學習能力，產地確證模型也將不斷完善。該方法能夠為我國農特產品質量安全保障、地理標志產品品牌權益保護以及建立健全產地確證體系提供一定的參考。