陳偉 周浩 潘文杰 熊永華



摘要:為提高烤煙評吸質量評估的效率,采用Spearman相關分析和偏相關分析確定影響烤煙評吸質量的7種化學成分,利用BP人工神經網絡建立7種化學成分和烤煙評吸質量之間的人工神經網絡模型,最后通過人工神經網絡對不同烤煙樣品評吸質量進行預測。結果表明,利用人工神經網絡評價烤煙評吸質量與人工法具有較好的相關性和較低的誤差。利用C++語言設計的烤煙評吸質量評估軟件可以方便地進行烤煙評吸質量模型的訓練和評吸質量的評估,具有較好的實用性。
關鍵詞:人工神經網絡;相關分析;烤煙評吸;評估模型
中圖分類號:TS41+1;TS47? ? ? ? ?文獻標識碼:A
文章編號:0439-8114(2018)24-0108-04
DOI:10.14088/j.cnki.issn0439-8114.2018.24.030? ? ? ? ? ?開放科學(資源服務)標識碼(OSID):
Abstract: In order to improve the smoking quality evaluation efficiency, Spearman correlation analysis and partial correlation analysis were used to determine the seven chemical components which affected the smoking quality of flue-cured tobacco. The artificial neural network between seven chemical components and smoking quality was established using BP artificial neural network. Finally, the artificial neural network was used to predict the smoking quality of different flue-cured tobacco samples. The results showed that the use of artificial neural network to evaluate the smoking quality of flue-cured tobacco had a good correlation with the artificial method and a low error. Flue-cured tobacco smoking quality evaluation software designed in C++ language can facilitate the training of tobacco smoking quality model and the evaluation of smoking quality, and it had good practicability.
Key words: artificial neural network; correlation analysis; tobacco smoking; evaluation model
烤煙評吸質量是反映烤煙綜合性狀的指標,其與多種因素有關,如烤煙化學成分、煙氣成分、主觀感受等。目前對烤煙評吸質量的評判往往采用人工評定法,即通過多位專家對不同樣品進行試吸,根據不同的評吸環節給出各環節的質量分數,最終將各環節的質量分數相加確定出不同樣品的評吸質量[1]。但人工評定的效率較低,難以對大范圍的烤煙進行有效的評定。
由于烤煙化學成分復雜,多種化學成分間還存在相互作用,所以難以通過固定的數學模型確定烤煙化學成分與評吸質量之間的關系[2]。人工神經網絡在處理復雜系統模型時不用考慮模型變量間的內在作用規律,通過對一定數量測試樣本的學習和訓練,可以按照提供樣本的規律實現滿足要求的輸出,因此人工神經網絡廣泛用于開發基于經驗的農業模型,例如農作物的產量預測、質量評估等[3-5]。
通過相關分析確定與烤煙評吸質量具有聯系的化學成分指標,通過這些化學成分指標,利用BP人工神經網絡建立化學成分與烤煙評吸質量的人工神經網絡模型。利用該人工神經網絡模型對多組不同的烤煙樣本評吸質量進行預測,通過與實際評吸質量的對比,表明相比于傳統的人工評吸法,利用本研究方法建立的烤煙評吸質量模型具有較好的相關性和準確性,對烤煙質量的評定具有一定的參考意義。利用C++語言開發出的烤煙評吸質量評估軟件可以實現人工神經網絡模型的訓練、導入等功能,能夠方便地對烤煙評吸質量進行評估,具有較好的實用性。
1? 數據來源與分析方法
1.1? 數據來源
數據來源于某省不同煙草產區、不同煙草品種的烤煙化學成分含量及烤煙評吸質量,數據涵蓋范圍廣,代表性強。所選取的烤煙化學成分包含總糖、還原糖、鉀、氯、總堿、總氮、蛋白質、淀粉、錳、鐵、銅、鋅及其他微量元素。評吸質量通過多位專家對不同烤煙樣品進行試吸,給出對應的分數,最后將不同專家分數平均后確定最終的烤煙評吸質量。
由于烤煙生產過程是一個多輸入多輸出的復雜農作物生產過程,具有多變量、非線性、不確定性等特點[6];烤煙生物質量綜合效益的影響因素涉及領域廣闊,同時評價指標眾多,各類指標之間量綱差異較大,難以直接建立烤煙生物質量效益綜合生產目標與其影響因素之間的機理模型。
1.2? 分析方法
烤煙評吸質量與煙葉化學成分含量存在一定的相關性[7,8],但烤煙中化學成分與評吸質量的關系復雜,對于各項化學成分與評吸質量之間的關系,在一定范圍內可以簡單分類為正相關、負相關和無相關。
斯皮爾曼相關系數(Spearman correlation coefficient)利用單調方程評價兩個統計變量的相關性,Spearman相關系數的計算方法見公式(1)。
由于斯皮爾曼相關系數不表示變量之間的線性關系,僅表示變量之間的單調性關系,對于存在相關性但是沒有線性關系的統計變量能夠更好地找出其中的相關性關系。
當研究某一個要素對另一個要素的影響或相關程度時,把其他要素的影響視作常數(保持不變),即暫時不考慮其他要素影響,單獨研究兩個要素之間的相互關系的密切程度,所得數值結果為偏相關系數。
2? BP人工神經網絡模型建立
BP(Back propagation)人工神經網絡是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是目前應用最廣泛的神經網絡,它能通過自身的訓練,學習某種規則,在給定輸入值時得到最接近期望輸出值的結果。其基本思想是梯度下降法,利用梯度搜索技術,以期使網絡的實際輸出值和期望輸出值的誤差均方差為最小。
在BP人工神經網絡中,為了保證消除指標之間的量綱影響,利用線性函數歸一化方法,通過查找各指標的最大值和最小值,將所有指標的數值映射到區間[0,1]內,以減少不同的量綱對BP人工神經網絡模型的影響。歸一化所采用的線性函數見公式2。
其中,y為歸一化后的值,x為歸一化前的值,Min和Max為該項指標的最小值與最大值。通過公式(2)可以消除不同指標的量綱的影響。
在得出評吸質量后,為了能夠更為直觀地與實際評吸質量對比,需要將結果進行逆歸一化。逆歸一化見公式(3)。
其中,y為逆歸一化后的值,x為逆歸一化之前的值,Min和Max為評吸質量的最小值與最大值。
BP人工神經網絡的擬合結果的精度與網絡結構有很大的關系。1989年,Hornik等[9]證明只需要一個擁有足夠多節點數量的隱含層,神經網絡就可以以任意的精度逼近任意復雜度的連續函數。但是目前對于隱含層節點數量的設定仍然是一個未解決的問題。
本研究利用基于黃金分割的網絡隱含層節點數優化算法[10]確定隱含層節點數量的大致范圍,通過對不同隱含層節點數量進行測試、對比,最終確定的BP人工神經網絡隱含層的節點數量為12。此外,輸入層的節點數量為7個,輸入量為7種化學成分。輸出層節點數量為1個,輸出量為烤煙評吸質量。所采用的傳遞函數為Sigmoid函數,即公式(4)。
在確定了BP人工神經網絡的結構后,利用C++語言設計了BP人工神經網絡的相關算法。BP人工神經網絡模型的參數設定為:網絡目標誤差為10-5,學習率為0.1。在BP人工神經網絡中,網絡目標誤差設置過小容易導致網絡不收斂或網絡過擬合,過大容易導致網絡欠擬合。學習率設置過小會導致收斂速度較慢,學習率設置過大可能導致網絡振蕩無法收斂。當BP人工神經網絡輸出和實際值的誤差小于目標誤差后,算法自動結束,此時各個神經元之間的連接權重和神經元輸出的閾值即為所得到的BP神經網絡模型。
利用C++語言實現的BP人工神經網絡算法的主要步驟如下:
步驟1:初始化。隨機初始化神經網絡中所有節點的閾值和節點之間的權重。
步驟2:將樣本數據輸入到神經網絡中,根據步驟1中隨機初始化的閾值和權重,分別計算不同樣本的輸出值。
步驟3:根據步驟2中BP人工神經網絡輸出的樣本值和實際值進行計算,得出其均方根誤差,判斷此時的均方根誤差是否已經滿足BP人工神經網絡的性能要求。若此時均方根誤差大于設定值,則進行步驟4,否則,進行步驟5。
步驟4:根據步驟3中的均方根誤差,從輸出層開始反向、依次計算BP人工神經網絡中輸出層、隱含層的梯度項,并依次對網絡中節點的閾值和節點之間的權重進行更新。
步驟5:算法停止迭代,記錄、保存當前的節點閾值和節點間的權重,完成BP人工神經網絡模型的建立。
3? 質量評估系統的實現
為了能夠方便地完成對烤煙評吸質量的評估,需要利用計算機高級語言將本研究所利用的方法開發成計算機應用程序。
利用C++語言,基于MFC類庫,實現了烤煙評吸質量評估應用程序。該應用程序由三個部分組成,如圖1所示。第一部分為數據庫。數據庫由SQL Server 2012開發,用于存放烤煙化學成分和對應的評吸質量數據。第二部分為核心功能部分,包含實現七個主要功能的相關函數。第三部分為人機交互界面,可以方便、直觀地完成各項功能,如圖2所示。
應用程序的主要功能如下。
1)導入樣本數據。導入數據功能運用ODBC(Open database connectivity)結構,在服務器端配置好ODBC數據源后,可以很方便地訪問SQL 2012數據庫并對數據進行讀、寫操作。
2)導出樣本數據。為方便對數據進行管理,應用程序可以將導入的數據導出保存為.xls文件。
3)樣本數據歸一化。利用線性函數歸一化方法,將所有指標的數值在程序內映射到區間[0,1],在人機交互界面中,數值的大小不會發生變化,以保證原始數據具有較好的可讀性,方便用戶操作。
4)訓練神經網絡模型。完成導入數據和歸一化處理后,可以利用BP人工神經網絡建立評估模型。在神經網絡模型訓練的過程中,程序會自動等待訓練結束,并在結束時進行提示。
5)保存神經網絡模型。由于利用BP人工神經網絡訓練模型需要耗費一定的時間,為了提高程序運行效率,程序可以將當前訓練得出的BP人工神經網絡模型保存為本地的模型文件方便后續使用。
6)導入神經網絡模型。如果已經存在BP人工神經網絡的模型文件,則可以直接導入該模型,避免由于多次訓練模型造成的時間浪費。
7)評估烤煙評吸質量。當軟件已經訓練得出BP人工神經網絡模型或通過導入功能直接導入神經網絡模型后,輸入對應的化學成分指標就可以直接評估得出評吸質量并將結果顯示在人機交互界面中。
利用該應用程序進行烤煙評吸質量評估的大致流程如圖3所示。通過該計算機應用程序可以從數據庫中導入化學成分和評吸得分的數據,將這些數據歸一化后訓練得出化學成分和評吸質量之間的BP人工神經網絡模型,并可以將這些模型保存在計算機上。同時,也可以導入模型并進行烤煙評吸質量的評估。
4? 結果與分析
4.1? 相關分析結果
在SPSS 23.0軟件中,利用Spearman相關分析和偏相關分析相結合的方法,對不同的化學成分和烤煙評吸質量進行了相關性分析。分析結果見表1。從表1可以看出,總糖、還原糖、淀粉與烤煙評吸質量之間具有一定的正相關關系;鉀、氯、總堿、總氮與評吸質量之間為負相關關系,而其他的化學成分與評吸質量之間的相關性較弱。考慮到模型的精簡性,最終選取了總糖、還原糖、鉀、氯、總堿、總氮、淀粉這7個化學成分指標作為BP人工神經網絡模型的輸入。
在本研究中,可用的樣本總數為40。將其中的30個作為訓練樣本,剩下的10個作為驗證樣本。
4.2? BP人工神經網絡評估結果
為了確定BP人工神經網絡模型的性能,本研究使用了4個統計學標準:BP人工神經網絡模型的預測值與期望輸出值之間的誤差(Δ)及相對誤差(δ)、線性回歸的均方根誤差(RMSE)和兩者間的相關系數(r)。
將10個驗證樣本用于烤煙評吸質量的評估,這些樣本的實際評吸質量和利用應用程序得出的評估質量以及它們的誤差如表2所示,兩者的散點圖如圖4所示。
從表2可以計算得出,利用BP人工神經網絡模型評估得出的評吸質量與實際的評吸質量之間的平均絕對誤差為-0.073,平均相對誤差為-0.081%,相關性為0.524,均方根誤差為1.326 5。這表明利用BP人工神經網絡模型評估得出烤煙評吸質量和專家評吸得出的評吸質量之間具有較小的誤差和較好的相關性,通過本研究方法建立的模型在烤煙評吸質量的評估上具有可靠性。
5? 小結與討論
采用相關分析和BP人工神經網絡的方法對烤煙評吸質量進行評估。基于對烤煙化學成分和評吸質量之間的偏相關分析,首先篩選出影響烤煙評吸質量的主要化學成分,之后利用BP人工神經網絡建立了烤煙評吸質量評估模型。總體而言,本研究表明BP人工神經網絡是評估烤煙評吸質量的有效、可靠的方法。利用該方法得到的評估質量與專家得到的評吸質量之間的誤差較小,且具有一定的相關性,通過對烤煙樣本進行常規化學成分檢測就可以有效對其評吸質量進行評估,可以提高評估效率。利用本研究方法開發的計算機應用程序具有使用方便、流程簡單的特點,可以將本研究所采用的建模方法推廣與應用。
烤煙特定化學成分與烤煙評吸質量之間的關系需要更多、更全面的數據作為進一步研究的基礎,如何更準確地選擇影響烤煙評吸質量的主要因素是進一步研究的方向之一。
參考文獻:
[1] 聶? 銘,周冀衡,楊榮生,等.基于MIV-SVM的烤煙評吸質量預測模型[J].中國煙草學報,2014,20(6):56-62.
[2] 段俊杰,蔣美紅,王? 嵐,等.基于化學成分的煙葉質量神經網絡預測[J].西南農業學報,2012,25(1):48-53.
[3] DAHIKAR S,RODE S. Agricultural crop yield prediction using artificial neural network approach[J].International Journal of Innovative Research in Electrical, Electronics, Instrumentation and Control Engineering,2014,2(1):683-686.
[4] ZENG W Z,XU C,ZHAO G,et al. Estimation of sunflower seed yield using partial least squares regression and artificial neural network models[J].Pedosphere,2018,28(5):764-774.
[5] ALVAREZ R. Predicting average regional yield and production of wheat in the Argentine Pampas by an artificial neural network approach[J].European Journal of Agronomy,2009,30(2):70-77.
[6] WU J,YANG S X,TIAN F C. An adaptive neuro-fuzzy approach to bulk tobacco flue-curing control process[J].Drying Technology,2017,35(4):465-477.
[7] 許安定,杜國偉,劉洪斌.基于CART模型的烤煙評吸質量影響因子研究[J].西南農業學報,2013,26(4):1356-1361.
[8] 李洪勛,潘文杰,李建偉,等.烤煙內在化學成分含量與感官評吸指標的關系分析[J].湖北農業科學,2013,52(8):1836-1841.
[9] HORNIK K,STINCHCOMBE M,WHITE H. Multilayer feedforward networks are universal approximators[J].Neural Networks,1989,2(5):359-366.
[10] 夏克文,李昌彪,沈鈞毅.前向神經網絡隱含層節點數的一種優化算法[J].計算機科學,2005,32(10):143-145.