蔣華偉,周同星
基于Fisher判別法則的小麥品質(zhì)多指標分級
蔣華偉,周同星
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州 450001)
小麥生理生化指標對研究其儲藏品質(zhì)具有重要的作用,但由于各指標間關(guān)系的復(fù)雜性,所表達的信息存在較大差別,這給小麥儲藏品質(zhì)分析帶來很大的不便。針對該問題,該文提出了一種小麥儲藏品質(zhì)多指標分析模型,選取降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛7個生理生化指標作為分析的關(guān)鍵因素,通過相似性和主成分法對各指標進行分析計算,發(fā)現(xiàn)脂肪酸值最具代表性;基于脂肪酸值數(shù)據(jù)分布變化趨勢,采用聚類分析方法對小麥分類;使用Fisher判別法對小麥數(shù)據(jù)進行訓(xùn)練,得到2類判別函數(shù),其中判別函數(shù)1的貢獻率達到89.7%,在該函數(shù)下,計算獲得3種類別小麥的中心值為–5.699、1.316和3.945,從而為判斷小麥的品質(zhì)狀況提供計算依據(jù)。試驗計算結(jié)果表明,在18批儲藏小麥中,該文判別模型對小麥的分類結(jié)果與實際參考標準分類結(jié)果的一致性達到88.9%,驗證了本模型的合理性,研究結(jié)果可為小麥品質(zhì)評價分類提供參考。
農(nóng)產(chǎn)品;品質(zhì)控制;模型;生理生化指標;相似性分析;主成分分析;系統(tǒng)聚類;Fisher判別法
生理生化指標在評價小麥儲藏品質(zhì)方面有著重要作用。研究發(fā)現(xiàn)儲藏環(huán)境和時間的變化不僅會造成小麥品質(zhì)不同程度的劣變,而且會使小麥生理生化指標產(chǎn)生顯著變化[1-4]。同時不同的指標在反映小麥品質(zhì)特性方面的作用是各異的,例如小麥脂肪酸值的大小與儲藏溫度和儲藏時間有著明顯的正相關(guān)性[5-6];降落數(shù)值反映了小麥的生化活性[7];過氧化氫酶的產(chǎn)生和存在與小麥細胞的衰老過程緊密相關(guān)[7-8];發(fā)芽率體現(xiàn)了小麥種活性和時間的變化關(guān)系[9-10];電導(dǎo)率為小麥對水分的吸附能力[11-12]。由于指標作用的特異性,研究小麥多指標對小麥儲藏品質(zhì)的分類貢獻度有著重要的意義。目前對小麥品質(zhì)狀況的判定一般采取單指標分析法[13-14],這樣雖然可以簡化分析計算過程和提高評判效率,但采用單一指標表達總體品質(zhì)變化會出現(xiàn)一定的誤差。
另外各個指標在數(shù)量級、變化幅度上差異較大,且在不同的存儲階段,各指標的變化規(guī)律也各具特性[15-16],所以需要采用多指標綜合分析小麥品質(zhì)變化規(guī)律。但在使用多指標評估小麥品質(zhì)的過程中會出現(xiàn)一些問題:如各指標間具有復(fù)雜的相關(guān)性,所反映的信息在一定程度上有所重疊;同時分析過多的指標可能造成計算量和誤差的增大。
對此,采用多因子分析方法能在一定程度上消除多指標評判帶來的誤差[17-18];除此之外,在對高維海量數(shù)據(jù)進行分析研究[19-21]時,可采用聚類分析獲知樣本的分布情況[22-23],以及利用Fisher準則(費舍爾判別準則)[24-26]將高維數(shù)據(jù)進行降維處理來彌補上述方法的缺陷。這些方法雖然考慮了多因素之間的聯(lián)系,并從整體性進行了研究,但沒有從指標個體和總體的關(guān)系方面進行具體的分析計算,在綜合分析解決問題上仍存在不足之處。
顯然對于指標數(shù)量較多且彼此間存在復(fù)雜內(nèi)在聯(lián)系問題,目前還鮮有對小麥多指標進行的綜合分析研究。為了選取能合理評判小麥儲藏品質(zhì)的指標,消除過多指標可能帶來的誤差,優(yōu)化分析和計算的過程,獲得綜合多指標對小麥的準確分類和判別,本文嘗試采用一種新的分析方法,即基于歐式距離對小麥各指標進行相似性分析,采用主成分分析法(principal components analysis,PCA)獲取關(guān)鍵指標數(shù)據(jù),對各指標的敏感性進行計算比較,以便更加有效地描述小麥的不同特征,從而對小麥儲藏品質(zhì)進行分類預(yù)測,并由Fisher準則對分類結(jié)果進行訓(xùn)練獲得判別函數(shù),由此將計算結(jié)果和真實數(shù)據(jù)進行比對分析。
試驗選取河南省農(nóng)科院培育的高筋麥(鄭麥9023),小麥在試驗前儲存在淺圓倉型糧庫中,倉內(nèi)全年溫度維持在22~25 ℃之間,小麥水分保持在11%~12.5%之間。選取若干批入庫時間不同的小麥作為試驗材料,依據(jù)小麥和玉米深加工國家工程實驗室的建議要求并參考文獻[27]對小麥進行預(yù)處理,具體如下:
先采用體積分數(shù)為5%的次氯酸鈉溶液(化學(xué)純)無菌處理5 min,并用無菌水清洗,再將各批小麥分別封裝在1 000 mL玻璃瓶中,平衡5 d。在整個測試期間,調(diào)節(jié)瓶內(nèi)水分使其濕度保持為相對穩(wěn)定的12.5%,儲藏溫度設(shè)置為25 ℃。
氫氧化鉀;無水乙醇;乙酸鈉;溴酚藍;重鉻酸鉀;硫代硫酸鈉;鄰苯二甲酸氫鉀;酚酞;可溶性淀粉等(試劑等級皆為CP,化學(xué)純)。
PQX型多段可編程人工氣候箱;錘式旋風(fēng)磨;恒溫水浴鍋;1010-3型鼓風(fēng)恒溫干燥箱;HY-2調(diào)速多用振蕩器;DDS-11At電導(dǎo)率儀;XK96-B快速混勻器;降落數(shù)值儀;SPX-150生化培養(yǎng)箱等。
上面所述7個生理生化指標中脂肪酸值、降落數(shù)值、還原糖、發(fā)芽率、過氧化氫酶5個指標分別根據(jù)GB/T 15684-2015、GB/T 10361-2008、GB/T5009.7-2016、GB/ T5520-2011、GB/T5522-2008進行測定,小麥電導(dǎo)率參考文獻[5]中的方法測量,小麥丙二醛采用文獻[7]中的方法進行測量,對每批小麥數(shù)據(jù)的7個指標樣品均做3次平行試驗,標準誤差均小于±5%,取均值作為試驗數(shù)據(jù),具體測試數(shù)據(jù)及標準差如表1所示。

表1 小麥指標數(shù)據(jù)
基于已有研究結(jié)果,本文對小麥儲藏品質(zhì)進行分析時,選取降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛等7個與儲藏品質(zhì)相關(guān)程度不同的生理生化指標。對于這些指標內(nèi)在關(guān)聯(lián)是否復(fù)雜以及能否綜合表達小麥的整體品質(zhì)等問題,仍要進一步研究;所以在對小麥指標計算前,需要對相關(guān)變量進行處理分析。
KMO測度(kaiser-meyer-olkin)是一種判斷原始變量是否適合作因子分析的統(tǒng)計檢驗方法,用于檢驗變量間的相關(guān)系數(shù)和偏相關(guān)系數(shù)之間的關(guān)系。當(dāng)所有變量的簡單相關(guān)系數(shù)平方和遠遠大于偏相關(guān)系數(shù)平方和時,變量間的相關(guān)性越強,適合用主成分分析;反之,則不適合主成分分析。在統(tǒng)計學(xué)上,KMO測度>0.5,即可進行因子分析;在0.7以上表明因子分析效果很好。
在對小麥各指標進行分析計算時,一般采用皮爾遜積矩相關(guān)系數(shù)來度量指標和之間的相互關(guān)系,的取值范圍為[–1,+1],計算公式為

其中表示皮爾遜積矩相關(guān)系數(shù),X與Y分別表示小麥的不同的指標,表示小麥的不同批次。



Bartlett’s球型檢驗(barlett test of sphericity)以變量的相關(guān)系數(shù)來構(gòu)建矩陣,用于檢驗相關(guān)陣是否是單位陣。在多指標綜合計算分析時,若Bartlett’s球型檢驗的統(tǒng)計值較大,對應(yīng)的SIG(significance)值較小,則說明差異檢驗效果顯著,可作進一步的分析;反之則不宜。
本文對小麥各指標的KMO檢驗和Bartlett’s球型檢驗進行計算,得到7個小麥指標的KMO測度值為0.807>0.7,說明所選取的指標間有著很強的相關(guān)性。在Bartlett’s球型度檢驗計算結(jié)果中,其SIG值小于0.001,說明相關(guān)系數(shù)矩陣和單位陣有著極其顯著的差異,整體數(shù)據(jù)呈球形分布,各變量間在一定程度上相互獨立。綜合KMO測度值和 Bartlett’s球度分析結(jié)果,說明所選取的指標和測量數(shù)據(jù)適合作因子分析。
KMO檢驗和 Bartlett’s球型檢驗結(jié)果說明小麥各指標間相關(guān)性很強,能綜合表達小麥整體的品質(zhì)狀況,但由于本模型所用小麥指標較多,其作用各不相同,且彼此相關(guān)系數(shù)未知,所以本文采用歐式距離對小麥數(shù)據(jù)間的相似性進行計算,從而分析各指標間的內(nèi)在關(guān)系。
由于小麥各指標間差異性較大,在數(shù)量級上也有巨大差別,所以需要進行標準化后才能進行分析計算。考慮到數(shù)據(jù)的均值和標準差獲取方便、分析有效,本文采用Z-score標準化(zero-mean normalization)方法對小麥指標數(shù)據(jù)進行處理。具體方法如下
1)求每個指標數(shù)據(jù)的算數(shù)平均值。

2)計算各指標的標準差。

3)對每個數(shù)據(jù)進行標準化。

4)將逆指標前的正負號互換(數(shù)值越小越好的指標稱為逆指標,反之為正指標)。
5)由計算的z值組成新矩陣Z。
對標準化后的數(shù)據(jù)矩陣Z,計算其歐式相似系數(shù),具體計算公式如下

其中x為指標數(shù)據(jù),共批數(shù)據(jù),s為各指標的標準差,每個指標有個數(shù)據(jù),z為第個指標的第個數(shù)據(jù)的標準化值,z為第個指標的第個數(shù)據(jù)的標準化值,第個指標與第個指標間的歐式相似系數(shù)為R。對表1中的數(shù)據(jù)進行指標間相似性系數(shù)計算,結(jié)果見表2。
由歐式距離計算出各個指標間的相關(guān)性,數(shù)值越小則說明2個指標越相關(guān)。由表2可知:降落數(shù)值與脂肪酸值、電導(dǎo)率、還原糖值、丙二醛之間的距離較小,說明這5個指標在反應(yīng)小麥某品質(zhì)方面的作用是相同的;同時這5個指標與發(fā)芽率和過氧化物酶距離都很大,說明它們在表達小麥該品質(zhì)方面是不同的;另外,發(fā)芽率、過氧化物酶之間距離很近,說明這2個指標在一定程度上反映著相同的品質(zhì)情況。綜上分析,考慮選取降落數(shù)值、脂肪酸值、還原糖值、丙二醛、電導(dǎo)率5個相似性較高、能準確反映小麥品質(zhì)情況的指標進行分類研究,而發(fā)芽率和過氧化物酶這2個指標仍需進一步分析。

表2 小麥各指標歐式相關(guān)性
注:1、2,,7分別表示指標降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛。
Note:1、2,,7represent the falling number, germination rate, malondialdehyde, fatty acid, conductivity, reducing sugar value and peroxisase, respectively.
盡管通過相關(guān)性計算可以得到各指標間的相似系數(shù),但是相似系數(shù)在反映每個指標數(shù)據(jù)與整體的關(guān)系上仍有不足,各指標對總體品質(zhì)的貢獻度仍需結(jié)合數(shù)據(jù)的具體情況進行分析。PCA方法在高維指標數(shù)據(jù)降維處理方面有一定的優(yōu)勢,在本文中以方差作為信息量的測度,構(gòu)造價值函數(shù),提取出可以突出表達小麥品質(zhì)的因素,對指標數(shù)據(jù)進行降維處理,從而減少預(yù)測變量的個數(shù)。具體步驟如下
1)用數(shù)據(jù)的標準化結(jié)果建立矩陣Z。
2)根據(jù)矩陣Z計算相關(guān)系數(shù)矩陣和相應(yīng)的特征值i、特征向量e。其中每一個特征值為對應(yīng)成分的方差,方差越大,其貢獻率越大。



對評價指標進行主成分分析后,篩選出包含累計貢獻率大于70%的主要成分及其對應(yīng)的特征根。
4)對主成分荷載ij進行計算。

5)計算評價指標的敏感性。

其中,λ為特征值,e為特征向量,共個主成分,有個特征根;為累計方差貢獻率,是主成分貢獻率;ij是主成分荷載,e對應(yīng)e特征向量的第個數(shù)值;β為評價指標x對評價結(jié)果的影響度,它的大小代表第個評價指標的敏感性程度和重要性。β值越大,說明該指標重要性越高;反之,該指標重要性越低。
具體的計算結(jié)果見表3和4。

表3 各成分特征值及貢獻率

表4 各指標評價敏感性
表3中第一個特征值對應(yīng)的主成分的累計貢獻率已經(jīng)達到了72.724%,說明該主成分可以反映原始指標所能提供的絕大部分信息,可利用它對小麥的品質(zhì)進行綜合評價。
由表4的評價敏感性可知:脂肪酸值的敏感性最大(0.186),說明它對評價結(jié)果的影響也最大,故該指標可以作為評價小麥品質(zhì)的關(guān)鍵性指標;過氧化物酶的敏感性(0.160)最小,它對評價結(jié)果的影響最小。
另外由表2中的歐式相似系數(shù)可見:過氧化物酶在指標間的相關(guān)性以及對總體貢獻率方面表現(xiàn)也不突出。綜上分析舍去過氧化物酶這一指標,選取降落數(shù)值、發(fā)芽率、丙二醛、還原糖值、脂肪酸值、電導(dǎo)率這6個指標作為分析小麥特性的主要指標因子。
由于對小麥數(shù)據(jù)的選取是隨機的,即事先無法獲知測試小麥的整體品質(zhì)分布狀況,所以本文采用系統(tǒng)聚類分析方法,先對整體數(shù)據(jù)進行預(yù)測分類,大致獲知小麥的分布情況后,再采用Fisher判別法對各類小麥數(shù)據(jù)進行訓(xùn)練判別。
對不同測試小麥樣品分類時,需要給定類間距,選擇距離最小的1對合并成新的1類,計算新類與其他類之間的距離,再將距離最近的2類合并,這樣每次減少1類,直至所有的樣品合為1類為止。本模型采取基于最近鄰元素和平方Euclidean距離的系統(tǒng)分類法,選擇包含過氧化酶在內(nèi)的7組指標和不包含過氧化物酶的6組指標數(shù)據(jù),利用SPSS計算分析,得到如圖1所示的2種聚類樹型圖,由此可以清楚地看出測試小麥分布情況。
圖1中縱坐標為表1中18組測試數(shù)據(jù)批次,橫坐標表示各組之間的距離,其距離從小變大的過程中對應(yīng)著不同的分類情況。圖1a為包含過氧化物酶的數(shù)據(jù),圖1b不包含過氧化物酶。

圖1 小麥多指標系統(tǒng)聚類結(jié)果
對比圖1中2種聚類結(jié)果發(fā)現(xiàn):左圖包含過氧化物酶指標,在組內(nèi)距離達到16時才可以聚為2類;而右圖不包含該指標,在組內(nèi)距離在4時就可以明顯地分為3類。由此表明:過氧化物酶在小麥品質(zhì)分類的過程中作用不明顯,即該指標對總體的貢獻比較小。
由上述的聚類試驗圖1可以獲知,本次小麥樣本是由具有明顯分類特征的3類數(shù)據(jù)組成的,但僅通過圖1還不能精確地描述出每個指標在反映總體品質(zhì)時的作用,也不能快捷有效地通過多指標計算出對應(yīng)的小麥品質(zhì)。因此,本文進一步采用Fisher判別分析方法,對已知的小麥樣本進行訓(xùn)練分析,根據(jù)不同分類的指標分布情況,建立起相應(yīng)的判別函數(shù),從而實現(xiàn)對每個指標的精確分析以及不同小麥品質(zhì)的識別分類。
小麥指標的Fisher 判別函數(shù)是按照類內(nèi)方差盡可能小、類間方差盡可能大的準則來確定其系數(shù),然后依據(jù)判別函數(shù)來預(yù)測待判樣本的分類。


式中()為轉(zhuǎn)換函數(shù),C為對應(yīng)的轉(zhuǎn)換矩陣,x為維空間中的點。這樣利用公式(12)可對具有項指標的未知樣本進行計算,獲得測試樣本與已知類別之間的距離情況,來判定未知樣本的歸屬類別,從而完成判別過程。
Fisher判別模型需要一定數(shù)量的先驗分類數(shù)據(jù)作為訓(xùn)練基礎(chǔ),即需要1組初始分類。由上文的相似性計算和PCA分析可知,脂肪酸值在指標相關(guān)性和對總體貢獻率方面較突出,可以在一定程度上反映整體品質(zhì),所以文中以文獻[3,5]對脂肪酸品質(zhì)的定義為標準,依據(jù)本文小麥脂肪酸值的分布情況,將小麥整體初步分成3類,作為初始分類結(jié)果供Fisher判別模型進行訓(xùn)練。
將表1中的18批數(shù)據(jù)以及分類結(jié)果代入Fisher判別模型進行訓(xùn)練,計算得到2個Fisher典型判別函數(shù)和其對應(yīng)的特征值及方差貢獻率,如表5所示。

表5 判別函數(shù)特征數(shù)據(jù)
典型判別函數(shù)的重要性與其特征值的貢獻率有關(guān),由表5中的2個判別函數(shù)可以看出,第1個函數(shù)的貢獻率已達到89.7%,而第2個只有10.3%,所以在數(shù)據(jù)分類方面表明函數(shù)1較為合適。另外,運用2個Fisher典型判別函數(shù)對樣本進行分組,結(jié)果如圖2所示。

注:圖中的符號表示不同品質(zhì)的小麥批次,將小麥的多指標數(shù)據(jù)帶入函數(shù)1可得到橫坐標值,帶入函數(shù)2可得到縱坐標值,由此可構(gòu)成二維平面上的節(jié)點。
在圖2中,能夠從小麥數(shù)據(jù)在函數(shù)1上的投影明顯地辨認出3種不同類別,而函數(shù)2只能在品質(zhì)1、2間的分類效果較好,對于品質(zhì)等級3則無法區(qū)分。綜上所述,采取函數(shù)1作為主要判別函數(shù),判別函數(shù)1表達如下

表示函數(shù)1的判別值,在該判別函數(shù)下,1類小麥中心值(對應(yīng)圖2中的+號,下同)為–5.699;2類小麥中心值為1.316;3類小麥中心值為3.945。可以通過比較未知小麥在函數(shù)下的值與這3類小麥的中心值的距離來識別未知小麥的類別,距某類中心越近,即將此小麥判別為該類別。
由上可知:所建立的Fisher判別函數(shù)說明本文所選取的6個小麥指標不僅具有一定的內(nèi)在聯(lián)系,還可以由精確的數(shù)學(xué)模型來共同表達小麥整體品質(zhì)變化。
為驗證文中模型分類結(jié)果與實際中小麥儲藏品質(zhì)分類情況是否一致、以及本模型解決實際問題的效果,需要有一個對照的參考評判標準。雖然國標對脂肪酸、降落數(shù)值、發(fā)芽率的大小標準都進行了大致的劃分,但是由于小麥產(chǎn)地及品種的差異,這些指標會在一個較大的范圍內(nèi)浮動,很難用較準確的值對小麥品質(zhì)進行判斷,另外從單指標的范圍也很難進行品質(zhì)的判定,所以需要統(tǒng)計多個指標對小麥品質(zhì)綜合分析。
查閱相關(guān)文獻[4,6,14]并對實際儲藏小麥數(shù)據(jù)進行分析,獲得小麥在自然存儲條件下不同時期品質(zhì)發(fā)生劣變時(從優(yōu)質(zhì)小麥逐漸劣變成中等小麥)各指標的變化趨勢,得到指標參考評判結(jié)果。
從文獻中可以發(fā)現(xiàn),優(yōu)質(zhì)小麥的脂肪酸值一般小于20 mg/100 g、發(fā)芽率一般會高于90%、電導(dǎo)率在30s?(cm?g)左右、降落數(shù)值在350 s左右。而在1年的儲藏過程中,這些指標會逐漸劣變,劣質(zhì)小麥的脂肪酸值增長到27 mg/100 g左右,發(fā)芽率會低于80%,電導(dǎo)率會逐漸劣變到60S/cm,降落數(shù)值增加到450 s左右。丙二醛、還原糖等指標也會發(fā)生小幅度的變化。為方便計算分析,將每種品質(zhì)所對應(yīng)的指標變化情況進行歸納整合,得到如表6所示的參考數(shù)值。

表6 不同時期小麥指標參考數(shù)值
注:參考判別范圍是由各指標的范圍分別帶入判別函計算得出。
Note: The reference discriminant range is calculated by introducing the range of each index into the discriminant functionrespectively.
通過對表6中參考數(shù)據(jù)的綜合計算分析后,取小于20 d、100~150d、200~360d小麥分別為優(yōu)良小麥、中等小麥、劣質(zhì)小麥,從而作為小麥品質(zhì)參考評判標準。再將表1中各批小麥的判別數(shù)值與參考判別范圍分別進行比對,獲得如表7的結(jié)果。
表7中初始分類是以表1中脂肪酸值分布為基礎(chǔ),結(jié)合文獻[3,5]及相應(yīng)國標獲得的分類結(jié)果;Fisher交叉分類是以本文訓(xùn)練出的判別函數(shù)為算法核心,并采用留一交叉驗證法[28-29]進行的分類。該分類驗證法可以降低小數(shù)據(jù)量帶來的誤差,從而獲得更為準確的分類結(jié)果;參考評判分類是將每批小麥的判別數(shù)值與表6中的評判范圍進行比對后所分的類別。

表7 小麥品質(zhì)的不同分類情況
注:*表示誤判。
Note: * Indicates miscarriage of justice.
從表7中發(fā)現(xiàn)每批小麥的Fisher分類情況與參考評判標準所分類的結(jié)果基本相同,說明將小麥所分成的3個類別(1、2、3類)可以分別對應(yīng)為實際的優(yōu)良、中等、劣質(zhì)3種小麥。
從表7可以發(fā)現(xiàn),對于初始分類結(jié)果,F(xiàn)isher交叉分類與參考評判分類一致性可達到88.9%,只有批次4、17的分類結(jié)果不同。對表1中相應(yīng)的數(shù)據(jù)進行分析后發(fā)現(xiàn),批次4的小麥脂肪酸值較高,而其他指標均符合優(yōu)秀小麥的品質(zhì)范疇,這造成了初始分類結(jié)果與Fisher判別分類結(jié)果的偏差。批次17的小麥也出現(xiàn)了類似的問題,其脂肪酸值很高,但是其他指標劣變程度并不高,綜合分析后將定義為2類比較合適。
本文還根據(jù)文獻[5-6,30]對小麥脂肪酸值變化趨勢的研究結(jié)果,分析脂肪酸值對小麥品質(zhì)進行大致分級,如入庫當(dāng)年小麥脂肪酸值范圍(13.5~19)可對應(yīng)本文分類中的優(yōu)質(zhì)小麥,儲藏滿1年后的小麥(19~31.4)可對應(yīng)本文分類中的的中等及劣質(zhì)小麥。發(fā)現(xiàn)最終批次的分類結(jié)果基本與本模型分類相符,也可在一定程度上驗證本文的準確性。
由上述可知,盡管脂肪酸值在小麥品質(zhì)評判方面具有很高的代表性,可在一定程度上為小麥分類提供參考,但采用單指標分析小麥的品質(zhì)時,會因某項指標的極端分布而帶來誤差;而文中模型采用的判別函數(shù)以脂肪酸值分類為基礎(chǔ),并結(jié)合多個指標分布情況建立Fisher判別模型,經(jīng)降維投影后,通過考慮多個指標的大小來確定3種分類的Fisher中心值,從而能夠?qū)ξ粗←湹钠焚|(zhì)進行綜合分析,給出更為合理的分類效果。
本試驗選取具體品質(zhì)未知的儲藏小麥,以避免先驗認知對本試驗結(jié)果帶來的主觀偏差。由于選取的小麥具有不同的入庫時間,所以能夠大致獲知試驗小麥的品質(zhì)間已經(jīng)具有一定的差別,可建立分級模型。
試驗在對小麥各指標數(shù)值進行測試前,對所有批次的小麥進行了一定的預(yù)處理,防止小麥在試驗過程中出現(xiàn)較大的品質(zhì)劣變,從而保證本文對各指標的測試結(jié)果可準確表達不同入庫時間的各批小麥品質(zhì)。經(jīng)指標測試、模型建立、以及表6參考數(shù)值的選取,可綜合說明,儲藏時間的變化會對小麥的品質(zhì)的帶來一定的影響,這種影響具體表現(xiàn)在各指標的數(shù)值變化上,本文通過對小麥多指標的綜合計算,能夠?qū)Υ嫘←湹钠焚|(zhì)進行深入的分析。
1)本文采用KMO與Bartlett’s雙檢驗方法,對小麥生理生化指標進行分析處理,發(fā)現(xiàn)小麥多指標KMO測度值為0.807>0.7,Bartlett’s球型度檢驗SIG值小于0.001,表明小麥各指標間存在較強的相關(guān)性,可以進行因子分析。
2)通過計算各指標相似性系數(shù)、特征值及貢獻率,發(fā)現(xiàn)脂肪酸值的敏感性最高,為0.186,說明其重要性最大,而過氧化物酶的敏感性最低為0.16,故舍去過氧化物酶。由此,選取降落數(shù)值、發(fā)芽率、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛這6個指標進行后續(xù)計算分析。
3)通過對小麥數(shù)據(jù)的Fisher判別訓(xùn)練,得到2類判別函數(shù),其中判別函數(shù)1的貢獻率達到89.7%,在該函數(shù)下,3種類別在分類圖上區(qū)分明顯,這表明所選取的6個指標可以由確切的判別函數(shù)來共同表達小麥整體品質(zhì)。經(jīng)數(shù)據(jù)檢驗,該文判別模型對小麥的分類結(jié)果與實際參考標準分類結(jié)果的一致性達到88.9%,可說明本模型的判別函數(shù)準確度較高,可以克服由單指標分析所帶來的誤差。
本文用代數(shù)、矩陣、圖形等方法來尋找總體與個體間的差異與相似性,以獲得一種能夠判定小麥品質(zhì)的最優(yōu)法則。最終計算結(jié)果和實際情況基本一致,表明本文的計算分析模型基本正確,可在一定程度上指導(dǎo)其他糧食作物的分析與判別。
[1] 周顯青,張玉榮,王君利,等. 篩下物雜質(zhì)對小麥微生物活動與儲藏品質(zhì)的影響[J]. 農(nóng)業(yè)工程學(xué)報,2009,25(6):274-279. Zhou Xianqing, Zhang Yurong, Wang Junli, et al. Influence of sieve-through impurities on wheat microbe activity and storage quality[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2009, 25(6): 274-279. (in Chinese with English abstract)
[2] 朱德泉,王繼先,朱德文,等. 小麥微波干燥特性及其對品質(zhì)的影響[J]. 農(nóng)業(yè)工程學(xué)報,2006,22(4):182-185. Zhu Dequan, Wang Jixian, Zhu Dewen, et al. Experimental study on wheat grain microwave drying characteristics and its eff ect on the quality of wheat grain[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2006, 22(4): 182-185. (in Chinese with English abstract)
[3] 孫輝,姜薇莉,田曉紅,等. 小麥粉儲藏品質(zhì)變化規(guī)律研究[J]. 中國糧油學(xué)報,2005,20(3):77-82. Sun Hui, Jiang Weili, Tian Xiaohong, et al. Quality changes of wheat flour during storage in controlled condition[J]. Journal of the Chinese Cereals and Oils Association, 2005, 20(3): 77-82. (in Chinese with English abstract)
[4] Deliberali J, Oliveira M, Durigon A, et al. Effects of drying process and storage time on technological quality of wheat[J]. Ciencia E Agrotecnologia, 2010, 34(5): 1285-1292.
[5] 高艷娜. 小麥產(chǎn)后品質(zhì)變化規(guī)律[D]. 鄭州: 河南工業(yè)大學(xué),2010. Gao Yanna. Studie on Variation Law of Quality Changes of the Harvested Wheat[D]. Zhengzhou: Henan University of Technology, 2010. (in Chinese with English abstract)
[6] 宋偉,丁超,胡寰翀,等. 儲藏條件對小麥游離脂肪酸值上升速度的影響[J]. 食品科學(xué),2010,31(10):301-303. Song Wei, Ding Chao, Hu Huanchong, et al. Modeling of the effects of modified atmosphere storage conditions on free fatty acid value increase[J]. Food Science, 2010, 31(10): 301-303. (in Chinese with English abstract)
[7] 夏晨豐. 不同生理活性對小麥品質(zhì)及儲存溫度性的影響研究[D]. 鄭州: 河南工業(yè)大學(xué),2013. Xia Chenfeng. Study on Storage Stability of Different Physiological Activity of Wheat[D]. Zhengzhou: Henan University of Technology, 2013. (in Chinese with English abstract)
[8] Hussain M, Zahir Z, Asghar H, et al. Can catalase and exopolysaccharides producing rhizobia ameliorate drought stress in wheat?[J]. International Journal of Agriculture and Biology. 2014, 16(1): 3-13.
[9] 張鐘,程美林,王麗,等. 發(fā)芽對小麥品質(zhì)的影響[J]. 中國糧油學(xué)報,2014,29(1):11-16. Zhang Zhong, Cheng Meilin, Wang Li, et al. Effect of germination on the quality of wheat[J]. Journal of the Chinese Cereals and Oils Association. 2014, 29(1): 11-16. (in Chinese with English abstract)
[10] Karwasra B L, Gill B S, Kaur M, et al. Influence of germination period on physicochemical, pasting and antioxidant properties of Indian wheat cultivars[J]. Journal of Food Measurement and Characterization, 2018, 12(1): 68-77.
[11] Pettersson C, S?derstr?m M, Eckersten H, et al. Canopy reflectance, thermal stress, and apparent soil electrical conductivity as predictors of within-field variability in grain yield and grain protein of malting barley[J]. Precision Agriculture. 2006, 7(5): 343-359.
[12] 馬曉娣,王麗,汪矛,等. 不同耐熱性小麥品種在熱鍛煉和熱脅迫下葉片相對電導(dǎo)率及超微結(jié)構(gòu)的差異[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報,2003,8(5):4-8. Ma Xiaodi, Wang Li, Wang Mao, et al. Difference in relative conductivity and ultrastructure of leaf between two wheat cultivars with different thermotolerance under heat acclimation and heat stress[J]. Journal of China Agricultural University, 2003, 8(5): 4-8. (in Chinese with English abstract)
[13] Rakcejeva T, Rusa K, Dukalska L. Effect of chitosan and chitooligosaccharide lactate on free lipids and reducing sugars content and on wheat bread firming[J]. European Food Research and Technology, 2011, 232(1): 123-128.
[14] 周顯青,張玉榮. 儲藏稻谷品質(zhì)指標的變化及其差異性[J].農(nóng)業(yè)工程學(xué)報,2008,24(12):238-242. Zhou Xianqing, Zhang Yuyong. Changes and differential analysis of the quality indexes of stored paddy[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2008, 24(12): 238-242. (in Chinese with English abstract)
[15] 劉麗杰,李喜宏,李仲群,等. 不同處理對小麥儲藏品質(zhì)影響的研究[J]. 食品科技,2010,35(3):153-156. Liu Lijie, Li Xihong, Li Zhongqun, et al. Study on changes of quality during wheat storage period[J]. Food Science and Technology. 2010, 35(3): 153-156. (in Chinese with English abstract)
[16] Dong C, Shao L, Fu Y, et al. Evaluation of wheat growth, morphological characteristics, biomass yield and quality in Lunar Palace-1, plant factory, green house and field systems[J]. Acta Astronautica. 2015, 111: 102-109.
[17] 王瑩,盧秀和,楊曼. 基于歐式距離法的變壓器故障BBA模型建立與分析[J]. 電測與儀表,2016,53(12):42-45. Wang Ying,Lu Xiuhe,Yang Man. BBA model establishment and analysis of transformer faults based on Euclidean distance[J]. Electrical Measurement & Instrumentation. 2016, 53(12): 42-45. (in Chinese with English abstract)
[18] Li L, Yin F, Lu T, et al. Fingerprint of vinegar processed genkwa flos based on improving euclidean distance[J]. Journal of Chinese Medicinal Materials, 2015, 38(6): 1168-1171.
[19] 魯金濤,李夕兵,宮鳳強,等. 基于主成分分析與Fisher判別分析法的礦井突水水源識別方法[J]. 中國安全科學(xué)學(xué)報,2012,22(7):109-115. Lu Jintao, Li Xibing, Gong Fengqiang, et al. Recognizing of mine water inrush sources based on principal components analysis and fisher discrimination analysis method[J]. 2012, 22(7): 109-115. (in Chinese with English abstract)
[20] 齊敏芳,付忠廣,景源,等. 基于信息熵與主成分分析的火電機組綜合評價方法[J]. 中國電機工程學(xué)報,2013,33(2): 58-64.Qi Minfang, Fu Zhongguang, Jing Yuan, et al. A comprehensive evaluation method of power plant units based on information entropy and principal component analysis[J]. Proceedings of the CSEE, 2013, 33(2): 58-64. (in Chinese with English abstract)
[21] Martinez A M, Kak A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(2): 228-233.
[22] 潘學(xué)軍,張文娥,李琴琴,等. 核桃感官和營養(yǎng)品質(zhì)的主成分及聚類分析[J]. 食品科學(xué),2013,34(8):195-198. Pan Xuejun, Zhang Wene, Li Qinqin, et al. Principal component analysis and cluster analysis of sensory and nutritional quality of walnut[J]. Food Science, 2013, 34(8): 195-198. (in Chinese with English abstract)
[23] 伍育紅. 聚類算法綜述[J]. 計算機科學(xué),2015,42(增刊1):491-499,524. Wu Yuhong. General overview on clustering algorithms[J]. Computer Science, 2015, 42(Supp.1): 491-499,524. (in Chinese with English abstract)
[24] 殷勇,郝銀鳳,于慧春. 基于多特征融合的電子鼻鑒別玉米霉變程度[J]. 農(nóng)業(yè)工程學(xué)報,2016,32(12):254-260. Yin Yong, Hao Yinfeng, Yu Huichun. Identification method for different moldy degrees of maize using electronic nose coupled with multi-features fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(12): 254-260. (in Chinese with English abstract)
[25] 楊茜. 基于Fisher線性判別分析的情景感知推薦方法[J]. 計算機工程與設(shè)計,2018,39(3):848-853. Yang Qian. Context-aware recommendation method based on Fisher liner discriminant analysis[J]. Computer Engineering and Design, 2018, 39(3): 848-853. (in Chinese with English abstract)
[26] 魯立強,金成國,馬玉梁,等. Fisher判別分析在蘋果品質(zhì)鑒別中的應(yīng)用[J]. 食品科學(xué),2007,28(7):356-359. Lu Liqiang, Jin Chengguo, Ma Yuliang, et al. Application of fisher discriminance to discriminate apple qualities[J]. Food Science, 2007, 28(7): 356-359. (in Chinese with English abstract)
[27] 耿旭,黃淑霞,蔡靜平. 儲糧中霉菌活動的生理狀態(tài)與糧堆CO2濃度變化的相關(guān)性[J]. 河南工業(yè)大學(xué)學(xué)報(自然科學(xué)版), 2010,31(3):12-15. Geng Xu, Huang Shuxia, Cai Jingping. Relativity between physiological state of mould altivity and concentration change of CO2in stored grain [J]. Journal of Henan University of Technology(Natural Science Edition), 2010,31(3):12-15. (in Chinese with English abstract)
[28] 范永東. 模型選擇中的交叉驗證方法綜述[D]. 太原: 山西大學(xué),2013. Fan Yongdong. A Summary of Cross-Validation in Model Selection[D]. Taiyuan: Shanxi University, 2013. (in Chinese with English abstract)
[29] 劉學(xué)藝,李平,郜傳厚. 極限學(xué)習(xí)機的快速留一交叉驗證算法[J]. 上海交通大學(xué)學(xué)報,2011,45(8):1140-1145. Liu Xueyi, Li Ping, Gao Chuanhou. Fast leave-one-out cross- validation algorithm for extreme learning machine[J]. Journal of Shanghai Jiaotong University, 2011, 45(8): 1140-1145. (in Chinese with English abstract)
[30] 馬宏,張良軍,劉翠. 談脂肪酸值可作為小麥儲藏品質(zhì)控制的一項指標[J]. 糧食加工,2013,38(4):73-74.
Classification of storage wheat grain quality based on multi-index analysis and fisher discriminant criterion
Jiang Huawei, Zhou Tongxing
(450001,)
Physiological and biochemical indices play a significant role in the evaluation of wheat storage quality. The changes in the storage environment and time will not only cause the deterioration of wheat quality but also cause significant changes of wheat physiological and biochemical indices. However, the information expressed is quite different, which brings great inconvenience to the analysis of wheat storage quality. To solve this problem, a multi-index analysis model of wheat storage quality was proposed in this paper. The falling number, germination rate, peroxidase, fatty acid, conductivity, reducing sugar were selected. Seven physiological and biochemical indices of malondialdehyde were selected as the key factors in this paper. First, the KMO (kaiser-meyer-olkin) and Bartlett's sphericity method were used to test the wheat index, and it was found that the KMO measure value was 0.807 > 0.7, SIG value was less than 0.001, which indicated that the selected index and the measured data were suitable for factor analysis. Then the correlation of wheat index was calculated by the European similarity coefficient and PCA(principal components analysis). The results showed that the distance between the falling number and fatty acid, reducing sugar value, malondialdehyde and conductivity was small, which indicated that the effect of these five indices on the quality of wheat was the same. Meanwhile, these five indices are very far away from germination rate and peroxidase, indicating that they are different in expressing the quality of wheat. In addition, the distance between the germination rate and peroxidase is very close. It shows that the two indices reflect the same quality in some degree. The sensitivity of fatty acid is the highest (0.186), which indicates that it has the greatest influence on the evaluation result, so this index can be used as the key index to evaluate wheat quality, and the sensitivity of peroxidase (0.160) is the least, and it has the least influence on the evaluation result. After a comprehensive analysis, the peroxidase was eliminated and the other six indices were retained for further calculation. Then, a systematic classification method based on nearest element and square Euclidean distance is used to cluster the wheat data. The classification results show that the wheat sample is composed of three kinds of data with obvious classification characteristics. The primary classification of wheat was obtained by analyzing the distribution of fatty acid data, and the discriminant function was obtained by using the Fisher discriminant method to train wheat data. According to the discriminant function, the center value of excellent wheat was –5.699. The center value of medium wheat was 1.316 and the center value of poor wheat was 3.945. By comparing the distance between the value of unknown wheat under this function and the center value of these three kinds of wheat, the unknown wheat classification can be identified. If a batch of wheat has the smallest distance to one center value of these three kinds of wheat, then it would be identified as this classification. The final test analysis shows: The result of the classification of wheat storage quality by the discriminant model in this paper is up to 88.9% in accordance with the classification of an actual reference standard. The analysis model in this paper is basically correct, which can not only provide technical support for the construction of quality evaluation system of stored wheat, but also guide the analysis and discrimination of other grain crops to a certain extent.
agricultural products; quality control; models; physiological and biochemical indices; similarity analysis; principal component analysis; system clustering; Fisher discriminant method
10.11975/j.issn.1002-6819.2019.10.037
TS210
A
1002-6819(2019)-10-0291-08
2018-10-26
2019-03-27
國家自然科學(xué)基金(51677055);河南省自然科學(xué)基金(162300410055);河南省高校科技創(chuàng)新團隊計劃項目(16IRTSTHN026)
蔣華偉,博士,教授,主要從事糧食信息處理研究。Email:lhwcad@126.com
蔣華偉,周同星.基于Fisher判別法則的小麥品質(zhì)多指標分級[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(10):291-298. doi:10.11975/j.issn.1002-6819.2019.10.037 http://www.tcsae.org
Jiang Huawei, Zhou Tongxing.Classification of storage wheat grain quality based on multi-index analysis and fisher discriminant criterion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(10): 291-298. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.10.037 http://www.tcsae.org