◎ 馬東娟
(寧夏工商職業技術學院 人文教育學院,寧夏 銀川 750021)
寧夏賀蘭山東麓干燥少雨、光照充足、熱量適中、晝夜溫差大,具有得天獨厚的自然條件,是我國釀酒葡萄的最佳產區之一,被譽為中國的“波爾多”。隨著寧夏葡萄酒產業的發展,釀酒產區成型,紅葡萄酒產業面臨的生產工藝問題亟待解決。紅酒的口感促使紅酒釀造工藝改進,而紅酒工藝的改進又可提升紅酒的口感,二者相輔相成,其中,紅酒釀造工藝與口感之間的聯系紐帶是品酒師。由于寧夏地區品酒師少,尤其是紅酒的品酒師稀缺,制約了紅酒產業的發展。因此,運用數學模型和計算機軟件對紅酒的品質進行鑒定、分類,顯得尤為重要。
多元統計分析中的判別分析在識別單個個體所屬類別的情況中有著廣泛的應用,基于判別分析和葡萄酒的理化指標,可用SPSS 軟件對葡萄酒品質進行分類,既對葡萄酒的質量進行預測研究,又使葡萄酒品質鑒定的速度得到大幅提升,同時有較高的準確率[1-2]。
回歸模型的基礎在于用它去預測和解釋度量,但對于非度量變量,一般的多元回歸不適用于解決此類問題,判別分析適用于被解釋變量是非度量變量的情形。本文將紅酒品質作為非度量變量,記為3 ~9,共7 個級別。利用判別分析,人們將可預測和解釋影響紅酒品質所屬類別[3-5]。
考慮到數據集中3 894 個樣本及數據的量綱不統一,本文首先采用Z 標準化方法,對原始數據進行了缺失化處理、標準化處理,即每一變量值與其平均值之差除以該變量的標準差。
Qual:被解釋變量紅酒品質;紅酒品質影響的11個解釋變量分別為Fixe:非揮發性酸含量;Vola:揮發性酸含量;Ppci:檸檬酸;Resi:糖含量;Chlo:氯化物;Free:游離二氧化硫;Tota:總二氧化硫;Dens:密度;Ph:酸堿度;Sulp:表示硫酸鹽;Alco:酒精。
設有兩個總體G1和G2,x是一個p維樣品,若定義樣品到總體G1和G2的距離d(x,G1)和d(x,G2),而d2(x,Gi)=(x-μi)∑i-1(x-μi),μi,∑i。對此,可用如下規則進行判別:若樣品x到總體G2的距離小于到總體G2的距離,則x屬于總體G1,否則,x屬于總體G2;若x到總體G1和G2的距離相等,則待判。這個準則的數學模型可作如下描述。


其中,W(x)為判別函數。
數據集將3 894 個樣本的品質指標進行分類,將11 個指標作為自變量處理,將紅酒品質作為非度量變量,紅酒的品質分為0 ~10 共11 個等級,由于數據表現和實際問題0、1、2 和10 少見,故在下面問題的研究中將紅酒的品質分為3 ~9 個等級,記為3 ~9共7 個級別。基于此,本文將紅酒品質作為分組變量處理,借助SPSS 的分析-分類-判別模塊對模型進行建立。數據模擬見表1 組均值的均等性的檢驗。

表1 組均值均等性的檢驗表
輸出結果表1 分析的是各組描述統計量和對各組均值是否相等的檢驗。由表1 可看出,在0.05 的顯著性水平上,拒絕11 個變量在7 組的均值相等的假設,即認為11 個變量在7 組的均值是有顯著差異的。
輸出結果(表2、表3)是對各組協方差矩陣是否相等的Box M 檢驗。其中,表2 對數行列式反映了協方差矩陣的秩和行列式的對數值。

表2 對數行列式表
由行列式的值可看出,協方差矩陣不是病態矩陣;表3 則是對各總體協方差陣是否相等的統計檢驗。由F值及顯著性水平可知,在0.05 的顯著性水平下拒絕原假設(原假設為各總體協方差陣相等)。

表3 檢驗結果表

表4 分類函數系數表
輸出結果表5 是分類矩陣表,分別預測了所屬組關系,通過判別函數預測紅酒品質,并對初始分組案例中的72.7%進行了正確分類;對交叉驗證分組案例中的72.1%進行了正確分類。因此,分類函數模擬出各個紅酒品質3 ~9 共7 個分類的判定。

表5 分類結果表B,C
綜上所述,基于紅酒品質的11 個理化指標(如酒精的濃度、pH 值、糖的含量、非揮發性酸含量、揮發性酸含量、檸檬酸含量等),利用多元統計分析中的判別分析方法,就可對紅酒的品質進行預測分類。故本文運用數學模型和計算機軟件,對紅酒的品質進行粗略分類鑒定,將對改善紅酒工藝、提升紅酒口感有巨大作用,可進一步促進寧夏地區紅酒產業的發展。