侯勇超 馬松林 孫誠程 胡繼元 高慧
(巢湖學院數學系,安徽 巢湖 238000)
確定葡萄酒質量時一般是通過聘請一批有資質的評酒員進行品評,從而確定葡萄酒的質量。釀酒葡萄的好壞與所釀葡萄酒的質量有直接的關系,葡萄酒和釀酒葡萄檢測的理化指標會在一定程度上反映葡萄酒和葡萄的質量。通過給定的得分及理化指標數據解決下列問題:
(1)分析兩組評酒員的評價結果有無顯著性差異,哪一組結果更可信?
(2)根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分級。
(3)分析釀酒葡萄與葡萄酒的理化指標之間的聯系。
(4)分析釀酒葡萄和葡萄酒的理化指標對葡萄酒質量的影響,并論證能否用葡萄和葡萄酒的理化指標來評價葡萄酒的質量?
利用SPSS等統計軟件對評價結果進行數據分析[2],并采用計算均值、T-檢驗的方法進行計算分析,用以評判兩組評酒員評價結果的差異性,從而判斷評價結果可信性。T-檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。當總體分布是正態分布,如總體標準差σ未知且樣本容量n<30,那么樣本平均數與總體平均數的離差統計量呈t分布。檢驗統計量為:

在第一問的基礎上,選取第二組評酒師對紅白葡萄酒的評價結果平均值作為標準,先通過主成分分析法[3]將問題簡化,從而便于排序與分類,再使用聚類分析對主成分的特征向量進行分析。最后參考酒類等級建立標準[4],并使用數據分析結果支持結論。
根據第二問分級結果,使用SPSS軟件對葡萄酒和葡萄的主要理化指標進行相關性及多元回歸分析[5],從而確定釀酒葡萄與葡萄酒理化指標之間的聯系。
根據葡萄酒評價結果與葡萄酒及釀酒葡萄主要理化指標間的關系,篩選出對葡萄酒的分有重要影響的指標,然后做多元線性回歸分析,并通過數據帶入對比檢驗后,用得出評價葡萄酒質量的公式。
問題假設:
3.1 假設原始數據基本準確(個別異常數據可進行處理);
3.2 假設評酒員惡意打分情況可忽略,僅考慮評酒水平差別;
3.3 假設葡萄樣品為隨機選取,質量水平近似符合正態分布;
3.4 假設葡萄酒由與之編號相同的釀酒葡萄釀造。
符號說明:
t為樣本平均數與總體平均數的離差統計量;
μ為總體平均數;
σX為樣本標準差;
n為樣本容量;
X″為標準化結果;
Xi樣品指標 ;
Xmin指標最小值;
Xmax指標最大值。
通過統計分析等方法,4.1-4.4分別建立模型解決題目中的問題。
從實際生活中,我們知道對葡萄酒的評價主要采用感官評定價法。感官評價主要依靠評酒員的個人經驗來完成,所以在評判哪組評酒員的結果可信度比較高時,就必須比較對于不同的評酒師對于同一種酒的評判結果的差異性,以此為標準,哪組出現的差異比較少,哪組可信度就高。首先,我們使用了Excel和SPSS軟件對兩組評酒員的品嘗評分進行了處理,得出了每組評酒員給出的綜合分數(表1),并運用T-檢驗得到如下結論:

表1 紅白葡萄酒T-檢驗結果
由上表可知兩組評酒員評價結果存在顯著性差異,特別由白葡萄酒的評論結果計算出P值為0.009<=0.05且F>F crit,所以更體現出兩組評酒員評價結果的不同。
其次,我們對評價數據進行統計后,得到兩組評酒員對紅白葡萄酒評價結果的平均值及方差得出下表:

表2 評酒員對紅白葡萄酒評價結果的平均值及方差
由上表得出結論第二組方差較第一組小,故第二組評酒師對紅白葡萄酒的評價結果更為準確。
由第一問我們得出第二組評酒師對紅白葡萄酒的評價結果更加準確,因此我們取第二組評酒師對紅白葡萄酒的評價結果平均值作為第二問中的葡萄酒的質量,再據附錄二中的釀酒葡萄的理化指標進行分析,找出哪種釀酒葡萄理化指標是影響葡萄酒質量的關鍵因素。
我們使用SPSS軟件對釀酒葡萄的各項理化指標進行了一定的處理如求均值、方差等,然后對結果進行標準化處理。 由附件得到釀酒葡萄的主要成分有50多種,并且它們之間存在著復雜的關系。因此,我們需要通過主成分分析在保留主要信息的前提下對這些指標進行簡化處理。
4.2.1 主成分分析過程與結果
對于紅葡萄,通過SPSS 18軟件對葡萄酒的30項指標進行主成分分析,得到方差分解圖和主成分系數矩陣,其中前8個主成分的特征較大,且累計貢獻率達84.148%,根據主成分選取指標的原則,選取前8個主成分可以代表30項指標。因此選擇該 8 個主成分,并定義為 Y1,Y2,Y3,Y4,Y5,Y6,Y7,Y8。

表3 成份矩陣a

a.已提取了8個成份。
對于白葡萄通過SPSS軟件對葡萄酒的30項指標進行主成分分析,得到方差分解圖和主成分系數矩陣。其中前9個主成分的特征較大,且累計貢獻率達84.148%,根據主成分選取指標的原則,選取前9個主成分完全可以代表30項指標。因此選擇該 9 個主成分,并定義為:Y1,Y2,Y3,Y4,Y5,Y6,Y7,Y8。
對于紅葡萄,用表中的各個值的成份量數據除表中主成分相對應的特征值開平方根使得主成分中每項指標所對應的系數[4],即特征向量。將得到的特征向量與標準化后的數據相乘得出主成分表達式。
第一種主成分方程:

第一主成分方差貢獻率最大為23.461%,通過線性方程能得出特征向量較大的是X4,X11。
第二種主成分方程:

第二主成分方差貢獻率最大為16.831%,通過線性方程能得出特征向量較大的是X16,X17,X18,X22。第三主成分方差貢獻率最大為12.688%,特征向量較大的是X14,X29。第四主成分方差貢獻率最大為9.508%,特征向量較大的是X19。第五主成分方差貢獻率最大為6.692%,特征向量較大的是X21,X23。第六主成分方差貢獻率最大為5.794%,特征向量較大的是X26,X30。第七主成分方差貢獻率最大為4.730%,特征向量較大的是X15。第八主成分方差貢獻率最大為4.454%,特征向量較大的是X14,X18。
上述主成分方程分析結果顯示特征向量較大 的 為 X4,X11,X14,X15,X16,X17,X18,X19,X21,X22,X23,X26,X28,X29,X30。 我們利用這 15 項主成分特征向量進行下一步聚類分析。
4.2.2 聚類分析過程與結果
(1)聚類分析的過程
利用SPSS軟件對十五項標準化的數據進行聚類分析得到下圖:

圖1 聚類示意圖
從圖中可以看出14和15的相似度較大,最早聚合為一類, 又與 2、3、8、9、13、10 聚合為一類,4與 12相關系數較大,聚為一類,5、6、7聚為一類,1與11同其他指標差異較大,都單獨成為一類,由文獻[2-4]可知PH值對葡萄質量的影響較大。
(2)聚類分析的結果
釀酒葡萄的理化性質和葡萄酒的質量與釀酒葡萄有很大關聯,故可以以此對釀酒葡萄進行分級,結果如下:
紅葡萄:
一級:9、20、23
二級:2、3、4、5、14、17、19、21、22、24、26、27
三級:1、6、10、12、13、16、25
四級:7、8、11、15、18
根據第二題中對釀酒葡萄的分級,我們可以用SPSS軟件對葡萄酒和葡萄的主要理化指標進行回歸及相關性分析,再根據第二問中對主要理化指標的線性分析,分別用Excel作出不同等級釀酒葡萄與葡萄酒理化指標間的典型對比圖,由上述我們確定了每一級的釀酒葡萄的突出的理化指標,另外我們也確定了不同等級的釀酒葡萄所對應的葡萄酒樣品,通過以上兩組數據找出每一級釀酒葡萄所對應的葡萄酒樣品理化指標的同異性。這樣就可以確定釀酒葡萄與葡萄酒理化指標之間的關系,將其分為三類,分別為線性相關、非線性相關及多元或關系復雜。
4.3.1 葡萄與葡萄酒主要理化指標相關性分析
通過主要理化指標的回歸分析, 我們可以得出紅葡萄與紅葡萄酒理化指標之間的聯系。
我們從題設所給的附錄2中選出紅葡萄與紅葡萄酒的主要理化指標,兩兩之間做回歸分析,線性相關的指標為花色苷與花色苷、總酚與總酚、單寧與單寧和白藜蘆醇與白藜蘆醇等,如總酚與總酚分析為例,如下圖:

圖2 總酚間的關系圖
非線性相關的指標為:酒總黃酮與果穗質量,酒總黃酮與黃酮醇,酒總黃酮與白藜蘆醇等。
4.3.2 多元回歸分析及線性表分析
我們通過SPSS軟件對釀酒葡萄與葡萄酒的理化指標進行了多元回歸分析,分析后得出,在4.3.1中無法進行歸類的一部分理化指標可以歸入多元或關系復雜一類中如還原糖與酒總黃酮就屬于多元或關系復雜,分析過程及圖表略。分析過程中,還原糖被作為復雜因子排除出多元方程,無法與酒總黃酮構成相關,故兩者關系多元或關系復雜。
4.3.3 相關結果
我們對釀酒葡萄與葡萄酒的主要理化指標之間的聯系進行了分析,通過大量的數據分析以及圖表說明,白葡萄用同種方法即可,我們將聯系分為三種情況,分別為:
線性相關:如花色苷與花色苷、總酚與總酚、單寧與單寧和白藜蘆醇與白藜蘆醇。
非線性相關:如酒總黃酮與果穗質量,酒總黃酮與黃酮醇,酒總黃酮與白藜蘆醇。
多元關系或關系復雜:如酒總黃酮與還原糖。
4.4.1 相關性分析、多元回歸分析
首先對理化指標跟葡萄酒得分的相關性進行分析,從而得出影響得分的主要理化指標。我們對釀酒葡萄及葡萄酒的主要理化指標與葡萄酒質量的之間進行相關性分析來初步判斷他們與葡萄酒質量的關系,分析出線性相關的量,由此得出各類主要理化指標與酒質量的相關性關系。
然后利用SPSS對進一步得出的數據進行多元回歸分析,得出表4:

表4 系數a
相應的方程為:

使用Matlab擬合得出圖像:

圖3 計算公式與實際得分變化趨勢比較
由上圖顯示出利用釀酒葡萄及葡萄酒各項指標做出的公式可以較好的預測實際酒類樣品的得分。
4.4.3 考慮芳香類物質對葡萄酒的分的影響
在加入芳香化合物前殘差為140.225,加入芳香化合物后殘差為135.957,故加入芳香化合物后更加精確。
由以上分析知釀酒葡萄和葡萄酒的理化指標對葡萄酒質量有較大影響,影響程度可以量化,并通過擬合到利用理化指標的計算公式,從而評價葡萄酒的質量。由于實際得分受評酒員水平影響以及葡萄酒的質量還受到制作工藝、催化劑等的影響[6],通過理化指標計算得分將產生誤差,在以上誤差分析中可以看到,誤差在可接受范圍內。
以上用統計分析等多種方法建立的模型較好地解決了差異性分析,釀酒葡萄等級分類,理化指標聯系及葡萄酒得分預測等問題。優點:統計分析、主成分分析、聚類分析等方法成熟,計算可靠,結果直觀可信;缺點:各理化指標間的比值對葡萄酒產生的影響使得非線性因素增加,導致問題變復雜,產生誤差。可以考慮進一步將典型理化指標的比值作為新的指標考慮,這樣有利于增加模型結果的精確程度。
[1]http://www.mcm.edu.cn/,訪問時間:2012年11月3日(A題及數據來源).
[2]馬騰,趙麗,李軍.2008年份昌黎原產地葡萄酒理化特性的統計學分析[J].河北科技師范學院學報,2012,26(1):5-11.
[3]吳桂芳,蔣益虹,王艷艷,等.基于獨立主成分和BP神經網絡的干紅葡萄酒品種的鑒別[J].光譜學與光譜學分析,2009,29(5):268-271.
[4]中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 15038-2006葡萄酒、果酒通用分析方法[S].北京:中國標準出版社,2008.
[5]李華,劉永強,郭安鵲,等.運用多元統計分析確定葡萄酒感官特性的描述符[J].中國食品學報,2007,(4):114-11.
[6]秦含章.葡萄酒分析化學[M].北京:中國輕工業工業出版社,1991.