孫明未
摘要:葡萄酒的質量與釀酒葡萄的理化指標、葡萄酒的理化指標等緊密相關。本文以釀酒葡萄和葡萄酒為研究對象,利用多種統計方法研究葡萄酒指標和葡萄酒質量之間的定性和定量關系。找出評酒員對酒的評價之間存在的顯著性差異,并對釀酒葡萄進行了分級,具有一定的應用價值。
關鍵詞:葡萄酒評價 多元配對比較檢驗 聚類分析 復相關回歸分析 逐步回歸分析
1、引言
在我們日常的生活中,對葡萄酒的分析一般是通過聘請一批有資質的評酒員進行品評,從而確定葡萄酒的質量。根據每位評酒員品嘗葡萄酒后對其分類指標的打分,求其總和作為該類酒的總分,以此來確定不同葡萄酒樣本的質量。釀酒葡萄的好壞一般與所釀葡萄酒的質量有直接的關聯,葡萄酒的理化指標和釀酒葡萄檢測的理化指標均會在一定程度上反映出葡萄酒的優劣和葡萄的質量。2012年全國大學生數學建模競賽A題中給出了一批評酒員對某一年份多種葡萄酒的評價結果,該年份這些葡萄酒的理化指標和釀酒葡萄的成分數據,以及釀酒葡萄和葡萄酒中含有的芳香物質數據,本文以此為基礎,利用多元統計分析方法解決下列問題:
(1)分析兩組評酒員的評價結果有無顯著性差異;
(2)根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分級;
(3)分析釀酒葡萄與葡萄酒的理化指標之間的聯系;
(4)分析釀酒葡萄和葡萄酒的理化指標對葡萄酒質量的影響,并論證能否用葡萄和葡萄酒的理化指標來評價葡萄酒的質量。
2、基本假設
(1)建模僅依據賽題提供數據,不考慮其他信息;
(2)不考慮葡萄酒釀酒工藝的差異,即可認為選取的葡萄酒樣本產自相同水平葡萄酒加工工藝的廠商;
(3)評酒員對選取的各葡萄酒樣本的打分相互獨立,不受他人影響及外界因素的干擾。
3、數據的預處理
(1)第一組紅葡萄酒中的數據F76缺失,我們采用其他剩余九名評酒員評分的平均值代替該缺失數據;
(2)第一組白葡萄酒中數據J233的異常值為77(因該類評分最高分為8分),我們認為其為輸入錯誤,所以把該數據定為7;
(3)釀酒葡萄工作表中的數據DD34,考察其它兩組樣本數據,我們認為其為輸入錯誤,因此可將其定為226.1;
(4)因為問題2-4都涉及到理化指標數據的運用,又因為各種指標的量綱不同,所以必須先對附件2、3中的數據進行標準化處理,標準化處理的公式為:
再運用SPSS按以上公式對數據進行標準化處理。
4、模型的建立與求解
4.1 問題1的模型建立與求解
Ⅰ、多元配對分析的基本理論
配對樣本是指同一樣本進行測試所獲得的兩組數據,或對兩個完全相同的樣本在不同條件下進行測試所得的兩組數據,分為自身配對和同源配對[1]。自身配對指同一試驗單位在二個不同時間上分別接受前后兩次處理,用其前后兩次的觀測值進行自身對照比較;或同一試驗單位的不同部位的觀測值或不同方法的觀測值進行自身對照比較。同源配對指將來源相同、性質相同的兩個個體配成一對,然后對配對的兩個個體隨機地實施不同處理,顯然本題為同源配對問題。兩配對樣本t檢驗就是根據樣本數據對兩個配對樣本來自的兩配對總體的均值是否有顯著差異進行推斷。
(1)兩配對樣本t檢驗的前提條件:
1、兩配對應該是配對的。(兩樣本的觀測值數目相同,兩樣本的觀測值的順序不能隨意更改)
2、樣本來自的兩個總體應該服從正態分布。
(2)兩配對樣本t檢驗的基本實現思路:
設X1服從正態分布其中,
這樣,檢驗的問題就轉化為單樣本t檢驗問題,即轉化為檢驗Y的均值是否與0有顯著差異。
第二步,建立零假設
第三步:構造t統計量
第四步,利用SPSS自動計算出t值和對應的P值
第五步,作出判斷:
若P值小于顯著性水平α,則拒絕零假設,即認為總體存在顯著差異
若P值大于顯著性水平α,則接受原假設,即認為兩總體不存在顯著差異。
先對兩組白葡萄酒評分進行樣本檢驗, 得配對變量的相關系數為r=0.245,對應答概率P值為0.28>0.05,可以認為兩配對變量無相關關系。兩配對樣本的配對差的均值為-2.48929,T統計量的值為-2.602,對應的概率P值為P=0.015<0.05,故拒絕原假設,認為兩組評酒員對白葡萄酒的評價結果有差異性。白葡萄酒兩組評分配對樣本T檢驗結果如下表4-1
表4-1白葡萄酒兩組評分配對樣本檢驗結果
同理,對兩隊紅葡萄酒評分也進行二元配對分析,可以得到如表4-1所示的成對樣本分析數據,分析可知:兩組間的相關系數,即配對變量的相關系數為,對應答概率值為,可以認為兩配對變量有相關關系。兩配對樣本的配對差的均值為,統計量的值為,對應的概率值為,故拒絕原假設,認為兩組評酒員對紅葡萄酒的評價結果有差異性。 由此可以得出對于紅白兩種葡萄酒,兩組評酒員的評價結果都有顯著性差異的結論。然后再分別對兩類葡萄酒分別做組內方差,可得如下結果:
表 4-2各組葡萄酒得分方差
則有
Ⅱ、單因素方差分析
根據附件一中各個評酒員分別對各種葡萄酒樣品各種指標的分析評價打分,通過求和可以分別得到各類葡萄酒組內各名評酒員對各種葡萄酒樣品的整體評分。
先對兩組白葡萄酒的評分進行單因素方差分析可得如表1-1所示的單因素方差分析表。從表中可以看出,第五列是統計量F值,計算得1.313;表中第二行、第三行給出了方差的兩個來源,即“組間”和“組內”;第三列是檢驗統計量的自由度,組間自由度為27,組內為28;總自由度為55。
第二列表示偏差平方和,其中組間偏差平方和為547.266,組內偏差平方和為432.375,總偏差平方和為979.641。均方為偏差平方和和自由度的商,分別為20.269和15.442,兩者之比為F分布的觀測值1.313。針對假設Ho,組間均值存在顯著性差異,計算F分布觀測值為1.313,而對應的概率P值為0.239。在默認顯著性水平為0.05的前提下,由于F統計量的觀測值對應的概率P值大于0.05,則應接受原假設,即認為兩組評酒員對白葡萄酒的評價結果無顯著性差異。
再對兩組紅葡萄酒的評分進行單因素方差分析,經分析,在默認顯著性水平為0.05的前提下,由于F統計量的觀測值對應的概率P值0.002<0.05,則應拒絕原假設,即認為兩組評酒員對紅葡萄酒的評價結果有顯著性差異。又因為進行單因素方差分析的前提是:
1.樣本要獨立;
2.各樣本符合正態分布;
3.各個總體方差是否齊性,要先進行方差齊性檢驗。
然而在該種情況下,不能夠完全符合上述條件,所以在本題中進行單因素方差分析所得到的結果不可靠,而實際上,根據以上實驗計算,進行單因素方差分析所得到的結果與多元配對分析的結果不太一樣,因此接受多元配對分析的結果。
4.2 問題2的模型建立與求解
聚類分析法的原理是將參與聚類的每個個體(或變量)視為一類,根據各個個體之間的距離或相似性,逐步合并,直到合并為一個大類為止。根據分層聚類分析原理,對于任何數據都沒有唯一正確的分類標準。不同的聚類方法得到的結果或多或少都有一定的差別。一般情況下,我們可以根據以下幾個原則確定分類數[2]:
1.各類重心之間的距離必須很大;
2.確定的類中,各類中包含的元素一般都不要太多;
3.類的個數必須符合實用的目的;
4.若采用幾種不同的聚類方法處理,則在各自的聚類途中應發現相同的類
由前面得到的紅白葡萄理化指標的標準值矩陣分別對紅白葡萄進行聚類。對于白葡萄,使用ward聯接對其聚類可得圖4-1、圖4-2所示的聚類分析圖。
圖4-2 白葡萄分層聚類分析樹形圖
圖4-2中所示的白葡萄分層聚類分析樹形圖顯示了分層聚類過程中,從每個個體為單獨的一類,逐次合并,一直到全部合并成一大類,整個過程都在樹形圖中得到體現。
圖4-1是一幅縱向顯示的冰掛圖。從該圖中可以很輕易地看出任何類數時的分類結果。對于白葡萄,根據分類原則,我們選取聚類類數為6時,根據圖4-1可以將葡萄樣品分為下列五類A
圖4-3中所示的紅葡萄分層聚類分析樹形圖顯示了分層聚類過程中,從每個紅葡萄個體為單獨的一類,逐次合并,一直到全部合并成一大類,整個過程都在樹形圖中得到體現。圖4-4是一幅縱向顯示的冰掛圖。從該圖中可以很輕易地看出任何類數時的分類結果。對于紅葡萄,根據分類原則,當我們選取聚類類數為5時,根據圖4-4可以將葡萄樣品分為下列五類A對上述五類葡萄進行標準差和均值計算,由各分類的均值大小可以對其分類級別高低有個客觀的判斷,即:E>B>C>D>A(Ⅰ>Ⅱ>Ⅲ>Ⅳ>Ⅴ),分類結果如下表4-4
表4-4 紅葡萄聚類分級
4.3 問題3的建模與求解
對于負相關系數的求解,首先要建立葡萄酒的各項理化指標分別對釀酒葡萄的所有理化指標回歸方程,然后測定系數,再計算其復相關系數,并由此說明變量之間的相關程度的高低,當相關系數計算出來后,還必須判斷其是否有意義和使用價值,因此必須進行復相關系數的顯著性檢驗。先利用SPSS做復相關回歸分析得到復相關分析表和回歸分析表,將復相關分析表轉移至EXCEL,然后利用EXCEL相關性排序,但是因為考慮到有負相關的影響,因此要首先先加絕對值再由大到小進行排序。相關性排序后發現Pearson相關系數與顯著性單側檢驗有高度的一致性,所以通過EXCEL自動篩選功能,選出單側檢驗值小于等于0.05的自變量即為與因變量相關的自變量 。由此可以得出紅、白葡萄酒的理化指標與紅、白釀酒葡萄的理化指標的定量關系。再通過回歸分析表即可得到模型的結果,將兩復相關分析表和回歸分析表結合可得到:
1. 紅葡萄酒的理化指標與釀酒葡萄的理化指標的模型為:
2. 白葡萄酒的理化指標與釀酒葡萄的理化指標的模型為:
由回歸方程式可以看出:
1. 對于紅釀酒葡萄的理化指標x4(花色苷)、x6(蘋果酸)、x9(褐變度)、x10(DPPH自由基)、x12(單寧)與紅葡萄酒的理化指標y1(花色苷)呈顯著正相關,而x7(檸檬酸)、x8(多酚氧化酶活力)、x13(葡萄總黃酮)、x25(果梗比)、x26(出汁率)與紅葡萄酒的理化指標y1(花色苷)呈顯著負相關。
2. 對于白釀酒葡萄的理化指標x12(單寧)、x15(黃酮醇)、x18(可溶性固形物)與白葡萄酒的理化指標y1(單寧)呈顯著正相關,而x1(氨基酸總量)、x2(蛋白質)、x10(DPPH自由基)、x11(總酚)、x13(葡萄總黃酮)、x16(總糖)、x25(果梗比)、x27(果皮質量)與白葡萄酒的理化指標y1(單寧)呈顯著負相關。
同樣的可以得到以下紅葡萄酒的理化指標與釀酒葡萄的理化指標的模型為:
以及白葡萄酒的理化指標與釀酒葡萄的理化指標的模型為:
4.4 問題的模型建立與求解
(1)逐步回歸分析
逐步回歸分析,首先要建立因變量y與自變量x之間的總回歸方程,再對總的方程及每—個自變量進行假設檢驗。當總的方程不顯著時,表明該多元回歸方程線性關系不成立;而當某—個自變量對y影響不顯著時,應該把它剔除,重新建立不包含該因子的多元回歸方程。篩選出有顯著影響的因子作為自變量,并建立“最優”回歸方程[4] 。
回歸方程包含的自變量越多,回歸平方和越大,剩余的平方和越小,剩余均方也隨之較小,預測值的誤差也愈小,模擬的效果愈好。但是方程中的變量過多,預報工作量就會越大,其中有些相關性不顯著的預報因子會影響預測的效果。
以紅葡萄為例進行逐步回歸分析,使用F的概率進入0.10刪除0.15,當預測變量數為7個時,R 方值大于85%,說明此時模型的擬合程度比較高,繼續對紅葡萄進行分析,方差分析知:統計量為19.831,系統自動檢驗的顯著性水平為0.0000(非常?。?,因此回歸方程相關非常顯著。
再對紅葡萄建立逐步回歸模型。
由 “非標準化回歸系數”可得出多元回歸模型預報方程為:
由回歸方程式可以看出,紅葡萄酒的質量(x)與y11(總酚) 、y23(果穗質量)、y21(固酸比)、y15(黃酮醇)呈顯著正相關,而與y6(蘋果酸)、y8(多酚氧化酶活性)、y14(白藜蘆醇) 呈顯著負相關。由此看出,總酚、果穗質量、固酸比、黃酮醇,蘋果酸、多酚氧化酶活性、白藜蘆醇是影響紅葡萄酒質量的主要原因。
(2)論證
Ⅰ 對(1)分析
由(1)可知:逐步回歸分析模型的R2=0.88,p=0.0000(非常?。?,即回歸方程相關非常顯著,說明得到的模型是一個樂觀結論。然而,紅葡萄酒的樣本容量N1=27,白葡萄酒的樣本容量N2=28,均為小容量樣本,所以模型穩定性較差,且參數β的標準差較大,因此,完全用釀酒葡萄和葡萄酒的理化指標判斷葡萄酒的質量不科學。
Ⅱ 相關分析
先利用SPSS做芳香物質和香氣打分的相關分析得到相關分析表,將相關分析表轉移至EXCEL,然后利用EXCEL相關性排序,但是因為考慮到有負相關的影響,因此要首先先加絕對值再由大到小進行排序。相關性排序后發現Pearson相關系數與顯著性雙側檢驗有高度的一致性,所以通過EXCEL自動篩選功能,選出單側檢驗值小于等于0.05的自變量即為與因變量相關的自變量,分析結果可知,香氣打分與芳香物質x14(檸檬烯)、x31(乙酸辛酯)、x32(2-乙基-1-己醇)、x34(辛酸丙酯)、x37(3,7-二甲基-1,6-辛二烯-3-醇)、x41(3,7-二甲基-1,5,7-辛三烯-3-醇)、x45(辛酸3-甲基丁酯)、x47(丁二酸二乙酯)、x52(十二酸乙酯)、x56(2-吡咯烷酮)、x75(丙酮)、x90(á-蒎烯)、x113(1-辛醇)、x119((Z)-3,7-二甲基-2,6-辛二烯醛)、x123((R)-3,7-二甲基-6-辛烯醇)、x127((E)-3,7-二甲基-2,6-辛二烯-1-醇)有顯著關系。
5、結論
本文以釀酒葡萄和葡萄酒為研究對象,建立多元統計模型,對評酒員對酒的評價之間存在的顯著性差異情況進行研究,同時研究了釀酒葡萄的分級、釀酒葡萄與葡萄酒的理化指標之間的聯系,論證了葡萄和葡萄酒的理化指標對葡萄酒的質量評價情況。
參考文獻:
[1]周凱,宋軍全,鄔學軍,數學建模競賽入門與提高,杭州,浙江大學出版社,2012。
[2]張慶利,SPSS寶典,北京:電子工業出版社,2011.2。
[3]黃賢玲,糧食征超購量與產量、農村留用量復相關分析,山西財經大學學報,1985.2。
[4]何曉群,多元統計分析(第三版),北京,中國人民大學出版社,2012。
[5]周文芳,李民,逐步回歸分析法的一點不足之處,西北水電,2004,第4期。