許珊珊+譚兵+李屹+何婷??
摘要:現行的葡萄酒質量的評價體系是建立在人的感官上進行的,如何通過一些量化的理化指標來評價葡萄酒質量是一個值得研究的方向。為此,利用多元統計分析的相關知識,通過研究釀酒葡萄的理化指標和葡萄酒的質量之間的關系,客觀的評價了葡萄酒的質量,成功的對釀酒葡萄進行了分級。
關鍵詞:t檢驗法;K均值聚類;典型相關分析;多元線性回歸
中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.16723198.2018.09.028
1問題背景
葡萄酒質量的好壞主要依賴于評酒員的感觀評價,由于人為主觀因素的影響,對于酒質量的評價總會存在隨機差異,找到一種簡單有效的客觀方法來評酒,如何采用一個量化的評價標準就顯得尤為重要了。本文根據全國大學生數學建模競賽2012年A題的問題和數據,通過研究釀酒葡萄的好壞與所釀葡萄酒的質量的關系,以及葡萄酒和釀酒葡萄檢測的理化指標之間的關系,對葡萄酒的質量進行了客觀評價和分級。
2模型假設
(1)假設附件數據來源真實有效;
(2)假設兩組品酒員在相同環境下品酒,采用評分標準一樣;
(3)假設釀酒葡萄和葡萄酒編號一一對應。
3符號說明
4模型建立與求解
4.1問題一的模型建立與求解
4.1.1數據預處理
在數據分析之前通常要對數據進行預處理,附件1包含兩組品酒員分別對紅葡萄酒和白葡萄酒的評分數據,每組品酒員有10個,紅葡萄酒樣品有27個,白葡萄酒樣品有28個。觀察數據我們可以發現,部分數據存在缺失和異常現象,我們對其正常化處理。對于數據缺失情況,例如第一組紅葡萄酒樣品20號中品酒員4號對色調評分數據缺失,我們采用剩余數據的均值替換法來修補缺失數據。對于數據異常情況,例如第一組白葡萄酒樣品3號中品酒員7號對持久性數據評分超過其規定最大值,我們也是采用“先舍棄后均值替換”的方法。
4.1.2評分數據正態性的檢驗
對數據進行預處理后,我們對附件1中品酒員對酒樣品的評價總分進行了計算,然后得出了紅葡萄酒和白葡萄酒的得分均值,其圖像如圖1、圖2所示。
觀察圖1、圖2可以發現,兩組品酒員對紅葡萄酒和白葡萄酒的得分均值雖然在數值上有出入,但其變化趨勢大致一樣,為了評價兩組品酒員的評價結果有無顯著性差異,我們擬采用雙正態總體t檢驗法,為此我們需要對兩組品酒員的評分數據進行正態性檢驗。
根據其得分均值數據,我們采用MATLAB正態檢驗性的相關函數,繪制了兩組品酒員對紅葡萄酒得分均值的頻數分布和正態概率如圖3所示。
觀察圖3我們可以發現,兩組品酒員對紅葡萄酒得分均值頻數大致符合正態分布,而正態概率圖正說明了得分均值的概率落在直線周圍,所以我們可認為兩組品酒員對紅葡萄的得分均值服從正態分布,我們再利用函數lillietest來檢驗是否服從正態分布,結果顯示H=0,則可以認為是服從正態分布的。針對兩組品酒員對白葡萄酒的得分均值亦采用上述方法,結果表明其服從正態分布。
4.1.3雙正態總體t檢驗
t檢驗是一種比較成熟的檢驗方法,針對本問題,采用雙總體獨立樣本的t檢驗法,其檢驗統計量為:
(1)
其中S21,S22表示兩樣本方差,n1,n2表示兩樣本量。
當樣本量n1=n2=n時,t檢驗統計量化簡為:
(2)
首先提出無效假設與備擇假設:H0:兩組品酒員評價結果無顯著性差異,H1:兩組品酒員評價結果有顯著性差異。
計算兩組品酒員對紅葡萄酒和白葡萄酒評分均值的t統計量,繪制其顯著性檢驗結果如圖4所示。
觀察圖4再結合t檢驗推斷依據,在顯著性水平為0.05的情況下,t檢驗值小于t(df)0.05,所以接受原假設,即兩組品酒員評價結果無顯著性差異。接著計算得到了兩組品酒員對紅葡萄酒和白葡萄酒的平均顯著性t檢驗值分別為1.7539和1.1356,這說明品酒員對白葡萄酒評價結果的差異小于對紅葡萄酒的差異。
4.1.4哪組結果更可信
為了評價哪一組結果更可信,我們可以根據品酒員對酒樣品評價得分的方差來體現,方差越小,說明品酒員之間評價結果越接近,評價結果越可信。
觀察圖像可以發現,對于紅葡萄酒和白葡萄酒,第一組品酒員評分的方差均大于第二組品酒員評分的方差,綜上,我們可認為第二組品酒員的評分數據更可信一點。
4.2問題二的模型建立與求解
根據釀酒葡萄理化指標和葡萄酒質量對釀酒葡萄進行分級,也就是對釀酒 進行聚類。查閱文獻可知,K均值聚類法具有廣泛的應用,是典型的基于原型的目標函數聚類方法的代表,它是數據點到原型的某種距離作為優化的目標函數,利用函數求極值的方法得到迭代運算的調整規則。限于篇幅原因,其實現原理和方法見參考文獻。
4.2.1根據葡萄酒質量聚類
由問題一分析可知,兩組品酒員評價結果無顯著性差異,因此本文采用兩組品酒員評分均值來進行分析。利用K均值聚類算法對紅葡萄酒質量進行聚類得到圖7。
圖7紅葡萄酒K均值聚類結果圖
根據分類的結果以及各葡萄樣品酒綜合得分最終將釀酒葡萄分為A(優質)、B(良好)、C(中等)、D(差)四個等級,客觀地反映了釀酒葡萄的理化指標與葡萄酒質量之間的聯系。對于紅葡萄酒的分類結果如表2所示。
4.2.2根據釀酒葡萄酒理化指標聚類
觀察表3中釀酒葡萄的理化指標,分為一級指標和二級指標,為了指標級別的統一性,我們選擇一級指標進行研究,但一級指標仍然有9個,為此,我們采用主成分分析法(Principal Component Analysis,PCA)對指標進行降維。主成分分析,是考察多個變量間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。endprint
利用主成分分析法先對釀酒葡萄指標進行降維,然后在利用K均值聚類法對降維結果進行聚類。以紅葡萄為例,根據PCA得分利用K均值聚類的結果如圖9所示。
與根據葡萄酒質量的分級結果比較,發現兩者一致性較差,這在情理之中。根據不同的評判標準就會得到不同的結果,根據葡萄酒分級的目的,可能認為根據葡萄酒評分對釀酒葡萄進行分級更合理一點。對于白葡萄酒情況類似,限于篇幅不再給出白葡萄酒的分級結果。
4.3兩組變量之間的關系
4.3.1典型相關分析
欲分析釀酒葡萄與葡萄酒的理化指標之間的聯系,可以采用典型相關分析法,典型相關分析的目的識別并量化兩組變量之間的關系,將兩組變量之間的關系轉化為一組變量的線性組合與另一組變量的線性組合之間的相關關系分析,其基本思想是主成分分析。
根據附件2發現,釀酒葡萄的一級理化指標有30個,葡萄酒的一級理化指標有9個,我們采用MATLAB中的canoncorr函數分析這兩組變量之間的關系,分析結果表明,九組典型相關變量的相關系數均為1,繪制了九組典型相關變量得分如圖10所示。
由于典型相關變量太多,且其表達式較復雜,故此種方法對分析釀酒葡萄與葡萄酒理化指標之間的聯系用處不大。
4.3.2多元線性回歸模型的建立
多元回歸分析是研究多個變量之間關系的回歸分析方法,確定變量之間數量的可能形式,并用數學模型表示如下:
(3)
其中β0為截距項,βi為偏回歸系數,ε為殘差項。
假定:
(4)
建立模型后,需要對模型進行擬合度檢驗,就是用R2檢驗樣本回歸方程的變量的線性關系是否顯著,此外可以用F檢驗對整個回歸進行顯著性檢驗,即Y與所考慮的k個自變量是否有顯著性線性關系,F檢驗統計量為:
(5)
其中ESS為回歸平方和,RSS為殘差平方和,n為樣本容量,k為自變量個數。
給定顯著性水平α=0.05,可得到臨界值Fα(k,n-k-1),由樣本求出統計量F的數值,通過與F的臨界值進行比較,若FF(0.05)(k,n-k-1),則拒絕原假設,即參數βi不全為0,認為回歸方程在0.05水平上顯著。
為了便于分析,我們將附件2中的一級指標進行編號,釀酒葡萄的一級指標從氨基酸總量、蛋白質、VC 含量直到b*(+黃;-藍)分別命名為x1,x2,x3,…xn,葡萄酒的一級指標從花色苷、單寧、總酚直到b*分別命名為y1,y2,y3,…,yn。建立葡萄酒理化指標y與釀酒葡萄理化指標x之間的關系,由于釀酒葡萄一級指標多達30個,為此,需要對釀酒葡萄一級指標進行降維,選擇主要的指標進行分析。以花色苷為例,針對葡萄酒的其他理化指標的分析與之類似。建立釀酒葡萄與花色苷之間的相關系數矩陣,選擇相關系數絕對值大于均值的變量。其相關系數矩陣如表5所示。其中X表示將該變量舍去。
根據R2的大小,可判斷出多元線性回歸方程的契合度,結果顯示,在置信度95%下,R2=0.98,可知方程的吻合性非常好。且F=19.4>F(0.95,19,7)=3.46,與顯著性概率0.05相關的p=0.00027<005,這說明回歸方程中的每個自變量的選取都是有意義的。最后得到葡萄酒花色苷與釀酒葡萄一級理化指標的多元線性回歸方程為:
y=β0+β1x2+β2x4+β3x6+…+β19x28+β20x29(6)
其中x2、x4、x4、x28、x29、y分別代表蛋白質、釀酒葡萄花色苷、蘋果酸、L*、a*、葡萄酒花色苷。
參考文獻
[1]全國大學生數學建模競賽官網,2012年高教社杯全國大學生數學建模競賽賽題[EB/OL].http://www.mcm.edu.cn/problem/2012/2012.html.
[2]百度百科,t檢驗定義[EB/OL].https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C/9910799?fr=aladdin.
[3]百度百科,K均值聚類[EB/OL].https://baike.baidu.com/item/K-means/4934806?fr=aladdin.
[4]朱建平.應用多元統計分析[M].第3版.北京:科學出版社,2016.
[5]百度百科,主成分分析法[EB/OL].https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840?fr=aladdin.endprint