周雪婷 劉禹辰


摘要:葡萄酒的之間的差異性有很多判別方法,本文比較兩組評酒員的評價結果有無顯著性差異,并建立合理的評價模型來判斷兩組結果在可信度方面的優劣。選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態Q-Q圖進行正態分布驗證,發現四組全部符合正態分布;采用T檢驗,檢查兩組評分均值是否存在顯著性差異,通過比較p值與標準差,來評定可信度高的組別。
關鍵詞:Shapiro-wilk檢驗;T檢驗;多元統計分析;葡萄酒;差異評價
一、數據預處理
由于給出的數據是自行測得的,可能會存在操作失誤進而測錯或者漏測、少測的情況發生。經過對數據的瀏覽分析,發現有些數據存在缺失,并且部分數據存在異常。因此,需要進行異常數據的修正和缺失數據的增添,這樣才能確保實驗數據和實驗結果的正確性。
評酒員7對樣品3口感持久性評分的數據,相較于相鄰各評酒員的評分發生了明顯的突變現象。這種數據異常可能對數據分析的結果產生不利影響。因此,采用求取平均值的方法進行修補。
同時,觀察各組紅葡萄酒各樣品得分數據散點圖,可以直觀的看到評酒員4對樣品20的評分數據中,沒有色調特征的數據,所以存在數據缺失情況。這種數據缺失可能會對后續模型建立、問題分析產生不利影響。因此,采用求取平均值的方法進行修補。
修改后的數據,可以很好的滿足后續實驗的需求,極大增高實驗結果的穩定性。
二、評分的正態分布檢驗
對兩組評酒員評分的差異性評價分析要求樣本數據滿足正態分布。因此,我們首先對樣本數據的正態分布進行檢驗。此處我們對兩組評分的均值數據進行檢驗,查看是否符合正態分布。
主要步驟如下所示:
Step1:統計每個酒樣品評酒員的評分均值
首先,計算每一個酒樣品的10名評酒員的評分均值,均值的公式如下所示:
(1)
其中,為缺失值,m為酒樣品的組號。
Step2:進行Shapiro-wilk檢驗
由題意得,第一組紅葡萄酒、第一組白葡萄酒、第二組紅葡萄和第二組白葡萄樣品的酒樣品數目分別為27、28、27、28。所以,采用適用于小范圍的Shapiro-wilk檢驗對樣本進行檢驗,并繪制Q-Q圖。
假設H0表示該組均值服從正態分布,H1表示該組均值不服從正態分布。
使用SPSS軟件,選取置信水平為95%,對四組數據進行Shapiro-wilk檢驗。以第一組白葡萄酒為例,Shapiro-wilk檢驗、直方圖和Q-Q圖結果如表1和圖1、2所示。
經測量,p = 0.824 > 0.05,則不能拒絕H0假設,即可以認為第一組白葡萄酒均值服從正態分布。
觀察圖1,發現第一組白葡萄酒的均值可以近似的看成正態分布。觀察圖5,發現均值點呈直線散列分布,即可以近似看成一條直線,即該組均值符合正態分布。
綜上所述,經過Shapiro-wilk檢驗、直方圖和Q-Q圖的三重驗證,可以近似的認為第一組白葡萄酒的評分均值符合正態分布。經測量,第一組紅葡萄酒、第二組紅(白)葡萄樣品評分均值也符合正態分布。
三、顯著性檢驗與可信度評價
經Shapiro-wilk檢驗、直方圖和Q-Q圖驗證,得第一組、第二組的紅、白葡萄酒評分均值情況服從正態分布。同時,為了說明評酒員評分的科學性以及兩組評分的可信度,我們檢查兩組給出的評分均值是否有顯著性差異,即對數據進行顯著性檢驗。
3.1 T檢驗模型的建立
T檢驗是用于小樣本,總體標準差σ未知的正態分布總體的兩個平均值差異程度的檢驗方法。T分布理論來推斷差異發生的概率,從而判定兩個平均數的差異是否顯著。因此,可以采用T檢驗來判定兩個組別的紅、白葡萄酒的評分均值是否存在顯著差異。
T檢驗的基本理論如下所示:
Step1:進行假設
設 X1,X2,…,Xn1是來自總體N( μ1,σ12 ) 的第一組酒樣品評分均值,Y1,Y2,…,Yn2是來自總體 N(μ2,σ22) 的第二組酒樣品評分均值,且兩組酒樣品的評分均值相互獨立。為檢驗兩個總體的均值是否有顯著差異,給出假設:
3.2 T檢驗的進行
3.2.1 紅葡萄可信度的評定
使用SPSS軟件進行獨立樣本的T檢驗,得到T檢驗分析結果如表2、表3所示:
分析表2、表3可知:
萊文方差等同性檢驗結果為 F = 2.245,顯著性概率為0.140>5%,因此,接收假設H0,認為兩組評酒員對酒樣品的評價結果無顯著性關系。
第一組數據的標準差6.76255>第二組的標準差3.97799,標準誤差平均值第一組1.30145>第二組0.76556,因此,第二組的評分更加穩定,數據的波動小。
因此,針對紅葡萄酒而言,可認為第二組的評價結果更可信。
3.2.2 白葡萄可信度的評定
使用SPSS軟件進行獨立樣本的T檢驗,得到的T檢驗分析結果如表4、表5所示:
分析表4、表5可知:
萊文方差等同性檢驗結果為 F = 5.044,顯著性概率為 0.044 <5%,因此,接收假設H1,認為兩組評酒員對酒樣品的評價結果有顯著性關系。
可以看出第一組數據的標準差5.20123>第二組的標準差3.17094,標準誤差平均值第一組0.98294>第二組0.59925,因此,第二組的評分更加穩定,數據的波動小。
因此,針對白葡萄酒而言,可認為第二組的評價結果更可信。
綜上,兩組評酒員對于紅葡萄酒評價沒有顯著差異,對白葡萄酒評價有顯著差異,第二組的結果更可信。
四、綜合評價
葡萄酒的之間的差異性有很多判別方法,本文比較兩組評酒員的評價結果有無顯著性差異,并建立合理的評價模型來判斷兩組結果在可信度方面的優劣。首先,進行數據預處理,完成異常數據的修改和缺失數據的增添;然后,選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態Q-Q圖進行正態分布驗證,發現四組全部符合正態分布;最后,采用T檢驗,檢查兩組評分均值是否存在顯著性差異,通過比較p值與標準差,來評定可信度高的組別。實驗發現兩組評酒員對于紅葡萄酒的評價沒有顯著性差異,對白葡萄酒的評價存在顯著性差異,可第二組的標準差及標準誤差平均值均小于第一組,因此,認為第二組更加可信。
參考文獻:
[1]李猛.紅葡萄酒品質特點及鑒別方法分析[J].中國果菜,2020,40(09):65-68.
[2]田偉業,楊和財,張軍翔,李甲貴,房玉林,陶永勝.中外葡萄酒產品等級分級評價及啟示[J].中國釀造,2020,39(10):220-224.
[3]陳虹瑤,楊易,季俊霖,徐紹榮,楊曉杰,潘立臣.基于AHP的葡萄酒產業發展影響因素評價[J].釀酒科技,2020(07):124-128.
第一作者:周雪婷 女 漢 共青團員 本科 河南省鄭州人 ?河南大學金融數學專業 方向:用數學方法與思維解決經濟問題。
第二作者:作者簡介:劉禹辰(2001—),女,漢,河南省鄭州市人,學生,工學本科,河南師范大學計算機與信息工程學院,研究方向:數據分析和數據挖掘。