999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘技術(shù)的紅酒評分預(yù)測模型的設(shè)計與分析

2019-03-21 00:23:34王柏
現(xiàn)代商貿(mào)工業(yè) 2019年7期
關(guān)鍵詞:機器學(xué)習(xí)數(shù)據(jù)挖掘

王柏

摘要:隨著現(xiàn)代社會的快速發(fā)展,紅酒行業(yè)已慢慢走向全球化與大眾化,更多的紅酒品牌和品種也逐漸被世人所知。然而,紅酒品質(zhì)也分三六九等,如何判斷一款紅酒是優(yōu)是劣?利用SPSS,Excel等軟件,使用回歸、決策樹、聚類等經(jīng)典機器學(xué)習(xí)算法,對紅酒的價格、評分、產(chǎn)地等因素進行統(tǒng)計與分析。最終得出紅酒的原產(chǎn)國,省份以及品種基本可以決定紅酒的優(yōu)劣。

關(guān)鍵詞:紅酒;數(shù)據(jù)挖掘;機器學(xué)習(xí)

中圖分類號:TB文獻標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2019.07.100

1前言

紅酒,是一種有著漫長歷史的飲品。早在公元前1000年,紅酒就在地中海沿岸大部分地區(qū)繁衍傳播,并逐漸發(fā)展成為高檔飲品。在全世界的基督教信徒的眼中,紅酒被視為耶穌的血液,這一點也促進了紅酒的平民化。紅酒不僅僅給人以高雅和浪漫的感覺,在很多女性心中還有美容駐顏的功效,隨著時間的推移,社會也在快速發(fā)展,人們生活水平逐步提升,紅酒市場目前擁有著巨大的發(fā)展?jié)摿土己玫陌l(fā)展前景,紅酒也將逐漸走向全球化與大眾化,讓越來越多的人有機會去品嘗。

近年來,越來越多的人更加講究紅酒的品質(zhì),傳統(tǒng)紅酒的品鑒,要考慮紅酒的香氣、口感、結(jié)構(gòu)、釀造工藝、風(fēng)土和價格等綜合因素。但這些復(fù)雜的品鑒技術(shù)需要積年累月的品酒經(jīng)驗,對于大多數(shù)普通人來說,學(xué)習(xí)這門技術(shù)并不容易。因此,人們對于紅酒的品質(zhì)界定十分地模糊,并不清楚哪些紅酒檔次較高,而哪些紅酒檔次相對較低。為了幫助人們通過更簡單直接的方法去了解紅酒的品質(zhì),本文根據(jù)Kaggle網(wǎng)站上Wine Reviews專題提供的129970組數(shù)據(jù),使用決策樹,聚類等經(jīng)典機器學(xué)習(xí)算法,分析數(shù)據(jù)規(guī)律,建立了根據(jù)紅酒產(chǎn)地、品種、制造商等因素預(yù)測紅酒品質(zhì)的模型;并探索了影響紅酒檔次的最主要因素。該模型可以為喜歡紅酒的人們提供參考,從而使他們對于紅酒品質(zhì)有著更加清晰的認(rèn)識。

2數(shù)據(jù)介紹和預(yù)處理

本文使用的Wine Reviews數(shù)據(jù)集的原始出處是WineEnthusiast網(wǎng)站上不同國家用戶對眾多紅酒的評論。本數(shù)據(jù)集主要包含了129970款紅酒的產(chǎn)地國(Country)、省份(Province)、城市(Region)、評分(Points)、描述(Description)、制造商(Winery)、品種(Variety)、價格(Price)等重要因素。

數(shù)據(jù)集中,評分和價格都是數(shù)值型屬性,為了構(gòu)建決策樹模型,在預(yù)處理過程中,要對這兩個屬性進行離散化處理。本文根據(jù)分?jǐn)?shù)的高低初步劃分這些紅酒的檔次,大于等于90分的為高等(High),大于等于85分,小于90分的為中等(Medium),小于85分的則為低等(Low)。同時,本文對價格進行排序,將紅酒的價格劃分為三個檔次:大于等于500美元的為貴(Expensive),大于等于100美元,小于500美元的為普通(Normal),小于100美元的為便宜(Cheap)。

同時在這129970組數(shù)據(jù)當(dāng)中,缺失部分?jǐn)?shù)據(jù)的紅酒樣本會對計算產(chǎn)生影響,為消除這部分影響,本文刪除了部分?jǐn)?shù)值或資料缺失的樣本,保證紅酒數(shù)據(jù)的完整性,為后文中的預(yù)測模型的準(zhǔn)確性提供更加科學(xué)的依據(jù)。

3單因素數(shù)據(jù)分析

3.1原產(chǎn)國、價格與評分

首先,本文將對129970款紅酒按照國家(country)分類,分別求出不同國家紅酒的平均價格和平均評分。使用了Excel的“分類匯總”功能,將國家作為“分類字段”,將“價格”和“評分”作為“匯總方式”,使用“平均值”作為匯總項。得到分類匯總的結(jié)果后,本文使用“定位”功能,將匯總結(jié)果單獨取出,使用EXCEL圖表中的“組合圖”,分別用柱形圖表示“評分”,用折線圖表示“價格”,得到結(jié)果如圖1所示。

通過比較每個國家紅酒的平均價格與平均評分,我們可以判斷哪些國家的紅酒更加物美價廉。根據(jù)圖1我們分析得出,法國、匈牙利、盧森堡、德國、意大利等這些我們熟知的紅酒發(fā)展歷史悠久的歐洲國家的紅酒性價比反而比較低。反而,如印度、摩洛哥、阿爾巴尼亞、塞爾維亞、智利、土耳其等國家,其紅酒擁有不俗的品質(zhì),但是價格并不高,他們出產(chǎn)的紅酒往往是性價比高的選擇。

其次,我們重點觀察了高品質(zhì)紅酒的原產(chǎn)地。紅酒平均得分最高的五個國家均在歐洲,分別是英國、奧地利、法國、德國和意大利。在亞洲國家中,評分最高的三個國家是土耳其、印度和以色列。韓國、中國、黑山共和國的紅酒的平均評分是最差的。

由此可見,原產(chǎn)國對于紅酒的評分與價格或多或少產(chǎn)生了一定的影響,本文會將在多因素分析中進一步解釋與說明。

3.2省份、價格與評分

本文使用同3.1相似的辦法,對各個原產(chǎn)國中不同省區(qū)(province)的性價比進行了計算,發(fā)現(xiàn)每個原產(chǎn)國都會有至少一個較大的紅酒產(chǎn)區(qū)。這些較大的紅酒產(chǎn)區(qū)出產(chǎn)的紅酒評分都相對較高,同時價格也相對較昂貴。例如,我們熟知的法國波爾多紅酒產(chǎn)區(qū),其紅酒的平均得分在所有的省份中并不算很高,但紅酒的平均價格高達(dá)57.3美元(約合372.45元人民幣)。

由此可見,出自著名產(chǎn)區(qū)的紅酒并不一定都是性價比可行的紅酒。同樣,本文將會在多因素分析中運用決策樹算法進一步研究省份對于價格與評分的影響。

3.3描述、價格與評分

如何預(yù)測一款紅酒的價格與評分,評價者們對紅酒的描述(description)也成為了一個不可或缺的因素。我們使用python NLTK package對描述中詞進行解析統(tǒng)計。其中,出現(xiàn)頻率最高的Top10名詞是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,間接說明了描述的內(nèi)容主要是以紅酒的氣味、口味為主,“果味”、“香料”、“酸甜度”都是評價一款紅酒很重要的因素。

為了簡單分析紅酒描述對于價格和評分的影響,本文主要提取了6個不同方面的關(guān)鍵詞:絲滑(Smooth),純正(Pure),余味(Aftertaste),百分百(100%),顏色(Color)和新鮮(Fresh),并計算出含有這些高頻詞匯的紅酒平均價格與平均評分的關(guān)系。在性價比方面含有“新鮮”關(guān)鍵詞的紅酒性價最低,含有“百分百”關(guān)鍵詞的紅酒性價比最高。在評分方面,平均得分最高的是描述中含有“純正”關(guān)鍵詞的紅酒,為9041;但這些紅酒價格不菲,平均價格為51.12美元。同時我們發(fā)現(xiàn),性價比相對較低的紅酒組平均得分也不是很高。

由于描述眾多,不便于統(tǒng)計,并且經(jīng)過初步分析,描述對于紅酒的性價比影響并不是很大,因此在下面的多因素分析中將暫時不作為自變量進行分析。

3.4品種、價格與評分

如何更加全面準(zhǔn)確地預(yù)測紅酒的評分,紅酒的品種也是一個不可或缺的重要因素。本文運用Excel當(dāng)中的“分類匯總”功能,將紅酒的性價比根據(jù)紅酒的種類進行分類匯總并進行比較。其中Nebbiolo的性價比最高,為0.68;最低的是Rosé,為0.20。而Nebbiolo品種的紅酒得分普遍較高,為90.22分,但價格也較為昂貴,平均價格為61.70美元(約合401.05人民幣),總體來看,評分較高的紅酒品種價格都相對較高,評分較低的紅酒品種也相對較便宜,因此紅酒的品種對于紅酒評分的預(yù)測基本呈正相關(guān),即越高檔的品種,預(yù)測的評分也會越高。

3.5綜述

在單因素數(shù)據(jù)分析中,本文主要通過比較平均價格與平均得分的比值,初步對各個影響因素進行初步的分析。本文初步認(rèn)為,原產(chǎn)國有可能會成為預(yù)測紅酒得分、價格模型中一個較為重要的評分標(biāo)準(zhǔn);描述也會有所影響,但是由于描述眾多,暫不作為預(yù)測紅酒評分的標(biāo)準(zhǔn)之一。本文將會在下一章中,運用決策樹等經(jīng)典機器學(xué)習(xí)算法,進一步分析各個因素對于紅酒品質(zhì)的影響,構(gòu)建評分預(yù)測模型。

4多因素數(shù)據(jù)分析

為使該模型更加簡潔,本文通過計數(shù)的方式將48個國家分為US,F(xiàn)rance,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大類,其中前八類占總數(shù)據(jù)的90.75%;將446個省區(qū)分為California,Washington,Tuscany,Northern Spain,Mendoza Province,Oregon,Burgundy,Veneto,South Australia,Piedmont,Bordeaux,New York,Sicily & Sardinia和Others十四類,其中前十三類占總數(shù)據(jù)的68.14%;將620個紅酒品種分為Chardonnay,White Blend等和Others共二十類,其中除Others以外的其他類別占總數(shù)據(jù)的7316%。這樣的提取基本可以為下面紅酒評分預(yù)測系統(tǒng)的測試提供可靠的規(guī)律。

進行該處理后,本文在每條數(shù)據(jù)后添加隨機數(shù)函數(shù) RAND,生成一個所在行的隨機數(shù),根據(jù)隨機數(shù)的大小對樣本進行重新排序,并選取其中最先出現(xiàn)的20000款紅酒的數(shù)據(jù),作為我們的隨機樣本數(shù)據(jù),建立決策樹模型進行分類和預(yù)測。在該決策樹模型中,本文以得分作為因變量,原產(chǎn)國,省區(qū)和品種作為自變量,價格為影響變量。選取這20000款中70%作為訓(xùn)練樣本,剩余的30%作為測試樣本。訓(xùn)練樣本的決策樹模型如圖2所示。

根據(jù)計算結(jié)果分析,該決策樹模型的正確率約為87.8%,樹的深度為6,共有43個節(jié)點。其中,來自Tuscany,Burgundy,Bordeaux, Piedmont和South Australia的Merlot, Syrah和Bordeaux-Style White Blend品種紅酒的預(yù)測得分最高,為93.602;來自Chile, Argentina, Spain和Portugal的Zinfandel, Sauvignon Blanc,White Blend, Rosé, Merlot, Nebbiolo和Shiraz品種的紅酒預(yù)測得分最低,為85.100.大多數(shù)紅酒的分?jǐn)?shù)都在87分至92分之間。據(jù)此,該模型基本可以準(zhǔn)確根據(jù)紅酒的原產(chǎn)國,省區(qū)和紅酒的品種對紅酒的評分進行預(yù)測。

5總結(jié)

本文首先單因素分析了原產(chǎn)國,產(chǎn)地和品種對紅酒的價格與評分進行了簡單的分析,之后以此為基礎(chǔ),運用決策樹算法,建立了較為簡單的紅酒評分預(yù)測系統(tǒng)的模型。從實驗結(jié)果來看,該系統(tǒng)的準(zhǔn)確率較高,因此基本可以說明紅酒的原產(chǎn)國,省份以及品種大致決定了紅酒的評分。

但是,該紅酒評分預(yù)測系統(tǒng)也有一定的局限性。首先,隨機選取的樣本當(dāng)中不排除平均數(shù)值較實際數(shù)值偏低或偏高的情況,因此不一定能夠準(zhǔn)確地反映一款紅酒的整體水平;其次,該紅酒評分預(yù)測模型也只是通過分析紅酒的原產(chǎn)國、省份和品種而建立的,忽略了酒廠,描述以及品牌對于預(yù)測紅酒評分的影響,因此有可能會錯誤地預(yù)測紅酒的評分。

雖然有一定的局限性,但是該紅酒評分預(yù)測系統(tǒng)提供的數(shù)據(jù)依然有值得參考的價值,人們可以通過這個系統(tǒng)初步了解一款紅酒的得分,從而了解這款紅酒處于什么樣的檔次。同時隨著服務(wù)業(yè)的快速發(fā)展,該紅酒評分預(yù)測系統(tǒng)也將具有根據(jù)人們的需求為人們推薦評分較高或性價比較高的紅酒的功能,同時也會根據(jù)用戶對于這款紅酒的評論不斷更新紅酒的評分,使該紅酒評分預(yù)測系統(tǒng)更加完善。

然而,無論該紅酒評分預(yù)測系統(tǒng)有多么地完善,真正評分高的紅酒,依然需要專業(yè)的品酒師進行品鑒,提供更可靠,更科學(xué)的結(jié)論。

參考文獻

[1]尚朝軒.基于類決策樹分類的特征層融合識別算法[J].控制與決策,2016,31(6):1009-1014.

[2]Wang size.The Study on Evaluation System of Wine Based on Data Mining[J].Advances in Applied Mathematics,2015,4(4):376.

[3]Li,Weishu,et al.Improved Wine Quality Recognition Based on Particle Swarm Optimization Neural Network[Z].2018.

猜你喜歡
機器學(xué)習(xí)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于詞典與機器學(xué)習(xí)的中文微博情感分析
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 国产网友愉拍精品视频| 日韩第八页| 国产无遮挡猛进猛出免费软件| 亚洲欧美日韩综合二区三区| а∨天堂一区中文字幕| 国产午夜福利片在线观看| 国禁国产you女视频网站| 亚洲欧美不卡| 国产av无码日韩av无码网站 | 国产精品视频观看裸模| 色综合婷婷| 日本成人一区| jijzzizz老师出水喷水喷出| 国产精品人成在线播放| 国产真实乱人视频| 热久久国产| 青青国产成人免费精品视频| 欧美亚洲国产精品久久蜜芽| 亚洲欧洲日产国码无码av喷潮| 三级视频中文字幕| 精品少妇人妻一区二区| 日韩人妻少妇一区二区| 欧美成人午夜视频| 午夜不卡福利| 亚洲精品视频在线观看视频| 欧美专区日韩专区| 国产福利一区在线| 国产91av在线| 色哟哟国产精品| 夜夜操天天摸| 青青草原偷拍视频| 日韩高清一区 | 最新精品国偷自产在线| 久久黄色影院| 亚洲欧美成人网| 日韩小视频在线观看| 亚洲三级成人| 久久精品丝袜高跟鞋| 国产91精品调教在线播放| 精品成人一区二区三区电影| 在线播放91| 久久青草热| 中文字幕丝袜一区二区| 国产精品自在拍首页视频8 | 欧美成人看片一区二区三区 | 97影院午夜在线观看视频| 亚洲天堂精品在线观看| 久久黄色视频影| 国产午夜一级淫片| 国产香蕉国产精品偷在线观看| 青青草原偷拍视频| 欧美在线一二区| Jizz国产色系免费| 99手机在线视频| 免费高清毛片| 欧美曰批视频免费播放免费| 国产亚洲高清视频| 日韩欧美91| 2020最新国产精品视频| 久久免费视频播放| 亚洲精品福利视频| 97国产在线视频| 国产91小视频在线观看| 在线播放91| 夜夜爽免费视频| 无码福利视频| 亚洲AV无码乱码在线观看裸奔| 欧美无专区| 精品一区国产精品| 精品三级网站| 中文字幕在线看| 国产精品亚洲а∨天堂免下载| 91精品啪在线观看国产60岁| 国产一级毛片yw| 欧美精品啪啪一区二区三区| 视频二区中文无码| 成人免费午夜视频| 白丝美女办公室高潮喷水视频| 国产一区免费在线观看| 欧美色图第一页| 亚洲人成影视在线观看| aaa国产一级毛片|