佘朝兵
摘 要:運(yùn)用數(shù)據(jù)挖掘技術(shù)中的線(xiàn)性回歸算法,對(duì)上海市61家火鍋餐廳在大眾點(diǎn)評(píng)網(wǎng)的數(shù)據(jù)進(jìn)行處理,分析與評(píng)分有關(guān)的影響因素,幫助火鍋餐廳管理者做出決策。數(shù)據(jù)挖掘結(jié)果表明:朋友之間在餐廳中聚餐的次數(shù)、口味、服務(wù)質(zhì)量越高、評(píng)分越高;家庭在餐廳聚餐次數(shù)、提供夜宵次數(shù)、餐廳老字號(hào)年數(shù)越多,評(píng)分越低。
關(guān)鍵詞:線(xiàn)性回歸;影響因素;火鍋餐廳
中圖分類(lèi)號(hào):F224.31 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)10-0168-02
Abstract: Using the linear regression algorithm in data mining technology, the data of 61 hot pot restaurants in Shanghai on dianping.net are processed, and the influencing factors related to score are analyzed to help the managers of hot pot restaurants to make decisions. Data mining results show that: the higher the number of times, taste, quality of service of friends are in the restaurant, the higher the score is; the larger the dinner times, the number of times to provide supper, the years of running the restaurant are for families in the restaurant, the lower the score is.
Keywords: linear regression; influencing factors; hot pot restaurant
1 概述
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,客戶(hù)選擇餐飲的決策方式已經(jīng)悄然發(fā)生改變。過(guò)去,客戶(hù)通過(guò)同事、朋友的介紹選擇餐廳。而今,雖然上述決策方式還產(chǎn)生作用,但是越來(lái)越多的客戶(hù)主要選擇利用移動(dòng)互聯(lián)網(wǎng)信息選擇餐廳,例如依賴(lài)“大眾點(diǎn)評(píng)網(wǎng)”的上其他客戶(hù)對(duì)餐廳的點(diǎn)評(píng)信息進(jìn)行決策。餐廳在“大眾點(diǎn)評(píng)網(wǎng)”等信息平臺(tái)上的評(píng)分越高,客戶(hù)選擇該餐廳的概率越大。因此在餐飲行業(yè),傳統(tǒng)的宣傳手段已經(jīng)無(wú)法適應(yīng)現(xiàn)在的用戶(hù)的要求。如何提高在“大眾點(diǎn)評(píng)網(wǎng)”等互聯(lián)網(wǎng)信息平臺(tái)上的評(píng)分,已經(jīng)成為餐飲營(yíng)銷(xiāo)宣傳的關(guān)鍵問(wèn)題。眾所周知,服務(wù)、環(huán)境等因素都可能影響客戶(hù)的評(píng)分,哪些因素是影響客戶(hù)評(píng)分的關(guān)鍵因素呢?通過(guò)線(xiàn)性回歸算法分析影響餐飲行業(yè)評(píng)分的關(guān)鍵因素,可有利于餐飲行業(yè)管理者為營(yíng)銷(xiāo)宣傳提供決策依據(jù)。上海是全球著名金融中心,全球人口規(guī)模和面積最大的都會(huì)區(qū)之一。以上海市火鍋餐廳為例進(jìn)行分析,可以為其他城市的餐飲評(píng)分影響因素分析提供參考。
2 線(xiàn)性回歸算法
回歸分析是指通過(guò)分析已知的大量數(shù)據(jù),發(fā)現(xiàn)變量之間的統(tǒng)計(jì)關(guān)系,構(gòu)建描述這種關(guān)系的模型,最終利用構(gòu)建的模型預(yù)測(cè)新的數(shù)據(jù)?;貧w分析不僅可以通過(guò)指定變量的值預(yù)測(cè)結(jié)果,還可以準(zhǔn)確描述指定變量影響結(jié)果的程度。
2.1 線(xiàn)性回歸算法的基本原理
線(xiàn)性回歸是利用統(tǒng)計(jì)原理來(lái)分析變量之間定量關(guān)系的一種方法。該算法主要的目的是通過(guò)一個(gè)變量來(lái)預(yù)測(cè)另外一個(gè)變量的值。線(xiàn)性回歸分為一元線(xiàn)性回歸和多元線(xiàn)性回歸兩類(lèi)。前者是指在回歸分析中,只包含一個(gè)自變量和一個(gè)因變量,并且這兩者的關(guān)系可以通過(guò)直線(xiàn)來(lái)描述;后者是指在回歸分析中,包含多個(gè)自變量和一個(gè)因變量,并且變量之間的關(guān)系也是直線(xiàn)關(guān)系。
在實(shí)際生活中,一個(gè)結(jié)果的出現(xiàn)可能與多個(gè)因素有關(guān)。因此處理實(shí)際問(wèn)題時(shí),一般將多個(gè)因素抽象為多個(gè)自變量,將結(jié)果抽象為因變量,用多元回歸分析方法進(jìn)行處理。
不妨設(shè)y為因變量,x1,x2,…,xn為自變量。則多元線(xiàn)性回歸方程可表示為y=w1*x1+w2*x2+…+wn*xn+w0;其中w1,w2,…wn表示回歸系數(shù),w0是常規(guī)項(xiàng)?;貧w系數(shù)wi表示了第i個(gè)自變量對(duì)因變量的影響程度,系數(shù)為正,則該自變量與因變量正相關(guān);系數(shù)為負(fù),則該自變量與因變量負(fù)相關(guān)。多元線(xiàn)性回歸分析就是通過(guò)大量數(shù)據(jù)計(jì)算多元線(xiàn)性回歸的系數(shù)。系數(shù)的參數(shù)估計(jì)一般采取最小二乘法來(lái)表示,即要求估計(jì)的系數(shù)得到的預(yù)測(cè)值與實(shí)際值的誤差平方和最小。誤差平方和的計(jì)算公式如(1)所示:
e=∑■■(y(i)-x(i)Tw(i))2 (1)
其中y(i)表示第i個(gè)線(xiàn)性方程的因變量的實(shí)際值,x(i)是第i個(gè)線(xiàn)性方程自變量向量,w(i)第i個(gè)線(xiàn)性方程回歸系數(shù)向量。用矩陣表示如公式(2)所示:
e=(y-Xw)T (y-Xw) (2)
由于采取最小二乘法,因此目標(biāo)是上述公式中的最小值。通過(guò)公式(2)對(duì)w進(jìn)行求導(dǎo),即可以得到回歸系數(shù)的公式如下:
w'=(XTX)-1XTy (3)
2.2 算法步驟
線(xiàn)性回歸算法的步驟如下:
步驟1:收集數(shù)據(jù);
步驟2:預(yù)處理數(shù)據(jù)特別是對(duì)數(shù)據(jù)進(jìn)行歸一化處理;
步驟3:輸入訓(xùn)練數(shù)據(jù)得出回歸系數(shù);
步驟4:根據(jù)回歸系數(shù),分析回歸效果。
3 應(yīng)用實(shí)例
3.1 數(shù)據(jù)來(lái)源
本節(jié)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù),在“大眾點(diǎn)評(píng)網(wǎng)”收集上海市61家火鍋餐廳的數(shù)據(jù)。數(shù)據(jù)集包含了61個(gè)樣本,每個(gè)樣本包括店名、點(diǎn)評(píng)條數(shù)、人均消費(fèi)額、口味、環(huán)境、服務(wù)、有無(wú)團(tuán)購(gòu)、有無(wú)外賣(mài)、有無(wú)訂座、朋友聚餐次數(shù)、隨便吃吃次數(shù)、刷卡次數(shù)、家庭聚會(huì)次數(shù)、情侶約會(huì)次數(shù)、夜宵次數(shù)、無(wú)線(xiàn)上網(wǎng)次數(shù)、休息小憩次數(shù)、老字號(hào)年數(shù)、免費(fèi)停車(chē)次數(shù)、點(diǎn)評(píng)分等屬性數(shù)據(jù)。部分實(shí)例數(shù)據(jù)如表1所示;訓(xùn)練樣本中屬性的排列順序如表2所示。
表2 屬性排列順序
3.2 數(shù)據(jù)預(yù)處理
由表1的數(shù)據(jù)可知,部分屬性的數(shù)值屬于離散型數(shù)據(jù),例如有無(wú)團(tuán)購(gòu)、有無(wú)訂座、有無(wú)外賣(mài)三個(gè)屬性的值是“有”、“無(wú)”兩個(gè)類(lèi)型。為了計(jì)算方便,將“無(wú)”用數(shù)值0表示、將“有”用數(shù)值1表示。其次屬性的值得數(shù)值差距較大,如點(diǎn)評(píng)條數(shù)的屬性的值的區(qū)間是[587,4762],而口味、環(huán)境、服務(wù)等屬性的值在10內(nèi)。由于屬性之間的數(shù)值差距較大可能大致求解最優(yōu)解時(shí)迭代多次,收斂速度慢等原因。因此有必要對(duì)屬性之間的數(shù)據(jù)進(jìn)行歸一化處理。歸一化處理的方法有線(xiàn)性歸一化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、非線(xiàn)性歸一化等方法。本文采用的是線(xiàn)性歸一化方法。該方法的目的是將所有屬性值設(shè)定在[0,1]區(qū)間。具體計(jì)算如公式(2)所示。
xnarmalization=■ (4)
3.3 測(cè)試結(jié)果
本文利用之前的代碼,通過(guò)對(duì)收集的61個(gè)樣本數(shù)據(jù)進(jìn)行預(yù)處理后利用線(xiàn)性回歸算法進(jìn)行訓(xùn)練,算法得到回歸系數(shù)的結(jié)果如表3所示。
表3中得到的回歸系數(shù)可分成三類(lèi),第一類(lèi)是系數(shù)值低于5%;其余絕對(duì)值高于5%的系數(shù)又可分為系數(shù)值為正和負(fù)兩類(lèi)。回歸系數(shù)數(shù)值低于5%,可認(rèn)為該系數(shù)對(duì)應(yīng)的自變量對(duì)因變量的變化的影響忽略不計(jì)。由表3可知,回歸系數(shù)w2、w6、w7、w8、w10、w11低于5%,對(duì)應(yīng)的自變量即人均消費(fèi)額、有無(wú)團(tuán)購(gòu)、有無(wú)外送、有無(wú)訂座、隨便吃吃次數(shù)、刷卡次數(shù)等屬性對(duì)餐廳的評(píng)分的影響可忽略。在所有正相關(guān)屬性中,w9、w5、w3、w16等系數(shù)對(duì)應(yīng)的屬性值對(duì)餐廳評(píng)分的影響較大。其他屬性值不變的情況下,這些屬性值越大,評(píng)分越高。這些屬性分別是朋友聚餐次數(shù)、服務(wù)質(zhì)量、口味、休閑小憩次數(shù)。在所有負(fù)相關(guān)的屬性中,w12、w14、w17等系數(shù)對(duì)應(yīng)的屬性的值對(duì)餐廳評(píng)分營(yíng)銷(xiāo)較大。其他屬性值不變情況下,這些屬性的值越大,評(píng)分越低。這些屬性分別是家庭聚會(huì)次數(shù)、夜宵次數(shù)、老字號(hào)年數(shù)。
參考文獻(xiàn):
[1]哈林頓.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].李銳,譯.北京:人民郵電出版社,2013.
[2]李瑞,姜新元,秦濤.多元線(xiàn)性回歸在大壩變形監(jiān)測(cè)數(shù)據(jù)處理中的應(yīng)用[J].黃河水利職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,29(1):17-19.
[3]陳海鵬,盧旭旺,等.基于多元線(xiàn)性回歸的螺紋鋼價(jià)格分析及預(yù)測(cè)模型[J].計(jì)算機(jī)科學(xué),2017,44(s2):61-64.
[4]胡繼禮,楊松濤.線(xiàn)性回歸在糖尿病診斷中的應(yīng)用[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,23(4):57-61.
[5]田秀芹.基于多元線(xiàn)性回歸的糧食產(chǎn)量預(yù)測(cè)[J].科技創(chuàng)新與應(yīng)用,2017(16):3-4.
[6]李琦,李華新.基于多元線(xiàn)性回歸分析的安徽省金寨縣域經(jīng)濟(jì)發(fā)展研究[J].科技創(chuàng)新與應(yīng)用,2013(07):266.
[7]石偉,劉愛(ài)華,張立忱,等.多元線(xiàn)性回歸在密山井水位影響因素分析的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2014(01):294.