張武 康等銀 王德方
【摘要】本文基于移動端的校園點餐系統所收集的數據,采用Excel及PMT工具對數據進行了性狀分析和算法研究,通過決策樹模型給出了校園學生用餐的消費偏好及敏感因素,對校園經營者及政策決策者具有一定的參考價值。
關鍵字:移動消費、消費偏好,敏感性,決策樹
中圖分類號: C913.33???? 文獻標志碼:A
在當前移動消費日益昌盛的今天,校園移動消費也在不斷發展,基于此環境,以雙創學生為主體課題組開發了“美美校園生活服務平臺”,通過運營,效果良好,并取得了一定的數據量。通過大數據思維的數據挖掘,對校園學生的消費偏好及因素敏感度進行了性狀分析和算法研究,其目的在于不僅能為校園店鋪經營者給出提高銷售額的有效辦法,也能為學校調整后勤保障政策提供決策信息。
數據、工具、方法說明
本課題所采用的數據來自于學生自主開發的移動點餐系統“美美校園生活服務平臺”的實際數據,該移動點餐程序采用Android系統開發,微信小程序發布,數據與程序部署于“阿里云”服務器。數據時間范圍為2018年10月至2019年4月,經整理后的實例數達3548條,主要數據屬性為店鋪名、訂單id、時間、樓房、餐品名、價格等。
本課題主要采用Excel2013及PMT大數據挖掘分析工具。研究采用的主要方法為詞頻分類、決策樹等數據分析算法及大數據的可視化分析方法。
與課題相關的技術與研究方法
數據的預處理
高質量的決策必須依賴于高質量的數據,但是初始數據中存在部分的臟數據,例如數據的不完整(感興趣的屬性沒有),含噪聲(數據中存在錯誤、或異常(偏離期望值)的數據),不一致(數據內含出現不一致的情況)。數據預處理包括數據清洗,缺省值填充,數據選擇,數據變換,數據集成。處理過程中需要將時間格式分類定位至年、月、日、時等不同分類;商品品名是字符串格式,需要編程分割并列入不同屬性以便詞頻分類。
詞頻分析
詞頻分析的目的是從商品品名中辨識出葷菜、素菜及米食、面食四種屬性。目前,詞頻分析的方法主要分為兩類:一種是基于詞典的方法;一種是基于機器學習的方法,如基于大規模語料庫的機器學習。前者需要用到標注好的類別詞典,英文的詞典有很多,中文主要有知網整理的情感詞典Hownet和臺灣大學整理發布的NTUSD 兩個分類詞典,還有哈工大信息檢索研究室開源的《同義詞詞林》可以用于詞典的擴充。基于機器學習的方法則需要大量的人工標注的語料作為訓練集,通過提取文本特征,構建分類器來實現分類。
決策樹
決策樹是一種通過對歷史數據進行測算實現對新數據進行分類和預測的算法。簡單來說決策樹算法就是通過對已有明確結果的歷史數據進行分析,尋找數據中的特征。并以此為依據對新產生的數據結果進行預測。它代表的是對象屬性與對象值之間的一種映射關系。數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測。
決策樹既可以用于分類問題,也可以用于回歸問題。決策樹的優點是可讀性強,分類速度快。通常采用損失函數最小化原則。我們采用的事scikit-learn 中的回歸決策樹(Decision TreeRegressor),主要用于回歸問題。這個決策樹采用的是優化的CART 決策樹算法,而雜質度量方法常用Gini 指標,
,其中
表示屬于
類的概率。
數據基本性狀
經處理后的數據共3545個實例,無缺失值。因為所包含的特征變量較多,故將店鋪名設定為目標變量(target),在此基礎上,將特征變量(feature)分為二個變量群,分別為:餐品價格屬性、時間地理屬性。通過這二個方面的性狀呈現,可以大致刻畫出整個校園學生餐食偏好的數字肖像。
餐品價格屬性
餐品價格屬性的特征變量定義為:金額、素量、葷量、米食、面食。通過PMT的可視化數據呈現,其中金額與素葷米面的性狀關系如圖3-1所示:
以上圖可看出:米食相對面食品種多,且價格也繁多。素食相對葷食品種多,也價格繁多;米食和素食更偏向低價區,而面食和葷食對價格相對不敏感,只要口味好,學生不太計較高價格;玉枝園4樓5灶出售份額多,更受學生青睞。
米面葷素的占比情況如圖3-2所示:
以上圖可看出:素食占比略大于葷食,米食占比顯大于面食,這與學生消費能力有限,米食出餐速度快且配送方便有關。
時間地理屬性
時間地理屬性的特征變量定義為:月、日、時、樓名、房號。通過PMT的可視化數據呈現,時間地理屬性的性狀關系如圖3-3所示:
以上圖可看出:士官公寓的點餐時間集中度略早,在上午10點就開始,兩個女生公寓(槐香、榆繁)點餐時間集中在上午11點至13點,下午基本不再點餐,其他公寓(柳蔭、柏盛、松鳴)點餐時間正常;男生偏愛4樓4灶,女生偏愛5樓7灶;點餐更集中于10-12月,樓層越高點餐份額越多。
學生消費偏好的敏感性分析
學生消費偏好的敏感度分析的主要目的是想通過算法的進一步深入應用,以數據分析來模擬學生的視角,了解學生通過哪些因素的判斷來訂購餐品的,從而為餐品提供者提高銷售收入給出數據依據。
模型采用的是決策樹分類算法,我們依然選擇店鋪名為目標變量,特征變量選定為單價、葷量、素量、米食、面食,即我們認為影響學生選擇的主要因素有三個:價格、葷素、米面。
經過運算,共有239個節點,120個葉子節點,顯然由于數據量較小,且未經過剪枝處理,樹的性狀不是優良狀態,為簡化計算,我們取5層樹進行分析。決策樹的可視化圖如圖4-1。
由圖中可以判斷:學生的第一判斷因素是價格,如果餐品價格小于7元,有35.3%的學生會選擇玉枝園4樓5灶,如果餐品價格大于7元,此時學生將開啟第二判斷因素,即米面偏好因素,學生更多地轉向玉枝園4樓4灶的米食;然后再次判斷價格,轉向玉枝園5樓6灶;最后開啟第三判斷因素,即葷素偏好因素,再次轉向玉枝園4樓5灶的素食食品。
結論
總體來看,學生的因素判斷順序為價格(低價)——米面(米食)——價格(低價)——葷素(素食),玉枝園4樓5灶的節點更多,表明該節點價格低、蓋澆飯品種多且素菜品種多,更受學生偏愛。同時,建議商家在目前學生消費能力不高的情況下,要多提高素食品種并提升出餐速度,才是增長銷售額的有效手段。
參考文獻:
[1] 孫琳.基于電商企業運營數據的商品定價策略研究.2017大數據分析專業競賽作品集上冊.2017.