黃曉艷,蔡麗清,張鈺莎
(廣東外語外貿大學南國商學院,廣州 510545)
校園超市數據關聯規則與統計分析
黃曉艷,蔡麗清,張鈺莎
(廣東外語外貿大學南國商學院,廣州 510545)
隨著社會的發展,校園超市已經成為學生日常生活必不可少的一部分。然而對校園超市進行數據挖據,既可以為商家提供有效地銷售手段使利潤增加,又可以滿足學生的購物需求,達到雙贏的局面。
數據挖掘;關聯規則;統計分析
隨著社會的發展,校園超市逐漸在大學校園中興起,但是卻出現了校園超市沒有滿足學生的需求而逐漸流失客源,導致經營不善。大學生們由于在校園超市沒有購買到自己心儀的商品而舍近求遠。所以對校園超市進行數據挖掘有著重要的意義。通過數據挖掘中的關聯規則,我們不再是傳統的所有數據的關聯規則,而是針對某一個特定的時間段做關聯規則分析[1],這樣得出來的結果更具有時間性,使商家可以準確的了解到在特定時間段里大學生對商品的需求,而做出相對應的銷售手段。還可以通過數據統計分析超市工作時間與人員配置。校園超市與數據挖掘的結合能更加建設校園生活。
本次實驗的數據取自廣東外語外貿大學南國商學院聯合100超市2015年3月~11月的數據,總共有為60幾萬條原始數據。
然后對數據進行預處理:
①數據篩選:將60幾萬條數據中,空缺和錯誤的數據通過SQL2008將其篩選出來。
然后通過商品表將所以的商品替換成字母,便于操作。通過SQL語句(select distinct*from test)把重復的數據剔除掉之后將結果保存為tested通過sql(select *from tested where id in(select*from tested group by id having count(*)>1))篩選出購物籃中商品有兩件以上的數據再通過VS2010制作成購物籃:

圖1 預處理結果
通過數據統計,發現了每日的18:00:00到18:59:59校園超市的銷售量最大。由于原始數據中3月、11月的數據是沒有特殊假期相對完整,接下來我們就以11月每日的18:00:00到 18:59:59時間段一共有3696條數據和3月份每日18:00:00~18:59:59的銷售數據一共有3149條數據進行關聯規則分析。
2.1 APriori算法頻繁項級的產生
在關聯規則中有四個基本的概念:
項集與支持度計數[2]
①支持度:support(A,B)=p(A∪B)=ó(A∪B)/N其中ó(A∪B)表示包含項A和B的事務在事務數據庫中出現的次數,N是事務數據庫的大小。
②置信度:confidence(A,B)=p(A∣B)=ó(A∪B)/ó (A)其中ó(A∪B)表示事務數據庫D中同時包含項A 和B的事務占包含項A的事務的百分比。
③頻繁項級和強關聯規則:根據用戶預先設定的最小支持度和最小置信度閾值,若支持度不小于最小支持度閾值的項集,稱為頻繁項級。若支持度不小于最小支持度閾值且置信度不小于最小置信度閾值的規則,稱為強關聯規則。
根據11月份所篩選的3696條數據中設支持度為1.19% 置信度為15%。通過搭配及計算支持度得出不小于支持度閾值的項集構成頻繁2項級[3]。Aprior算法通過合并頻繁2項集產生候選3項集時,為了避免產生太多重復的候選項集,同時確保沒有遺漏頻繁項集Apriori算法以頻繁項級按字典排序,若兩個頻繁2項級前者相同則合并,得出候選3項集如表1所示。

表1 候選3項集
為了提高效率,在計數支持度得出頻繁3項級之前可以進行候選項集的前剪枝,可以有效的減少支持度計數過程中I/O的次數。然后計算支持度,結果如下表2所示。

表2 候選3項集的支持度
2.2 產生關聯規則
由頻繁2項集產生的關聯規則置信度小于15%的刪除,可以利用Apriori的性質最后得出強關聯規則有A4,K→F17,如表3所示。

表3 商品的支持度和置信度
2.3 相同時段、不同季度所得關聯規則的比較
共同點:在3、11月份的18:00:00~18:59:59這個銷售高峰中的主要銷售的商品是飲料、水果、面包、零食。所以說主要影響著校園超市銷售量的商品是食品類。
①超市可以在3、11月的時間段里,生活用品類和清潔品類而并不是主要的銷售商品,所以校園超市應該減少這類商品的進貨量。
②同時在下午6點這個時間段,超市可以在收銀臺附近添加幾個面包架擺放面包,以增加銷量。
③在擺放面包的附近可以擺上與它有關聯的商品,例如:糖、果脯、香腸等零食。
④在這個時間段可以對商品進行捆綁消費,例如:泡面和面包,牛奶和面包,飲料和面包,面包和香腸等。
不同點:在11月份,廣州的天氣悶熱,比較多的學生在買其他商品的同時買上水果,所以商家可以嘗試新的促銷方式,將水果、面包、酸奶同時進行促銷以增加銷售量。
目的:因為某些時段會有許多學生來超市購物,以至于所有工作人員忙不過來,而有些時間段卻幾乎沒有學生購物,而浪費了不少的資源與金錢。因此我們希望通過對銷售數據的分析挖據發現顧客的購物時間規律,為超市的人員及服務配置等工作提供決策參考。對數據中每一天的每個時間段的銷售額的統計中,分別以3月份~4月份、5月份~6月份、9月份到10月份為一組,對這三組的數據查詢出每個時間段的銷售額(以早上6點開始,晚上11點結束,每一個鐘為一個時間段)。
其次,對于每一周每一個工作日的銷售額進行統計,選擇3月份和9月份的數據顯示,分別對星期一到星期天一整天的銷售數據進行統計。對于上述描述,利用Excel工具分別得到以上兩張圖表:
結論:對于上面兩張圖表,可以得到以下幾點結論:
①一天中,超市銷售共有3個高峰期,分別為早上8點~9點、12點~13點、18點~19點,其中15點~16點也是一個小高峰期,因此,超市管理人員可以在高峰期中增加超市工作人員。
②一天中,除了有3個高峰期中,我們從圖中也可以看出4個低峰期,分別為早上9點~10點、14點~15點、16點~17點、19點過后銷售額呈下降趨勢。因此,在這幾個低潮期超市管理人員可以合理安排超市工作人員的工作時間,同時可以增強工作人員對超市的忠誠度。
③一周中,星期一的銷售額最高,星期六的銷售額最低,星期二到星期五呈下降趨勢,同樣可以合理安排超市工作人員的工作時間。

圖2 超市經營時間銷售圖
[1]張鈺莎.數據挖掘在高校圖書館服務中的應用研究[J].廊坊師范學院學報,2015,7:32-35
[2]蔣盛益.商務數據挖掘與應用案例分析[M].北京:子工業出版,.2014,1:104-109
[3]張鈺莎.數據挖掘技術在教學質量評估中的應用研究.暨南大學[D],2012,6

圖3 星期銷售折線圖
校園超市作為大學生校園生活必不可少的一個部分,但是如何經營超市和如何滿足廣大學生的日常生活成了一大難題。商家們對校園超市進行數據挖掘可以準確的發現學生們日常需求的規律,構建一個繁榮和諧的校園環境。
HUANG Xiao-yan,CAI Li-qing,ZHANG Yu-sha
(Guangdong University of Foreign Studies South China Business College,Guangzhou 510545)
With the development of the society,the campus supermarket has become an indispensable part of the students'daily life.However to dig,according to the data,the campus supermarket can make profits for merchants to provide effective sales approach,and can meet the demand of the students'shopping,achieve win-win situation.
The Data Mining;Association Rules;Statistics Analysis
廣東省大學生創新創業訓練項目(No.201512620039)
1007-1423(2016)21-0032-04
10.3969/j.issn.1007-1423.2016.21.007
黃曉艷(1995-),女,廣州人,研究方向為數據挖掘
張鈺莎(1982-),女,山西晉城人,碩士,副教授,研究方向為數據挖掘,E-mail:zys1982xx@163.com
2016-04-27
2016-07-20Association Rules and Statistical Analysis of Campus Supermarket Data
蔡麗清(1995-),女,廣州人,研究方向為數據挖掘