莊艷芬,古路強,張鈺莎
(廣東外語外貿大學南國商學院,廣州 510545)
數據挖掘在校園超市銷售中的應用研究
莊艷芬,古路強,張鈺莎
(廣東外語外貿大學南國商學院,廣州 510545)
校園超市是人流較為密集的場所,為了便于管理者更好地管理以及決策,并提高校園超市的銷售效率,基于Apriori算法對校園超市數據進行分析,得出相應的關聯規則及營銷策略。
數據分析;數據挖掘;關聯規則;營銷策略
對于一般的校園超市而言,商品幾乎都是按其類別進行布局擺放。而這種布局設計往往是不科學的,會讓消費者花大量的時間進行搜索自己所需的商品。在現今競爭如此激烈的環境下,若不能為消費者提供更便捷,優質的服務,那么校園超市必然呈現下跌的趨勢。然而,校園超市又如何能在較短的時間內,為消費者提供更便捷,優質的服務?目前,我校超市采用了自動化管理系統,在后臺的數據庫中有每日的銷售數據,在如此龐大的銷售數據中,難以發現數據中的關聯性。如今,我們可以通過數據挖掘在超市中的應用,挖掘出商品之間隱含的關聯性。為校園超市的管理者提供更好的營銷策略和商品的布局擺放。
本次實驗數據選取廣東外語外貿大學南國商學院聯合一百超市2014年11月23日至2015年12月6日的銷售數據。數據總量為1402132條,并對銷售數據中的缺失值和噪聲數據進行簡單的預處理[1]。銷售數據以月份為單位存儲在Excel表格中,利用Excel表格工具可匯總出2015年中12個月份的銷售基本情況表。
從圖1,可以看出3月份到7月份(為一學期)的銷售數據中,3月份的銷售數量最大,9月份到12月份(為一學期)的銷售數據中,9月份以及11月份的銷售數據最大,之后總體水平呈下跌的趨勢。可能由于3月份以及9月份是開學季,需要購買日常的生活用品,導致銷售數量上升。
從圖2,可以看出每日的11:00-13:00及17:00-19:00中,銷量較大,這與我校學生的作息相吻合。根據上述統計結果,我們可以為校園超市提供相應的意見,可以對超市人手分配進行相應的調整。
2.1 校園超市數據預處理
從校園超市中獲取11種類別的商品表,將商品表細分成103種類別的商品表。根據超市數據的基本分析,我們挑選出3月份中時間段為11:30到12:30,獲取6069條數據。再挑選出11月份中時間段為:17:00 到19:00,獲取5985條數據(表6)。并對數據進一步的處理以及篩選,得出了較為干凈,規范的訓練集。
通過Access數據庫進行篩選出同一個事務中至少出現兩件商品,用下面語句挑選出數據:
SELECT cid,[sname]
FROM Sheet1
WHERE cid in(Select cid from Sheet1 group by cid hav-ing count(cid)>=2);
并通過下列VS2010語句進行數據合并,3月份共有共有1523個事務,11月份共有1479個事務。

圖1 按月銷售基本情況表

圖2 按時間銷售基本情況表
2.2 基于APriori算法,計算3月份及11月份的關聯規則
(1)關聯規則中的基本概念[2]:
①項集:指數據項的集合。包含k個數據項的項集稱為k-項集。
②支持度計數:指整個事務數據集中包含該項集的事務數。
③支持度:可表示為support(A,B)=P(A∪B)=δ (A∪B)/N,其中N是事務數據庫的大小,δ(A∪B)表示包含項A和B的事務在事務數據庫中出現的次數。即事務數據庫D中包含項A和B的事務占所有事務的百分比。
④置信度:指在項A出現的情況下,項B出現的概率,即事務數據庫D中同時包含項A和B的事務占A的事務的百分比,可表示為:confindence(A,B)=P(B| A)=δ(A∪B)/δ(A)。
⑤強關聯規則和頻繁項集:根據用戶預先定義的支持度和置信度閾值,支持度不小于最小支持度閾值并且置信度不小于最小置信度閾值的規則稱為強關聯規則,對于支持度不小于最小支持度閾值的項集,我們稱為頻繁項集。
(2)Apriori算法的性質:
①若X是頻繁項集,則X的所有子集都是頻繁項集。
②若X是非頻繁項集,則X的所有超集都是非頻繁項集。
Apriori算法關聯規則的產生:一般的關聯規則的產生,對于大型的事務數據庫將導致巨大的計算開銷。通常,采用剪枝技術在規則產生的過程中減少頻繁項集。
候選規則的產生:由k-項后件的規則生成(k+1)-項后件的候選規則。
候選規則前剪枝:對每個(k+1)-項候選規則,若其具有小于最小置信度閾值的k-項后件規則的子集,則刪除該候選規則。
(3)關聯規則挖掘[3]:
通過采用Apriori算法設置其支持度為:2.83%。置信度為:20%。
可得以下1-項集,對候選項集進行前剪枝,列出所有候選2-項集,并通過access數據庫對相應的2-項集進行支持度計數的匯總。
根據不小于最小支持度的為頻繁2-項集,根據Apriori算法中頻繁項集產生方法:生成候選3-項集{TC、GB、NC},但由于該三項集的子集{GB、KB}不在頻繁2-項集中,故刪除。
保留以下頻繁2-項集:{TC、GB}、{TC、NC}、{GB、KB}、{FL、HD},根據Apriori算法關聯規則的產生:
{TC、GB}:由規則TC=>GB的置信度:confindence (TC、GB)=P(GB|TC)=δ(GB∪TC)/δ(TC)=62/578≈10.72%
由規則GB=>TC的置信度:confindence(GB、TC)= P(TC|GB)=δ(GB∪TC)/δ(GB)=62/293≈21.16%.
由規則NC=>TC的置信度:confindence(NC、TC)= P(TC|NC)=δ(NC∪TC)/δ(NC)=52/166≈31.3%.
{GB、KB}:由規則GB=>KB的置信度:confindence (GB、KB)=P(GB|KB)=δ(GB∪KB)/δ(GB)=47/293≈16.04%
由規則KB=>GB的置信度:confindence(KB、GB)=P(KB|GB)=δ(GB∪KB)/δ(KB)=47/196≈24%.
{FL、HD}:由規則FL=>HD的置信度:confindence (FL、HD)=P(FL|HD)=δ(FL∪HD)/δ(FL)=43/152≈28.3%.
由規則HD=>FL的置信度:
confindence(HD、FL)=P(HD|FL)=δ(FL∪HD)/δ (HD)=43/124≈34.7%.
刪除置信度小于20%的規則,則可以得出以下關聯規則:GB=>TC,NC=>TC,KB=>GB,FL=>HD,HD=>FL。同理可得出11月份銷售數據的關聯規則。

表1 3月份關聯規則結果
從3月份以及11月份的頻繁項集,可以看出水果、牛奶、面包、飲料銷售量的是最大的。超市銷售主要是以日常食品為主。我們可以對已經獲取到的關聯規則,進行捆綁銷售模式,也可以對超市的布局進行調整。銷售量較大的商品,通過制定一些營銷手段,可以帶動同一類但銷售量差的產品。進而可以減輕銷售量差的庫存量。

表2 7月份關聯規則結果
在現今市場競爭如此激烈的環境下,校園超市不僅僅是為學生提供商品,而是應該制定出更好的營銷策略,為學生提供更便捷,優質的服務。通過超市銷售的歷史數據進行挖掘整理,為校園超市管理者提供更好的決策,進一步提高校園超市銷售效率以及服務水平。
[1]張鈺莎.數據挖掘在高校圖書館服務中的應用研究[J].廊坊師范學院學報,2015.7:32-35.
[2]蔣盛益.商務數據挖掘與應用案例分析[M].北京.電子工業出版,2014.1:104-109.
[3]張鈺莎.數據挖掘技術在教學質量評估中的應用研究.暨南大學[D],2012.6.
Application of Data Mining in Campus Supermarkets
ZHUANG Yan-feng,GU Lu-qiang,ZHANG Yu-sha
(Guangdong University of Foreign Studies South China Business College,Guangzhou 510545)
The campus supermarket is stream of people more populated places,to facilitate the manager better management and decision-making,and improve the efficiency of the campus supermarket sales.Based on the Apriori algorithm,analyzes the campus supermarket data,draws the corresponding association rules,and marketing strategies.
Data Analysis;Data Mining;Association Rules;Marketing Strategy
廣東省大學生創新創業訓練項目(No.201512620039)
1007-1423(2016)21-0029-03
10.3969/j.issn.1007-1423.2016.21.006
莊艷芬(1995-),女,廣東陸豐人,研究方向為數據挖掘
張鈺莎(1982-),女,山西晉城人,碩士,副教授,研究方向為數據挖掘,E-mail:zys1982xx@163.com
2016-04-27
2016-07-15
古路強(1992-),男,廣東韶關人,研究方向為數據挖掘