黃子航
(華南師范大學 數(shù)學科學學院,廣東 廣州 510641)
關聯(lián)規(guī)則挖掘在超市商品銷售中的應用研究
黃子航
(華南師范大學 數(shù)學科學學院,廣東 廣州 510641)
本文對數(shù)據(jù)挖掘領域中的關聯(lián)規(guī)則進行了闡述,介紹經(jīng)典算法Apriori,運用關聯(lián)規(guī)則對悉尼一家超市的部分數(shù)據(jù)進行分析、挖掘,判定發(fā)現(xiàn)不同類商品之間的關聯(lián)度,挖掘出商品中隱藏的實用價值,進而在實際銷售運作中有效地避免這類錯誤,給超市公司提出適當?shù)呢浖茕N售建議與貨架擺放依據(jù),利于增加超市公司的運營利潤.
關聯(lián)規(guī)則;Apriori算法;超市購物交易
1.1 背景
關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關關系.最著名的例子就是美國沃爾瑪超市的“啤酒與尿布”,商家發(fā)現(xiàn)部分美國中年男性在買完孩子的尿布后會順便買自己愛喝的啤酒,因此調整了貨架的設置,把啤酒和尿布放在一起銷售,從而增加了銷售額.同時,關聯(lián)規(guī)則在保險業(yè)務、醫(yī)療、銀行服務等方面也有應用.
1.2 關聯(lián)規(guī)則簡介
設I={i1,i2,…,im}是一個項目集合,事務數(shù)據(jù)庫D={t1,t2,…, tn}是由一系列具有唯一標識的事務組成,每個事務ti=(i=1,2,…,n)都對應I上的一個子集,項的集合成為項集,包含k個項的項集稱為k-項集,項集的出現(xiàn)頻率是包含項集的事務數(shù),簡稱為項集的頻率或計數(shù).關聯(lián)規(guī)則是形如A→B的蘊涵式,其中A?I,B?I,且A∩B=?.規(guī)則A→B在事務集D中成立,具有支持度s,其中s是D中事務包含A∪B的百分比,為概率P(A∪B).規(guī)則A→B在事務集D中具有置信度c,其中c是D中包含A的事務也包含B的百分比,為條件概率P(B|A).即
Support(A→B)=P(A∪B),Confidence(A→B)=P(B|A),同時滿足最小支持度閾值minsup和最小置信度閾值minconf的規(guī)則成為強規(guī)則,滿足最小支持度的項集稱為頻繁項集,頻繁k-項集的集合通常記作Lk.
但有時僅僅依靠支持度和置信度制定的強規(guī)則未必是有效的,會出現(xiàn)規(guī)則互斥的情況,此時引入提升度L,為含有事務A的條件下,同時含有事務B的概率,與不含事務A的條件下卻含有事務B的概率之比,即其中,lift(A→B)=1表示A與B相互獨立,即規(guī)則A→B無效,此時即使支持度與置信度再高也不能說明該規(guī)則有效;在強關聯(lián)規(guī)則中,Lift(A→B)>1表明是有效的強關聯(lián)規(guī)則,Lift(A→B)≤1表明是無效的強關聯(lián)規(guī)則,我們要尋找的是有效的強關聯(lián)規(guī)則.
關聯(lián)規(guī)則挖掘的目標是找出數(shù)據(jù)集中的所有有效強規(guī)則,可分為兩個子問題:根據(jù)最小支持度找出事務數(shù)據(jù)庫中的所有頻繁項集;根據(jù)頻繁項集和最小置信度產生關聯(lián)規(guī)則,其中要應用到經(jīng)典算法:Apriori算法.
1.3 Apriori算法
首先找出所有頻繁1-項集的集合,記作L1,基于L1尋找所有頻繁2-項集的集合,記作L2,基于L2尋找所有頻繁3-項集的集合,記作L3,依次進行直至不能找到頻繁k-項集.在第k-次循環(huán)中,先產生候選k-項集的集合Ck,Ck的每一個項集是對兩個只有一個項不同的屬于L(k-1)的頻繁集做一個(k-2)來連接產生的,最后的頻繁集Lk是Ck的一個子集,Ck的每個元素需在交易數(shù)據(jù)庫中進行驗證以確定加入Lk的元素.
2.1 數(shù)據(jù)的收集和預處理
本文選取了澳大利亞悉尼的一家超市在2016年9月份的部分購物數(shù)據(jù),該超市9月份(共30天)每天上午9點至下午5點每小時若干條顧客購物數(shù)據(jù),由于購物數(shù)據(jù)表中有多個屬性,每個屬性有多個值,因此先進行數(shù)據(jù)的可視化處理,對于其中的少數(shù)連續(xù)型數(shù)據(jù),采用少數(shù)區(qū)間替代的方法將原始數(shù)據(jù)離散化,通過簡化數(shù)據(jù)使得挖掘結果簡介且易于使用,在數(shù)據(jù)預處理后共得到4800條購物數(shù)據(jù),包含127件商品.
2.2 Apriori算法的實現(xiàn)
根據(jù)Apriori算法,設定minsup=0.01,minconf=0.3,限定提升度大于1,得到128條有效的強規(guī)則,其中的支持度、置信度、提升度三者關系如下圖1,2所示,

圖1 支持度與提升度關系圖

圖2 支持度與置信度關系圖
從上圖中看出,置信度與提升度高的規(guī)則,支持度都偏低,呈現(xiàn)負相關關系,我們選出在提升度大于1的情況下置信度與支持度高的規(guī)則,并列出三項指標:支持度、置信度、提升度最高的10條強關聯(lián)規(guī)則如表1,2,3所示.

表1 支持度最高的10條規(guī)則

表2 置信度度最高的10條規(guī)則

表3 提升度最高的10條規(guī)則
2.3 結果的分析與評價
上述各表反映了不同類商品對銷售情況的影響,從表1和表2來看,蔬菜類、根莖類蔬菜、全脂牛奶的支持度和置信度最高,分別達0.07、0.38左右,說明這三者有密切的聯(lián)系,熱帶水果、酸奶、雞蛋、酸奶油等商品的支持度和置信度也分別高達0.05、0.32左右,相關性較強,熱帶水果、酸奶、雞蛋、酸奶油等商品的銷售量十分可觀,是超市銷售盈利的主要來源,表3可看出凝乳、柑橘類水果、酸奶等商品的提升度普遍在2.1-2.9之間,說明這幾類商品對于蔬菜類、根莖類蔬菜、全脂牛奶三者的銷售有著明顯的促進作用.
通過關聯(lián)規(guī)則挖掘,該超市應將蔬菜類、根莖類蔬菜、全脂牛奶等蔬菜類與奶制品的商品放在臨近的售貨架上,并適當增加蔬菜類商品和營養(yǎng)類商品的入銷量,則超市的運營利潤會有大幅度的提升,同時加大水果類商品的銷售力度,使得其余蔬菜類、奶制品等的銷售位置相近,有利于增加蔬菜類商品的銷售量.
關聯(lián)規(guī)則的數(shù)據(jù)挖掘在超市貨物營銷方面有著突出的應用,由以上結論發(fā)現(xiàn),超市運營部可根據(jù)不同商品實際情況的需要,在關聯(lián)規(guī)則上設置相應的輸入和輸出字段,并通過minsup和minconf的設置,判定發(fā)現(xiàn)不同類商品之間的關聯(lián)度,挖掘出商品中更多的實用價值,同時也能發(fā)現(xiàn)商品貨物銷售間的一些由于未全面考慮提升度而出現(xiàn)的矛盾現(xiàn)象,進而在實際銷售運作中有效的避免這類錯誤,也反映了數(shù)據(jù)挖掘的科學性.
〔1〕David Hand,Heikki Mannila,Padhraic Smyth.數(shù)據(jù)挖掘原理[M].北京:機械工業(yè)出版社,2006.2-7.
〔2〕喬克滿,歐陽為民,孫衛(wèi).關聯(lián)規(guī)則挖掘技術在體質指標分析中的應用研究[J].天津體育學院學報,2010,25(2):453-455.
TP311.13
A
1673-260X(2017)08-0011-02
2017-05-20
本論文屬于華南師范大學數(shù)學科學學院科研項目《電影推薦算法的實證研究》階段性研究成果;本論文屬于華南師范大學數(shù)學科學學院科研項目《政行思教專業(yè)兩岸培養(yǎng)模式的研究》階段性研究成果