
摘 要 采用數(shù)據(jù)挖掘技術(shù)中的Apriori算法,對(duì)購(gòu)物籃進(jìn)行關(guān)聯(lián)規(guī)則的分析。本文首先介紹了關(guān)聯(lián)規(guī)則算法的基本概念,然后運(yùn)用R軟件中arules包中的函數(shù)Apriori對(duì)選取的數(shù)據(jù)進(jìn)行分析,找到商品之間的關(guān)聯(lián),并根據(jù)模型結(jié)果給商場(chǎng)提出銷(xiāo)售建議,提高商場(chǎng)的競(jìng)爭(zhēng)力。
關(guān)鍵詞 數(shù)據(jù)挖掘;Apriori算法;R軟件
引言
隨著科學(xué)技術(shù)的不斷發(fā)展 ,各個(gè)行業(yè)都產(chǎn)生了大量的各種形式的數(shù)據(jù)。這些數(shù)據(jù)看起來(lái)復(fù)雜抽象,好像無(wú)任何規(guī)律,但是如果對(duì)數(shù)據(jù)進(jìn)行分析,會(huì)發(fā)現(xiàn)其背后隱藏著很多有價(jià)值的重要信息,因此數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過(guò)應(yīng)用聚類(lèi)、分類(lèi)、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過(guò)程[1]。
購(gòu)物籃分析是零售行業(yè)最關(guān)注、最具有挑戰(zhàn)性的問(wèn)題。本文應(yīng)用關(guān)聯(lián)規(guī)則算法對(duì)顧客購(gòu)買(mǎi)商品的種類(lèi)、消費(fèi)金額以及整個(gè)賣(mài)場(chǎng)的銷(xiāo)售數(shù)據(jù)進(jìn)行分析,從而得到顧客的消費(fèi)特征,這些特征包括顧客對(duì)商品的喜好、消費(fèi)能力、品牌忠誠(chéng)度以及潛在的消費(fèi)需求,并根據(jù)這些特征制定行之有效的方案。
1關(guān)聯(lián)規(guī)則算法
1.1 關(guān)聯(lián)規(guī)則算法的相關(guān)概念
關(guān)聯(lián)規(guī)則的支持度和置信度是用于度量關(guān)聯(lián)規(guī)則強(qiáng)度的兩個(gè)指標(biāo)。
支持度表示A和B同時(shí)發(fā)生的概率,如式(1)所示。
置信度為A發(fā)生的條件下B發(fā)生的概率。提升度是A發(fā)生的條件下B發(fā)生的概率和B無(wú)條件下發(fā)生的概率之比。若lift>1,則說(shuō)明A對(duì)B 具有提升作用;若lift<1,則作用相反。
設(shè)I={i1,i2…i3}是二進(jìn)制的集合,表示的是購(gòu)物籃中商品的類(lèi)別數(shù)為,其中每類(lèi)商品稱(chēng)為項(xiàng)。項(xiàng)的集合稱(chēng)為項(xiàng)集,包含k項(xiàng)的集合為k-項(xiàng)集[2],其中()。每個(gè)項(xiàng)集都是的子集,項(xiàng)集的頻率等于所有包含此項(xiàng)集的購(gòu)物籃個(gè)數(shù)與購(gòu)物籃總數(shù)之比,它被稱(chēng)為支持度。若項(xiàng)集的支持度大于或是等于預(yù)先規(guī)定的最小支持度的閾值,則此項(xiàng)集為頻繁項(xiàng)集,含有k項(xiàng)的頻繁項(xiàng)集記為L(zhǎng)k[1]。
1.2 Apriori算法步驟
假設(shè)共十個(gè)購(gòu)物籃:{a,c,e},{b,d},{b,c},{a,b,c,d},{a,b},{b,c},{a,b},{a,b,c,e},{a,b,c},{a,c,e},運(yùn)用Apriori算法步驟如下:
步驟一:確定最小支持度為0.2,最小置信度為0.5;
步驟二:確定I={a,b,c,d,e},以每樣商品為一項(xiàng)得到候選一項(xiàng)集的集合C1,根據(jù)式(1)計(jì)算每項(xiàng)的支持度,掃描C1,如果商品的支持度小于0.2,則刪除,得到一項(xiàng)頻繁項(xiàng)集L1;
步驟三:L1和L1連接得到候選2項(xiàng)集C2,這步稱(chēng)為連枝。然后計(jì)算C2中每項(xiàng)的支持度,然后是剪枝,如果支持度小于0.2,則刪除。頻繁項(xiàng)集還有一項(xiàng)要求是:頻繁項(xiàng)集的子集也必須是頻繁項(xiàng)集。根據(jù)這兩條原則得到二項(xiàng)頻繁項(xiàng)集L2;
步驟四:L1和L2連接得到候選3項(xiàng)集C3,再掃描所有事務(wù)集,計(jì)算C3中每項(xiàng)的支持度,然后剪枝,得到三項(xiàng)頻繁項(xiàng)集L3;
步驟五:以此類(lèi)推L1和L3連接得到候選項(xiàng)集C4,再計(jì)算支持度,得到最終的頻繁項(xiàng)集;
步驟六:應(yīng)用R軟件求解,得到關(guān)聯(lián)規(guī)則。
2應(yīng)用Apriori算法分析購(gòu)物籃
某大型超市存儲(chǔ)了一段時(shí)間的購(gòu)物籃數(shù)據(jù),共包括4835個(gè)購(gòu)物籃的數(shù)據(jù),售出商品總數(shù)為22309件,包括168種不同的商品。首先應(yīng)用R軟件對(duì)商品的銷(xiāo)售情況排序,全脂牛奶銷(xiāo)量最高,銷(xiāo)量為1278件,占比約為5.7%,其次為面包卷銷(xiāo)量為972,占比約為4.4%等。前20種商品的銷(xiāo)量占比約為50%,基本符合“二八原則”。通過(guò)對(duì)商品占比的分析,可以確定那些商品為主力商品,那些為輔助商品,初步確定商品的擺放順序。
R語(yǔ)言中的arules包中的函數(shù)apriori可以對(duì)數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則分析,經(jīng)過(guò)多次分析,發(fā)現(xiàn)運(yùn)用Aprior算法,當(dāng)最小支持度取0.02,最小置信度取0.35時(shí)得到的關(guān)聯(lián)規(guī)則數(shù)目適中,結(jié)果良好。已提升度從高到低排列的前5條規(guī)則如表1所示,
通過(guò)關(guān)聯(lián)規(guī)則分析,我們可以知道顧客在購(gòu)買(mǎi)其他商品時(shí)會(huì)購(gòu)買(mǎi)全脂牛奶,其次是購(gòu)買(mǎi)其他蔬菜,這也和我們分析的熱銷(xiāo)商品相符合。因此,超市應(yīng)該把這些熱銷(xiāo)商品放在顧客購(gòu)買(mǎi)商品的必經(jīng)之路,或是商場(chǎng)的中心位置,方便顧客購(gòu)買(mǎi)。通過(guò)關(guān)聯(lián)規(guī)則還可以知道顧客會(huì)同時(shí)購(gòu)買(mǎi)豬肉、根莖類(lèi)蔬菜、其他蔬菜、蛋類(lèi)等的可能性較高,因此這些物品應(yīng)當(dāng)放的位置比較接近,或是捆綁銷(xiāo)售,這樣方便了顧客,提升顧客的購(gòu)物體驗(yàn),也會(huì)提高顧客對(duì)超市的忠誠(chéng)度。
3結(jié)束語(yǔ)
隨著計(jì)算機(jī)技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)有著廣闊的發(fā)展前景。關(guān)聯(lián)規(guī)則分析除了可以對(duì)購(gòu)物籃進(jìn)行分析,還可以應(yīng)用到銀行客戶(hù)行為分析、學(xué)生成績(jī)關(guān)聯(lián)分析、試卷知識(shí)點(diǎn)關(guān)聯(lián)分析、醫(yī)療保險(xiǎn)分析等。隨著電子商務(wù)的發(fā)展,關(guān)聯(lián)規(guī)則技術(shù)還被應(yīng)用到電商平臺(tái),根據(jù)客戶(hù)以往的購(gòu)買(mǎi)記錄,分析他可能感興趣的商品。它還可以和其他的算法相結(jié)合運(yùn)用,比如協(xié)同過(guò)濾算法 ,兩者結(jié)合,就可以向顧客推薦他們可能感興趣的商品。隨著對(duì)關(guān)聯(lián)規(guī)則認(rèn)識(shí)的不斷加深,我們可以將更多的因素融入其中,來(lái)拓展關(guān)聯(lián)規(guī)則的應(yīng)用廣度,讓其為更多的領(lǐng)域提供決策支持。
參考文獻(xiàn)
[1] 韓寶國(guó),張良均.R語(yǔ)言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)[M].北京:人民郵電出版社,2018:109.
[2] 李毅.基于Apriori算法的試卷知識(shí)點(diǎn)關(guān)聯(lián)分析[J].新校園,2018(7):52.
作者簡(jiǎn)介
司鳳娟(1979-),女,山東菏澤人;學(xué)歷:碩士,職稱(chēng):講師,現(xiàn)就職單位:菏澤學(xué)院,研究方向:概率論與數(shù)理統(tǒng)計(jì)。