李驍 申浩男

摘 要:本文研究了大型超市購物籃數據庫關聯度的分析與處理的問題,建立基于0-1變量的密切性分析模型來定量表達多種商品間關聯關系的密切程度。定義密切性指標來表示多種商品間關聯關系的密切程度,通過0-1變量建立關聯性模型,得到了密切性指標矩陣。任意挑選兩兩組合和三三組合下各10組做定量分析。
關鍵詞:購物籃;密切性;關聯規則
1 引言
現代零售商品種類極端豐富,消費者需要處理的信息量急劇增加。市場分析員要從大量數據中發現顧客放入其購物籃中的不同商品的關系。在超市購物時,人們往往會一次性購買多種商品,這些商品可能是有關聯的。而作為超市的經理,常常關心的問題是顧客的購物習慣,他們想知道:什么樣的商品組合或是集合顧客多半會在一次購物中同時購買?購物籃分析作為一種量化的分析工具,已越來越多的被眾多零售企業所采納和運用。
2 兩種商品基于0-1變量的關聯性分析模型的建立
假設共有M種商品,對于第i個顧客,用向量 xi=(xi1,…,xiM)來描述該顧客的某次購買行為。其中,若該消費者的購物籃中發現了第j種商品,那么xij=1;否則xij=0。假設共有N位顧客,定義向量vi=(vij,…,vNj),該向量刻畫出第j種商品被第i個顧客購買的情況。如果vj由大量的1構成,那么該商品被顧客購買的頻率很高;反之,如果vj由大量的0構成,那么該商品被顧客購買的頻率很低。
如果有兩種共同的商品k和商品p,我么可以通過比較向量vk和vp的相似性來度量他們的密切性。也就是說,如果vk和vp的各個分量非常相似,說明商品k和商品p很容易被同時購買,或者同時不被購買。因此,度量商品密切性指標 如下:
4密切性分析模型的求解
利用matlab軟件,根據中4717名顧客對999種商品的購買情況作出4717行999列的0-1矩陣,依據(2)式可以計算出任意兩種商品組合的密切性度量指標,由于商品兩兩組合的種類過多,因此本文在這里只列舉部分任意10組商品組合,求出其密切性度量指標的值,并對這些組合進行密切性和同時被購買的次數進行排序,如下表。
由表1,我們發現商品兩兩組合之后,發現大體上購買次數與密切性是同增同減的,符合理論,即任意兩種商品同時被購買的顧客數越多,那么他們的密切性越大。但是密切性并不是隨著購買次數的增加嚴格遞增的,而呈現曲折式增加。
利用同樣方法,在999種商品中任選三種進行組合,與前面兩種商品組合的排名情況基本一致,其密切性排名大體上是隨購買次數的增加而增加的,雖有小的波動,但是都在合理的波動范圍之內。還可以拓展到四種商品、五種商品甚至更多,該模型可以很好地定量表達多種商品關聯關系的密切程度,由于篇幅有限,不做一一列舉。
參考文獻:
[1]薛紅,聶規劃.基于關聯規則分析的“購物籃分析”模型的研究.北京工商大學學報(社會科學版)[J].第23卷第4期.2008年7月.
[2]劉曉素,郭福亮.一種有趣關聯模式挖掘方法[J].計算機工程,36(11).2010.
[3]陳耿,朱玉全,楊鶴標;關聯規則挖掘中若干關鍵技術的研究[J];計算機研究與發展;2005年10期
作者簡介:
李驍(1991-),山西長治人,山西財經大學2015(統計學)學術碩士研究生,研究方向:經濟統計分析與社會統計.
申浩男(1994-),女,山西屯留人,山西財經大學2015(數量經濟學)學術碩士研究生,研究方向:金融計量.