關聯規則在書店中的應用研究

2015-10-25 02:00:37劉桂榮徐全生

長春教育學院學報 2015年19期

劉桂榮，徐全生

關聯規則在書店中的應用研究

劉桂榮，徐全生

書店在圖書銷售過程中積累了大量的圖書信息，這些信息可以用于查詢、統計，獲得想要的有關圖書信息的數據。但是這些信息的作用還不止于此，這些海量信息中包含著有用的“知識”，可以通過計算機數據挖掘技術將隱含在其中的“知識”挖掘出來，用于書店的經營決策。本文以買書的個體為事務，以購買的圖書為事務項。運用APRIORI算法探討了利用關聯規則分析個體購買圖書之間的關聯關系，找出了購買圖書之間的關聯規則，為書店的經營決策提供科學依據。

書店銷售；關聯分析；科學決策

一、數據產生

在現代人類的活動中，產生了豐富的知識信息。作為信息知識載體的圖書，包括印刷圖書、電子圖書以及相應的音像制品，其市場供求、市場流通、市場變化呈現出日趨活躍的現象。［1］在種類繁多的各種圖書交易過程中，產生了大量的數據，這些數據被一條一條記錄下來，每條記錄包括了圖書購買時間、顧客購買的書籍、數量及金額等。［2］這些海量數據被保存起來。不再只是簡單地用于查詢、輸出報表等一般用途。［3］還要在眾多的數據中挖掘出有用的知識，以便作為決策支持。使用數據挖掘技術進行數據挖掘，通過關聯規則挖掘技術得到不同圖書之間的關聯關系，在客戶購書中可以為客戶推薦相關書籍，或將相關聯的圖書擺放在一起，從而增加圖書銷售額。

二、數據事務

在當今社會，人們已經進入大數據時代，在活動交往中產生了大量的數據，積累了大量的數據，這些數據一般可作為歷史資料用于查詢。但是，這些海量數據中存在著有用的信息。這些信息是隱含的、事先未知的、但潛在有用的信息。［4］這些信息在提取后可以表示為概念（Concepts）、規則（Rules）、規律（Regularities）、模式（Patterns）等形式。［5］關聯（Association）規則數據挖掘是數據挖掘技術中的一種，較典型的是購物籃數據分析，可應用于生物信息學、醫療診斷、網頁挖掘和科學數據分析等。［6］設I是項的集合，設D是事務的集合，其中每個事務T是項的集合，使得。設A是一個項集，事務T包含A。如果support和con0idence同時滿足最小支持度閾值（min_sup）和最小置信度閾值（min_con0），那么可以得到強關聯規則。［7］

在圖書銷售過程中，每一個購買圖書的人可以看作一個事務，即事務T。所購買的圖書即是購物籃中的商品，即項集I，如表1所示。這些數據是某書店購書顧客（即任務相關數據D）所購買的圖書信息。本文主要采用單維的關聯規則挖掘，發現所售圖書之間的關聯關系，提取圖書之間的關聯規則，幫助書店進行科學決策，不斷開拓市場，增加銷售額，提高經濟效益。

表1　購書統計表

三、數據清理

在數據開始挖掘前，收集相關的圖書銷售數據，以下是部分原始數據（見表2）。這些數據記錄了原始的交易狀態，還不能用于數據挖掘。要將這些原始數據進行清理，保證用于挖掘的數據沒有異常，不會影響到關聯規則的數據挖掘結果。

在以上數據中，我們要運用關聯規則的挖掘技術找出圖書之間的關聯關系。在本文中，從數據挖掘的實際出發，應當把每名顧客所購圖書的名稱抽取出來，每個購買圖書的個體即為一個事務。如表3所示。

表2　圖書數據表

表3　挖掘數據

四、數據轉換

在進行數據挖掘時，可以進行單維挖掘或多維挖掘。在本文中，由于我們要找出圖書之間的關聯關系，所以進行布爾型關聯規則數據挖掘。如果購買了此書，則用T表示，如果沒有購買此書，則用F表示。顯示離散型變量之間的關系。［6］購書事務適合于單維數據挖掘。每一個購買個體最少購買一本書，有的購買多本，對每個購書個體所購圖書進行兩次掃描，第一次先對所有購書個體所購圖書進行掃描比較，建立所有圖書的項集。第二次對每個個體所購圖書與第一次建立的圖書項集進行比較，購買的圖書以T表示，沒有購買的圖書用F表示，對所購圖書的數據進行轉換后，所得的數據形式如表4所示。

五、數據關聯分析

本文運用APRIORI算法對圖書進行數據挖掘，從中發現其中隱含的知識。在本文中，設計支持度的闕值為20%，置信度的闕值為70%，產生的關聯分析結果如表5所示。

從表5中可以看出，在支持度20%和置信度70%的情況下，產生強關聯規則，在這些關聯規則中，以幼兒讀物→菜譜、編織類讀物→菜譜、軍事類讀物→歷史置信度最高，幼兒讀物、編織類讀物、菜譜這三種圖書產生強關聯規則。從關聯規則發現的結果來看，菜譜與其他圖書構成強關聯規則。

從本文的分析中可以看出，購書個體在購買圖書時，幼兒讀物、編織類讀物、菜譜這三類圖書是最容易被購書者一起購買的。所以在書店銷售圖書過程中可以將這三類圖書搭配在一起出售，在搭配時有兩種方式：一種是空間的搭配，即將幼兒讀物、編織類讀物、菜譜這三類圖書擺放在同一地方，購書個體在購買或挑選時比較方便；另外一種就是將其中的一類書籍可以以折扣的方式與其他兩類圖書一起銷售，擴大銷售額。

表4　所購圖書二元數據

表5　關聯分析結果

［1］蘇東海.當前我國圖書市場狀況及營銷策略［J］.中國商貿，2010（14）.

［2］李艷.關聯規則挖掘在網上書店系統中的應用［J］.電腦知識與技術，2007（11）.

［3］楊瓊.決策樹技術在網上書店系統中的應用［J/OL］. http：//www.docin.com/p-433718087.html，2012.

［4］孫曉健.數據挖掘技術在經營分析系統中的應用［J］.微計算機信息，2007，23（12）.

［5］吉根林.遺傳算法在數據挖掘中的應用［J］.信息技術，2001，22（21）.

［6］（美）PANG-NINGTan，MICHAELSTERNBACHVIPIN KUMAR.數據挖掘導論［M］.北京：人民郵電出版社，2006.

［7］（加）JIAWEIHAN，（加）MICHEJINEKAMBER.范明，孟小鋒等譯.數據挖掘概念與技術（DataMiningConceptsandTechniques）［M］.北京：機械工業出版社，2001.

［6］戴穩勝，匡宏波，謝邦昌.數據挖掘中的關聯規則［J］.統計研究，2002（8）.

責任編輯：何巖

TP311.13

1671-6531（2015）19-0052-03

劉桂榮/煙臺職業學院汽車工程系講師，碩士（山東煙臺264670）；徐全生/沈陽工業大學信息科學與工程學院教授（遼寧沈陽110023）。