◆張燕琴 潘利強
(泉州輕工職業學院 福建 362200)
Apriori算法在WEB的圖書銷售智能系統中的應用
◆張燕琴 潘利強
(泉州輕工職業學院 福建 362200)
隨著信息化的高速發展,大數據的時代已經帶來,這些海量數據中有很多有價值信息沒有被發掘,數據挖掘已成為近幾年來的研究熱潮。關聯規則Apriori算法是數據挖掘技術中的關鍵技術之一,本文從圖書銷售的歷史數據頻繁項集,采用Apriori算法從中找出潛在隱蔽的而又具有價值的數據信息,幫助圖書銷售運營商分析銷售的業績數據,得出一些圖書銷售的關聯結果,在一定程度上作出正確的銷售判斷。
數據挖掘;圖書銷售;Apriori算法
目前市場上有很多大型的實體書店,按照以往的購買方式就是讀者到實體書店去找尋自己想要讀的書籍。但隨著互聯網信息技術和電子商務的迅速發展,人類的購買方式發生了革命性的改變。不再是非要到實體店面才可以買到想要讀的書籍,而是可以通過電子商務平臺進行網上購物,也能找到所需要的書籍。本文針對網上圖書銷售系統采用Apriori規則算法進行數據分析,得到有效的數據,能夠為商業者提供幫助和支持。
經過調查和研究發現,雖然目前市場上網上書店的模式繁多,但是這些網站的網絡架構是差不多的,采用的結構基本上的都是B2C的模式。但這些書店的網絡結構都存在一定的問題,雖然這些網上書店的架構可以很好地體現購買的流程,也可以很好地為讀者提供圖書的詳細信息,但是對顧客的需求沒有很好地去把握和發現,也不能很好地去激起顧客的消費欲望。即使這些網絡結構的性能再好,卻不具有數據挖掘功能。結合分析,本文設計出了一個基于數據挖掘的圖書銷售系統的網上書店結構,并且采用Apriori關聯規則對數據進行挖掘。
本文中圖書銷售的關聯規則分析就是根據讀者客戶已經購買過的圖書交易歷史數據進行數據挖掘的,發現在圖書購買過程中有哪些圖書出現得比較頻繁,發現圖書項目之間存在著關聯。圖書銷售關聯規則的分析對圖書的銷售效益是非常明顯的。經營者根據分析的結果,可以對現有的銷售策略進行調整,制定比較合適的銷售策略,從而達到較好的利潤效益。
2.1 Apriori算法的概述
關聯規則數據挖掘是發現大量數據中項集之間存在著的比較隱含的有意義的信息或者相關聯系。使用Apriori關聯規則來找出圖書銷售數據庫中不同種類書籍之間是否存在關聯,并分析出顧客的購買行為方式,比如購買了《計算機程序設計》圖書對購買其他圖書的概率。根據分析結果可以對圖書進行分類和對此提出相應的銷售策略。比如顧客在購買A圖書的同時,還可以同時推薦給他與圖書A存在較強關聯的B圖書、或者C圖書,也可以進行圖書的捆綁式營銷。給圖書經營者提供幫助。
現在假設I={i1,i2,..,im}是項集,其中ik(k=1,2,…,m)可以是顧客挑選到購物車中的圖書,設與任務相關的數據D是事務集,其中每個事務T是項集,并且要求T∈I,設A也是一個項集,并且A∈T。
Apriori關聯規則的邏輯蘊涵如下形式:A→B,A∈I,B∈I,且A∩B=F。關聯規則具有如下兩個重要的指標:支持度與置信度。支持度: P(A∪B),即A和B這兩個項集在事務集D中同時出現的概率。置信度: P(B|A),即在出現項集A的事務集D中,項集B也同時出現的概率。
在頻繁項集中,同時滿足給出的預定最小支持度閾值和最小置信度閾值的規則稱為強規則。給定一個事務集D,挖掘關聯規的問題就是產生支的持度和可信度都必須分別大于用戶給定的最小支持度和最小可信度的頻繁項集,由此得出的規則,也就是產生的強規則。
2.2 Apriori算法的描述
輸入:事物數據庫D,最小支持度閥值。
輸出:頻繁項集L。算法過程如下:
(1)L1= {large 1-itemsets};
(2) for (k=2; Lk-1 ; k++) do begin
(3) Ck=apriori-gen(Lk-1,min_sup); //新的候選集
(4) for all transactions t D do begin
(5) Ct=subset(Ck,t); //事務t中包含的候選集
(6) for all candidates c Ct do
(7) c.count++;
(8) end
(9) Lk={c Ck|c.count>=min_sup}
(10) end
(11) Answer=∪kLk;
首先產生頻繁1-項集L1,然后是頻繁2-項集L2,直到有某個r值使得Lr為空,這時APRIORI算法停止。這里在第k次循環中,過程先產生候選k-項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做一個(k-2)-連接來產生的。Ck中的項集是用來產生頻繁集的候選集,最后的頻集Lk必須是Ck的一個子集。在本文中采用項集I為圖書,I1為JAVA類圖書,I2為asp、JSP類圖書,I3為C語言類圖書,I4為數據挖掘類圖書,I5為網站建設類圖書,事物項T為圖書的銷售,假設有10個事物項,即D=10。根據apriori算法,掃描事物項,找出所有的項集,由頻繁項集找出強關聯規則,通過以上的具體事例數據,研究出包含頻繁項集的關聯規則,則頻繁項集I={I1,I2,I5}的關聯規則如下:


根據圖書的銷售記錄信息,來預測與該圖書相關聯的圖書,在某客戶購買某圖書的同時,還有哪些圖書會被一起購買,推薦客戶感興趣的圖書。在本系統中數據的來源不是一張數據表,在這里對源數據進行處理,創建了v_booksell表。本文以客戶信息表作為事例表,在SQL數據挖掘中,ID作為鍵列,ceducations,city,cvocation作為輸入參數,選擇事先創建的v_booksell作為可預測的嵌套表,name作為嵌套表的鍵列,創建apriori關聯規則模型為bookass。并調用此關聯規則挖掘模型對數據集進行集訓轉化,在本文中取confidence≥50%,得到相應的頻繁項集與其依賴的關系關聯規則。
再利用關聯規則算法所挖掘出來的頻繁項集,也就是哪些客戶購買哪些圖書的情況頻繁出現。依賴關系圖則表明了被購買的圖書和其他圖書節點間的關聯規則,連接節點邊的密度越大,則關聯規則的出現越頻繁,即關聯規則則越強,兩種圖書被一起購買的概率也就越大。
本文在傳統的圖書銷售系統的基礎上做了一些完善,采用Apriori關聯規則實現了圖書銷售信息和客戶信息的分析功能,表明了圖書之間的購買信息存在相應的依賴關系,能夠起到圖書推薦的作用,為商業決策提供支持和幫助。
[1]張啟徽.關聯規則挖掘中查找頻繁項集的改進算法[J].統計與決策,2015.
[2]張華飛,董黎剛,王盛.一種基于逆序編碼性質的Apriori算法改進[J].杭州電子科技大學學報,2011.
[3]王景讓.Apriori算法在布爾型關聯規則領域的應用[J].制造業自動化, 2009.
[4]郭秋萍,王金蘭.一種基于web挖掘的圖書館服務推薦模型及其算法研究[J].圖書館雜志,2010.
[5]吳冬方.基于Apriori算法的招生管理應用研究[D].河北大學,2014.