盧喜利,周月鵬
基于全文索引技術的超市商品的關聯分析
盧喜利,周月鵬
超市的貨架擺放、商品陳列,在一定程度上影響了商品的銷售。通過對銷售數據的分析,挖掘出商品之間的關聯程度,進而確定商品在貨架上的擺放位置,便于購物者就近選擇,有利于提高超市的銷售額。雖然,在分析數據過程中可以通過精確查詢得到某兩種或幾種商品之間的關系,但同類型商品和某種其它商品之間的關系就不能通過精確查詢得到。全文索引技術是目前搜索引擎的關鍵技術,由于商品種類繁多,在分析過程中使用全文索引技術可以減少系統開銷,提高檢索效率和精準度。
全文索引;關聯度;檢索;挖掘
隨著信息技術的發展,各個超市在運營過程中產生大量的銷售數據記錄,一般情況下這些記錄都保存在數據庫中,沒有被充分利用。通過關聯技術挖掘銷售數據間的關聯關系,科學合理的利用歷史數據,找出交易數據間的關聯關系。
超市管理者在制定商品在貨架上擺放位置的策略,在一定程度上影響著超市的銷售額和利率。沃爾瑪將啤酒和尿不濕放在一起,顯著提高了銷售量就是一個成功的案例。通過對顧客購買商品歷史信息的分析,挖掘出顧客在購買商品過程中商品之間的關聯關系,調整商品位置,使商品擺放搭配更加科學合理,將類型不同但用途關聯的商品陳列在一起,增加了不同商品之間購買的機會,擴大銷售范圍和規模,增加銷售額和利潤[1]。
1.1 定義分析
關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、因果、關聯或相關性結構。也可以說,關聯分析是用來發現有關交易的數據庫中不同商品(項)之間的聯系[2]。
關聯分析是一種應用型很強的分析技術,通過分析發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式[3]。
關聯分析是從大量數據中發現項集之間有用的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客每次購買的不同商品之間的聯系,分析超市商品之間的關聯程度[4]。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商調整貨架上商品的擺放位置。
通過數據庫的關聯分析可以得出“由于某些事件的發生而引起另外一些事件的發生”之類的規則。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務質量和效益。1.2關聯度計算
在超市商品集合中,利用組合方法從歷史記錄中選取兩類商品,然后從購物記錄中通過全文索引進行檢索,某種商品組合占該種商品百分比達到一定程度時將這兩種或者幾種商品在貨架上擺在一起,便于購物者就近選擇[5],也可以增加銷售額。
數據庫中用來保存商品購買信息的表格包括八個字段,分別是編號(SerialId)、收銀員編號(UserId)、流水號(SerialNum)、商品編號(GoodId)、商品名稱(GoodName)、購買數量(Amount)、購買時間(PayTime)、備注(Memo)。編號是表格中主鍵,長整形且自增,用來唯一標識一條記錄;收銀員編號用來確定操作的工作人員;流水號是每次購買的一個編號,每一次消費的多數商品會有一個對應的編號;商品編號和商品名稱是商品的信息;購買數量是某種商品一次購買的數量;購買時間是消費時間。在創建全文索引的過程中,索引字段是商品名稱(GoodName)。
在查詢過程中,通過輸入參數@pName1和@pName2進行查詢,內部兩個子查詢分別得到消費記錄中的商品,包含@pName1名稱的商品和包含@pName2名稱的商品的流水號,兩個批次編號取交集,外層查詢得到的就是同時購買兩種商品的流水號,最外層的查詢得到交集中記錄的條數賦值給@pCount1。
第一個查詢

第二個查詢

第一個查詢得到同時購買@pName1的商品和@pName2的商品數量,通過第二個子查詢得到購物商品名中僅包含@pName1的商品數量,將符合條件的數值賦值給@pCount2,通過@pCount1和@pCount2得到@pName1的商品和@pName2的商品的關聯度,然后將兩個商品名和對應的關聯度存到另一個表格Result中,Result表有三個字段,分別是@pName1、@pName2和關聯度。
通過上面兩部分代碼得到了某兩種商品之間的關聯度。每個商品都有一個對應的編號(GoodId),通過商品編號進行循環的嵌套,每取一個商品編號,查出對應的商品名稱,分別給@pName1和@pName2進行賦值,然后進行查詢。外層循環執行一次就可以得到@pName1名稱的商品和所有商品之間的關聯度,將結果保存在Result表中。
可以結合季節性以及消費習慣進行整合,同時關注銷售,適時進行調整。根據需要可以將分析的時間確定為一個月、三個月或者半年。從Result表中取出比較結果,當關聯度高于某個指定的閾值時,在貨架商品擺放時可以考慮將這些商品擺放在一起。
從商品中抽取部分進行分析,選取的樣品包括:怡寶礦泉水、農夫山泉礦泉水、康師傅礦泉水、老壇酸菜牛肉面、康師傅牛肉面、蘋果、背包、紙巾。
在商品集合中,三個牌子的礦泉水都屬于一類,如果使用精確查詢進行匹配商品的關聯度,就可以得到某個牌子的礦泉水和某個牌子的方便面之間的關聯程度。有時顧客在買這些商品的過程中,只是要買該類商品,不一定看是什么牌子的,這樣的關聯就不是很科學。當牌子很多,某兩種關聯度很高的商品通過查詢得到的關聯度不是很高,不能將兩類商品放在一起,影響了商品的銷售。
不管是哪個牌子的礦泉水都包含“礦泉水”這個關鍵詞,不管是哪個方便面都包含“方便面”這個關鍵詞,在操作過程中就可以使用like關鍵詞進行檢索,但like的檢索效率很低,當數據量很大的時候檢索時間是不能忍受的。全文索引技術是目前搜索引擎的關鍵技術,由于商品種類繁多,在分析過程中使用全文索引技術可以減少系統開銷,提高檢索效率和精準度。對比情況如表1所示:

表1 like查詢和全文索引檢索結果對比
通過測試結果可以看出,當數據量非常大的時候,全文索引的查詢速度比like的查詢速度快很多。超市銷售的數據是海量的,這樣如果使用like進行查詢就遠不如使用全文索引技術的效率高。
每次分析之后,將結果保存在Result表中;再次分析后首先將Result表中數據備份到Result_History表中,然后刪除Result表中原有記錄刪除,將新結果保存在Result表中。每次分析的結果都保留在歷史表中,通過對歷史表數據的分析,可以看出商品關聯度的走向,是遞增的或遞減的趨勢,可以對銷售情況進行預測。
針對目前超市中的需求,本文設計了從歷史記錄中挖掘商品關聯度的方法,為企業和超市提供科學合理的門店布局、貨架擺放、商品陳列、關聯推薦和促銷等管理決策。促進顧客購物,從而提高超市的銷量和競爭力[1]。
[1]楊豐梅,李夢.一種帶記憶性的零售商品關聯度分析方法[J].系統工程理論與實踐,2014.
[2]梁鋒.數據挖掘技術在壽險客戶流失中的應用[J].電子科學技術,2015.
[3]錢勤,張瑊.用于入侵檢測及取證的冗余數據刪減技術研究[J].計算機科學,2014.
[4]楊秀萍.大數據下關聯規則算法的改進及應用[J].計算機與現代化,2014.
[5]朱峰.基于視景仿真的3D購物系統[J].計算機系統應用,2014.
Correlation Analysis of Supermarket Goods Based on Full Text Indexing Technology
Lu Xili,Zhou Yuepeng
(Institute of information science and engineering,Shaoguan University,Shaoguan,512005,Guangdong,China)
The placement of shelves and commodity display can affect the sales of the goods to some extent.Mine the correlation between the commodities through the analysis of sales data,and then confirm the placement of commodities on the shelves for the convenience of shoppers’proximity selection.It is advantageous to increase sales of the supermarket.Although the relationships between two or more than two types of commodities can be obtained by exact queries in the process of data analysis,the relationships between the same type of goods and some other commodities can’t be obtained by the same approach.Full text indexing technology is the key technology of the present search engine.Due to the wide variety of goods,it can reduce the system cost and improve the retrieval efficiency and accuracy in the analysis process with full text indexing techniques.
Full-text Index;Correlation;Retrieval;Mining
TP311
A
1007-757X(2015)06-0059-02
2015.03.31)
廣東省教育廳“質量工程”建設項目(粵教高函〔2014〕97號);廣東省高等教育教學改革項目(GDJG20142436);韶關學院教育教學改革研究重點項目(SYJY20131404);廣東省自然科學基金資助項目(2014A030307029);廣東省高等學校科技創新(重點)項目(2013KJCX0168);韶關學院教育教學改革研究青年項目(SYJY20141561);廣東省哲學社會科學項目(GD13XGL29);廣東省普通高校特色創新項目(2014KTSCX171)
盧喜利(1982-),女,河南省焦作人,韶關學院,信息科學與工程學院,助教,碩士,研究方向:物聯網技術和數據挖掘,韶關,512005
周月鵬(1982-),男,河南省平頂山人,韶關學院,信息科學與工程學院,講師,碩士,研究方向:物聯網技術和數據倉庫技術,韶關,512005