楊通輝,高 玲,臧 麗
(山東師范大學 信息科學與工程學院,山東 濟南 250014)
隨著經濟的發展,商品的種類越來越多,作為顧客自由購物場所的商店,可利用有限的營業空間,在顧客瀏覽商品時,刺激顧客的購買欲望,達到擴大銷售的目的。商品的陳列在銷售過程中扮演者重要的角色,是商品沉默的推銷員[1]。因此如何合理地對商品進行陳列[2],成為商店推銷過程的一個必須要考慮的問題。由于不同顧客購買的商品之間具有一定的相似性,可以根據不同商品間的相似性,構造具有關聯性的商品網絡[3]形成聚類,并根據不同顧客購買商品的相似性的大小,運用K-means聚類算法,利用相似度代替歐氏距離,對該商品網絡進行聚類分析[4],劃分出相關性大的顧客群體,并根據每個群體中顧客購買每類商品的均值占總商品數得比例進行排序[5],從而得到商品陳列的依據,這樣顧客在瀏覽商品時,便會刺激其購買欲望,進而達到擴大銷售的目的。如圖1所示。

K-means算法[8]屬于聚類方法中的一種劃分方法,該算法具有較好的可伸性和很高的效率,適合處理大文檔集。K-means算法將一組物理的或抽象的對象,根據它們之間的相似程度分為若干組,其中相似的對象構成一組。它采用歐式距離作為相似性的評價指標,即認為兩個樣本的距離越近,其相似度越大。其以最大歐式距離原則選取新的聚類中心,以最小歐式距離原則進行模式歸類。

算法描述如下:
隨機選取k個點作為初始聚類中心,然后根據各個樣本到各聚類中心的距離把樣本分到各類;重新計算每個類的中心(即類中所有點平均值,也就是幾何中心),再次將各樣本根據與聚類中心的距離歸類,如此循環迭代,直到平方誤差準則函數穩定在最小值。
如圖2所示,當k=3時,即需要將數據對象分為3個聚類,根據以上算法描述,任意選擇3個對象作為3個初始聚類中心,聚類中心在圖中用“+”來標注。根據與聚類中心的距離,每個對象被分配給最近的一個聚類,這樣的分布形成了虛線所描繪的圖形。

由于一個顧客的購物行為可以用購買商品的種類來表示,為了便于進行聚類分析,為每個顧客建立一個n維向量[9]用來描述顧客的行為,把每個顧客的購買記錄轉變為向量,可以看做實現了從數據空間到向量空間的一種映射。 比如:用 2 個向量 X=(x1,x2,……xn)、Y=(y1,y2……yn)代表顧客的購買行為,其中 X、Y 代表不同客戶,xn、yn代表每種商品的數量。若沒有購買某種商品,便記其數量為0。
為 了 比 較 2 個 向 量 X=(x1,x2, …… xn)、Y=(y1,y2……yn)的相似度的大小[10],定義了相似度函數 sim(X,Y),用其來計算兩個顧客購買商品的相似度,公式如下:
比如說,在講授“空間四邊形”相關內容的過程中,倘若老師僅僅依靠板書展示空間四邊形的平面版本,就會讓不少學生產生或認為“空間四邊形的兩個對角線是相交的”誤解,不利于學生建立空間立體概念。通過多媒體手段顯示旋轉運動的“空間四邊形”的三維圖形,讓學生可以真正感受到空間立體圖形的存在,從而培養學生的空間想象能力,讓學生通過觀察三維圖形加深理解“原來這兩條線根本沒相交!”。而在展示微課課件的過程中,可以讓學生獨立地發現“不在同一平面的兩條直線”,并為將來學習“異面直線”埋下伏筆。由此可知微課程可以產生傳統教學方法無法達到的教學效果,從而提高學生的學習興趣和積極性。

2個向量的相似度表示了2個顧客的興趣愛好的相似度,值越大,表示2個顧客興趣度越相似,反之,表示2個顧客的興趣度差別越大[11]。
算法的具體步驟如下:
輸入:包含n個顧客行為的數據集。
輸出:聚類數目k和k個聚類的集合。
(1)聚類數 k的取值范圍為[2,kmax],步長可以變化、不固定,kmax為聚類數目的最大限定[12]。
(2)從n個數據對象中任選k個對象作為初始的聚類中心。利用興趣相似度式(1)計算出任意2個顧客之間的相似度。
(3)根據顧客之間的相似度,對數據集中的顧客進行分類,對于任意的顧客X∈n,尋找與其相似度最大的類心ck,然后 X屬于第 k類。
(4)當所有的數據集中的顧客都確定其聚類的歸屬后,計算每個聚類的新的類心(即類中所有點相似度的平均值,也就是幾何中心)(式(2)),再次將各顧客依據相似度分類,直到誤差準則函數(式(3))穩定在最小值。從而得到不同聚類。
(5)對聚類數目為k時的有效指數 Validity(k)(式(4))進行計算,選擇 Validity值最大的k只保留下來。
(6)輸出聚類數目k和k個聚類的集合。
平均相似度公式:

誤差準則函數形式:

式中,k為要形成聚類的個數,ni是第i類中樣本的個數,mi是第i類樣本的均值。
有效指數定義[13]:

式中,ci表示第i個聚類的中心。
依據上面算法分成的k個顧客群體,在每類群體中,計算每種商品占商品總數的比例,依據比例的大小,由近到遠對商品進行排列,從而得到商品的排列次序。
本文根據顧客的購買記錄,根據其購買的商品間的相似性,劃分出相似性大的顧客群體,再根據每個群體中的每種商品占商品總數的比例大小進行排序,從而得到商品排序的理論依據,進而使商品得到合理排序,這樣顧客在瀏覽商品時,便會刺激其購買欲望,達到擴大銷售的目的。但是每種商品,由于其品牌不同,知名度、信譽度等也不同,并且商品陳列時還要考慮場地位置,顏色搭配等,從而為商品陳列帶來新的問題,因此在為其提供基礎的同時為下一步工作指明了方向。
[1]傅強.超市商品陳列對消費心理的影響[J].中國商貿,2010(3).
[2]朱海紅,江庭友,司丹丹,基于數據挖掘技術的商品陳列研究[J].商場現代化,2010(12).
[3]王金龍,徐從富,徐嬌芬,等.利用銷售數據的商品影響關系挖掘研究[J].電子科技大學學報,2007(2).
[4]崔春生,吳祈宗,王瑩,用于推薦系統聚類分析的用戶興趣度研究[J].計算機工程與應用,2011(7).
[5]劉金嶺.數據挖掘技術在商品銷售預測方面的應用[J].商場現代化,2008(2).
[6]BERRY M, LINOFF G.Data mining techniquesfor marketing, sales, and customer relationship management[M].2nd ed.[S.l.]: John Wiley&Sons, Inc, 2004.
[7]黃韜,劉勝輝,譚艷娜.基于 k-means聚類算法的研究[J].計算機技術與發展,2011(7).
[8]安建成,德增.一種改進的 K-means算法[J].電腦開發與應用,2011(4).
[9]韓瑞凱,孟嗣儀,劉云,等.基于興趣相似度的社區結構發現算法研究[J].計算機應用,2010(10).
[10]Han Jiawei,KAMBER M.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[11]王德榮,李衛華.網絡號百用戶興趣模型挖掘算法[J].現代計算機,2010(4).
[12]趙鳳霞、福鼎,基于K-means聚類算法的復雜網絡社團發現新算法[J].計算機應用研究,2009(6).
[13]樊寧.K均值聚類算法在銀行客戶細分中的研究[J],.計算機仿真,2011(3).