摘 要:商圈在居民日常生活中占據重要的地位,而數字化管理已成為實現商圈運營優化的重要環節。目前,商圈店鋪分類的研究仍然主要依賴于統計分析方法和人為經驗判斷,缺少較為準確、系統的模型方法作為決策支撐。針對此現狀,本文提出一種基于聚類模型的店鋪布局方法和基于關聯規則模型的店鋪引流方法。另外,本文還對當前比較流行的5種聚類算法在商圈店鋪分類問題的使用效果進行對比。試驗結果證明,當數據量波動時,與傳統的K-Means算法相比,層次聚類算法的輪廓系數穩定在0.55~0.6,明顯優于其余聚類算法;層次聚類算法平均運行時間與K-Means算法相比可縮短80%~90%,運行效率和分類效果均為最優,因此最適合用于商圈店鋪聚類分析。
關鍵詞:商圈決策;機器學習;聚類模型;關聯規則模型
中圖分類號:TP 391 " " " " " " 文獻標志碼:A
商圈在日常生活中占據了重要的地位,它是城市商業活動的核心區域和促進消費升級的重要平臺。商圈的繁榮與管理者的運營密切相關,數字化管理已成為實現商圈運營優化的重要環節。因此,合理的商圈規劃愈加關鍵。在金融、醫療以及無人駕駛等領域,人工智能和機器學習已經得到深入應用[1-3]。在商圈店鋪規劃領域,以上技術尚未得到充分應用,仍然依賴于傳統的統計分析方法和經驗判斷。因此,將人工智能和機器學習技術應用于商圈店鋪分析,以提高運營效率和決策準確性,具有重要的研究意義和應用價值。常用的商圈店鋪分類方法主要是基于K-means算法和DBSCAN算法的聚類方法。另外,層次聚類算法(Hierarchical Clustering)和基于密度的聚類算法(Density-based Clustering)在商圈店鋪分類中也有一定的應用。目前,仍然存在一些挑戰,例如,不同的聚類算法在商圈店鋪聚類分析中孰優孰劣、不同聚類算法的適用場景、當數據量較大時如何提高模型的運行效率等問題。同時,大部分研究者在進行商圈分析的過程中只使用一種或兩種聚類算法,且沒有給出系統的操作說明。
1 一種基于機器學習的商圈店鋪分析方法
1.1 數據預處理
本文認為影響商圈店鋪分類和定位的因素除了包括客單價和一日中交易時段外,還應考慮交易發生日期是否在周末、一段時間內的交易總金額和交易總次數。在數據預處理環節,統計每個店鋪在一段時間內的客單價、一日中各交易時段(上午、中午、晚上)交易次數、交易分別發生在周末和周中的次數、交易總金額和交易總次數。
1.2 基于機器學習的聚類建模
在進行第2.1節的操作后,使用多種聚類模型算法進行分析,應決定聚類分析中簇的個數。本文根據當前常用的價格定位分類方法,將商圈中的店鋪分為高端奢侈品店、中檔品牌店以及平價快消品店。由此確定,聚類分析模型中簇的個數為3。
1.2.1 K-Means聚類
K-Means算法是一種常用的無監督機器學習算法,用于將1組數據點分成不同的類別或簇。它基于數據點之間的相似性進行聚類,用歐式距離作為衡量數據對象間相似度的指標,相似度與數據對象間的距離成反比,相似度越大,距離越小[4]。算法的核心思想是將數據點分配到K個簇中,使每個數據點與所屬簇內的其他數據點更相似,與其他簇的數據點更不相似。通過迭代的方式,K-means聚類算法會不斷更新簇的中心點,并重新分配數據點,直到達到收斂條件。最終,每個數據點都會被分配到一個簇中,形成了聚類結果。K-means聚類在數據挖掘、圖像分析以及文本聚類等領域有廣泛應用。一般K-Means算法的核心步驟如下。
算法一:K-Means聚類算法
輸入:數據集D={x1,x2,…,xN},聚類數目K。
輸出:每個數據點的聚類分配。1)隨機初始化K個聚類中心 cl,c2,…,cK。2)重復 直到收斂。3)將每個數據點xi分配給最近的聚類中心 ci。4)更新每個聚類中心ci為分配給它的所有數據點的平均值。5)結束重復循環。
1.2.2 層次聚類
層次聚類(Hierarchical Clustering)是一種將數據點逐步劃分或合并的聚類方法[5],將一組數據點按照層次結構進行分組。它通過計算數據點之間的相似性或距離來確定它們的層次關系,從而形成樹狀結構的聚類結果。在層次聚類中,每個數據點最初被視為一個單獨的簇,然后根據其相似性逐步合并為更大的簇,直到所有數據點都被合并為一個簇或滿足某個停止準則為止。層次聚類算法的核心步驟如下。
算法二:層次聚類算法
輸入:輸入數據集 D={x1,x2,…,xN},鏈接準則L。
輸出:聚類的樹狀圖。1)將每個數據點初始化為單獨的聚類。2)當聚類的數目大于1時執行以下步驟。3)根據鏈接準則L 找到2個最近的聚類。4)將這2個聚類合并成一個新的聚類。5)結束循環。6)返回 聚類的樹狀圖。
1.2.3 DBSCAN聚類
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種基于密度的聚類算法[6],它能夠發現任意形狀和大小的聚類,并且可以識別噪聲數據點。DBSCAN將數據點分為核心點、邊界點和噪聲點,并通過密度可達性來構建聚類。
DBSCAN聚類算法的核心步驟如下。
算法三:DBSCAN聚類算法
輸入:輸入數據集D={x1,x2,…,xN},鄰域半徑e,聚類中的最小點數MinPts。
輸出:每個數據點的聚類分配。1)將所有數據點初始化為未訪問狀態。2)對于數據集中的每個未訪問數據點xi。①將xi標記為已訪問。②檢索xi鄰域內的所有數據點使用半徑ε。③如果檢索到的點的數量大于或等于MinPtsi)創建一個新的聚類 C。④通過遞歸地添加滿足密度條件的鄰居點來擴展聚類w。⑤如果檢索到的點的數量小于MinPts,則將xi標記為噪聲。3)重復步驟2,直到所有未訪問的數據點都被訪問并分配到1個聚類中,或者標記為噪聲。
1.2.4 譜聚類
譜聚類(Spectral Clustering)是一種基于圖論和線性代數的聚類算法,它通過對數據的相似度矩陣進行特征分解,將數據轉化為低維特征空間,然后使用傳統的聚類算法(如K-means)對低維特征空間進行聚類[7]。
譜聚類算法的核心步驟如下。
算法四:譜聚類算法
輸入:D={x1,x2,…,xN}, 聚類數k。
輸出:每個數據點的聚類標簽。1)基于D構建相似度矩陣W。2)計算歸一化圖拉普拉斯矩陣L。3)計算L的前k個特征向量U。4)使用K-Means算法將U的行聚類成k個簇。5)將聚類標簽分配給數據點。
1.2.5 高斯混合模型聚類
高斯混合模型(Gaussian Mixture Model,GMM)是一種常用的聚類算法,它假設數據是由多個高斯分布組合。GMM的目標是通過最大化似然函數來估計數據點的類別和參數。
高斯混合模型聚類算法的核心步驟如下。
Algorithm 5高斯混合模型聚類算法
輸入:D={x1,x2,…,xN},聚類數k
輸出:每個數據點的聚類標簽。1)初始化k個高斯分布的參數。2)當未收斂。3)期望步驟:計算每個高斯分布對于每個數據點的責任度。4)最大化步驟:基于責任度更新每個高斯分布的參數。5)結束循環。6)根據具有最高責任度的高斯分布為數據點分配聚類標簽。
1.2.6 不同聚類模型效果評估
以上5種聚類模型在不同情況下各有優劣,需要對不同聚類模型的聚類效果進行評估,以此來選定最優的模型進行商圈店鋪聚類分析。
輪廓系數(Silhouette Coefficient)是一種用于評估聚類質量的指標,它結合了聚類內部的緊密度和聚類之間的分離度。通常情況下,輪廓系數較高說明聚類質量較好。
以散點圖的形式對聚類結果進行可視化分析,可以直觀地看到不同聚類簇的分布情況和邊界。如果聚類效果好,那么不同簇的數據點相對緊密,且邊界明顯;如果聚類效果差,那么簇內散亂、簇間重疊。根據散點圖進行聚類效果評價,存在較大的主觀性,本文以輪廓系數作為主要的評價指標,對于輪廓系數相同或相近的模型,再根據散點圖上不同聚類的數據點相互分離程度和聚類內部數據點的緊密程度對聚類效果予以評估。
1.3 基于機器學習的關聯規則模型
關聯規則模型是機器學習中的一種模型,通過分析大量數據集,找出其中的頻繁項集和關聯規則,以幫助人們理解數據之間的關系和模式。關聯規則模型的核心概念包括支持度、置信度和提升度。支持度表示一個規則在數據集中出現的頻率,置信度表示在前提條件下結論出現的概率,而提升度表示結論發生的概率。在關聯規則模型中的Apriori算法是一種基于頻繁項集的生成方法,通過迭代生成頻繁項集,并使用支持度和置信度篩選關聯規則。
2 試驗驗證
為驗證第二節中的方法,選取某商圈的交易數據進行分析。
2.1 原始數據聚類分析
按照第三節中的方法進行數據預處理。得出該商圈60家店鋪的各時段(周中、周末、上午、下午、晚上)交易次數、客單價、交易總次數和交易總金額。進行數據標準化后,選取KMeans聚類、層次聚類、DBSCAN聚類、譜聚類和高斯混合模型聚類5種算法進行聚類分析,分別進行聚類效果可視化和計算輪廓系數。試驗結果如圖1和圖2所示。
由圖1和表1顯示的試驗結果可知,K-Means聚類和譜聚類的輪廓系數最高,達到0.42;層次聚類和高斯混合模型聚類稍次,輪廓系數分別為0.35和0.34;DBSCAN聚類的聚類效果最差,不僅輪廓系數最低,只有0.14,而且散點圖中的不同聚類數據點互相嵌合。由圖1散點圖分類情況,在輪廓系數最高的K-Means聚類和譜聚類模型中,K-Means不同聚類數據點的嵌合較譜聚類稍多,譜聚類模型的散點圖上不同聚類的數據點相互分離程度和聚類內部數據點的緊密程度比K-Means聚類好;在輪廓系數相近的層次聚類和高斯混合模型聚類中,層次聚類的散點圖上數據點的區分效果明顯優于高斯混合模型聚類。
綜上所述,從該試驗數據研究結果可知,譜聚類模型的聚類效果是最好的。
2.2 不同聚類算法模型試驗效果對比
試驗研究了不同數據量、不同聚類算法的聚類效果和運行效率。由于DBSCAN聚類算法在3.1節中的效果較差,因此將其略去,不進行研究。不同數據量的4種聚類算法計算得出的輪廓系數如圖2所示。
試驗計算每次單個聚類算法的運行時間,由于時間結果因計算機的硬件和負載而異,因此在試驗數據集上運行了50次,并取平均時間。每種聚類算法在每個數據集上運行的平均時間如圖3所示。
當數據量變化時,輪廓系數波動較小,且維持在較高的水平、運行時間曲線平穩且相對較短的模型在現實商圈分析場景中更優秀。綜合圖2和圖3的結果,當數據量變化時譜聚類聚類效果很差,而且當數據量較大時運行耗費時間較長,不推薦在聚類分析中使用。層次聚類和K-Means聚類在不同數據量的聚類效果較穩定,輪廓系數均穩定在0.55~0.60。由表2可知,層次聚類運行耗時更短,綜合分析,層次聚類是最佳聚類算法模型。
2.3 基于關聯規則模型的商圈店鋪規劃
對試驗數據進行數據處理,規定每天交易次數較多的店鋪為頻繁項集。然后使用第三節關聯規則模型中Apriori算法對試驗數據進行分析,設置支持度閾值為0.2,置信度閾值為0.6,得到100組規則項集。選取支持度與提升度前三的規則項集見表3。
由表3可以發現,部分項的支持度與置信度較高,代表相應店鋪的客流量較大,為“網紅”店鋪,如試驗數據中序號為6、7、11、44、51和56等的店鋪;另外,這類店鋪對應的項集提升度也較高,說明其能夠提升商圈整體客流量。綜上所述,通過關聯規則模型對商圈交易數據的分析能夠找到部分客流量較大的“網紅店鋪”,商圈決策者可以采用這類店鋪租金優惠、優先選址等策略為商圈引流,另外,可以將支持度較高項集對應的店鋪集中規劃選址,或者采用品牌聯動、商品捆綁銷售等策略以進一步提高這類店鋪營收和流量。
3 結語
本文基于機器學習中聚類模型與關聯規則模型提出一種實用的商圈智能決策方法,以實現更精細化和智能化的商圈運營管理效果。主要貢獻如下:1)本文將5種主流的聚類算法在實際商圈交易數據上進行聚類分析并比較其試驗效果,進而給出這些聚類算法在商圈店鋪聚類分析上的優劣和各自適用場景。試驗結果表明,層次聚類算法在中等規模樣本上最好。2)本文提出利用關聯規則模型尋找“網紅”店鋪的方法,并且按照支持度、置信度與提升度的現實意義為商圈決策提供參考。
參考文獻
[1]王磊,劉曉慧,吳磊.基于人工智能的金融風險管理研究綜述[J].金融研究,2019(9): 1-18.
[2]劉文.基于人工智能的醫療影像診斷研究綜述[J].中國醫療設備,2019(1):68-70.
[3]張偉,王磊.基于人工智能的無人駕駛技術研究綜述[J].交通信息與安全,2019(2):57-61.
[4]劉建華,劉鵬,王成軍.基于K-means算法的數據挖掘方法研究[J].計算機科學,2009, 36(7):248-250.
[5]張曉東,張明.層次聚類算法綜述[J].計算機工程與應用,2009,45(23):1-4.
[6]趙建華,李瑞華,鄭建偉.基于DBSCAN算法的聚類分析研究[J].計算機應用與軟件, 2017, 34(11):127-130.
[7]潘勇,鄧小鐵,陳宇.譜聚類算法綜述[J].計算機科學,2011,38(8):34-38.