翟 音
隨著信息技術的不斷發展,人們利用信息技術處理數據的能力大幅度提高,越來越多的數據庫被應用于商業管理、生產控制和工程設計等各種領域。但是,面對不斷增加的各種復雜數據,已存在的數據庫的查詢功能已經不能滿足人們的需要,能不能從數據中提取人們所需要的信息和知識是大家越來越關注的問題。傳統的統計技術已面臨極大的挑戰,集統計學、數據庫、知識發現等技術于一身的數據挖掘技術應運而生。近幾年來,數據挖掘技術在零售業、直效行銷界、制造業、財務金融保險、通訊業以及醫療服務等領域應用廣泛。
一、數據挖掘的基本概念
(一)“啤酒尿布”的典型案例
在了解數據挖掘的概念之前,我們先來看一個“啤酒尿布”的故事。故事的主角是沃爾瑪這個世界上最大的零售商,在其遍布美國數千家超級市場中,小孩尿布與啤酒居然并排擺放在鄰近的貨價上一起銷售,而且兩者銷量都還不錯。原來沃爾瑪通過建立的數據倉庫,分析了原始交易數據,按周期統計產品的銷售信息,然后利用數據挖掘工具進行分析和挖掘,結果發現,每逢周末沃爾瑪連鎖超市啤酒和尿布的銷量很大。進一步調查表明,在美國有孩子的家庭中,太太經常囑咐她們的丈夫下班后要為孩子買尿布,而丈夫們在買完尿布后又順手帶回了自己愛喝的啤酒,因此啤酒和尿布一起購買的機會是最多的。之后該店打破常規,將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進一步增長。啤酒和尿布這兩者看似毫無關聯,但在特定的條件下,它們之間卻有密切的關系,這就是數據挖掘技術。
(二)數據挖掘的概念
數據挖掘(Data Mining)就是從海量的原始數據中,找出隱含在其中的、我們事先不知道的、但又是潛在的有意義的知識和信息,從而利用這些知識來指導我們的活動。從統計學的角度,數據挖掘可以看成是通過計算機對大量的復雜數據的自動探索性分析。隨著信息技術的高速發展,人們積累的數據量急劇增長。數據挖掘就是為順應這種需要應運而生發展起來的數據處理技術。
二、零售業應用數據挖掘的背景
零售業客戶關系管理(Customer Relationship Management,CRM)是一種以客戶為中心的市場營銷理念和策略。 CRM的目標是縮減銷售周期和銷售成本、增加收入、尋找擴展業務所需的新市場和渠道以及提高客戶的價格、滿意度、盈利性和忠誠度。
零售業客戶關系管理主要通過條形碼、銷售管理系統、客戶資料管理系統等各種途徑獲得關于商品信息、客戶信息、供應商信息及店鋪信息等大量的數據信息,如何利用這些海量數據信息分析出哪些商品好賣、哪些商品不好賣、哪些客戶適宜哪些商品、商品之間如何搭配,是令零售商頭疼的問題。利用數據挖掘工具對這些數據進行分析,可以幫助零售商進行科學的決策,分析哪些商品顧客最有希望一起購買,從而將這些商品擺放在一起;分析商品的銷售趨勢,從而給零售商提供進貨建議;分析購買商品的人員信息,從而幫助零售商選擇店鋪的所在
地點等。
三、數據挖掘技術的常用算法
數據挖掘是零售業CRM中的核心技術,通過分析顧客已購買商品及這些商品之間的內在聯系,確定顧客的購買習慣和關聯購買傾向,從而幫助零售商制定營銷策略。為了實現在零售業CRM中的應用,數據挖掘技術中主要涉及以下常用算法:
(一)聚類分析算法
聚類分析算法是根據事物的特征對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。在零售業中,聚類分析可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。
(二)決策樹算法
決策樹算法就是利用訓練集生成一個測試函數,根據不同取值建立樹的分支;在每個分支子集中重復建立下層結點和分支,這樣便生成一棵決策樹。然后對決策樹進行剪枝處理,最后把決策樹轉化為規則。決策樹算法常用于預測模型,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它分類速度快,特別適合大規模的數據分類處理。
(三)神經網絡算法
神經網絡算法能夠模擬人的神經元功能,經過輸入層、隱藏層、輸出層等,對數據進行調整、計算,最后得到結果。神經網絡算法的優點是它能精確地對復雜問題進行預測。它本身具有良好的魯棒性、自適應性和高度容錯性。
(四)關聯規則挖掘算法
關聯規則挖掘是用于發現數據庫中屬性之間的相關聯系的一種算法。關聯規則發現任務的本質是在數據庫中發現強關聯規則,利用這些關聯規則了解客戶的行為,其最典型的例子就是購物籃分析。
四、數據挖掘技術在零售業CRM中的應用
隨著日益增長的Web或電子商務方式的興起,零售業CRM是數據挖掘的主要應用領域。數據挖掘技術可有助于識別客戶購買行為,發現客戶購買模式和趨勢,改進服務質量,取得更好的客戶保持力和滿意度,提高貨品銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本。數據挖掘技術在零售業CRM中的應用主要體現在以下幾個方面:
(一)使用多特征數據立方體進行銷售、客戶、產品、時間和地區的多維分析
多維數據分析是指通過多維的方式對數據進行分析、查詢和報表。維是人們觀察數據的特定角度。例如,企業在考慮產品的銷售情況時,通常從客戶、產品、時間和地區等不同角度來深入觀察產品的銷售情況。這里的客戶、產品、時間和地區就是維。根據這些維的不同組合和所考察的度量指標從客戶基本庫中發現不同的客戶群,以便決策者根據主客戶群的特征作相應的定貨、銷售、服務等決策。
(二)利用關聯分析挖掘關聯信息進行購買推薦和商品參照
關聯分析就是利用關聯規則進行數據挖掘技術,其目的在于挖掘隱藏在數據間的相互關系,發現數據庫中形如“90%的顧客在一次購買活動中購買A商品的同時也會購買B商品”之類的知識。通過從銷售記錄中挖掘關聯信息,可以發現買某一品牌商品的顧客很可能購買其他一些商品。這類信息可用于形成一定的購買推薦。商家通過宣傳可改進服務,幫助顧客選擇商品,增加銷售額和減少庫存積壓。
(三)使用多維分析和關聯分析進行促銷活動的有效性分析
利用多維分析和關聯分析對數據庫的數據仔細研究,以分析顧客的購買習慣、廣告成功率和其他戰略性信息。利用數據庫通過檢索數據庫中近年來的銷售數據,用多維關聯分析方法,通過比較促銷期間的銷售量和交易數量與促銷活動前后的有關情況,可預測出季節性和月銷售量,對商品品種和庫存的趨勢進行分析還可確定降價商品,并對數量和運作做出決策。此外,用關聯分析可以找出哪些商品可以用于促銷活動,便于安排商品貨源,提高銷售額。
(四)序列模式挖掘可用于客戶忠誠分析
序列模式分析和關聯分析相似,但側重點在于分析數據間的前后序列關系。序列模式挖掘可用于分析顧客的消費或忠誠的變化,據此對價格和商品的品種加以調整,以留住老顧客,吸引新客戶,保證一定的顧客數量。商家可以從原客戶后來卻轉成競爭對手的客戶群中,分析其特征,再根據分析結果到現有客戶數據中找出可能轉向的客戶,然后設計一些方法預防客戶流失;也可以根據客戶的消費行為與交易紀錄對客戶忠誠度進行排序,根據流失率的等級進而配合不同的策略。
(五)利用交叉銷售模式向老客戶銷售新的產品或服務
零售業和客戶之間的關系是持續不斷的、發展的,交叉銷售是指向老客戶銷售新的產品或服務的過程。交叉銷售是建立在買賣雙方互利原則的基礎之上,客戶因得到更多更好符合他們需求的服務而獲益,企業也因銷售增長而獲益。交叉銷售的優勢在于,商家可以比較容易得到老客戶較為豐富的信息。企業所掌握的客戶信息特別是以前購買行為的信息中,可能正包含著決定這個客戶下一個購買行為的關鍵信息。這個時候數據挖掘的作用就體現為它可以幫助企業尋找到那些影響顧客購買行為的信息和因素。
(作者單位:廊坊師范學院數學與信息科學學院)