[摘要] 數據挖掘技術逐漸成為研究熱點,應用也越來越廣泛。本文結合零售業中各種應用需求,較詳細地分析了針對不同挖掘任務的數據挖掘技術,并對實施中出現的問題進行了闡述,表明了改進挖掘算法和提高計算效率的必要性。
[關鍵詞] 數據挖掘 零售業 算法
一、引言
當美國學者奈斯伯特驚呼“人類正被大量數據所淹沒,而知識則極度匱乏”時,出現于20世紀80年代末的數據挖掘技術讓人們看到了發現知識的希望。
零售行業使最早利用數據挖掘技術的領域之一,隨著時代的發展,傳統報表系統已經不能滿足日益增長的業務需求了,企業期待著更好地利用數據分析和數據挖掘這種新的技術來獲得知識或洞察力,促使企業做出更有利的決策,帶來更大的商業價值。這也成為企業生存發展的關鍵。
二、數據挖掘概念
1.什么是數據挖掘。數據挖掘(DM)是指從大量數據中抽取隱含的、不為人知的、有用的信息。有時也把數據挖掘等同于數據庫中的知識發現(KDD)。
從商業角度出發,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。
2.數據挖掘及知識發現處理數據的一般過程。數據清理→數據集成→數據選擇→數據變換→匯總、聚集→數據挖掘→模式評估→知識表示
三、零售業數據挖掘的主要技術分析
數據挖掘采用的方法綜合了數據庫、人工智能、統計學、模式識別、機器學習、數據分析等領域的研究成果。
1.概念/類描述:特征化和區分。對含有大量數據的數據集合進行概述性的總結并獲得簡明、準確的描述。
定性概念描述即數據特征化,是目標類數據的一般特性或特征的匯總。
對比概念描述即數據區分是將目標類數據對象的一般特性與一個或多個對比類對象的一般特性進行比較。目標類和對比類由用戶指定,而對應的數據通過數據庫查詢檢索。例如:用戶可能希望將上一年銷售增加10%的A產品與同一時期銷售至少下降20%的B產品進行比較。再如:比較定期購買某種產品的顧客和偶爾購買這種產品的顧客。結果描述提供顧客比較的一般輪廓,如比較兩類顧客的年齡,受教育程度,職業等等,還可以就某項深入比較,發現兩類間更多的區分特性。
兩種描述使用的一些有:基于統計度量、圖的簡單數據匯總、數據立方體、面向屬性的歸納等。
2.挖掘頻繁模式、關聯。頻繁模式是在數據中頻繁出現的模式。包括項集、子序列和子結構。
項集是指頻繁地在事務數據集中一起出現的項的集合,如牛奶和面包。如顧客先購買PC再購買數碼相機然后再購買內存卡這樣的模式是一個(頻繁)序列模式。
子結構涉及不同的結構形式,如圖、樹或格,與項集或子序列結合在一起。如果一個子結構頻繁地出現,則稱它為(頻繁)結構模式。
挖掘頻繁模式導致發現數據中有趣的關聯。著名的“尿布與啤酒”的故事就是關聯規則具體應用。著名的關聯規則發現方法如:R.Agrawal提出的Apriori算法等。
3.分類知識發現。所謂分類,是把給定的數據劃分到一定的類別中。分類的關鍵是對數據按照什么標準或什么規則進行分類。
對于分類規則的挖掘通常有以下幾種方法:決策樹、樸素貝葉斯、k最近鄰分類、人工神經網絡、粗糙集方法和遺傳算法。不同的算法適用于不同特點的數據集合。最為典型的分類方法是基于決策樹的分類方法。
4.預測型知識發現。預測型知識是根據事件序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。比如,在零售業中根據先前的銷售數據,預測未來銷售中每種商品的收益,這是一個(數值)預測的例子。
目前,回歸分析是一種最常使用的數值預測的統計學方法,此外還有神經網絡、機器學習等多種方法。
5.聚類分析。聚類分析處理的數據是無事先確定的類別歸屬,是把整個數據庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數據盡量相似。
在零售業中利用聚類可以幫助市場分析人員從客戶的基本庫中發現不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。此外,聚類分析可以作為其他算法(如特征和分類等)的預處理步驟。聚類方法主要有兩大類,包括統計方法和神經網絡方法。
6.離群點分析。數據集中那些不符合大多數數據對象所構成的規律(模型)的數據對象被稱為異類或離群點。
大部分數據挖掘方法很容易將離群點視為噪聲或異常而丟棄。然而在某些特定應用場合(如商業欺詐行為的自動檢測),小概率發生的事件(數據)比經常發生的事件(數據)更有挖掘價值。
常使用異常探測方法來發現離群點,實現異常探測可以用基于統計、基于距離、)基于偏離的方法。
四、結束語
通過研究和實際應用了解到,數據挖掘并不是萬能的,在通過數據挖掘得到一些有意思的結果之后,還要進行相應的市場分析,用戶行為分析和用戶訪談,了解數據背后消費者的心理。
雖然數據挖掘在零售業中的應用有許多成功的案例(多數都在國外),然而在具體實施中還有一些的問題:挖掘算法的改進和計算效率提高,模型的合理性和易懂性,與其他系統的集成問題;網絡與分布式環境下的KDD問題;個人隱私問題;數據規模超大或太小;另外還可能有觀念意識問題,基礎條件不成熟問題,這些都有待于進一步研究。
參考文獻:
[01]Shortland R,Scarfe R.Digging for Gold.IEE Review.1995(5).41:213~217
[2]范明孟小峰(譯):anjiawei,etal.數據挖掘:概念與技術.北京:機械工業出版社,2007