[摘要] 數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助商業(yè)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價值的信息。因此,數(shù)據(jù)挖掘被引入到商業(yè)市場研究領(lǐng)域,并日益受到重視。本文從數(shù)據(jù)挖掘技術(shù)入手,分析了數(shù)據(jù)挖掘在商業(yè)活動中的應(yīng)用。提出了數(shù)據(jù)挖掘的典型統(tǒng)計分析方法與常用的技術(shù),并指出其在商業(yè)領(lǐng)域中的典型應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 關(guān)聯(lián) 分類
一、概述
隨著全球經(jīng)濟(jì)的日益發(fā)展,市場競爭也越來越激烈,商業(yè)環(huán)境中的信息越來越密集,企業(yè)必須能從大量的業(yè)務(wù)數(shù)據(jù)中經(jīng)過深入的分析,獲得有利于商業(yè)運作的信息,提高企業(yè)的決策能力,20世紀(jì)70年代所出現(xiàn)的數(shù)據(jù)庫技術(shù)已經(jīng)被廣泛地應(yīng)用于企業(yè)管理、產(chǎn)品銷售等領(lǐng)域,并獲得巨大成功,但是對于管理人員的決策分析要求卻無法滿足。所以急需的計算技術(shù)和工具,能夠智能化地從大量的數(shù)據(jù)中提取出有用的信息和知識,為企業(yè)提供決策支持,于是數(shù)據(jù)挖掘技術(shù)應(yīng)運而生了。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取隱含、潛在、有用的信息的方法和過程,最終目的是發(fā)現(xiàn)和推導(dǎo)出有價值的知識,包括概念、規(guī)則、模式和模型等,為管理和決策提供參考和支持。數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的技術(shù)。將其應(yīng)用到商品銷售領(lǐng)域的主要作用是對商業(yè)數(shù)據(jù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商品銷售決策的關(guān)鍵性數(shù)據(jù),為科學(xué)的商業(yè)決策提供幫助。
二、數(shù)據(jù)挖掘所采用的主要技術(shù)
數(shù)據(jù)挖掘是一種很好的知識提取方法。數(shù)據(jù)挖掘能通過預(yù)先設(shè)定的算法自動處理數(shù)據(jù)庫中大量的原始數(shù)據(jù),應(yīng)用各種方法和手段從大量數(shù)據(jù)中抽取出具有必然性、富有意義的模式,挖掘出對象間的特定關(guān)系,找出人們對所需問題的解答,為決策服務(wù)。數(shù)據(jù)挖掘過程所形成的知識主要有概念、規(guī)則、規(guī)律、模式和約束等。取得這些結(jié)果采用的主要方法和技術(shù)包括統(tǒng)計學(xué)、聚類分析和模式識別、決策樹分類、人工神經(jīng)網(wǎng)絡(luò)和遺傳算法、規(guī)則歸納,以及可視化技術(shù)等。
三、數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的典型分析方法
在實際的商業(yè)應(yīng)用中,數(shù)據(jù)挖掘的方法和技術(shù)越多,得出的結(jié)果精確性就越高。因為,對于某一種方法或者技術(shù)不適用的問題,其他方法很可能奏效,這主要取決于問題的類型及數(shù)據(jù)的類型和規(guī)模。數(shù)據(jù)挖掘方法有很多種,其中比較典型的有關(guān)聯(lián)分析、序列分析等。
1.關(guān)聯(lián)分析
在數(shù)據(jù)挖掘領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘是一個重要的研究內(nèi)容。關(guān)聯(lián)規(guī)則挖掘的一般對象是事務(wù)數(shù)據(jù)庫,這種數(shù)據(jù)庫的主要應(yīng)用在零售業(yè),比如超級市場的銷售管理。關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品(比如面包、牛奶等都是項目)之間是否存在某種關(guān)聯(lián)關(guān)系。通過這些規(guī)則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架設(shè)計、貨存安排,以及根據(jù)購買模式對用戶進(jìn)行分類。譬如在商場中,許多決策只停留在管理人員的經(jīng)驗判斷層次上,缺乏深層次的分析,也往往跟不上客觀環(huán)境的變化,所以就需要對客觀實時數(shù)據(jù)進(jìn)行分析,找到它們的內(nèi)在聯(lián)系,從而獲得有關(guān) 指導(dǎo)商家進(jìn)貨,方便顧客購物等一些有價值的知識。關(guān)聯(lián)規(guī)則的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分 析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助超市經(jīng)營者制定營銷策略。
關(guān)聯(lián)分析是為了尋找在同一事件中出現(xiàn)的不同項的關(guān)聯(lián)性。比如,超市中70%的客戶在購買商品A的同時,有90%會購買B,即關(guān)聯(lián)規(guī)則是A>:B。若超市將商品A和B放在一起銷售,將會提高它們的銷售量。
在大型數(shù)據(jù)庫中,這種關(guān)聯(lián)規(guī)則是很多的,需要進(jìn)行篩選,一般用“支持度”和“可信度”兩個閾值來淘汰那些無用的關(guān)聯(lián)規(guī)則。
在本例中,設(shè)關(guān)聯(lián)規(guī)則A>=B的可信度為C,支持度 為S。則:
C:同時購買商品A和B的交易數(shù)/購買了商品A的交易數(shù)S:同時購買商品A和B的交易數(shù)/總交易數(shù)本例的關(guān)聯(lián)規(guī)則A=>B的可信度為C=90%,支持度S=70%。
因此,找出這樣的數(shù)據(jù)信息對于確定市場策略是很有價值的。尋找這種信息的過程即是挖掘關(guān)聯(lián)規(guī)則的過程。關(guān)聯(lián)規(guī)則還可以應(yīng)用到附加郵遞、目錄設(shè)計、追加銷售、倉儲規(guī)劃,以及基于購買模式對顧客進(jìn)行劃分等方面。
2.序列分析
序列分析與關(guān)聯(lián)規(guī)則類似,但它尋找的是事件之間時間上的關(guān)聯(lián)性。比如,超市中60%的客戶在購買商品A后隔一段時間,其中有80%會再購買B,即序列模式是A>=B。顯然,通過序列模式分析,超市可以發(fā)現(xiàn)客戶潛在的購買模式。
在序列模式分析中,同樣需要用“支持度”和“可信度”兩個閾值來淘汰那些無用的序列模式。在本例中.設(shè)序列A>=B的可信度為C,支持度為S,則C=先購買商品A再購買商品B的客戶數(shù)/先購買了商品A的客戶數(shù)S=先購買商品A再購買商品B的客戶數(shù)/總客戶數(shù)本例的序列模式A=>B的可信度為C=80%,支持度S=60%。
四、結(jié)束語
在信息經(jīng)濟(jì)時代,數(shù)據(jù)挖掘技術(shù)的應(yīng)用正在不可思議的改變著我們的生活。但數(shù)據(jù)挖掘永遠(yuǎn)都不會替代有經(jīng)驗的商業(yè)分析師或管理人員的作用,它只是提供了一個強(qiáng)大的工具,它所起到的作用是幫助企、業(yè)更容易地得到一些重要的,能產(chǎn)生高回報的模型。而企業(yè)根據(jù)這些模型可以更好的提高商業(yè)運行、商業(yè)效率。目前,數(shù)據(jù)挖掘工具正以前所未有的速度發(fā)展,在信息技術(shù)應(yīng)用最為廣泛的商業(yè)活動中,它更是推動了整個行業(yè)的發(fā)展。在未來越加激烈的市場競爭中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機(jī)會。
參考文獻(xiàn):
[1]王珊:數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M].北京科學(xué)出版社,1998
[2]邵峰晶:數(shù)據(jù)挖掘一原理與算法[M].北京:中國水利水電出版社,2003
[3]崔云龍:商場現(xiàn)代化[J],數(shù)據(jù)挖掘在商業(yè)經(jīng)營中的應(yīng)用,2006(10)