廣西財(cái)經(jīng)學(xué)院信息與統(tǒng)計(jì)學(xué)院 賴振丹
太原科技大學(xué)應(yīng)用科學(xué)學(xué)院 龐寧
中國電信廣西分公司 陳偉平
1995年在美國計(jì)算機(jī)學(xué)會ACM會議中第一次提出了數(shù)據(jù)挖掘概念。所謂數(shù)據(jù)挖掘,就是指在諸多不完全、存噪且模糊的原始數(shù)據(jù)中將未知的具有潛在價(jià)值的信息及知識進(jìn)行提取的過程。數(shù)據(jù)挖掘?qū)儆谝婚T交叉學(xué)科,廣泛涉及信息檢索、模式識別、人工智能等諸多領(lǐng)域。在數(shù)據(jù)挖掘研究進(jìn)程中,先后出現(xiàn)了諸如知識發(fā)現(xiàn)、數(shù)據(jù)融合等專用術(shù)語。隨著互聯(lián)網(wǎng)的不斷發(fā)展,Web中的信息量迅猛增加,這些信息表現(xiàn)出量大、動(dòng)態(tài)分布以及異質(zhì)等方面的特征,將以往數(shù)據(jù)挖掘思想及方式融入到Web數(shù)據(jù)中,即產(chǎn)生了Web數(shù)據(jù)挖掘這一新的研究分支。
為了避免諸如噪聲等不利因素的影響,在實(shí)施數(shù)據(jù)挖掘前需要采取預(yù)處理措施,從而使原始數(shù)據(jù)維數(shù)得到適當(dāng)控制,同時(shí)提升數(shù)據(jù)質(zhì)量及挖掘速度;完成數(shù)據(jù)預(yù)處理之后,需要分析數(shù)據(jù)發(fā)掘模式,這也是最為關(guān)鍵的一個(gè)環(huán)節(jié)。數(shù)據(jù)發(fā)掘可以發(fā)現(xiàn)的模式主要有以下幾類:(1)聚類,以數(shù)據(jù)相同點(diǎn)和不同點(diǎn)的發(fā)現(xiàn)為重點(diǎn),對一組對象屬性做出描述,依據(jù)一定的原則對沒有標(biāo)識的對象進(jìn)行類屬劃分;(2)關(guān)聯(lián)規(guī)則挖掘,在數(shù)據(jù)挖掘范疇之中,最為關(guān)鍵的一個(gè)分支就是關(guān)聯(lián)規(guī)則挖掘,最初是由R.Agrawal等在研究市場購物籃問題時(shí)提出的。劃分依據(jù)不用,關(guān)聯(lián)規(guī)則的分類也有所區(qū)別:以所處理的變量為依據(jù),可以將其劃分為布爾型關(guān)聯(lián)規(guī)則以及多值關(guān)聯(lián)規(guī)則;以所涉及的數(shù)據(jù)維度為依據(jù),又有單維及多維之分;(3)序列模式,所謂序列模式,主要指的是存在于時(shí)序數(shù)據(jù)集當(dāng)中的數(shù)據(jù)相互間所存在的因果關(guān)系模式,頻繁出現(xiàn)于事件序列之中的時(shí)間序列就是序列模式挖掘。除此之外,還存在統(tǒng)計(jì)分析、分類以及特征規(guī)則等數(shù)據(jù)挖掘方法。
信息化的浪潮在世界各地,各行各業(yè)掀起,信息化的層次也在不斷演進(jìn),從MRPⅡ、ERP到CRM,從數(shù)據(jù)倉庫(Data Warehouse)到數(shù)據(jù)挖掘(Data Mining),每一次變革都極大地推動(dòng)著企業(yè)信息化的升級和企業(yè)管理水平的提高。隨著世界生產(chǎn)技術(shù)的進(jìn)步,社會生活的多元化,社交活動(dòng)的復(fù)雜化,特別是電子信息技術(shù)的迅速發(fā)展與廣泛應(yīng)用,改變了以往基本依賴人工操作的數(shù)據(jù)存儲變成了電子版本的數(shù)據(jù)資料,這一變革使得各種管理工作越來越依賴于對信息的管理。信息作為一種資源,使得人們的工作、生活以及思維方式發(fā)生了重大的變革,為企業(yè)的生產(chǎn)與經(jīng)營提供了日益完善的手段。企業(yè)經(jīng)營的百分之八十的時(shí)間用于信息的傳輸與處理,信息的采集、傳輸、加工和利用成為人們特別是信息工作者的主要活動(dòng)。一些西方發(fā)達(dá)國家從事信息處理工作的人數(shù)多,在20世紀(jì)80年代就已經(jīng)占職工總數(shù)的50%以上,而美國1993年政府報(bào)告“國家信息基礎(chǔ)結(jié)構(gòu):行動(dòng)計(jì)劃”中指出“2/3的美國勞動(dòng)者從事與信息有關(guān)的工作,其余1/3工作在高度依賴于信息的產(chǎn)業(yè)部門,”這種職工可以成為“知識工作者”,他們主要就是收集、傳輸和加工信息,包括編輯文件、寫報(bào)告、分析信息、作計(jì)劃等。所以現(xiàn)在各行各業(yè)對信息的管理要求越來越大。
隨著社會主義市場經(jīng)濟(jì)的不斷發(fā)展,以及市場競爭激烈程度的日益加大,對于企業(yè)發(fā)展而言,通過有效可行的方式進(jìn)一步增進(jìn)與廣大客戶之間的交流及了解,提升企業(yè)盈利能力成為當(dāng)前所面臨的一大發(fā)展性問題,同時(shí)也使企業(yè)更加深刻地認(rèn)識到了在企業(yè)信息化管理過程中應(yīng)用數(shù)據(jù)挖掘的重要性及必要性。在一定意義上講,企業(yè)盈利來源于廣大客戶,利用數(shù)據(jù)發(fā)掘,在對客戶數(shù)據(jù)進(jìn)行準(zhǔn)確地分析的基礎(chǔ)上,有助于發(fā)掘消費(fèi)模式,實(shí)現(xiàn)對企業(yè)的投資經(jīng)營風(fēng)險(xiǎn)的有效控制,并進(jìn)一步搞好與客戶之間的關(guān)系。在此本文主要以銀行及電信兩大行業(yè)為例,對數(shù)據(jù)挖掘在企業(yè)信息化管理中的實(shí)際運(yùn)用進(jìn)行分析和探討。
在電信領(lǐng)域中,當(dāng)前不少電信企業(yè)都已經(jīng)從自身實(shí)際狀況出發(fā),建立起規(guī)模與自身能力相符合的數(shù)據(jù)倉庫系統(tǒng),借助數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對數(shù)據(jù)中有價(jià)值的相關(guān)信息的有效提取,并以其作為預(yù)測未來企業(yè)經(jīng)營狀況、確定今后經(jīng)營發(fā)展戰(zhàn)略的依據(jù)。例如,呼叫時(shí)間具有多維性,對于諸如此類的電信數(shù)據(jù),借助數(shù)據(jù)挖掘中的多維分析等相關(guān)技術(shù),將有助于深入了解當(dāng)前的數(shù)據(jù)通信情況,并明確最佳客戶以及流失的客戶,這對于促進(jìn)企業(yè)經(jīng)營業(yè)績的不斷提升將會產(chǎn)生極為深遠(yuǎn)的影響。
除電信行業(yè)之外,銀行領(lǐng)域?qū)?shù)據(jù)相關(guān)技術(shù)的運(yùn)用也受到越來越多的關(guān)注,一些銀行為了向評估風(fēng)險(xiǎn)以及經(jīng)營預(yù)測等方面的工作提供幫助,還專門成立數(shù)據(jù)挖掘部門。例如,美國一家著名銀行利用數(shù)據(jù)挖掘技術(shù)對銀行客戶消費(fèi)規(guī)律進(jìn)行分析,在對過去一段時(shí)間內(nèi)客戶需求趨勢分析的基礎(chǔ)上,對客戶今后的行為加以預(yù)測,進(jìn)而使該銀行的市場競爭優(yōu)勢有了很大程度的提升。現(xiàn)如今,在數(shù)據(jù)挖掘技術(shù)基礎(chǔ)之上所研發(fā)的實(shí)時(shí)營銷工具,可以及時(shí)將數(shù)據(jù)挖掘模型與客戶交互予以集成,不但可以將各個(gè)營銷環(huán)節(jié)進(jìn)行有效的整合,而且還能根據(jù)不同客戶的具體要求為其提供有針對性的服務(wù)。比如,客戶在對銀行的站點(diǎn)進(jìn)行訪問的過程中,相應(yīng)的系統(tǒng)將會及時(shí)地處理該客戶的訪問信息,并以最終的處理結(jié)果為依據(jù)對銀行當(dāng)前所實(shí)行的戰(zhàn)略予以適當(dāng)?shù)恼{(diào)整和完善,以便銀行所作出的經(jīng)營管理決策的科學(xué)性和準(zhǔn)確性,只有這樣才能確保客戶對銀行服務(wù)的滿意程度不斷提高。當(dāng)前在銀行金融領(lǐng)域中,數(shù)據(jù)挖掘相關(guān)技術(shù)發(fā)揮越來越重要的作用。
商業(yè)智能(BI,Business Intelligence)最早由Gartner Group的Howard Dresner在1989年首次提出,在我國由于各種原因,信息管理系統(tǒng)的發(fā)展處于初級的數(shù)據(jù)處理階段,雖然如此,我國的技術(shù)人員可以通過一定的技術(shù)研究,利用現(xiàn)有的資源和力量,開發(fā)多種適合于本企業(yè)或本行業(yè)的管理信息系統(tǒng),這對于部分企業(yè)或者部門都是非常有必要的。近年來,我國國內(nèi)也正在對于基于.NET的數(shù)據(jù)挖掘開發(fā)進(jìn)行大量的研究工作,崔艷在其研究中介紹了ASP的概述、特點(diǎn)和編程中的對象和內(nèi)置控件、ASP網(wǎng)頁的結(jié)構(gòu)和運(yùn)行環(huán)境論述了ASP訪問WEB數(shù)據(jù)庫的原理和實(shí)現(xiàn)步驟,并結(jié)合例子說明ASP如何使用MYSQL數(shù)據(jù)庫。劉麗娟在其研究中認(rèn)為為了適應(yīng)電子商務(wù)的發(fā)展要求,數(shù)據(jù)挖掘應(yīng)該不斷的發(fā)展,并且與其他的技術(shù)兼容性應(yīng)該提高,接下來其對數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用進(jìn)行了探討。童慧認(rèn)為Web挖掘包括了Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用挖掘三個(gè)研究方向。每一種挖掘都有其特定的意義,文中專門指出了Web使用挖掘的體系結(jié)構(gòu)及其技術(shù),并介紹了它們在個(gè)性化站點(diǎn)中的應(yīng)用情況。而且,目前中國權(quán)威的計(jì)算機(jī)信息賽迪網(wǎng)也發(fā)布了基于空間數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù),一種新的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)也出現(xiàn)在人們的視野中。該系統(tǒng)的基本結(jié)構(gòu)與一般數(shù)據(jù)挖掘系統(tǒng)相同,僅在數(shù)據(jù)挖掘和數(shù)據(jù)管理中增加了有關(guān)空間信息的抽取、空間數(shù)據(jù)管理和空間分析的功能,并建立了一個(gè)人機(jī)接口處理用戶的指令和顯示挖掘結(jié)果。而要實(shí)現(xiàn)了一個(gè)基于Oracle Spatial的分布式空間數(shù)據(jù)挖掘原型系統(tǒng),至少要包括五個(gè)部分。(1)圖形用戶界面:用于進(jìn)行交互式的挖掘并顯示挖掘結(jié)果;(2)數(shù)據(jù)準(zhǔn)備模塊:進(jìn)行數(shù)據(jù)的選擇、預(yù)處理和轉(zhuǎn)換;(3)挖掘模塊:聚類、分類、關(guān)聯(lián)規(guī)則等空間數(shù)據(jù)挖掘功能及挖掘結(jié)果的評價(jià);(4)空間數(shù)據(jù)管理模塊:執(zhí)行數(shù)據(jù)準(zhǔn)備模塊及挖掘模塊指定的空間操作;(5)數(shù)據(jù)庫服務(wù)器:管理作為挖掘目標(biāo)的空間數(shù)據(jù)和非空間數(shù)據(jù)及概念層次庫、挖掘結(jié)果庫。
商務(wù)智能活動(dòng)在美國和歐洲比在世界上任何其他地區(qū)都要發(fā)達(dá),歐美的企業(yè)已經(jīng)認(rèn)識到商務(wù)智能的重要意義,因而對它寄予很高的期望,希望能夠通過商務(wù)智能充分利用企業(yè)以往對信息技術(shù)的投資、改善決策、提高利潤、提高運(yùn)營效率和增強(qiáng)透明度。不過,就算是在世界上商務(wù)智能最發(fā)達(dá)的這些地區(qū),企業(yè)對商務(wù)智能的部署也多是部門性的和戰(zhàn)術(shù)性的。

圖1 歐美企業(yè)商務(wù)智能投資的增長
從目前來看,基于Windows環(huán)境的開發(fā)工具已經(jīng)有很多了,但是目前還缺少一種相對高效而且成熟的開發(fā)語言,C++語言在很多的大型的復(fù)雜項(xiàng)目中仍然作為主要的開發(fā)語言在使用。在數(shù)據(jù)庫的應(yīng)用程序開發(fā)中,對數(shù)據(jù)庫進(jìn)行訪問的模塊開發(fā)具有非常重要的意義,這一部分技術(shù)主要包括了ADO、開放的數(shù)據(jù)庫連接ODBC、對象的連接與嵌入數(shù)據(jù)庫等等。上述技術(shù)中,每一種都有各自的優(yōu)點(diǎn)和特色,在實(shí)際的應(yīng)用過程中,要根據(jù)應(yīng)用程序的實(shí)際需要進(jìn)行選擇,而要做到這種程度,首先就要對上述的訪問技術(shù)有一個(gè)清晰的認(rèn)識。
一般而言,在應(yīng)用程序無需底層控制時(shí),ADO具有較為明顯的優(yōu)勢,在數(shù)據(jù)庫是AQL類型的時(shí)候,選擇ODBC技術(shù)具有一定的優(yōu)勢,在Jet數(shù)據(jù)源條件下,DAO技術(shù)效率更高。ADO技術(shù)和OLEDB技術(shù)在執(zhí)行速度方面更具有優(yōu)勢,在非關(guān)系型數(shù)據(jù)庫條件下如果需要進(jìn)行相互操作,那么就非常的合適。而Jet能夠支持兩種格式的SQL語法,其一為老SQL語法貴發(fā),而另一種則是目前新型的SQL語法規(guī)范,因而更具通用性。但是,我們也要注意,只有用戶使用ActiveX Data Objects和Jet OLEDB provider的時(shí)候,才能夠使用新的語法。我們通過使用Access程序,能夠利用DAO及時(shí)直接訪問SQL數(shù)據(jù)庫。但是,在實(shí)際的設(shè)計(jì)過程中,DAO需要根據(jù)Access的要求來建模,因此,DAO技術(shù)是連接Access數(shù)據(jù)庫最有效、最快捷的一種技術(shù)。但是,如果面臨對Access以外的數(shù)據(jù)庫進(jìn)行訪問,則會因?yàn)樯婕安煌Z法之間的轉(zhuǎn)換,而導(dǎo)致效率的降低。
隨著現(xiàn)代化信息技術(shù)的發(fā)展,社會各界對數(shù)據(jù)挖掘的關(guān)注程度越來越高,特別是有關(guān)Web數(shù)據(jù)挖掘技術(shù)的研究,更是進(jìn)一步拓展了該領(lǐng)域的研究范圍,新數(shù)據(jù)挖掘方法相繼出現(xiàn),企業(yè)信息化管理中應(yīng)用的數(shù)據(jù)挖掘技術(shù)也日益成熟。雖然當(dāng)前數(shù)據(jù)挖掘技術(shù)的發(fā)展還存在一些有待進(jìn)一步深入研究的問題,但數(shù)據(jù)挖掘技術(shù)所帶來的極大的社會及經(jīng)濟(jì)效益是無可置疑的,其在現(xiàn)代化信息社會的發(fā)展過程中起到了不可替代的重要作用。
[1]趙愛琴.數(shù)據(jù)挖掘在電信行業(yè)精確營銷中的研究與應(yīng)用[D].西南財(cái)經(jīng)大學(xué),2008-12-01.
[2]徐河杭.面向PLM的數(shù)據(jù)挖掘技術(shù)和應(yīng)用研究[D].浙江大學(xué),2010-07-01.
[3]吳常輝.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法及其在電子商務(wù)網(wǎng)站中的應(yīng)用研究[D].合肥工業(yè)大學(xué),2010-04.
[4]張紅艷.數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的研究[D].吉林大學(xué),2005-05-24.