[摘 要] 本文分析了企業信息化進程中對數據挖掘認識的幾個誤區,指出應對數據挖掘進行正確的定位,即:數據挖掘只是一個工具;數據挖掘之前必須要充分準備和了解數據;數據挖掘工具不能自動挖掘出所需要的信息,需有專家的指導;數據挖掘的結果不可預期,在應用時要面向客戶,講求實際;數據挖掘只是商業智能過程中的一部分,只有將其與數據倉庫、在線分析處理融合在一起,才能構成完整的企業決策分析環境。
[關鍵詞] 數據挖掘;企業信息化;認識誤區
[中圖分類號]F270.7;TP311.13[文獻標識碼]A[文章編號]1673-0194(2008)19-0077-03
一、引 言
企業信息化指的是信息技術在企業各個運作流程中的有機應用,這些流程包括物流、資金流、信息流、技術流、客戶流等。我國企業信息化已經歷了3個發展階段:第一階段是辦公自動化(OA),涌現和積累了大量的電子文檔;第二階段是建立了管理信息系統(MIS),標志著數據庫和網絡的應用;第三階段是企業資源計劃(ERP)的實施,它意味著企業業務流程的重組和自動化。隨著科學決策在企業的廣泛應用以及企業適應能力和靈敏度的提高,數據挖掘和企業智能將是今后企業信息化建設的重點。數據挖掘是一個新興的技術領域,它匯聚了數據庫、人工智能、統計學、可視化、并行計算等不同學科,近年來受到各界的廣泛關注。現代的企業日常搜集了大量資料,包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是信息的超載與無結構化,使得企業決策單位無法有效利用現存的信息,甚至使決策行為產生混亂與誤用。妥善地運用數據挖掘技術,從巨量的數據庫中發掘出不同的信息與知識供決策支持所用,必能產生企業的競爭優勢。但是,許多企業在信息化進程中對數據挖掘還存在一定的認識誤區,對其角色定位還不甚清晰,這直接影響了數據挖掘技術的應用效果。
二、數據挖掘在企業信息化中的應用現狀
數據挖掘在企業中的應用方式目前主要集中在市場推廣方面,如客戶特征、購物關聯分析及客戶關系管理。世界范圍內具有創新性的公司都開始采用數據挖掘技術來判斷哪些是他們最有價值的客戶,并重新制定產品推廣策略,即把產品推廣給最需要的人,以用最小的花費得到最好的銷售。在客戶特征方面,數據挖掘可以從現有客戶數據中找出他們的特征,再利用這些特征到潛在客戶數據庫里去篩選出可能成為客戶的名單,行銷人員就可以只針對這些名單寄發廣告數據,以降低成本,提高行銷的成功率;購物關聯分析主要是用來幫助零售業者了解客戶的消費行為,利用數據挖掘,零售業者可以更有效地決定進貨量或庫存量,或是如何擺設貨品,同時也可以用來評估促銷活動的成效;在客戶關系管理中,利用數據挖掘可以由原客戶后來卻轉成競爭對手的客戶群中,分析其特征,再根據分析結果到現有客戶資料中找出可能轉向的客戶,然后設計一些方法預防客戶流失[1]。此外,數據挖掘還可以對銷售數據進行深層次的分析,采掘隱含在數據中的有用信息,發現和把握新的市場機會,為企業的管理決策提供科學的依據。
可見,數據挖掘主要用于企業的決策支持、客戶關系管理、市場分析、營銷策略和趨勢預測等方面,它可以提供比較可靠的依據,使企業的決策走向科學化,而不再單純依賴經驗,應用的行業包括金融業、電信業、零售商、直效行銷、制造業、醫療保健及制藥業等。在我國,許多企業如電信公司、銀行等開始向數據挖掘的方向走,但由于剛起步,許多企業對數據挖掘的認識還存在誤區,對它的角色定位還不夠準確。
三、企業信息化進程中對數據挖掘的認識誤區
1. 數據挖掘可以解決企業中所有的商業信息問題
事實上,數據挖掘并非能解決企業中所有的商業信息問題,數據挖掘僅是一個工具,在挖掘信息之前仍然需要了解企業的業務,理解企業的數據,弄清分析方法。數據挖掘只是幫助企業更深入、更容易地分析數據,它無法告訴你某個模型對企業的實際價值。因此,提及數據挖掘,企業應首先考慮用數據挖掘解決什么樣的商業問題,是進行客戶群體劃分、背景分析、交叉銷售,還是客戶流失性分析、客戶信用記分、欺詐發現等,不同的商業問題,需要用不同的方法去解決。要想真正作好數據挖掘,數據挖掘工具只是其中的一個方面,沒有哪一種數據挖掘的工具可以應付所有的要求。所以,進行數據挖掘首先要考慮的是,準確地定義所要解決的商業問題。
2. 不需要對數據進行準備和了解,就能得到好的數據挖掘結果
與傳統的統計分析相比,數據挖掘的確不用專門進行實驗設計和調查設計,不用為確定的目的準備大量的數據,因為在進行數據挖掘之前已有數據庫,其目的也是不確定的。作為一種先進的數據信息處理技術,數據挖掘與傳統的數據分析的本質區別在于它是數據關系的一個探索過程,而且多數情況下是在沒有任何假設和前提的條件下完成的。就現實來看,經過幾年的信息化建設,許多大中型企業已經建立了比較完善的客戶關系管理(CRM)、ERP、OA等基礎信息化系統,這種大集中系統已為數據挖掘準備了較為成熟的條件。但直接從數據庫中截取的數據往往是冗余的、缺失的、有噪聲的,從而直接影響數據挖掘的效果。輸入數據庫中的異常數據、不相關的字段或互相沖突的字段、數據的編碼方式等,都會對數據挖掘輸出結果的質量產生影響。數據挖掘最后成功與失敗,是否有經濟效益,數據準備起到了至關重要的作用。從原始數據轉化為挖掘信息的流程如圖1所示。

由圖1可見,在進行數據挖掘之前,必須要做煩瑣但卻十分重要的數據清洗和預處理工作,包括去掉冗余、彌補缺失值、消除噪聲等,進而集成、存儲數據,以充分了解數據,保證數據挖掘結果的價值。
3. 只要有了數據挖掘工具,就能自動挖掘出所需要的信息
這是人們常有的一個認識誤區。數據挖掘利用了統計和人工智能技術的應用程序,它把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。雖然如此,人們仍然需要知道所選用的數據挖掘工具是如何工作的。換句話說,數據挖掘永遠不會替代有經驗的商業分析師或管理人員所起的作用,它只是提供一個強大的工具,數據挖掘決不會在缺乏指導的情況下自動地發現模型[2]。數據挖掘工具要做的就是使這些模型得到的更容易、更方便,而且有根據。比如客戶關系管理,不是只設一個客服專線,更不僅僅是把一堆客戶基本數據輸入計算機,一個完整的客戶關系管理運作機制在相關的硬軟件系統功能健全的支持之前,要有大量的數據準備工作與分析過程推動。
邁克爾·J·A·貝里和戈登·S·利諾夫指出,通過4種有效途徑可以實現數據挖掘技術在企業中的專業化應用,即:從企業外的制造商處購買與企業商業問題配套的評分機制,購買實施整體解決方案的數據挖掘軟件,針對特定問題聘請外部專家完成預測模型的建立,以及在組織內部掌握數據挖掘技能[3]。他們認為,從公司長遠發展考慮,最后一種方法應作為企業首選,因為這將促使企業把數據挖掘視為企業的法寶,并通過它將客戶關系管理推向企業戰略的核心。鑒于此,一個企業想要在未來的市場中具有競爭力,必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工作,再同其他部門協調,把挖掘出來的信息提供給決策者參考。但國內的企業還很少有決策人員認識到這一點。如果管理者沒有這方面的意識,數據挖掘就很難發揮其應有的作用,且很容易走向兩個極端:一是認為數據挖掘沒有用處,二是認為數據挖掘是萬能的,而得到的結果往往與初始期望相去甚遠。
4. 企業開發、運用數據挖掘的結果是可以預期的
這也是企業界對數據挖掘認識上的一個慣常誤區。實際上,企業界運用數據挖掘要受許多因素的影響,例如,不充足的教育訓練、不適當的支持工具、數據的無效性、過于豐富的模型、多變與具有時間性的數據、空間導向數據、數據的衡量性等。面對易變的環境,沒有立刻能用的現成的模型。數據挖掘的本質是發現非預期的模式,同樣,非預期的模式要以非預期的方法來發現,更不能期望按照程序即能成功。因此,要分析一些潛在的因素,如數據取舍、實體關系性、數量多寡、復雜性、數據質量、可取得性、專家意見等因素,才能做好挖掘工作。此外,所有通過數據挖掘發現的知識都是相對的,是有特定前提和約束條件且面向特定領域的。對于數據挖掘而言,需求牽引、市場驅動是永恒的,而對于企業應用數據挖掘而言,面向客戶、講求實際才是最主要的。
5. 數據挖掘是企業商業智能的核心
簡而言之,商業智能是能夠幫助用戶對自身業務經營作出正確明智決定的工具。不可否認,數據挖掘可以增加企業智慧,提升企業競爭優勢,是企業走向智能化的重要組成部分。但是一個完整的知識挖掘過程牽涉大量的規劃與準備,包括理解數據、融合與核查資料、去除錯誤或不一致的數據、發展模式與假設、實際數據挖掘工作、測試與審核所挖掘的數據、解釋與使用數據等,從這個角度看,數據挖掘只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。
從技術層面來看,商業智能的技術體系包括數據倉庫、在線分析處理(OLAP)以及數據挖掘3部分。所謂數據倉庫就是面向主題的、集成的、穩定的、不同時間的數據集合,它提供在線分析處理或數據挖掘所需要的、整齊一致的數據,用以支持經營管理中的決策制定過程。OLAP則是幫助分析人員、管理人員多種角度地把從原始數據中轉化出來、能夠真正為用戶所理解的、并真實反映數據特性的信息,進行快速、一致、交互的訪問,從而獲得對數據更深入了解的一類軟件技術[4]。而數據挖掘是一種決策支持過程,通過高度自動化地分析企業原有的數據,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,作出正確的決策[5]。這三者的關系如圖2所示。

由圖2可以看出,數據倉庫是商業智能的基礎,它是一個環境,主要提供用于決策支持的當前和歷史的數據;OLAP屬于數據倉庫應用,它以數據倉庫為基礎,其分析結果可以為數據挖掘提供分析信息,作為挖掘的依據;數據挖掘則可以拓展OLAP的深度,可以發現OLAP所不能發現的更為復雜細致的信息。可見,只有將數據挖掘與OLAP、數據倉庫結合起來,才能使企業的許多業務流程實現智能化運作。離開了數據倉庫和OLAP,商業智能無從實現,因此,數據挖掘、OLAP與數據倉庫均是企業商業智能的核心技術。
四、結 論
綜上所述,從數據中尋找知識、挖掘財富、發現決策依據,這是數據挖掘對企業的直接貢獻,也是企業信息化的重要體現。但在開發、運用數據挖掘的過程中,應充分認識數據挖掘的本質及局限性,正確地對其進行定位,才能真正發揮數據挖掘的決策支持作用,體現其在企業信息化中的價值。首先,數據挖掘僅僅是一個工具,它不能包羅萬象,解決所有的商業信息問題,企業應首先明確用數據挖掘解決什么樣的商業問題,同時還需要對企業業務的深入了解和數據分析經驗;其次,為了保證數據挖掘結果的價值,必須要了解數據,保證數據的質量,數據挖掘最后成功與失敗,數據準備起到至關重要的作用;再次,數據挖掘工具并非能自動挖掘出所需要的信息,也不會在缺乏指導的情況下自動地發現模型,還必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工作;然后,企業在應用數據挖掘時要受許多因素的影響,故其結果并不是可以預期的,面對易變的環境,企業要分析一些潛在的因素,面向客戶、講求實際;最后,數據挖掘雖然是企業走向智能化的重要組成部分,可以說數據挖掘是目前企業信息化的高級境界,但不能說數據挖掘就是商業智能的核心所在,一個完整的知識挖掘過程牽涉大量的規劃與準備,實際的數據挖掘只是較大規模商業智能過程中的一部分,只有將其與數據倉庫、在線分析處理融合在一起,才能構成完整的企業決策分析環境。
主要參考文獻
[1] 謝邦昌. 數據挖掘與統計工作報告[EB/OL]. http://www. bjstats. gov. cn, 2002-04-28.
[2] 邵峰晶, 于忠清. 數據挖掘原理與算法[M]. 北京: 中國水利水電出版社, 2003:3-4.
[3] [美]邁克爾·J·A·貝里,戈登·S·利諾夫. 數據挖掘——客戶關系管理的科學與藝術[M]. 袁衛 等譯. 北京: 中國財政經濟出版社,2004:15-16.
[4] 夏火松. 數據倉庫與數據挖掘技術[M]. 北京: 科學出版社,2004:3-4,90-91.
[5] 柳炳祥,徐遠純. 數據挖掘在企業危機管理中的應用[J]. 科學學與科學技術管理,2002(6):78-80.