〔摘 要〕簡述了企業競爭情報系統與數據挖掘的概念,構建了基于數據挖掘技術的企業競爭情報系統,分別描述了系統的實施要素、整體架構與集成,以及情報規劃、情報收集、情報處理、情報分析、情報評審、情報服務六大系統的主要功能模塊,并且闡述了系統的主要優勢。
〔關鍵詞〕數據挖掘;企業競爭情報;情報系統
〔中圖分類號〕G350 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)02-0185-04
Research on Enterprise Competitive Intelligence
System Based on Data MiningWang Song
(Department of Information Management,Nanjing University,Nanjing 210093,China)
〔Abstract〕With the concepts of enterprise competitive intelligence and data mining,the enterprise competitive intelligence system based on data mining has been structured.The paper gave the enforcement elements,integrated structural frame and six main functional modules,including intelligence programming,intelligence collection,intelligence analysis,intelligence judgment and intelligence service.In the end,the main superiorities of the system have been stated.
〔Key words〕data mining;enterprise competitive intelligence;intelligence system
企業競爭情報系統(Enterprise Competitive Intelligence System,簡稱ECIS),是依托企業電子化信息環境,全面整合現有技術和信息資源,在收集加工競爭情報的基礎上,為企業建立強大的情報中心提供有力支持的人員、設備、組織和流程架構,以獲取競爭優勢的管理咨詢和信息服務的人機系統和體系。
數據挖掘(Data Mining,簡稱DM)是指從大型數據庫或數據倉庫中的大量數據中提取輔助決策的關鍵性知識,這些知識是隱含的、未知的、非平凡的及潛在有用的信息或模式,其目的是為了提高市場決策能力、環境監視、風險預警、在經驗模型基礎上預測未來趨勢等,把握行業結構的進化,跟蹤正在出現的連續性和非連續性變化,以及分析現有和潛在競爭對手的能力和方向,從而幫助企業贏得競爭優勢。
隨著信息技術的發展,企業競爭情報工作者面對的現實是信息源紛繁復雜,數據結構多種多樣,數據量海量增長,分析這些結構化、半結構化甚至非結構化的數量龐大的數字信息的難度也在增加。數據挖掘是一種從海量數據中提取有用信息和知識的新興技術,所以可行有效的方法是利用數據挖掘等先進的技術對這些海量數據和信息進行智能地采集、分析和處理。目前國內文獻對于基于DM的ECIS的典型研究有:朱永武(2005)[1]、蒲群瑩(2005)[2]在給出了數據挖掘概念和一般過程的基礎之上,提出了一個基于數據挖掘的企業競爭情報系統模型;閆曉妍(2007)[3]從數據挖掘的含義和一般過程入手,分析了數據挖掘的相關技術及數據挖掘在企業競爭情報系統中的應用,重點探討如何構建基于數據挖掘技術的企業競爭情報系統。本文將重點介紹基于數據挖掘技術的企業競爭情報系統的整體架構、主要功能模塊及其顯著優勢。
1 系統的構建
1.1 系統的實施要素
系統實施的主要支持要素見表1:

1.2 系統的整體架構

1.3 系統的集成
各數據庫與數據倉庫經過合并、修改與重構以達到各庫之間的集成。庫的合并過程中主要解決屬性、命名、結構等沖突,修改與重構過程主要消除不必要的冗余。整個系統借助數據庫與數據倉庫的有效協作,有效地支持企業的競爭情報分析。另外,操作型數據與分析型數據之間差別甚大,數據倉庫的數據是從原有的分散的數據庫中抽取來的,因此在數據進入數據倉庫之前,必然要經過加工與集成,統一與綜合,統一原數據中所有矛盾之處,將原始數據結構作為一個從面向應用到面向主題的大轉變。
2 系統功能模塊
2.1 情報規劃模塊
情報規劃是競爭情報中心主管根據企業決策中心的情報需求,設定情報工作的目標,確立情報任務,根據信息質量評估和以往工作檢驗初步劃定信息搜索的范圍、途徑等。情報規劃子系統根據關鍵情報課題/關鍵情報問題(KIT/KIQ)競爭情報模型,實現情報人員通過系統直接提出情報需求,對情報需求進行管理和分析,以及對關鍵情報課題用項目管理的形式進行統一管理。企業競爭情報的獲取可以來自于企業外部網絡信息,如企業門戶網站、行業網站、競爭對手網站、Web服務器日志文件等;也可以來自于企業內部,如以企業的MIS、ERP等信息系統為中心,企業日常業務積累的數據信息形成的關系型數據庫、文檔數據庫等;還可以來自于媒體、報紙、雜志等。
2.2 情報收集模塊
競爭情報收集模塊的主要任務是按照連續性和系統性的原則,采用適當方式(自動化、手工或兩者結合),通過正當途徑將不同形式(報告、報表、圖形、聲音、視頻、演示文稿等)、不同來源(門戶網站、行業網站、競爭對手網站、Web服務器日志文件、企業的MIS、ERP等信息系統等)的各種公開或非公開的信息收集起來。
2.3 情報處理模塊
情報處理模塊是對收集到的原始信息進行初步處理以便于進一步分析或將處理結果直接提供給情報使用者。主要有以下3個步驟:(1)信息過濾:主要是將錄入系統的信息進行篩選,剔除明顯失真、重復以及虛假的信息。(2)信息整序:主要將無序的信息按照競爭情報需求和制定的規則進行分類、聚類,將收集的信息有序化。(3)信息加工:主要將不同類型信息按照一定的格式進行轉換,然后對已經有序化的信息進行標引,生成關鍵詞、摘要。整個情報處理過程可以人工與自動化相結合的方式進行,收集的紙質信息等可以由人工處理,直接從網絡獲取的信息可以由計算機自動處理。經過處理的信息存儲在數據倉庫中,為競爭情報分析做好基礎數據準備。
2.4 情報分析模塊

2.4.1 定義問題
模型的建立取決于問題的定義,有時相似的問題,所要求的模型幾乎完全不同。數據挖掘者要熟悉該行業的數據和業務問題,缺乏這些,就不能夠充分發揮數據挖掘的價值,很難得到正確的結果。
2.4.2 數據準備
數據準備是數據挖掘的核心。該階段包括數據集成、數據選擇與數據預處理。數據集成將多文件或多數據庫運行環境中的數據進行合并處理,解決語義模糊性處理數據中的遺漏和清洗臟數據等。數據選擇的標準包括與數據挖掘目標的相關程度等方面。預處理是為了克服目前數據挖掘工具的局限性。通常采用基于規則方法、神經網絡方法和模糊匹配技術分析多數據源之間的聯系,然后再對它們實施相應的處理。
數據庫是長期存儲在計算機內、有組織的、可共享的大量數據的集合,能夠減少數據的冗余度,節省了數據的存儲空間,并且實現數據資源的充分共享等等。數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的過程。
2.4.3 挖掘操作
數據挖掘階段可分為4個子步驟:主題確定、工具選擇、模型建立和結果評價。
數據挖掘是一個經常需要回溯的過程,因此沒有必要在數據完全準備好之后才開始進行數據挖掘。隨著時間的推移,使用的數據及其分組方式、以及數據清洗的效果等都將改變,并有可能改進整個模型。該步驟會涉及到了解研究主題的局限性,選擇待完成的良好研究主題,確定待研究的合適的數據元素,以及決定如何進行數據操作等。
選擇數據挖掘工具時要全面考慮多方面的因素:(1)工具的可視化。源數據、挖掘模型、挖掘過程、挖掘結果的可視化,可視化的程度、質量和交互的靈活性都將嚴重影響到數據挖掘系統的使用和解釋能力。(2)工具的開放性。工具應盡可能的與其他工具進行集成,減少數據轉換的時間,充分利用整個的數據和數據倉庫的處理能力。(3)操作的簡易性。工具應該為用戶提供友好的可視化操作界面和圖形化報表工具。(4)數據挖掘的功能和方法。工具應該能夠為每個步驟提供相應的功能集以及方便的導出挖掘的模型。(5)數據挖掘的可伸縮性。工具應該可以處理盡可能大的數據量,盡可能多的數據類型,盡可能高的提高處理的效率。
確定要輸入的數據后,通過數據挖掘工具讀人數據并從中構造出模型,不同的數據挖掘工具構造出的數據模型也會有很大差別。利用數據挖掘工具在數據中查找時,可以由系統自動執行,自底向上搜索原始事實以發現它們之間的某種聯系,也可以加入用戶交互過程,由分析人員主動發問,從上到下地找尋以驗證假設的正確性。對數據挖掘的搜索過程需要反復多次,通過評價數據挖掘結果以不斷調整數據挖掘的精度,以達到發現知識的目的。
通過反復多次的數據挖掘搜索過程,評價數據挖掘結果滿足業務目標的程度,找到模型在業務上的不足,不斷調整數據挖掘的精度,達到發現知識的目的。同時,根據最終用戶的決策目的對數據挖掘發現的模式進行評價,消減其中重復的部分,將有用的模式或描述有用的模式的數據以可視化技術和知識表示展示給用戶,讓用戶能夠評價模式的有效性,并對模式結果做出解釋。
2.4.4 解析預測
對結果進行表述和解釋,根據最終用戶的決策目標對提取的信息進行分析,把最有價值的信息進行區分出來,并且通過決策支持工具提交給決策者。通過時間序列等方法對企業競爭情報、宏觀環境、行業環境等進行預測分析。
2.5 情報評審模塊
評審工作應該貫穿整個競爭情報工作,如對信源的評價、對收集到的資料評價和審查等。信息的不對稱性、競爭情報的高度保密性、反情報工作的開展、競爭對手發布虛假信息等,都要求對競爭情報的評審。
2.6 情報服務模塊
競爭情報服務模塊是根據企業高層決策者和各部門管理者的情報需求,動態地提供情報產品和情報服務,以支持企業戰略決策,并為企業戰略執行提供即時的信息反饋。情報人員在提供服務時要考慮情報用戶的特殊背景和需要,及時地將不同的情報準確地傳遞給所需用戶。情報產品設計時要根據決策者喜好或產品的內容選擇合適的競爭情報形式。該模塊又可細分為:(1)用戶定制子模塊,為由用戶根據自己的競爭情報需求向系統提出服務的入口。(2)情報服務子模塊,該模塊包括兩部分:最終展現給用戶的信息平臺和滿足不同用戶不同需求的各種情報發送模塊。呈現給用戶的情報服務平臺是將所有加工整序后的情報按照不同情報主題發布給用戶,在該平臺下用戶可以根據關鍵詞和主題等不同檢索方式進行檢索。情報發送模塊是根據用戶的定制服務類型來向用戶推送情報服務的。
3 系統主要優勢
3.1 資源整合與系統集成
傳統的競爭情報系統一般按功能分為許多功能模塊,信息的共享范圍與反應速度一般。而基于數據挖掘的競爭情報系統,采用數據倉庫技術來組織管理數據,能完整一致地刻畫各個分析對象所涉及的企業各項數據,對提取出來的數據進行集成,從而將企業內外部各種信息聯結在一起,最大限度地實現信息共享和速度提高?;跀祿诰虻南到y,決策人員無需對決策系統有深刻的理解,也不需要深入學習數據倉庫、數據挖掘等相關知識。而專業人員則可以通過TCP/IP協議隨時訪問有關的服務器,對系統進行管理、維護、擴展等。
3.2 數據挖掘與信息服務
系統可以對企業海量數據進行處理,面向主題的數據組織方式可在較高層次上對分析對象的數據給出完整、一致的描述,能完整、統一的刻畫各個分析對象所涉及的企業各項數據以及數據之間的聯系,從而適應企業各個部門的業務活動特點和企業數據的動態特征,從根本上實現數據與應用的分離。數據挖掘使信息的自動處理不再局限于對結構化數據和字符型數據的處理,還提供了更加科學的分析方法,如決策樹、貝葉斯分類、基于關聯的分類等,使分類結果更加具有針對性和科學性。
數據挖掘的應用拓寬了信息服務范圍,增加了信息服務項目,使信息服務變得更加主動,使服務質量大大提高。例如,定題情報服務方式將由傳統的、檢索式的服務方式轉變為通過互聯網主動地把從浩瀚的網絡資源和數據庫中自動挖掘獲得的信息或知識推送給用戶的服務方式。
3.3 情報分析與趨勢預測
過去的競爭情報主要依賴于對顯性知識的分析,而傳統方法與數據挖掘的結合,能夠使隱性知識浮現出來,確保情報收集更加全面、數據分析更有說服力。數據挖掘的出現大大加強了信息分析能力,其中的分類、聚類、綜合以及關聯分析等技術使信息分析更加完備和豐富,為企業決策提供了強有力的工具。
數據挖掘以數據倉庫和多維數據庫中的數據為基礎,發現數據中的潛在模式并進行預測。一般的數據庫為了提高系統的效率,往往盡可能少地保留歷史信息。而數據倉庫具有一個重要的特征,就是一般具有長時間的歷史數據存儲。存儲長時間歷史數據的目的就是進行數據長期趨勢的分析,預測未來一段時間內的庫存量變化,實現前瞻性調撥,增強適應突發因素的能力,為決策者的長期決策行為提供有力的數據支持。
4 結束語
本文將數據挖掘技術引入競爭情報系統,與傳統的競爭情報系統相比,使其知識提取更詳實、
有效,其分析結果實用性更強,同時由于數據挖掘方法較多,系統開發更加方便。整體而言,數據挖掘技術對企業情報系統的建立有重要的借鑒意義。
參考文獻
[1]朱永武.基于數據挖掘的企業競爭情報系統[J].現代情報,2005,(6):168-170.
[2]蒲群瑩.基于數據挖掘硇競爭情報系統模型[J].情報雜志,2005,(5):38-40.
[3]閆曉妍.基于數據挖掘技術的企業智能競爭情報系統研究[J].現代情報,2007,(11):187-189.
[4]包昌火,謝新洲.企業競爭情報系統[M].北京:華夏出版社,2002.
[5]孫新寧,楊建林,江念南,等.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.