[摘 要] 中石油ERP不具備高級決策和數據分析的功能,本文對此進行了數據挖掘技術在中石油ERP中的應用研究。對數據挖掘概念和方法進行介紹,結合在中石油ERP中的應用領域等進行研究,并且引用中石油ERP數據庫的銷售量進行數據挖掘預測。
[關鍵詞]數據挖掘;中石油;ERP;預測
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2010 . 17. 024
[中圖分類號]F270.7;TP315 [文獻標識碼]A [文章編號]1673 - 0194(2010)17 - 0057 - 03
隨著信息技術的發展,企業的數據量越來越大,但其中真正有價值的信息量卻很少,這里的價值主要是指對企業決策者產生的作用和為企業效益帶來的價值。數據挖掘技術(Data Mining,DM)可以從企業收集的大量數據中經過深層分析,獲得有利于企業運作、提高競爭力的信息。數據挖掘是一種新型的企業信息處理技術,它可以按照企業的業務目標,對大量的企業數據進行探索和分析,揭示其中隱藏的、未知的或驗證已知的規律性,并進一步將其模型化,然后將分析結果用于管理決策,提高企業的競爭力。
由于ERP本身功能的缺陷,只能提供基本的數據保存和查詢,缺少高層次的數據分析手段和決策能力,這就使得數據挖掘技術在ERP中有了較大的用武之地。中國加入WTO后,中石油公司面臨的挑戰越來越多,石油能源行業競爭也越來越激烈,使得公司必須重視數據挖掘技術,為公司發展戰略的制定提供參考。
1 中石油ERP
企業資源計劃(Enterprise ResourcePlanning, ERP)是建立在信息技術基礎上,利用現代企業的先進管理思想,全面集成企業所有資源信息,為企業提供決策、計劃、控制與經營業績評估的全方位和系統化的管理平臺。ERP涉及企業的生產控制、物流管理和財務管理等各個方面。
中國石油天然氣股份有限公司經過多年的努力,公司的信息基礎設施建設已經粗具規模,在勘探、開發、科研等方面,計算機裝備和應用水平處于國內領先地位。公司高層早已認識到了信息技術未來的發展趨勢,企業會計信息系統逐步從核算型過渡到財務管理型,適應集團公司的管理模式,具有財務分析和領導決策功能,覆蓋整個財務、資產工作范圍,成為ERP和電子商務系統的核心系統[1]。
但是在中石油ERP運行當中,隨著ERP系統積累的數據不斷增加,數據管理相對落后的問題已日益凸現。傳統的數據分析方法(如查詢、報表)已無法快速、有效地從大量數據中獲取所需的數據,中石油ERP系統自身也缺乏高層次的數據分析手段,只能提供較為簡單的記錄查詢,公司管理決策者更需要從龐大的業務數據中獲取隱藏的知識,這就使得數據挖掘技術在中石油ERP的數據分析中有廣泛的應用空間。
2 數據挖掘
2.1 數據挖掘的概念
數據挖掘技術是面向實際應用的。但是實現數據挖掘需要高級的數據處理技術,因此,它的定義有兩個方面,即技術性定義和商業性定義[2]。
技術性定義:數據挖掘指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道但又潛在有用的信息和知識的過程。
商業性定義:數據挖掘指一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性知識。
不論是哪種定義,從本質上來說,數據挖掘都是一類深層次的數據分析方法。
2.2數據挖掘步驟
作為一個復雜的處理過程,數據挖掘涉及多個處理步驟。Usama Fayyad等人定義了一個數據挖掘處理模型,如圖1所示,這也是數據挖掘的一般處理步驟。
(1)選取目標數據集合。在數據庫中選擇值得關注的數據集合。
(2)數據的整理與預處理。包括一些基本的操作,比如噪聲消除和空值處理。現實數據經常無法保證數據的完整性和一致性,所以在數據挖掘前需要對數據進行整理。
(3)數據合并。包括合并不同類型、不同來源的數據源。
(4)數據縮減。對數據進行降維、轉化等再處理,通過投影或數據庫中的其他操作減少數據量及需要考慮的變量的個數。
(5)確定數據挖掘的功能。確定由數據挖掘算法產生的模型的目的(如歸納,分類,回歸,聚類,關聯規則,或它們的組合)。
(6)選擇數據挖掘的算法。選擇要達到數據挖掘目的所需要的合理的算法,包括選取合適模型和參數。
(7)數據挖掘。利用選定的數據挖掘算法,從數據中提取出用戶感興趣的知識并進行計算。
(8)解釋和評價。對發現的模式進行解釋,剔除冗余、無關的知識,對發現的知識進行檢驗評價,將這些知識轉變為用戶可以理解的形式。
(9)使用發現的知識。將知識合并成可操作的系統,并基于這些知識采取相應的措施。
3 數據挖掘方法在中石油ERP中的應用
“數據挖掘包含了一系列旨在從數據集中發現有用但是尚未發現的模式(Pattern)的技術”[3]。確切地說,數據挖掘是一種知識發現的過程,它主要基于統計學、人工智能、機器學習等技術,高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,并對未來情況進行預測,以輔助決策者評估風險、做出正確的決策[4]。
數據挖掘方法在中石油ERP中的主要應用有以下方面:
3.1關聯分析
中石油ERP數據庫中數據之間可能存在著某種關聯關系,也就是變量之間可能存在著某種規律。關聯分析就是通過統計和分析數據集中各個數據項或屬性出現的頻率,發現數據項或屬性之間的關聯,最終找出不同項目之間的對應關聯關系。
(1)趨勢分析。在趨勢分析中,基于時間序列的數據,一是分析長時間的走向,就是在很長一段時間內部的走向趨勢,可以用一條趨勢曲線或者趨勢直線來顯示;二是分析周期的走向與周期的變化。例如中石油油氣銷售量的變化可以通過某種方法進行預測。
(2)關聯規則。用于找出給定數據集中數據項之間的關聯或相關關系。例如工程技術服務中鉆井施工成本與地質、天氣、施工人員素質、轉速等哪一項關聯度最大(采用一定的方法量化指標后)。
(3)序列模式。類似于關聯規則,但是序列分析的重點更側重于數據之間前后關系的挖掘,也就是序列模型是基于時間或期貨序列(如事件)推出的經常發生的模式。例如用于公司客戶購買行為模式預測。
3.2分類分析
分類分析就是從訓練數據集中發現同類數據對象的共同屬性,分析數據的各個屬性和所屬類之間的內在聯系,建立類的判別模型,通過這個模型,未分類的或新的樣本點就可以分派到不同的類別中。例如公司的煉化企業有大慶石化分公司、吉林石化分公司、撫順石化分公司、遼陽石化分公司、蘭州石化分公司、烏魯木齊石化分公司、寧夏石化分公司、獨山子石油化工總廠、大慶煉化分公司、吉林燃料乙醇有限責任公司、華北石化分公司等幾十個,可以用分類分析將這些煉化公司按經營業績分類,也可以按企業財務狀況、利潤率進行分類。方法有:
(1)人工神經網絡。人工神經網絡(Artificial Neural Network,ANN)是由大量的被稱為神經元的節點構成的系統。一般由輸入神經元、輸出神經元、隱含神經元構成。
(2)支持向量機。支持向量機(Support Vector Machine,SVM)是基于統計學習理論的新一代機器學習技術。使用結構風險最小化原則代替經驗風險最小化原則,使它較好解決了小樣本情況下的學習問題。
(3)決策樹。通過一系列規則對數據進行分類的過程。
3.3聚類分析
聚類(cluster)就是通過分析某個數據集,將數據集合按照相似性歸為若干類,使得同一組中的數據彼此相似,不同類間的數據盡可能不同,從而實現歸類的目的。主要有K-means算法和層次聚類。例如運用層次分析法對公司ERP數據庫中的開采出的原油質量數據進行聚類分析,有助于更好地管理優質油田。
4 數據挖掘在中石油ERP中的應用實例
通過對中石油ERP系統數據庫的查詢,得到2005-2009年中石油營業額(見表1),利用數據挖掘進行未來3年的營業額預測。
檢驗結果表明模型預測精度較高,這說明單變量灰色預測在中石油銷售量預測中是可行的,其分析結果對于石油銷售策略的制定、市場劃分、目標客戶群的確定有一定的參考價值。
5 結 語
當前市場競爭越來越強,要想在市場競爭中求生存、求發展,企業只有加快信息化建設,采用先進的、科學的管理模式,以適應新的競爭形勢的要求。在中石油企業管理中, ERP占有極其重要的地位,企業決策的智能化、系統化是未來企業管理發展的重要趨勢。數據挖掘技術能為企業管理提供智能化的分析工具。
主要參考文獻
[1]唐瀟霖. 中石油的ERP困境[J]. 互聯網周刊, 2002(38).
[2]李波,王謙. 物流信息系統[M]. 北京:清華大學出版社, 2008.
[3]袁林. 基于數據倉庫的輔助決策系統設計與實現[J]. 電力系統自動化, 2001,25(21).
[4]張景濤.基于多智能主體的煉化企業ERP系統應用研究[D].天津:天津大學, 2004.