李 淑,王 鵬,郭怡曉,安 靜,毛 娜
(1.新疆油田重油開發公司,新疆 克拉瑪依 834000;2.新疆油田公司數據公司,新疆 克拉瑪依 834000)
油田企業在生產過程會產生大量的數據信息,如何將大量的數據信息進行有效整合并運用在企業生產和決策當中,已經成為油田企業運用數據挖掘技術所要解決的重要難點問題。
數據挖掘是利用計算機算法來對大數據進行數據的篩選、轉換、挖掘等操作后,將收集的信息數據轉化為有效信息。但數據挖掘操作過程并不需要收集和處理數據,只需要對結構化、半結構化、非結構化的數據進行準備、挖掘、結果分析。在數據準備階段,通過對數據源進行數據選擇和篩選后,在數據挖掘階段,對轉換的數據進行結果分析和模式評估,最終獲取有效的信息數據。
數據挖掘技術主要具備以下四大特征:第一,雖然數據挖掘技術能夠提供數量龐大且真實的數據信息,但是數據源及數據內容具有不確定性;第二,通過篩選、轉換、挖掘、結果分析后的數據運用在油田企業商業領域的價值具有相對性;第三,油田企業在生產過程中采用數據挖掘技術的目的是滿足客戶需要,并將客戶的需要作為企業數據提取和挖掘的主要關注對象;第四,挖掘和處理后的數據信息不僅具備有效性,同時更容易被客戶接受,并將挖掘和處理后的數據信息用于指導企業的生產和活動。
基于數據挖掘技術的專項數據庫內的數據較為廣泛,其運用需求也非常多樣化,檢索需求也更為復雜,以往的數據庫結構缺乏較高的靈活性來滿足此種較為繁復的使用需求。因此,油田企業需要切實從用戶層面來解析與規劃數據庫的體系結構,依據數據庫的使用需求來確認解析的主題和各項指標,數據正式在數據庫存儲之前,需要經過數據抽取、轉化等有序的處理流程。之后,再挑選相對適宜的存儲模型,開展有效的組織,將數據存儲于數據庫之中,從而在其中解析挖掘具有價值的信息,為企業決策提供數據信息支持。
通常而言,基于數據挖掘技術的數據庫體系結構可規劃出3 個相對獨立的數據層級,包括信息收集層、數據管控層與應用服務層。文章所提出的油田生產決策支持系統是由數據源層、數據收集層、數據管控層、數據解析層與數據展示層5 個層級所組成的體系結構。
數據源層主要存放油田生產過程中的大批量數據與解析決策階段所需的外部數據。數據收集層從數據源層中抽取解析決策所需要的有關信息,之后將精準化處理與解析之后的數據集合到油田生產專項數據庫之中。借助數據管控層對數據庫之中的數據與數據源進行有效的存儲與管控,依據多樣化的運用需求來創建有效的集中管控分組。結合相應主題的數據集,數據解析層開展線上解析處理與數據挖掘工作,以實現數據的多層級解析與挖掘。之后利用數據挖掘工具將從數據庫中挖掘的信息傳入專家系統的專項庫中,有效借助知識推理,實現定性解析輔助決策;而模型庫則可以實現眾多模型的整體化決策。最后,數據展示層將最終的解析結果以圖表的形式更為直觀地展現在決策者的面前,以幫助其更為科學地開展決策。
油田企業在生產過程中,采用數據挖掘技術必須遵循可視化操作、運用流程、信息綜合三大原則。
油田企業在生產過程中,使用數據挖掘技術是為企業各部門及企業生產提供便利、科學、高效的操作指導和幫助,為企業的生產提供更為準確的數據信息服務,這就要求其在數據挖掘技術的最終結果、挖掘模型及挖掘過程具備可視化操作原則,將各生產流程和數據信息轉變為可視化的圖像和動態數據,幫助油田企業更好地全面掌控各生產數據信息。
油田企業在生產過程中使用數據挖掘技術的基本要求,就是遵循運用流程原則。企業必須明確數據挖掘的目標并做好充分的準備,遵循運用流程原則,對數據信息進行挖掘,并將數據信息轉化為有效信息。
油田企業在生產過程中運用數據挖掘技術所要收集的信息內容具有多元化、復雜化的特征,所以不同客戶所需要的信息要求存在內容上的差距。因此,油田企業對不同客戶的信息采用數據挖掘技術時,需要遵循信息綜合原則來進行綜合性的信息處理,并對不同客戶的信息根據其特征進行分類并展開研究,對不同客戶的信息利用專門化的表格進行數據登記和整理。同時,根據石油的空間維度來對石油的分布情況和集中趨勢進行研究和掌握。從客戶角度進行數據挖掘和分析,能夠幫助單位內部各部門進行有效的規劃生產,并為決策者提供有效的信息依據,確保油田企業生產環節各項數據的公開化、透明化,以滿足客戶根據實際需要了解企業信息,以及提升油田企業的服務質量和企業社會形象的需求。
數據挖掘技術在油田企業生產中的應用,主要體現在企業信息化建設和財務分析兩個方面。
3.1.1 數據準備
將數據挖掘技術運用在信息化建設當中的首要工作,就是要明確信息化建設的目標和面臨的問題,對油田企業生產所面臨的異常現象和問題采用分類分析法和聚類分析法進行數據分析。當油田企業數據信息出現異常變化以及超注欠注等異常問題時,油田企業需要及時對出現問題的異常井和泄露井進行檢查,并根據實際的生產情況,優化和整合生產作業方案,及時對出現異常情況的井進行處理,確保油田企業的正常生產,切實提高油田企業生產的安全性與經濟性。
3.1.2 數據庫與數據模型構建
收集、存儲油田企業生產過程中所產生的一系列數據構建數據庫后,需要建立與收集信息匹配的數據模型,為下一步的數據挖掘工作做好準備。企業創建相應的數據模型用于數據挖掘工作,通過采用神經網絡、模糊聚類、統計分析、關聯規則等方法對油田企業生產過程中所產生的各類數據進行集成處理,將油田企業生產數據收集整理的信息按照一定的劃分層次分為校驗數據和訓練數據。前者主要用于對匹配的模型進行檢驗,后者主要用于確定模型的求解參數。通過對油田企業各生產環節所產生的數據進行收集檢驗,并配套建立相應的數據模型,觀察數據的各類變化,這是油田企業數據挖掘技術模型檢驗階段的最終目的。
3.1.3 分析數據
企業各生產環節的數據在采集過程中容易出現樣本誤差,而較大的樣本誤差則會直接影響企業網絡搭建的準確度和全面性,從而對企業網絡識別功能造成巨大的破壞。因此,油田企業信息化建設運用數據挖掘技術進行信息采集時,必須要收集和篩選與分析階段配套且合適的訓練樣本,通過油田企業財務部門技術人員豐富的工作經驗和扎實的專業技術能力,以及對客戶的實際需求來進行對應數據的整理和挖掘。一旦客戶的實際需求無法通過數據采集模式獲取時,客戶會重新篩選適合自身實際需求的數據信息,從而進行參數的確定以及配套數據模型的構建。
3.2.1 財務指標中的具體應用
油田企業財務分析工作階段采用數據挖掘技術,主要是對傳統的財務分析進行改進。首先將傳統的財務事后分析方法轉變為數據挖掘技術下的實時分析。過去,油田企業財務部門主要是依靠會計核算系統,在對各項數據進行收集與分析的基礎上,進行各類數據指標的計算。而現階段采用以數據挖掘技術為主要手段的財務分析能夠實現物流、生產、財務各系統與部門之間的數據聯系和實時的數據交流,極大滿足了各部門和系統對于實時數據的需求。其次,以數據挖掘技術為主的財務分析能夠實現對各生產階段的數據層級和作業成本進行精準的傳輸和分配,極大地提高了數據輸出與財務指標計算的精準度。
3.2.2 財務分析平臺的具體工作流程
基于數據挖掘技術構建的企業財務分析平臺,需要為油田企業的決策和實際生產提供有價值的信息,而不是簡單地進行數據模型的構建和套用復雜的數據算法。因此,基于數據挖掘技術的油田企業財務分析平臺,需要對油田企業生產的各類數據進行挖掘,主要內容包括明確問題、數據集成和準備、數據結果分析和知識同化。
(1)明確問題
采用數據挖掘技術,基于油田企業生產所產生的各類數據,明確所要分析的問題,同時對油田企業內外部信息和數據進行有效整合、提取和轉換,導入財務分析數據庫。
(2)數據集成和準備
只有實現財務數據信息在不同用戶和系統間的傳遞和共享,才能體現財務數據的價值,但在數據傳遞和共享過程中極易出現數據的破壞和泄露。油田企業需要在數據傳輸和共享過程中,重點關注財務數據信息存在的問題和解決方法的實效性,并根據不同用戶的需求和問題選擇合適的數據。
(3)數據結果分析和知識同化
油田企業在對財務分析所挖掘的數據信息進行結果的評價和分析過程中,財務部門工作人員憑借多年的工作經驗,運用配套的數據模型對數據進行檢驗,一旦挖掘數據結果存在異常,財務部門需要及時調整數據挖掘模型,開展后續階段再挖掘工作。
油田企業在財務分析階段通過問題的識別、數據的集成和準備、模型的建立、結果的評價后,需要對數據挖掘最終結果進行分析并將有效知識運用到企業財務系統當中,實現知識的同化,為油田企業的生產和財務工作的開展提供重要的決策依據。
油田企業將數據挖掘技術運用到信息化建設和財務分析當中,可以對企業生產所過程中產生的各類數據進行有效挖掘、分析,配套構建數據模型,并從大量的數據當中提取有效數據,用于提高油田企業的生產效率和決策的全面性、科學性。