范之光,曹愛琴,馬 杰
(華北石油通信公司,河北 任丘 062550)
華北油田自2011年啟動智慧油田建設以來,作為智慧油田4大板塊之一的“智慧礦區”也隨之建設,確定以基本型、智能型、智慧型為3個建設階段,逐步形成集生產運行、居民服務、社區管理、醫療健康4大功能板塊為一體的智慧礦區,而隨之帶來的數據量越來越大。為避免造成各自的數據孤島,數據挖掘技術順其自然的應用到智慧礦區中。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中人們事先不知道的、但又是潛在有用的信息和知識的過程。通過數據挖掘,可以充分利用所采集到的信息。與傳統方法相比,數據挖掘具有能夠處理更大規模數據,即時查詢,準確提出預測等優點[1]。
智慧礦區是礦區管理的一種新理念,是新形勢下社會管理創新的一種新模式。華北油田為方便礦區居民繳納水電訊等公共事業的費用、居民健康咨詢、客服管理等建立華北油田社區居民服務平臺,提供礦區綜合服務。
居民信息、便民熱線、繳費數據、醫療服務、社區安防等等信息,產生大量并發數據,但由于上述應用的數據信息分屬于不同業務部門的數據庫,在數據采集點、數據標準等方面存在差異,因而無法實現數據共享和復雜應用,不僅數據冗余程度高,同時數據連續性和綜合決策支持能力也比較差,使用效率低。從上述角度出發,以存儲格式的統一、規則和標準的統一、流程和算法的統一、管理平臺的統一為建設思路,建立統一、集成的信息系統平臺。
基于上述對數據挖掘的應用,構建即席查詢、智能報表、多維分析、元數據管理、數據質量監控、數據集成等模塊,以及數據確認、數據反饋兩個回路的數據管理分析平臺。
數據挖掘主要功能是從數據庫中獲取有意義的信息以及對數據歸納出有用的結構,作為制定決策的重要依據。數據挖掘模塊采用模塊化及組件化的設計理念,采用多種設計模式,充分利用高性能的各種數據挖掘算法、數據過濾器、數據文本及可視化的輸出方式,形成了更高效率挖掘大型數據庫及更高維數數據庫中潛在、隱含的各種關系及知識,為決策者提供了良好的數據支持[2]。
對于挖掘的應用,數據的最基本形式是數據庫數據、數據倉庫數據和事務數據。智慧礦區平臺關注的是每一個數據記錄,也就是事務數據。一般來說,事務數據庫的每個記錄代表一個事務,如顧客的一次購物、一次預約醫療服務,或者一個用戶的網頁點擊、一項客服熱線服務。通常,一個事務包含一個唯一的事務標識號,以及一個組成事務的項的列表[3]。這些數據的頻繁挖掘,感知礦區運行的各項體征數據,管理者會發現數據之間的關聯,分析數據因素,對數據進行歷史、現狀的綜合挖掘分析,從中發現客觀規律,較為準確地預測未來,提前發出預警信息,使當前決策和未來決策更有科學依據。
數據挖掘通過對數據庫、數據倉庫和事務數據中的記錄數據按照一定的規則進行信息開采、挖掘和分析,從中識別和抽取出潛在的規律和有用知識,并以此為管理者提供決策依據。數據挖掘主要以海量數據庫、支持數據集成與處理的數據倉庫為基礎,實現了數據預處理、聚類分析、關聯分析、分類及預測,屬性評估及數據可視化的數據挖掘技術。
在基礎共享數據和不同業務協同數據的基礎上,需要通過數據管理分析平臺對不同業務數據進行抽取轉換、清洗、加載到中心數據庫,并進行數據應用,根據相關業務主題和業務模型,形成專題業務數據庫,進行可以受理繳費明細查詢、交易趨勢分析、數據統籌分析、季度報表分析等的繳費報表。
3.2.1 繳費日報表一:各個業務單位統計表
各個業務單位統計表為統計華北油田社區服務系統接入的所有業務單位當天繳費情況信息,按照統計時間統計繳費總額,報表示例如表1所示:

表1 事業單位繳費統計表
各個業務單位繳費報表:
(1)可以更加方便查看社區服務系統所接入的所有業務單位繳費情況,直觀地反映各個業務單位每天的交易量及交易金額;
(2)同時可以根據每天交易量統計出每個業務單位繳費走勢,方便記錄用戶在該業務系統繳費時的高峰及低谷時段;
(3)當我們需要查詢某一天的交易情況時,不需再去查詢數據庫計算繳費金額,使用該報表即可準確、快捷地查出交易信息;
(4)在與各個業務單位對賬、劃賬時,該報表數據也可作為驗證統計出的對賬金額、劃賬金額正確性的依據。
3.2.2 繳費日報表二:繳費銀行統計表
銀行統計表為統計當天用戶使用不同網上銀行繳費時的繳費情況按照繳費周期匯總欠費信息報表,報表示例如表2所示:

表2 繳費銀行統計表
統計繳費銀行統計表:
(1)可以更加方便查看社區服務系統所接入的所有銀行的交易情況,直觀地反映各個銀行每天的交易量及交易金額;
(2)該表中所統計的總比數、總金額明確反映了本日社區服務系統總共的交易量及金額,不需人工再去計算;
(3)根據每天交易情況,更直觀地展現市民更喜歡使用哪種繳費方式來繳費,哪種方式交易量少,才能更好地優化系統。
智慧礦區平臺每天都要對大量的數據進行挖掘處理,數據的完整性和安全性對整個系統正常運行至關重要,對數據空間的規劃、使用、清理、備份是實現數據完整性和安全性的主要途徑。數據安全機制——數據備份是指將數據以某種方式加以保留,以便在系統遭受破壞或其他特定情況下,重新加以利用的一個過程。
業務系統實時保護。智慧礦區平臺是以Web方式發布,所有數據實現內網和外網雙層保護,當內網Web服務器出現故障后,外網Web服務器將實現接管業務系統,保證業務系統正常運行。為了保證內外網服務器的數據能順利接管,實現業務級別的保護,對內外網服務器應用系統實現準實時數據的復制和交互。同時對重要配置文件及業務數據進行備份。
平臺內原始數據、業務參數數據、系統參數數據、清單數據、統計數據、賬務數據、錯單數據等不同類型的數據其訪問頻度、管理要求不同,平臺建設有完整的應對策略;備份功能既要保證系統數據的完整性,又要保證系統在資源使用方面的高效率。對判斷過期的數據應進行準確的清理和完整的備份。
數據挖掘技術改變了數據的地位,使各種數據從一種 “間接”輔助的手段轉化為“直接”主要的方法。智慧礦區平臺建設基于云計算、物聯網和信息集成技術,結合數據挖掘技術,使居民信息、便民熱線、繳費數據、醫療服務、社區安防等數據可以直接指導礦區服務整體職能。智慧礦區的整體構建加強和諧礦區的建設和管理、完善礦區功能、提升礦區服務水平,使礦區居民能夠感受到科技的發展,有數字信息化與智能化的生活體驗,擁有一個安全、舒適、溫馨和便利的易居環境。
同時,數據挖掘技術可以輔助管理者監測平臺狀態、提高系統性能、隔離軟件錯誤、分析平臺缺陷、發現網路入侵和識別系統故障,讓智慧礦區平臺更好地服務于管理者及礦區居民。
[1] 陳玉濤.數據挖掘技術在油田企業生產中的應用[J].油氣田地面工程,2014,33(4):53-54.
[2] 蘆丹丹.面向社區智能服務的數據挖掘關鍵技術研究與實現[D].西安:西安電子科技大學,2013:41.
[3] Han J W,Kamber M,PEI J.數據挖掘:概念與技術[M].范明,孟小峰,譯.第 3 版.北京: 機械工業出版社,2014:6-9.