續晉
(湖北省荊州市四機賽瓦石油鉆采設備有限公司 湖北省荊州市 434022)
油田生產數據蘊含大量有價值信息,但由于數據接口不統一、數據采集不完善、數據傳輸不到位與數據分析不合理等因素的影響,導致數據未得到合理應用,阻礙油田開發的進一步發展。就此,在油田開發中引入數據挖掘技術是很有必要的。
數據挖掘技術是指通過數據統計、模式識別、機器學習、專家系統與數據分析等方法,在海量數據中挖掘有價值信息的技術。目前數據挖掘技術的應用已趨于成熟,相關技術較完善,可將其用于數量處理要求較高的油田開發工作中。在油田開發的數據挖掘中,應用流程包括資料收集、數據預處理、算法選擇、模型選擇。其中,資料收集是指根據油田開發問題,全面整合相關數據資料,為數據采集提供條件;數據預處理是指對異常數據或缺失數據進行標準化處理,保障數據挖掘的質量;算法與模型選擇是指根據油田開發問題分析的要求,選擇相應的算法與計量模型,合理處理數據,獲得權威且穩健的結論,為油田開發提供幫助[1]。
基于油田開發的現狀,數據挖掘技術常用于生產數據預處理、數據分類與數據預測三個領域。
常用粗糙集理論,對油田生產開發數據進行屬性約簡處理,為數據挖掘與分析提供條件。具體的數據預處理算法包括粒子群算法、細菌覓食算法等,技術人員可根據數據特征,選擇獨立使用一種算法或配合使用多種算法。其中,粒子群算法是指利用個體與群體的飛行經歷,獲取群體的最佳位置,完成最優解的尋找,屬于全局優化算法,具有算法簡單,運行效率高等優勢;細菌覓食算法是指模擬人體腸道內大腸桿菌的覓食流程提出的優化算法,可用于問題最優解的尋找。大量工程實踐表明,多種算法的配合應用,獲得的數據預處理效果更優。
就此,本文以粒子群算法與細菌覓食算法的配合應用技術為基礎,分析數據挖掘技術在數據預處理中的應用。整合算法的原理在于應用粒子群算法對群體信息進行初始化迭代處理,獲得數據預處理的初步最優解,再應用細菌覓食算法的遷移趨化操作,獲得全新的最優解,可提高數據預處理效率,減少預處理的隨機性,具體實施流程如下:
2.1.1 明確編碼方式
在數據預處理中,粒子群算法不能直接處理解數據,需將原始數據轉變為二進制數據結構,轉變方法的選擇,會影響轉變效果。目前常用的數據編碼方式為基于{0,1}符號集的二進制一維編碼。
2.1.2 設置初始群體規模
在粒子群算法應用中,技術人員需合理設置初始群體規模,保障算法的搜尋質量與效率。初始群體規模由核屬性決定,技術人員首先計算原始數據的核屬性,再將其從粒子表達中剔除,剩余屬性映射于[0,1]之間,即完成初始群體規模設置。
2.1.3 選擇適應度值函數
在通過屬性約簡進行數據預處理時,技術人員需確保所得的集合為約簡,且包括最少屬性個數的狀態。針對該要求,常用的適應度值函數為:

2.1.4 粒子更新
在數據預處理中,技術人員需設定粒子更新速度,并應用sigmiod 函數將速度對應的值映射于[0,1]的區間內,準確定位粒子群中的個體最優值,完成數據預處理。
2.1.5 設置算法終止條件
由于數據預處理中的屬性約簡并未有規范的終止條件,技術人員需根據個人經驗,合理設置算法終止條件,可通過可接受迭代次數的設計,根據適應度值的變化狀況,選擇算法是否終止[2]。
在數據預處理中,可去除原始數據中的冗余數據或異常數據,為保障數據的有效應用,技術人員還需應用合理數據挖掘技術,進行數據分類。常用的數據分類技術為決策樹分類算法,可根據挖掘分類原則,實現數據額的高效準確分類。但決策樹分類算法將機器為核心,步驟較為繁瑣,且在數據處理數量方面稍顯不足,難以對海量數據進行分類。技術人員可利用C#的嵌入式SQL 語言,提高算法的執行效率,實現海量數據的高效準確分類。優化后的分類算法可通過信息增益率屬性制定最優數據分類規則,算法執行中信息熵變化最大,就表明該屬性數據承載的信息越重要。嵌入式SQL語言對數據的信息增益率屬性進行排序,明確信息熵變化,將其存儲于數據信息庫中,并在非樹葉結點處分裂,直到數據分類滿足終止條件。具體而言,基于決策樹分類算法的數據分類流程如下:
(1)整合生產數據,構建生產樣本數據表,并應用嵌入式SQL 語句遍歷所有數據,將查詢結果傳輸到宿主語言C#中,明確不同類別的比例與等變量。
(2)基于比例與比例等變量,編寫求最優分割閾值函數及信息增益率計算函數,并執行設計函數,獲得每個數據的信息增益率,存儲于相應數據庫中。
(3)在數據庫中對信息增益率進行排序,明確每個數據含有重要信息的個數,并將計算結果存儲于個數數組中,將數組中的第m 個屬性標注為CountA[m]。
(4)選擇Find Rules 函數處理個數數組中的各個屬性數據,生成數據分類規則,并將其存儲于分類規則數據庫中。如果屬性存在葉結點,需將其樣本數據取值為0,將CountA[]的數值清空,避免樣本數據對后續規則生成造成影響,反之則將CountA[]的數值清空,將空值NULL 剔除。
(5)整合應生成分類規則的屬性數據,如果存在剩余屬性信息,則需重復上述步驟,反之則結束算法。
某技術人員將上述算法用于數據分類處理中,正確分類次數達30 次,僅出現一次錯誤分類,正確率高達96.8%。可見,優化后的決策樹分類算法可精準高效進行數據的處理,強化數據挖掘技術的應用效果。
基于油田開發的海量數據,技術人員可通過數據挖掘技術預測油田數據,明確油田產油量的影響因素,為油田生產開發提供決策參考。在油田生產開發中,技術人員可通過數據挖掘技術預測大量相關數據。影響要素較少的數據類型,可通過多元回歸分析、人工神經網絡等單一分析方法準確預測,明確其發展趨勢;影響因素較多的數據類型,需整合多種數據挖掘技術,目前常用的組合預測方法包括多元回歸分析、ARMA 時間序列分析、神經網絡三項。
多元回歸分析用于挖掘油田數據的主要影響因素。在數據預測中,影響因素較多,可將其作為因變量,將預測數據為變量,采集生產數據作為樣本,利用多元回歸分析模型進行顯著性檢驗,選出顯著水平≤0.05 的因變量,即為數據的主要影響因素。
ARMA 時間序列分析用于預測基本數據信息,在開展數據分析前,需對顯著影響變量的數據進行預處理,通過0-1 均值化處理獲得平穩時間序列后,明確序列的自相關系數與偏相關系數,通過AIC 準則對時間序列進行定階處理,選擇合適的自回歸模型,并通過模型檢驗,分析其 是否平穩白噪聲,不是則需改進模型;反之則表明模型可投入使用。在保障模型質量后,可輸入歷年變量數據,分析其模型預測數據與實際數據的差異,二者偏差低于1%,就表明預測結果準確。
神經網絡用于構建數據綜合預測模型,其輸出值為最終的預測結果。技術人員需將上述預測的結果為樣本數據,構建神經網絡模型,具體流程如下:構建輸入輸出層→構建隱含層→選擇激勵函數→構建預測模型。在上述過程中,隱含層常用函數為tansig 函數;輸出層常用函數為logsig 函數。為保障預測模型的結果準確性與計算高效性,需將模型的期望誤差設置為0.00001,將學習速率設置為0.01。
總的來說,在油田數據預測中,技術人員需將歷史油田開發數據為基礎,調節不同數據挖掘技術的參數與模型,并將預測結果與生產實踐對比,獲得最優的數據預測模型;再將待開發油田的相關參數輸入到模型中,得出最終的數據預測結果,為油田開發生產提供指導[3]。
基于數據挖掘技術的多樣功能,油田開發單位可構建油田開發決策系統,整合油田數據采集、組合預測分析與決策等流程,提高油田開發的效率與質量,實現其現代化與智能化發展。
決策系統需將數據挖掘技術在油田開發中的應用為基礎,設計生產數據管理(包括數據采集、數據存儲、日志管理與操作用戶管理)、分類規則挖掘(包括數據預處理、數據分析與挖掘、結果分析評價)、數據預測(包括預測模型構建、預測結果輸出與評價)與決策方案展示(包括綜合分析評價、分析結果輸出、輔助決策供給)四項功能,整合油田開發的各個環節。
在明確決策系統的功能后,技術人員需明確系統架構,為系統設計與實現提供條件。基于油田開發數據的特征,可選用C/S 架構,將該架構的客戶端與服務器為基礎,增加系統層級,發揮C/S 架構高效、安全、便捷優勢的同時,彌補其推廣運維的不足。優化后的三層系統架構更具靈活性、穩定性與抗干擾能力,支持數據共享,減少系統操作誤差,為油田開發提供便利[4]。
以C/S 架構為基礎三層系統架構包括操作層、邏輯層與訪問層。其中,操作層是指客戶操作,用戶可通過數據輸入與功能操作,獲取所需的結果,該層也用于展示最終的決策方案與數據挖掘結果;邏輯層是指業務邏輯,用于連接操作層與訪問層,需在內部配置應用模型,用于實現上述功能;訪問層是指數據訪問,用于管理數據庫和接收業務邏輯層的數據庫訪問請求。三個層級間的協調配合,是保障油田開發決策的關鍵。
在明確決策系統的功能與架構后,技術人員需采用合理措施,優化決策系統的設計,實現上述功能與流程要求。決策系統設計的關鍵在于數據庫設計與決策生成[5]。技術人員可選擇Oracle 10g 數據庫為核心,設計生產數據、樣本數據、分類規則與預測結果等多項數據庫,為系統的運行提供支持。
在生產數據庫中,技術人員需實時采集生產數據,存儲于數據庫中,整合歷年油田生產數據,為后續決策分析提供參考;在樣本數據庫中,技術人員通過生產表征屬性與決策屬性,在生產數據庫中選擇樣本數據,存儲于樣本數據庫中,用于油田開發分析;在分類規則數據庫中,技術人員需存儲大量數據范圍分類規則,為決策提供輔助參考,即決策樹生成的多元分類規則,其表字段選取樣本數據表征屬性與決策屬性約簡后的內容;在預測結果數據庫中,用于存儲樣本數據組合預測后的某時間段油田數據,該數據庫需配置觸發器,在檢測到生產數據更新后,立即驅動預測流程,將全新預測結果存儲與數據庫中;在決策方案數據庫中,涵蓋多種決策方案,可根據數據范圍、預測結果描述等信息,輸出相應的決策方案,為決策人員提供幫助,在用戶信息數據庫中,涵蓋用戶名、密碼、用戶權限等信息。
決策生成是決策系統提供油田開發決策的關鍵機制,技術人員可通過三條件并行驗證機制的應用,保障決策方案生成的合理性,優化油田開發決策流程。其一是基于數據分類規則驗證,在嵌入式SQL 語句中依次輸入分類規則,計算其準確率,如果高于97%,則驗證成功,反之則需重新執行分類規則系統;其二是基于數據預測結果驗證,整合多次預測結果,計算其相對誤差的平均值、最大值與最小值,如果數值處于規定范圍內,驗證成功,預測結果準確性較高,可用于輔助決策,反之則需重新執行預測流程;其三是基于生產數據驗證,可將生產數據輸入到數據分類決策樹中,明確數據范圍,并將預測結果與其對比,二者相符則驗證成功,反之則表明數據存在偏差,找出偏差數據后,修整系統數據庫,重新進行預測與決策。
某技術人員根據上述方法與流程,成功設計油田開發決策系統,并將其投入應用。系統的初始界面為登錄界面,用戶需輸入用戶名與密碼,方可使用系統;系統功能界面包括用戶管理、分類規則挖掘、數據預測、數據管理、決策展示、返回登錄界面六項,用戶可根據需求點擊,獲取所需信息。在決策系統運行后,技術人員應用其對2018年數據進行預測,決策系統的數據預測誤差為0.45%,表明決策方案有效。可見,本文構建的決策系統具有可行性,可推廣應用。
綜上所述,數據挖掘技術可用于油田開發數據處理的全過程,即數據預處理、數據分類與數據預測,提高油田生產質量,需推廣普及。通過本文的分析可知,相關單位可將數據挖掘技術為基礎,構建油田開發決策系統,提高油田開發決策的合理性,保障油田開發的質量,推動油田產業的可持續發展。