張可佳,李春生,姜海英,趙 森
ZHANG Kejia1,LI Chunsheng1,JIANG Haiying2,ZHAO Sen3
1.東北石油大學 現代教育技術中心,黑龍江 大慶163318
2.大慶油田有限責任公司 第二采油廠地質大隊,黑龍江 大慶163000
3.大慶油田有限責任公司 礦區服務事業部,黑龍江 大慶163000
1.College of Computer and Information Technology,Northeast Petroleum University,Daqing,Heilongjiang 163318,China
2.The Second Oil Plant Geological Brigade,Daqing Oil Field Co.,Daqing,Heilongjiang 163000,China
3.Services Department,Daqing Oil Field Co.,Daqing,Heilongjiang 163000,China
人工智能經過數十年發展,已經廣泛應用于工業生產及工程施工的各領域,并發揮著極大的作用,如CNG-HSE 系統[1]、InterBay-System(IBS)[2]。由于信息化的普及,相關生產數據的完整性和準確性不斷提高,伴隨時間增長帶來的數據量與日俱增,于是發現領域內數據內部規律,挖掘數據變化模式成為提高智能化應用準確度和有效性的關鍵[3]。時間序列的提出將關聯關系以時間為維度建立,降低了大數據量分析過程中的數據間耦合度,突破數據關系分析的瓶頸,解決了模式挖掘過程中由數據關系帶來的繁冗和高復雜度,使分布式并行計算的可用性和高效性更有意義。
領域決策者和專家的經驗積累程度和較強業務能力對于智能化應用至關重要[4]。雖然通過知識工程的手段可以很好的發現業務領域內的影響因素變化規律和模式,較好地解決了相關領域內的故障認定、風險評價、措施優選等問題,但是依舊存在以下缺陷:(1)相比對于某種模式的描述,專家界定該模式涵蓋的影響因子集合的準確程度更高,這將有利于模式挖掘中數據降維過程。現有多數方法過多的將專家定性化經驗引入模式挖掘過程,增加了模式結果本身的不確定性因素,降低了模式挖掘結果的可靠性[5]。(2)多數模式挖掘結果的表達方式較為簡單,應對復雜情況下的模式表達能力較弱。(3)由于缺乏對數據本身表象特征分析,忽略數值計算方法的作用導致有效數據項的擬合算法選取過于簡單,在高階擬合、余音處理等方面計算難度較大,響應時間過長,計算結果不夠準確[6]。
針對此問題,設計時間序列下模式挖掘模型(TODM),提出FC 閉包模型表示由專家界定的原始影響因子集,以均方差收斂等方法清洗和過濾噪聲因子。通過對數據離散點分布圖進行分析,采用科學的分段擬合方法基于時間序列進行擬合,設計CCM-ECM 模型,實現對TODM 模型挖掘結果的量化特征描述,并提出一種置信度計算算法實現模型的校正和自適應過程,提高模式挖掘結果的高精細化描述程度,深度挖掘數據內部的潛在規律。
專家組對于領域內與事務相關的影響因子界定較為準確,其判定的子集往往包含真實集[7]。將專家對于影響因子界定轉化為抽象的邏輯表示形式是整個挖掘模型的基礎。
以n位專家組成的專家組,領域內存在某事務W,針對W發生后數據變化模式進行挖掘。取領域內影響因子全集R,分別由專家給出相應原始影響因子集,其表述形式為:
Efn={un1,un2,…,unp|u∈R}
其中Efn表示第n位專家的結果,u為全集R的元素,將專家的結果進行并運算,于是有原始影響因子集的一般表述形式為:Efa=Ef1∪Ef2∪…∪Efn。
為實現建立自然語言描述的影響因子與數據體內數據實體的映射關系,引入FC 閉包模型。具體定義如下:
定義1包含影響因子的自然語言形式u,直接描述u的數據實體df及映射關系函數F的閉包結構成為FC閉包。其一般表示形式為:
FC={u,df,F|df≠φ,u∈Efa}
其中,Efa為有專家組提供的原始影響因子集;df為數據實體,實例化后為數據體內的數據單項;F為映射關系函數,在u可直述時,F可為空,當u不可直述,df由F進行計算獲得。
FC閉包模型建立自然語言與邏輯語言間的映射關系,并將因子間相互獨立,可以清晰地描述其抽象結構,提高Efa集的松散度,易于分析和計算。
通過數據體模型獲取Efa集元素的目標數據實體df,建立u與df間的映射關系F,結合數據集成思想,利用FC閉包模型表示形式,產生原始FC 閉包集FEfa,其一般表述形式為:
FEfa={FC1,FC2,…,FCn|n=len(Efa)}
FEfa集維度與Efa集維度相同,并存在一一對應關系,FEfa集將作為模式挖掘后續擬合計算的基礎。
受到專家不確定性經驗及定性化知識影響,FEfa集往往包含真實集Tr,即Tr?FEfa。為了減少FEfa集內無效元素,提出一種時序下的數據處理和清洗方法,去除FEfa集內無效元素,降低模式維度,防止維災。
以FEfa集內元素FCn為例,在事務W發生后,給定時間序列T={t1,t2,…,tp}將FCn實例數據劃分為p段等長數據,對tp={tp1,tp2,…,tps}內數據集合dp={dp1,dp2,…,dps}通過算法1 處理。
算法1
Begin:若dp原始數據長度s>0
Step1:由公式(1)計算dp原始數據均值

Step2:將dp原始數據處理為局部距離數據

Step3:由公式(2)取局部距離的均方差

End
于是將FCn的數據處理為:
D={T,?},T={t1,t2,…,tp},?={?1,?2,…,?P}。
算法1只討論二維情況,當然通過FC閉包模型可以較為容易的推廣到多維情況。值得注意的是,算法1 中步驟2 中局部距離數據dkp將作為后續擬合過程中的真實數據樣本,以此消除樣本基數[8]差異帶來的負面影響。
以經過處理后數據D={T,?}為基礎,根據切貝雪夫變形及均算術積函數[9]得到激巨判定函數如公式(3)所示:

將函數還原得:

其中dps為分段內原始數據,s為分段內數據長度,p為分段量。
取μ(?)=max(?)-min(?),給出全局閾值系數ξ作為有效權重,于是得到閾值μr(?)=ξμ(?),其中μr(?)表示某元素的閾值。
根據激巨判定函數F(?),閾值函數μr(?),給出如下定義:
定義2在FEfa集內元素FCn內,以原始數據作為計算樣本,當F(?)>μr(?),則認為FCn發生了激巨變化,且判定元素FCn是FEfa集的有效元素。
通過對FEfa集的搜索,逐一認定FCn的有效化,并去除無效元素,降低FEfa集的維度,并最終得到有效FEfa集(V-FEfa集,包含元素個數m)。在認定元素FCn有效后,將直接保留元素FCn的局部距離數據,并構成距離數據集合:

作為模式挖掘模型中FCn的數據樣本。這種清洗和數據處理方式在降低維度的同時完成對時序擬合數據的預處理,降低后期時序擬合的復雜度。
數據體本身必定存在其內部復雜度不同的數學關系[10]。數據變化模式的最優計算方法是數值擬合進行參數計算,但對于最終表達形式的設計和擬合函數的選取一直是影響模式表示精準度的重要問題[11]。通過大量實驗數據的處理,對其離散點分布圖進行分析,采用一種相似度較高,擬合復雜度較低的分段擬合模型作為通用擬合方法,引入CCM-ECM 模型對最終表達形式分別描述,解決上述問題,完成模式挖掘。挖掘過程如圖1所示。

圖1 TODM 模式挖掘流程圖
以工程施工或工業生產為例,當某重大行為(事務)W發生后,依據前述方法獲取V-FEfa集及其各元素的距離數據集合作為樣本,通過離散點分布圖分析,得到如圖2 所示。

圖2 距離數據與時間序列(D-T)擬合曲線示意圖
在事務W發生后,對于V-FEfa集某元素進行分析:在初始時間t0至最大效應時間tmax區間內,曲線呈激增上升狀態,峰值為dkmax,在tmax至tps區間,曲線呈緩減下降狀態,同時?t?(w→p),t?至tp區間作為函數余音。通過對高斯(Gaussian)、多項式、瑞利(Rayleigh)等多種模型進行分析匹配后,最終提出以P-L(普朗克-洛倫茲)模型進行分段擬合。普朗克(Planck)模型前期擬合準確度高[12],適用于激增上升部分的擬合;洛倫茲(Lorenzian)模型對于樣本量較大的擬合過程較為準確[13],適用于緩減下降部分的擬合,同時洛倫茲模型處理余音的較強的魯棒性,震顫情況較少。其他模型的優缺點分析在此不再累述。于是提出通用擬合方法的P-L模型表示形式,如公式(4)所示:

由擬合參數構成參數集Vr={a,b,c,d1,d2,d3,d4,τ},并以{T,dk}進行擬合,逐一對滿足P-L 模型元素FCm進行參數求解,得到:
Vrm={am,bm,cm,d1m,d2m,d3m,d4m,τm}
其中m是滿足通用擬合模型的元素數量。對于不滿足P-L 模型的元素可以進行單獨分析結合業務或領域知識,選擇適應其變化規律的獨立擬合模型進行函數擬合,并得到其參數集Vgl,l為不滿足通用擬合模型的元素數量,不同事務可以選取相應符合實際情況的通用擬合模型,具體過程不做累述。
在V-FEfa集各元素的擬合過程中,將元素序列依據是否滿足通用擬合模型進行重新分類,并聚類抽象得到CCM-ECM 模型。具體定義如下:
定義3TODM 模型挖掘結果的表達方式(MOE)可由Vrm構成的特征矩陣CCM,及Vgl構成的余項集ECM表示,其一般形式如下所示:

其中余項集ECM={(F1,Vg1,1),(F2,Vg2,2),…,(Fl,Vgl,l)},Fl為獨立擬合模型或識別標識,Vgl為其參數集。由Vrm進行合并得到CCM特征矩陣:

通過CCM-ECM 模型實現的模式挖掘結果表示方式以數值計算方法為基礎結合特征矩陣進行表示,屏蔽了外界因素的干擾和不確定性影響,單純以數據角度反應與時間序列的關系,發現數據間的潛在規律,提供更準確的輔助決策支持。同時,這種設計思想對當下較為流行的大數據下的模式挖掘也具有較好的效果。
在獲得TODM 模型結果后,需要對模型結果進行置信度校驗,設定允許偏離最大誤差率λ,以前述方法取得校驗樣本,并根據距離偏移誤差公式得:
ψps=F(Tps)-dkps
其中ψps表示在某時間點Tps,預期結果F(Tps)與實際樣本值dkps的偏移差,得到平均誤差率的計算公式:

及最大誤差率λmax的計算公式:

當λmax<λ時,認為模型結果正確可信,當λ<λmax,時,認為模型結果發生局部偏差,將進行局部重新擬合。當λ<λmax,時,認為模型結果需要進行重新計算,模型將直接根據V-FEfa集進行取樣,重復前述步驟,重新擬合計算并校正模型結果以實現自適應過程。
以TODM 模型為基礎,設計措施作業后模式挖掘模型,通過對油田施工后生產數據及相關作業歷史數據進行分析計算挖掘油田生產過程中措施作業數據與油藏地質學相關的指標的變化規律和模式,應用在大慶油田某采油廠地質大隊、作業大隊等相關單位,為了縮小地質師和作業工程師的初次界定范圍,規避客觀環境影響,通過與油藏學家及上游生產信息系統(PCEDM)設計師的反復交流和推敲,對300 余項相關的指標(影響因子)進行篩選,遴選出40 余項具有典型變化特征和參照度極高的指標構成基礎指標庫(BER),如表1 所示。

表1 基礎指標庫信息表
表1 中指標可由現場專家根據施工作業及地質環境等實際情況提出疑義并討論研究后進行增減,粒度程度表示指標的實際數據以時間為粒度的劃分程度。
以強化采油(EOR)——酸化作業為例,為了提高效果的直觀性,具體采用基質酸化作業為標準[14]。由6 位廠級地質師及4 位作業工程師組成的臨時專家小組依據油藏數值、經驗公式等知識對BER 分別篩選,并最后形成統一的原始指標集,其結構及組成如表2 所示。

表2 基質酸化的原始指標集(Efa)結構及組成
由于當前大慶地區主力油田處于高含水期和特高含水期[15],原油含水量較高,出于保證實驗結果的真實性的目的,降低環境及氣候因素的影響,對于Z1 將進行去除產水量計算,即針對同一時間點取產油與產水量差值。同時,以已脫除地層水的薩爾圖區塊-薩二北淺層油層組初次完成基質酸化的16 口作業井進行取樣,規定取樣日期所處年月、季節及樣本所處區塊大致相同。將所有樣本進行如下處理:
(1)以井為單位將數據分為16組樣本,取樣對象如表3所示,并隨機取12組樣本為訓練樣本,4組樣本為校正樣本。

表3 取樣對象及相關屬性表
(2)將所有訓練樣本以作業時間為準進行時間原點初始化,定義作業時間t=0。
(3)根據PCEDM 結構設計特點,根據指標與數據實體的關系進行原始數據采集,取生產日數據為指標的原始數據以提高實驗的準確度,根據基質酸化作業的業務特點,取樣范圍為時間原點后900 日,并按30 日為周期將數據等長劃分。
經過以上步驟完成對所有樣本的原始數據采集和初步處理后,對樣本原始數據進行有效化判定,最終將Z1-產油量、Z2-酸堿度、Z3-油壓、Z11-壁粘稠度等7個元素判定有效,并計算相應的距離數據進行時序擬合。
有效元素經過數值匹配方法即可知Z1、Z2 等元素符合PL 模型,Z11 不符合PL 模型。圖3 以Z1 及Z11 為例分別展示其離散點分布圖。

圖3 Z1 與Z11 離散點分布圖
根據P-L 模型分段公式對符合通用模型的元素進行擬合并進行參數求解計算,參數計算結果構成的CCM矩陣特征矩陣為:

對于Z11 采用指數函數擬合模型進行擬合,構成的余項集
ECM={(Fdxs,Vg1Z11,1)},VglZ11={2,1.7,6}
以校正樣本進行校正,根據專家意見,給出偏離最大誤差率不高于5%,污染點個數小于5%進行校驗,結果如表4 所示。

表4 校正樣本誤差率表
經過上述分析計算可知,最終得到基質酸化措施后的模式挖掘結果(ACI-MOE)誤差精度不大于5%,同時可以發現非污染點數量越多,誤差精度越小,所以TODM 對于數據準確率具有一定要求。
將上述ACI-MOE應用在另外20余口已酸化井進行同步數據監測,監測域為措施后3個月內PH值、產量等數據項,為節約篇幅,以PH值和產量為標準,同時應用模糊專家推理法(FS)進行比對,比對結果如表5 所示。
其中17 口井生產數據在開井后實際情況基本滿足ACI-MOE 模式,N5-4-29X 井由于關停后轉注,導致無明顯變化從監測范圍內排除,SN2-10-1 等2 口井發生數據大規模偏移,經作業大隊檢查,發現是由于抽油機故障和低溫等問題發生了異常,由此可見,TODM 模型可以應用在故障排查、油田預警等領域。
根據TODM 模型開發的模式挖掘系統——井下作業跟蹤監測評價系統已經正常工作,因為對數據內部潛在關系的深度挖掘和精確表達,較為廣泛的應用范圍和相對簡單的應用過程受到了應用單位的較好評價。
提出了時間序列下的模式挖掘模型(TODM),以FC 閉包模型構建原始影響因子的形式語言表達結構,采用距離均方差算法以時間序列為基礎將數據分段計算,根據數值計算方法及根據激巨變化函數實現對數據的預處理和有效化判定,同時根據數據特征和離散點分布圖的分析給出科學合理的擬合模型;結合CCM-ECM模型實現對模式特征的抽象描述,并以距離偏移誤差公式計算誤差率進行置信度校驗以驗證結果的準確性,達到深度挖掘數據內部潛在規律,提高數據變化模式的高精細化描述程度的目的。

表5 應用效果比對表
[1] 鄭言.我國天然氣與安全評價與預警系統研究[D].北京:中國地質大學,2013.
[2] 吳立輝,顏丙生,張潔.求解全局優化問題的混合智能算法[J].計算機工程與應用,2006,42(16):9-11.
[3] 劉立坤.海量文件系統元數據查詢方法與技術[D].北京:清華大學,2011.
[4] Negnevitsky M.人工智能智能系統指南[M].北京:機械工業出版社,2012.
[5] 吳信東.帶通配符和-條件的序列模式挖掘[J].軟件學報,2013,24(8):1804-1815.
[6] Deng Xiaoming,Wu Fuchao,Wu Yihong.An easy calibration method for central catadioptric cameras[J].Acta Automation Sinica,2007,33(8):801-808.
[7] Lancichinetti A,Fortunato S.Consensus clustering in complex networks[J].Scientific Reports,2012,2:336-337.
[8] 楊一鳴,潘嶸,潘嘉林,等.時間序列分類問題的算法比較[J].計算機學報,2007,30(8):1259-1265.
[9] 龍波涌.平均值與切貝雪夫泛函[D].長沙:湖南大學,2012.
[10] Liu W,Lv L.Link predicition based on local random walk[J].Europhysics Letters,2010,89(5):58007.
[11] 尹文怡,范通讓.離散數據擬合模型的研究與實現[J].計算機工程與應用,2008,44(31):227-228
[12] 王虎,丁世飛.序列模式挖掘研究與發展[J].計算機科學,2009,36(12):14-17.
[13] 陳家鼎,陳奇志.關于洛倫茲曲線和基尼系統的統計推斷[J].應用數學學報,2011,34(3):385-398.
[14] Yan L,Wang J.Extraction regular behaviors from social media networks[C]//Proc of the 3rd Int’l Conf on Multimedia Information Networking and Security,2011:613-617.
[15] 伍曉林,楚艷蘋.大慶原油中酸性及含氮組分對界面張力的影響[J].石油學報,2013,29(4):681-686.