999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯度分析的生產異常模式挖掘

2017-09-19 07:17:37李春生張可佳
計算機技術與發展 2017年9期
關鍵詞:特征方法模型

李春生,宋 佳,張可佳,張 勇

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

基于關聯度分析的生產異常模式挖掘

李春生,宋 佳,張可佳,張 勇

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

為解決在智能化生產預警方法應用的過程中原始數據維度高、數據結構復雜、數據量大的問題,提出了基于關聯度分析的生產異常模式挖掘方法。該方法建立了預警目標與影響特征之間的關聯關系,通過計算關聯度篩選出重要特征。在均值化方法處理數據的過程中,通過引入時間序列、選取時間粒度來截取距離數據,通過計算關聯度、摒棄無效影響特征和降低數據維度來完成數據的準備過程。結合損耗性異常的業務數據特點,采用了基于時間序列的G-R分段擬合方法擬合數據,并利用均方根誤差方法校驗模型的準確性。實驗驗證選取了三次采油生產的異常情況為實例,采用G-R模型對特征集的元素進行分段擬合以求解相關參數。實例驗證結果表明,該方法的預測數據與原始觀測數據的吻合度高,且預測準確度較高。

特征篩選;時間序列;函數擬合;關聯分析

0 引 言

隨著工業生產預警研究的不斷深入、監測手段的廣泛應用以及數字化生產的進步,工業生產領域中的異常情況已經逐漸成為各領域研究的重點,運用智能技術挖掘數據內部潛在規律,提取有用信息已成為動態監測、分析異常、預警預測的關鍵[1]。

通過專家經驗的累積和較強的業務能力,雖然能較為準確地掌握對生產異常的影響特征,但是這種人工決策方法具有如下缺點:僅依據業內專業人才定義有效影響特征集,降低了挖掘結果的準確性;累積數據量大,特征集維度高,非敏感特征的隱蔽性強[2],敏感特征表現不明顯;數據項的擬合算法簡單,只采用一種擬合方法在高階擬合處理方面具有一定的難度,計算結果不夠精確[3]。

針對上述問題,提出了基于關聯度分析的生產異常模式挖掘方法,建立了預警目標與影響特征之間的關聯關系,計算關聯度,篩選出重要特征。在均值化方法處理數據的過程中,引入時間序列,降低數據分析過程中的耦合度,增強數據處理的精細程度;結合業務特點[4],選取多種時間粒度,按不同粒度截取距離數據。通過對特征集散點圖數據的分析,采用基于時間序列的G-R分段擬合方法擬合數據,得到擬合矩陣,同時用均方根誤差方法校驗模型的準確性,提高挖掘結果的可信度,完成有效特征篩選及生產預警的過程。

1 基于關聯度分析的特征子集的獲取

通過建立預警目標與影響特征之間的關聯關系,計算關聯度,篩選出有效影響特征子集。關聯分析的具體步驟為:原始特征集的獲取、特征集的邏輯轉換、基于均值化的分段式時序數據處理。

1.1原始特征集的邏輯轉換

原始特征主要分為靜態物性特征、驟發性異常特征、損耗性異常特征,其中靜態物性特征通常用來描述預警對象的基礎屬性,長期不發生變化,驟發性異常具有不可控性,所以在此主要研究在損耗性異常特征情況下預警目標與特征集之間的變化關系。

原始特征集構成了數據有序化的信息集合,是篩選有效特征的構建基礎。針對預警目標,選取特征集,具體表達結果如下:

(1)設定預警目標I、與預警目標相關的原始影響特征集合Un:

I={I1,I2,…,In}

Un={Un1,Un2,…,Unm}

其中,n表示預警目標數量;Unm表示針對預警目標In的影響指標;m表示影響預警目標In的影響因子數量。

(2)在完成原始特征集的篩選后,需要獲取特征集的全部數據,在此提出SF模型,實現建立自然語言與數據體內數據實體間的映射關系,定義如下:

定義:包含預警目標的自然語言描述I,針對預警目標I的影響指標的自然語言描述U,直接描述U的數據實體S及映射關系函數F的閉包結構成為SF模型。其一般表示形式為:

SF={I,U,S,F|U∈Un,I∈I,S≠?,n≥1}

其中,S為數據實體,實例化后為數據體內的數據單項;Un為針對預警目標I收集的原始影響指標數據集;F為映射關系函數,當S為數據體的直接映射時,F為空,當S為數據體的間接映射時,S由函數F計算。

以SF模型對Un進行邏輯轉化,得到原始閉包集FU,其表達形式如下:

FU={SF1,SF2,…,SFP|P=len(Un)}

1.2處理數據中時間粒度的引入

由于原始數據的復雜性,量綱差異性大,導致各指標間的綜合性差,不能直接進行分析。目前消除量綱差異的方法主要有極值化方法、標準方法、均值化方法[5]。其中,極值化方法只依賴變量中的最大值和最小值;標準化方法在消除量綱差異的同時,還消除了各個變量在變異程度上的差異性;均值化方法在消除量綱差異的同時,保留了各變量取值的差異程度[6]。所以采用均值化方法對數據進行無量綱化處理。

在均值化處理原始數據的過程中引入時間序列[7],選取時間粒度。時間粒度選取的不同會給數據挖掘帶來不同的難度。圖1分別顯示了不同時間粒度聚類得到的時間序列。從上到下依次是按天聚類、按周聚類、按月聚類。

圖1 不同時間粒度的時間序列

由圖可知,時間粒度選取得越大,每個時間點上的請求量就越大。

對于大的時間粒度,數據基數大,能提供較為詳盡的數據,但在查詢過程中需要較多的時間以及存儲空間[8]。對于小的時間粒度,數據基數較小,能提高查詢效率以及占用較小的存儲空間,但是卻不能提供詳盡的數據。

所以在時間粒度選取的過程中,從以下兩方面來考慮:第一,根據業務特點了解數據類型,分析數據特點,選取時間粒度;第二,根據數據特點,明確可接受的數據最低粒度以及能夠存儲的數據量。

1.3基于均值化的分段式時序數據處理

結合生產預警數據的呈現特點,引入同一模式多重粒度的思想[9],即近期的生產數據按大粒度選取綜合數據,比較久遠的生產數據按小粒度保留匯總數據,解決了大粒度選取提取數據基數大、占用較大存儲空間,小粒度選取數據準確率低的問題。

工業生產數據主要分為數值型數據和符號型數據。符號型數據主要描述某數據對象的基礎信息,包括機型、作業位置、層位等信息,反映的是其與全集間的隸屬關系,不存在邏輯運算過程;數值型數據,反映了特征的隱蔽性和交叉性[10],在此提出了均值化分段式時序方法處理數值型數據。關聯度分析具體處理過程如下:

Begin:預警目標In觸發

Step1:給定時間序列,將集合內的數據實體SFp以及預警目標I按同一模式不同粒度的思想,將近期數據以及久遠的異常發生周期的數據按照大粒度分別截取m段,將久遠的生產數據按照小粒度截取f段。

T1={t1,t2,…,tm}

T2={t1,t2,…,tf}

Step2:定義tm={tm1,tm2,…,tma}、tf={tf1,tf2,…,tfb}內的預警目標以及影響特征集合,分別表示如下。

預警目標基于給定時間序列的數據集合:

Im={im1,im2,…,ima}

If={if1,if2,…,ifb}

影響特征基于給定時間序列的數據集合:

Sm={sm1,sm2,…,sma}

Sf={sf1,sf2,…,sfb}

其中,a為大粒度截取的數據Im、Sm的長度;b為小粒度截取的數據If、Sf的長度。

Step3:定義預警目標以及影響特征生成的新的局部距離數據集合iu、su。

iu={{im1,im2,…,ima},{if1,if2,…,ifb}}

su={{sm1,sm2,…,sma},{sf1,sf2,…,sfb}}

Step4:將集合iu、su表現形式統一化。轉換成新的數據表現形式。

iu={iu1,iu2,…,iud|d=a+b}

su={su1,su2,…,sud|d=a+b}

Step5:原始數據均值處理。如果a>0,b>0,分別計算包括預警目標和特征集合的原始數據的均值。

Step6:基于均值化的距離數據處理。首先對每一個數據項進行均值化處理,再將原始數據集處理為局部距離數據。對預警目標以及特征集均值化的處理結果為:

集合iu、su生成基于均值化的局部數據集合:

Step7:SFp的數據處理結果為:

D2={T2,iu},T2={t1,t2,…,tf}

Step8:取局部距離數據的均值。

Step9:計算均值化后預警目標In與特征SFp的協方差矩陣。

rd=V/iσdsσd

將協方差和標準差帶入,計算關聯系數:

rd=

并且-1≤rd≤1,當該數值的絕對值越大,表示相關性越強;當rd=0,表示預警目標與該影響特征不相關;當rd>0,表示兩者之間正相關,反之,則負相關。

Step11:計算關聯度。

上一步中得到的相關系數表示每個具體數據項與預警目標之間的關系,為了解數據序列整體上的關聯程度,計算關聯系數的平均值。

Step12:數據處理結果。

根據關聯系數反映出的關聯度,初步篩選出針對預警目標的粗糙原始影響特征,則篩選出的粗糙原始影響特征集合表示如下:

Un={OUn1,OUn2,…,OUnk|k

End

經過上述步驟,完成基于均值化的分段式時序數據處理,對比分段處理前后數據特點可知,原始數據基數大、差異小、數量多、精度低,處理后局部距離數據基數小、差別大、數量適中、精度較高[11]。

2 G-R分段擬合模型的提出

數據變化模式的最優計算方法是數值擬合參數計算。基于損耗性異常情況下各特征對預警目標影響的研究,通過對大量實驗數據的處理以及數據點的散點圖分布,發現曲線比較平滑,呈正態分布,所以最終提出以高斯-瑞利模型(用G-R表示)分段擬合數據點。其中,高斯函數是標準的正態函數[12],瑞利函數描述平穩窄帶的高斯過程[13],二者分段擬合數據。

2.1G-R函數的分段擬合

截取上述方法中獲取的距離數據su,其離散點分布如圖2所示。

圖2 距離數據與時間序列擬合曲線

當預警目標I觸發,分析特征集內特征:隨著時間序列的推移,該特征整體呈下降趨勢,最大峰值處于tmax,在tmax至tf區間,曲線呈平緩下降趨勢,達到時間點tf之后,曲線下降趨勢更加緩慢,將tf至td區間作為函數余音。在tmax至tf區間用高斯函數處理;tf至td區間采用瑞利函數處理。分段擬合函數的表達式為:

由擬合參數構成的參數集V={a,b,c,σ},并以{T1,iu}進行擬合,逐一對滿足該模型元素SFp進行參數求解,得到:Vr={ar,br,cr,σr}。其中,r是滿足G-R模型的元素數量。Vr合并得到特征矩陣:

該模型實現了對階段連續數據的分段擬合,在提高擬合精度和效果的同時,減小了擬合誤差。通過連續曲線反映出的特征數據點與時間序列間的關系,發現數據內部之間的潛在關系,提取有用信息,為生產預警提供準輔助決策。

2.2模型校驗

獲得預測結果后,通過計算相對誤差及均方根誤差校驗模型的準確度。根據距離偏移誤差公式得:

ψd=F(Td)-iud

其中,ψd表示在某時間點Td,預期結果F(Td)與實際樣本值SF的偏移差。

均方根誤差為[14]:

通過RMSEd的值,反映預測數據偏離真實值的程度,作為驗證該模型的準確性。RMSEd越小,表示測量精度越高。當數據偏差較大時,根據Un集取樣,重新擬合計算并校正模型結果以實現自適應過程。

3 設計實例

以三次采油數據為基礎,通過分析油田施工后的生產數據、綜合數據以及相關作業的歷史數據,挖掘油田生產過程中的生產異常情況,并研究針對生產異常情況的影響特征的變化規律和模式。以油井日產油生產異常為例,完成有效特征集的篩選以及模式挖掘的過程。具體處理過程如下:

(1)預警目標I={日產油},收集與預警目標相關的原始項目集合,包括開發動態數據庫、開發靜態數據庫、井下作業數據庫、采油管理數據庫中的項目集合200余項,這里主要研究損耗性異常情況下特征的變化情況,所以去掉驟發性異常特征以及靜態物性特征,篩選得到數據項100余項。

(2)特征集邏輯轉換。建立特征集與數據實體之間的映射關系,如表1所示。

表1 基礎特征庫信息表

(3)選取時間粒度。選取2010-2016年的數據作為基礎數據。根據影響因子U與數據實體S的映射關系F,引入時間序列,截取數據粒度,近三年期數據按照大粒度截取,久遠的數據按照小粒度截取,即大粒度截取每天的綜合數據,小粒度截取每月的匯總數據:

T1=Y2010,13,m=36

T2=Y2014,16,m=940

(4)計算關聯度。利用基于均值化的關聯分析的方法建立影響特征與數據體內數據實體之間的關聯關系,引入均值化方法計算影響特征與預警目標之間的關聯度。通過計算關聯度大小,決定各個特征之間的關聯程度,剔除完全不相關特征,得到特征項80項。

經過特征篩選,最后得到重要特征集共計16項。

日產油的重要特征子集構成如下:

Un={含水,套壓,沉沒度,聚合物用量,采聚濃度,采出程度,砂巖厚度,有效厚度,泵徑,加砂量,油壓,日產液,滲透率,液面深度,泵效,流壓}

(5)根據G-R模型對特征集的元素分段擬合對參數進行求解,參數計算結果構成的矩陣表現如下:

將參數帶入G-R模型,分段擬合,結果見表2。

表2 G-R模型預測結果

表2給出了G-R模型的預測結果以及以相對誤差和均方根誤差作為評價指標的計算結果,從評價指標來看,G-R模型取得了較精確的預測效果。

G-R模型的含水數據擬合曲線如圖3所示。

圖3 G-R擬合值與實際值的比較

通過與原始觀測數據的對比,發現擬合數據與原始數據吻合度很高,說明G-R模型的可信度很高。

(6)根據設定的預警目標及篩選出的有效特征集,監測某一區塊內20余口井一個月內流壓,聚合物用量,含水等數據項與日產油的變化情況。應用效果如表3所示。

表3 日產油異常情況

其中,約85%口井的預測情況與實際情況的結果保持一致。由此,上述步驟中的特征篩選及G-R分段擬合模型可以應用在油田生產異常預警領域。

4 結束語

為實現深度挖掘數據內部潛在規律,加強生產異常狀況分析,提高挖掘準確率,提出了基于關聯度分析的生產異常模式挖掘方法。以SF閉包模型表示自然語言與數據實體之間的映射關系,完成特征集的邏輯轉換,采用均值化方法處理基于粒度劃分的分段式時序原始數據,降低數據維度,建立預警目標與影響特征之間的關聯關系,根據關聯度的計算結果剔除完全不相關特征,實現數據的預處理過程。同時分析各特征數據點的散點圖分布情況,選定G-R模型擬合數據,得到擬合矩陣,利用均方根誤差方法驗證了該方法的準確性,提高了挖掘結果的可信度。

[1] 劉立坤.海量文件系統元數據查詢方法與技術[D].北京:清華大學,2011.

[2] 王 虹,張文修,李鴻儒.粗糙模糊集的不確定性度量[J].計算機工程與應用,2005,41(2):51-52.

[3] Deng Xiaoming,Wu Fuchao,Wu Yihong.An easy calibration method for central catadioptric cameras[J].Acta Automation Sinica,2007,33(8):801-808.

[4] 王曉鵬,武 彤.生產質量控制數據倉庫模型設計與實現[J].計算機技術與發展,2015,26(6):181-184.

[5] 嚴導淦.量綱分析及其應用[J].物理與工程,2012,22(6):22-26.

[6] 李 莉,孫永霞.基于均值化主成分分析的霧霆環境分析與研究[J].計算機應用研究,2015,32(5):1373-1375.

[7] Sun Haishun,Li Jiaming,Li Jinghua,et al.An investigation of the persistence property of wind power time series[J].Science China (Technological Sciences),2014,57(8):1578-1587.

[8] 李春生,邸京華,李少龍,等.時序化生產預警有效影響因子的獲取方法研究[J].計算機技術與發展,2016,26(7):122-126.

[9] 王 虎,丁世飛.序列模式挖掘研究與發展[J].計算機科學,2009,36(12):14-17.

[10] 謝永芳,胡志坤,桂衛華.基于數值型數據的模糊規則快速挖掘方法[J].控制工程,2006,13(5):442-444.

[11] 張可佳.基于混合智能的聚驅區塊生產動態預警方法研究[D].大慶:東北石油大學,2016.

[12] 翟繼友,張 鵬.高斯混合模型參數估值算法的優化[J].計算機技術與發展,2011,21(11):145-148.

[13] Abdalroof M S,Zhao Zhiwen,Wang Dehui.Statistical inference for the parameter of rayleigh distribution based on progressively type-i interval censored sample[J].Communications in Mathematical Research,2015,31(2):108-118.

[14] Wang H B,Wang Y,Fang J,et al.Simulation research on a minimum root-mean-square error rotation-fitting algorithm for gravity matching navigation[J].Science China:Earth Sciences,2012,55(1):90-97.

Abnormal Production Pattern Mining Based on Relevancy Analysis

LI Chun-sheng,SONG Jia,ZHANG Ke-jia,ZHANG Yong

(College of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

In order to solve the problem of high original data dimension,complex data structure and large data volume in the process of application of the intelligent production alarming method,a mining method of abnormal production pattern based on relevancy analysis is proposed.It establishes the incidence relation between early warning target and influential characteristics and screens out important features through relevancy calculations.In the process of data processing by equalization method the distance data is extracted by introduction of time series and selection of time granularity and preparation process of data is completed by calculation of relevancy,elimination of invalid influential features and reduction of data dimension.Combined with the data characteristic of abnormal loss,the G-R segmentation fitting method based on time series to fit the data and root mean square error method to verify the accuracy of the model.In the process of experimental verification,the abnormal situation of tertiary recovery production is taken as an example and the G-R model is adopted to carry on segmentation fitting towards the elements of the feature setting for solution of relevant parameters.The experimental results show that the proposed method agrees well with the original observation data,and its prediction accuracy is high.

feature selection;time sequence;function fitting;relevancy analysis

2016-08-17

:2016-11-23 < class="emphasis_bold">網絡出版時間

時間:2017-07-05

黑龍江省自然科學基金面上項目(F2015020);黑龍江省教育科研規劃重點課題(GJB1215013);黑龍江省2016年教育科研課題(16Q117)

李春生(1960-),男,博士,教授,博士生導師,研究方向為人工智能及其應用、模式識別與人工智能;宋 佳(1991-),女,碩士研究生,通訊作者,研究方向為數據挖掘技術。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.036.html

TP301

:A

:1673-629X(2017)09-0124-05

10.3969/j.issn.1673-629X.2017.09.027

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 超碰91免费人妻| 亚洲国产日韩在线成人蜜芽| 国内精品免费| 久久国产乱子伦视频无卡顿| 亚洲免费毛片| 伊人成色综合网| 国产精品毛片一区视频播| 一级毛片高清| 亚洲水蜜桃久久综合网站| 国产成本人片免费a∨短片| 天天摸天天操免费播放小视频| 亚洲AV无码一区二区三区牲色| 国产日韩AV高潮在线| 中国国产一级毛片| 啪啪永久免费av| 成人午夜精品一级毛片| 人妻熟妇日韩AV在线播放| 久久精品国产免费观看频道| 成年女人a毛片免费视频| 久久香蕉国产线看观看精品蕉| 国产在线观看91精品亚瑟| 91年精品国产福利线观看久久 | 国内精品一区二区在线观看 | 四虎精品免费久久| 夜夜操狠狠操| 成人国产免费| 亚洲精品大秀视频| 小说区 亚洲 自拍 另类| 国产精品亚洲αv天堂无码| 奇米影视狠狠精品7777| 久久综合干| 国产精品亚洲片在线va| 国产综合另类小说色区色噜噜| 99精品视频在线观看免费播放| 国产91透明丝袜美腿在线| 日韩中文欧美| 久久成人国产精品免费软件| 夜夜拍夜夜爽| 亚洲成a∧人片在线观看无码| 999福利激情视频| 亚洲福利片无码最新在线播放| 啪啪啪亚洲无码| 免费可以看的无遮挡av无码| 四虎影院国产| 亚洲国产精品日韩av专区| 最新国产在线| 91在线国内在线播放老师| 亚洲欧美日韩中文字幕在线| 韩日免费小视频| 就去吻亚洲精品国产欧美| 国产三级毛片| 免费一级无码在线网站| 97se亚洲综合不卡| 美女被躁出白浆视频播放| a级毛片在线免费| 欧美成人午夜视频免看| 精品综合久久久久久97| 91在线丝袜| 91精品久久久久久无码人妻| 九九热这里只有国产精品| 亚洲电影天堂在线国语对白| 色婷婷在线影院| 久久久久国产精品嫩草影院| 波多野结衣在线一区二区| 久久精品只有这里有| 奇米影视狠狠精品7777| 国产精品福利社| 亚洲天堂免费| 欧美一区二区福利视频| 狠狠综合久久久久综| 亚洲精品自拍区在线观看| 高清色本在线www| 国产美女久久久久不卡| 亚洲 欧美 中文 AⅤ在线视频| 久久永久视频| 麻豆精品久久久久久久99蜜桃| 日本黄色a视频| 国产乱人乱偷精品视频a人人澡| 97超级碰碰碰碰精品| 日本在线免费网站| 日本欧美一二三区色视频| 久久77777|