李春生,邸京華,李少龍,張可佳,王 梅
(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
時序化生產(chǎn)預(yù)警有效影響因子的獲取方法研究
李春生,邸京華,李少龍,張可佳,王 梅
(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
在生產(chǎn)預(yù)警有效影響因子的篩選過程中,為了達到降低維度,增強影響因子集的有效性,從而提高生產(chǎn)異常預(yù)警準確率的目的,選取和分析所有原始項目,應(yīng)用模糊綜合評價法量化模糊限制語,采用TRIMMEAN內(nèi)均法排除極端評估值。運用特征選擇技術(shù)發(fā)現(xiàn)敏感特征因子,借鑒混合智能方法定義影響因子集的邏輯表達結(jié)構(gòu),基于粒度分析處理時序化數(shù)據(jù),同時利用激劇判定函數(shù)摒棄無效元素完成對數(shù)據(jù)的降維以及篩選,得到高精細化的有效影響因子集。以此達到輔助深度挖掘數(shù)據(jù)內(nèi)部潛在規(guī)律,解決信息雜亂等現(xiàn)象,運用于生產(chǎn)異常分析,提高預(yù)警準確率的目的。最后針對大慶油田某采油廠生產(chǎn)歷史數(shù)據(jù),完成時序化生產(chǎn)預(yù)警有效影響因子的獲取。
生產(chǎn)異常預(yù)警;模糊綜合評價法;特征選擇;時序化數(shù)據(jù);激劇函數(shù)
經(jīng)過數(shù)十年的研究發(fā)展,針對生產(chǎn)異常的預(yù)警手段已經(jīng)在大規(guī)模生產(chǎn)領(lǐng)域中得到廣泛應(yīng)用,并發(fā)揮著極大的作用。在數(shù)字化生產(chǎn)普及初期,各類數(shù)據(jù)尚不完善,預(yù)警過程完全依據(jù)專業(yè)技術(shù)人員感官評估和預(yù)測,對預(yù)警信息僅作驗證測試,實為滯后預(yù)警。隨著傳感器技術(shù)及各種監(jiān)測、測試手段的逐步普及,以數(shù)據(jù)處理、數(shù)據(jù)建模方法為依托,結(jié)合人工經(jīng)驗實現(xiàn)預(yù)警模式的探測式與監(jiān)測式異常預(yù)警系統(tǒng)開始得到推廣應(yīng)用。例如M600系統(tǒng)、TSE/TEM系統(tǒng)(用于發(fā)電預(yù)警監(jiān)測)[1]。這類系統(tǒng)提供可以信任的推理依據(jù),適用于生產(chǎn)模式變化不強,規(guī)律性明顯,監(jiān)控范圍廣泛的工業(yè)生產(chǎn)領(lǐng)域,但實際推理過程需要借助人工輔助分析,智能化推理支持度不高。隨著數(shù)字化生產(chǎn)的進步以及與日俱增的數(shù)據(jù)量[2],挖掘數(shù)據(jù)內(nèi)部存在規(guī)律成為智能化預(yù)警的關(guān)鍵。時序化數(shù)據(jù)處理方法的提出降低了大數(shù)據(jù)量分析過程中的耦合度,提高了數(shù)據(jù)處理的精細化,對于數(shù)據(jù)挖掘的有效性意義重大[3]。
探測監(jiān)測手段以及數(shù)據(jù)處理方法對于生產(chǎn)異常預(yù)警領(lǐng)域至關(guān)重要。雖然通過工作人員和專家的豐富經(jīng)驗積累可以很好地推理業(yè)務(wù)領(lǐng)域內(nèi)生產(chǎn)異常的影響因素,但仍然存在以下缺陷:
(1)多數(shù)異常間相互級聯(lián)度較高,易并發(fā),針對生產(chǎn)異常預(yù)警形成的實踐經(jīng)驗和理論體系的通用性不強,經(jīng)驗和知識的松散度和針對性較高,不同專家對于異常的描述以及閾值的定義不同,存在無法融合的情況,針對生產(chǎn)異常情況缺少統(tǒng)一標準的影響因子集。
(2)異常預(yù)警所涉及的影響因子繁多,且樣本具有不確定性,描述異常樣本的特征維數(shù)高。
(3)針對生產(chǎn)早期微弱異常以及數(shù)據(jù)缺失狀況,非敏感影響因子的隱蔽性較強[4],異常表征不明顯,為推理可持續(xù)性采用預(yù)測數(shù)據(jù)填補,使得影響因子集存在不準確性。
針對上述問題,研究時序化生產(chǎn)預(yù)警有效影響因子的獲取方法。下文將首先針對預(yù)警目標獲取相應(yīng)粗糙原始數(shù)據(jù),應(yīng)用模糊綜合評價法量化專家對影響因子的模糊語義描述,采用TRIMMEAN內(nèi)均法排除極端數(shù)據(jù)點。運用特征選擇技術(shù)從特征相關(guān)性和冗余性出發(fā),通過CF-ISF權(quán)重計算方法發(fā)現(xiàn)敏感特征因子,剔除冗余數(shù)據(jù)。其次,定義影響因子集的邏輯表達結(jié)構(gòu),通過提出ND模型建立影響因子與粗糙原始項目的映射關(guān)系。引入時間序列,結(jié)合業(yè)務(wù)數(shù)據(jù)的特點與同一模式多重粒度的思想,選取最佳數(shù)據(jù)粒度進行數(shù)據(jù)處理。最后,利用激劇判定函數(shù)對數(shù)據(jù)進行降維以及有效化篩選,得到高精細化的有效影響因子集,完成對時序化生產(chǎn)預(yù)警有效影響因子的獲取。
流程如圖1所示。

圖1 有效影響因子集的獲取
原始項目組是數(shù)據(jù)有序化構(gòu)成的信息項集合,是影響因子集的構(gòu)建基礎(chǔ)。對原始數(shù)據(jù)的合理化處理是實現(xiàn)有效數(shù)據(jù)項獲取的前提。因此,文中針對某異常預(yù)警目標進行粗糙原始項目選定,定義影響因子的表達結(jié)構(gòu),建立影響因子與粗糙原始項目的映射關(guān)系,完成原始影響因子集的組織和獲取,為生產(chǎn)原始數(shù)據(jù)抽象化打下重要基礎(chǔ)。
2.1 粗糙原始項目的選定
為降低原始項目分析的難度,在全域內(nèi)剔除完全無關(guān)的原始項目。針對某異常預(yù)警目標,選定粗糙原始項目,應(yīng)用模糊綜合評價法,通過對領(lǐng)域內(nèi)專家組語義傾向性評價確定隸屬度以及權(quán)重,并對自然語言的語義限制詞(模糊限制語)進行定量化描述[5],如表1所示。
表1 模糊限制語的數(shù)學(xué)和圖例表示

通過表1內(nèi)圖例中虛線與實線間的面積可以比較出不同模糊限制語的隸屬度大小,面積越大則隸屬度越高。
設(shè)定領(lǐng)域內(nèi)某異常預(yù)警目標W,于是?與W相關(guān)的所有原始項目集合U為:
U={op1,op2,…,opn}
其中,op包括對原始項目的基本屬性描述和領(lǐng)域內(nèi)專家組對于該原始項目有效性的語義傾向描述;n表示原始項目數(shù)量。
利用模糊綜合評價法基于模糊數(shù)學(xué)的隸屬度理論通過對語義限制詞的定量化映射可得專家組對于集合U的量化結(jié)果:
Q=
其中,ξ表示項目的權(quán)重系數(shù);m表示專家組專家數(shù)量。
則某opn的量化結(jié)果為:
Qr={v1,v2,…,vm|m>2}
為避免極端評估降低評價準確性,采用TRIMMEAN內(nèi)均法進行op評估,取剔除數(shù)據(jù)點的比例為20%,則評估結(jié)果opv -可表示為:
于是,W的原始項目集合U的評價結(jié)果可進行如下描述:
利用特征選擇技術(shù)發(fā)現(xiàn)敏感特征影響因子,剔除評估結(jié)果完全無關(guān)項,獲得最能代表問題空間的特征子集。從特征相關(guān)性和冗余性定義出發(fā)[6],采用CF-ISF(CharacteristicFrequency,InverseSampleFrequency)權(quán)重計算方法,則某影響因子的權(quán)重為:

其中,opfk為特征項opk在樣本集中出現(xiàn)的次數(shù);N為全部訓(xùn)練集的樣本數(shù);nk為訓(xùn)練樣本中出現(xiàn)特征項opk的次數(shù)。
考慮到樣本長度對權(quán)值的影響,對ξk做歸一化處理,將各項的權(quán)值規(guī)范到[0,1]之間:
(1)
于是,在剔除評估結(jié)果完全無關(guān)項以后,得到異常預(yù)警目標W的粗糙原始項目:
Urough={opr1,opr2,…,oprk|k 2.2 影響因子的邏輯轉(zhuǎn)化 定義影響因子的邏輯表達結(jié)構(gòu),是影響因子進行抽象描述和符號轉(zhuǎn)換,以及后續(xù)數(shù)據(jù)處理的重要步驟,也是特征模式提取、數(shù)據(jù)挖掘和應(yīng)用推理的必備過程。結(jié)合混合智能方法的提出思想,影響因子的表達不僅需要包括支持知識推理、迭代學(xué)習(xí)的相關(guān)主要屬性,同時也要考慮保證在Hebbian學(xué)習(xí)、置信危機消解過程中的副屬性描述[7]。定義C-E結(jié)構(gòu),具體描述如下: 定義影響因子可由表示直接支持其有效化計算及特征提取的屬性和方法的集合C(核心集)與具有其他表征意義或具有輔助作用的屬性和方法的集合E(擴展集)表示。其一般形式:R={C,E|C≠?}。其中核心集C可表示為: 擴展集E可表示為:E={Dop}。其中,Dop表示該影響因子的項目集合所包含的數(shù)據(jù)信息。由業(yè)務(wù)數(shù)據(jù)特點可知,原始數(shù)據(jù)多數(shù)以不同粒度的時間序列進行存儲,這一特點是選擇原始項目數(shù)據(jù)處理方法μc的重要依據(jù)。 由此完成對C-E結(jié)構(gòu)的設(shè)計和描述。C-E結(jié)構(gòu)不僅實現(xiàn)將離散的、模糊的信息抽象化和結(jié)構(gòu)化,同時,結(jié)構(gòu)松散的設(shè)計思路滿足了混合智能方法的需要。 2.3 建立影響因子與粗糙原始項目的映射關(guān)系 在完成獲取粗糙原始項目集,并定義C-E結(jié)構(gòu)描述影響因子后,需要獲取與生產(chǎn)異常相關(guān)的全部原始影響因子。于是,依據(jù)業(yè)務(wù)要求和生產(chǎn)異常預(yù)警理論,為實現(xiàn)建立自然語言描述的影響因子與數(shù)據(jù)體內(nèi)數(shù)據(jù)實體的映射關(guān)系,引入ND模型。具體定義如下: 定義1:包含影響因子的自然語言形式op,直接描述op的數(shù)據(jù)實體du及映射關(guān)系函數(shù)F的閉包結(jié)構(gòu)成為ND模型。其一般表示形式為: ND={op,du,F|du≠?,op∈Uc} 其中,du為數(shù)據(jù)實體,實例化后為數(shù)據(jù)體內(nèi)的數(shù)據(jù)單項;Uc為由專家組提供的原始影響因子集;F為映射關(guān)系函數(shù),在op可直述時,F(xiàn)可為空,當op不可直述時,du由F進行計算獲得。 ND模型建立了自然語言與邏輯語言間的映射關(guān)系,并將因子間相互獨立,可以清晰地描述其抽象結(jié)構(gòu),提高Uc集的松散度,易于分析和計算。 以ND模型進行Uc集的邏輯轉(zhuǎn)化,得到原始閉包集FUc。其一般表述形式為: FUc={FC1,FC2,…,FCn|n=len(Uc)} 其中,F(xiàn)Uc集維度與Uc集維度相同,并存在一一對應(yīng)關(guān)系。 受到專家不確定性經(jīng)驗及定性化知識的影響,F(xiàn)Uc集往往包含真實集Rs,即Rs?FUc。為了進一步提高FUc集的有效性,提出一種基于粒度分析的數(shù)據(jù)處理和清洗方法,去除FUc集內(nèi)無效元素,降低模式維度,防止維災(zāi)。 數(shù)據(jù)粒度是數(shù)據(jù)倉庫中數(shù)據(jù)的細化和綜合程度。一般情況下,根據(jù)數(shù)據(jù)粒度劃分標準,可以將數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為:詳細數(shù)據(jù)、輕度總結(jié)、高度總結(jié)。數(shù)據(jù)信息細化程度越高,粒度越小;細化程度越低,粒度越大。粒度的選取原則是使其處于一個合適的級別,既不能太高也不能太低。低的粒度級別能提供詳盡的數(shù)據(jù)信息,但要占用較多的存儲空間和需要較長的查詢時間。高的粒度級別能快速方便地進行查詢,但不能提供過細的數(shù)據(jù)信息。 數(shù)據(jù)粒度的確定實質(zhì)上是業(yè)務(wù)決策分析、硬件、軟件和數(shù)據(jù)倉庫使用方法的綜合考慮。從生產(chǎn)異常動態(tài)分析需求的角度看,希望數(shù)據(jù)能以最原始的、細節(jié)化的狀態(tài)保存,使得分析的結(jié)論最可靠[9]。但是,過低的粒度、過大的數(shù)據(jù)規(guī)模,在分析過程中給系統(tǒng)的CPU和I/O通道增加過大的負擔,從而降低了系統(tǒng)效率。同時根據(jù)業(yè)務(wù)特點可知,研究異常事件周期時間內(nèi)影響因子數(shù)據(jù)變化規(guī)律是發(fā)現(xiàn)異常特征的最優(yōu)方法。由于影響因子存在連續(xù)性、周期性和時序性等特點,并且影響因子的時間粒度受關(guān)注度影響,因此,結(jié)合業(yè)務(wù)數(shù)據(jù)的特點[10],借鑒同一模式多重粒度的思想[11],通過以下方式確定合理的粒度值。 引入時間序列,使用低粒度數(shù)據(jù)保存近期的生產(chǎn)數(shù)據(jù)和匯總數(shù)據(jù),對時間較久遠的生產(chǎn)數(shù)據(jù)只保留粒度較大的匯總數(shù)據(jù)。這樣既可以對生產(chǎn)異常近況進行細節(jié)分析,又可以利用匯總數(shù)據(jù)對生產(chǎn)異常規(guī)律進行分析。數(shù)據(jù)處理具體算法如下: Start:生產(chǎn)異常預(yù)警目標W觸發(fā)。 Step3:若dm原始數(shù)據(jù)長度s>0,計算dm原始數(shù)據(jù)均值。 (2) Step4:將dm原始數(shù)據(jù)處理為局部距離數(shù)據(jù)。 Step5:取局部距離的標準差,得到數(shù)據(jù)集dm的離散程度。 (3) Step6:FCn的數(shù)據(jù)處理結(jié)果為: D={T,σ},T={t1,t2,…,tm},σ={σ1,σ2,…,σm} End FCn數(shù)據(jù)處理結(jié)果D={T,σ}結(jié)合Carlson定理(柯西定理針對m×n矩陣的一般推廣形式)及切比雪夫變形[12]得到激劇判定函數(shù): 其中,dms為分段內(nèi)原始數(shù)據(jù);s為分段內(nèi)數(shù)據(jù)長度;m為分段量。 將函數(shù)整理得: (4) 借鑒特征選擇方法的思想給出全局閾值系數(shù)ξ作為有效權(quán)重[13],于是得到閾值函數(shù): μr(σ)=ξμ(σ) 取μ(σ)=max(σ)-min(σ),根據(jù)激劇判定函數(shù)F(σ),閾值函數(shù)μr(σ),給出如下判定方法。 定義2:在FUc集內(nèi)元素FCn,以原始數(shù)據(jù)作為計算樣本,當F(σ)>μr(σ),則認為FCn發(fā)生了激劇變化,且判定元素FCn是FUc集的有效元素。 利用閾值函數(shù)μr(σ)控制數(shù)據(jù)實體對特定指標的影響程度,通過對FUc集內(nèi)元素的判定,逐一認定數(shù)據(jù)實體FCn的有效化,去除無效元素,過濾噪聲數(shù)據(jù),降低FUc集的維度,減少輸入變量,簡化網(wǎng)絡(luò)結(jié)構(gòu),達到在有限數(shù)據(jù)下縮短訓(xùn)練周期,提高泛化能力的目的。最終得到有效FUc集。 在油田生產(chǎn)領(lǐng)域,影響因子的有效性越高,異常預(yù)警的準確率就越高,這為安全生產(chǎn)以及生產(chǎn)效率提供了保障。在對油田生產(chǎn)開發(fā)的現(xiàn)有數(shù)據(jù)組成和特點分析后發(fā)現(xiàn),故障發(fā)生的歷史數(shù)據(jù)與生產(chǎn)數(shù)據(jù)的原始項目基數(shù)極大,全域內(nèi)所有原始項目分析難度極大。為了提高實例效果的直觀性和分析效率,縮小專家組的界定范圍,通過與8位聚驅(qū)區(qū)塊壓裂作業(yè)工程師及2位石油勘探領(lǐng)域?qū)<医M成的專家小組的交流,選定生產(chǎn)異常預(yù)警目標W為壓裂增油量[14]。大慶油田某采油廠所處聚驅(qū)區(qū)塊為具體樣本采集區(qū)塊,界定針對W的粗糙原始項目集U,并對U中元素進行評價,得到原始項目的打分(0-1)情況,如表2所示。 表2 粗糙原始項目專家打分情況 通過模糊限制詞的定量化映射,得到專家小組對于U的量化結(jié)果: Q= 表3 粗糙原始項目集的影響因子選定 圖2和圖3分別為壓裂層段砂巖厚度以及含水分級對預(yù)警目標W的影響關(guān)系圖。 圖2 油井壓裂厚度增油與壓裂層段厚度關(guān)系曲線 由圖2可以看出,壓裂井的平均每米壓裂砂巖厚度的增油量隨組成壓裂層段厚度的減少而增加,當砂巖厚度在2~6m時對壓裂增油量的影響程度非常大。 由圖3可以看出,在油井自噴開采條件下不可忽視壓裂井含水的高低(即層間干擾的作用)對壓裂效果的影響。一般說來,油井含水低有利于壓裂效果的發(fā)揮[15],但是在油井轉(zhuǎn)抽以后,油井含水對壓裂效果的影響程度相對減小。 圖3 壓裂增油量與含水關(guān)系曲線 經(jīng)過上述步驟,最終得到針對生產(chǎn)異常預(yù)警目標W(壓裂增油量)的包含12項有效影響因子的數(shù)據(jù)集: FUc={壓裂井點所處砂體部位,儲油砂體的沉積環(huán)境,液量含水比,壓裂液類型,支撐劑粒度,破裂壓力,壓裂時間,砂巖厚度,壓裂有效厚度,層措施位平均滲透率,措施層位有效滲透率,壓裂層平均加砂比} 文中提出了時序化生產(chǎn)預(yù)警有效影響因子的獲取方法。通過建立自然語言描述的影響因子與數(shù)據(jù)體內(nèi)數(shù)據(jù)實體的映射關(guān)系,結(jié)合模糊綜合評價法量化專家對影響因子的模糊語義描述,構(gòu)建影響因子邏輯表達結(jié)構(gòu)。采用CF-ISF權(quán)重算法基于特征選擇技術(shù)挖掘時序化數(shù)據(jù)的敏感特征因子,利用TRIMMEAN內(nèi)均法及均方差收斂計算等方法過濾噪聲數(shù)據(jù),同時根據(jù)激劇判定函數(shù)實現(xiàn)對數(shù)據(jù)的有效化判定,從而獲取時序化生產(chǎn)預(yù)警的有效影響因子,以達到輔助生產(chǎn)異常動態(tài)分析、提高異常預(yù)警準確率的目的。 [1]ZhangJian,HuangKun.Researchonearly-warningmethodanditsapplicationofcomplexsystemofcirculareconomyforoilandgasexploitation[J].EnergyProcedia,2011,5:2040-2047. [2] 王 添,姜 麟,米允龍.海量數(shù)據(jù)下不完備信息系統(tǒng)的知識約簡算法[J].計算機技術(shù)與發(fā)展,2015,25(1):137-142. [3] 蘇新寧,楊建林,江念南,等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006. [4] 王 虹,張文修,李鴻儒.粗糙模糊集的不確定性度量[J].計算機工程與應(yīng)用,2005,41(2):51-52. [5] Negnevitsky M.人工智能:智能系統(tǒng)指南[M].北京:機械工業(yè)出版社,2012. [6] 王美方,劉培玉,朱振方.一種基于TFIDF的特征選擇方法[J].計算機工程與設(shè)計,2007,28(23):5795-5796. [7] 張可佳,李春生,姜海英,等.時間序列下模式挖掘模型設(shè)計[J].計算機工程與應(yīng)用,2015,51(19):146-151. [8] Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of 14th international conference on machine learning.Nashville,US:[s.n.],2007:412-420. [9] 呂海燕,車曉偉.數(shù)據(jù)倉庫中數(shù)據(jù)粒度的劃分[J].計算機工程與設(shè)計,2009,30(9):2323-2325. [10] 王曉鵬,武 彤.生產(chǎn)質(zhì)量控制數(shù)據(jù)倉庫模型設(shè)計與實現(xiàn)[J].計算機技術(shù)與發(fā)展,2015,25(6):181-184. [11] 王 虎,丁世飛.序列模式挖掘研究與發(fā)展[J].計算機科學(xué),2009,36(12):14-17. [12] 卓書月.柯西不等式及其變式的應(yīng)用[J].民營科技,2011(9):78-78. [13] Duda R O,Hart P E,Stock D G.模式分類[M].北京:機械工業(yè)出版社,2000:36-39. [14] 高 建,侯加根,王 軍,等.聚合物驅(qū)后砂巖儲層巖石物理特征變化機制[J].中國石油大學(xué)學(xué)報:自然科學(xué)版,2009,33(3):22-26. [15] 徐松遼.影響二類聚驅(qū)油層壓裂效果的原因分析[J].黑龍江科技信息,2012(11):63-63. Research on Acquisition Method of Effective Impact Factors in Production Early Warning by Time Series LI Chun-sheng,DI Jing-hua,LI Shao-long,ZHANG Ke-jia,WANG Mei (College of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China) In the screening process of effective impact factors for early warning,in order to reduce dimension,enhance the effectiveness of the impact factor set and improve accuracy in early warning of abnormal production,all original items are selected and analyzed,and fuzzy constraints is quantified based on fuzzy comprehensive evaluation method,using TRIMMEAN to eliminate extreme values.Then,sensitive feature factors are determined by using feature selection techniques.At the same time,the logical expression structure of the influence factor set is defined via the hybrid intelligent method,and the time sequence data is manipulated based on granularity analysis.Next,it finishes dimensionality reduction and selection of data through the dramatic function to achieve the effective impact factors of high precision.To reach the purpose that excavates potential law in the data deeply,and solves the phenomenon of information clutter,using the method in the production of abnormal analysis to improve accuracy in early warning.Finally,in combination with the history data of an oil production plant in Daqing Oilfield,the effective impact factors acquisition of the production early warning by time series is achieved. early warning of abnormal production;fuzzy comprehensive evaluation method;feature selection;time series data;dramatic function 2015-09-08 2015-12-11 時間:2016-05-25 黑龍江省科學(xué)基金項目(F2015020);東北石油大學(xué)校培育基金項目(XN2014102) 李春生(1960-),男,博士,教授,博士生導(dǎo)師,研究方向為人工智能及其應(yīng)用、數(shù)據(jù)挖掘與智能系統(tǒng);邸京華(1990-),女,碩士研究生,研究方向為數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)。 http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1706.028.html TP312 A 1673-629X(2016)07-0122-05 10.3969/j.issn.1673-629X.2016.07.026
3 基于粒度分析的數(shù)據(jù)處理


4 影響因子的有效化
5 油田生產(chǎn)異常預(yù)警有效影響因子的獲取






6 結(jié)束語