龐智 范廣玲 高芳芳 王嘉鶴 康方允

摘 要 如何篩選評價指標,本文對大慶油田的電泵運行問題進行了深入的探索、分析和研究,采用了主成分分析方法,在眾多預選指標的基礎上,篩選出與評價目標貢獻率最大的評價指標,盡最大可能采用少的、兩兩不相關的新變量,并且原有的信息保留要最大化。選取目前油田占有量較高的具有代表性的150m3/d泵作為評價實例,以3年內B1-1-P068井的9項指標的1203條記錄的原始數據作為評價對象,通過SPSS中相關性矩陣減少變量個數,再用因子分析,確定主成分,最后建立了潛油電泵的重要技術評價指標泵效的評價模型。
【關鍵詞】數據預處理 相關性矩陣 主成分分析 SPSS
1 問題提出
系統運行評價體系主要由評價指標的篩選、指標權重的確定、模型的選取三部分組成。評價指標的確定關系到評價模型的質量、評價結果的準確度,因此評價指標的確定是構建好的評價體系的關鍵一環。以潛油電泵系統運行技術評價為例,在眾多預選指標的基礎上,如何篩選出與評價目標貢獻率最大的、相關性最強的、更合理的評價指標,這是一個數據挖掘的過程,本文采用主成分分析的方法來解決這一問題。
2 理論分析
2.1 主成分分析
也稱為主分量分析,就是將原有的多個變量,運用線性組合的方式,提煉出較少的彼此間獨立的幾個新變量的一種多元統計分析方法。在研究多變量的問題時,我們會用到統計分析問題的方法,由于變量個數太多增加了解決問題的復雜性。絕大部分情況下,變量之間存在一定的聯系也就是相關性,可以解釋為變量間在反映此問題時有一定的信息重疊。我們希望在盡可能得到較多信息的前提下,運用的較少的變量,并且這些新變量之間是不相關的。
2.2 主成分分析的基本原理
主成分分析法采用一種降維的統計方法,借助正交變換使其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,就是將幾何上原坐標系變換成新的正交坐標系,在樣本點散布最開的p個正交方向上指向,也就是將代數中原隨機向量產生的協方差矩陣變換成對角矩陣,接下來對多維變量進行降維處理,在一個較高的精度轉換下成低維變量系統,再通過構造適當的函數,從而把低維系統轉變成一維系統。
它的數學模型如下:
(1)原始指標數據的標準化選用p維隨機向量x=(x1,x2,...,xp)T,n個樣品xi=(xi1,xi2,...,xip)T,i=1,2,...,n,n>p,構造樣本陣,對樣本矩陣元素進行標準化變換:
(2)對標準化矩陣Z求相關系數矩陣
(3)解樣本相關矩陣R的特征方程得p個特征根,確定主成分按
確定m值,使信息的利用率達80%以上,對每個,解方程組得單位特征向量b0j。
(4)將標準化后的指標變量轉換為主成分,,U1稱為第一主成分,U2稱為第二主成分,…,Up稱為第p主成分。
(5)對m個主成分進行綜合評價,對m個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
3 潛油電泵系統技術型評價實例
3.1 數據預處理
電泵井生產日期數據,由不同的操作人員錄入,為避免出現不規范問題,做如下預處理措施:
(1)規范數據庫字段的格式:為使數據庫操作減少誤差,統一消去字段值中的空格。
(2)缺失數據的補充:根據線性與非線性插值方法補充缺失數據。
(3)數據標準化,為統計分析做進一步準備。
(4)利用相關性矩陣篩出與泵效相關性較大的指標
將B1-1-P068潛油電泵作為評價樣本,2010年3月1日至2013年9月1日,生產1203天。B1-1-P068井號的生產運行原始數據如表1。
將數據標準化后,生成其余指標與泵效的相關性矩陣,我們找到SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS等9個指標。
3.2 主成分分析
KMO和巴特利特檢驗結果如圖1。KMO值為0.700,因子分析效果一般,但可接受;巴特利特檢驗P值為0,拒絕原假設,變量間相關性顯著,適合于做因子分析。
由Total Variance Explained(主成分特征根和貢獻率)可知,特征根,特征根,前兩個主成分的累計方差貢獻率達79.071%,即涵蓋了大部分信息。這表明前兩個主成分能夠代表最初的12個指標來分析潛油電泵的系統技術。故提取前兩個指標即可。主成分,分別記作F1、F2。
每個評價指標的得分見圖2,各指標在新的主成分中的比重構建成分模型:
4 結論
(1)將錄入數據的12個指標與泵性作相關性分析得到與之相關性大于0.3的9個指標,分別為SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS。
(2)將剩余的9個指標運用主成分分析得到兩個新的線性無關指標,并得出成分模型。
(3)同一口井號,排量為定值,在主成分分析中顯示結果與泵效并無關系,但通過調查發現,針對不同井號而言,排量對泵效有很大影響。
參考文獻
[1]梅思杰,邵永實,劉軍.潛油電泵技術[M].北京:石油工業出版社,2004.
[2]余付平,馮有前,范成禮.基于主成分分析的字典學習[J].控制與決策,2013(07):1109-1112.
[3]陶思羽.基于主成分分析和粗糙集的聚類分析在經濟指標數據中的應用[D].吉林大學,2012.
[4]范廣玲.基于數據挖掘的潛油電泵評價體系研究[D].東北石油大學,2015.
作者簡介
龐智,女,東北石油大學學生。
范廣玲,女,東北石油大學,副教授。
高芳芳,女,東北石油大學,講師。
作者單位
東北石油大學 黑龍江省大慶市 163318