馬海,楊錦舟,肖紅兵,劉慶龍,王延江
(1.中國石化勝利石油管理局鉆井工藝研究院,山東 東營 257017;2.中國石油大學信息與控制工程學院,山東 青島 266555)
當一個變量呈現為空間分布時,稱之為區域化變量[1]。從地質學的觀點來看,區域化變量可以反映地質變量的局部性、連續性、異向性、可遷性等特征。測井曲線符合區域化變量的特征,其插值重構方法研究已成為國內外研究的熱點之一[2-3]。常用的測井曲線插值方法有三角剖分法[4]、距離加權反比法[5]、徑向基函數法[6]、多項式趨勢面法[7]、分形[8]、克里金插值[9]、神經網絡[10]、支持向量機[11]等,其中以克里金插值方法為代表的地質統計學方法和以支持向量機為代表的統計學習理論方法應用最為廣泛。克里金插值算法中的變異函數能夠很好地表征空間變量相關結構性,但平滑效應往往掩蓋了非均質性。支持向量機具有較強的非線性自學習能力和泛化能力,克服了傳統機器學習方法容易陷入局部最小的缺點,但其難以反映空間結構。綜合考慮2種方法,將支持向量機與變異函數相融合,同時利用粒子群優化算法對支持向量機的參數進行優化,這樣既可以體現空間變量的屬相相關性又能夠反映其空間相關性。
支持向量機(Support Vector Machine,SVM)是一種新的機器學習算法,它的基礎是Vapnik的統計學習理論[12-13]。自從 Vapnik等人引入支持向量機理論以來,SVM在模式識別方面得到了廣泛的應用[14-16],近年來也被開始用于回歸估 計[17-18]。傳統的學習方法采用經驗風險最小化準則,在訓練中力求最小化樣本誤差,不可避免地出現過擬合現象,模型的泛化能力受到了限制。支持向量機是在統計學習理論的基礎上形成的,采用結構風險最小化準則,從而提高了學習機器的泛化能力;SVM的求解最后轉化成二次規劃問題的求解,因此,SVM的解是全局最優的[12]。
對于支持向量機函數擬合,考慮用非線性擬合函數f(x)=w·φ(x)+b擬合數據(xi,yi)(i=1,2,…,n,xi∈Rn,yi∈R)的問題。假設所有訓練數據在ε精度下無誤差地用非線性函數擬合,即



解決復雜非線性問題的徑向基(RBF)核函數[12-13]為

式中,γ為寬度系數。
變異函數是地質統計學中描述區域化變量空間結構性和隨機性的基本工具[19-20]。在相距為h的2個空間點x和x+h的參數值Z(x)和Z(x+h)之間的方差,稱為變異函數,其數學表達式為

式中,h為滯后距,即xi和xi+h的2個點之間的距離;Z(xi)、Z(xi+h)分別為xi和xi+h的2個點的實測值;N(h)為距離為h的數據對的數目;γ(h)為實驗變異函數值。
根據計算的實驗變異函數,選擇合適的模型進行擬合,求得理論變異函數。常用的模型為球狀模型[20-21],其形式為

式中,c0為塊金效應值;c為基臺值;a為變程。
常用的擬合方法主要有最小二乘法、多項式加權擬合法、線性規劃擬合法等。理論變異函數的擬合實際上是一種求解最優無偏估計的優化過程,通過選擇合適的擬合方法可以求解出球狀模型中的參數c0、c、a。
支持向量機插值就是利用支持向量機算法自動求取輸入和輸出之間的權系數,實現對未知點的插值。對于空間變量插值問題,將空間點的坐標值作為網絡輸入,將空間變量的屬性值作為網絡輸出。利用支持向量機進行插值的目的就是要通過支持向量機網絡的訓練獲取網絡輸入與網絡輸出的非線性映射關系,進而將網絡模型進行推廣。在訓練過程中既要達到網絡輸出值與期望輸出值誤差最小,同時又要受到空間相關性的約束,即

式中,n為樣本點數目;yi為第i個樣本點的期望輸出值;oi為第i個樣本點的實際輸出值;m為用來計算變異函數的數據點的最大滯后數;γ(hk)為由樣本點數據得到的變異函數值;γ′(hk)為由網絡輸出數據得到的變異函數值;hk為第k組數據對對應的間隔距離;ε為允許的誤差限。
采用拉格朗日乘子法求解這個線性不等式約束問題,則式(8)可以表示為

其中,α為拉格朗日乘子。
支持向量機模型的復雜度、泛化能力取決于C、γ這2個參數,特別是它們之間的相互影響關系[12]。其中,懲罰系數C反映了算法對超出ε管道的樣本數據的懲罰程度,其值影響模型的復雜性和穩定性。C過小,對超出ε管道的樣本數據懲罰就小,訓練誤差變大;C過大,學習精度相應提高,但模型的泛化能力變差。另外,C值影響到對樣本中離群點的處理,選取合適的C就能在一定程度上抗干擾,從而保證模型的穩定性。RBF核的寬度系數γ反映了支持向量之間的相關程度。γ很小,支持向量間的聯系比較松弛,學習機器相對復雜,推廣能力得不到保證;γ太大,支持向量間的影響過強,模型難以達到足夠的精度。
支持向量機模型要事先確定懲罰系數C及RBF核的寬度系數γ。對于這2個參數的選擇方法,多是建立在經驗和試湊的基礎之上。對此,本文采用PSO優化算法[22]計算,將支持向量機參數C和γ作為粒子的位置向量,在每一次迭代中,粒子通過跟蹤個體極值點和全局極值點,不斷更新自己的速度和位置,直到找到空間中的最優解。
該例為一組由測井獲得的地溫場數據[23]。方形區域被等間隔成9×9個單元,共100個網格點,原始數據等值線圖見圖1。可以看出,在上、下邊界線處等值曲線形狀很不一樣,在下部形狀為圓滑的凸面,而上部由于值的突變形成了直線。

圖1 原始數據等值線圖
從100個網格點中隨機抽取25個點組成4個數據排列樣本,分別用距離加權反比法、徑向基函數法、克里金法、支持向量機法和改進支持向量機法根據不同的數據排列對100個網格點進行插值恢復。圖2給出了各種方法插值重構結果;表1為各種方法插值效果比較。
由圖2可以看出,改進的支持向量機方法無論采樣的空間數據點如何排列都能夠較好并且較穩定地恢復空間變量分布。通過分析表1可知,改進的支持向量機方法在平均絕對誤差、平均相對誤差、均方根誤差、相關系數和方差各個指標都是最好的,而這些指標能夠從不同的角度表征空間變量的插值效果。由此可見,本文提出的方法在空間變量的插值精度和穩定性上具有較強的優勢。

圖2 各種方法插值重構結果

表1 各種方法插值效果比較
選用我國北方某煤礦某煤層鉆孔點上的實測數據為例。選取該煤層64個鉆孔數據,包括鉆孔號、鉆孔坐標、煤層厚度數據。鉆孔位置分布見圖3。
煤層并非一個均質體,而是一個時空連續的變異體,具有高度的空間異質性。煤層厚度能夠反映地質變量的結構和隨機性特征,該變量呈現空間分布,是一種區域化空間變量。由于鉆孔位置分布不規則,通過空間插值算法得到煤層厚度數據的空間等值線圖[見圖3(a)]。從64個數據中抽取其中50個數據作為已知樣本,利用改進的支持向量機方法對其他14個數據進行空間插值重構,結果見圖3(b)。

圖3 煤層厚度等值線圖
利用改進的支持向量機方法進行插值重構,平均絕對誤差為0.1392,平均相對誤差為0.0993,均方根誤差為0.3100,相關系數為0.9083,方差為0.1328。通過以上數據及圖3可以看出,該方法插值效果較好,具有較強的屬相相關性和空間相關性。
選取新疆油田準噶爾盆地中央隆起馬橋凸起莫西莊背斜構造的莊字號區塊的莊2井、莊3井、莊4井、莊5井、莊101井、莊102井、莊103井、莊104井、莊105井、莊106井和莊107井的測井聲波時差數據,結合區塊地質構造信息對莊1井西山窯組層位的聲波時差數據進行插值重構。為了對插值重構結果進行比較,實驗中分別采用了距離加權反比法、徑向基函數法、克里金法、支持向量機法和改進支持向量機法。圖4給出了利用各種方法對莊1井測井聲波時差重構的結果比較圖。采用改進的支持向量機算法的莊1井測井聲波時差重構結果見圖5示。圖6給出了莊字號井4149~4159m井段聲波時差測井曲線圖。

圖4 莊1井測井聲波時差重構結果


從圖5可以看出,采用改進的支持向量機算法對莊1井測井聲波時差曲線進行插值重構,插值重構曲線在總體上與實際的測井聲波時差曲線符合較好,但同時也看到在一些井段出現了一定的差距,主要表現在4109~4116m、4149~4159m及4288~4300m井段。圖6以4149~4159m井段為例進行說明,由于莊1井在此井段的聲波測井時差值明顯高于其鄰井在此井段的聲波測井時差值,因此在進行插值重構時很難擬合實際情況;同樣,在該井段其他的插值重構方法也存在類似的問題。為了解決這個問題,還需要綜合考慮區塊的地質概況及地層分層情況以及其他一些區塊信息,有效地將專家知識以適當的方式加入到插值重構中,以約束重構的不確定性。表2比較了各種方法的聲波測井時差重構結果。

表2 聲波測井時差重構效果比較
通過對表2分析,可以看出由于改進的支持向量機方法融合了空間變量的相關信息,在插值效果上優于傳統的空間插值方法,誤差和方差相對較小,可以滿足插值重構的精度要求,實現聲波測井時差的有效重構。
(1)將變異函數融入支持向量機方法,提出了一種新的空間變量插值方法,該方法既可以體現空間變量的屬性相關性,又能反映其空間相關性。
(2)通過對測井的地溫場數據、煤層厚度數據以及測井聲波時差曲線的插值重構結果可以看出,改進的支持向量機算法相對其他插值重構算法具有較高的插值精度和較好的相似度,能夠很好地實現對空間區域變量的插值重構。
(3)通過該方法可以利用區塊已鉆井的地質特征參數對待鉆井的鉆井地質特征參數進行鉆前空間插值,為鉆井模擬提供依據。
[1]侯景儒,尹鎮南,李維明,等.實用地質統計學[M].北京:地質出版社,1998.
[2]王政權.地統計學及在生態學中的應用[M].北京:科學出版社,1999.
[3]張仁鐸.空間變異理論及應用[M].北京:科學出版社,2005.
[4]邵才瑞,關麗,張福明.基于測井數據的地質曲面插值重構方法比較[J].測井技術,2005,29(4):311-315.
[5]Lu G Y,Wong D W.An Adaptive Inverse-distance Weighting Spatial Interpolation Technique[J].Computer & Geoscience,2008,34(9):1044-1055.
[6]張小浩,周鼎武.徑向基函數方法在南泥灣油田勘探中的應用[J].地球物理學進展,2007,22(1):213-217.
[7]張俊艷,韓文秀,劉東海.工程地質趨勢面分析的智能方法及其應用[J].吉林大學學報:地球科學版,2005,35(1):59-63.
[8]李信富,李小凡.分形插值地震數據重建方法研究[J].地球物理學報,2008,51(4):1196-1201.
[9]常文淵,戴新剛,陳洪武.地質統計學在氣象要素場插值的實例研究[J].地球物理學報,2004,47(6):982-990.
[10]Cellura M,Cirrincione G,Marvuglia A,Miraoui A.Wind Speed Spatial Estimation for Energy Planning in Sicily:A Neural Kriging Application[J].Renewable Energy,2008,33:1251-1266.
[11]馬云潛,張學工.支持向量機函數擬合在分形插值中的應用[J].清華大學學報:自然科學版,2000,40(3):76-78.
[12]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.
[13]張學工.關于統計學習理論與支持向量機[J].自動化學報,2000,26(1):32-42.
[14]張翔,王智,羅菊蘭,等.基于逐步判別與支持向量機的沉積微相定量識別[J].測井技術,2010,33(4):365-369.
[15]劉靜,李正從,王智,等.基于ICA、PCA和SVM方法的沉積微相定量識別[J].測井技術,2011,34(3):262-265.
[16]鐘儀華,李榕.基于主成分分析的最小二乘支持向量機巖性識別方法[J].測井技術,2009,32(5):425-429.
[17]張作清,韓克寧,于代國,等.應用支持向量機方法預測儲層敏感性[J].測井技術,2005,28(4):308-310.
[18]王延江,楊培杰,史清江,等.一種基于支撐向量機學習預測井眼軌跡的新方法[J].石油學報,2005,26(5):98-101.
[19]王家華,高海余,周葉.克里金地質繪圖技術[M].北京:石油工業出版社,1999.
[20]趙國忠,尹芝林.井間參數預測中的實用變異函數擬合方法[J].石油學報,1998,19(1):75-78.
[21]靳松,朱筱敏,鐘大康.變差函數在沉積微相自動識別中的應用[J].石油學報,2006,27(3):57-60.
[22]Kennedy J,Eberhart R C.Particle Swarm Optimization[C]∥Proceedings of the IEEE International Conference on Neural Networks,Perth WA Australia,1995,1942-1948.
[23]Koike K,Matsuda S,Gu B.Evaluation of Interpolation Accuracy of Neural Kriging with Application to Temperature-distribution Analysis[J].Mathematical Geology,2001,33(4):421-448.