張程恩,潘保芝,劉倩茹,徐新也
(1.吉林大學地球探測科學與技術學院,吉林長春130026;2.吉林大學地球科學學院,吉林長春130026;3.中國石油化工股份有限公司東北油氣分公司,吉林長春130026)
改進蟻群聚類算法在火山巖巖性識別中的應用
張程恩1,潘保芝1,劉倩茹2,徐新也3
(1.吉林大學地球探測科學與技術學院,吉林長春130026;2.吉林大學地球科學學院,吉林長春130026;3.中國石油化工股份有限公司東北油氣分公司,吉林長春130026)
提出了一種基于蟻群算法和模糊聚類算法的改進蟻群聚類算法對火山巖巖性進行識別。介紹了蟻群算法的原理、K-均值聚類算法的實現過程及改進蟻群聚類算法的實現過程。用該方法對火山巖樣本數據點進行訓練和學習,獲得最佳的巖性聚類中心,根據加權信息素濃度和的大小,識別實際測井數據點的巖性。對松遼盆地430個火山巖薄片的實際處理表明,與自組織神經網絡及K-均值聚類算法相比,該方法識別準確率高、運算速度快,是一種有效的巖性識別手段。
測井解釋;蟻群算法;模糊聚類;火山巖;巖性識別;松遼盆地
火山巖成分復雜,礦物結合方式多樣。建立測井資料與地質巖性定名資料之間的響應關系,實現利用測井資料劃分地層巖性已經成為目前火山巖巖性識別研究的熱點[1-4]。利用測井方法進行巖性識別的方法很多,最常用的為交會圖版方法識別巖性,近年來神經網絡、主成分分析、模糊聚類、遺傳算法等方法均已應用到巖性識別領域中。陳建文[5]從優選測井資料入手,主要采用聚類分析法,再利用優選后的數據交會識別火山巖巖性。黃布宙等[6]描述了松遼盆地北部深層流紋巖、安山巖、安山玄武巖、英安巖和凝灰巖等巖性特征,并用模糊聚類方法進行了巖性識別。王玉娟等[7]利用自組織神經網絡對松遼盆地東嶺地區深部火成巖井段進行了巖性識別。王祝文[8]利用K-均值動態聚類分析方法對砂泥巖剖面進行了巖性識別。潘保芝等[9]應用因子分析法對松遼盆地火成巖進行了巖性劃分。
蟻群算法是意大利學者M Dorigo等受自然界中螞蟻覓食行為的啟發而發展起來的一種新的模擬進化算法。人們經過大量研究發現,螞蟻在搜索食物源時會在其走過的路徑上釋放信息素。因此,由大量螞蟻組成的蟻群的集體行為便表現出一種信息正反饋現象:某一路徑上走過的螞蟻越多,則后來者選擇該路徑的概率就越大。螞蟻個體之間通過信息素的交流達到搜索食物的目的。蟻群算法是繼模擬退火算法、遺傳算法、禁忌搜索算法、人工神經網絡算法等啟發式搜索算法以后的又一種應用于組合優化問題的啟發式搜索算法[10-11]。目前主要用于求解旅行商問題、指派問題、調度問題、圖像處理等,袁可紅等[12]利用蟻群聚類算法對儲層的含油性進行識別。本文首次將該方法用于巖性識別。
本文結合蟻群算法及K-均值聚類分析方法提出了一種改進的蟻群聚類算法,通過對樣本點的訓練和學習找到最優化的聚類中心。另外,借鑒蟻群算法中信息素的相關方法,提出了一種新的聚類距離,并對松遼盆地2口井巖性進行了聚類判別。改進的蟻群聚類算法與自組織神經網絡及K-均值聚類算法相比,判別準確率更高,表明該算法能很好地實現火山巖巖性的判別,效果良好,是一種新的巖性判別有效方法。
K-均值聚類算法是一種常用的模糊聚類方法。該算法在每次迭代中都要考察每個樣本的分類是否正確,通過調整不正確樣本點類別更新聚類中心,進入下一次迭代。直至2次迭代的聚類中心不再變化。具體實現步驟如下。
(3)計算新的聚類中心

K為屬于第j類的樣本點數量;
(4)判斷2次聚類的聚類中心改變量d,若d≤ε則結束循環,ε為給出的極小值常量;否則轉入步驟(2)繼續迭代,當達到最大迭代次數時結束循環。
常規K-均值聚類方法只對屬性相近的點進行模糊聚類,初始聚類中心隨機給出,對聚類結果的影響很大且實際物理意義不明確。這種方法計算量大、耗時多、容易受孤立點的影響。基于以上原因本文提出了一種改進的蟻群聚類算法。
對樣本數據點進行訓練時,以不同巖性的曲線均值作為初始的聚類中心,使得初始聚類中心接近真值而能夠更快收斂。在進行迭代時,為了避免某些距離聚類中心過遠的散逸點影響初始聚類中心,造成偏移過大且過早收斂的問題,引入了聚類半徑這一參數。不同巖性取不同的聚類半徑,對于dij<rj的數據點按照最大隸屬度原則進行歸類,否則認為該數據點為散逸點,歸置在未歸類點集中。對信息素進行更新,再次迭代,當聚類中心不再發生變化時,得到的新的聚類中心即為全局最佳的聚類中心,對未歸類的數據點計算隸屬度并進行歸類,即完成了所有數據點的巖性判別工作[13-15]。
利用蟻群算法進行聚類時可以將樣本視為具有不同屬性的螞蟻,聚類中心看做是螞蟻的“食物源”。樣品聚類過程就可以看做是螞蟻尋找食物源的過程。具體實現過程如下。
(1)初始化蟻群參數,包括螞蟻數目M、聚類數目N、信息素揮發參數ρ、常量Q等。
(2)初始化信息素矩陣,對所有的τij賦相同的數值。
(3)讀入樣本數據文件及對應巖性,對樣本數據進行歸一化處理,計算不同巖性的初始聚類中心作為蟻群的初始聚類中心。
(4)計算每種巖性的聚類半徑rj。對于點的聚集狀態假定滿足正態分布,由于數據值落入(μjp-1.5σjp,μjp+1.5σjp)范圍內的概率為0.86,取rj=1.5max(σjp)。其中μjp和σjp分別代表第j種巖性第p個屬性的均值及方差。


(6)利用式(1)重新計算聚類中心。
(7)按照更新方程修改信息素濃度

式中,ρ為信息素軌跡的揮發系數,用來避免路徑上信息素量的無限累加,通常選取ρ=0.1~0.5;Δτij表示本次循環中路徑(i,j)的信息素量的增量;Q為常數。
(8)判斷聚類中心是否變化,當聚類中心不再變化時,對未歸類點按照式(5)計算隸屬度,并按照最大隸屬原則進行歸類,否則繼續迭代。

式中,ap為第p條曲線的權重,利用多元線性回歸得到;P為曲線總條數;xp為歸一化了的第p條曲線數值。
樣本訓練結束后,獲得不同巖性的最佳聚類中心,就可以對實際測井數據點進行巖性判別了。本文采用一種加權距離法進行樣本識別,綜合考慮了曲線權重和螞蟻信息素量的影響。受蟻群算法的啟發,每只螞蟻都會在所走過的路徑上留下信息素,人為規定各路徑信息素濃度值為其路徑長度的倒數,
則距離大的路徑上留下的信息素濃度低,反之則信息素濃度高。另外,不同曲線的影響程度不同,因此具有不同的權重系數,最后取信息素和的最大值對應巖性為最佳識別結果。假定每個數據點有P個屬性值,則目標函數為

式中,xp為歸一化了的數據點的第p個屬性值;μjp為第j類聚類中心的第p個屬性值;ap為該曲線的權重。
實際處理時,利用松遼盆地430個火山巖薄片的自然伽馬(GR)、聲波時差(AC)、電阻率(Rt)、密度(DEN)及釷值(Th)作為樣本進行訓練和學習。其中基性玄武巖數據點22個,中性安山巖數據點39個,中酸性英安巖數據點33個,酸的粗面巖數據點52個,酸性流紋巖數據點284個。另外選取了該地區的20個薄片數據點(其中玄武巖2個、安山巖3個、英安巖3個、粗面巖4個、流紋巖8個)進行巖性判別測試。圖1為松遼盆地火山巖樣本點的GR-Th交會圖。

圖1 松遼盆地火山巖樣本點GR-Th交會圖
利用改進蟻群算法進行訓練時,先對所有數據點進行了歸一化處理,選取各巖性數據點均值作為初始聚類中心,樣本數M=430,聚類中心數N=5,揮發系數ρ=0.1,α=1,β=1,Q=0.1,樣本識別準確率很高。巖性判別時,對于GR、AC、Rt、DEN和Th等5條曲線利用線性回歸的方法獲得各自的權重[16],利用式(6)完成判別工作。
為了進一步驗證改進蟻群聚類算法的優越性,將其與自組織神經網絡(SOM)及K-均值聚類算法進行了比較,對比結果見表1。顯然改進的蟻群聚類算法判別準確率很高,能夠更好地滿足巖性識別的需要。

表1 3種方法判別正確率對比
對松遼盆地南部2口井的巖性剖面進行了識別和研究。圖2為A井和B井的測井綜合解釋圖,剖面上出現了4種主要的巖性——安山巖、英安巖、粗面巖和流紋巖。改進的蟻群聚類算法識別得到的巖性與測井曲線特征及錄井結果符合得很好。證明了該方法的實用性及有效性。

圖2 A井和B井巖性識別結果
(1)蟻群算法是一種新型的進化算法。它具有較強的魯棒性、通用性和并行搜索等優點。本文綜合考慮蟻群算法和模糊聚類算法,提出一種改進的蟻群聚類算法,并對火山巖巖性進行了識別。
(2)具體處理時首先對樣本數據點的蟻群模糊聚類獲得最佳聚類中心,然后對實際測井數據進行巖性判別。比較測井數據點到不同巖性聚類中心的加權信息素濃度大小,距離近者信息素濃度高,反之則低,選取加權信息素濃度最高者對應的類別為匹配巖性。
(3)對松遼盆地的實際巖心薄片數據點進行實際處理,并與自組織神經網絡、K-均值聚類識別結果進行了比較。對比結果表明該算法具有很高的識別準確率,運算速度快,耗時短,是一種快速有效的巖性判別手段。
[1] 張瑩.火山巖巖性識別和儲層評價的理論與技術研究[D].長春:吉林大學,2010.
[2] 周波,李舟波,潘保芝.火山巖巖性識別方法研究[J].吉林大學學報:地球科學版,2005,35(3):394-397.
[3] 潘保芝.裂縫性火成巖儲層測井評價的理論與方法研究[D].長春:吉林大學,2002.
[4] 張麗華.火成巖儲層測井評價方法研究[D].長春:吉林大學,2009.
[5] 陳建文,魏斌,李長山,等.火山巖巖性的測井識別[J].地學前緣,2000,7(4):458-459.
[6] 黃布宙,潘保芝.松遼盆地北部深層火成巖測井響應特征及巖性劃分[J].石油物探,2001,40(3):42-47.
[7] 王玉娟,閆磊,張曉明,等.松遼盆地東嶺地區深層火成巖測井特征與巖性識別[J].吉林大學學報:地球科學版,2007,(S1):147-150.
[8] 王祝文,劉菁華,任莉.基于K均值動態聚類分析的地球物理測井巖性分類方法[J].東華理工大學學報:自然科學版,2009,32(2):152-156.
[9] 潘保芝,李舟波,付有升,等.測井資料在松遼盆地火成巖巖性識別和儲層評價中的應用[J].石油物探,2009,48(1):48-52.
[10]樂群星,魏法杰.螞蟻算法的基本原理及其研究發展現狀[J].北京航空航天大學學報:社會科學版,2005,18(4):5-8.
[11]宋雪梅,李兵.蟻群算法及其應用[J].河北理工學院學報,2006,28(1):42-45.
[12]袁可紅,李艷曉,郭海湘,等.一種用于儲層含油性識別的蟻群聚類算法[J].計算機工程,2011,37(13):178-180.
[13]高尚,楊靜宇,吳小俊.聚類問題的蟻群算法[J].計算機工程與應用,2004,40(8):90-92.
[14]孫曉霞.蟻群算法理論研究及其在圖像識別中的應用[D].哈爾濱:哈爾濱工程大學,2006.
[15]段海濱.蟻群算法原理及其應用[M].北京:科學出版社,2005.
[16]王松桂,陳敏,陳立萍.線性統計模型:線性回歸與方差分析[M].北京:高等教育出版社.1999.
Application of Improved Ant Colony Clustering Algorithm to Volcanic Rock Lithology Identification
ZHANG Chengen1,PAN Baozhi1,LIU Qianru2,XU Xinye3
(1.College of Geo-exploration Science and Technology,Jilin University,Changchun,Jilin 130026,China;2.College of Earth Science,Jilin University,Changchun,Jilin 130026,China;
3.Northeast Oil and Gas Branch,SINOPEC,Changchun,Jilin 130026,China)
Put forward is an improved ant colony clustering algorithm based on ant colony algorithm and fuzzy clustering algorithm to identify the volcanic rock lithology accurately.Introduced are the principle of ant colony algorithm,realization process of K-means clustering algorithm and improved ant colony clustering algorithm.After training and learning of the volcanic rock sample-data points,the best cluster centers are obtained.Then the lithology of actual logging data points can be identified by comparing the sum of weighted pheromone concentration values.Practical applications of 430volcanic chips in Songliao basin show that,compared with SOM as well as K-means clustering algorithm,the improved ant colony clustering algorithm is more accurate,faster calculation and practical in lithology identification.
log interpretation,ant colony algorithm,fuzzy clustering,volcanic rock,lithology identification,Songliao basin
P631.84
A
2012-5-3 本文編輯 王小寧)
1004-1338(2012)04-0378-04
張程恩,男,1988年生,碩士研究生,從事測井解釋與研究工作。