陶德保







摘要:論文以鉆孔數據的空間多維分析模型入手,主要研究了數據多維分析模型的發展和實現,提出適合鉆孔數據管理的空間數據倉庫進行數據分析的多維數據模型,并在此基礎上提出了一種空間數據挖掘的模型結構,用三種空間數據挖掘算法分析了礦化段之間的相關性??臻g數據的可視化以及基于可視化技術的空間分析、空間數據挖掘和知識發現已經發展成為空間信息處理的重要手段和關鍵技術。本文還介紹了基于OPENGL的幾種可視化模型,實現了空間數據挖掘結果的交互式可視化。
關鍵詞:鉆孔數據;空間數據倉庫;空間數據挖掘;可視化技術
1 引言
鉆井領域數據復雜,既有定量測量的數據,又有定性的文字描述,它們量綱不一、形式多樣。僅儲層特性的數據就涉及到測井儀器、測井方法、測井原理、儀器所探測的深度、儀器分辨率等。如何把這些反映同一儲層特性的數據結合起來,無冗余,而又不漏失地反映井、礦的特性,一直是鉆井領域資料解釋的重點。數據倉庫是面向主題的、集成的、穩定的和隨時間變化的數據集合。它是一項基于數據管理和運用的綜合性技術和解決方案,是一種有效的數據存儲和組織形式。經過數據倉庫技術處理以后的數據是集成的、穩定的、干凈的,從而有利于在后面集成并運用數據挖掘技術進行分析處理。但是目前,在大多數知識發現的過程中,數據仍然被視為是靜態的,人機交互類似于傳統的數據庫操作。這樣一來,只有在處理結果出來之后才能評判數據輸入的好壞,挖掘算法選擇的優劣。而將地理可視化與空間數據挖掘和知識發現相集成,可以使知識發現的各個階段具有高度的交互性和靈活性。
2基于空間數據倉庫的數據挖掘模型設計
空間數據倉庫(Spatial Data Warehouse-SDW)是GIS技術與數據倉庫(Data Warehouse-DW) 技術相結合的產物,它是在DW基礎上,引入空間維數據,根據主題從不同的GIS 應用系統中截取不同規模時空尺度上的信息,從而為地學研究以及有關環境資源政策的制定提供最好的信息服務。圖1是本文提出的一個基于空間數據倉庫的空間數據挖掘的模型結構。用戶發出知識發現的命令,知識發現模塊從空間數據倉庫中獲取感興趣的數據 (與任務相關的數據)。知識發現模塊根據要求和領域知識庫,從那些與任務相關的數據中發現知識,發現的知識提供給用戶應用。一般這一過程要交互地反復進行才能得到最終滿意的結果。
3空間元數據的數據結構及生成算法
為實現基于鉆孔數據的空間多維分析,本系統主要從四個維度來分析原始數據庫中的信息,分別為地層維、礦化段維、礦化量維和鉆井維。可以利用標準模板庫(STL)中的鏈表和向量模板來設計出其數據結構。地層數據結構的結構圖如下(P代表Point3D):
圖中采用了一個鏈表來存儲所有的底層數據,鏈表中包含了多個地層數據單元,每個單元由一個vctor和地層名組成,而vctor中存儲了該地層的所有數據點。本系統中還用了很多數據結構,例如在做數據分析時,基本的分析單元是礦化段,用于礦體插值的礦化點數據結構等,其設計思想同地層數據結構是相同的,即先設計出基本數據單元,再結合STL中的LIST和VCTOR來組織數據。需要注意的是系統在整個設計過程中,要充分考慮程序的可擴展性,對系統采用模塊劃分,各模塊功能明確;同時在設計數據機構時,可以采用了范性編程的思想,利于系統的進一步完善和擴充。
在多維數據結構設計的基礎上,我們要對數據庫中的原始信息進行精確的分析,采用ADO連接數據庫,從原始數據庫中提取出需要的數據,跟設計的數據結構相對應起來,這樣就得到了系統的元數據。以地層數據為例,首先要分析數據庫中所有與地層相關的表,然后用SQL語句在多張表中查詢所需要的字段信息,將查到的信息進行篩選、提取,然后存入我們所設計的數據結構中,這樣就為進一步的數據分析提供了數據準備。其他元數據的獲取方法同地層數據類似,限于篇幅,在此不做詳細說明。
4可視化空間數據挖掘
通過離散鉆孔數據的空間挖掘我們希望能夠找出礦體的空間分布規律,從而為進一步的三維礦體模擬提供一定的先驗知識,使其模擬結果更為精確。這部分屬于整個數據挖掘模型中的知識庫中的內容,由于鉆孔數據的復雜性與不確定性,首先要對礦體的平面分布做一個大致的估計,在這個基礎上再做空間數據分析,這樣得到的結果會更為精確。
4.1礦化量統計分析
礦化量表示的是每個鉆井所對應的礦化情況,即將空間分布的礦化段數據投影到一個平面上,用一個平面來表示礦井對應的點的礦化情況。根據每個鉆井下的礦化段的長度L和每段的礦化度K,得出了每個鉆井的礦化量:
定義這個參數后,可以得到表示每口鉆井礦化情況的一個量化的值,用此參數進行平面距離倒數加權插值(IDW),將插值結果可視化,則從平面的角度表示出礦體的礦化分布情況。圖4是對研究區域在的礦化量做IDW插值后使用OPENGL生成的平面效果圖,顏色越深的部分表示其含礦的量也越大。通過以上的分析,我們就找到了礦化量在地表的大致分布規律,在這個基礎上我們對礦化段在三維空間的分布規律進行空間聚類分析。
4.2空間聚類分析
本文中采用的是K-means空間聚類算法。傳統的K均值聚類算法存在兩個固有的缺點:(1)對于隨機的初始值選取可能會導致不同的聚類結果,甚至存在著無解的情況;(2)該算法是基于目標函數的算法,通常采用梯度法求解極值,由于梯度法的搜索方向是沿著能量減小的方向進行,使得算法很容易陷入局部極值,而且對于孤立點是敏感的。
為了克服傳統的K-均值聚類算法收斂時易陷入局部極值問題和對初始選值敏感性的缺點,同時又能保持K-均值算法快速收斂的特點,我們在選擇初始值時結合礦化量的統計分析結果,用礦化量平面上的極值點來確定K-MEANS算法的初始聚類中心,其算法步驟如下:
1)根據礦化量統計分析結果,找出礦化量平面上的極值*S。
2)合并相近的極值點*S,得到初始的聚類中心S。
3)獲取聚類數目k ,置迭代誤差閾值e= 0.00001(可根據需要設置)。
聚類數目由用戶指定,用戶可以通過圖5中的對話框隨時改變聚類的數目,直到得到滿意的聚類效果。不過聚類數目有最大限制,其最大值不能超過Sj的長度。通過空間分析,我們可以發現空間聚類的效果同礦化量的平面分布有著較好的對應關系,可以將礦區大致分為三塊區域,還得到了鉆井及礦化段間的相關性信息,有利于我們從宏觀上把握礦區的礦體分布。
5結論
本文提出的基于鉆孔數據的空間數據挖掘方法,首先提出了礦化量的概念,將礦化段的分布情況做一個平面分析,通過距離倒數插值對礦體的分布做大致的估計,在這個基礎上對K-MEANS聚類算法做改進,用礦化量的極值點來初始化K-MEANS中的初始聚類中心,使得分析結果更具科學性;然后將分析結果進行可視化,從而大大地提高了人機交互的水平。但此方法仍存在一些不足,如各種地質資料、專家知識和工程經驗不能及時融入到實際數據分析中,系統中所用到的可視化模型不能表現更為復雜的地質構造。由于地質現象的高度復雜性和不確定性,上述問題將隨著研究和實際應用的深入而逐步得到解決。
參考文獻:
[1]雍世和,洪有密. 測井資料綜合解釋與數字處理[M ]. 北京石油工業出版社,1982.
[2]劉毅勇,何雄,李金山等.空間數據挖掘:變數據為知識.計算機世界報,2005.8.15.
[3]李德仁,王樹良,李德毅等.論空間數據挖掘和知識發現的理論與方法[J].武漢大學學報(信息科學版).2002.27(3):221-223
[4]Mapinfo Corporation.Mapinfo and Data Warehouse:A Mapinfo White Paper.1996.
[5]杜明義,郭達志.空間數據倉庫技術與模型研究[J].計算機工程與應用1999( 12) 32- 34.
[6]郭仁忠.空間分析.高等教育出版社,北京,2001.10.
[7]Ujjwal M,Sanghamitra B.Genetic Algorithm Based Clustering Technique[J].Patten Recognition,2000,33(9):1455.
[8]Huang Z.Extensions to the k-Means Algorithm for clustering Large Data Sets with Categorical Values [J].DataMining and Knowledge.
[9]王家耀,張雪萍,周海燕.一個用于空間聚類分析的遺傳K-均值算法.計算機工程,2006.2.
[10]Dave Shreiner,Mason Woo,Jackie Neider,Tom Davis. OpenGL編程指南(第四版).人民郵電出版社,北京,2005.4.