■王征 商亮 張闖
(撫順市地震局 遼寧撫順 113006)
數據挖掘技術在地震預報中的應用
■王征 商亮 張闖
(撫順市地震局 遼寧撫順 113006)
隨著數據挖掘技術的不斷發展,其逐漸引起了信息產業界的廣大關注。顯然,這是相對貧乏的信息量與快速增長的數據量之間在矛盾運動作用下所產生的必然結果。那么,對數據挖掘技術的全面、深入、系統的研究,即成為了全球信息化發展的客觀需求。而針對于地震分析預報工作而言,數據挖掘技術也能夠起到一定的推動作用。本文首先詳細的闡述了我國地震預報工作的研究現狀以及地震數據的一些特點,其次系統的分析與探討了數據挖掘技術應用于地震預報工作的常用方法。
地震預報數據挖掘技術應用
長期以來,在地震預測研究方面,我國始終都以經驗型統計為基礎來開展工作,在歷史上也取得過較大的成就,比如成功預報1975年的海城地震即是一個很好的例子。隨著我國社會、經濟的不斷發展,近年來我國對于地震預報的準確性要求越來越高,虛報、錯報所導致的社會成本越來越高昂。顯然,如果還采用經驗型統計為基礎的地震預報,其準確性顯然不能夠滿足于現代社會的實際要求。隨著國際上對地震發生物理機制研究的不斷深入,人們對地震發生規律的認識得到了進一步的發展。近年來,我國在這方面的研究上(尤其是基于地震發生機理的地震預報研究)也獲得了很大的成功,如加卸載響應比的地震預報模型,其獲得了國際上的認可。但是,就整體來說,我國在這方面的研究并不成熟,依舊與很多發達國家存在著一定的差距。
長期研究實踐證明,地震數據有著相當顯著的特點。首先,數據量極大。地震前兆觀測的數據是從傳感器獲取的流數據,一般情況下,其采樣的頻率都為每秒鐘采樣一次,數據量極大。其次,經驗型知識較多。由于絕大部分預報知識都與相關領域有著密切的聯系,所以得出的結果往往都是地震預報專家根據自身的經驗總結而出。再次,具有較強的時間性。具體來說,一方面是時序性,由于地震數據都與時間相關,數據間就必然會具有較強的時間約束關系。也就是說,地震數據屬于時間序列數據。另一方面是實時性,其對異常現象能夠及時的做出反應。最后,空缺多、干擾多,且隨機性較強、不確定因素較多。
3.1 聚類分析
所謂聚類分析,即根據某一種相似程度的度量來將數據對象進行分組,分成若干類或簇。一般情況下,不同簇中的對象之間具有較大的差異,而同一簇中的對象之間則具有較高的相似度。其實,聚類分析源于很多研究領域(如生物學、統計學等)。如今,聚類分析已經被廣泛的應用到地震預報工作之中,比如有(無)震樣本的聚類、地震正常(異常)數據的聚類、地震知識的獲取、地震序列類型的劃分等[1]。
3.2 神經網絡
“MP”模型與“Hebb”學習規則,是神經網絡的基礎,神經網絡就是以此來建立起了多種神經網絡模型,主要氛圍三大類,即自組織網絡、反饋式網絡、前饋式網絡[2]。總的來說,神經網絡是一種以訓練來學習的非線性預測模型,其能夠較好的完成多種數據挖掘任務,如聚類、分類、回歸、關聯、模式識別等。就目前的情況來看,很少有人涉及自組織網絡或反饋式網絡,但在地震預報工作中則可以使用自學習、自組織、自適應等功能。另外,通過自組織網絡的應用,能夠讓網絡實現聚類、特征提取以及知識學習等。
3.3 遺傳算法
作為一種模擬生物進化過程的方法,遺傳算法是通過對三個基本算子,即復制、交叉、變異的利用來實現優化求解的技術。在遺傳算法當中,規則群體往往都是通過交叉與變異來實現進化操作的,這樣的操作一直會延續到群體中所有規則都滿足于制定閾值為止。從某種角度上來看,遺傳算法與統計學有著極為相似的特征。具體而言,遺傳算法模型的形式必須預先確定出來,在算法實施時,首先就應該對求解的問題進行編碼,以此產生初始的群體,然后對個體適應度進行計算,最后再對染色體進行復制、交叉、變異等操作,直到出現最佳方案為止。在執行遺傳算法的過程中,每一代都會存在很多不同的種群個體。而對于環境的適應能力,這將直接決定著這些染色體中的個體是否能夠保留下來。顯然,針對于那些適應性較強的,其將具有更多的保留機會,而適應性較弱的則是由計算適應性函數f(x)的值來決定的,而這樣的值也被稱為適應值。在這其中,不得不引起注意的是,適應函數f(x)的構成和目標函數始終都保持著相當密切的聯系,可以說起就是目標函數的變種[3]。另外,遺傳算法還能夠起到產生優良后代的作用,通過若干代的遺傳,必然會得到滿足要求的后代(即問題的解)。就目前的實際情況來看,遺傳算法主要應用于分類、優化等問題上。針對于地震預報工作來說,陳琪福等通過對遺傳算法的應用,初步建立了地震預報分類的體系。而王海軍等人也通過遺傳算法優化參數的使用,對1994年臺灣海峽地震的震源過程進行了成功的反演。
3.4 分類
在數據挖掘過程中,“分類”是一項應用及其廣泛的任務。所謂分類,就是對已分類資料的特征進行深入的研究,通過對對象屬性的分析來建立起一個分類模型或分類函數,然后通過對這種函數或模型的運用來計算總結出相關數據的特征,最終將那些沒有經過分類的數據或新的數據分派到不同的組中。在實際的地震預報工作中,分類的應用領域十分廣泛,比如地震序列類型的劃分、有震(無震)樣本的區分、地震正常(異常)數據的區分等,都將涉及到分類的應用。具體來說,分類的常用方法有貝葉斯分類法、決策樹分類法、遺傳算法分類法、神經網絡分類法、支持向量機分類法、粗糙集理論分類法等。
總之,數據挖掘技術目前在與自然災害預報、地震預報、醫療保健等應用領域的交叉結合中得到了迅猛的發展。針對于地震預報當中的數據挖掘而言,其具有十分深遠的研究意義。因此,我們必須基于數據挖掘基礎來不斷探求解決問題的新思路與新方法。只有這樣,地震預報的準確性才能夠得到實質性的提升。
[1]郭淑文,程然,祝文亮等.數據挖掘技術在地震屬性降維中的應用 [J].天然氣地球科學,2010,04:670-677.
[2]項月文.基于SOM自組織神經網絡的地震預報技術研究 [D].南昌大學,2012.
[3]宋維琪,楊曉東.解域約束下的微地震事件網格搜索法、遺傳算法聯合反演 [J].石油地球物理勘探,2011,02:259-266+160.
P315[文獻碼]B
1000-405X(2015)-10-341-1