周 洋
1 中國地震局地震研究所,武漢市洪山側路40號,430071 2 中國地震局地震大地測量重點實驗室,武漢市洪山側路40號,430071 3 湖北省地震局,武漢市洪山側路48號,430071
地震預測的難度在于地球內部的不可入性、地震的非頻發性及地震發生機理的復雜性。科學合理地進行地震數據預測,對于救災物資的有效配置及國計民生具有重要的指導意義[1-3]。隨著計算機硬件設備和智能算法的發展,利用計算機的高速計算能力和智能學習算法對地震活動進行建模預測成為地震預測領域的主流研究方向。現今的地震預測領域已成為橫跨多門基礎學科的綜合研究領域[4],有學者利用機器學習算法從儲層預測、地震災害信息預測、地震死亡人數評估等方面進行研究[5-8],并采用統計學方法和機器學習方法對股票價格進行建模預測[9-10]。
目前地震數據預測仍面臨諸多問題,如當預測時間和地理區域范圍較大時,特征指標數據不能很好地描述地震的發生狀況,預測性能較差;神經網絡等需要訓練的算法,需要大量的異常數據集進行訓練,否則容易出現過擬合問題。針對這些問題,本文提出一種基于核混合效應的回歸模型,并應用于湖北地震臺站地球物理數據的預測仿真,結果表明,相較于傳統的神經網絡機器學習算法,該模型預測效果較好,預測精度較高[11-12]。
內核提供了一種有效的方法來制定基于內部乘積的線性算法的非線性概括,基于內核的學習已越來越多地用于各個學科的數據分析程序中。支持向量機(SVM)是一種受監督的基于內核的算法,可用于分類和回歸應用程序。SVM找到約束優化問題的解,該解以原始形式用非線性特征映射函數φ(x)表示,通過引入拉格朗日乘數和滿足Mercer條件的核函數K(xi,xj)=φ(xi)Tφ(xj),可將原始形式轉換為通常更易于求解的對偶形式。
最近引入了最小二乘支持向量機(LS-SVM)作為經典SVM分類器的一種變體,其中不等式約束由等式約束代替,這種重構允許通過將相應的凸二次規劃問題簡化為線性方程組來解決SVM問題。除了提供簡單的軟件實現和增加數值穩定性外,這種方法還可將經典的SVM擴展到解決數據分析和模式識別中的更多問題。
使用內核可以通過在特征空間中執行嶺回歸來解決回歸問題。給定代表N點坐標的輸入矩陣X∈RN×d、d維空間中的x1,x2,…,xN和對應的輸出向量y∈RN×1,并假設每個觀測值都與對應的輸入有關。
yi=wTφ(xi)+b+ei,i=1,2,…,N
(1)
式中,yi為輸出向量觀測值,φ(xi)為輸入矩陣的坐標,wT、b、ei為約束條件參數。
f(x)=wTφ(x)+b
(2)
在式(1)中給出的N個約束條件下,使用懲罰參數γ。格朗日函數寫為:
(3)
式中,αi(i=1,…,N)為拉格朗日乘數,e=[e1,e2,…,eN]T,α=[α1,α2,…,αN]T。通過定位靜止點找到w、b、ei、αi的最佳值,即為式(3)的拉格朗日函數點。使用S=[φ(x1),φ(x2),…,φ(xN)]T,最優條件可總結為:
(4)
式中,Ip為大小為p的恒等矩陣,0p×q為0的p×q維矩陣,1p和0p分別為1和0的p×1維向量,k為特征空間的維數。消除向量w和e得到:
(5)

(6)
線性混合模型的觀測值可以寫為:
y=Xβ+Zu+e
(7)
式中,y為觀測向量,β為固定效應向量(其中包括一個常數項),u~N(0,G)為未觀察到的隨機效應向量,e~N(0,R)為隨機誤差的向量,X和Z分別為固定效應和隨機效應設計矩陣。向量u和e不相關,u和y的聯合密度最大化:
p(u,y|β,G,R)∝
(8)
產生亨德森的混合模型方程式(MME):
(9)


i=i:N,j=i:ni
(10)
式中,yij為與第i次地震的第j次記錄相對應的目標變量,xij為固定效應協變量矢量,β為固定效應矢量,sij為包含與目標變量沒有特定關系的預測變量的矢量,zij為隨機效應協變量向量,ui為隨機效應向量,eij為與yij相關的隨機誤差項。向量β包含常數項作為其第1項,向量xij的第1項為1。假定向量ui和ei=[ei1,ei2,…,ein]T遵循正態分布,分別具有均值零和協方差矩陣Gi和Ri,向量ui和ei不相關,則式(10)可用矩陣形式寫為:
y=Xβ+Ωα+Zu+e
(11)

R-1(y-Xβ-Zu-Ωα)+uTG-1u+αTA-1α]
(12)
設定l(β,u,α)關于β、u和α的偏導數為零,則得出以下方程組:
(13)
在前面的推導中,假設協方差矩陣G、A和R是已知的,并且已選擇具有相關參數的適當核函數。但在大多數實際情況下,協方差矩陣和核函數必須由用戶確定,可以使用多種方法來估計這3個協方差矩陣,例如最小化廣義交叉驗證得分法或最大化殘差最大似然(REML)法。一旦確定了G、A、R和Ω,就可利用式(13)確定固定效應、隨機效應和拉格朗日乘數的最佳值,并將其代入式(11)。模型對(x(i),s(i),z(i))描述的第i個觀測點的估計為:
E[y(i)|x(i),s(i),z(i)]=
(14)
未觀測點(x*,s*)的預測方程為:
(15)
由于對條件期望的核估計可能存在偏差,因此必須注意以正確置信區間為中心。假設觀測值可以寫成均值函數f(x)和標準偏差函數σ(x):
yi=f(xi)+σ(xi)εi,i=1,2,…,n
(16)
其中,E[εi|xi]=0,var[εi|xi]=1,以x為條件的期望和方差為E[y|x]=f(x)、var[y|x]=σ2(x)。f(x)的100(1-a)%置信區間對應于邊界qa:
(17)
其中,P(·)表示概率。
可以證明式(17)為最小二乘支持向量機器模型,式(6)為線性平滑器。也就是說,存在一個向量L(x)=[l1(x),l2(x),…,ln(x)]T。
(18)

(19)
(20)

(21)
可以使用估算器近似為:
(22)

(23)
式中,Σ為由訓練點處的預測方差組成的對角矩陣。使用式(22)和式(23)得到條件均值的近似及偏差校正的100(1-a)%點狀置信區間為:
(24)

(25)


z(i)GZT)(INn-XTUXTV-1)
(26)

Ω*AΩV-1(INn-XTUXTV-1)
(27)
式中,Ω*=[K(s*,s1),K(s*,s2),…,K(s*,sNn]。
以上算法在MATLAB 9.0軟件上測試通過,算法流程見圖1。

圖1 算法流程Fig.1 Algorithm flowchart
為驗證本文模型算法的可行性和準確性,選用地震地球物理觀測數據在此算法基礎上開展仿真實驗,并與傳統的經典神經網絡算法實例作比較。首先選取水溫分鐘觀測值訓練該神經網絡模型,用訓練數據進化200次,訓練過程中神經網絡模型預測誤差變化趨勢見圖2。

圖2 網絡進化過程Fig.2 Network evolution
當訓練次數達到200次時,預測誤差小于2.37×10-3,達到訓練要求的目標誤差0.01。隨機選取2020-10-11湖北省荊門地震臺4測點的水溫儀實測時序數據作為測試數據,圖3為BP神經網絡預測、RBF神經網絡預測、模糊神經網絡預測及線性神經網絡預測結果對比,圖4為基于核混合效應回歸模型預測。

圖3 幾種神經網絡預測算法的預測結果(荊門)Fig.3 Prediction results of several neural network prediction algorithms(Jingmen)

圖4 基于核混合效應回歸模型的預測結果(荊門)Fig.4 Prediction results of regression model prediction based on nuclear mixed effects(Jingmen)
由圖3和圖4可知,本文回歸模型預測效果較好,其預測曲線的擬合度明顯高于其他算法。BP神經網絡預測、RBF神經網絡預測、模糊神經網絡預測、線性神經網絡預測及基于核混合效應回歸模型預測的相對誤差分別為0.92%、0.83%、0.78%、0.54%、0.05%,本文算法模型的相對誤差曲線見圖5,其他幾種算法的相對誤差曲線類似,不再贅述。

圖5 基于核混合效應回歸模型預測的相對誤差(荊門)Fig.5 Predicting relative error based on the regression model of nuclear mixed effects(Jingmen)
同理,選取2020-09-24湖北省房縣三海村地震臺1測點水位儀實測時序數據,結合上述5種神經網絡算法進行仿真實驗,結果見圖6~7。

圖6 幾種神經網絡預測算法的預測結果(房縣)Fig.6 Prediction results of several neural network prediction algorithms(Fangxian)

圖7 基于核混合效應回歸模型的預測結果(房縣)Fig.7 Prediction results of regression model prediction based on nuclear mixed effects(Fangxian)
經計算,對于水位數據預測而言, BP神經網絡預測、RBF神經網絡預測、模糊神經網絡預測、線性神經網絡預測及基于核混合效應回歸模型預測的相對誤差分別為2.26%、1.78%、1.59%、1.34%、0.48%,其中基于核混合效應回歸模型預測的相對誤差曲線見圖8。對于其他地球物理觀測手段(形變、重力、電磁等)產出的觀測數據資料,分析方法相同。

圖8 基于核混合效應回歸模型預測的相對誤差(房縣)Fig.8 Predicting relative error based on the regression model of nuclear mixed effects(Fangxian)
本文提出一種基于核混合效應回歸模型的數據預測新方法,并將該方法用于地震地球物理觀測數據的預測。對不同神經網絡算法進行仿真實驗對比,結果表明,本文算法能很好地預測未來曲線趨勢,且相對誤差較低。結論如下:
1)本文方法使用最小二乘支持向量機來擴展線性混合模型方程,該擴展為復雜關系的建模提供了靈活的工具,同時考慮到觀測值之間的相關性,提出的方法在計算上是有效的,其將優化問題簡化為線性方程組。
2)當前常用的參數最小二乘法是普通最小二乘模型的擴展,該模型旨在用于線性模型。對于線性模型,已知最小二乘估計量是無偏的,并且在所有線性無偏估計量中方差最低,但像LS-SVM估計器這樣的有偏估計器可能會比最小二乘估計器獲得更低的均方誤差。
3)通過仿真研究,假設線性數據生成函數,并將本文方法與參數最小二乘法的精度進行比較,仿真結果表明,使用本文模型可以更好地處理涉及相關預測變量的問題。關于LS-SVM的許多結論都適用于非線性模型,這是因為LS-SVM使用非線性核處理非線性問題,并且一旦選擇了核,LS-SVM模型就相當于分配給每個點的權重保持線性。
4)本文模型算法還可應用于地震地球物理其他測項(地磁、形變、重力等)的數據預測,應用前景廣泛,同時也可為較復雜的深度學習類算法框架模型的構建提供實踐基礎。