向亞紅,張 峰,鄧念武,謝雨航
(1.湖北省防汛抗旱機動搶險總隊,湖北 武漢 430064;2.武漢大學水利水電學院,湖北 武漢 430072)
大壩變形受到庫水位、溫度和時效等多種環境量因素的影響[1],為研究大壩變形規律,了解大壩變形狀態,對大壩運行過程中可能出現的異常狀況作好應急準備,需要通過建立數學分析模型,對大壩變形規律和變形趨勢進行認識和掌握。許多學者應用神經網絡[2,3]、遺傳算法[4]、支持向量機[5]等方法,以及兩種或兩種以上預測方法聯合建立的混合模型[6-9]對大壩變形進行了研究和分析,這些方法主要是通過建立變形量與環境變量之間的映射關系對大壩變形進行分析和研究。
大壩變形監測數據屬于時間序列,監測數據具有隨機性、多尺度變化等復雜的特性,分形理論可以有效識別時間序列隱含的內在規律。Su 等[10]應用多重分形去趨勢波動分析法對某混凝土重力壩現場觀測數據進行分析,確定了現有大壩時間序列的多重分形標度行為,刻畫了大壩的長期行為和結構演變規律;周蘭庭等[11,12]利用分形理論解析了大壩變形性態的多重分形特征及其對稱性;利用多重分形理論對混凝土重力壩水平位移的波動進行了分析,指出位移多重分形特征受到環境量影響明顯。胡江等[13]利用多重分形去趨勢波動方法從局部和整體兩個方面對大壩的工作性態及演變規律進行了評價。大壩變形時間序列具有多重分形的特征,可以根據大壩的自相似性應用分形插值方法對大壩變形時間序列進行分析和預測。進一步研究表明,在構造分形插值擬合時,由于擬合出的圖形是分數維的,不可避免地會出現斷裂或周期現象[14];在構造分形插值外延預測模型時,對均方偏差最小的點進行搜索時需要較長的計算時間,且預測點距離已知序列越遠,預測誤差會越大。針對上述問題,本文嘗試引入支持向量機(SVM)對分形插值方法進行優化,從而獲取更優的擬合和預測模型。
分形插值算法是將分析數據的復雜性與數據本身可規律化結合起來,來預測數據的走向、數據值與區間值,以便獲得相關成果并進行應用[15]。數據的屬性具有不確定性和復雜性,分形插值通過已知數據點之間的關系,學習和分析潛在規律并進行自相似性延拓,經過多次仿射系統迭代,可大大縮小樣本數據預測值與實測數據之間的差距,從而避免固定形式函數圖像偏離實測數據而引起的較大誤差[16]。
對于一個時間序列數據,根據分形插值理論,建立時間序列點集{(xi,Yi),i=1,2,…,N},(xi為時間或序列值,Yi為測值)。對時間序列點集按照公式(1)進行標準化處理。得到標準化點集{(xi,yi),i=1,2,…,N}。

式中:Ymax為最大值;Ymin為最小值。
根據分形插值理論可知,可以構造一個R2上的迭代函數系(IFS),使它的吸引子G恰好是點集{(xi,yi)|i=1,2,...N}的連續函數f:[x0,xn]→R上的圖形上。該迭代函數系為:

且上式滿足端點條件:

式中:wi為待求的仿射變換矩陣;ai、ci、di、ei、fi為仿射變換參數,具體算法如下:

其中垂直比例因子di是關鍵參數,di的計算方法有幾何法、經驗估計、平均值法等,為了兼顧數據的整體和局部的特性,更好地體現數據的分形特征,提高分形插值的擬合精度,結合大壩水平位移序列特點,本文采用隨機因子法[如式(5)]計算垂直比例因子di。

式中:ymax、ymin是指以待插值點為中心前后擴展n0個點區間中的最大和最小值;ε=1 +rand(1),rand(1)表示隨機函數,代表一個0 到1 之間的隨機數。由yi、yi-1體現局部信息,ymax、ymin體現全局信息,隨機數保證了分形本身的特性。
根據上述原理即可以求出所有變換矩陣wi,將初始迭代點(本文選擇時間序列第一個點)帶入公式(2),不斷迭代吸引子,最后得出插值點集組成的時間序列曲線。
設訓練樣本集為:{(xi,yi),i=1,2,…,N},xi∈Rd為輸入特征向量[5,16],在大壩監測數據中為影響因子;yi∈{ -1,1}為標準化后的數據,即算法的評判指標,在大壩監測數據中為效應量。支持向量機需要通過已知樣本對函數關系式(6)進行訓練,以便找到輸入特征向量和評判指標間的最優關系。

為了解決輸入特征向量和評判指標間的非線性關系,需要將其映射到高維空間轉化為線性問題。式中ω為分類超平面的權值,b為分類超平面的偏值。
該模型的優化問題為:

約束條件為:

式中:ξi為松弛變量;C為懲罰參數;ε為估計精度,f(xi)與yi的差別小于ε時不計入誤差,大于ε時誤差記為|f(xi)-yi|-ε。
利用拉格朗日函數求解,考慮非線性可分情況,并引入用核函數K(x,xi),得到最優超平面的決策函數:

式中:αi,αi*為拉格朗日算子。核函數K(x,xi)是支持向量機的關鍵函數。目前研究中最常用的核函數主要有徑向基核函數(RBF)、多項式核函數和Sigmoid 核函數3 種。徑向基核函數中只有一個參數r,該核函數能夠較好地反映模型選擇的復雜度。研究表明:選擇合適的參數后,徑向基核函數可以適用于大壩變形序列的樣本。鑒于此,本文核函數采用徑向基核函數,如公式(10)所示。

要構造一個具有較高預測精度的支持向量機模型,必須進行模型參數尋優來選擇合適的模型參數。模型參數優化的主要思想是將目標函數極小化,使得模型預測值和實際觀測數據之間能夠達到最佳的擬合效果。鑒于大壩變形時間序列本身的復雜性,常規優化算法往往難以滿足參數優化的目的。本文采取交叉驗證(Cross Validation,CV)方法來進行模型參數尋優。交叉驗證是一種統計方法,它可以用來驗證分類器的性能,交叉驗證法的基本思想是將原始數據序列分成兩組,其中一組序列稱為訓練集,另一組序列稱為測試集。首先用訓練集對計算模型進行訓練,通過訓練學習開展參數尋優,得到最優的模型參數,建立預測模型,然后用該模型對測試集進行預測,最后用測試集的計算結果來對該模型進行效果評價。
基于分形插值和支持向量機的大壩變形混合模型首先是通過對時間序列的分析,找出所有滿足要求的特征點,對特征點集和原始點集通過分形插值算法得到位移時間序列插值點集,然后利用支持向量機對分形插值得到的曲線通過參數尋優,得到優化后的擬合曲線。
利用支持向量機理論預測下一個特征點,通過分形插值按照前面的方法進行迭代,計算插值點,最后再利用支持向量機進行參數尋優,得到預測曲線。其步驟如下:
(1)建立時間序列點集:選取各觀測點位移時間序列,并進行標準化處理,得到時間序列{(xi,yi),i=1,2,…,N},利用分形檢驗指標和重標極差分析法(Rescaled Range Analysis,R/S)[12]進行序列分析,判斷其分形特征性質。
(2)建立時間序列曲線的迭代函數系(IFS):根據公式(4)和(5)分別計算初始仿射變換參數ai、ei、ci、fi,和垂直比例因子di,構造迭代函數系(IFS)。
(3)根據仿射變換系,以時間序列的第一個點作為初始迭代點,計算初始吸引子,通過迭代擬合該測點的最優位移時間序列曲線。
(4)根據基礎數據和位移時間序列曲線,利用支持向量機構造一個具有更高擬合精度的SVM擬合曲線。
(5)根據上述擬合曲線及插值點集,利用支持向量機算法預測最近的一個特征點值。
(6)利用新的插值點集,重復(2)~(5)步,構造新的位移時間序列曲線,步驟(4)最后的擬合值至本步驟最后的預測值間的位移時間序列曲線即為預測曲線。
(7)如此反復,直至計算出所有預測數據。
以某混凝土重力壩159 m 高程廊道中水平位移實測數據為例,建立基于分形插值和支持向量機的混合模型分析大壩變形。該壩159 m高程廊道內順河向水平位移觀測方法為引張線法,在8~35 壩段分別布設一個測點,共28 個測點,引張線兩端點(7 壩段和36 壩段)布置垂線組,以便計算引張線各測點的絕對水平位移。引張線觀測方法采用自動化觀測,以往下游變形為正,往上游變形為負。本文選取8 號測點2006 年1 月至2015年6 月共85 期數據進行分析。前79 期數據建立模型并檢驗擬合精度,后6期用來檢驗模型預測精度。
利用分形檢驗指標計算8號測點水平位移時間序列偏度和峰度,結果表明:該測點時間序列偏度為-0.519,說明其時間序列數據分布有左側長尾;該測點時間序列峰度為0.278,說明觀測點水平位移時間序列的整體分布比正態分布高。總體來看,該測點表現為“胖尾”狀的非正態分布,測點位移時間序列具有自相似性、可相加性以及非連續性等分形特征。
運用重標極差分析法(Rescaled Range Analysis,R/S)[17]計算8 號測點的Hurst指數為0.625,大于0.5 的評判標準。擬合相關系數為0.973,擬合相關系數大于0.9 的評判標準,說明監測點未來的位移變化趨勢與過去的位移變化趨勢一致,存在正的長程相關性。即在上一段時間內,由于荷載變化(如水位、溫度等發生變化)引起大壩向上游(或下游)移動,在下一個段時間內相同效應變化則會導致大壩向相同方向移動。
綜合分析表明:8號測點水平位移時間序列具有分形特征,可以利用分形插值方法對其進行分析。
基于MATLAB R2014a 和LIBSVM 軟件平臺編寫分形插值與支持向量機混合模型,在各自階段的參數尋優和曲線擬合的基礎上,經過多次迭代,得到最佳擬合曲線。
圖1 為8 號測點分形插值擬合圖,圖2 為8 號測點基于支持向量機和分形插值的混合模型擬合圖。觀測數據表明:大壩在水位、溫度和時效因素的多重影響下,呈現明顯的周期變化,上述兩種擬合方法都明顯反映了這種變化規律。但基于支持向量機和分形插值的混合模型擬合精度更高。

圖1 8號測點分形插值擬合圖Fig.1 No 8 fractal interpolation Model fit curve

圖2 8號測點混合模型擬合圖Fig.2 No 8 Hybrid Model fit curve
為了進一步比較模型的精度,引入均方根誤差RMSE進行評判。
均方根誤差公式為:

式中:yi為實測值模型計算值;n為數據序列數。
計算表明:分形插值模型的RMSE為0.94,分形插值與支持向量機混合模型的RMSE為0.90。
綜合分析可知,在進行分形插值擬合后,運用支持向量機對數據進行優化,在各測點水平位移時間序列擬合中可以取得更好的效果,混合模型的擬合精度比單獨使用分形插值模型擬合效果更好。
對2015年的前6個月測值進行預測。8號測點預測時間段內實測值,以及混合模型、分形插值模型和SVM 模型的預測值和殘差見表1所示。

表1 8號測點預測時間段內的實測值、預測值和殘差表 mmTab.1 observation,predictive values and residual error of No.8
由表1可知,在進行分形插值預測時,預測點距離已知序列越遠,預測誤差會越大,說明其外延預測范圍有限。這三種模型中混合模型預測精度最高。2015 年5 月15 日的預測值不太理想,通過實測數據規律分析,該期數據很可能有粗差的影響。
為了進一步分析分形插值與支持向量機混合模型外延預測效果,分別計算出混合模型、分形插值模型、支持向量機模型的殘差均方根RMSE分別為0.72、2.04、0.93。
計算結果可知,在進行位移時間序列預測時,分形插值與支持向量機混合模型的預測精度要高于單一模型,混合模型在工程實例中得到了較成功的應用。
針對利用分形插值理論建立大壩位移時間序列模型過程中,預測效率較低、預測序列越長精度越差等缺點,提出了應用支持向量機算法對分形插值模型進行優化。結合大壩變形時間序列特點,通過垂直比例因子和核函數的選擇,建立了基于分形插值與支持向量機大壩變形混合模型。
結合工程實例采用分形插值與支持向量機混合模型對某大壩水平位移進行了擬合和預測分析,結果表明:利用支持向量機優化的分形插值模型擬合精度高于分形插值模型;混合模型預測精度也高于分形插值模型和支持向量機模型。分形插值與支持向量機混合模型在大壩變形分析研究中取得較好的效果。