蘇 凱 岳德鵬 YANG Di 于 強 馬 歡 張啟斌
(1.北京林業大學精準林業北京市重點實驗室, 北京 100083; 2.佛羅里達大學地理系, 蓋恩斯維爾 FL32611)
地下水是我國北方尤其是西北地區重要供水水源[1],是維持區域社會經濟發展的首要基礎,對維護區域生態可持續發展起著重要作用[2]。由于地下水持續過量開采引起的地面沉降以及生態惡化問題時有發生,有必要對地下水埋深動態變化進行研究[3]。根據地下水位監測資料,對區域的地下水現狀水位進行預測跟蹤,監測水位變化狀況,防止地下水位持續下降,為區域地下水資源開發利用和保護提供重要技術支撐[4],從而達到水資源的可持續開發利用的目的。
目前國內外用于地下水位埋深預測的方法主要有時間序列分析法、神經網絡法、馬爾可夫法、卡爾曼濾波法[5]及基于機器學習的支持向量機(SVM)法。盡管這些方法在實際應用中有一定的預測效果,但是在資料相對缺乏時誤差往往較大而達不到預測精度。如:傳統的時間序列分析法與神經網絡法,對時間序列的平穩性、正態性、獨立性有較高要求,且不適用于復雜時間序列;支持向量機(SVM)法盡管有效地解決了數據的非線性、小樣本等問題[6],但仍有不少問題,如SVM的核函數參數的選擇對運行結果影響很大,而核函數參數的選擇通常需要依靠經驗[7]。另外傳統的機器學習方法需要保存所有的歷史訓練數據,每當有新訓練數據加入時,都需要從頭開始重新訓練以保證模型對新數據的適應性,浪費大量的時間、存儲和計算資源[8]。IL-HMMs預測模型在原先已訓練好的模型基礎上,采用增量學習的方法,調整因新訓練數據加入的模型參數,使之能適應新設定的預測模型。
本文選擇西北干旱典型縣域磴口縣為研究區,引入觀測變量的隨機過程,將增量學習引入到模型優化中,改進馬爾可夫模型,并根據磴口縣水務局歷年地下水位埋深測量數據,建立地下水位埋深預測模型,對地下水埋深進行預測研究。
磴口縣位于內蒙古自治區巴彥淖爾市西南部,地處東經106°9′~107°10′,北緯40°9′~40°57′,地處中緯度內陸,屬中溫帶大陸性季風氣候,是河套平原與烏蘭布和沙漠的結合部。境內海拔1 030~2 046 m,主要地貌類型可劃分為山地、沙漠、平原等。地下水資源埋深淺、易開采,地下水資源比較豐富。水資源分布主要有3部分:河套地區地下水,埋藏深度0.5~3 m之間;沙區地下水,埋藏深度在3~10 m之間;山前洪積扇地下水,水量較為豐富,一般埋深在3~15 m[9]。磴口縣生態系統類型為荒漠、人工綠洲和農牧區,幾種生態系統交錯交織[10]。總面積4 167 km2,其中烏蘭布和沙漠占了68%的面積。研究區概況如圖1所示。

圖1 研究區概況Fig.1 Overview of study area
地下水位埋深實測數據從磴口縣水務局獲得。資料系統由于觀測誤差以及其他擾動影響需要對數據中奇異值進行適當的處理。數據選擇磴口縣境內2005—2016年3組地下水觀測井實測數據,A組:河套地區地下水,埋藏深度0.5~3 m之間,選取觀測井:DJ1、DJ3、DJ5、DJ7、DJ8;B組:沙區地下水,埋藏深度在3~10 m之間,選取觀測井:巴1、巴2、巴5、巴9、巴11;C組:山前洪積扇地下水,水量較為豐富,一般埋深在3~15 m,選取觀測井:1號井、2號井、3號井、4號井、5號井,通過預測對模型精度進行驗證分析。
隱馬爾可夫模型(Hidden Markov models, HMMs)是基于馬爾可夫模型的優化改進,其中的狀態不確定或不直接可見,以一定的概率通過觀察量反映[11]。模型由兩部分組成:第一部分是用地下水埋深狀態轉移概率矩陣A和初始狀態分布π描述狀態變量間轉移的一階馬爾可夫過程;第二部分是由地下水埋深狀態輸出概率分布矩陣B描述狀態與觀察序列之間對應關系的觀測變量的隨機過程[12]。HMMs組成示意圖如圖2所示。

圖2 隱馬爾可夫過程
Fig.2 Hidden Markov process
HMMs模型
[13]
可以看作是一個二重馬爾可夫隨機過程,由具有狀態轉移概率的馬爾可夫鏈和輸出觀測值的隨機過程組成,該模型所經過的狀態序列未知,其狀態通過觀測序列的隨機過程表現出來
[14]
。
POLIKAR等[15]提出增量學習(Incremental learning,IL),該算法以不斷積累知識為目的,通過在學習未知知識的同時盡可能保留已學的知識來實現[16]。本文將增量學習的思想加入HMMs樣本識別后的再訓練過程中,為基于傳統HMMs地下水埋深預測設計出一套特定的增量學習算法(Incremental learning hidden Markov models based IL-HMMs),它包含了集成訓練(Ensemble training,ET)與集成學習(Ensemble learning,EL)兩部分。ET[17]包括利用地下水埋深單個月數據訓練集中的每一個訓練樣本,分別單獨訓練出一個HMM,在所有樣本訓練完畢后,再將這些訓練好的模型融合成一個單獨的HMMs。EL則是應用在識別每一個地下水埋深測試樣本之后進行的模型改進。采用增量學習算法,當分類模型更新時,通過對已學習知識進行匯總和分析,將少量的歷史數據與新數據混合,用所得到的新訓練集對模型進行再訓練,以達到學習新知識的目的[18]。該模型具有4個特點:①通過增加新數據獲得新的知識,來提高模型適應性。②保留一定的歷史知識,防止出現災難性遺忘。③在學習過程中不需要保留歷史訓練樣本,節省存儲空間,降低運算成本。④可識別和適應新數據中出現的新類別標簽。
在HMMs識別一個測試樣本O并輸出識別結果δi后,如果似然概率lgP(O|δi)小于為這個模型δi所預先設定閾值PThres,則認為這個地下水埋深測試樣本O有較高的置信度,可以用于模型的更新操作。利用這個單樣本O訓練出一個新的HMM′,并將之前已經訓練好的模型δi進行融合。
假設初始模型為δt-1=(At-1,Bt-1,πt-1),表示所有的訓練+測試樣本HMM更新至時刻t-1時的狀態,當t時刻時利用新數據樣本Ot訓練好的HMM模型表示為δ′t=(A′t,B′t,π′t)。
利用EL為HMM進行增量學習以產生δt=(At,Bt,πt)的計算為
(1)
(2)
(3)
其中
Wt=Wt-1+W′t
(4)
式中Wt——到t時刻的權重累加值
Wt-1——到t-1時刻的權重累加值
W′t——t時刻的權重



在實際操作中,為減輕增量學習的計算量,在EL的計算過程中所有的Wt取相同值,則上述公式可簡化為
δt=δt-1+μδ′t
(5)
式中μ——權重
本文中,μ定義為學習率(Learning rate),δ為初始狀態的HMM,δ′為使用新數據樣本O訓練后的更新后的HMM,學習率μ表示為在學習新知識與遺忘舊知識之間的關系,μ越大模型更傾向于遺忘舊的知識,更適應新的環境;μ越小模型則更傾向于保留通過大量樣本學習得到的舊知識[19]。
為方便計算機計算,采用比例因子修正最后的輸出概率,以避免產生數據下溢現象。修正公式簡化式為

(6)
式中N——預測樣本數
修正后的輸出概率是最小的輸出概率所對應的模型,判斷測試樣本是否擁有足夠的可信度,利用增量學習改進模型參數的判別條件為小于所設定閾值PThres。
為方便閾值設定,采用的歸一化方法為

(7)
式中κ——比例因子,取0.8
所以將樣本用于增量學習模型的最終判別式為
lgP(O|δ) (8) 本文采用平均絕對誤差與均方根誤差作為誤差評價指標,對預測效果進行檢驗[20] (9) (10) 式中φMAE——平均絕對誤差 yi——序列的真實值 以2005—2012年的地下水埋深數據作為增量學習的初始狀態變量,增量間隔為1個月,κ設為0.8,學習率μ為0.2。利用增量學習融合隱馬爾可夫模型,獲得優化的地下水埋深數據,并在ArcGIS中得到2013年地下水的埋深空間模擬分布圖(圖3a),與傳統隱馬爾可夫模型模擬結果(圖3b)進行對比分析。 圖3 磴口縣地下水埋深空間模擬分布圖Fig.3 Spatial simulation of groundwater depth in Dengkou County 2種模型對2013年地下水埋深空間分布的模擬結果基本一致,也比較符合研究區埋深分布:河套地區地下水埋深(0.5~3 m)、沙區地下水埋深(3~10 m)、山前洪積扇地下水埋深(3~15 m)。地下水埋深最高值區域出現在狼山南麓的山前洪積扇,此區域的地下水埋深均值大于12 m,其次在南部沙漠地區,其地下水埋深值均大于7 m;最低值區域出現在東部黃河流域附近區域與黃河沖擊平原河套地區,范圍為0.5~2 m,該區域水資源較為豐富,地下水埋深較淺;東南部也有小范圍地下水埋深較深的區域,該區域為磴口縣城區。模擬結果表明隨著城市用水增多,使得該區域地下水埋深較深。從圖3可以看出2種模型的模擬結果的主要差別在東南部磴口縣城區與中西部,IL-HMMs模型的地下水埋深空間分布模擬結果更接近實測值,特別是東南部磴口縣城區地下水埋深的變化能及時在模型中更新參數,使得預測結果更加準確。 為比較模型模擬結果預測精度,選擇磴口縣境內的2013年地下水長觀井,對IL-HMMs和HMMs模型的模擬結果與實際測量值進行驗證(圖4)。 圖4 HMMs與IL-HMMs對比曲線Fig.4 Comparison of HMMs and IL-HMMs 對于穩定連續的數據,IL-HMMs模型的絕對誤差有所減小,至少也保證與傳統HMMs模型同樣的絕對誤差。對于新增有變化的數據,模型的絕對誤差有較明顯的下降,充分說明了IL-HMMs模型在面對增量環境時有較好的魯棒性。 對于傳統HMMs模型,由于訓練完畢后模型就不發生改變,故而面對發生改變的新數據,識別率會有所下降。而在IL-HMMs模型中,模型參數在識別階段能隨著新的測試數據而動態調整,使之更傾向于需要識別的數據,故能取得比較好的模擬結果。 在基于IL-HMMs模型中,根據學習率μ的不同,其預測精度如表1所示。從表1可知,通過使用不同的學習率μ,相同的輸入數據可以獲得不同的預測精度。設置學習率μ=0.2,預測精度都將達到最高。但如果繼續增大學習率,即μ在0.2~1.0之間任意設置,預測精度將下降,表現出“過學習”的現象,另外發現當μ在0~0.2時,其預測精度小于μ=0.2,表現出“學習不足”的現象。 為了進一步評價IL-HMMs模型對磴口縣地下水埋深動態預測效果,本文選取研究區3組長期觀測井地下水埋深觀測數據,分別采用IL-HMMs預測模型、加權馬爾可夫鏈預測(WMCP)模型和BP神經網絡(BPNN)預測模型進行了預測和模擬(圖5)。各個模型的模擬結果與實際測量值如表2所示。 在3組地下水長期觀測井預測模擬結果與實測數據對比發現,IL-HMMs模型模擬結果與實測數據相符程度最高,平均絕對誤差φMAE與均方根誤差φRMS在幾組模型中最小,預測結果與實測值具有很好的吻合性,預測結果達到精度要求;其次是HMMs模擬結果,其平均絕對誤差φMAE與均方根誤差φRMS比IL-HMMs模型略大;BPNN模型不論是平均絕對誤差φMAE與均方根誤差φRMS,其誤差預測性能更差一些;WMCP模型的模擬結果誤差最大,其平均絕對誤差φMAE最大為0.554,均方根誤差φRMS達到0.534,預測性能最差。同時,通過3組不同級別地下水長期觀測井預測模擬結果與實測數據對比驗證,L-HMMs模型不論在地下水埋深較淺的河套地區,還是埋深較深的山前洪積扇都具有較好適應性,預測結果與實際監測水位基本一致。可見通過增量學習的優化模型具有較好的魯棒性,可以減小誤差,提高預測精度,可以用來進行預測。 表1 基于IL-HMMs地下水埋深預測的最小平均絕對誤差Tab.1 Minimum average absolute error of groundwater burst prediction based on IL-HMMs 圖5 磴口縣地下水埋深空間模擬分布圖Fig.5 Spatial simulation of groundwater depth distribution in Dengkou County 誤差河套地區沙區山前洪積扇BPNNWMCPHMMSIL-HMMSBPNNWMCPHMMSIL-HMMSBPNNWMCPHMMSIL-HMMSφMAE0.4980.5380.1390.1260.5060.5410.1800.1560.5160.5540.1850.164φRMS0.5470.5330.3120.2460.5080.5140.3200.2560.5050.5340.3650.269 利用2005—2016年的地下水埋深數據作為增量學習的初始狀態變量,采用建立的地下水模型對2018年地下水埋深進行預測和模擬,如圖6所示。 圖6 磴口縣2018年地下水埋深空間模擬分布圖Fig.6 Spatial simulation of groundwater depth distribution in Dengkou County in 2018 從預測結果來看,磴口縣2018年地下水年平均埋深略有增加。局部區域,如烏蘭布和沙漠東北邊緣部分,即南部沙區地下水埋深有增加趨勢,此外在中部包爾蓋農場與納林套海農場區域地下水埋深變化明顯,比2013年埋深增加0.56 m,埋深增加范圍有擴大趨勢。在縣城附近的地下水埋深比2013年增加30%,說明城市擴張、工業化的發展對水資源的需求量增大,地下水的開采量增加,導致地下水的埋深加深,并有繼續加深的趨勢。因此在未來城市規劃發展中,需要加大該地區的地下水埋深的監測和水資源的保護和合理開發,并提高水資源利用率,減少水資源浪費;跟蹤監測水位變化狀況,防止地下水位持續下降并制定應急響應方案,實現水資源的可持續開發利用。 針對傳統機器學習方法中模型一旦訓練后參數不能動態調整的弊端,本文設計出在訓練階模型參數可動態調整的基于增量學習的隱馬爾可夫預測模型(IL-HMMs),通過2005—2012年地下水埋深數據對2013年磴口縣地下水埋深預測進行模型精度驗證。實驗表明,該模型較傳統的隱馬爾可夫模型、BP神經網絡和WMCP模型,預測結果的平均絕對誤差與均方根誤差都比較小,預測效果好。并對2018年磴口縣地下水埋深動態變化趨勢進行了預測,對指導該地區合理開發利用地下水資源,區域水資源規劃具有指導意義。 1 李文鵬,鄭躍軍,郝愛兵.北京平原區地下水位預警初步研究[J].地學前緣,2010,17(6):166-173. LI Wenpeng, ZHENG Yuejun, HAO Aibing. A preliminary study of groundwater level pre-warning in Beijing Plain[J]. Earth Science Frontiers,2010,17(6):166-173. (in Chinese) 2 李有斌. 生態脆弱區植被的生態服務功能價值化研究[D].蘭州:蘭州大學,2006. LI Youbin. Valuation of vegetation ecological services in vulnerable ecological region[D]. Lanzhou: Lanzhou University, 2006. (in Chinese) 3 張落成, 陳振光,吳楚材.蘇南太湖流域地下水過度開采引起的地面沉降及其防治對策[J].湖泊科學, 2003, 15(3):257-262. ZHANG Luocheng, CHEN Zhenguang, WU Chucai.Land subsidence problem and its control in Taihu basin of south Jiangsu Province due to overexploitation of underground water[J]. Journal of Lake Sciences, 2003, 15(3):257-262. (in Chinese) 4 薛曉丹. 盤錦地區地下水水位模擬預報與水資源合理利用研究[D].長春:吉林大學, 2005. XUE Xiaodan. The research on the simulation with prediction of the groundwater level and the rational utilization of the water resource in Panjin Area[D].Changchun:Jilin University, 2005. (in Chinese) 5 李捷斌,孔令杰.基于Kalman濾波的BP神經網絡方法在大壩變形預測中的應用[J].大地測量與地球動力學, 2009, 29(4):124-126. LI Jiebin, KONG Lingjie. Application of BP neural network based on Kalman filtering to dam deformation prediction[J]. Journal of Geodesy and Geodynamics, 2009, 29(4):124-126. (in Chinese) 6 劉敬洋,劉何稚,朱凱,等.基于PSO-SVM模型的拱壩壩變形預測研究[J].三峽大學學報:自然科學版,2013, 35(1):30-33. LIU Jingyang, LIU Hezhi, ZHU Kai, et al. Study of arch dam deformation prediction based on PSO-SVM model[J]. Journal of China Three Gorges University: Natural Sciences, 2013, 35(1):30-33. (in Chinese) 7 曹宇翔.基于核聚類與信息融合的齒輪故障診斷技術研究[D]. 湘潭:湖南科技大學, 2014. CAO Yuxiang. Research on fault diagnosis technology of gears based on KFCM and information fusion[D].Xiangtan:Hunan University of Science and Technology, 2014. (in Chinese) 8 羅顯科, 柴毅, 李華鋒,等. 半監督增量式SVM在故障診斷中的應用研究[J]. 世界科技研究與發展, 2013, 35(4):459-461. LUO Xianke, CHAI Yi, LI Huafeng, et al. Application research of semi-supervised incremental SVM on fault diagnosis[J]. World Sci-Tech R & D,2013, 35(4):459-461. (in Chinese) 9 劉芳,郝玉光,張景波,等.磴口縣土地景觀變化遙感監測研究[J]. 內蒙古農業大學學報:自然科學版, 2009, 30(3):112-116. LIU Fang, HAO Yuguang, ZHANG Jingbo, et al. Study on landscape changes for various land utilization types by using remote sensing in Dengkou County[J]. Journal of Inner Mongolia Agricultural University: Natural Science Edition,2009, 30(3):112-116. (in Chinese) 10 王吉昌. 基于城市規劃的河套灌區城市人地關系研究[D]. 西安:西北大學, 2009. WANG Jichang. Research on the relationship between urban planning based on urban Hetao Irrigation District[D].Xi’an: Northwest University,2009.(in Chinese) 11 肖彩虹,郝玉光,賈培云.烏蘭布和沙漠東北部磴口綠洲近52 a水分因子的變化[J].干旱區資源與環境, 2008, 22(6):161-165. XIAO Caihong, HAO Yuguang, JIA Peiyun. Water factors change in Dengkou oasis northeast of Wulanbuhe desert since recent 52 years[J].Journal of Arid Land Resources and Environment, 2008, 22(6):161-165. (in Chinese) 12 孫超. 基于風險量化分析的電力變壓器多層次檢修策略研究[D].重慶: 重慶大學, 2014. SUN Chao. Study on multi-level maintenance strategy of power transformers based on quantitative risk assessment[D]. Chongqing: Chongqing University, 2014. (in Chinese) 13 黃崗. 馬爾可夫及隱馬爾可夫模型的應用[J]. 電子設計工程, 2013, 21(17):60-62. 14 孫師堯, 妙全興. 基于改進HMM的半結構化文本信息抽取算法研究[J].電子科技,2014, 27(10):111-114. 15 POLIKAR R, UDPA L, UDPA S S, et al. An incremental learning algorithm for supervised neural networks[J]. IEEE Transactions on Systems, 2001, 31(4): 497-507. 16 周興勤. 基于選擇性集成的增量學習研究[D].重慶:重慶大學,2014. ZHOU Xingqin.Research on incremental learning based on ensemble pruning[D]. Chongqing: Chongqing University, 2014. (in Chinese) 17 姚遠. 海量動態數據流分類方法研究[D].大連:大連理工大學, 2013. YAO Yuan. The research on massive and dynamic data stream classification method[D].Dalian: Dalian University of Technology, 2013. (in Chinese) 18 DAVIS R I A, LOVELL B C, CAELLI T. Improved estimation of hidden Markov model parameters from multiple observation sequences[C]∥2002 16th International Conference on Pattern Recognition, IEEE, 2002,2:168-171. 19 陳春花, 金智慧. 知識管理中的主動遺忘管理[J]. 科學學與科學技術管理, 2006, 27(4):104-108. 20 李嵐濤,任濤,汪善勤,等.基于角果期高光譜的冬油菜產量預測模型研究[J/OL].農業機械學報,2017,48(3):221-229.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20170328&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.03.028. LI Lantao, REN Tao, WANG Shanqin, et al. Prediction models of winter oilseed rape yield based on hyperspectral data at pod-filling stage[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2017,48(3):221-229. (in Chinese)1.5 評價指標

2 結果與分析
2.1 預測結果分析


2.2 學習效率
2.3 多模型對比驗證



2.4 模型預測應用

3 結束語