佘玉萍,陳淑清
(莆田學院 信息工程學院,福建 莆田 351100)
基于增強回歸樹的水藻預測分析
佘玉萍,陳淑清
(莆田學院 信息工程學院,福建 莆田 351100)
河流水質的預測分析在保護河流水源和維護河流生態有著重要意義。由于基于多元線性回歸沒有處理數據缺失值的能力和決策樹模型無法有效處理水質多變量的問題等原因,故兩者均達不到有效預測水質影響因素的目標。本文采用的增強回歸樹模型能夠處理缺失值和避免過度擬合問題,可以有效地對水質的藻類進行預測分析并得出綜合影響測試河流中綜合影響7種藻類繁殖的主要因素。實驗分析結果表明,采用的增強回歸樹模型優于多元線性回歸模型。
增強回歸樹(BRT);水質;預測分析
藻類的產生及其過度繁殖對河流生態環境的破壞是一個比較嚴重的問題,有害藻類不僅破壞河流中的生物,也在破壞水質,如果能夠監測并在早期對藻類的繁殖進行預測分析對提高河流水質是非常重要的,針對這一問題的預測目標,本文以來自于ERUDIT[1]的水質數據為例,該數據集有200個樣本,該樣本是一年時間內在歐洲的幾條河流的不同河段和不同季節收集的數據,對于每個水樣,測定了它們的不同化學性質(3個名義變量和8個水質指標)以及7種(變量a1~a7)有害海藻的存在頻率,其中數據的各變量名與含義如表1所示。
利用數學模型對水質中藻類的繁殖進行預測的研究國內外已有先例,早在1968年加拿大湖泊專家Vollenweider[2]就提出了利用多個營養指標進行水體營養程度的預測,近年來國內學者也采用了不同的方法進行預測研究,如李星[3]等人采用多元線性回歸預測水庫水的的藻類生長潛力,姚志紅[4]等人的基于改進遺傳算法的藻類神經網絡識別以及黃浙豐[5]采用時序神經網絡對多藻類進行預測研究,近年來,決策樹方法已多次被國內外學者應用到水質相關的研究中,Chen[6]應用決策樹和非線性統計回歸方法預測了荷蘭海岸線的葉綠素濃度的變化趨勢,夏曉瑞等[7]采用決策樹的方法對太湖藍藻水華預警進行了信息提取。

表1 樣本數據的變量及其含義
回歸樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的、潛在的信息,具有良好的預測精度,模型的輸入與輸出關系明確,結果直觀且易于分析,統計學、數據挖掘和機器學習中的回歸樹訓練,使用回歸樹作為預測模型來預測樣本的分類,目前,在水質方面采用回歸樹進行預測分析的文獻還不多見,尤其是使用增強回歸樹進行預測的文獻就更少,因此,應用增強回歸樹模型,對水質中的藻類來進行分析,可以彌補其他模型的局限性,為藻類的分析提供更好的預警支持。
增強回歸樹(BRT)[8-10]是基于分類回歸樹算法(CART)的一種自學習方法,該方法通過隨機選擇和自學習方法產生多重回歸樹,能夠提高模型的穩定性和預測精度,在運算過程中,多次隨機抽取一定量的數據,分析自變量對因變量的影響程度,剩余數據用來對擬合結果進行實驗,最后對生成的多重回歸取均值并輸出,目前,分類回歸樹已經被應用到物種分析[11],BRT方法提高了計算結果的穩定性和精度,得出自變量對因變量的影響荷載,以及其他自變量取均值或不變的情況下,該自變量與因變量的相互關系,利用algae隨機取樣的200個樣點數據,調用Elith編寫的BRT方程包進行增強回歸樹分析[12]。
增強回歸樹的算法如下:
2)循環步驟①到步驟④,b=1,…..,B:
①計算剩下的

④得到新的回歸樹

3)輸出增強回歸樹
f^(x)=fB(x)
根據上述的增強回歸樹方法,依次對7種藻類進行增強回歸樹模型的實驗測試,分別得到7個增強回歸樹,其次,綜合考慮測試河流中的7個藻類同時形成的影響因素,建立了第8個增強回歸樹,由于篇幅關系,省略了獨立分析藻類a2~a7的影響因素的增強結構圖,以下給出的分別是藻類a1的增強回歸樹結構(如圖1所示)和a1~a7七種藻類的增強回歸樹(如圖2所示),并根據所有的增強回歸樹列出了對各種藻類的主要的3個影響因素,如表2所示。

圖1 藻類a1的增強回歸樹結構

圖2 a1~a7的7種藻類的增強回歸樹結構

表2 影響不同藻類的主要因素
根據增強回歸樹模型的實驗數據可以得到以下結論:測試河段中的7種藻類的形成及其繁殖的主要影響因素不盡相同,所以要抑制測試河段中特定藻類形成及其過量繁殖,可以相應提高其對應的前3個主要影響因素的含量,上次實驗數據還得出一個結論,除了藻類a7中河流的規模(size)對其有較重要的影響,且對藻類a3和a5也有影響,盡管不是主要的影響因素,而河流的流速(sPeed)和季節(season)均未出現在模型中,可見這兩個名義變量對被測試不同河段的流速和不同季節的7種藻類形成和繁殖均沒有影響。
在模型的評價實驗中,選用典型的多元線性回歸模型與所采用的增強回歸樹模型進行對比分析,并采用標準化的平均絕對誤差(NMSE)來評判不同模型,得到如圖3所示的交叉驗證圖。
根據好的模型對應較低的NMSE值,從輸出結果可以看出,除了藻類a7,增強回歸樹的不同版本之間(cv.rPart.v1,cv.rPart.v2和cv.rPart.v3)對其他6種藻類分析的差異在統計上不顯著,與多元線性回歸模型(cv.lm.v1)相比,大部分情況下,增強回歸樹模型有顯著的優勢,此外,從交叉驗證的結果圖還可以得出,多元線性回歸和增強回歸樹模型均較難得到藻類a7的較好預測,而其他藻類的估計結果則相對較好,藻類a1的估計結果最佳。
影響河流水質的影響因素很多,本文利用增強回歸樹對被測試河流的數據集中7種藻類的8個水質指標和3個名義變量進行了實驗分析,BRT模型對河流中藻類的預測分析具有一定的參考價值,從實驗結果上看,BRT模型直觀明了,根據樹形圖的結構容易預測變量的影響程度;另一方面,本文采用的BRT模型對數據的要求較低,能處理缺失值,不排除對特定數據的缺失值的不同處理方法,也在一定程度上影響了模型的精度,本文對水藻的分析是以歐洲的幾條河流在一年時間內不同河段和不同季節的水質數據為基礎,數據較粗糙,較適合分析同質或者相似河流,但尚未考慮同時分析不同地理區域的不同質河流之間的關系,當然,針對不同河流的影響因素的不同,具體預測分析時,建議采用不同的模型同時進行分析,或者采用現有模型的組合模型進行預測。

圖3 7種藻類關于多元線性回歸與增強回歸樹的交叉驗證圖
[1] httP://www.erudit.org.[EB/OL](1998-03-06)[2015-02-20].
[2] VOLLENWEIDER R A.The Scientific Basis ofLake EutroPhication,with Particular Reference to PhosPhorus and Nitrogen as EutroPhication Factors[R].Pairs:Organisation for Economic CooPeration and DeveloPment,Technical RePort DAS/DSI/68.127.OECD,1968:159.
[3] 李星,何宇飛,楊艷玲,等.采用預測模型預測水庫水的藻類生長潛力[J].哈爾濱商業大學學報(自然科學版),2008,24(1):36-39.
[4] 姚志紅,費敏銳,孔海南,等.基于改進遺傳算法的藻類神經網絡識別[J].上海交通大學學報,2007,41(11):1801-1805.
[5] 黃浙豐.基于時序神經網絡的藻類水華預測模型研究-北京水系多藻類生態動力學模型[D].杭州:浙江大學,2011.
[6] Chen,Q.,Mynett,A.E.,Modelling Phaeocystis globosa Bloom in Dutch Coastal Waters by Decision Trees and Nonlinear Piecewise Regression[J].Ecological Modelling,2003,176:277-290.
[7] 夏曉瑞,韋玉春,徐寧,等.基于決策樹的Landsat TM/ETM+圖像中太湖藍藻水華信息提取[J].湖泊科學,2014,26(6):907-915.
[8] De'ath G.Boosted trees for ecologicalmodeling and Prediction[J].Ecology,2007,88(1):243-251.
[9] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008,77(4):802-813.
[10] Prasad A M,Iverson L R,Liaw A.Newer classification and regression tree techniques:bagging and random forests for ecological Prediction[J]. Ecosystems,2006,9(2):181-199.
[11] 曹銘昌,周廣勝,溫恩生.廣義模型及分類回歸樹在物種分布模擬中的應用與比較[J].生態學報,2005,25(8):2031-2040.
[12] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008:1-15.
責任編輯:吳旭云
Forecast and Analysis of Algae Based on Boosted Regression Tree
SHE YuPing,CHEN Shuqing
(School of Information and Engineering,Putian University,Putian 351100,China)
Forecast and analysis ofwater quality of rivers Play an imPortant role in the Protection ofwater sources and themaintenance of ecology.Because themultivariate linear regression can not dealwith themissing values and themodel of decision trees can not deal with multiPle variables ofwater data,the goal of forecasting the influencing factors ofwater quality can not be achieved effectively.In this PaPer,the boosted regression tree(BRT)model is used to solve the Problem of themissing values and avoid over fitting,which availably forecasts themain factors influencing the reProduction of seven algae of the tested rivers.ExPeriments indicate that BRT Performs better thanmultivariate linear regression.
boosted regression tree(BRT);water quality;forecast analysis
TP39
A
1009-3907(2015)06-0020-04
2015-03-13
福建省重點實驗室開放課題(2014KL02)
佘玉萍(1982-),女,福建莆田人,講師,碩士,主要從事數據挖掘研究。