溫松楠 李凈



摘要?由于基于站點數據的太陽輻射研究很難獲得空間連續分布的日太陽輻射數據,因此引入MODIS遙感數據結合隨機森林來獲取空間連續分布的日太陽輻射數據。選取西北地區2015年6月26日、7月12日、7月28日、8月13日、8月29日、9月30日共6 d的MODIS遙感數據和25個輻射站點的日太陽輻射數據,將MODIS的產品云量、地面反照率、云光學厚度、水汽、DEM作為隨機森林的輸入參數,隨機選取20個輻射站點的實測數據和對應輸入參數的遙感數據作為隨機森林的訓練數據集,用其余5個輻射站點的日太陽輻射實測數據對隨機森林模擬結果進行驗證。驗證結果表明5個站點的模擬效果都較好,說明遙感數據結合隨機森林模型能夠很好地獲得空間連續分布的日太陽輻射數據。
關鍵詞?日太陽輻射;MODIS產品;隨機森林;西北地區
中圖分類號?P422.1文獻標識碼?A
文章編號?0517-6611(2020)02-0006-04
doi:10.3969/j.issn.0517-6611.2020.02.002
開放科學(資源服務)標識碼(OSID):
Simulation of Daily Solar Radiation Based on Random Forest and MODIS Products
WEN Song-nan,LI Jing?(College of Geography and Environmental Science,Northwest Normal University,Lanzhou,Gansu 730070)
Abstract?The research about solar radiation based on ground sites is difficult to obtain daily solar radiation data with continuous spatial distribution.Therefore,this paper introduced MODIS remote sensing data combined with random forest to obtain spatially distributed daily solar radiation data.This paper selected MODIS remote sensing data of 6 days on June 26,July 12,July 28,August 13,August 29,and September 30,2015 and daily solar radiation data of 25 radiation sites in the northwest China.MODIS products including cloud fraction,surface albedo,cloud optical thickness,water vapor,DEM were used as input parameters of random forest,and the measured data of 20 radiation sites and corresponding remote sensing data input parameters were randomly selected.Remote sensing data was used as a training data of random forest,and the results of random forest simulations were verified using the measured data of solar radiation from the remaining five radiation sites.The verification results show that the simulation results of five stations are better,indicating that combining with remote sensing data and random forest model to simulate daily solar radiation data of spatially continuous distribution is a reasonable and effective way.
Key words?Daily solar radiation;MODIS product;Random forest;Northwest China
太陽輻射是地氣系統的能量來源,也是產生大氣運動的主要動力[1-2],同時,太陽輻射數據是農作物模型、水文模型及氣候變化模型等的重要參數[3-4]。雖然在局部區域可以通過輻射觀測站準確地測量太陽輻射,但是由于太陽輻射站點分布稀疏,很難獲得連續空間分布的太陽輻射[5],因此,模擬空間連續分布的太陽輻射對區域氣候變化帶來的影響具有重要的意義。
目前國內對于太陽輻射模擬的研究大多數是估算月或年的太陽輻射[6-8],日太陽輻射的模擬研究較少,國外已有少量模擬日太陽輻射的研究:Marzo等[9]利用每日最低溫度、最高溫度和地外輻射,采用人工神經網絡估算了全球13個沙漠地區的每日太陽輻射;Hassan等[10]用12個不同的經驗系數獨立模型估算了每日太陽輻射;Yildir等[11]用ANN模型和Angstrm-Prescott模型估算了土耳其東地中海地區每日太陽輻射;Jahani等[12]用4種經驗模型估算了伊朗的日太陽輻射;Kaba等[13]選取地外輻射、日照時數、云量、最低溫度和最高溫度作為輸入數據,利用深入學習方法估算了土耳其30個站點的日太陽輻射,深入學習模型在土耳其日太陽輻射模擬時取得了很好的效果,但這些研究都是基于站點數據估算日太陽輻射,很難獲得空間連續分布的日太陽輻射。
由于遙感數據可以很好地用于模擬空間連續分布的太陽輻射[14-16],再加上空間連續分布的日太陽輻射是水文模型、農作物模型及氣候變化模型等的重要參數,因此該研究在前人日太陽輻射模擬的基礎上,引入遙感手段來模擬空間連續分布的日太陽輻射。由于隨機森林模型對于太陽輻射有很好的模擬效果,所以筆者以西北地區為研究區,利用MODIS遙感數據和隨機森林來模擬獲得空間連續分布的日太陽輻射。
1?數據來源與研究方法
1.1?數據來源?選取西北地區25個輻射站點(圖1)的太陽日輻射數據,數據來源于中國氣象數據網(http:∥data.cma.cn/),主要用于隨機森林模擬太陽輻射時的訓練數據和太陽輻射模擬結果的驗證。選取的遙感數據MODIS產品來源于NASA官網,所用數據如表1所示。
1.2?研究方法
1.2.1?隨機森林。
隨機森林是2001年由Leo Breiman和Culter Adele開發的一種數據挖掘方法,是一種現代分類與回歸的機器學習技術,同時也是一種組合式的機器學習技術[17]。與人工神經網絡、支持向量機等機器學習方法相比,隨機森林算法具有運算量小、容納樣本數量大等優點。隨機森林的基本組成單元是決策樹,其優越性體現在同等運算率下的高預測精度,對非線性數據有更好的擬合效果,減少了均方根誤差、提高了模型的預估精度[18]。
通過Python中的Pandas準備數據框數據,導入Sklearn工具包,在Sklearn模塊庫中,與隨機森林算法相關的函數都位于集成算法模塊Ensemble中,利用一系列運算代碼實現隨機森林模型預測太陽輻射。選取與太陽輻射有關的因子云量、地面反照率、云光學厚度、水汽、DEM為自變量,因變量為日太陽輻射。隨機森林具體算法步驟如下[19-20]:①用Bootstrap法在N個總樣本中有放回地隨機抽取n次,得到n個自助樣本集作為訓練集,未抽取的部分組成袋外數據。Bagging是早期組合樹方法之一,又稱自助聚集(Bootstrap Aggregating),是一種從訓練集中隨機抽取部分樣本(不一定有放回抽樣)來生成決策樹的方法。②將每個訓練集都單獨作為一棵決策樹,決策樹節點從自變量中選擇M個(M小于自變量個數),并按照節點不純潔度最小原則進行分支生長。③重復步驟②n次,得到n棵決策樹組成隨機森林。對于每一棵決策樹,都可以得到一個OOB誤差估計,將森林中所有決策樹的OOB誤差估計取平均,可得到隨機森林的泛化誤差估計。
1.2.2?精度評價指標。采用相關系數(R)、平均偏差(MBE)、平均絕對偏差(MABE)、均方根誤差(RMSE)這4種精度評價指標對模型結果進行驗證[21]。
R=ni=1(xi-)(yi-)ni=1(xi-)2ni=1(yi-)2(1)
MBE=1nni=1(xi-yi)(2)
MABE=1nni=1|xi-yi|(3)
RMSE=1nni=1(xi-yi)2(4)
式(1)、(2)、(3)、(4)中,Xi代表第i個模擬值;yi代表第i個實測值;和分別表示模擬值和實測值的平均值;n為樣本個數。R為xi和yi的相關系數,R越大,模擬值與實測值的相關程度越高;MBE、MABE和RMSE越小,表示模擬值越接近觀測值。
1.2.3?太陽輻射模擬參數的選取。
MODIS能夠提供的大氣和陸地日產品有氣溫、云量、水汽、氣溶膠、地表溫度、地面反照率、植被指數,該研究需要獲得空間連續的日太陽輻射分布,而MODIS提供的日氣溶膠空間連續性很差,日氣溫與日太陽輻射相關性較低,最終選取與太陽輻射相關性較高且空間連續性好的云量、地面反照率、云光學厚度、水汽以及DEM共5種參數來模擬逐日太陽輻射。
2?日太陽輻射模擬
2.1?日太陽輻射模擬結果驗證
考慮到遙感數據的完整性和質量好壞,選擇2015年6月26日、7月12日、7月28日、8月13日、8月29日、9月30日共6 d的數據,隨機選取西北地區20個輻射站點的實測數據和對應輸入參數的遙感數據作為隨機森林訓練的數據集,將太陽輻射日輻射作為隨機森林的輸出,從而模擬得到每日的太陽輻射,最后用其余5個輻射站點的日太陽輻射實測數據對隨機森林模擬結果進行驗證,結果如表2所示。
從站點驗證結果來看,5個驗證站點的相關系數都大于0.89,哈密站點和涇河站點實測值與模擬值的相關系數最大,達0.98,吐魯番站點實測值與模擬值的相關系數最小,為0.89;5個驗證站點的平均偏差(MBE)控制在-2.5~2.0 MJ/(m2·d)波
動,平均偏差為負值表示隨機森林模型的低估,正值表示隨機森林模型的高估,固原站點對太陽輻射有輕幅度低估,其余4個站點的模擬值稍有高估;5個站點的平均絕對偏差(MABE)都控制在3.5 MJ/(m2·d)以內,哈密站點的平均絕對偏差最小,吐魯番站點的平均絕對偏差最大;5個站點的均方根誤差(RMSE)都控制在4.5 MJ/(m2·d)以內,哈密站點的均方根誤差最小,吐魯番站點的均方根誤差最大。總體上,5個站點的模擬效果都較好,其中哈密站點的模擬效果最好,吐魯番站點模擬效果一般,模擬效果一般的原因是6月26日輸入遙感參數中云量偏高導致太陽輻射的低估,9月30日輸入遙感參數中云量偏低造成太陽輻射的高估,總體上,吐魯番站點模擬的太陽輻射有1.25 MJ/(m2·d)的輕幅高估。
5個驗證站點6 d的實測值與模擬值的散點圖如圖2所示,R為0.92,說明5個輻射站點的模擬值和實測值非常接近,模擬效果較好。
2.2?日太陽輻射模擬
采用隨機森林算法模擬的日太陽輻射結果如圖3所示,2015年6月26日新疆與西安太陽輻射偏低,在甘肅、寧夏太陽輻射較高,2015年7月12日、8月13日和9月30日太陽輻射的空間分布很相似,在西北部較高,東南部較低,2015年7月28日和8月29日太陽輻射的空間分布很接近,在新疆局部地區較低,其余地區較高,日太陽輻射的增加或降低受天氣狀況影響較大,主要是由云量多少以及水汽含量的多少共同導致的。
3?結論
該研究基于MODIS遙感數據和隨機森林模型估算了西北地區2015年6月26日、7月12日、7月28日、8月13日、8月29日、9月30日共6 d的日太陽輻射,選取MODIS的云量、地面反照率、云光學厚度、水汽以及DEM作為隨機森林的輸入參數,選取西北地區20個輻射站點的實測數據和對應輸入參數的遙感數據作為隨機森林模型訓練的數據集,用其余5個輻射站點的日太陽輻射實測數據對隨機森林模擬結果進行驗證,最后得到空間連續分布的日太陽輻射數據,研究得出以下主要結論。
(1)站點驗證結果表明,5個驗證站點的相關系數都大于0.89,說明模擬值和實測值相關程度較高;5個驗證站點的平均偏差(MBE)都控制在-2.5~2.0 MJ/(m2·d);平均絕對偏差(MABE)都控制在3.5MJ/(m2·d)以內;均方根誤差(RMSE)都控制在4.5MJ/(m2·d),總體上伊寧、吐魯番、哈密、固原、涇河5個驗證站點的模擬效果都較好。
(2)基于隨機森林算法,選取MODIS遙感數據云量、地面反照率、云光學厚度、水汽以及DEM作為太陽輻射的影響因子,可以用于模擬日太陽輻射且模擬效果較好。
(3)利用遙感數據結合隨機森林模型可以很好地模擬日太陽輻射,能夠得到空間連續的、高分辨率的逐日太陽輻射數據。
參考文獻
[1] SUN H W,ZHAO N,ZENG X F,et al.Study of solar radiation prediction and modeling of relationships between solar radiation and meteorological variables[J].Energy conversion and management,2015,105:880-890.
[2] CHEN J L,LI G S,WU S J.Assessing the potential of support vector machine for estimating daily solar radiation using sunshine duration[J].Energy convers manage,2013,75:311-318.
[3] 施國萍,邱新法,曾燕.中國三種太陽輻射起始數據分布式模擬[J].地理科學,2013,33(4):385-392.
[4] 黎微微,胡斯勒圖,陳洪濱,等.利用 MODIS 資料計算不同云天條件下的地表太陽輻射[J].遙感技術與應用,2017,32(4):643-650.
[5] JOURNE M,BERTRAND C.Improving the spatio-temporal distribution of surface solar radiation data by merging ground and satellite measurements[J].Remote sensing of environment,2010,114(11):2692-2704.
[6] 劉劍,曹美燕,高治軍,等.一種基于隨機森林的太陽能輻射預測模型[J].控制工程,2017,24(12):2472-2477.
[7] 張春桂,文明章.利用衛星資料估算福建晴空太陽輻射[J].自然資源學報,2014,29(9):1496-1507.
[8] 羅悅,俞文政,袁真艷.淮北平原太陽總輻射的估算及時空特征分析[J].長江流域資源與環境,2018,27(5):1031-1042.
[9] MARZO A,TRIGO-GONZALEZ M,ALONSO-MONTESINOS J,et al.Daily global solar radiation estimation in desert areas using daily extreme temperatures and extraterrestrial radiation[J].Renewable energy,2017,113:303-311.
[10] HASSAN M A,KHALIL A,KASEB S,et al.Independent models for estimation of daily global solar radiation:A review and a case study[J].Renewable and sustainable energy reviews,2018,82:1565-1575.
[11] YILDIR M H B,CELIK ,TEKE A,et al.Estimating daily Global solar radiation with graphical user interface in Eastern Mediterranean region of Turkey[J].Renewable and sustainable energy reviews,2018,82:1528-1537.
[12] JAHANI B,DINPASHOH Y,NAFCHI A R.Evaluation and development of empirical models for estimating daily solar radiation[J].Renewable and sustainable energy reviews,2017,73:878-891.
[13] KABA K,SARIGL M,AVCI M,et al.Estimation of daily global solar radiation using deep learning model[J].Energy,2018,162:126-135.
[14] EROL A ,FILIKB.Estimation methods of global solar radiation,cell temperature and solar power forecasting:A review and case study in EskiS ehir[J].Renewable and sustainable energy reviews,2018,91:639-653.
[15] FALLAHI S,AMANOLLAHI J,TZANIS C G,et al.Estimating solar radiation using NOAA/AVHRR and ground measurement data[J].Atmospheric research,2018,199:93-102.
[16] YAO W X,ZHANG C X,HAO H D,et al.A support vector machine approach to estimate global solar radiation with the influence of fog and haze[J].Renewable energy,2018,128:155-162.
[17] BREIMAN L.Random forests[J].Machine learning,2001,45(1):5-32.
[18] 華俊瑋,祝善友,張桂欣.基于隨機森林算法的地表溫度降尺度研究[J].國土資源遙感,2018,30(1):78-86.
[19] BREIMAN L.Bagging preditors[J].Machine learning,1996,24(2):123-140.
[20] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2011,26(3):32-38.
[21] QUEJ V H,ALMOROX J,IBRAKHIMOV M,et al.Empirical models for estimating daily global solar radiation in Yucatán Peninsula,Mexico[J].Energy conversion and management,2016,110:448-456.