基于SparkR的人工水體藻類建模預測

2019-08-06 20:18:00秦業海李修華艾矯燕付旭生

環境與發展 2019年4期

秦業海李修華艾矯燕付旭生

摘要：為探究水質分析與大數據技術結合的可行方案，以MySQL+Hive+SparkR為主體框架搭建一整套從數據輸入、存儲、調度到應用的SparkR水質分析平臺。設置室內培養模擬人工湖藻類生長實驗組及其重復實驗組，監測各項指標數據，通過SparkR平臺，在本地應用Adaptive-Lasso算法識別出對照組和苦草組藻類生長主要影響因子，并建立回歸方程進行驗證，在集群分布式部署GBTs藻類預測模型，經重復試驗驗證預測模型未來3天的相對誤差均值分別為15.3%、14.8%。

關鍵詞：藻類生長模型;SparkR;Adaptive-Lasso;GBTs

中圖分類號：X824 文獻標識碼：A 文章編號：2095-672X（2019）04-0-03

Abstract：In order to explore the feasible scheme of combining water quality analysis with big data technology， a set of SparkR water quality analysis platform from data input， storage， dispatch to application is built with MySQL+Hive+SparkR as the main framework. Seting up experiment groups indoors to simulate algae growth of artificial lake and its repeated experimental groups， various indicators was monitored. Based on SparkR platform， the adaptive-Lasso algorithm was applied locally to identify the main influencing factors of algae growth in control group and validate the regression equation， and GBTs algae prediction model was deployed in the cluster， and repeated experiments showed that the relative error of GBRT algae prediction models in the next three days was 15.3% and 14.8% respectively.

Keywords：Algal growth model;SparkR;Adaptive-Lasso;GBTs

由于水體污染導致的藻類水華一直受到廣泛的重視，我國從20世紀50年代起就已經對各大湖泊水質進行監測，但由于存儲管理的混亂，可能造成數據丟失或不可用，而現代的水質監測設備能取大量數據，水質監測也將會進入大數據時代，因此面對大規模的數據，更需要一種規范、安全及可擴展的數據存儲方式。國內外對藻類水華進行了大量的影響因子分析、機理建模和數據建模，都取得了良好研究成果，但機理模型針對性強，難以做到普遍適用，而神經網絡等數據模型適用性強，依賴現在充盈的數據能進一步提高精確性，然而過大的數據量也將會成為基于內存計算的傳統機器學習的瓶頸。因此有學者就水質分析與大數據的結合進行了展望和初步探索[1-4]，對學科的結合起到了指引作用，但未列出具體可行的結合方案，水質大數據還處于起步階段。本文在實驗獲取數據的基礎上，一整套從數據輸入、存儲、調度到應用的SparkR水質分析平臺，具有高可靠、可擴展、兼顧本地及并行計算等優勢。通過在本地實現Adaptive-Lasso算法來分析藻類生長的主要影響因子，通過在集群部署GBTs藻類預測模型，在取得較好的分析及預測結果的同時，也驗證了基于SparkR平臺對水質數據可伸縮性分析這一可行方案。

1 材料與方法

1.1 實驗方案

研究對象為廣西大學鏡湖，是典型的草、藻型人工景觀湖，水域面積約3000m2，約70%水域長有苦草，與外界水域無連通為封閉式湖泊。為避免復雜的氣候條件和人為活動等因子對藻類生長的干擾，采用室內培養模擬的方案，共設3個實驗組，采用60* 40* 60cm的玻璃缸作為培養箱：1）空白組，置入40cm高的湖水;2）對照組，置入10cm厚的底泥及40cm高的湖水;3）苦草組，置入10cm厚的底泥及40cm高的湖水后靜置一天，隔天植入18株長勢良好的苦草。以上的湖水、底泥和苦草均取自同一區域，湖水均用13號的浮游生物網過濾;底泥去除雜質并攪拌保障勻質性;所用苦草長勢良好且修剪為同一外觀。培養過程中保持水箱溫度為22±1℃，設置光照強度為500μmol.m-2.s-1，光暗比為12h：12h，光照時間段為8：00至20：00，進行統一管理。

為驗證模型及預測效果，設計重復實驗作為驗證組，采用60* 50*70cm的玻璃缸作為培養箱：對照驗證組，置入10cm厚的底泥及50cm高的湖水;苦草對照組，置入10cm厚的底泥及50cm高的湖水，植入22株苦草，重復實驗相關操作及管理與實驗組相同。

1.2 數據測定

測定實驗數據主要使用為美國YSI的EXO2型多參數水質監測儀，可以同時裝載6只傳感器來獲取各種的水質參數監測數據，通過設置監測時間和監測頻率，最高能以4HZ的速率輸出監測數據。傳感器監測數據經過自帶程序進行數據過濾，最終被傳輸到數據采集終端顯示并以csv格式輸出保存。使用水質監測儀監測的水質指標有pH值、溶解氧（DO）、水溫（T）、濁度（Tur）、學需氧量（COD）、電導率（Cond）、氧化還原電位（ORP）、葉綠素a（Chl-a）。針對本文藻類生長分析的需求，通過實驗室化學測定的方式測定總磷（TP）、總氮（TN）、氨氮（NH4+-N）指標，依照《水和廢水監測分析方法》[5]中相應的方法執行。

2 技術與方案

使用VMware創建3臺虛擬機為節點構建集群，選用CentOS6.7操作系統。集群各節點通過配置相應IP、主機名及hosts映射文件，關閉防火墻，配置免密登錄保證集群通信通暢。集群所有節點安裝和配置Java環境和R環境，最基本的需要安裝Hadoop HDFS集群、Hive和Spark集群，為加強集群性能，可以選擇安裝zookeeper、YARN等等大數據生態系統組件。

本文將搭建一整套從數據的輸入、存儲、調度到應用分析的SparkR水質分析平臺，采用的主體框架為MySQL+Hive+SparkR，分別對應本地數據、Hadoop集群和Spark集群模塊，SparkR平臺的整體架構及流程如圖1所示。

水質監測儀器及實驗測定數據保存為csv格式文件，通過編寫R程序對原始數據進行整合、剔除異常值、補缺、歸一化等數據預處理以滿足數據應用的格式需求。將經過預處理的數據導入MySQL所建相應的表中，MySQL數據庫作為數據的中轉，也便于實現數據的可視化。使用Azkaban工作流任務調度器來實現各項任務定時并按流程自動執行，提交的具體任務流程為：csv文件→數據預處理→導入MySQL→導入Hive，自動實現數據經本地預處理后向本地數據庫再向集群存儲的傳遞過程。其中使用Sqoop工具將MySQL中的結構化數據導入到Hive中，實則是導入到Hadoop HDFS中，而HDFS本身就是一個高可靠、可擴展的分布式文件系統，滿足了數據安全及擴容的需求。Hive是基于HDFS對數據進行類數據庫操作的抽象數據庫框架，具有強大的數據查詢和清洗功能，通過使用符合用戶使用習慣的類SQL的HiveSQL語句來高效地獲取所需數據。

SparkR使用一種帶有列名的分布式數據集SparkDataFrame，它與關系型數據庫中的表或是R Data Frame相似，并就分布式環境進行了優化，SparkDataFrame可以由Hive表來構建。SparkR通過SparkSession作為橋梁實現R程序與Spark集群互通，使得R程序能調用Spark集群上的數據和資源，解決了R語言難以實現級聯的問題。SparkR中可以使用HiveSQL語句來查詢Hive表中的數據來構建SparkDataFrame，實際上是由SparkSession調用Spark SQL組件來實現的。

R語言與大數據集群結合的方式有一般兩種，一種是從集群中獲取數據到本地，使用R程序進行需求分析。SparkR就可以通過HiveSQL語句從集群的Hive表篩選所需數據到本地，由于大多數的算法都是基于內存進行串行計算，因而只能采用本地計算方式，與傳統的R語言數據分析無異，但SparkR為集群和R程序提供了良好的銜接，即使大規模數據也能高效地分塊、抽取和篩選成內存可容納的規格，提高了數據分析的量級和效率。另一種是在集群上部署分布式計算的R程序。分布式計算需要算法支持并行化，目前SparkR實現的可并行化的算法有分類、聚類、回歸、樹和協同過濾等算法，而實現的本質是由Spark MLlib機器學習庫中算法向R語言的遷移，SparkDataFrame作為分布式數據集可以直接調用SparkR所實現的機器學習算法，這使得R語言也能進行大規模數據的并行化計算。SparkR作為R語言與大數據集群的結合方式，對大規模數據或是小規模數據、并行計算或是串行計算，都提供了良好的協調處理方案，使數據分析具有可伸縮性。

3 分析與建模

3.1 Adaptive-Lasso相關分析

將實驗獲取的數據通過SparkR將全量加載到本地，使用Adaptive-Lasso算法做相關分析識別藻類生長的主要影響因子。應用Lasso回歸來分析影響藻類生長的主要影響因子并建立回歸模型，Lasso回歸，將參數估計與變量選擇同時進行的一種正則方法，用模型系數的絕對值函數做為懲罰來壓縮模型系數，能使一些絕對值較小的系數直接變為0[6]。在R語言中的使用LAR（最小角度回歸）算法實現Lasso回歸算法，但未出現某些指標回歸系數為0的情況。為解決Lasso估計對于所有的系數都使用相同程度的壓縮效果問題，應用Zuo提出給不同的系數加上不同權值的Lasso改進方法，稱為Adaptive-Lasso方法[7]，在R語言中編程實現Adaptive-Lasso算法，計算結果如表1。

為驗證模型的健壯性，對Adaptive-Lasso回歸模型進行10-折交叉驗證，計算結果為B、C兩組模型的均方誤差均值分別為0.331和0.262，預測值相對于真實值的相對誤差均值分別為39.5%、18.4%。從計算結果來看，使用Adaptive-Lasso算法選取主要影響因子而構建的回歸模型是合理的。使用驗證組數據對Adaptive-Lasso回歸模型進行驗證，對照組和苦草組的均方誤差均值分別為0.315和0.283，預測值相對于真實值的相對誤差均值分別為33.4%、21.6%使用多元線性回歸模型還是存在一定誤差，需要更精確的預測方法。

3.2 GBTs建模預測

為更精確地對藻類生長進行預測，將構建GBTs藻類生長模型。梯度提升樹（Gradient-Boosted Trees，GBTs ），是一種決策樹的迭代集合，通過迭代地訓練決策樹使損失函數達到最小[8]。梯度提升樹對復雜的非線性函數有較好的擬合能力，易于實現并行化，而分布式平臺也較好的解決了該算法內存消耗大的問題[9]。SparkR所實現的GBTs算法支持分布式并行化的分類和回歸應用，在集群環境下通過調用spark.gbt（）方法，并根據模型需求調整模型訓練參數構建藻類生長的GBTs預測模型。

使用實驗組數據用于模型訓練，Chl-a作為輸出，其余指標作為輸入，分別使用相應的滯后數據來預測未來0天和3天的葉綠素濃度，其中未來0天預測模型作為參考，未來3天預測模型作為實際應用。使用驗證組數據對模型進行驗證，兩個模型的均方誤差均值、預測值相對于真實值的相對誤差均值如表2所示。

從結果可以看出，兩個模型相差不大，未來3天預測模型的驗證結果如圖2所示，可以看出在前中期預測點和實際點非常接近，后期由于藻類衰亡后出現了水棉等浮游植物，各指標數據波動較大，導致后期預測結果有所偏差，但總體而言所建立的GBTs預測模型有良好的預測結果。由于本次實驗數據還未到達一定規模，在實現水質監測自動化系統而獲取大量數據的條件下，將能更好地發揮SparkR平臺的優勢進而得到更好的數據分析和模型預測結果。

4 結論

（1）搭建了從數據輸入、存儲、調度到應用的一整套基于SparkR的數據處理分析平臺，具有高可靠、可擴展、兼顧本地及并行計算等優勢，通過集群加載數據到本地實現Adaptive-Lasso算法來分析藻類生長的主要影響因子，通過在集群部署GBTs藻類預測模型，驗證了基于SparkR平臺對水質數據可伸縮性分析的可行性。（2）通過Adaptive-Lasso算法篩選參數建立回歸方程并進行驗證，最終確定對照組對藻類生長的主要影響因子為pH、溶解氧、濁度、電導率、總磷、總氮，苦草組的為pH、溶解氧、濁度、總磷、總氮。（3）就多元線性回歸對于有較大峰值出現藻類生長過程預測的不足，在集群上應用GBTs算法建立藻類生長預測模型，經重復試驗驗證，對照組和苦草組的GBTs藻類預測模型未來3天的相對誤差均值分別為15.3%、14.8%，預測效果良好。

參考文獻

[1]趙黎明，王海剛，王英玨.大數據在線技術在水質監測中的應用[J].中國環保產業，2017（12）：70-72.

[2]周煜申，康望星，沈存，趙賢林.大數據在水環境綜合評價預警中的應用研究[J].江蘇科技信息，2017（35）：52-54+64.

[3]原廣平.大數據技術在滇池流域水環境監測網絡及信息平臺中的應用[J].環境與發展，2018，30（11）：146-147.

[4]邵璇，田文君.基于大數據的水質監測技術初探[J].科技傳播，2018，10（07）：75-76.

[5]魏復盛，國家環境保護總局.水和廢水監測分析方法（第4版）[M].北京：中國環境科學出版社，2002.

[6]Robert Tibshirani.（1996），Regression Shrinkahe and Selection via the Lasso.Journal of the Royal Statistical Society.Series B，Vol.58，No.1.267-288.

[7]Hui Zuo.Trevor Hastie.（2005），Regularization and variable selection via the elastic net.

[8]呂依蓉，孫斌，喻之斌，等.基于梯度提升回歸樹的處理器性能數據挖掘研究[J/OL].集成技術，2018（05）：1-10.

[9]張興.基于Spark大數據平臺的火電廠節能分析[D].太原：太原理工大學，2016.

收稿日期：2019-02-26

作者簡介：秦業海（1992-），男，漢族，碩士研究生，研究方向為環境智能。

環境與發展2019年4期

環境與發展的其它文章: 燃煤鍋爐改燃氣鍋爐的具體方案分析; 高速公路項目竣工環保驗收調查與管理研究; 空壓機余熱回收經濟性對比研究; 模擬冬季供暖導致PM2.5濃度升高的實驗; 南京市水污染防治工作回顧性研究; 修復后場地建設期環境監理研究