999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據平臺和并行隨機森林算法的能耗預測模型優化

2018-08-25 02:54:14肖祥武文雯白全生胡衛東李志金劉克勤
綜合智慧能源 2018年7期
關鍵詞:深度模型

肖祥武,文雯,白全生,胡衛東,李志金,劉克勤

(湖南大唐先一科技有限公司,長沙 410007)

0 引言

2015年12月2日,國務院常務會議決定全面實施燃煤電廠超低排放和節能改造目標,截至2020年,要求所有現役電廠平均煤耗低于310 g/(kW·h),對火電廠節能降耗、降本增效提出了更高的要求。

隨著計算機、互聯網、物聯網等現代技術的快速發展,電力企業數據庫每天存儲大量的數據積累形成電力大數據,這些數據具有數量大、數據類型多、處理速度快、數據價值高4大特征[1]。從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的規律和規則,進行有用信息和知識的挖掘[2],是電力大數據應用面臨的最關鍵問題,因此,將電力大數據應用于火電節能降耗工作面臨著巨大的機遇與挑戰[3]。機器學習是開展電力大數據分析極其重要的手段,機器學習通過計算手段利用經驗來改善系統自身性能,是計算機從數據中產生“模型”的算法[4]。

基于大數據的火電能耗預測屬于回歸預測范疇,在數學學科領域中,灰色理論、強化學習、模糊理論、時間序列、人工神經網絡、決策樹和支持向量機等均是常用模型。文獻[5]研究了并行隨機森林回歸算法對短期電力負荷的預測,同時比較了并行隨機森林回歸算法與傳統單機模板的支持向量機算法,指出了決策樹回歸算法在負荷預測上的優越性能,最后得出隨機森林回歸算法精確度更高的結論。文獻[6]研究了將隨機森林算法應用到判別分析、有無數據分析、回歸分析3個應用場景,得出隨機森林算法具有較強的魯棒性和高精確度的結論。文獻[7]研究比較了決策樹與隨機森林算法在不同數據樣本量條件下的算法效率與精度,得出隨機森林算法更優的結論。由此可見,隨機森林算法具有對屬性交互作用、離群點、缺失值不敏感的強魯棒性特點,同時對數據不易產生過擬合。

鑒于傳統算法模型在處理大數據量和高緯度數據時,不能滿足預測精度與效率的要求,本文提出基于Spark架構,利用已構建大數據分析平臺,開展基于分布式隨機森林回歸算法的火電供電煤耗預測模型優化的研究,實現能耗精準計算。

1 大數據分析平臺

1.1 大數據分析平臺組成

本文介紹的X-DT大數據平臺主要由主題分析管理、組件管理、作業管理、運行監控4大功能組成。硬件部分由4臺型號為Dell poweredge R730的服務器構成,搭配24核處理器,內存容量為256 GB,硬盤存儲容量為8×2TB。其中網頁Web應用部署在單一的云主機之上,安裝基礎的Linux操作系統、Java運行環境和Tomcat服務。

1.2 大數據分析平臺的性能

X-DT大數據分析平臺具有大數據采集、數據存儲、文件處理、數據清洗、數據預處理、建模分析、模型參數優化、模型評估等功能,采用Spark的集群并行分布式設計。與傳統的MapReduce相比,Spark技術存在較大不同[8],符合本研究大數據分析工作的要求。Spark與MapReduce的對比見表1(表中:HDFS為Hadoop分布式文件系統;RDD為彈性分布式數據集)。

表1 Spark與MapReduce對比

Spark是一種基于內存運算的分布式集群框架,在集群中,一臺任務調度服務器作主節點(driver),若干臺服務器作從節點(worker)。主節點負責向從節點分配任務,并將計算結果數據存于內存中,返回給主節點。Spark核心的RDD貫穿于Spark所有計算任務中,具有多次訪問數據集的交互式數據分析機制,特別適用于機器學習中的大量迭代運算。

X-DT大數據分析平臺集成了Hadoop,Spark,Hbase,擁有Hadoop分布式文件系統的存儲功能、Spark并行計算分析功能和Hbase大數據倉庫快速記錄讀寫功能。平臺設計開發采用Java和Scala語言,實現了Spark中數據處理和分析算法的快速調用和組合,使建模快速便捷。在分析平臺中,分析模塊由Spark提交任務到Yarn,Yarn再對任務進行資源分配、任務調度、任務運行狀況查詢。在分析過程中,產生的運行日志數據存儲到Hbase數據倉庫,運算的結果數據保存到HDFS[8]。

2 隨機森林回歸算法原理

隨機森林(Random Forest,RF)算法[9]性能優異,但很少被用于煤耗計算的研究工作中。X-DT大數據分析平臺內置的隨機森林算法是決策樹的集成算法,能分析出若干個特征變量對目標變量的作用。在構建決策樹時,隨機森林會根據設置隨機生成指定數量的決策樹,然后對每個決策樹的預測值取均值作為算法輸出結果[9],泛化能力強的決策樹是隨機森林算法的基礎。一棵樹包含一個根節點、若干個內節點和葉節點。根節點包含樣本集全集,從根節點到每個葉節點對應了一個判定測試序列,葉節點對應決策結果[10]。隨機森林回歸算法流程如圖1所示。

圖1 隨機森林流程

隨機森林算法具有如下特點:(1)隨機重復抽取訓練決策樹數據集;(2)決策樹的生長策略中,隨機選擇節點分裂屬性。算法具備的這2個優異特性,使得預測不易出現過擬合。

大數據分析平臺采用Spark中實現的并行隨機森林回歸算法進行能耗預測,主要涉及的參數有決策樹數量、決策樹深度、最大分裂數等。在評估回歸模型預測精度的統計量時,本文選取平均絕對誤差(MAE)和均方根誤差(RMSE)來描述,具體計算公式為

(1)

(2)

3 大數據平臺能耗預測模型的建立

利用大數據分析平臺采集某電廠2016年9月1日至2017年8月31日為期一年的運行數據,步長為1 min。通過分析發電機組煤耗計算過程,本文選取表2所示的38個參數為供電煤耗隨機森林預測模型的輸入量,供電煤耗為輸出變量。

采用平臺內置的數據預處理方法,通過開停機處理、剔除異常數據、填補空值,局部異常數據檢測與處理,工況判穩,工況劃分等步驟,對采集數據進行清洗,選取穩定工況下的健康數據樣本進行分析。具體流程如圖2所示。

4 預測模型調優

針對該電廠#3機組一年的運行數據,本文設計通過預處理后的樣本數據預測供電煤耗,并比較不同數據量、不同模型參數對算法的預測效果和算法效率的影響,選出較佳的預測模型。

(1)決策樹數量(NumTrees)。在研究決策樹數量對模型性能和可解釋性影響之前,數據集(10 000條)和其他參數(深度10、分裂策略all、最大分裂數50等)保持一致。在訓練隨機森林時,當構建的決策樹的數量較小時,隨機森林回歸誤差比較大,性能也比較差。但設置的樹越多,算法的復雜度就也高,時間花費也越多。當森林達到一定規模時,模型的可解釋性減弱。根據試驗給出的MAE和RMSE,從表3和圖3可見,隨著決策樹數量的增加,MAE和RMSE的走勢有一定的相似性,決策樹數量較小時MAE和RMSE有上升的趨勢,當決策樹數量達到200~300時,MAE和RMSE達到一個較小的值,再往后又逐漸上升,證明決策樹數量在這個范圍可以得到較好的預測精度。

表2 預測模型輸入變量

圖2 能耗回歸預測流程

(2)決策樹的深度(TreeDeepth)。在研究決策樹深度對模型的影響時,試驗設定數據集(10 000條)和其他參數(決策樹數量250、分裂策略all等)保持一致。樹的深度增加了算法的復雜程度,同時也提高了算法的精度,算法的運行時間也將增加。從表4縱向分析得出,隨著深度的增加,MAE逐漸降低。其趨勢如圖4所示。

表3 不同決策樹數量的MAE,RMSE

圖3 不同決策樹數量的MAE,RSME對比

表4 不同決策樹深度和最大分裂數的MAE值

(3)最大分裂數(maxBins)。在研究決策樹最大分裂數對模型的影響時,試驗設定數據集(10 000條)和其他參數(決策樹數量250、分裂策略all等)保持一致。最大分裂數表示連續特征離散化的最大數量,在做節點分裂時,影響特征分裂的方式。最大分裂數的增大,會不斷增加算法的復雜度和運行時長。根據表4橫向分析可得出,隨著最大分裂數的增大,當決策樹的深度小于30時,MAE不斷增加,當深度達到30時,MAE基本持平,其趨勢如圖4所示。

(4)數據樣本量。在研究數據樣本量對模型的影響時,試驗設定決策樹數量250、決策樹深度30、分裂策略all、最大分裂數50均保持一致。從表5可以看出,隨著樣本量的增加,訓練時間不斷增加,呈現冪指數增長趨勢,故可根據實際業務需求及模型計算時間合理確定數據樣本量。

圖4 不同決策樹深度和最大分裂數的MAE值對比

表5 數據量與訓練時間的關系

(5)模型優化結果對比。由以上分析可知,在對該機組一年的數據樣本進行清洗預處理后,將采集的機組發電負荷、環境溫度作為邊界條件,通過k-means聚類成10個不同運行工況。從每個工況中隨機選取70%的數據樣本,剩下30%的數據作為預測精度評估,具體優化模型參數設定如下:決策樹數量250、決策樹深度30、最大分裂數50,其余參數按默認值設定。另外設計4個比較模型,每個模型改變一個參數,其余保持一致。不同的參數分別設置為:決策樹數量400、決策樹數量50、決策樹深度5、最大分裂數200。模型評估的輸出結果見表6。從圖5可以看出,優化模型的MAE曲線中參數1(250/30/50)最符合優化預測的目的,即當決策樹數量為250、決策樹深度為30、最大分裂數為50時,預測模型MAE最小,此時性能達到最優。

表6 優化模型的MAE,RMSE值對比

圖5 MAE比較

5 結論

本文通過研究基于Spark的隨機森林回歸算法,利用大數據分析平臺,建立了火電能耗預測模型,重點對該預測模型進行優化處理研究,得到了最佳決策森林能耗預測模型,得到了如下結論。

(1)決策樹數量的最佳設定范圍為200~300,決策樹數量大于300時,既增加了模型訓練的時間成本和模型復雜度,又影響了模型的精度。

(2)決策樹的最佳深度為30,隨著深度的增加,模型復雜度增強,預測的精度也不斷增強,在條件允許下,可以盡量增大此參數。

(3)最大分裂數參數設定在50,隨著最大分裂數的增大,預測精度有所降低,時間復雜度也增大,此參數取值不宜過大。

(4)通過比較,本隨機森林預測模型的最優化模型參數為:決策樹數量250,決策樹深度30,最大分裂數50,其余參數選默認值。本研究成果可應用于火電機組能耗分析與診斷中,實現供電煤耗的精準預測與軟測量。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 伊人久久大线影院首页| 天堂亚洲网| 国内熟女少妇一线天| 日本高清在线看免费观看| 麻豆精品视频在线原创| 91精品国产福利| 午夜国产小视频| 国产一区在线视频观看| 欧美午夜在线播放| 国产成人精品第一区二区| 一级香蕉视频在线观看| 91精品国产91久久久久久三级| 久久免费视频6| 国产成人精品一区二区免费看京| 免费女人18毛片a级毛片视频| 日本国产在线| 久久青草免费91线频观看不卡| 直接黄91麻豆网站| 亚洲无码精品在线播放| 香蕉视频在线精品| 日韩在线永久免费播放| 亚洲最大情网站在线观看| 欧美另类精品一区二区三区| 污网站免费在线观看| 欧美日韩国产高清一区二区三区| 免费一级无码在线网站| 97se综合| 亚洲天堂日韩在线| 色网站在线视频| 国产福利在线观看精品| 999精品视频在线| 国产91精品久久| 亚洲成人网在线播放| 亚洲香蕉伊综合在人在线| 亚洲男人的天堂久久香蕉网| 99免费在线观看视频| 欧美a级完整在线观看| 亚洲国产亚综合在线区| 亚洲黄色视频在线观看一区| 毛片免费视频| 99热这里只有精品国产99| 国产小视频在线高清播放 | 国产无人区一区二区三区| 国产精品无码在线看| 国产偷国产偷在线高清| 日本精品影院| 97视频免费在线观看| 正在播放久久| 亚洲精品老司机| 亚洲天堂精品在线| 中文字幕在线视频免费| 91年精品国产福利线观看久久| 成人午夜久久| 精品国产91爱| 91精品最新国内在线播放| 国产你懂得| 国产精品va| 亚洲愉拍一区二区精品| 久久国产精品波多野结衣| 亚洲av无码专区久久蜜芽| 中国毛片网| 91精品综合| 999福利激情视频| 中文字幕免费视频| jizz国产在线| 青青操国产视频| 国产午夜福利片在线观看| 亚洲成综合人影院在院播放| 五月婷婷欧美| 91一级片| 久久精品人人做人人爽| 91色国产在线| 久久精品人人做人人| 欧美黑人欧美精品刺激| 四虎亚洲精品| 亚洲av无码久久无遮挡| 亚洲天堂自拍| 波多野结衣一二三| 成年片色大黄全免费网站久久| 国产美女在线观看| 日韩福利在线视频| 久久国产拍爱|