李海濤,劉云生,蘭長杰
1(青島科技大學 信息科學技術學院,青島 266061)
2(青島勵圖高科信息技術有限公司,青島 266000)
隨著我國的經濟建設的快速發展,能源消耗量持續攀升; 作為經濟發展的重要因素,傳統能源存量有限,由于使用效率不高,浪費大,傳統能源日漸緊缺; 生物質能源作為清潔的可再生能源,是理想的替代能源[1].我國的生物質能源工程也越來越多,但是由于信息化水平較低,管理起來費時費力.
針對我國生物質能源信息化水平較低的現狀,利用先進的物聯網技術,互聯網技術,大數據處理技術,數據挖掘技術等,構建了生物質能源工程數據資源管理平臺.提高了生物質能源工程的信息化水平,便于了生物質能源工程的統一管理和運作,節省了大量的人力物力,提高生產效益.
生物質能源工程數據資源管理平臺借助物聯網技術將生物質工程的生產數據實時上傳到平臺,然后利用大數據處理技術幫助監管人員實時掌握生物質能源工程的運行情況.提供了指標的工程監測,實時指標監測,視頻監控,統計分析及異常報警等服務.
生物質能源工程數據資源管理平臺主要由數據采集層,數據存儲層,數據處理層,數據應用層四大部分組成.系統總體架構示意圖如圖1.

圖1 系統總體架構示意圖
數據采集層主要主要包括3部分: 1) 傳感器模塊,傳感器模塊是通過集成電路將溫度傳感器,濕度傳感器,濃度傳感器等組合起來,通過PLC編程,將監測數據通過互聯網或者電信網絡傳送到接口服務器.2) 人工數據的錄入,生物質能源工程的工人可以通過手機端和電腦端將生產過程中的一些數據進行填寫,并且提交到服務器[2].3) 高清網絡攝像機,將生物質能源工程的監控視頻實時的傳輸到云平臺服務器,實現對工程的實時監控[3].
根據生物質能源工程數據的非結構化和結構化數據采用了關系型數據庫和非關系型數據庫兩種數據庫分別存儲不同的數據.對于工程的基本信息,用戶信息,指標信息等采用傳統的關系型數據庫Oracle進行存儲.對于生物質能源工程產生的生產數據,結合其數據量大的特點采用基于Hadoop平臺的Hbase分布式數據庫進行存儲.
由于生物質能源工程數據比較復雜,接口服務器將上傳上來的指標信息進行解析,異常分析,然后進行存儲.由于生物質能源工程數據是海量增長的,傳統的關系型數據庫無法滿足數據的存儲.采用Hbase進行指標數據的存儲.對于上傳上來的數據,通過定時任務,通過MapReduce進行反欺詐模型分析,判斷工程是否異常.利用常用的數據挖掘算法對數據進行價值挖掘.
數據應用層主要包括數據管理和數據展示.
生物質能源工程的監管人員可以通過電腦或者手機等終端設備訪問系統平臺,就可以隨時隨地進行數據的管理,包括工程管理,指標管理,模型管理等.也可以對工程的相關情況進行查看,包括工程監測,指標監測,統計分析等.
系統本著在達到預定目標,具備所需功能的前提下.遵循簡單性原則,靈活性和適應性原則,一致性和完整性原則,可靠性原則,進行了系統的設計.
使用可以跨平臺的Java語言進行開發,采用開源框架 Spring+Spring MVC +Mybatis進行[4].采用關系型數據庫Oracle和基于列存儲的Hbase數據庫.Oracle用來存儲一些工程的基本信息,監測指標的基本信息以及用戶的基本信息包括登錄賬號和密碼等.Hbase用來存儲生物質能源工程上傳的生產數據包括溫度,壓強,以及各種氣體的濃度等.使用 Spring Tool Suite作為開發工具.
系統功能架構示意圖如圖2.

圖2 功能架構圖
工程管理是對監管區域的生物質能源工程的基本信息進行管理,包括對生物質能源工程的增加,編輯,設置為監管,地圖定位等.
工程地理分布如圖3所示.

圖3 工程地理分布圖
上傳策略管理是針對不同的生物質能源工程所監測的指標不同,因為生物質能源工程的規模不同,信息化程度不同,能夠獲取到指標數據也不同,所以針對每一個沼氣工程指定一套與之符合上傳的策略.上傳策略包括上傳的頻率,上傳的單位,自動上傳還是手動填報進行上傳等.
指標閾值的設定基于生物質能源工程的實踐基礎上制定的標準規范,因原料工藝的不同而不同.所以閾值的設定也要根據生物質能源工程的工藝進行針對性的設定.
實時工程監測是從工程的維度進行數據的監測,根據工程類別可以查看到該類別下的工程,然后有每個工程的每個工段的指標正常和異常的數量.通過詳情可以查看每個指標的詳細情況包括指標的上下閾值,當前值等信息.也可以通過圖表的方式查看各個時間段的指標變化曲線.實時工程監測效果如圖4所示.

圖4 實時工程監測
實時指標監測是從指標的維度進行數據的監測,根據監測指標,可以查看各個工程下該監測指標的當前值,并進行對比.實時指標監測效果如圖5所示.

圖5 實時指標監測
實時視頻監控可滿足隨時隨地的對生物質能源工程的視頻監控區域的狀況進行了解,對突發的異常情況作出快速的處理解決.實時指標監測效果如圖6所示.

圖6 實時視頻監控
通過對生物質能源工程的長期觀察分析,可以發現各指標的變換范圍都是有內在聯系的,不僅表現在嚴謹的的能量守恒上,還表現在事物發展的一般規律上.通過建立算法模型,對生物質能源工程的數據進行分析,可以判斷數據是否符合真實有效,異常與否.反欺詐模型管理主要包括對反欺詐模型的啟動,運算頻率的設定等.用到的反欺詐模型如表1所示.

表1 反欺詐模型算法
異常工程信息管理可以查看被反欺詐模型處理過的異常工程,可以查看反欺詐模型處理后的詳細結果,方面監管人員進行決策.實現界面如圖7.

圖7 異常工程信息
通過對上傳的工程生產數據進行處理和分析,將分析結果通過圖表的形式更加直觀的展示給監管人員,方便對工程運行狀態的及時了解.
工程狀態統計: 通過選擇某個省或者市,然后對該區域的生物質能源工程的狀態進行統計,便于決策人員因地制宜的進行生物質能源工程項目的建設和指導.實現界面如圖8所示.

圖8 工程狀態統計
工程產氣量統計: 對于每個生物質能源工程的計劃產氣量和實際量產氣量進行對比分析.便于決策人員對于生物質能源工程項目的規模進行控制.實現界面如圖9所示.

圖9 工程產氣量預實分析
工程耗能情況統計: 通過對于生物質能源工程的數據指標進行大數據處理,計算出生物質能源工程的耗電量,耗水量,催化劑量等.將耗能量的統計結果進行顯示,方面了決策人員對于對物料消耗情況的了解,便于開展下一步工作.實現界面如圖10所示.

圖10 工程耗能情況統計
生物質能源工程數據資源管理平臺設計開發完成后,對系統進行的完善的系統性能測試,業務測試.下一階段將逐步推廣到各大生物質能源工程,提高生物質能源工程的信息化水平,統一監管.
數據采集采用智能數據盒子進行采集,數據盒子是集傳感器,處理模塊和通信模塊為一體的,采用PLC編程,根據指定的指標上傳策略對原始數據進行壓縮加密處理,通過GSM模塊或者WIFI模塊連接互聯網,將數據傳遞給接口服務器.考慮到生物質能源工程的數量大,數據上傳頻率高,上傳數據量大的特點,對接口服務器采用負載均衡的技術.
生物質能源工程數量多,而且每個生物質能源工程每天產生的數據也多達上萬的級別,面對如此海量的工程數據,采用了面向列的分布式數據庫Hbase,Hbase是依托Hadoop的HDFS作為最基本的存儲單元,因此可以解決隨時讀寫和訪問大數據集的難點,這是普通的關系型數據庫難以做到的[5].
Hbase的服務體系結構遵循簡單的主從服務器結構,它由HRegion服務器群和HMaster服務器群組成[6].HMaster管理所有的HRegion服務器群,它們由Zookeeper來進行協調,并且處理Hbase服務器運行期間出現的各種問題,保障的生物質能源工程數據的準確性,一致性和完備性,保證的數據安全[7].
Hbase的優勢在于接近線性水平的高度可擴展性,因此隨著生物質能源工程數據量的增加,通過增加子節點就可以擴充其存儲空間,節省了購買高性能計算機的費用.
生物質能源工程數據滿足大數據的4V特征定義:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)[8].
規模大: 每個工程每天產生的數據就是10萬條,加上監控的視頻每天也是10 G左右,全國的生物質能源工程每年產生的數據量至少也是PB級,并且還在指數型增長.
數據多樣性: 生物質能源工程數據種類繁多,包括生物質能源的基礎信息,上傳的文件,圖片,攝像頭拍攝的視頻,傳感器上傳的非結構化數據等.
數據價值密度: 生物質能源工程數據規模大,種類多,但是有用的數據卻很少.如上傳的很多指標數據,可能也就哪個時間短的異常指標數據對監管人員來說是有價值的.攝像頭全天拍攝的視頻,可能也就發生突發安全情況的幾分鐘視頻是有價值的.
高速性: 生物質能源工程的主要目的之一在于監管異常情況,因此對異常情況的及時性要求比較高,隨時發現問題,隨時通知警報,方便及時處理降低不必要的損失.
為了解決大數據處理的難點,采用了分布式編程模型MapReduce.MapReduce是由Google公司研究提出的面向大規模數據處理的并行計算模型和方法.MapReduce借鑒分而治之的思想,將數據處理過程拆分為兩步: Map(映射)與 Reduce(化簡).第一步就是需要將數據抽象為鍵值對的形式,接著 Map函數的輸入條件為抽象的鍵值對,經過Map函數的運算處理后,輸出新鍵值對作為中間結果.MapReduce計算框架自動將這些中間結果數據作聚合處理(將鍵相同的進行歸并處理),并且會將鍵相同的數據分發給Reduce函數進行處理.第二步就是Reduce函數以鍵和對應的的值的集合作為輸入條件,經過Reduce函數處理產生另外一系列鍵值對作為最后的輸出結果[9].
用表達式表示如下:

處理流程如圖11所示.

圖11 MapReduce 處理流程
針對生物質工程上傳數據頻繁的難題,對接口服務器采用負載均衡技術保證系統的穩定.負載均衡的算法有很多包括加權輪詢,源地址哈希法,最小連接數法,隨機法,加權隨機法等[10].
根據接口服務器的業務邏輯,選擇Nigix的加權輪詢算法進行負載均衡.加權輪詢算法分為深度優先搜索和廣度優先搜索.Nigix采用的是深度優先搜索算法,首先是將請求都分給權重高的機器,當該服務器的權重值降到比其他服務器低時,才將請求分給下一個權重高的服務器; 第二,當所有后端服務器都down掉時,Nigix立即將所有服務器的標志位恢復初始狀態,避免全部的服務器因超時導致前端被夯住[11].Nigix輪詢算法如圖12所示.

圖12 輪詢算法處理流程
生物質能源工程信息化是未來的發展趨勢,國內外很多研究機構和企業在生物質能源工程信息化方面也作出很多的探索,借助于先進的物聯網技術和大數據技術,使生物質能源工程的信息化水平更上一個臺階.有了大量的生物質能源工程數據資源后,借助數據挖掘技術,提煉出有價值的數據,便于工程分析和決策的制定.
本文針對生物質能源工程數據資源管理平臺的需求進行了設計和實現,對設計與實現中遇到的難點,提出了自己的解決方案,包括數據的采集,數據存儲,數據處理以及系統的穩定性保證.
通過對生物質能源工程數據資源管理平臺的開發與研究,實現了對生物質能源工程生產數據的采集,監控,預警,保證了生物質能源工程的安全穩定運行; 通過生物質能源工程的生產數據的分析和挖掘,為決策者提供工藝改良的依據,減少消耗和環境污染,提高生產效益; 通過對生物質能源工程的產氣量統計分析,進一步為政府部門的宏觀調控提供理論依據.深深的體會到生物質能源信息化是提高能源開發效率,實現產業的可持續發展和提高市場競爭力的重要保障.
參考文獻
1楊艷華,湯慶飛,張立,等.生物質能作為新能源的應用現狀分析.重慶科技學院學報 (自然科學版),2015,17(1):102–105.
2李海濤,王新安,豐艷,等.智慧生態水產養殖系統.計算機系統應用,2017,26(10): 73–76.[doi: 10.15888/j.cnki.csa.006036]
3趙志軍,沈強,唐暉,等.物聯網架構和智能信息處理理論與關鍵技術.計算機科學,2011,38(8): 1–8.
4呂學婷.基于Springmvc和Mybatis框架的門戶網站及其內容管理系統的設計與實現[碩士學位論文].南昌: 東華理工大學,2016.
5陸婷.基于HBase的交通流數據實時存儲系統的設計與實現[碩士學位論文].北京: 北方工業大學,2016.
6White T.Hadoop 權威指南.曾大聃,周傲英,譯.北京: 清華大學出版社,2010.
7瞿龍俊.基于HBase的交通流數據實時存儲與查詢優化方案的設計與實現[碩士學位論文].鎮江: 江蘇大學,2017.
8郭雷風.面向農業領域的大數據關鍵技術研究[博士學位論文].北京: 中國農業科學院,2016.
9Dean J,Ghemawat S.MapReduce: Simplified data processing on large clusters.Proceedings of the 6th Symposium on Opearting Systems Design &Implementation.San Francisco,CA,USA.2004.137–150.
10覃川.基于Nginx的Web服務器負載均衡策略改進與實現[碩士學位論文].成都: 西南交通大學,2017.
11王春娟,董麗麗,賈麗.Web 集群系統的負載均衡算法.計算機工程,2010,36(2): 102–104.