摘要:信息技術的快速發展以及互聯網的廣泛應用,引發世界各國先后實施“再工業化” 戰略。互聯網在數據傳輸、軟件管理、信息化應用等方面的強力保障為包括物聯網在內 的各項技術應用打開了大門。通過新興技術提升工業智能化水平,提升企業的競爭力, 以智能制造為主導的全球化工業革命已提上日程,工業智能化將成為構建未來工業體系 的關鍵所在。以工業互聯網為基礎的工業大數據分析技術及應用將成為推動智能制造, 提升制造業生產效率與競爭力的關鍵要素,是實施流程管理智能化、生產過程智能化、 制造模式智能化的重要基礎。
關鍵詞:工業大數據;能效分析;spark設計
隨著企業生產的擴大化,最直觀地是數據成指數級增長,更為重要的是,數據源越來越豐富,由原來單一地從數據庫中獲取生產歷史數據擴展為 生產管理日志、設備運行數據、以及聲音、圖像、視頻等多維數據,傳統的數據分析管 理手段無法應對企業迫切想提高生產效率的需求。因此,設計并實現一個工業大數據分 析平臺來實現對企業數據的統一化管理,并挖掘這些數據潛藏的巨大價值,進而指導生 產,提供決策支持,推動企業生產由大批量生產制造向個性化服務制造轉型具有重要意義。
一、我國基于spark數據平臺設計現狀
目前存在許多能效管控系統,但這些管控系統還存在以下局限性[1]: (1) 針對性不強 目前多數化工企業使用的能效監控平臺只是對部分生產流程進行簡單的流程監控 與分析,很少有將企業運行數據統一整合到能效分析平臺中,并將這些數據與生產能效、生產成本等企業關注的重點問題進行關聯,從而有針對性地對企業給予決策支持。 (2) 可擴展性與可維護性差 傳統的生產流程管理系統多數都是基于特定的組態軟件的,都需要企業在工控機安 裝專門的組態軟件。 為了在工業大數據時代實現節能降耗以及產業結構轉型的時代要求,落實工業生產 技術與信息技術的深度融合,并完成對能效的管控以及能源管理決策支持,工業大數據 能效管控平臺具有極為重要的作用。
二、基于 Spark 的工業大數據平臺設計
2.1 平臺總體設計
本平臺以實現一個基于 Spark 的工業大數據能效分析平臺為設計目標,集成了工業 大數據的存儲、分析與挖掘等功能,為企業眾多業務提供決策支持。 從功能上來說,本平臺具有以下幾個重要功能:(1) 對企業各項數據的采集,并完成預處理。對能效的相關工藝參數進行統一設計,并對多源異構的工業數據實現統一存儲,為后續數據分析提供數據支持; (2) 對能效進行定義,結合先進的機器學習算法進行評估統計,針對評估結果給出 節能降耗以及改善生產、提高能源利用效率的有效建議; (3) 對整個企業能效進行管控,保持平臺運行良好的穩定性; (4) 支持分析結果以及數據存儲的可視化查詢,能夠對分析結果有多方面,多角度 的展現,幫助用戶有效地理解數據分析結果。 除了以上功能外,平臺還具有以下性能: (1) 高擴展性:平臺應該能夠根據需求的擴展以及負載的增加,能夠通過增加硬件 來完善需求以獲得更為強大的性能; (2) 魯棒性:平臺應具備相當程度的容錯設計,使得在系統故障時,保障盡量多的 機器正常工作,保證任務的繼續進行;
2.2 數據集成
數據集成主要工作是將多源異構的大規模數據進行統一歸置,包括數據清洗、格式 轉換、標準化等工作。 平臺工業過程數據的來源主要包括以下幾個部分: (1) 工業設備及產品中內置的傳感器采集的實時流數據,這些數據包括設備的狀態 信號以及產品的實時質量參數;(2) Flume 日志收集系統采集的應用服務端數據,將散布在不同地方的工業生產日志 統一收集,并且該日志收集系統提供了通過其與平臺的緊密融合,將數據統一發往平臺。
2.3數據存儲
(1) key-value 存儲:是 NOSQL 中應用最多的存儲方式,典型的系統有 Redis、 Tokyo Cabinet、Amazon Dynamo等。Key-value 是通過 Hash 函數實現從 key 到 value 的映射,在進行數據查詢時通過查找 key值尋址到數據存儲點。這種存儲模型簡單快速, 利于對數據的橫向分割,在大規模數據群中也能有較高的操作性能。key-value 數據模型 中的 value 可以包含多個列,實現多層嵌套映射,也叫 key-column 存儲,Google 的 Big Table系統和 Hadoop 開源框架中集成的 Hbase 都是以這種數據模型進行存儲。 (2) 基于文本的存儲:典型的應用有 IBM 的 MangoDB等?;谖谋镜拇鎯δP?對數據的結構要求相對寬松,無需預定義為統一結構。主要還是以 key-value 為基礎, 一般存儲格式為 JSON 或類 JSON 數據列表,存儲效率高,但缺乏統一的查詢語法,加 重了編程人員的操作負擔[2]。針對工業大數據的多源異構性,提供類似適配器的數據接口,實現數據的統一訪問, 屏蔽掉數據間的異構性。數據適配就是提供多個配置文件使得數據訪問時通過配置文件 解析出數據庫的連接信息,而后對相應的數據庫訪問。
三、總結
隨著企業生產的擴大化,數據最直觀地是成指數級增長,更為重要的是,數據源及 其表現形式越來越豐富,由原來單一地從數據庫中獲取生產歷史數據擴展為生產管理日 志、設備運行數據、以及聲音、圖像、視頻等多維數據,傳統的數據分析管理手段無法 滿足企業迫切想提高生產效率的需求。在此背景下,本文研究了基于 Spark 的工業大數 據能效分析平臺,
參考文獻
[1]劉強,秦泗釗. 過程工業大數據建模研究展望[J]. 自動化學報,2016,42(02):161-171.
[2]周佳軍,姚錫凡,劉敏,張劍銘,陶韜. 幾種新興智能制造模式研究評述[J]. 計算機集成制造系統,20 17,23(03): 624-639.
作者簡介:劉喆:2000.07.12 ?身份證號:370283200007120024、女、漢、山東青島平度、大學本科 研究方向:大數據工程