田亞平聶新明
(1.江蘇師范大學后勤集團 江蘇徐州 221116;2.江蘇師范大學物理與電子工程學院 江蘇徐州 221116)
能源互聯網大數據結構的發展趨勢*
田亞平1聶新明2
(1.江蘇師范大學后勤集團 江蘇徐州 221116;2.江蘇師范大學物理與電子工程學院 江蘇徐州 221116)
傳統數據挖掘技術更關注解決模型學習問題,與底層的數據管理銜接不緊。但當面對包含客戶服務中心信息系統的語音數據、設備在線監測系統中的視頻數據和圖像數據等能源互聯網大數據時,數據遷移成本極高、完全內存計算容易導致空間不足,因此,亟須對傳統的數據挖掘技術進行重新設計,使之適應能源大數據社會化商務系統是一個多源異構復雜系統,這也是能源社會化商務戰略的發展趨勢。
數據挖掘 能源 互聯網 大數據 社會化
隨著互聯網發展迅速,進入了雙向互動的 Web2.0 和移動互聯網時代,每個個體既是信息的消費者,也是信息的生產者,實現了異種設備的即插即用,具備自組織、 自愈等功能,產生眾多的新業態和商業新模式,成為當前最活躍的創新創業之土壤。能源互聯網緊密耦合信息網絡、天然氣網絡、交通網絡等復雜網絡,充分有效地利用分布式可再生能源滿足用戶多樣化能源需求的一種新型能源體系結構[1]。
能源互聯網要求企業運用大數據技術對設備狀態、電能負載等數據進行分析挖掘與預測, 開展精準調度、故障判斷和預測性維護,提高能源利用效率和安全穩定運行水平,因此,深入理解和運用大數據技術成為了為能源互聯網發展保駕護航的重要載體。
1.數據存儲與管理
關系數據模型經過數十年的積淀和發展,擅長結構化數據的處理,事務語義保證機制完善,但遇到擴展能力的困難。反之,NoSQL數據模型擴展能力好、能很好支持異構數據及其分析,卻缺乏事務語義保證。在能源互聯網實踐分析型應用中,既要用到結構化數據、又要用到半/無結構化數據,比如,在社會化能源消費的情境推薦技術需要從社會關系網絡中挖掘情境信息,結合結構化商務交易數據生成推薦[2],因此,在能源大數據領域關系數據模型和NoSQL 數據模型的融合成為必然發展趨勢。總之,目前關系數據模型和 NoSQL 數據模型呈現出相互借鑒和啟發、逐步走向融合的發展趨勢,即:關系數據模型試圖改進其擴展能力和異構數據支持能力,而 NoSQL 數據模型試圖增強其事務語義保證能力。
2. 計算模型的發展現狀
MapReduce 模型優勢在于簡單易用、靈活性高、獨立于云數據庫系統、容錯能力強。但是,MapReduce 經常被描述成為一種ETL (Extract-Transform-Load)工具,其缺點也非常明顯,比如,缺乏高層語言支持、缺乏數據模式、數據流不靈活、調度和I/O效率低等[4]。很多計算過程難以用 Map 和 Reduce 函數刻畫,如迭代計算和圖處理[5],因為 MapReduce 需要啟動多輪Map和 Reduce 任務,額外開銷極大。 HaLoop和Twister被提出改進 MapReduce 在迭代計算上的性能,但仍然不能很好地解決 MapReduce 由數據流單一導致的不擅長處理迭代計算和圖處理的問題。于是 BSP(Bulkynchronous Parallel model)模型被引入到云計算中,多種基于 BSP的系統被研制出,如Yahoo!的Graph和開源的Hama。 BSP 在迭代計算、子任務間依賴性強、實時性要求高的應用上更有優勢。但是,BSP 將數據都存儲在內存,數據處理規模受到極大制約;同時,BSP 模型中各任務之間的消息通信也是難以消除的效率瓶頸, 且缺乏完善的容錯管理機制。
融合社會網絡的能源互聯網社會化商務應用環境比傳統電力市場電子商務更為復雜,更迫切需要借助面向大數據的商務智能技術,才能有效實現一系列智能化精確信息管理。 而幾乎所有的基于數據挖掘、處理和分析的商務智能技術無不與底層多源異構大數據存儲、管理和分析密切相關。 本項目面向能源互聯網社會化商務這一新興應用之需求, 對大數據存儲和管理及適應大數據計算的數據挖掘、 分析、處理兩個層面的若干關鍵技術問題展開攻關,形成自主知識產權,為能源互聯網社會化電子商務產業發展提供技術先導。進一步地,通過實施多源異構大數據分析平臺的工程化建設,并在分布式新能源企業進行示范應用。
綜上所述,融合社會網絡的能源互聯網數據索引分析平臺,比一般意義上的電力市場的電子商務更為復雜, 更迫切需要借助面向普通用戶的大數據的商務智能技術, 才能有效實現一系列智能化智慧能源大數據管理應用,包括:①能夠表征能源互聯網的參與者--人的特征的數據;②反應能源生產、配送的數據;③反應能源消費、交易和調控的投資決策支撐數據;④對能源互聯網有影響的社會經濟環境數據。幾乎所有的基于數據挖掘、處理和分析的商務智能技術無不與底層多源異構大數據存儲、管理和分析密切相關。大數據的深入應用在面向能源互聯網社會化商務這一新興應用之需求,對能源大數據存儲和管理及適應大數據計算的數據挖掘、分析、處理兩個層面的若干關鍵技術問題展開攻關,進一步地,實施多源異構大數據分析平臺的工程化建設,并在地方能源企業進行示范應用,非常有價值和意義。
[1]杰里米·里夫金.第三次工業革命[M].張體偉,孫毅寧.譯.北京:中信出版社,2012.
[2] Adomavicius G., and Alexander T. Context-aware recommended systems. Recommended Systems Handbook, 2011, pp:217-253.
[3] Lee K H, Lee Y J, Chai H, et al. Parallel data processing with MapReduce: a survey[J]. ACM SIGMOD Record, 2012, 40(4): 11-20.
[4] Olson C, Reed B, Srivastava U, et al. Pig latin: a not-soforeign language for data processing[C]. Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1099-1110.
[5] Bu Y, Howe B, Balazinska M,et al. HaLoop: Eff cent iterative data processing on large clusters[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 285-296.
田亞平(1986-),女,碩士,技術員,研究方向:網絡工程、通訊信息處理;
聶新明(1988-),男,碩士,講師,研究方向:大數據挖掘、能源互聯網
*基金信息:江蘇高校自然基金面上項目(16KJB51009)