崔曉優++楊健
摘 要 基于云計算技術的電力大數據預處理屬性約簡是當前電力企業數據處理的主要發展方向。文中對其發展進行了簡單介紹,并對MapReduce在電力大數據預處理屬性約簡中的應用以及基于MapReduce技術的電力大數據預處理屬性約簡進行詳細分析。
【關鍵詞】云計算技術 電力大數據 屬性約簡
自進入二十一世紀以來,人類社會便正式進入了網絡信息化時代,在信息化大背景的影響下,企業信息化和管理系統化已經成為主流趨勢,而在電力企業中,由于其自身數據處理的復雜性和龐大性,其不僅實現了信息化管理,更在此技術上,對云計算技術進行了全面應用,以實現大數據處理。但是,由于受發展時間短以及相關技術人員和管理人員技術水平和職業素質不高的影響,其在云計算以及大數據處理等應用方面依舊存在一定缺陷,需要加強人員和技術投入,不斷加強對技術的研究和創新,使其能夠更好的滿足電力企業的經營和管理需求;因此,接下來,本文就以更好的提高電力企業云計算應用技術為主要目的,對基于云計算技術的電力大數據預處理屬性約簡方法進行深入研究。
1 電力大數據預處理屬性約簡方法的發展
在電力企業的經營和管理中,為了能夠更好的提升供電的穩定性和質量,并對自身的經濟效益進行有效保障,就需要對電網數據進行詳細分析,尤其是對大數據進行科學、高效的預處理。電力大數據預處理主要包括數據清洗、集成、轉換以及約簡等眾多環節,其中任何一個環節出現問題,都可能對電力企業的最終決策目標造成影響。因此,在大數據預處理過程中,就需要提高數據的分析效率,并以此為基礎對各個環節中的決定性因素進行有效控制,設法降低電網的數據處理規模。比如,在對風速進行預測的過程中,相關技術人員便應用了經典粗糙集理論方式,約簡出了影響風速的關鍵屬性;在電力大數據預處理中同樣如此,需要根據不同情況采用不同的約簡方式約簡出其關鍵屬性。
在之前的電力企業經營和管理中,所應用的約簡算法雖然也能夠在一定程度上降低時間復雜度,也相應的提高了數據預處理屬性約簡效率,但是這種算法是一次性將所有數據都存入內存中,因此,這種算法只適合應用于傳統的電力數據處理中,而不適合應用在現代化的電力大數據處理中。
因此,為了能夠有效解決該方面問題,電力企業便開始對CPU、內存以及計算機硬盤等進行擴充和升級,但是這種方式雖然能夠在一定程度上解決屬性約簡中數據規模和時效受硬件制約的問題,可卻也提高了成本,會對電力企業的經濟效益造成影響。而隨著網絡以及信息技術的不斷發展,云計算技術的出現很好的解決了該方面所存在的問題,與傳統網絡以及計算機技術相比,利用云計算技術不僅能夠提高對計算機硬件資源的有效應用,同時也全方面,大幅度提高了數據處理技術,為電力大數據預處理屬性約簡提供了科學有效的新途徑。
2 MapReduce在電力大數據預處理屬性約簡中的應用
MapReduce這種比較高效的并行編程模型,就能夠很好的解決電力大數據預處理屬性約簡問題,如下,便是其中較具代表性的定義和定理:
定義1:假設電力知識表達系統為決策信息表S,S=(U,A,V,f),表中,U為對象集合,A=CυD,C為條件屬性集,D為決策屬性集,V為屬性值集合,f為信息函數,并明確對象屬性值。
定義2:令P,QA,P∩Q=|,P是Q的正域,記posp(Q)=∪x| U/QPX,Count(posp(Q))表示P中所包含的元素個數。
定理1:假設電力知識表達系統S=(U,A,V,f),P,QA,P∩Q=|,RP,Count(posR(Q))= Count(posp(Q))為posR(Q)= posp(Q)的充要條件;
必須性證明:因為posR(Q)= posp(Q),所以Q的P正域)與Q 的正域R相同,Count(posR(Q))= Count(posp(Q));
充分性證明:通過反證法進行證明,即設posR(Q)= posp(Q)不成立,而因為RP,所以posR(Q)posp(Q),而因為posR(Q)= posp(Q)不成立,所以posR(Q)posp(Q),則Count(posR(Q))< Count(posp(Q)),與Count(posR(Q))= Count(posp(Q))矛盾,姑不成立。
以上為MapReduce并行編程模型中的部分定義和定理,從中能夠看出,在對一個電力知識表達系統屬性約簡的過程中利用粗糙集理論,可以有效降低關鍵屬性約簡的復雜度,不僅能夠有效降低整個約簡過程的計算量,還能夠更好的降低時間和資源的消耗,而基于云計算技術的電力大數據預處理屬性約簡,就是在由此為基礎的前提下,通過加強對云計算技術的應用,來進一步提高其約簡效率。
3 基于MapReduce技術的電力大數據預處理屬性約簡
在基于云計算技術的電力大數據預處理屬性約簡中,可以將一個電力大數據集當成是一個電力知識表達系統,而在此前提下,再進行屬性約簡,就可以看作是計算正域的勢,其計算方式也可以如下進行:
(1)map函數在同一時間對多個數據分片進行訪問,并根據具體要求對其屬性以及屬性值進行提取,并形成鍵值對
(2)Reduce函數對來自不同節點map發送的key值相同的鍵值對序列,并對其相同等價類的個數進行計算。
而利用Hadoop在對復雜任務進行處理的過程中,其重點在于增加任務數量,而非對map和Reduce函數的復雜性進行增強。因此,在基于云計算技術的電力大數據預處理屬性約簡中,針對性的設計了兩個map,三個Reduce以及一個call_job函數,外帶一個主程序,然后,再針對其具體需求,分別給出了相應算法,通過這些給出的算法,便能夠對大數據預處理屬性進行有效約簡。
與傳統約簡方式相比,基于云計算的約簡方式,不僅解決了其不能夠對大數據集進行處理的問題,還更進一步提高了整個約簡計算的效率,降低了復雜度,節省了時間和空間,因此,在當前的電力企業中,其已經成為電力大數據預處理屬性約簡的主要方式。
4 結束語
伴隨著電力行業的快速發展以及電網規模的不斷擴大,傳統屬性約簡方式已經滿足不了電力大數據的處理和計算需求,在一定程度上影響了電力企業的經營和管理決策。因此,電力企業應該加強對云計算技術的研究和應用,并基于云計算技術實現電力大數據預處理屬性約簡,提高電力大數據處理效率,為企業經營和管理決策提供可靠參考依據。
參考文獻
[1]楊傳健.基于沖突域的高效屬性約簡算法[J].計算機學報,2012(02).
[2]翟俊海.基于樣例選擇的屬性約簡算法[J].計算機研究與發展,2012(11).
作者簡介
崔曉優(1975-),男,河南省許昌市人。大學本科學歷?,F為許繼電氣股份有限公司工程師。
作者單位
許繼電氣股份有限公司 河南省許昌市 461000