謝鵬 梁睿 張曉豐
摘要:近年來隨著國家通信網絡以及電網建設的發展便利,用戶數據也逐漸呈現上升趨勢,并且其復雜度越來越高,構成龐大的數據庫,目前現有的數據分析模式無法滿足當前電力用戶側大數據分析,因此有關部門急需解決目前大數據分析和電力數據處理面臨的問題。在本研究中通過進行電力數據分析以及并行負荷相關研究進行深入分析,希望能夠對國內電力用戶側大數據分析提供參考經驗。
關鍵字:電力用戶;側大數據;分析;并行負荷;預測
近年來隨著我國人口和經濟建設的發展,對于國內電力用戶大數據來源以及側數據量,數據種類相關研究表明,在電力數據儲存方面存在很大問題,而且在數據處理和可用性方面還面臨較多挑戰,基于大數據背景下云計算技術支持的數據分析平臺實際上是利用多種傳感器進行電力用戶側大數據分析,并提出一些有效方法,將這些方法進行優化處理能夠為國內電力用戶側大數據分析提供幫助。
1電力用戶側大數據
數據量大。針對目前社會存在的廣泛問題是電力用戶測大數據分析儲存面臨極大挑戰,由于側大數據本身容量大,比如對于某地區擁有1萬套傳感器終端設備進行計算時發現,每套終端每隔5分鐘會進行數據采集,每個月將產生較大的數據量,每年形成的數據量將無法計算。近年來隨著電網智能化程度的加深,為確保實現數據精細化處理,能夠有效控制數據,且數據維度也拓展了幾百倍,同時數據產生的影響是比較大的電力負荷因素,采集頻率種類顯著提升。基于這種情況下電力公司還需要對過往的數據儲存能夠完成數據復雜分析,以滿足當前電力用戶實際需求。
數據類型較多。隨著科學技術的發展多種傳感器的應用性拓廣,日常所收集的數據包含結構化和半結構化數據,對于一些非結構化數據需要由電力公司進行收集,而這些數據在傳輸采集儲存時會形成多元化數據,這對于構建用戶增大數據是十分重要的。由于這些數據具有多種類型,導致大數據庫負荷更加嚴重,數據處理問題和準確化受到了極大挑戰,除存在較多類型的數據之外,數據本身也會快速產生,每秒鐘采集的數據是比較多的,每次采集頻率提升也會給數據庫帶來指數變化。從一定程度上來看,科學技術的發展以及數據庫數據采集速度的提升會給數據庫負荷帶來嚴重壓力。比如電力公司會針對智能電表進行數據采集,其采集頻率由過去的15秒變為1秒,其數據采集及頻率顯著提升,所采集的數據逐漸增加,需要對數據完成實時采集,在設計時由于數據類型較多所產生的類型也不斷發生變化,這對于數字化來說面臨極大挑戰。在電力系統應用過程中,電力公司需要對龐大數據進行有效分析,能夠對過往產生的海量數據完成及時處理,要求構建大數據平臺并實現并行化處理,減輕數據庫負荷壓力,能夠為電力用戶獲得較為準確和且有價值的數據。
數據交互性。從目前科學技術角度來看,智能電網具有交互性特點,其交互性主要包括與用戶交互性,與電力相關行業的數據交互,智能用電交互,這對于數據挖掘分析是十分重要的,可將所收集到的氣象、民生數據進行融合,從一定程度上能夠使電力符合時間預測。目前可解決大數據平臺的數據支持及云計算,該技術在大數據管理中是一種核心技術,同時能夠對數據完成并行計算處理,包括分布式文件,并行編程框架等,該技術具有較強功能,具有一定的可靠性,拓展性,已經實現了在電力行業中也針對該技術進行深入研究,目前研究成果主要集中于系統框架設計,這對于系統儲存模型設計來說也發生了較大程度的變化。
2電力用戶側大數據的發展分析
大數據整合。從一定程度上來看,大數據整合是電力用戶側大數據發展的主要趨勢,近年來隨著國內電網廣泛應用智能電表,以及傳感器、網絡、物聯網技術的快速發展,導致大數據模式出現較大變化,每個單位數據也存在口徑不一的問題,這對于大數據整合加工是十分困難的。針對目前海量數據利用這些數據創造有效模型,完成大數據規范表達,基于模型實現大數據融合,對于國內電力用戶特大數據發展是十分重要的,電力用戶側大數據需要具備一定的可用性,由于數據采集方法較多,因此不同通道質量及大小不同對于大數據可用性不僅需要進行接收數據質量處理,同時還需要提升數據管控能力,在實際運行過程中需要將低劣質量的數據刪除,并進一步精確分析一些具有價值的數據,能夠通過數據分析及時為有關部門提出決策依據。可以說大數據整合是一個數據分析較為完整的過程,能夠使信息社會獲得更好的發展。
數據儲存分析。目前國內已經實現了針對1.5億用戶進行信息采集工作,從一定程度上也使國內電力數據形成大規模體系,在多個省市投資使用電動汽車換電站、充電樁等設備,這些數據儲存要求是比較高的,其儲存模式時間快速增長對于數據庫性能提出較高要求,針對復雜數據傳統關系型數據庫無法滿足精準儲存和數據分析要求,因此需要尋找更加完善的數據分析模式,進而能夠對這些龐大數據量進行有效儲存分析,互聯網交互性能夠從一定程度上決定用戶側大數據分析過程中的準確性,實時性分析,急需利用大數據工作進一步來支持互聯網的推進速度。
可以利用隨機森林法利用隨機子空間理論進行計算分析,在隨機森林中不同分類回歸樹可以在樣本集中表現特異性質差異,如果總樣本為s,則不同分類樣本為ts,其次隨機森林結果為不同分類回歸式投票選擇結果或平均結果。具體如下所示。

該方法并行化是依據隨機子空間這種方式可體現相互獨立構建,能夠為并行化提供基礎。隨機子空間是每個節點的屬性測試,采用抽簽法從樣本抽取多種屬性測試,從一定程度上可避免數據一次讀入過度擬合的問題產生。
小結
總而言之,在本研究中針對電力用戶側大數據數據庫進行深入分析,能夠針對當前國內電力用戶側大數據實際發展情況進行探討,通過分析用戶側大數據庫特點,進一步說明了基于數據分析平臺開展數據實時收集、分析處理、挖掘的重要性。
參考文獻
[1]王鴻璽, 李飛, 李翀, et al. 基于大數據分析的混沌神經網絡模型在負荷預測中的應用[J]. 貴州電力技術, 2017, 20(8):1-5.
[2]龍鑫. 基于Spark和Holt-Winters模型的短期負荷預測方法[D]. ?2017.