崔曉優 耿戰霞 陳大鵬
摘 要:分布式技術是一種新型的科學技術,是在網絡平臺之上研發的高新技術,可提供非常良好的應用開發效果。并且,隨著網絡技術的不斷提升,人們對網絡平臺應用技術的要求也逐步提升。文章針對分布式技術在電力大數據高性能處理中的應用做出了進一步探究,對電力大數據的概念、分布式計算比較分析、電力大數據儲存以及計算的解決措施給出了指導與建議。
關鍵詞:分布式技術;電力大數據;高性能處理
分布式技術在我國已經得到了廣泛的應用,從最開始的兩層模式發展到三層模式。三層模式包括業務層,數據層、邏輯層,該技術目前的發展,已經達到了擁有多層的體系結構。為了更好地應對該技術在電力大數據高性能處理中出現的各種問題,要對生產當中的各個方面以及銷售系統的要求相適用,立足于云計算科技帶來的各種優勢,將分布式技術在大數據高性能處理中不斷的做出深層次探究。
1 電力大數據的概念
1.1 大數據的應用
目前,信息化、科技化技術正在不斷的進行高速發展,各種各樣的信息資源呈持續上漲趨勢。人們在感受科技給生活帶來的變化同時,也造成了數字信息全球化資源快速增加。[1]根據國際上對該項數據的統計結果顯示,在2015年,全球的數據總量已經達到了2.3ZB,并且預計,還會以平均每年50%的速度進行增漲。大量數據的增添,社會的各個層面皆開啟了數據化時代。我國的電力企業是全世界排在前列的能源經濟體系支撐,無疑大數據的時代早已在電力企業中開啟。
1.2 大數據的定義
對于大數據的概念并沒有統一的定義,通常對大數據的定義為:大數據可稱之為巨量資料,是指在新的處理模式中才能擁有更加強大的決策力,觀察力以及對流程進行優化能力的巨量、大增長率和多樣化的資產信息。[2]大數據是不可在一定的時間范圍內,應用以往的數據庫軟件對內容進行收集以及管理與大數據處理的集合。
1.3 電力大數據的應用改革
針對電力大數據而言,在變革能源的過程中,電力工業技術是進行改革的重點內容。電力大數據不僅要在技術上尋求發展和變革,更要在管理的思想觀念上進行變革。這也是電力行業在大數據發展的時代背景下適應社會發展潮流的表現。
2 分布式計算比較分析
2.1 分布式計算的分類
針對比較有代表性的云計算、網絡計算、志愿計算進行比較與分析。其中進行網絡計算的方式是聚合分布的重要資源,可對虛擬的組織進行支持,全面對服務的質量進行提升,擁有比較穩定的網絡拓撲結構,參與人員在相關任務確認完成之后,便可從系統中退出;志愿計算節點在進行登錄系統時的隨意性會比較強,雖然,會出現任務沒有完成的提示之后便沒有音信的狀況,但在沒有將任務完成時,會涉及到榮譽度問題,在之后進行任務分配時,系統會自動將榮譽度進行降低,減少對任務的具體分配。
2.2 分布式計算的分析
三種分布式計算皆可對異構資源實行支持,但從理念觀念上而言又各不一樣。網絡的關鍵部分是路過中間件時,對異構系統進行屏蔽,對使用的用戶信息透明化,將實際執行的過程通過中間件來進行操作。[3]對云計算的使用,可實現用戶按照實際需求進行分配,并且有一定的保障作用,其實質同日常生活中使用的水與電是一樣的。但是在異構方面使用的則是鏡像執行。志愿計算對異構性的影響比較小,也就是能夠返回至結構就可以,通過機器類型以及各系統等方面的差別沒有特殊的要求。
云計算和網絡計算,同志愿計算進行比較,該技術可被深層次進行應用,極大的降低了工作人員的工作量,只要將類型進行選用,剩下的兩種計算方式都是對總部體系運行進行設定。此外,云計算將資源的集中化進行分散使用,而其它兩種計算則需要對資源實施整合,之后才可在大型應用中進行執行。志愿計算只是利用該計算方式的靈活性質,將空閑中的資源把分割完畢的任務交付于志愿者進行執行,之后在進行整合把任務提交上去,整個實現的過程并不需要計算機中心的數據庫系統,也無需云計算的各種終端,僅僅需要HOST便可實行調度。
3 基于分布式技術的電力大數據儲存以及計算的解決措施
3.1 分布式文件系統
對于規模龐大的數據儲存,分布式文件的可拓展性是使儲存的系統功能實現的重要因素。Key-Value文件通常會在硬件系統上進行設計,有可用性以及高容錯行的特征,該系統可提供具有容量非常高的訪問數據吞吐量,極其適合在規模龐大的數據上進行使用。在該系統中,通常會采用一個master和許多的slave架構,其中master的作用是元數據的保管,slave的作用是對信息數據進行保存。這種結構可以使系統安置在非常多的集群當中,將擴展性得到提升。利用文本的副本,使該系統在有故障發生時,可自行進行恢復數據。該系統應用的模型對復雜的系統進行了簡化,又提高了吞吐量。
3.2 并行計算
MapReduce是谷歌提出的架構軟件以及模型計算,應用在非常大規模的數據集的運算當中。分布式平臺在此結構基礎之上,在體系內部的結構當中,MapReduce是非常好用的軟件架構,可將任務分配發送至成千臺集群中,以高容錯的方法對數據集進行并行處理。將任務的并行處理功能得以實現,并且,將SQL至MapReduce實現了轉換平滑,將原有的繁雜SQL實行解析處理,優化過后形成任務處理。在平臺中,MapReduce可調度優化任務,把數據業務處理成不同的任務運行,盡量應用計算資源,將分析數據的時間整體進行縮短。
3.3 多為索引
(1)為了確保多為數據更好的實現查詢功能,需利用數據集中的多為索引。多為索引中的過濾器以及refinement階段構成了該查詢分析。過濾器階段是候選集選擇,實行初級的過濾。過濾之后再利用refinement階段,實現仔細的查找,獲取最后的結果集。該數據索引建立在數據集的基礎上,完成高質量的查詢作業以及數據分析。經常使用的二級索而言,是建立在具體的維度上,在頻率非常高查詢時,可在維度上進行二級索引的建立。例如:建立B+樹。進行查詢的過程中,可直接利用一次二級將索引過渡,之后對需要的數據進行定位,極大的提升了查找的效率。
(2)該平臺突破了Hadoop只對單項索引進行執行的問題,實現了所列索引的應用,將系統的查詢速度全面提升。為了加強不同應用系統的支持,平臺能夠支持Secondary、CCINDEX、IMP Secondary Index三種索引。在此基礎之上,利用服務端的技術,通過服務器對數據結果實行計算,之后返還給查詢方,提高了對于復雜查詢的運算效率。
4 結束語
曾經的計算機應用程序皆是在傳輸層上進行直接編輯,該方式十分不方便并且比較復雜,在大規模的系統中應用較為不便,并且不能對系統進行拓展,對于該現象的有效解決方式便是應用分布式技術。該技術在電力大數據中,在高性能處理方面實行了具體的分析,利用比較分布式計算,總結大數據的基本特征和云計算的應用發展,以便切實的提高分布式技術在電力大數據高性能中的處理水準。
參考文獻
[1]鄧賢添.基于分布式技術的電力大數據高性能處理中的應用研究[J].中國新技術新產品,2015,24:22-23.
[2]段春梅.云計算分布式緩存技術在海量數據處理平臺中的應用[J]. 智能計算機與應用,2016,1:13-15+20.
[3]崔陽,呂志平,陳正生.分布式計算技術在大地測量數據處理中的應用[J].測繪科學,2014,5:146-149+42.
作者簡介:崔曉優(1975-),男,河南許昌人,本科,工程師,研究方向:特高壓直流輸電控制保護監控系統。