程劍
摘要:信息時代,一個顯著特征是大數據時代的到來。這一特征直接導致大批新技術與產品的不斷更新換代。傳統的數據處理技術往往處理不了關聯度高以及結構復雜的數據,分析時間響應過長,基于云計算的大數據分析平臺則能夠有效避免這些缺陷。
關鍵詞:云計算;大數據分析平臺構建
中圖分類號:TP311.13?文獻標識碼:A?文章編號:1672-9129(2020)10-0022-01
1?基于云計算的大數據分析平臺概述
平臺對數據的獲取和記錄通常包括五個階段,即對數據的抽取、整合、表達、建模和詮釋。這五點是對大數據處理最基本的過程。但由于大數據不同于以往的數據庫,其中包含的數據量過于龐大,這就導致了傳統的數據處理流程不足以滿足對其中數據的獲取和記錄。而在云技術的普及和應用時代中,云平臺由于其高算力與拓展性高的兩大優勢,用來處理與存儲大信息量再合適不過。而且,云平臺所擁有的另一大優勢,就是這種對存儲的兼容在半結構和非結構化的數據上同樣很實用。但這些只滿足了數據的感知、傳輸和存儲要求,還不足以達到對數據的認知和應用的需求。想要把云計算技術應用真正發揮出數據價值,還需要提高系統分析數據的速度,即在強大云算力的支撐基礎上的先進數據算法的支持。
2?大數據分析平臺的網絡數據安全與防護
網絡數據資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關注的問題,因此在具體的工作和管理中,需要提高云計算網絡安全技術的應用程度,通過不斷創新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數據傳輸的安全性和穩定性。具體在應用過程中,可以借助云計算技術的優勢,對數據傳輸的整個路徑進行監控,保證傳輸通道環境的安全性,一旦出現問題及時進行預警,有效預防黑客的攻擊,降低網絡安全事故發生的概率。對此,有關網絡安全管理部門應該提高重視程度,同時完善相應的監督管理制度,采用科學的管理方式,實現預期的監測目標。
3?大數據分析平臺存在的重點問題分析
3.1數據的管理和儲存問題。對大數據平臺,首先要解決的是儲存數據的問題。針對于大數據,需要建立分布式系統,針對不同的用戶需求,建立多種庫數據和數據管理方法。分布式文件系統可以充分利用系統固有資源,也能通過多種方式來檢測數據,從而滿足不同需求。針對這兩種數據服務,建立數據儲存結構成為了比較困難的問題。因為大數據中存在驚人的數據量,還有一些文檔、圖表和音視頻文件,以及其他半結構化或是非結構化的數據,想要更好地處理這些數據,需要建立高效的儲存模塊。關于鍵值、圖表等形式的數據,目前還沒有一個硬性的規范來儲存這些數據,所以,這里可以將這類信息以文檔的格式進行儲存,而且以數據庫模式來處理這些圖表或是鍵值,比較符合現代的社會網絡化管理要求。建立數據庫可以減少申請這個環節,與傳統方法相比存在很大優勢。
3.2數據的收集和儲存效率問題。處于互聯網模式下,數據集會不斷增多,所以,需要不斷完善數據收集和儲存效率。目前使用的數據收集技術完全滿足不了互聯網用戶的需求,而且這對內存消耗較大。使用基于云計算的大數據分析平臺可以通過遠程內存訪問協議提供更加快速的數據運算服務,同時也能降低內存消耗。對于大數據處理技術而言,可以采取多種數據收集儲存方式,建立一個數據流處理系統,這也可以提高數據收集的效率,同時節省更多的計算資源成本,而且能夠更加高效的挖掘具有價值的數據信息。
4?大數據分析平臺的基礎架構
基于云計算的大數據分析平臺通過SPARK框架來進行架構,在SPARK框架下,主要是將數據以分區方式存儲,即RDD,在數據處理中,SPARK需要先對待處理數據創建一個RDD,然后對RDD施加轉換和行動操作。轉換的主要目的是促使RDD迭代,即利用某些函數來促使舊的RDD迭代為新的RDD,然后行動操作利用具體的算法來將RDD中的數據進行計算,進而返回計算結果。RDD默認情況下是存儲在內存當中,對內存的要求非常高,當然實際上可以通過調整設置,將RDD存儲在存儲器當中,但運算速度會比較慢,一些經常使用的RDD若存儲在存儲器當中,在運算時需要將其調用至內存中,多了一個過程,導致變慢,所以可以將一些常用的RDD保存在內存中。基于SPARK的云計算平臺架構,用戶采取自定義程序的方式,先定義好應用程序,然后提交至SPARK集群,主節點上啟動進程MASTER,子節點上則啟動進程WORKER,主節點進程MASTER會在子節點的WORKER上啟動一個任務管理程序DRIVER。在DRIVER中,任務的復雜程度由SPARKCONTEXT進行判別并向主節點申請處理器和內存的資源,并對EXECUTOR進行初始化,生成DAG。DAG需要傳遞給TASKSCHEDULER。在TASKSCHEDULER生成TASKSET,并轉發TASK任務至EXECUTOR執行。
5?大數據分析平臺的數據脫敏
在大數據分析平臺上的數據脫敏的主要方法有:一是加密方法,采用標準的加密算法,加密后完全失去業務屬性;二是基于數據失真的技術,使用隨機干擾、“亂序”等方式,不可逆的打亂數據,通過這種算法可以生成“看起來很真實的假數據”;三是可逆的置換算法,兼具可逆和保證業務屬性的特征,可以通過位置變換、表映射、算法映射等方式實現。脫敏后的數據,既不影響大數據的分析、挖掘,又可有效地保護數據安全。當用戶使用大數據平臺中的數據時,應根據用戶權限和數據用途等,對調用的數據進行脫敏處理,既可保證大數據的充分使用,又可防止敏感數據泄漏。
結語:建立在云計算技術上的大數據分析平臺,可以對復雜的數據結構、關聯度較高的邏輯數據進行高運算處理,同時也能及時響應用戶請求迅速調用并分配計算資源。云平臺正在向智能超算集群發展,可以實現對海量數據的管理和應用,實現智能、高速的大數據分析,為社會各行業的發展提供有力的幫助,運用先進的云算力作為生產力推動數據創造價值,從而進一步促進人類社會的進步與發展。
參考文獻:
[1]陳敏,肖志強.關于云計算大數據處理技術在智能電網中分析與應用淺析[J].數字技術與應用,2016(12):250-250.