熊俊
摘要:隨著計算機網絡技術不斷升級,以大數據、云計算為主要代表的現代信息技術得以廣泛應用。基于云計算的大數據分析體系已經成為解決大數據技術應用和運行方面問題的主要支撐。云計算環境下大數據平臺建設需要考慮各類要素的集成,并要對數據進行不斷整合和高效處理,才能切實發揮云計算應有的性能。本文基于云計算對大數據分析流程優化路徑進行了深入研究,提出了具體的對策,以供參考。
關鍵詞:云計算;大數據;分析;流程優化;路徑;技術;發展
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)08-0181-02
近年來隨著科技時代到來,大數據、云計算已成為全球關注的熱點,云計算正處于高速發展的信息時代,數據也成為重要的資源備受關注。在大數據分析流程中,逐漸引入了云計算技術對其進行不斷優化升級,從而進一步提升數據分析效率和質量,減少海量數據處理時間,提升系統響應能力。加強基于云計算的發數據分析流程優化路徑探析,具有深遠的現實意義。
1 大數據基本內涵及基本處理流程分析
大數據是指通過常規的手段和方法難以對海量數據進行處理,只能依靠高端信息處理技術和方法對海量的數據在有限的時間內進行感知、獲取、加工、管理、處理和共享應用的數據體系。大數據通常具有四個顯著的特點,分別為體量大、模態多樣、生成快速以及價值大密切低。大數據技術是對傳統數據處理技術和方法的進一步升級,隨著云計算理念的提出,以及相關體系內部系列技術的出現,越來越多的云計算技術平臺產生,為大數據處理提供了更好的技術服務平臺,對大數據處理流程優化也帶來了很大的便利。
大數據整體處理流程通常可以分成四個部分,分別為數據采集、數據處理和集成、數據分析、數據解釋。第一步是進行數據采集,對數據各個端口來源的信息進行全面采集,并實現預處理,從而為后續數據計算和分析奠定基礎,提供可靠統一的數據格式。隨后按照既定的數據算法對數據進行計算分析,最后利用可視化手段將分析完成的數據結果傳遞至用戶端。
在數據采集階段,隨著計算機互聯網技術不斷發展和廣泛應用,數據來源也日益龐大,生產數據的環節也在不斷增多,從而大大提高了數據的產量,數據之間的關聯度等也越來越復雜,對數據采集提出了更高的速度和精度要求。所以需要對傳統的數據整合處理技術進行不斷優化升級,才能夠在最短的時間內將海量復雜的數據通過一定的技術和方法實現快速簡化處理,提高數據整合、處理和利用分享水平,更好地為用戶服務。如果單純地依靠傳統的大數據處理技術,隨著信息量不斷增大,將難以應對未來高產量數據信息變化帶來的挑戰。所以需要對數據處理流程進行全面整合,并探索更加有效的優化處理技術,才能更好地提升數據資源的利用價值和服務效能。
在大數據處理基本流程體系中,根據四個不同的運行階段,有不同的要求。在數據處理與集成階段,主要是對前一階段采集到的各類數據通過格式化、去噪等方式進行預處理,并占華為統一的數據結構。在這個過程中由于數據類型比較復雜,還有很多的無效數據需要去除,轉化為統一的數據格式才能更好地加以利用,所以通常需要設計過濾器等方式來將無效數據去除,轉化為統一格式的有效數據。在數據分析階段,主要是對完成采集和整理的數據進行進一步分析,根據數據應用需求以及價值功能方向,對原始采集的數據進行進一步的處理,通常應用數據挖掘工具或者數據倉庫工具等進行集中信息處理和分析,目前在數據分析方面,有很多的大數據分析服務商提供了專業的服務軟件和支撐產品,從而有助于更好地對數據進行全面深度分析。數據解釋主要是對數據分析結果進行進一步展現的過程。隨著數據信息量不斷增大,傳統的數據顯示或展現模式已經不能滿足數據分析結果輸出的要求,數據可視化技術的出現和應用為數據解釋和直觀展現提供了重要的技術支持,通過應用可視化技術,可以對數據分析結果直觀形象地向用戶展現,從而提高數據深度利用價值。
2 云計算與大數據分析關系研究
云計算是為了更好地為互聯網提供服務,而設置的一種增加、使用以及交付模式,借助互聯網可以提供動態且易擴展的虛擬化資源,是屬于按使用量付費的一種模式。這種模式下用戶可以根據自己的需求進行便捷訪問,并獲取相應的資源,從而更好地加以利用。數據分析作為大數據處理流程中最重要的部分,體現了數據的價值,基于大數據的數據分析是指對獲取的海量的數據通過一定的技術和方法來進行快速整合和深度處理的過程。作為大數據分析的重要支撐平臺,云計算技術可以為大數據分析提供更加靈活和迅速的部署方案,從而提高大數據分析結果的精準度,同時云計算技術為大數據分析提供了擴展性更強和更具經濟性的存儲于計算資源,為深度應用奠定了技術。總體上看,大數據技術屬于云計算計算的延伸和拓展,大數據技術從數據采集獲取到儲存處理與應用,整個過程中需要應用大量的技術,未來隨著數據變化速度越來越快,信息量日益龐雜,大數據分析走向云計算還需要依靠不斷提高數據通信寬帶,加強云資源建設,才能確保數據整合體系功能不斷強大,滿足社會發展要求。基于云計算的大數據分析,具有獨特的優勢。一方面可以借助云計算虛擬化環境,結合用戶的業務需求,對各類資源進行深度優化配置,從而提升大數據的可擴展性。另一方面數據分析力度進一步細化,能夠進一步提升數據本身的挖掘價值,此外也有助于降低數據分析成本,全面提升硬軟件設施利用率。這些都是云計算與大數據融合的優勢,從而為服務用戶提供性價比更好的數據分析服務。
3 基于云計算的大數據分析流程優化路徑分析
基于云計算的大數據分析流程優化路徑可以從三個方面進行具體分析,分別為存儲與訪問技術、并行處理技術、組織與管理技術,具體分析如下:
3.1 基于云計算的大數據分析流程中存儲與訪問技術優化路徑研究
在大數據分析流程中存儲與訪問技術優化程序可以分成實現數據流與控制流分離以及不緩存數據優化兩個方面。針對數據流與控制流分離方面,在進行存儲與訪問技術優化處理過程中,主要是借助云計算技術來構建一種GFS文件系統,從而分流數據流和控制流。在整個文件系統節點中涉及很多的集群,每一個集群都配置了主控服務器,主控服務器可以對系統元數據進行有效處理,客戶端作為以庫文件形式提供應用程序的訪問接口進行處理,GFS各個幾點數據會借助數據塊服務器,從而將數據通過文件的形式進行儲存,進行訪問。數據塊服務器配置數量需要根據集群系統的規模來確定。在整個GFS文件體系中,分塊存儲的數據大小控制在64MB,并建立與數據庫相對應的索引號,這樣便于及時進行查找,并進行信息定位有效傳送,將最準確的信息按照既定的服務模塊傳輸至客戶端,用戶可以根據自己的需求進行信息讀取等,這樣就可以將主控服務器與客戶端的數據進行遠程有效傳輸,進一步降低了主控服務器承載負荷,并可以實現多個數據塊服務器的同步訪問。針對不換存數據優化方面,傳統的模式下,用戶在訪問文件過程中會受到磁盤本身性能約束,從而產生訪問過程中大量的緩存數據,不能及時進行有效疏導,將對訪問速度等產生很大的影響。通過借助云計算技術,構建不緩存數據操作系統的GFS文件體系,將需要操作的文件存儲到系統內存中,如果文件塊被用戶首次訪問,系統會直接進行此盤文件讀取,如果再次訪問同一路徑,可以進行直接緩存讀取,進一步提升了系統操作性能和寫操作水平,這也是大數據分析流程優化的直接反映與體現。
3.2 基于云計算的大數據分析流程中并行處理技術的優化路徑研究
并行處理技術還可以分成邏輯分析技術與資源配置優化兩個方面。整個大數據分析過程中,通常需要根據數據的邏輯關系進行要素分解,進而通過對比的方式來總結規律,并對主次關系進行研究,進一步推理,尋找內在聯系和運行規律。想要不斷提升邏輯分析水平,需要對問題從分解處理到整合應用方面進行流程整合與優化。可以借助云計算技術構建數據處理模型,對各類數據進行并行處理,對任務按照既定的程序進行分解,劃分為不同的數據塊單元,隨后進行分支并行處理,集約化計算,這樣將數據結果自動生成,完整地體現。與計算技術服務體系在大數據問題邏輯分析方面提供強大的技術保障和服務支持。在數據資源優化配置方面,由于數據系統比較龐雜,需要對海量信息進行集中處理和優化,才能提高資源最大化利用水平,提升使用價值。云計算技術通過為系統進行默認或用戶自行定制的方式對海量數據進行若干微階段優化處理,借助最優執行性能要求實現數據分解任務的同步數據,并對每一個微階段數據分析人物執行情況進行動態監督和測量,找出各個階段處理過程中存在的影響因素,逐一突破,提高資源優化配置整合效率。
3.3 基于云計算的大數據分析流程中組織與管理技術優化路徑研究
在組織與管理技術優化方面,云計算的優勢主要體現在以下方面:一方面云計算可以通過對數據模型組織結構進行優化,設計一種基于云計算技術的以Bigtable為載體的分布式多維映射表,這樣可以對數據模型中的行、列關鍵字和時間戳實現索引,從而提高數據優化處理效果。通常情況下Bigtable的最大行關鍵字為64KB的字符串,列設計中引入列族方式減少多樣列關鍵字的干涉,從而有效提升集中處理效率。在引入時間戳改進體系中,借助Bigtable在數據模型中引入非順序處理的時間戳,從而提高了數據項間的價值關聯度,進一步提升了數據分類整合和處理效率。另一方面借助云計算技術,通過設計GFS文件系統,對海量數據進行存儲,通過引入分布式調度器與鎖服務,從而實現對服務器信息和元數據的有效管理和隊列任務分配與調度,進而整體上提高主服務器監控水平,不斷優化子表服務器存儲操作系統。借助Bigtable,將有效提升分布式存儲系統的擴展性,實現對各個端口信息負載的均衡處理。并且還可以通過壓縮SSTable文件的方式提高資源最優化配置與儲存水平,提升系統整體運行性能和效率。
總之,基于云計算技術對大數據分析流程進行優化,需要立足實際,結合大數據分析整體處理程序的具體要求,總結基本的運行規律,并在數據存儲與訪問、并行處理、組織與管理方面進行不斷探索創新,結合用戶需求和未來發展需要,將海量的信息通過有效的系統來進行快速整合處理,才能有助于不斷提升大數據信息儲存與利用價值,更好地發揮數據資源應有的功能。當然在具體優化設計過程中還需要考慮運行環境、現實需要以及資金、技術等各方面的因素,加強對操作人員的培訓,不斷學習和引進新技術、新方法,才能更好地實現理念和技術的有效融合,全面提升云計算與大數據技術的有效融合水平,提高數據深度高效處理與利用價值。
參考文獻:
[1] 陳清金,張巖,陳存香.云計算環境下的大數據分析[J].郵電設計技術,2015(5).
[2] 趙明哲.基于云計算的大數據分析流程的優化路徑[J].中國新通信,2018(11).
[3] 宋杰,郭朝鵬,王智,等.Jean-MarcPIERSON.大數據分析的分布式MOLAP技術[J].軟件學報,2014(4).
[4] 孫仕亮,陳俊宇.大數據分析的硬件與系統支持綜述[J].小型微型計算機系統,2017(1).
[5] 王偉鈞.基于云計算的大數據分析流程的優化路徑[J].電子技術與軟件工程,2017(11).
[6] 成靜靜,喻朝新.基于云計算的大數據統一分析平臺研究與設計[J].廣東通信技術,2013(1).
【通聯編輯:唐一東】