摘 要 本文將詳細介紹云計算技術與大數據處理技術的應用方法,并在云環境下對新型大數據處理平臺進行具體研究,其中包括大數據處理平臺的基本工作流程、平臺層次的劃分、平臺整體的設計架構及其應用集群的實際流程四個方面。當前大數據平臺及技術已應用到多項領域中,技術人員需采用科學化手段,合理完善新型大數據處理平臺。
關鍵詞 云環境;新型大數據處理平臺;大數據處理技術
前言
大數據技術的多樣化使其應用到的領域逐漸增多,在科學發現、企業發展,甚至是社會變革都能看到大數據技術的影子。在該技術發展過程中,技術人員設置了新型大數據處理平臺,而在該平臺內其復雜的工作流程,極高的技術門檻給應用者帶去了較大的挑戰,技術人員應借助相關數據的調查與研究,加大對大數據處理平臺的了解力度,從而使該平臺更好地服務于社會中的各領域。
1云計算技術與大數據處理技術的應用方法
1.1 云計算技術
在云環境下,企業與用戶都選擇了云計算技術,該技術的主要特點有三個方面,其一,云計算技術具有自主配置服務特征,用戶或企業在進行服務時可依照負載需求與自身的工作類型。其二,云計算技術的擴展較為彈性化,依據不同的計算需求,用戶可自行縮小或增加資源量。其三,企業或用戶在采用與計算技術時應按需付費,用戶的支付費用主要為已應用的工作量或資源量。
具體來說,云計算技術還有三種服務類別,即軟件服務、平臺服務與基礎設施服務等。在軟件服務模式中,云管理人員會定期發布Web服務,即應用程序,廣大用戶可借助網絡系統使用云數據庫與其內部的應用軟件,常用的服務軟件有Office365。對于平臺服務來說,該服務平臺的主要工作目標為開發多種資源,如軟件開發內部的工具與環境等,在此模式中,用戶可自行發布或開發軟件。總體來說,平臺服務是搭建在基礎設施服務之上的,常用的平臺服務供應商為Amazon Elastic Beanstalk或Google App Engine等。針對基礎設施服務,其服務的基礎性資源為云主機、虛擬網絡與云硬盤等,借助應用程序中的接口可讓用戶將工作負載轉移到云主機中,對于云主機的配置,廣大用戶可自行選擇,并將儲存容量進行合理分配,基礎設施服務的供應商有阿里云、Axure與AWS等。
1.2 大數據處理技術
大數據處理技術含有諸多計算模式,最為人們熟知的即是流式與批處理計算模式,流式計算主要處理的為新數據,該模式的時效性較強,其主要的處理方法為實時計算場景,其最為典型的框架為Storm模式,具體來說,Storm框架中包含計算單元、數據流與多項數據輸入信息等,在發起某一任務時,其計算任務就會一直處于運行的狀態中,多項數據信息進入數據輸入中,通過計算單元可有效完成相應計算。
而另外一種計算模式為批處理計算模式,在開展批處理計算的過程中,技術人員先要收集與儲存相應的數據信息,再借助對應性框架對其實行分批處理。批處理的主要特征為靈活性強、容錯率高及吞吐量大等,該處理方法主要應用在離線計算場景中,其主要的計算框架為Map Reduce。針對Map Reduce模式,其在開展計算任務時,其面對的鍵值對的形式也有些許不同。通常來講,Map Reduce需經過兩種階段性任務,即Map與Reduce,此計算模式的核心思維為將某一項大任務進行合理拆分。運用Map Reduce模式能將其內部的計算邏輯轉化到數據儲存位置中,該任務的執行時間會被有效縮短,從而使數據吞吐量獲得顯著提高。針對相關模式的開發者,在處理相應數據時只需關注Map與Reduce的具體邏輯內容,進而更為高效地進行批處理[1]。
2新型大數據處理平臺在云環境下的具體研究
2.1 基本工作流程
大數據有著極為廣泛的應用場景與任務類型,對不同的行業也會產生對應性需求,新型大數據處理平臺的基本工作流程有五個階段,即產生數據源、儲存數據信息、開展數據分析、進行數據應用及對應到相應的目標客戶。
具體來說,技術人員在應用新型大數據處理平臺前,先要輸入對應性的數據信息,找到并產生數據源,數據源大多分為三種,人們最為熟悉的數據庫,其屬于結構化數據,而非結構化與半結構化的數據則置于文件與XML中。此后三類數據經過整合與提取后,價值含量較高的數據則進入到儲存環節中,再歷經集成、篩選與清洗,進入到數據分析環節,在此環節中,借助相應的大數據處理技術與云計算技術對數據信息進行深入挖掘,并實行實時統計。
在處理大數據的基本流程中,此類平臺的數據源種類較為豐富,在進行正式的數據分析前,需將價值含量較低的數據清理掉,此類的數據分析結果會用在趨勢分析、用戶的商業決策等,通過對新型大數據處理平臺工作流程的了解,相關技術人員可更好地發現平臺中的優勢與價值,若其在某一環節出現問題,也能及時找出,待查明原因后科學進行大數據分析工作。
2.2 平臺層次的劃分
在新型大數據處理平臺中,該平臺依層次劃分為四個層級,即接入層、計算層、輸出層與應用層。接入層主要包括日志、關系數據庫與消息等,借助相關技術,此三種數據被帶入大數據平臺中,此類層級的經典工具為Kafka、Flume等。而計算層中則帶有三種計算方式,即混合計算、實時計算與離線計算等,在該階段利用三種不同時間的計算方法對相關數據開展邏輯分析,其主要的工具為Spark、Storm、MapRedece等。多項數據到了輸出層后,即分成兩個部分,即數據分發與結果儲存,當數據信息經過前兩個階段產生分析結果后可自動進入到結果儲存中,剩余數據則輸入到數據分發中。最后的階段為應用層,輸出的數據則進入到自助報表與用戶畫像中,此類數據大多在大數據平臺內部移動。借助用用層,多項數據結果被輸入到多個系統中,值得一提的是,應用系統屬第三方平臺,大數據平臺內的集成種類多為查詢引擎或報表系統。此外,在大數據處理平臺的底部還包含存儲層,該層級的資源呈分布式特點,主要有消息中間件、數據庫與存儲系統等。而調度層的主要任務為調度數據處理時的資源,其資源多為內存與CPU等,該層級的主要工具為YARN。
2.3 大數據平臺的整體設計架構
通過了解大數據處理平臺中的不同層級,技術人員需為該平臺設計出一套整體架構,經分析后可得出該平臺的主要架構有三個層級,即數據流層、應用服務層與基礎資源層。數據流層的主要工作任務是嚴格控制處理數據的過程;應用服務層中包含諸多軟件工具;而基礎資源層需科學把握云硬盤或云主機等資源。
首先,在基礎資源層中,技術人員可將云模式與大數據平臺模式進行巧妙結合,借助云環境中的容量動態與資源數,合理部署大數據集群,該方式不但快捷、簡單,還能有效改善硬件的利用效率。在基礎資源層內,技術人員可及時解決云硬盤服務封裝與自動化集群等相關問題,并運用云計算技術科學對接應用服務層。
其次,在應用服務層內,技術人員可將信息處理工具改造為應用服務,其內部所有的應用服務都需進行嚴格的監控與管理,從而在云環境下使大數據的工具真正實現部署的自動化。應用服務層中的主要內容包含服務的卸載與安裝、服務監控、服務管理及服務倉庫的搭建。設計應用服務層的主要目的為借助大數據工具對大數據處理平臺開展自動化部署、監控和運行維護等。
最后,在開展數據流層時,利用其內部的交互控制平臺,進一步大數據的處理流程,在此過程中,技術人員應保證數據的處理方式與具體流向。數據流層主要有兩種類型,即自定義數據流與數據流模板,都可有效增強數據流的擴展度與可用性,在大數據處理平臺中,應用數據流層能改善數據流模板的實現、設計。
2.4 應用集群的實際流程
針對新型大數據處理平臺中的應用集群,技術人員需設置出更加合理的數據工作流程,以促進特定場景的應用。應用集群的詳細流程主要為三步,第一,技術人員應搭建基礎集群,相關用戶借助云主機系統、模板或指定的集群名稱創建出系統性的云主機,在安裝完成云主機后還需讓其集群初始化。第二,技術人員可創制數據流,其模式分為兩種,即數據流模板與自定義數據流,并將定義好的數據流進行應用場景的設置。第三,經過系統中嚴格的分析與整合,可將價值量或服務性較強的數據流提取出來,并設立對應的應用服務組,技術人員可在初始化集群內部將確認的數據流放置到服務組中,進而完成集群構建[2]。
3結束語
綜上所述,隨著信息技術的發展與推進,新型大數據處理平臺可開展多項應用,借用大數據處理技術與云計算技術能實現該信息平臺的搭建工作。若想讓平臺內部的數據信息被有效開發,技術人員需不斷提升應用技術的水平,在搭建大數據處理平臺時能更加高效與科學,從而使其內部信息更加準確,更好地應用到多種行業中。
參考文獻
[1] 孫家良.基于云計算的大數據信息安全問題與解決方案探討[J].現代信息科技,2019,3(2):106-107,110.
[2] 趙帥.基于大數據的知識服務平臺構建關鍵技術研究[J].自動化與儀器儀表,2018(12):44-46.
作者簡介
石玉峰(1981-),女,山西人;學歷:本科,職稱:講師,現就職單位:河南工業貿易職業學院,研究方向:計算機應用。