摘要:隨著“互聯(lián)網(wǎng)+”時代的發(fā)展,人們已經(jīng)從各種信息數(shù)據(jù)的使用和接收方變?yōu)閿?shù)據(jù)的發(fā)送方,基于大數(shù)據(jù)的應用日漸成熟,各種行業(yè)類型的數(shù)據(jù)時刻都在產(chǎn)生著,基于大數(shù)據(jù)的應用系統(tǒng)就是在如此龐大的數(shù)據(jù)量的基礎上建立的應用系統(tǒng),系統(tǒng)應當具備強大的數(shù)據(jù)處理和分析能力,才能夠在海量的數(shù)據(jù)當中尋求出有價值的數(shù)據(jù),為行業(yè)發(fā)展提供洞察力和優(yōu)化行業(yè)流程,為決策層提供精準決策,從而使得用戶能夠掌握龐大的數(shù)據(jù)信息資產(chǎn)。基于大數(shù)據(jù)的應用技術核心優(yōu)勢就是對有價值的數(shù)據(jù)進行處理和分析,本課題研究介紹了基于大數(shù)據(jù)應用技術的數(shù)據(jù)分析系統(tǒng)架構的實現(xiàn)過程。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;系統(tǒng)架構
在信息時代的今天,各個行業(yè)領域都有大量的數(shù)據(jù),善于分析利用這些數(shù)據(jù),能夠為行業(yè)帶來巨大的發(fā)展空間,甚至能夠引起行業(yè)的變革,因此基于大數(shù)據(jù)的應用的關鍵技術就是數(shù)據(jù)分析的系統(tǒng)的架構。
基于大數(shù)據(jù)的應用的出現(xiàn),給傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)架構帶來了新的挑戰(zhàn),數(shù)據(jù)分析是隱藏在應用系統(tǒng)的背后,對于應用分析結果有舉足輕重的作用,隨著數(shù)據(jù)挖掘、探索等技術的發(fā)展,基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構應該側重解決傳統(tǒng)數(shù)據(jù)分析的三個瓶頸問題:第一,分布式計算,分布式計算的設計思路是多個節(jié)點并行計算,強調(diào)的是數(shù)據(jù)本地化,數(shù)據(jù)盡可能少傳輸。第二,分布式存儲,所謂分布式存儲就是將一個大文件拆分為多個小文件分別存儲到不同的主機,通過分片式管理技術對文件進行管理。第三,數(shù)據(jù)的檢索和存儲相結合,基于大數(shù)據(jù)的數(shù)據(jù)分析面臨著海量的數(shù)據(jù)和多種數(shù)據(jù)類型,在不規(guī)范的數(shù)據(jù)中進行數(shù)據(jù)檢索。
一、基于大數(shù)據(jù)的應用系統(tǒng)架構
在Hadoop體系的分布式應用中,基于大數(shù)據(jù)的數(shù)據(jù)分析應用架構已經(jīng)和大數(shù)據(jù)信息架構互相結合,為各個行業(yè)領域在大數(shù)據(jù)的應用中帶來了許多經(jīng)濟價值和數(shù)據(jù)信息資產(chǎn),Hadoop體系采用云計算和分布式的應用技術,能夠?qū)Υ髷?shù)據(jù)進行處理和分析,對未來大數(shù)據(jù)的信息中更大價值的數(shù)據(jù)源進行進一步的數(shù)據(jù)挖掘,會獲得更大的數(shù)據(jù)潛在價值。
(一)Hadoop對日志數(shù)據(jù)處理
目前互聯(lián)網(wǎng)站點的數(shù)量在呈指數(shù)級別增長,Web服務器會因為業(yè)務量的劇增而生成龐大的數(shù)據(jù)日志文件數(shù)據(jù),其中包括了網(wǎng)址訪問和業(yè)務數(shù)據(jù)流程處理的相關數(shù)據(jù),這些日志文件數(shù)據(jù)會通過一系列的云計算算法處理后,上傳到云端,通過分析處理這些數(shù)據(jù)能夠反映給整個應用系統(tǒng)的實時運行狀態(tài),同時也可以反饋遇到的一系列系統(tǒng)異常問題。
(二)Hadoop并行處理系統(tǒng)架構
在Hadoop體系的分布式大數(shù)據(jù)應用中,數(shù)據(jù)采集模塊會將采集到的各種類型的數(shù)據(jù)傳送到Hadoop的并行處理系統(tǒng)架構中,然后信息數(shù)據(jù)被保存到HDFS中,傳送的數(shù)據(jù)會被Hadoop體系中的MapReduce并行計算編程模型作為框架來進行系統(tǒng)化處理,MapReduce分布式的并行計算編程模型能夠有效地解決數(shù)據(jù)分布范圍大并且零散導致采集難的問題,這些信息數(shù)據(jù)會在分析前被分散到各個分節(jié)點,然后系統(tǒng)會利用就近原則讀取相鄰節(jié)點的數(shù)據(jù),然后映射數(shù)據(jù)進行處理分析,經(jīng)過處理分析后的數(shù)據(jù)會被再進行數(shù)據(jù)匯聚合并,所以基于Hadoop體系的大數(shù)據(jù)分析應用具備高速、可靠的特點,能夠滿足大數(shù)據(jù)的數(shù)據(jù)處理和分析的需求。
二、基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構
(一)傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構
傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構,傳統(tǒng)的BI數(shù)據(jù)分析,由于數(shù)據(jù)量和系統(tǒng)性能不能滿足大數(shù)據(jù),所以基于此類的數(shù)據(jù)分析技術上是使用了大數(shù)據(jù)的數(shù)據(jù)分析組件替換傳統(tǒng)的BI系統(tǒng)組件,保留了大數(shù)據(jù)的ETL操作,相對解決基于大數(shù)據(jù)的BI數(shù)據(jù)分析。整個架構相對簡單易懂,缺點就是缺乏對實時數(shù)據(jù)分析的支持。
(二)流式數(shù)據(jù)分析架構
數(shù)據(jù)在應用過程中全部以流的形式進行分析處理,直接去掉了數(shù)據(jù)批處理,用數(shù)據(jù)通道替換了ETL操作,經(jīng)過流式數(shù)據(jù)分析處理加工后的數(shù)據(jù),以信息推送的方式推送給用戶,相對于其他數(shù)據(jù)分析架構,流式架構由于取消ETL操作,所以數(shù)據(jù)的處理效率非常高,但是由于沒有了數(shù)據(jù)批處理,沒有很好的支撐數(shù)據(jù)統(tǒng)計和重播,不利于離線進行數(shù)據(jù)分析。
(三)Lambda數(shù)據(jù)分析結構
在大數(shù)據(jù)分析系統(tǒng)中Lambda架構是比較重要的一種數(shù)據(jù)分析架構方式,大多數(shù)的架構都是基于這種架構,Lambda架構的數(shù)據(jù)通道分為兩個:實時數(shù)據(jù)流分析和離線數(shù)據(jù)分析,實時數(shù)據(jù)流的分析架構是流式架構,多數(shù)采用增量式計算,保障了數(shù)據(jù)處理分析的實時性,離線數(shù)據(jù)分析就以全量運算的數(shù)據(jù)批處理為主,保證了數(shù)據(jù)的一致性。在Lambda架構的最外層是一個實時和離線的數(shù)據(jù)分析合并層,這個合并層是Lambda架構的關鍵,既集合了實時數(shù)據(jù)分析和離線數(shù)據(jù)分析的優(yōu)點,對于數(shù)據(jù)分析的應用比較廣泛,適合于對實時數(shù)據(jù)分析和離線數(shù)據(jù)分析同時需求存在的場景。
(四)Kappa數(shù)據(jù)分析架構
Kappa數(shù)據(jù)分析架構是在Lambda架構的基礎進行優(yōu)化,在數(shù)據(jù)通道上把實時數(shù)據(jù)分析和流式數(shù)據(jù)分析進行了合并,以消息隊列進行數(shù)據(jù)傳輸。在以Kappa架構的數(shù)據(jù)分析上來講,還是以數(shù)據(jù)流的分析形式為主,不同的是數(shù)據(jù)存儲是在數(shù)據(jù)湖層面上,當需要對離線數(shù)據(jù)分析或者執(zhí)行重新的數(shù)據(jù)分析操作時候,只需要把數(shù)據(jù)從數(shù)據(jù)湖層以消息隊列的方式將數(shù)據(jù)重播一次就行了。Kappa數(shù)據(jù)分析架構去除了Lambda架構當中的冗余部分,將數(shù)據(jù)分析重播作為創(chuàng)新的形式加入到架構當中,Kappa結構整體相當簡潔,缺點就是雖然結構簡潔,但是由于數(shù)據(jù)分析重播部分實現(xiàn)難度較高,所以總體架構難度比較大。
(五)Unifield數(shù)據(jù)分析架構
以上的幾種數(shù)據(jù)分析架構都是以處理海量數(shù)據(jù)為主,Unifield數(shù)據(jù)分析架構是將數(shù)據(jù)處理分析與機器學習整合為一體,從架構的核心層面來看,Unifield數(shù)據(jù)分析架構還是基于Lambda架構,只是在數(shù)據(jù)流分析層加入了機器學習層,增加了數(shù)據(jù)模型訓練,數(shù)據(jù)在加載后從數(shù)據(jù)通道到數(shù)據(jù)湖后,進行數(shù)據(jù)模型訓練,然后提供給數(shù)據(jù)分析流層調(diào)用,同時數(shù)據(jù)分析流層會對數(shù)據(jù)進行持續(xù)的數(shù)據(jù)模型訓練Unifield數(shù)據(jù)分析架構套數(shù)據(jù)分析與機器學習的架構,很好的解決了數(shù)據(jù)分析平臺與人工智能領域相結合的問題,適合使用在基于大數(shù)據(jù)下的數(shù)據(jù)分析下的人工智能應用中,缺點就是由于整合了機器學習層,要求架構技術更高。
三、結束語
本課題分析了基于大數(shù)據(jù)的數(shù)據(jù)分析架構,并且提出了一些可行的數(shù)據(jù)分析架構方案,分別歸納出各種數(shù)據(jù)分析架構的性能、可靠性和優(yōu)缺點,希望在未來的信息科技時代,我們能夠善用大數(shù)據(jù),為社會各行業(yè)提供更多的有價值數(shù)據(jù)分析,使得我國在大數(shù)據(jù)分析的技術方面邁向新的發(fā)展。
參考文獻:
[1]陳琳,陳耀華.以信息化帶動教育現(xiàn)代化路徑探析[J].教育研究.2013(11).
[2]王勝,聶立武,韓古月.智慧教育內(nèi)涵與教學體系研究[J].遼寧高職學報.2015(11):21-23.
[3]祝智庭,賀斌.智慧教育——教育信息化的新境界[J].電化教育研究.2012(12):5-7.
[4]樊娜,黃雪琴.大數(shù)據(jù)時代下的個性化學習探討[J].科技風,2015(7):23.
[5]楊現(xiàn)民.信息時代智慧教育的內(nèi)涵與特征[J].中國電化教育,2014(1):29-34.
[6]陳律.大數(shù)據(jù)背景下學習分析技術對教學模式的變革[J].中國教育信息化,2015(24):15-17.
作者簡介:
李超宇(1982—),男,廣西梧州人,高校講師,網(wǎng)絡工程師,工學碩士,主要從事云計算、大數(shù)據(jù)與計算機網(wǎng)絡方面的研究。
基金項目:
2016年度廣西壯族自治區(qū)中青年基礎能力提升項目“基于大數(shù)據(jù)的教育技術信息平臺的應用研究”(KY2016YB899)