基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)

2020-05-25 02:46:05李超宇

中國新通信 2020年1期

摘要：隨著“互聯(lián)網(wǎng)+”時代的發(fā)展，人們已經(jīng)從各種信息數(shù)據(jù)的使用和接收方變?yōu)閿?shù)據(jù)的發(fā)送方，基于大數(shù)據(jù)的應(yīng)用日漸成熟，各種行業(yè)類型的數(shù)據(jù)時刻都在產(chǎn)生著，基于大數(shù)據(jù)的應(yīng)用系統(tǒng)就是在如此龐大的數(shù)據(jù)量的基礎(chǔ)上建立的應(yīng)用系統(tǒng)，系統(tǒng)應(yīng)當(dāng)具備強(qiáng)大的數(shù)據(jù)處理和分析能力，才能夠在海量的數(shù)據(jù)當(dāng)中尋求出有價值的數(shù)據(jù)，為行業(yè)發(fā)展提供洞察力和優(yōu)化行業(yè)流程，為決策層提供精準(zhǔn)決策，從而使得用戶能夠掌握龐大的數(shù)據(jù)信息資產(chǎn)。基于大數(shù)據(jù)的應(yīng)用技術(shù)核心優(yōu)勢就是對有價值的數(shù)據(jù)進(jìn)行處理和分析，本課題研究介紹了基于大數(shù)據(jù)應(yīng)用技術(shù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)的實現(xiàn)過程。

關(guān)鍵詞：大數(shù)據(jù);數(shù)據(jù)分析;系統(tǒng)架構(gòu)

在信息時代的今天，各個行業(yè)領(lǐng)域都有大量的數(shù)據(jù)，善于分析利用這些數(shù)據(jù)，能夠為行業(yè)帶來巨大的發(fā)展空間，甚至能夠引起行業(yè)的變革，因此基于大數(shù)據(jù)的應(yīng)用的關(guān)鍵技術(shù)就是數(shù)據(jù)分析的系統(tǒng)的架構(gòu)。

基于大數(shù)據(jù)的應(yīng)用的出現(xiàn)，給傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)架構(gòu)帶來了新的挑戰(zhàn)，數(shù)據(jù)分析是隱藏在應(yīng)用系統(tǒng)的背后，對于應(yīng)用分析結(jié)果有舉足輕重的作用，隨著數(shù)據(jù)挖掘、探索等技術(shù)的發(fā)展，基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)應(yīng)該側(cè)重解決傳統(tǒng)數(shù)據(jù)分析的三個瓶頸問題：第一，分布式計算，分布式計算的設(shè)計思路是多個節(jié)點并行計算，強(qiáng)調(diào)的是數(shù)據(jù)本地化，數(shù)據(jù)盡可能少傳輸。第二，分布式存儲，所謂分布式存儲就是將一個大文件拆分為多個小文件分別存儲到不同的主機(jī)，通過分片式管理技術(shù)對文件進(jìn)行管理。第三，數(shù)據(jù)的檢索和存儲相結(jié)合，基于大數(shù)據(jù)的數(shù)據(jù)分析面臨著海量的數(shù)據(jù)和多種數(shù)據(jù)類型，在不規(guī)范的數(shù)據(jù)中進(jìn)行數(shù)據(jù)檢索。

一、基于大數(shù)據(jù)的應(yīng)用系統(tǒng)架構(gòu)

在Hadoop體系的分布式應(yīng)用中，基于大數(shù)據(jù)的數(shù)據(jù)分析應(yīng)用架構(gòu)已經(jīng)和大數(shù)據(jù)信息架構(gòu)互相結(jié)合，為各個行業(yè)領(lǐng)域在大數(shù)據(jù)的應(yīng)用中帶來了許多經(jīng)濟(jì)價值和數(shù)據(jù)信息資產(chǎn)，Hadoop體系采用云計算和分布式的應(yīng)用技術(shù)，能夠?qū)Υ髷?shù)據(jù)進(jìn)行處理和分析，對未來大數(shù)據(jù)的信息中更大價值的數(shù)據(jù)源進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘，會獲得更大的數(shù)據(jù)潛在價值。

（一）Hadoop對日志數(shù)據(jù)處理

目前互聯(lián)網(wǎng)站點的數(shù)量在呈指數(shù)級別增長，Web服務(wù)器會因為業(yè)務(wù)量的劇增而生成龐大的數(shù)據(jù)日志文件數(shù)據(jù)，其中包括了網(wǎng)址訪問和業(yè)務(wù)數(shù)據(jù)流程處理的相關(guān)數(shù)據(jù)，這些日志文件數(shù)據(jù)會通過一系列的云計算算法處理后，上傳到云端，通過分析處理這些數(shù)據(jù)能夠反映給整個應(yīng)用系統(tǒng)的實時運行狀態(tài)，同時也可以反饋遇到的一系列系統(tǒng)異常問題。

（二）Hadoop并行處理系統(tǒng)架構(gòu)

在Hadoop體系的分布式大數(shù)據(jù)應(yīng)用中，數(shù)據(jù)采集模塊會將采集到的各種類型的數(shù)據(jù)傳送到Hadoop的并行處理系統(tǒng)架構(gòu)中，然后信息數(shù)據(jù)被保存到HDFS中，傳送的數(shù)據(jù)會被Hadoop體系中的MapReduce并行計算編程模型作為框架來進(jìn)行系統(tǒng)化處理，MapReduce分布式的并行計算編程模型能夠有效地解決數(shù)據(jù)分布范圍大并且零散導(dǎo)致采集難的問題，這些信息數(shù)據(jù)會在分析前被分散到各個分節(jié)點，然后系統(tǒng)會利用就近原則讀取相鄰節(jié)點的數(shù)據(jù)，然后映射數(shù)據(jù)進(jìn)行處理分析，經(jīng)過處理分析后的數(shù)據(jù)會被再進(jìn)行數(shù)據(jù)匯聚合并，所以基于Hadoop體系的大數(shù)據(jù)分析應(yīng)用具備高速、可靠的特點，能夠滿足大數(shù)據(jù)的數(shù)據(jù)處理和分析的需求。

二、基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)

（一）傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構(gòu)

傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構(gòu)，傳統(tǒng)的BI數(shù)據(jù)分析，由于數(shù)據(jù)量和系統(tǒng)性能不能滿足大數(shù)據(jù)，所以基于此類的數(shù)據(jù)分析技術(shù)上是使用了大數(shù)據(jù)的數(shù)據(jù)分析組件替換傳統(tǒng)的BI系統(tǒng)組件，保留了大數(shù)據(jù)的ETL操作，相對解決基于大數(shù)據(jù)的BI數(shù)據(jù)分析。整個架構(gòu)相對簡單易懂，缺點就是缺乏對實時數(shù)據(jù)分析的支持。

（二）流式數(shù)據(jù)分析架構(gòu)

數(shù)據(jù)在應(yīng)用過程中全部以流的形式進(jìn)行分析處理，直接去掉了數(shù)據(jù)批處理，用數(shù)據(jù)通道替換了ETL操作，經(jīng)過流式數(shù)據(jù)分析處理加工后的數(shù)據(jù)，以信息推送的方式推送給用戶，相對于其他數(shù)據(jù)分析架構(gòu)，流式架構(gòu)由于取消ETL操作，所以數(shù)據(jù)的處理效率非常高，但是由于沒有了數(shù)據(jù)批處理，沒有很好的支撐數(shù)據(jù)統(tǒng)計和重播，不利于離線進(jìn)行數(shù)據(jù)分析。

（三）Lambda數(shù)據(jù)分析結(jié)構(gòu)

在大數(shù)據(jù)分析系統(tǒng)中Lambda架構(gòu)是比較重要的一種數(shù)據(jù)分析架構(gòu)方式，大多數(shù)的架構(gòu)都是基于這種架構(gòu)，Lambda架構(gòu)的數(shù)據(jù)通道分為兩個：實時數(shù)據(jù)流分析和離線數(shù)據(jù)分析，實時數(shù)據(jù)流的分析架構(gòu)是流式架構(gòu)，多數(shù)采用增量式計算，保障了數(shù)據(jù)處理分析的實時性，離線數(shù)據(jù)分析就以全量運算的數(shù)據(jù)批處理為主，保證了數(shù)據(jù)的一致性。在Lambda架構(gòu)的最外層是一個實時和離線的數(shù)據(jù)分析合并層，這個合并層是Lambda架構(gòu)的關(guān)鍵，既集合了實時數(shù)據(jù)分析和離線數(shù)據(jù)分析的優(yōu)點，對于數(shù)據(jù)分析的應(yīng)用比較廣泛，適合于對實時數(shù)據(jù)分析和離線數(shù)據(jù)分析同時需求存在的場景。

（四）Kappa數(shù)據(jù)分析架構(gòu)

Kappa數(shù)據(jù)分析架構(gòu)是在Lambda架構(gòu)的基礎(chǔ)進(jìn)行優(yōu)化，在數(shù)據(jù)通道上把實時數(shù)據(jù)分析和流式數(shù)據(jù)分析進(jìn)行了合并，以消息隊列進(jìn)行數(shù)據(jù)傳輸。在以Kappa架構(gòu)的數(shù)據(jù)分析上來講，還是以數(shù)據(jù)流的分析形式為主，不同的是數(shù)據(jù)存儲是在數(shù)據(jù)湖層面上，當(dāng)需要對離線數(shù)據(jù)分析或者執(zhí)行重新的數(shù)據(jù)分析操作時候，只需要把數(shù)據(jù)從數(shù)據(jù)湖層以消息隊列的方式將數(shù)據(jù)重播一次就行了。Kappa數(shù)據(jù)分析架構(gòu)去除了Lambda架構(gòu)當(dāng)中的冗余部分，將數(shù)據(jù)分析重播作為創(chuàng)新的形式加入到架構(gòu)當(dāng)中，Kappa結(jié)構(gòu)整體相當(dāng)簡潔，缺點就是雖然結(jié)構(gòu)簡潔，但是由于數(shù)據(jù)分析重播部分實現(xiàn)難度較高，所以總體架構(gòu)難度比較大。

（五）Unifield數(shù)據(jù)分析架構(gòu)

以上的幾種數(shù)據(jù)分析架構(gòu)都是以處理海量數(shù)據(jù)為主，Unifield數(shù)據(jù)分析架構(gòu)是將數(shù)據(jù)處理分析與機(jī)器學(xué)習(xí)整合為一體，從架構(gòu)的核心層面來看，Unifield數(shù)據(jù)分析架構(gòu)還是基于Lambda架構(gòu)，只是在數(shù)據(jù)流分析層加入了機(jī)器學(xué)習(xí)層，增加了數(shù)據(jù)模型訓(xùn)練，數(shù)據(jù)在加載后從數(shù)據(jù)通道到數(shù)據(jù)湖后，進(jìn)行數(shù)據(jù)模型訓(xùn)練，然后提供給數(shù)據(jù)分析流層調(diào)用，同時數(shù)據(jù)分析流層會對數(shù)據(jù)進(jìn)行持續(xù)的數(shù)據(jù)模型訓(xùn)練Unifield數(shù)據(jù)分析架構(gòu)套數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的架構(gòu)，很好的解決了數(shù)據(jù)分析平臺與人工智能領(lǐng)域相結(jié)合的問題，適合使用在基于大數(shù)據(jù)下的數(shù)據(jù)分析下的人工智能應(yīng)用中，缺點就是由于整合了機(jī)器學(xué)習(xí)層，要求架構(gòu)技術(shù)更高。

三、結(jié)束語

本課題分析了基于大數(shù)據(jù)的數(shù)據(jù)分析架構(gòu)，并且提出了一些可行的數(shù)據(jù)分析架構(gòu)方案，分別歸納出各種數(shù)據(jù)分析架構(gòu)的性能、可靠性和優(yōu)缺點，希望在未來的信息科技時代，我們能夠善用大數(shù)據(jù)，為社會各行業(yè)提供更多的有價值數(shù)據(jù)分析，使得我國在大數(shù)據(jù)分析的技術(shù)方面邁向新的發(fā)展。

參考文獻(xiàn)：

[1]陳琳，陳耀華.以信息化帶動教育現(xiàn)代化路徑探析[J].教育研究.2013（11）.

[2]王勝，聶立武，韓古月.智慧教育內(nèi)涵與教學(xué)體系研究[J].遼寧高職學(xué)報.2015（11）：21-23.

[3]祝智庭，賀斌.智慧教育——教育信息化的新境界[J].電化教育研究.2012（12）：5-7.

[4]樊娜，黃雪琴.大數(shù)據(jù)時代下的個性化學(xué)習(xí)探討[J].科技風(fēng)，2015（7）：23.

[5]楊現(xiàn)民.信息時代智慧教育的內(nèi)涵與特征[J].中國電化教育，2014（1）：29-34.

[6]陳律.大數(shù)據(jù)背景下學(xué)習(xí)分析技術(shù)對教學(xué)模式的變革[J].中國教育信息化，2015（24）：15-17.

作者簡介：

李超宇（1982—），男，廣西梧州人，高校講師，網(wǎng)絡(luò)工程師，工學(xué)碩士，主要從事云計算、大數(shù)據(jù)與計算機(jī)網(wǎng)絡(luò)方面的研究。

基金項目：

2016年度廣西壯族自治區(qū)中青年基礎(chǔ)能力提升項目“基于大數(shù)據(jù)的教育技術(shù)信息平臺的應(yīng)用研究”（KY2016YB899）