張 亮 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師楊春麗 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師馬媛媛 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
?
大數(shù)據(jù)應(yīng)用部署研究
張亮北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
楊春麗北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
馬媛媛北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
摘要:分析在海量數(shù)據(jù)情況下,Hadoop各組件及其生態(tài)圈(如Impala、Spark)技術(shù)特點(diǎn)及應(yīng)用場景;結(jié)合大數(shù)據(jù)平臺通用架構(gòu),提出在數(shù)據(jù)采集、儲算、應(yīng)用等方面的功能架構(gòu)及技術(shù)架構(gòu)。
關(guān)鍵詞:大數(shù)據(jù);Spark;Impala;Hadoop
本文主要研究以Hadoop2.0為基礎(chǔ)大數(shù)據(jù)平臺應(yīng)用體系架構(gòu),根據(jù)數(shù)據(jù)特性,從功能架構(gòu)、技術(shù)架構(gòu)不同緯度來探討如何搭建大數(shù)據(jù)平臺,實(shí)現(xiàn)對海量數(shù)據(jù)的挖掘、分析及處理。
面對海量數(shù)據(jù)的增加,傳統(tǒng)數(shù)據(jù)倉庫無法有效存儲日益增長的業(yè)務(wù)數(shù)據(jù),海量的數(shù)據(jù)導(dǎo)致了業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲和處理的壓力,而數(shù)據(jù)倉庫無法線性擴(kuò)容,將導(dǎo)致信息系統(tǒng)出現(xiàn)管理難度加大、成本高、擴(kuò)容壓力大、效率下降等問題。
(1)行業(yè)的發(fā)展趨勢
微信、微博等OTT應(yīng)用的廣泛使用,互聯(lián)網(wǎng)+的廣泛應(yīng)用,傳統(tǒng)產(chǎn)業(yè)日益管道化,導(dǎo)致逐漸失去對用戶和生態(tài)鏈的控制能力。
(2)技術(shù)發(fā)展趨勢
現(xiàn)有技術(shù)瓶頸:現(xiàn)有數(shù)據(jù)庫技術(shù)處理大數(shù)據(jù)存在瓶頸,無法對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)庫無法進(jìn)行橫向擴(kuò)展。
海量數(shù)據(jù)的分布式處理技術(shù)日趨成熟:隨著海量數(shù)據(jù)的分布式處理技術(shù)的不斷應(yīng)用,使其穩(wěn)定性、易用性不斷提高,具備了大規(guī)模商用的條件。……