李懷國+姚曉樂
【摘要】 文章首先簡要闡述了大數(shù)據(jù)與云計算平臺,在此基礎(chǔ)上對大數(shù)據(jù)和云計算平臺的應用進行論述。期望通過本文的研究能夠?qū)Υ髷?shù)據(jù)與云計算平臺在相關(guān)領(lǐng)域中的推廣應用有所幫助。
【關(guān)鍵詞】 大數(shù)據(jù) 云計算平臺 應用
一、大數(shù)據(jù)與云計算平臺概述
1、大數(shù)據(jù)的特征。大數(shù)據(jù)又被IT業(yè)稱之為巨量數(shù)據(jù)集合,具體是指無法在某個特定時間范圍內(nèi)用常規(guī)的軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是一種海量、多樣化、高增長率的信息資產(chǎn)。大數(shù)據(jù)的特征主要體現(xiàn)在如下幾個方面:超大的容量、繁多的種類、獲取數(shù)據(jù)的高速、數(shù)據(jù)質(zhì)量真實可靠、數(shù)據(jù)來源渠道復雜等等。信息時代到來的今天,數(shù)據(jù)信息在生產(chǎn)生活中的重要性日益凸顯,大數(shù)據(jù)的發(fā)展速度也變得越來越快,對信息處理提出了更高的要求,即需要在短時間內(nèi)對數(shù)據(jù)庫進行有關(guān)的操作與處理,為滿足這一需求,大數(shù)據(jù)技術(shù)應運而生。
2、云計算平臺的優(yōu)勢。云計算是以網(wǎng)絡為平臺,利用遠程連接的計算機獲取所需計算服務,該計算機可供給彈性伸縮的計算資源,可提高資源利用效率,節(jié)省因重復配置資源增加的成本。云計算的優(yōu)點:1.計算能力強。云計算可對計算機集群中的CPU進行遠程調(diào)用,使其具備強大的計算能力,每秒高達10萬億次運算。2.可靠性高。云計算使用數(shù)據(jù)容錯技術(shù)和計算節(jié)點同構(gòu)可互換措施,能夠保證云計算服務的可靠性。3.使用成本低。云計算采用自動化集中式管理,按需分配使用硬件資源,無需支付數(shù)據(jù)管理成本。
3、大數(shù)據(jù)與云計算平臺的關(guān)系。大數(shù)據(jù)與云計算的聯(lián)系緊密,兩者均能夠為數(shù)據(jù)資源提供存儲、訪問和計算的平臺。對于云計算而言,其核心技術(shù)為數(shù)據(jù)處理技術(shù),最終目的是為國家、企業(yè)和個人提供便捷服務,這與大數(shù)據(jù)的發(fā)展目的一致。大數(shù)據(jù)擁有豐富的數(shù)據(jù)資源,能夠與云計算平臺共同一個平臺,進行大數(shù)據(jù)分析與計算,兩者的相似度極高。
二、大數(shù)據(jù)和云計算平臺的應用
大數(shù)據(jù)和云計算平臺的應用現(xiàn)已遍及多個領(lǐng)域,其在各個領(lǐng)域中均具有其它技術(shù)不可替代的作用。下面本文重點對其中的關(guān)鍵技術(shù)及具體應用進行分析。
2.1 Hadoop技術(shù)及其應用
1、Hadoop技術(shù)。這是一個開源軟件框架,具有海量數(shù)據(jù)分布式處理的能力,其支持PB級海量數(shù)據(jù),并且可擴展性極強。該技術(shù)的高效性、可擴展性、可靠性、開源特性,使其獲得了快速發(fā)展,并在很多平臺中得到了應用。
2、具體應用。①在百度中的應用。百度是提供數(shù)據(jù)搜索服務的重要平臺,在海量數(shù)據(jù)中百度能夠通過語義分析精準搜索到關(guān)鍵字以及用戶想要的結(jié)果。百度的海量數(shù)據(jù)處理平臺基于Hadoop而建立,每天處理的數(shù)據(jù)量十分龐大,約為20PB,處理的任務數(shù)超過120000個。百度數(shù)據(jù)處理平臺主要應用于以下方面:分析挖掘商業(yè)數(shù)據(jù),如展示與點擊廣告;存儲、分析、搜索日志;分析、爬取網(wǎng)頁;用戶行為挖掘,如用戶關(guān)聯(lián)與推薦。②在騰訊中的應用。騰訊是我國互聯(lián)網(wǎng)行業(yè)先進技術(shù)與平臺的代表,涵蓋電子商務、社交網(wǎng)絡、新聞門戶、網(wǎng)絡游戲、搜索等服務項目,其擁有自主研發(fā)的云計算平臺,即臺風(Typhoon),能夠大批量處理在線數(shù)據(jù)與離線數(shù)據(jù)。此外,騰訊基于Hadoop建立了海量數(shù)據(jù)處理平臺,用以解決數(shù)據(jù)挖掘、網(wǎng)頁分析等特殊問題。騰訊進一步擴展了Hyphoon平臺,使其能夠支持Hadoop程序運行,既發(fā)揮了Hadoop的優(yōu)勢,又提高了資源利用率。
2.2 Spark技術(shù)及其應用
1、Spark技術(shù)。這是一款基于內(nèi)存計算的分布式計算系統(tǒng),通過它可對大數(shù)據(jù)進行快速地分析處理。由于該技術(shù)是基于內(nèi)存計算實現(xiàn),從而使得數(shù)據(jù)的分析處理速度獲得了大幅度提升,對于實時性要求較高的數(shù)據(jù)分析處理,該技術(shù)非常適用。不僅如此,Spark對Hadoop還具有高度的兼容性。
2、具體應用。①在雅虎中的應用。雅虎對Spark技術(shù)的應用主要體現(xiàn)在利用該技術(shù)實現(xiàn)Audience Expansion 算法,這是一種在廣告中尋找目標用戶的算法,借助Spark集群,可以實現(xiàn)對目標用戶的快速尋找及交互式查詢。現(xiàn)階段,在雅虎上部署的Spark集群有112臺節(jié)點,內(nèi)存為9.2TB。②在優(yōu)酷土豆中的應用。優(yōu)酷土豆原本使用的是Hadoop集群,在使用中存發(fā)現(xiàn)以下幾個方面的問題:一是在BI方面,分析師提交相關(guān)任務之后,需要較長時間才能收到分析結(jié)果;二是在大數(shù)據(jù)量的計算方面效率不高;三是迭代運算耗費的資源過多且速度較慢。通過Spark技術(shù)的應用,可以使上述問題獲得有效解決。Spark技術(shù)的交互查詢響應速度快,其性能要高出Hadoop數(shù)倍,在模擬廣告投放的計算上,效率更高、延遲更小,迭代計算基本不會占用過多的資源,大幅度提升了計算性能。正因如此,使Spark技術(shù)在優(yōu)酷土豆的視頻推薦及廣告業(yè)務中獲得了廣泛應用。
結(jié)論:綜上所述,大數(shù)據(jù)與云計算平臺以自身所具備的諸多優(yōu)越性,在多個重要領(lǐng)域中獲得越來越廣泛的應用,這對于促進各個領(lǐng)域的發(fā)展具有重要的現(xiàn)實意義。在未來一段時期,應當進一步加大對其的研究力度,在現(xiàn)有的基礎(chǔ)上使大數(shù)據(jù)與云計算平臺更加完善,為大范圍推廣應用奠定基礎(chǔ)。
參 考 文 獻
[1]畢建新,陳雅,鄭建明.面向科學大數(shù)據(jù)的云計算平臺構(gòu)建研究——以東南大學為例[J].現(xiàn)代教育技術(shù),2013(10):103-104.
[2]馬學梅.大數(shù)據(jù)和云計算平臺應用探究[J].信息化建設,2016(7):46-47.