翟順誠 河南大學(計算機科學與技術)
大數據極大推動了云計算的發展。印度學者認為,大數據將大大促進印度生產率的提高,因為它不僅影響軟件行業,還將影響公共服務行業,如健康、行政和教育等各行業。據麥肯錫全球研究院估計,全球產生的數據每年以40%的速率遞增,到2020年,數據量將是2009年的44倍。這些數據來自于傳感器收集到的天氣數據、社交媒體上的各種帖子、數字照片和視頻、商業交易記錄、移動電話的GPS信息等。大數據超出了傳統數據的存儲和計算,必須尋找更新的技術,云計算使得巨大的計算能力變得更加容易獲得。
云端是指服務不在本地,可以指服務器,和普通的服務器不一樣,云端的服務器的資源是共享的,一旦某個服務器不能承受,將會把任務分配給其他服務器。
云計算網絡有兩個任務,將資源池變成一個虛擬資源,然后連接所有位置的用戶到這些資源。云計算的服務平臺包括幾個層次:基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)。IaaS是消費者通過Internet可以從完整的計算機基礎設施獲得服務。例如:硬件服務器租用。
現今商業化的云計算平臺主要分為幾大類:
(1) 微軟 Windows Azure的主要目標是為開發者提供一個平臺,幫助開發可運行在云服務器、數據中心、Web和PC上的應用程序。技術特征是整合其所用的軟件及數據服務,使用.NET開發技術,運用大型應用軟件技術,以Azure平臺提供服務。
(2)Google 技術特征是存儲以及運算水平擴充能力,使用平行分散技術 MapReduce、BigTable、GFS等,提供Google AppEngine和應用代管服務,使用Python、java語言進行開發。
(3) IBM 其技術特征和微軟相似,核心技術主要是網絡技術,分布式存儲,動態負載等,該平臺主要提供虛擬資源池,還有企業云計算服務整合方案。
(4) Oracle 提供軟硬件彈性虛擬平臺,核心技術主要以Oracle的數據存儲技術,Sun開源技術,提供EC2上的Oracle數據庫,Oracle VM等。
(5) Amazon其主要優勢之一是能夠以根據業務發展來擴展的較低可變成本來替代前期資本基礎設施費用。提供EC2、S3、Simple DB、SQS等服務。
大數據又稱巨量數據集合,指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。IBM提出大數據具有5V特點:Volume(大量)、Velocity(高速 )、Variety(多樣)、Value(低價值密度 )、Veracity(真實性 )。大數據特點:(1)數據類型較多,大數據有多種數據源組成,絕非單純某種數據,且隨著數據格式及來源日漸豐富數據類型會進一步膨脹(2)數據規模十分龐大,總體容量至少在10TB左右(3)數據真實性十分高,當前一些新類型數據不斷興起,傳統數據源逐漸被取代,數據更新速度快,因此必須提升系統安全性,保證數據在使用和存儲過程不受影響(4)大數據規模十分龐大,傳統數據處理模式已經無法滿足時代發展的需求,需求新的處理系統具有快速高效處理信息,可滿足大數據時代信息需求。云計算是是新一代信息技術的核心所在,云計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時交互式的查詢效率和分析能力,Google有一篇技術文章中的話:“動一下鼠標就可以在妙極操作PB級別的數據”,真的是極其高效快速。
分布式數據存儲結構,由三部分組成:客戶端、元數據服務器和數據服務器。客戶端用于發送請求和存儲數據,元數據服務器用于處理客戶端請求,數據服務器用于數據同步和存儲文件數據,將數據儲存在不同的物理設備中,擺脫了硬件設備的現實,同時擴展性更好,能夠更加快速、高效的處理海量數據,更好的相應用戶需求的變化。
大規模數據管理,主要采用的技術是Dynamo技術,其利用的是DHT的數據儲存方式,因此沒有熱點,這樣,各點的數據存儲量和訪問壓力就呈現出負載均衡的優勢。另外BigTable技術是谷歌建立在GFS和MapReduce之上的一個大型分布式數據庫,實際上是一個龐大的表,其規模超過1PB,能夠將所有數據作為處理對象。
虛擬化技術,核心技術,為云計算提供基礎架構層面的支撐。
編程模式,MapReduce技術是谷歌設計的一種編程模式,適合應用在大規模數據集的并行處理當中,一般要求大于1TB云計算MapReduce的編程模式能夠有效地利用云計算的資源。云計算旨在通過網絡把強大的服務器計算資源方便地分發到終端用戶手中,同時保證高效、簡捷、快速的用戶體驗。在這個過程中,編程模式的選擇至關重要。
云計算平臺管理,需要具有高效調配大量服務器資源,使其更好協同工作的能力,能夠方便地部署和開通新業務、快速發現并且恢復系統故障、通過自動化、智能化手段實現大規模系統可靠的運營。現在最流行的基于云計算的大數據處理平臺是Hadoop,Hadoop最初只與網頁索引有關,迅速發展成為分析大數據的領先平臺。Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進行數據處理,能夠處理 PB級數據。
信息安全,在云計算體系中,涉及到很多安全方面的問題,安全對于云計算下的體系至關重要,如前不久有家創業公司存放在騰訊云上的精準注冊用戶以及內容數據全部丟失,并且不能恢復,造成公司平臺全部停運的狀態,基于云計算的特性,可靠性達到99.99%,上述事件的發生概率為十億分之一,但是每年也都有云服務商出現”宕機”的現象,因此即使云計算有很強大的穩定性,也要做好信息安全的保證并進行數據備份。