張立峰



“大數據”作為時下最火熱的IT(information(technology)行業的詞匯在互聯網時代顯得越來越重要。隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
大數據到底有多大
大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用于大數據的技術,包括大規模并行處理(MPP,Massively,Paralblle Processing)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統。
“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。可以說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。大數據必須借由計算機對數據進行統計、比對、解析方能得出客觀結果。
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”隨著云時代的來臨,大數據(BIGdata)也吸引了越來越多的關注。
大數據具有規模大、價值高、交叉復用、全息可見四大特征。特別是,最后兩個特征體現了大數據不僅僅有“規模更大的數據”這種量上的進步,還具有不同于以前數據組織和應用形式的質的飛躍。大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。
大數據能做些什么
大數據的應用示例包括了大科學、RFID(Radio Frequency ID entification)、傳感設備網絡、天文學、大氣學、基因組學、生物學、大社會數據分析、互聯網文件處理、制作互聯網搜索引擎索引、通信記錄明細、軍事偵察、社交網絡、通勤時間預測、醫療記錄、照片圖像和圖像封存、大規模的電子商務等。
僅僅十余年,很多企業爬過M B(megabyte)時代,走過G B(gigabyte)時代,現在正被趕著跑過TB(terabyte)時代,去迎接PB(petabyte)時代。事實上,如中國移動、聯通、電信這樣的移動通信運營商,如谷歌、百度、新浪、騰迅這樣的大型互聯網公司,如國家電網、交通運輸部這樣的職能部門,每天數據的更新量已經接近或達到了PB量級。
現在越來越多的政府、企業等組織機構意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。
大數據不僅是一種海量的數據狀態及其相應的數據處理技術,更是一種思維方式,一項重要的基礎設施。這或是明天我們治理交通擁堵、霧霾天氣、看病難、食品安全等“城市病”的利器,也會為政府打開了解社情民意的更大窗口。
眾所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及大數據,而這些大數據的屬性,包括數量,速度,多樣性等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。
云計算和大數據
人說云計算和大數據是雙胞胎,兩個是不同的個體,互相依賴又相輔相成,也有人說大數據是來攪局的。
從技術層面上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特點在于對海量數據的挖掘,但它必須依托云計算的分布式處理、分布式數據庫、云存儲和虛擬化技術。
云計算與大數據的不同之處在于應用的不同,主要在兩個方面:
第一,在概念上兩者有所不同,云計算改變了IT,而大數據則改變了業務。然而大數據必須有云作為基礎架構,才能得以順暢運營。
第二,大數據和云計算的目標受眾不同,云計算是賣給CIO(chief inform ation officer)的技術和產品,是一個進階的IT解決方案。而大數據是賣給CEO(chief financeofficer)、賣給業務層的產品,大數據的決策者是業務層。由于他們能直接感受到來自市場競爭的壓力,必須在業務上以更有競爭力的方式戰勝對手。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。
對大數據的常見誤解
一、數據不等于信息
經常有人把數據和信息作為同義詞,但并非如此。數據指的是一個原始的數據點(無論是通過數字,文字,圖片還是視頻等),信息則直接與內容掛鉤,需要有資訊性。數據越多,不一定就能代表信息越多。例如:
備份。很多人如今已經會定期的對自己的硬盤進行備份。這個沒什么好解釋的,每次備份都會創造出一組新的數據,但信息量并沒有增多。
二、信息不等于智慧
現在我們去除了數據中的所有重復部分,也整合了類似內容的數據,剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉化成智慧。
云存儲是存儲器嗎
云存儲是在云計算(c bud com puting)概念上延伸和發展出來的一個新的概念,是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。當云計算系統運算和處理的核心是大量數據的存儲和管理時,云計算系統中就需要配置大量的存儲設備,那么云計算系統就轉變成為一個云存儲系統,所以云存儲是一個以數據存儲和管理為核心的云計算系統。
云存儲不是存儲,而是服務。就如同云狀的廣域網和互聯網一樣,云存儲對使用者來講,不是指某一個具體的設備,而是指一個由許許多多個存儲設備和服務器所構成的集合體。使用者使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統帶來的一種數據訪問服務。所以嚴格來講,云存儲不是存儲,而是一種服務。
云存儲的核心是應用軟件與存儲設備相結合,通過應用軟件來實現存儲設備向存儲服務的轉變。
云存儲的概念與云計算類似,它是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的—個系統。
云存儲是通過網絡提供可配置的虛擬化的存儲及相關數據的服務。云存儲的內涵是存儲虛擬化和存儲自動化。
云存儲這項服務乃通過w eb服務應用程序接口(Aplapp lication program ming intetrace),或是通過Web化的用戶界面來訪問。
云存儲安全嗎
“云”這個概念被提出之后,安全性就是人們首先關注的要點。對于絕大多數的用戶來說,他們并不希望自己的云存儲變成公共資源平臺,更不希望自己的隱私成為大眾新聞,所以云存儲的供應商也一直在不遺余力地宣傳著自己的產品安全性。
云計算,特別是云存儲,已經有些年月了。我們目睹了Nirvanix公司的消亡,斯諾登揭露美國國家安全局的棱鏡項目,以及美國主要電信服務運營商涉嫌勾結。由于棱鏡計劃的曝光,我們將看到更多非美國企業會停止將其數據托管在美國。安全已經成為處理數據的企業的頭號關注問題。
對于云存儲產品而言,除了安全和方便,容量也是決定其發展前景的重要元素。
在線資源的即時分享與互動已成為我們日常生活必不可少的一部分,云存儲產品的出現,能夠實現手機、平板電腦、臺式電腦等智能終端設備的多屏合一、數據共享,極大方便了消費者的生活。越來越多的服務商向個人、各種企業用戶推出了包括存儲在內的云計算服務。D C(internetdata center)更是將新興的云存儲行業比作是“圈地運動”,并且將其視作早期競爭對手搶占SaaS(softw are as a service)和云存儲市場高地的機會。網盤作為云存儲的一種應用模式,更是成為當下百度、金山、騰訊、360、阿里等互聯網大佬們的“必爭之地”。
不過,有云也意味著有“雨”。云存儲并不總像看起來那樣“美”——將數據遷移至云中致使用戶在數據安全性和可用性方面高度受制于其云存儲服務器供應商,可以說,對安全性和可用性的擔憂是企業和個人走向云存儲模式的重要影響因素。
隨著云存儲技術的日益成熟,云存儲逐漸開始應用在智慧城市建設方面,未來必將給各行各業帶來更多的服務。
云存儲已經成為未來存儲發展的一種趨勢。但隨著云存儲技術的發展,各類搜索、應用技術和云存儲相結合的應用,還需從安全性、便攜性及數據訪問等角度進行改進。
TIPS 名詞解釋
云計算
云計算(cloud cornputing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。
《大數據時代》
《大數據時代》是國外大數據研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為“大數據商業應用第一人”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發表了長達14頁對大數據應用的前瞻性研究成果。
安全性
IDC的報告顯示,在未來四年內,全球云服務市場規模將增長到442億美元,其中云存儲的市場比例將從目前的9%增長到14%,其規模將接近62億美元,存儲市場是增長最快的云計算服務,這也正是各路廠商鐘情網盤服務的一個重要原因。