由于云計算所代表的美好網絡應用模式,它被Google提出來以后便不斷走熱。近幾年,云計算在IT界的流行程度超乎想象,大家各取所需地不斷創造出各種形式的云概念,一時間凡是與IT有點聯系的公司幾乎都扯上了云。在云尚未聚雨帶來甘甜之時,大數據的概念也正在被熱炒起來。數據是公司經營決策的重要參考早已是人們的共識,那為什么大數據會突然聚焦了如此多的目光?大數據和云計算又是什么樣的關系?
火紅的大數據
2011年5月,麥肯錫全球研究院發布了名為《大數據:創新、競爭和生產力的下一個前沿》的研究報告,報告中指出大數據將成為企業的核心資產,對大數據的分析將成為競爭的關鍵,并會引發新一輪生產力的增長與創新,對海量數據的有效利用將成為企業在競爭中取勝的最有利武器。麥肯錫還預測通過對大數據的合理使用可以使零售業的經營利潤提高60%以上。
麥肯錫的報告發出后,大數據的概念迅速得到了IT界的熱捧。事實上,全球互聯網巨頭早就意識到了大數據下隱藏的金礦,紛紛針對大數據領域進行布局。例如亞馬遜一直非常強調數據驅動的管理思想,其早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),這是一種編程模型,用于大規模數據集(大于1TB)的并行運算。據公開資料顯示,自2009年開始互聯網巨頭針對大數據領域的收購兼并至少有13起,涉及的企業包括EMC、IBM、Oracle和HP。其中最為活躍的當屬EMC,先后收購了7家數據領域的創新企業。此外,2011年EMC還宣布在原EMC中國實驗室和EMC首席技術官辦公室技術創投組的基礎上,組建EMC中國研究院。EMC中國研究院下設三個實驗室:大數據實驗室,云基礎構建實驗室,云平臺與應用實驗室。
在美國,對大數據的關注很快上升到了國家競爭的戰略層面。去年3月29日,奧巴馬政府發布了《大數據研究與發展計劃倡議》,宣布啟動對大數據的研發計劃,6個聯邦部門和機構將新投入超過2億美金推動大數據提取、存儲、分析、發現等領域技術與工具的發展。同時奧巴馬政府號召面臨挑戰的行業、科研院所與非營利機構和政府攜手,共同迎接大數據所創造的機會。
大數據是個噱頭嗎
其實數據的重要性早已是一個無需多加證明的命題,許多領域都有使用數據提升生產力的經典案例。那么為何今日大數據突然走紅?這會是又一個噱頭嗎?
通常情況下我們在數據分析中運用的大多是以表格形式存儲于關系數據庫中的結構化數據,主要涉及的也僅僅是一些企業的經營信息。事實上,由于社交網絡、物聯網、移動互聯網等行業的不斷發展,產生了大量的半結構化數據和非結構化數據。我們在網絡上的任何一次登陸、點擊、評論和轉發等都可以被完整的記錄和保存下來,這構成了我們網絡化的行為路徑。這些數據里面包含了我們的消費行為、消費心理、消費關聯等太多對企業決策有價值的信息,而這些數據源尚沒有被大多數企業采用。Forrester估計,在一般情況下企業僅僅使用了他們所能獲得數據中的不到5%。考慮到大多數尚沒有被采集到的大數據,實際應用比例會更低。
毫無疑問,企業在數據分析的過程中,采用的數據越全面,分析的結果越接近于真實。大數據受到熱捧的原因在于大家看到了企業能夠從這些海量的數據中獲取某些洞見,從而更大程度的發揮企業現有業務的能量。數據資產可以作為企業業務的潤滑劑,對數據資產的盤活是未來提升企業競爭力的關鍵。
大數據的威力
網上一篇瘋傳的帖子《互聯網的一天》中指出,“每天互聯網上要發出2940億封郵件,200萬篇博客,1288個新應用可供下載,數據流量可以刻1.68億張DVD光盤。”這使我們對互聯網上產生的數據量之大有了直觀的認識。IDC在其發布的報告中也指出,2011年產生了1.8ZB(也就是1.8萬億GB)的大數據,這相當于每位美國人每分鐘寫3條Tweet,而且還是不停地寫2.6976萬年,未來十年全球大數據將增加50倍,管理數據倉庫的服務器的數量也將相應增加10倍以滿足需求。

隨著人們對大數據的重視以及數據量的不斷增多,動輒以PB或者EB計量的大數據,將遠遠超出傳統數據庫軟件工具采集、存儲以及組織和分析的能力,這將給企業的存儲架構以及數據中心的基礎設施帶來巨大的挑戰和改變,由此也會帶來云計算、數據倉庫、數據挖掘等技術和應用的提升或者根本性改變。
大數據的出現雖然帶來了很多挑戰,但是其所能帶來的商業價值也無可估量。IDC在其關于大數據的報告中,闡述了利用大數據的商業價值:領軍企業與其他企業之間最大的顯著性差別在于新數據類型的引入。那些沒有引入新的分析技術和新的數據類型的企業,不太可能成為其行業的領軍者。
源于對大數據的重視和對消費行為等非結構化數據的分析,沃爾瑪“啤酒與尿布”的故事早就成為了人們傳頌的經典商業案例。阿里巴巴建立在對用戶行為分析的基礎上,準確的預言了2008年的金融危機,并采取措施幫助中小制造商準備過冬的糧食,這為其贏得了不少聲譽。美國國家海洋和大氣管理局(NOAA)每年的IT預算高達10億美元,主要用于大數據中心的建設。2011年3月11日,日本大地震發生后僅9分鐘,NOAA就發布了詳細的海嘯預警。
大數據對于企業價值的核心在于從海量數據中獲取的某些洞見,從而使其更加了解消費者的需求,貼近消費者,高效的分析信息并做出預判,從而在競爭中贏得先機。
在中國,目前大數據在很大程度還僅是一個被金融機構熱炒的概念。但是預期在不久的將來,大數據必然會被互聯網公司、金融企業、電信企業、零售企業等各行各業所重視和推動,最終提升到國家競爭的戰略層面,掀起一股大數據浪潮,并逐漸形成以數據資產為核心的新型競爭業態。
大數據與云計算
大數據的概念并不僅僅局限于數據分析技術。任何數據都會形成產生、存儲、組織、分析、消耗等一個完整的生命流程。伴隨著大數據的不斷產生,無論是數據的收集、存儲、組織、分析、檢索、共享等都存在不同的商業需求,也給現有計算機和互聯網技術帶來了巨大的挑戰,需要進行不同程度和深度的技術創新。
在大數據之前,云計算已經被吹捧了好幾年。盡管云計算的安全性、可用性以及成本等方面仍存在諸多的疑慮,但是各大互聯網巨頭紛紛加快了對這一領域的跑馬圈地。本質上來說,云計算并不新鮮,它是融合諸如網格計算、分布式計算、并行計算、虛擬化等傳統計算機和網絡技術發展起來的產物,通過將計算任務分布在大量的分布式計算機上,形成類網狀的服務器集群。云計算的核心價值在于具有很強的彈性,可以實現根據任務自由的分配資源,用戶按照需求訪問存儲空間和服務器集群,從而大大地提高了計算能力,并降低了用戶對客戶端的要求。
從表面上看,大數據和云計算是兩個完全不同的概念,但事實上二者存在很多的交集,相互依賴。大數據的指數級增長使得數據的存儲、管理以及分析具有很高的復雜性,因此大數據對云環境有著很高的依賴,云計算不僅大大提高了企業處理大數據的計算能力,而且不需要投入和管理過多的硬件設備,按照需要進行付費,有效地優化現有的資源。從這一層意義上來說,云計算為大數據提供了保管的場所和暢通的訪問渠道。大數據作為企業的核心資產,對其進行有效的盤活,發掘出其在商業決策中的巨大價值是云計算的內在靈魂和必然的升級方向。
近幾年云計算作為一個時髦的名詞,商界、學術界甚至政府界都拼命的在各自的產品、技術、報告和文件中與之關聯。一時間,云存儲、云手機、云電腦等概念甚囂塵上,但始終有種云里霧里的感覺。大數據的出現,為云計算提供了釋放能量的空間,也指明了云計算真正有價值的方向。云計算和大數據作為一體兩翼,將會是衡量企業未來技術能力的最重要依據。如果二者能夠協同發揮能量,將會給企業帶來精準分析、精準打擊,形成企業在未來商戰中的核心武器。大數據是寶藏,云計算是開礦的利器。沒有大數據的云計算,定是英雄無用武之地;沒有云計算的大數據,終會是鏡中花、水中月。
亞馬遜從創立之初就非常強調底層的技術實力、數據運營與在線零售的充分嫁接,其很多業務都是由數據驅動的。在大數據領域,亞馬遜也具有先知之名。上面提到,亞馬遜早在2009年就推出了大規模數據集并行計算的技術——亞馬遜彈性MapReduce。現在,這項技術運行在亞馬遜的彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(Amazon S3)上,真正實現了云與大數據的結合,凸顯了云計算的價值。部署在云端的彈性MapReduce可以根據需求實時的按需配置和訪問服務器集群,實現對大量和密集型數據任務的處理,比如日志文件分析、數據挖掘、機器學習、科學模擬等。毫無疑問,這種云與大數據的結合在亞馬遜銷售擴張和成本控制方面發揮著巨大的能量,也是亞馬遜帝國得以塑造的關鍵驅動。
大數據浪潮
木桶理論指出,企業要保持均衡發展,不能有明顯的短板,這是成就一家優秀企業的必要前提。但是從優秀到卓越要求企業在保持均衡的前提下具有無往而不勝的利器。雖然目前大多數企業對結構化和標準化的數據處理能力尚十分有限,但是站在企業發展的戰略高度,未來企業之間的競爭必將上升到數據層面,巨頭之間的對決尤為如此。擁有更多的數據,具備更強的數據分析能力,并能將數據分析結果應用到經營中的企業將會具備更大和更長遠的價值。
大數據概念的提出給企業的數據采集、存儲、整理以及分析都帶來了很多的啟示,也給云計算的發展提供了可參考的方向。大數據與云計算好比一體兩翼,如果二者能形成合力,必將成為企業在商戰中的尖刀,敏銳的捕捉信息,直刺要害。
吳軍先生在《浪潮之巔》一書中寫道:“近一百多年來,總有一些公司很幸運地、有意識或無意識地站在技術革命的浪尖之上。一旦處在了那個位置,即使不做任何事,也可以隨著波浪順順當當地向前漂十年,甚至更長的時間。”
大數據的浪潮已經到來,唯一的疑問是這次你是處在浪潮的中心,還是窗外看風景的人。