一、大數據將是信息技術領域的下一波浪潮
繼第二代互聯網(Web2.0)和云計算之后,大數據接踵而至,有可能成為信息技術界的下一個重大熱點。第二代互聯網將人和物實現聯網,云計算是向在線計算基礎設施轉變,大數據則通過對傳統計算技術無法分析的大量數字信息進行存儲和處理來創造價值。據美國思科公司估計,到2015年全球互聯網流量將達到4.8ZB,這表明大數據面臨的挑戰和機遇近在眼前。
全球計算機產生的數據量呈幾何級數增長,有種種原因。首先,由于電子商務和積分卡計劃,零售商開始建立龐大的數據庫,記錄客戶活動。物流、金融服務、醫療保健和許多其他行業中的組織也正在收集越來越多的數據,希望從中獲得附加值。社交媒體創造了大量的數字資料,從中有可能會挖掘出有價值的信息。此外,由于視覺識別技術的提高,計算機從靜止圖像和視頻中收集有用信息和數據關系,開始成為可能。隨著越來越多的智能對象聯網,不斷擴大的物聯網也在產生大規模的數據。最后,快速基因組測序技術、納米技術、合成生物學和氣候模擬等領域的科技進步正開始產生并依賴大量的數據,其數據量之大,直到最近還幾乎是無法想象的。
收集和存儲大數據,并從中創造價值,引起了許多技術上和概念上的挑戰,超出了傳統的計算能力。
數據量大既是大數據的最大挑戰,也是其最大的機遇。這是因為,大量數字信息的存儲、相互關聯和處理為廣泛的活動提供了巨大的可能性,包括客戶行為預測、疾病診斷、醫療保健服務計劃制訂和氣候建模。然而,傳統的計算解決方案越來越難以勝任此類任務。
大數據的速度也引發了一些重要問題。首先,大多數組織的數據流入速度正日益超出其信息技術系統的存儲和處理能力。此外,用戶越來越希望向他們實時傳遞流媒體數據,并且是傳輸到移動設備上。在線視頻、定位、增強現實技術和許多其他應用現在依賴大量的高速數據流。對許多公司來說,傳輸高速數據流是相當大的挑戰。
大數據的另一個突出特點是數據類型多樣。數據中心只需要處理文檔、金融交易、股票記錄、人事檔案的日子一去不復返。今天,圖片、音頻、視頻、三維模型、復雜的模擬和定位數據被存入大量的企業數據倉庫。這些大數據源中,許多幾乎完全是非結構化的,因而不易分類,更不用說用傳統的計算技術去處理。這一切意味著,大數據實際上是凌亂的數據,在開展任何有意義的分析之前,需要下大力氣進行復雜的預處理和數據清理。
由于上述挑戰,許多組織別無選擇,只能忽略或快速排出大量可能非常有價值的信息。它們收集的很大一部分數據都未經處理,并且大量有價值的數據像廢氣一般被排出去。例如,目前醫院在手術治療過程中拍攝的幾乎所有視頻數據在幾周內刪除。然而,對這些圖像流進行智能挖掘,既可改善個體患者的治療效果,也可改進更廣泛的醫療保健計劃。
二、大數據需要新的技術解決方案
由于其數量、速度和類型提出的種種問題,大數據需要新的技術解決方案。目前名為Hadoop的Apache開源項目在這一領域處于領先地位。它提供了首個可行的大數據分析平臺。大數據領域的絕大多數開拓者已經在使用Hadoop系統。例如,LinkedIn公司是一家面向商業客戶的社交網絡服務網站,目前使用Hadoop系統每周產生超過1000億條個性化建議。
目前,除了原有的信息技術系統,許多大數據業務的開拓者在部署Hadoop系統,以便讓這些系統把新老數據結合起來。然而,隨著時間的推移,Hadoop系統可能注定要取代許多傳統的數據倉庫和關系型數據庫技術,成為處理多種數據的主導平臺。
許多組織不可能有足夠的資源和專業知識去實施自己的Hadoop解決方案。幸運的是,它們不必這樣做,因為已經可以利用云計算解決方案。亞馬遜、谷歌和網域存儲公司(NetApp)等供應商提供云計算解決方案,能夠讓各種規模的組織開始受益于大數據處理的潛能。利用云計算處理大量的公共數據也會起到很好的效果。例如,亞馬遜公司已經存儲了許多公共數據集,包括美國和日本的人口普查數據,以及基因組學和其他醫學與科學的許多大數據存儲庫。
展望未來,隨著人工智能的進步和新型計算機處理能力變得可用,大數據將突飛猛進。例如,未來量子計算很可能極大地提高大數據的處理能力。
三、駕馭大數據將具有深遠意義
盡管挖掘TB級、PB級甚至EB級的數據在技術上具有挑戰性,但卻提供了重大機遇。事實上,無需多年,大數據技術和方法很可能讓幾乎每一條以往存儲的數字信息產生某種額外的、派生的價值。正如IBM公司解釋的那樣,“大數據是一個機會,可以在新型數據中尋找新的見地,可以使業務更加敏捷,并可以回答以前回答不了的問題”。
更具體地說,大數據可以提高分析的洞察力,可以創造以前不可能有的新產品和新服務。谷歌、亞馬遜和臉譜(Facebook)等業界先鋒已經以實例證明,大數據如何能夠提供高度個性化的搜索結果、廣告和產品建議。隨著時間的推移,大數據還有可能幫助農民準確地預測惡劣天氣和作物歉收。政府則有可能使用大數據來預測社會動亂或傳染病,并制定應對計劃。
認識到大數據的潛力,2012年3月,美國政府宣布向大數據項目投入2億美元,以極大地改善所需技術和工具,實現海量數據的存取和組織,并取得發現。白宮科技政策辦公室甚至將此稱為自互聯網興起以來最重要的公共技術投資之一,其主要目標是“加快科學和工程探索的步伐”。
正如美國網域存儲公司NetApp解釋的那樣,從根本上來說,大數據的發展涉及創造新的信息技術系統,這種系統不是僅用于存儲數據的倉庫,更是一些緊密關聯的系統。長久以來,我們已經習慣于將數據輸入計算機系統,取得相對較少的回報。但是,通過對越來越多的大數據集進行合并分析,我們可能從計算機系統中獲得更多的回報。
例如,通過利用大數據技術對每天12000GB的推文(用戶在社交網站Twitter上發表的消息)開展實時情感分析,以了解全世界對事物的看法,已經成為可能。但這僅是開始,因為大數據可提供各種可能性,可能會增加和完善各類組織為客戶提供的服務。
麥肯錫全球研究院在最近的一份大數據報告中估計,通過利用大數據,美國醫療保健行業可提高效率和質量,能每年節約3000億美元,使醫療保健支出削減8%左右。據其估計,在整個歐洲,利用大數據每年至少可節約1490億歐元的政府行政成本。從更廣泛的意義上說,制造業企業將大數據貫穿整個研發、工程設計和生產過程,可能會顯著減少產品上市時間,并提高產品質量。
大數據無疑會產生形形色色的具有數據跟蹤能力的組織,令人畏懼,但是大數據的積極影響很可能大于其負面影響。例如,大數據可能會提高城市的交通管理,并可能實現更智能地運行電力基礎設施,從而促進可持續發展。
實際上,通過利用大數據,我們可以開始按照人們的真正需求,實現資源的分配和世界的運轉,而不是盲目地猜測人們的未來需求。換言之,對人類活動的認識越深,我們就越不需要生產人們實際上并不需要的產品,并把它們運至零售網點。
(作者:劉潤生,中國科學技術信息研究所助理研究員,科技參考研究室負責人,主要從事科技戰略與政策研究。)