大數據體現出三大特征
回顧歷史,30年前我國大學里還沒有一個計算機系,而30年后的現在每個像樣的大學都有計算機系;現在大學里還沒有任何一個數據科學系,而30年以后所有學校都會有。
我認為,大家所說的大數據并非橫空出世的海量數據,大數據有很多因素支撐著它。主要體現在以下幾個方面:
一是超大數量,數量之大超越常規管理和處理;二是超高增速,過去2年的數據超過以往所有歷史數據;三是成長中的大數據分析產業。比如,一家以大數據分析為口號的IT搜索引擎公司Splunk 2012年4月19日在Nasdaq首日上市IPO即上漲109%,翻了一倍多,與2011年5月LinkedIn創造的網絡公司IPO業績最高記錄持平。
另外,大數據還體現出新的特征,也就是“三V特征”:Volume(數量)、Variety(多樣化)、Velocity(增速)。
具體來說,數量方面,據估計,目前世界數據總量已經達到zettabytes (1021 bytes)的數量級, 大企業的數據量已經達到petabytes (1015 bytes)數量級。多樣化表現在兩個方面,一是世界上已有數據的80%是非結構化的,二是數據間的互相作用使得其關聯性更加復雜。增速方面,以2010年為例,每分鐘35小時錄象上傳Youtube、每月60億張照片上傳Facebook、每天2億Tweets上傳Twitter、每天3000億件電子郵件發送 。由此可見,大數據發展的前景是一種新的“知識基礎設施”正在形成,一個大數據的新時代正在到來,其對商業、政府、民主和文化的影響將是巨大的。
大數據背后的核心是人,那就是數據科學家。數據科學家應具備三大核心技能,一是具備數學知識為數據集構模,二是具備工程技能建成數據模型分析系統,三是發現見解,從數據中講出故事來。目前,數據人才面臨的最大問題是數據人才的挑戰。2011年6月麥肯錫報告稱,到2018美國將短缺14萬~19萬具有高級技能的數據分析家,還需增加150萬能提出正確問題和利用分析結果的管理者和分析師。
對于大數據會不會造成新的鴻溝的問題?我的觀點是肯定的,我認為,能不能利用大數據將造成新的“數據鴻溝”、大數據利用能力將成為這種差距的放大器。
兩大關鍵詞解讀美國大數據計劃
2012年3月29日美國政府發布大數據研發倡議(Big Data RD Initiative),涉及政府六大部門。如何解讀美國大數據國家戰略,我認為要從兩個關鍵詞進行解讀。美國政府大數據研發倡議為什么值得關注?如果說,以往大數據還只是ICT領域的重大發展趨勢的話,那么這個倡議的出場,賦予大數據以國家戰略的重要意義。不僅是以往我們認識到的經濟、技術、城市發展和產業意義,還可能影響國家的軍事戰略,我們單位的研究小組跟蹤大數據有一兩年,對大數據的快速增長還沒有足夠的預料。
我自己是從兩個關鍵詞來看這個大數據研發倡議的國家戰略意義的。
一是“initiative”(通常譯為“倡議”),查了維基百科,“倡議”確是其本意,即政府提出一個想法,比如對憲法提出一個修正案,接下去要全民公決(referendum,當然真正通過十分困難),但是在有些情況下initiative就是一個政府計劃,最近常常聽到的有“開放政府倡議”(在這類情況下可能應該譯為“計劃”)。我記得當年里根政府的星球大戰計劃,原文就是Strategic Defense Initiatives,那可是個龐然大物。所以說initiative可大可小。這次的大數據研發倡議直接的資金不多,才2億美元,但是涉及6大聯邦部門,而中間兩個與國防有關:國防部和國防高級研究計劃局,所以不可忽視。當然目前不必過度反應,當年曾經有“星球大戰計劃引誘蘇聯政府投入巨大資源開展軍備競賽,以致促使其加速解體”一說,盡管可能是無稽之談(蘇聯垮臺的根本原因在于內部),但是當時無論蘇聯還是中國確實將這個探索性的計劃看得過重確是事實。但是這個大數據計劃可能造就一場軍事戰略的革命,作為一個大國肯定是忽略不得,更是輸不起的。
其二是“deal”。奧巴馬宣布這個計劃的當天,白宮網站發表美國科技政策辦公室負責政策的副主任Tom Kalil 的文章,標題為“big data is a big deal”,這個deal當然是交易、買賣的意思,但是如果要翻譯的話我建議譯為“大數據是個大政”。“大政”這個說法是不是重了點?我的依據是,當年羅斯福的“新政”,原文就是“New Deal”。他們經常喜歡用些貌似“低俗”的說法來稱呼重大的事情,在美國這就是政治。