屈一平

著名基因組專家汪建說,將一個人從懷孕第一周開始,一直到生下來的整個過程全部用基因大數據模擬記錄下來,一千年以后很容易復活。
汪建的陳述背景是,大數據背景下的基因技術。正如1970年一個美國學者安德森說過的“多帶來不同”,大數據正在成為未來稀有資源。
然而,面對海量數據,應用成了難題,就如斯坦福大學的Trevor Hastie所說,“在稻草里找一根針”。 你可知道這“稻草”何其多?光纖傳送網與寬帶信息網專家鄔賀銓院士曾經這樣比喻,如果把2011年獲得的全世界數據量裝到iPod上的話,可裝滿575億個iPod。把這些iPod當磚用,可壘起兩座中國長城。
據統計,全球各個行業的數據存儲量,每年都在以59%的速度暴增。由于缺乏規范的數據共享和交易渠道,不同行業間很難形成數據互利共享,數據交易平臺乃至交易所也就成為了迫切需求。
“很多企業愿意將自己的數據納入政府的統計體系或納入政府的統計數據的發布體系。但是不太愿意提供數據的收集、方法和算法這些過程性的信息。”國家統計局統計科學研究所副所長許亦頻坦言,政府統計應用大數據面臨數據割裂化難題。
有沒有這樣一個平臺,可以提供經過審核的“干凈”數據,一方面不侵犯個人隱私和國家安全,另一方面可以合法提供各類企業個人所需要的數據呢?
“2013年中國各個行業產生的數據孤島,各個領域的數據被割裂化。”中關村大數據交易產業聯盟秘書長、數海科技董事長秦翯告訴本刊記者,數據割裂化體現在各類活動的數據都保存在不同的領域:金融活動數據在銀行,搜索數據在百度,電子商務數據在阿里巴巴,發微博微信等數據都保存在不同公司、不同企業、不同機構手中。……