李飛云

中國科學院院士、上海交大副校長梅宏月前在杭州西博會分論壇上表示,大數據對時代擁有重大的意義和價值,大數據產業能帶動GDP增長2-4%,然而現階段,大數據持續升溫,已經出現過熱現象。
大數據引發建設熱潮
馬云的一句“無法計算的價值”,再次將大數據推上“云端”,受眾人敬仰。
有人說,給一張照片,就可以通過大數據分析還原當時拍攝的時間、空間、緯度等要素,大數據的神奇,在諸多成功案列之后,正在被捧上神壇的途中。
當然,大數據確實有它獨到之處,如無人駕駛就是大數據應用的一個好例子。無人駕駛,需要對各種數據進行綜合分析,若在行駛中要穿越某個路口時看到小球通過,可能就要啟動預測,小球后邊會不會有一個小孩跟著,他正在追著球跑,這時車子就要作出相應的判斷,啟動大數據分析,它除了對環境感應的數據,地圖的數據還有其他的領域。
對此,梅宏院士表示,這樣的大數據應用,現在還不是那么普遍,但相信未來應該會越來越有用,從大數據發展到現在,很多數據應用的成功案例都曾證明過,“但是,在這熱潮中,需冷靜,需反思,一是大數據的概念持續升溫,毫無疑問已經處于過熱的狀態,二是大數據不可能是解決一切問題的靈丹妙藥,有時候也不需要全用(大數據)。”
梅宏院士通過一組數據來反映大數據過熱現象:2011年至2013年上半年,全國共規劃建設數據中心255個,已投入使用173個,總用地約713萬平方米,總機房面積約400萬平方米。其中,超大型數據中心(規模在1萬個標準機架以上,功率2.5千瓦為1個標準機架)有23個,中小型數據中心(規模在3千到1萬個標準機架之間)有42個,中小型數據中心(規模在3千個標準機架以下)有190個。
而255個數據中心的總設計服務器規模約728萬臺,實際投產服務器數約57萬臺,占設計規模的7.8%,超大型、大型、中小型數據中心的投產率分別為1.8%、21.5%和40%。
這255個數據中心分布在26個省、自治區、直轄市,從中可以看到數據中心的建設熱潮正在全國涌動。
大數據在中國正引發新一輪的信息化建設,在這過程中更需要頂層規劃和示范引導,積極謀劃,審慎推進,避免一哄而上造成超前投資和重復投資。
信息步入3.0智慧化
信息化在技術平臺、管理資源和應用模式方面逐漸演化,呈現出明顯的階段性特征,梅宏院士將此劃為三個階段,在互聯網應用開始的前一天(中國接入為1995年),歸之為1.0階段,此時很重要的特征是以單機應用為特征的數字化階段。
從90年代中期開始(1995年)至2015年美國提出“信息高速公路”建設計劃,互聯網得到廣泛的應用,這時所有的信息化應用進入了以互聯網應用為特征的網絡化階段,打破部門或組織固有的邊界,強調信息共享與系統協同的網絡化應用,這是2.0階段。跟以往不同,現在海量的數據信息,已經從主動化為被動產生,數據的采集源自系統的自然產生。
經過20年的發展,信息化在社會各方面所形成的深入影響,正開啟一個新的階段,這就是3.0階段,該階段呈現出以數據的深度挖掘與融合應用為特征的智慧化,它是信息技術的不斷廉價化,以及互聯網及其延伸應用所帶來的無處不在的信息技術運用,形成了規模巨大的數據資源,且仍將加速增長。
在摩爾定理(只是捆綁)、技術驅動的萬物數字化、寬帶移動互聯驅動人機物的廣泛連接和云計算模式等四大驅動力驅動下,數據表現出大規模匯集和集中。
此外,大數據應用的成功案例,如智能交通、Google的自動駕駛的交通導向,還有中外語言處理,Google百度完整的翻譯系統、自動問答系統等,其中IBM中Watson系統有名的沃森醫生,就是通過自動識別并對比成千上萬張非結構數據圖片,進而診斷疾病,由這些案例可看到數據驅動的智能時代正在來臨,激發了基于數據的巨大需求。
根據IDC(全球數據總量統計)顯示,2003年全球產生數據僅500萬TB,到2012年全產生球數約27億TB(1TB=1024GB ,1PB=1024TB),“在人類所獲得數據中,90%的數據為過去兩年內所產生的,數據形式開始呈多樣性,從文本數據到視頻、圖片等非結構化數據,”梅宏院士由此預測,按統計大概在2020年前,全球數據量大約2年翻1倍,他舉例解釋說,“如果用當前世界上最快的商用計算機,要把1PB數據讀入內存就要約6天時間,如果用4000臺計算機對1PB的數據做簡單的排序需要約6個小時。”
在信息爆炸時代,充斥著大量偽數據、無效數據、過時數據等,大數據價值密度低。對此,梅宏院士認為,真正的大數據應用應該取決于數據挖掘的深度和多元跨界數據融合的廣度,而不僅僅是數據的含量;現在很多的應用,只不過是過去的數據量的增加而已。
大數據產業帶動GDP增長2-4%
大數據對當今時代擁有重大的意義和價值,一方面它提供了人類認識復雜系統的一種新思維和新手段。理論上,人類能夠把大千世界全部數字化,構建一個虛擬的世界。
梅宏院士認為,“大數據也成為促進經濟轉型增長的新引擎,大數據產業的形成對整個GDP的帶動,大約是在2-4%。”這也因此受到政府部門重視,認識到它在促進產業轉型升級,激發商業模式的創新,改善民生方面具有很重要的作用。
梅院士還認為,大數據正在成為國家綜合能力和保障國家安全的一種新的利器。美國棱鏡計劃就是通過截獲電郵、即時消息、視頻、照片、語音、文件傳輸、視頻會議、社交網絡等數據的收集與綜合分析。如何從繁雜的數據里面得到國家所需要的治理能力,這已成為各國重點關注。
目前,大數據產業生態鏈已現雛形,從基礎設施到分析方法,到應用領域,產業生態框架基本形成,大數據生產流程也有了既定的模式:從獲取存儲、清晰標記、到集成聚合、分析建模,最后推薦展現。
大數據應用呈發展初級階段特征,無論從深度和廣度看,均難有真正意義的“全體數據”,就顯示世界的復雜性而言,均是“抽樣數據”。
大數據的巨大潛力已被廣泛認知,隨著大數據的普遍應用,將可能帶來數據所有權、隱私保護、信息安全等一系列新的問題,而當前,相應的道德、法律建設,以及技術手段仍處于滯后狀態。