牛祿青
關于大數據的發(fā)展背景、重大意義、最新動向、未來趨勢以及中國的機遇與挑戰(zhàn)等相關問題,中國工程院院士、中科院計算所首席科學家李國杰接受了《新經濟導刊》專訪。
李國杰表示,大數據對經濟社會發(fā)展和科學研究具有革命性的意義,其興起有著內在的需求和利益驅動,因為數據里蘊藏著巨大的價值。未來將形成數據服務、數據探礦、數據化學、數據材料、數據制藥等一系列戰(zhàn)略性新興產業(yè)。
他認為,數據安全主要不是技術問題,因為數據放在哪里都有泄露的風險,它與商業(yè)模式有很大關系。中國當務之急是建立上下游相互協作、相互支撐的大數據產業(yè)環(huán)境,特別是構建有技術自主權的大數據產業(yè)鏈。
商業(yè)價值驅動
《新經濟導刊》:繼物聯網、云計算、3D打印等新技術之后,大數據已成為投資者、IT人士以及政府部門、科研人員關注的熱點,請問大數據是在什么背景下發(fā)展起來的?
李國杰:今年三月份,奧巴馬宣布美國政府投資2億美元啟動“大數據研究和發(fā)展計劃”,這個計劃可以同美國上世紀90年代初的“信息高速公路”相比擬。美國政府認為,大數據是“未來的新石油”,并將大數據的研究上升為國家意志。
表面上看“大數據熱”受到美國計劃的影響,但不完全是這樣。過去美國副總統(tǒng)戈爾呼吁的數字地球,中國也在跟進,但經濟上并未成氣候;有些是美國不太熱,中國反而進行得有聲有色,比如物聯網,這可能與中國政府對物聯網的大力扶持有關。所以層出不窮的新技術,有時候是真熱,有時候是虛熱。
我認為,大數據不是因為奧巴馬的宣布而熱起來的,它的興起有著內在的原因。現在的大數據與互聯網、物聯網的蓬勃發(fā)展有很大關系,特別是美國幾家大型企業(yè)的大力推動,像IBM、Amazon、Google、Facebook等。
科研人員研究大數據,習慣于從數據到信息到知識再到智慧,若按照這個鏈條,時間太漫長,產生的經濟效益也有限,大數據不會形成這么大勢頭。現在企業(yè)走了一條捷徑,直接從數據里開發(fā)出商業(yè)價值,而不管數據中的科學規(guī)律和知識,這可以大大激發(fā)企業(yè)的興趣。比如電子商務eBay,它用大數據分析網絡廣告,發(fā)現廣告里的每一個單詞都與經濟效益有關聯,通過優(yōu)化,使廣告收益提高80%以上。所以,大數據興起的根本原因是里面蘊藏著巨大的價值,有實實在在的經濟利益驅動。
《新經濟導刊》:人們對大數據的理解,見仁見智,如何界定大數據?大數據有哪些基本特征?
李國杰:一般意義上,大數據是指無法在可容忍的時間內用傳統(tǒng)IT技術和軟硬件工具對其進行感知、獲取、管理和服務的數據集合。大數據的特點主要表現為四個“V”:一是體量浩大(Volume),數據集合的規(guī)模已從GB到TB再到PB級,甚至已經開始以EB和ZB來計算。著名咨詢公司IDC的研究報告稱,未來10年全球大數據將增加50倍,管理數據倉庫的服務器的數量將增加10倍。二是類型復雜(Variety),大數據類型包括結構化數據、半結構化數據和非結構化數據。現代互聯網應用呈現出非結構化數據大幅增長的特點,到2012年末非結構化數據將達到整個數據量的75%以上。三是生成迅速(Velocity),大數據通常以數據流的形式動態(tài)、快速地產生,具有很強的時效性。數據自身的狀態(tài)與價值也隨時空變化而發(fā)生演變,數據的涌現特征明顯。四是價值巨大但利用密度低(Value),基于傳統(tǒng)思維與技術讓人們在實際環(huán)境中面臨信息泛濫而知識匱乏的窘態(tài)。
開啟數據革命
《新經濟導刊》:大數據對經濟社會發(fā)展和科學研究有哪些重要作用?
李國杰:根據數據的來源,大數據可以分為兩類:一類來自與人類社會有關的數據,特別是互聯網和經濟活動產生的數據,企業(yè)最感興趣。這一塊增長也最快,互聯網實際上反映的是人的活動。另一類來自物理世界,通過傳感器、科學觀測獲取。比如生物數據、腦科學數據、氣象數據、野外環(huán)境保護數據、衛(wèi)星遙感數據等,這類數據首先推動科學的進步,繼而推動經濟的發(fā)展。
大數據具有革命性的意義,作為一種重要的戰(zhàn)略資源,不僅事關國家的數字主權和戰(zhàn)略安全,而且可以促進我國的經濟結構調整和產業(yè)升級。大數據時代,企業(yè)關注的重點轉向數據,計算機行業(yè)正在轉變?yōu)檎嬲男畔⑿袠I(yè),從追求計算速度轉變?yōu)榇髷祿幚砟芰Γ浖矊木幊虨橹鬓D變?yōu)橐詳祿橹行摹4髷祿幚淼呐d起也改變了云計算的發(fā)展方向,使其進入以分析即服務(AaaS)為主要標志的Cloud2.0時代。采用大數據處理方法,生物制藥、新材料研制生產的流程會發(fā)生革命性的變化,大大提高科研和生產效率,使整個行業(yè)邁入數字化與信息化的新階段。未來將形成數據服務、數據探礦、數據化學、數據材料、數據制藥等一系列戰(zhàn)略性新興產業(yè)。數據服務是許多企業(yè)瞄準的重要領域,華為本來是一家通信企業(yè),現在也開拓數字醫(yī)療市場,打通社區(qū)醫(yī)院和三甲醫(yī)院,這是一個潛在的巨大市場。
此外,大數據正在引發(fā)科學研究思維與方法的一場革命。最早的科學研究只有實驗科學,隨后出現了以研究各種定律和定理為特征的理論科學。由于理論分析方法在許多問題上太過復雜,難以解決實際問題,人們開始尋求模擬的方法,導致計算科學的興起。海量數據的出現催生了一種新的科研模式,科研人員只需從數據中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸所研究的對象。2007年,已故圖靈獎得主吉姆·格雷在他最后一次演講中描繪了數據密集型科學研究的“第四范式”,把數據密集型科學從計算科學中單獨區(qū)分開來。第四范式不僅是科研方式的轉變,也是人們思維方式的大變化。現實中,許多復雜的經濟社會問題無法用傳統(tǒng)的方法進行研究。比如股市,沒有大量的數據無法找到其中的規(guī)律,僅靠模型是不行的。
《新經濟導刊》:大數據對地理信息和位置服務有何影響?
李國杰:地理信息和位置信息是人在物理世界的活動,是社會活動和物理世界兩類數據的融合。這種數據的規(guī)模是相當大的,是未來一個新的經濟增長點,而且能帶動物理空間和社會網絡領域的數據產業(yè)的飛速發(fā)展。
地理信息是國家信息基礎設施的一部分,電子政務、電子商務、智能交通、智能物流等行業(yè)應用,都離不開地理信息。政府對地理信息這種公共資源應該分層管理,除了涉及國防和國家安全的信息需要保密外,其他基礎信息都要免費或以較低成本提供給企業(yè)和民眾,防止信息采集單位據為己有。基于基礎信息上的各種應用服務,應該大量放開,讓企業(yè)去做。我國的地理信息產業(yè)之所以發(fā)展不快,就是沒有解決好信息的分層管理,收集地理信息的單位,理所當然地認為這些信息就是本部門的,而且互相之間也不交流和共享,導致重復建設和資源浪費。
顛覆IOE模式
《新經濟導刊》:大數據時代,傳統(tǒng)的數據庫軟件將難以滿足處理海量數據的需要。您認為大數據對信息技術提出哪些新的要求?
李國杰:過去,中國對信息系統(tǒng)有所謂“金三角”的說法,即“IOE”,I指IBM的服務器,O指Oracle的數據庫,E指EMC的存儲。這三家公司基本壟斷了國內銀行、證券等對計算機處理數據要求很高的行業(yè)。現在業(yè)內認為,如果某家技術公司還沿用“IOE”,那這家公司就不是大數據公司。因為你的技術建立在IOE基礎上,決定了你無法處理大量數據,因為你的基礎設施就不適合做大數據處理。
數據在基礎設施層面有三類技術:存儲、管理和計算。IOE模式從上世紀70年代就逐步成型了,即關系數據,當時對數據的認識是線性維度。到了大數據時代,數據的巨大規(guī)模和快速變化超過了硬件能力的增長,而且數據之間的復雜關聯使得線性思維無能為力。另外還有社會因素,數據與人在不斷地互動,甚至人就是動態(tài)的數據集。在這種情況下,采用原有的IOE模式來處理大數據就難以應對了,數據中的價值也無法有效挖掘出來。現在大數據有許多應用,例如通過查詢Google,可以知道流行病在某區(qū)域的分布;通過輿情的分析,可以預測選舉的結果。
大數據存儲不同于傳統(tǒng)的EMC,它是一種高效率、低成本、多層次柔性的存儲架構,不是集中到一起存儲,而是把數據放在云和端。實際上,數據存儲的分布很關鍵,哪些在主服務器,哪些在客戶端,這要比提高單個存儲的性能更重要。雖然許多企業(yè)都在做,但還處于探索中。目前,Hadoop開源分布式系統(tǒng),已成為大數據處理的主流技術,包括資源調度、存儲管理等各種數據工具。這是一種發(fā)展趨勢,但也存在不少問題。
在大數據管理方面,過去的關系數據管理在冗余、一致性、復雜查詢優(yōu)化上解決得非常好。在Hadoop體系下,數據規(guī)模、增量速度和靈活性上遠遠超過Oracle,但在數據價值挖掘和分析方面還不能提供較好的技術支持。所以大數據管理是打碎了舊的模式,新的模式還沒有規(guī)范化和體系化。
《新經濟導刊》:中國與國外大數據產業(yè)相比,有哪些優(yōu)勢和劣勢?國外互聯網企業(yè)在大數據處理方面有哪些經驗可供我們借鑒?
李國杰:不管是Google、Amazon還是Facebook、Twitter,肯定不是用IOE這種模式,都是重新設計和建立新的系統(tǒng)。比較領先的應該是Google,但Google把自己的技術包裹起來,不告訴別人,所以,后來形成了以Hadoop為代表的一系列開源技術。雖然Hadoop借鑒了Google的一套大數據處理思路:GFS存儲、MapReduce計算、BigTable管理,但由于是全球人的貢獻,所以全球60%~70%的大型互聯網企業(yè)都在使用Hadoop開源技術。
國內的大數據代表性企業(yè)是百度、騰訊、阿里巴巴。由于大數據原創(chuàng)體系和基礎技術的話語權在國外(開源組織和大企業(yè)),所以國內企業(yè)在這方面有一定差距,但應用上不比國外企業(yè)差。需要注意,國內大型互聯網企業(yè)是自己確實有需求和價值驅動才改進原來的技術架構,而不是一味地跟風。比如淘寶網,每天的日志按照傳統(tǒng)方法只能存儲一周,數據量太大,不可能為了存儲數據再蓋大樓和機房,這就逼迫它必須優(yōu)化存儲、提高效率和節(jié)約成本。
由于中國人口多、市場大、數據量大,所以中國大數據發(fā)展的動力非常強勁,大數據的應用需求絲毫不亞于國外。同時,我們也要看到,中國發(fā)展新興產業(yè)是一個后來者,以前經常講,我們有后發(fā)優(yōu)勢,能夠避免走彎路。實際上,前面所走過的二十年,更多暴露出后發(fā)的劣勢和壁壘。比如桌面計算機(PC),技術掌握在英特爾和微軟手里,這就形成了它們的事實標準,必須用它們的平臺來做,而我們創(chuàng)新的空間很小,聯想在奮起直追,毛利率也是15%以下,凈利率只有2%。通信也是這樣,2G和3G的無線通信專利掌握在高通公司手里,雖然我們可以做4G等新技術,但必須與2G和3G兼容,只要兼容就無法擺脫高通的控制。這兩個大產業(yè),雖然我國花了很大力氣,但在平臺上受制于人,創(chuàng)新空間一直很小。
大數據也不是沒有限制,但大數據是在比較開放的環(huán)境下發(fā)展的,盡管Google不很開放,但相比PC和無線通信領域還是有利的。中國科研機構和企業(yè)研發(fā)的大數據開源軟件,也可以加入到國際標準中去,成為世界開源組織大家庭的一部分。比如中科院計算所牽頭的Hadoop in China大會,現在轉移給中國計算機學會大數據專家委員會承辦,就一直得到世界開源組織的支持。大數據時代,不是國際大數據企業(yè)愿意主動貢獻Hadoop等數據處理技術,而是大數據產業(yè)特征決定了必須協作共享。大數據無所不在,不是幾個大企業(yè)就能壟斷得了的。
《新經濟導刊》:在IT領域,包括大數據在內,為什么新的技術都是國外先有,然后再引入到國內?什么時候“中國創(chuàng)新”能引領世界呢?
李國杰:總體來講,中國的信息技術水平處于世界第二軍團的前沿,與美國、日本等發(fā)達國家相比還有一定差距。如果中國的信息技術水平已經與發(fā)達國家并駕齊驅,那中國還是一個發(fā)展中國家嗎?信息技術是當代的一個特征技術,一個國家是不是經濟強國,不能僅拿制造業(yè)來衡量,關鍵看信息技術和生物技術。中國到2020年才能全面建成小康社會,到2050年才能實現現代化。科技不可能在國家綜合實力還落后的情況下一枝獨秀,當然不排除個別技術脫穎而出,但整體上還是受制于經濟和社會發(fā)展。
我國在發(fā)表論文方面,個別領域已經位居前列,國外的引用也較多,最典型的是材料科學。世界前十位材料科學論文引用率最高的作者,60%~70%都來自于中國大陸。按說中國應該是一個材料強國了,但實際情況并非如此,80%~90%的尖端材料全部是進口。所以我們不能對中國的科技水平期望太高,畢竟中國還是一個發(fā)展中國家,科技與經濟是相輔相成的,必須有市場需求,才有科技創(chuàng)新,信息技術同樣如此。
建立數據市場
《新經濟導刊》:面對紛繁復雜、無處不在的數據,中國在大數據管理和應用過程中如何確保數據安全呢?
李國杰:大數據時代,安全是一個基礎保障,但如果建立一個競爭有序的大數據交易市場,將大數據打包成產品依法進行交易,那所謂的數據隱私問題就可以規(guī)范化了。現在數據市場還未成型的情況下,那從頂層設計上要注意保障數據安全,包括隱私權、執(zhí)行權、防范數據篡改和崩潰、可信度等一系列問題。
但數據安全主要不是技術問題,因為數據放在哪里都有泄露的風險,它與商業(yè)模式有很大關系。中國迫切需要把數據市場、數據產業(yè)、數據產品的形態(tài)和交易模式清晰化。這些問題解決了,數據安全也就迎刃而解。現在最大的問題是,擁有原始數據的機構和企業(yè),不知道如何把這些數據變成產品。
中國數據市場的建立可以借鑒金融衍生品市場的模式,一是政府出臺優(yōu)惠措施加以扶持;二是建立透明公開的交易平臺;三是加強創(chuàng)新,突破關鍵技術;四是發(fā)揮資本市場的作用。這樣就可以把各個載體的數據開發(fā)出一系列數據產品。目前產業(yè)界和投資界走在前面,科技界緊跟其后,政府還沒有認識清楚。
實際上,大數據現在僅僅是冰山一角,它的巨大價值還遠遠沒有挖掘出來,人們也確實不知道它的價值到底有多大。國家要創(chuàng)造一個支持新興業(yè)態(tài)的環(huán)境,讓新產品和新服務能夠噴薄而出。有些東西應該冒出來而未能冒出來的原因就是,被負面的東西和可能產生的負作用嚇怕了,比如安全和隱私。任何事物都是一把雙刃劍,關鍵看你的著眼點和出發(fā)點,如果只是除弊而不興利,那就越除越小,最終抑制它的成長。所以要正確看待新興事物,并在發(fā)展中解決存在的問題,而不是一棒子打死。例如,互聯網和手機,十年前誰也無法預料到能發(fā)展成現在這樣,都是在市場競爭中不斷優(yōu)勝劣汰發(fā)展起來的。當然,新技術和新興產業(yè)剛開始都有一個炒作過程,然后逐漸擠掉泡沫,沉淀下來,從而步入正常發(fā)展軌道。
《新經濟導刊》:請介紹一下中國的大數據產業(yè)鏈建設情況?
李國杰:IT產業(yè)在發(fā)展過程中已經形成了一些層次分布,有做服務器和底層系統(tǒng)的,有做軟件的,有做應用的,大數據也需要在原有的架構上加以發(fā)展。原來做基礎設施的企業(yè),如聯想、華為,也要向大數據轉型,提供低成本、低能耗的大型存儲器,這是大數據產業(yè)的基礎。中間層是類似Hadoop、MapReduce的數據分析軟件,原有的軟件產業(yè)也要轉型,由賣軟件轉為以數據為中心。再往上就是百度、騰訊、阿里巴巴等大數據應用服務公司。
中國大數據產業(yè)的整體實力與國外相比有很大差距。應用企業(yè)由于服務中國市場,具有民族和語言等方面的優(yōu)勢,所以市場占有率較高,但需要走向國外,提高國際競爭力。軟件實力較弱,基礎設施更弱,芯片和操作系統(tǒng)還在成長中。所以,國家要針對大數據的需求,盡快出臺政策措施,全面提高大數據產業(yè)的競爭實力。企業(yè)要抓住機遇,加大自主創(chuàng)新力度,實現轉型發(fā)展,扭轉國際競爭中的不利地位。科研機構要瞄準國際前沿,大膽嘗試,積極探索。中科院計算所已經在研發(fā)五年以后的服務器和計算機了,我們如果研發(fā)成功,將會縮小國際差距。
《新經濟導刊》:您認為中國大數據產業(yè)的難點和瓶頸是什么?
李國杰:當務之急是建立上下游相互協作、相互支撐的大數據產業(yè)環(huán)境,特別是構建有技術自主權的大數據產業(yè)鏈,避免核心技術受制于人,重蹈PC和通信產業(yè)的老路。發(fā)展大數據產業(yè),還需要突破一個瓶頸,那就是寬帶網絡的滯后。沒有高速的寬帶網絡做支撐,大數據將成為“空中樓閣”,所以,信息產業(yè)的“短腿”要趕緊補上。
新的應用需求呼吁新的人才,但我們的教育落后于經濟和社會的發(fā)展。大數據時代,需要從學校和實踐中培養(yǎng)各類數據人才,如數據科學家、首席數據官、數據咨詢師、數據分析師、數據工程師等。特別是數據咨詢人才,要大力培養(yǎng),加快數據咨詢產業(yè)發(fā)展。另外,培養(yǎng)大數據人才,要打破專業(yè)限制,取長補短,除了傳統(tǒng)的計算機、電子信息專業(yè),還應該更多從各行業(yè)中培養(yǎng)熟悉本行業(yè)的數據人才,教會他們從行業(yè)數據中挖掘價值。學計算機的人要放下身段,甘當配角,主角由行業(yè)人才來擔當,避免懂數據分析的沒有數據,不懂數據分析的卻擁有大量數據。(中科院計算所副總工程師、網絡數據科學與技術實驗室主任程學旗研究員對本文亦有貢獻)