文/李國杰 程學旗
中國科學院計算技術研究所 北京 100190
近年來,大數據引起了產業界、科技界和政府部門的高度關注。2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數據研究和發展計劃(Big Data Research and Development Initiative)”。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署。美國政府認為,大數據是“未來的新石油”,并將對大數據的研究上升為國家意志,這對未來的科技與經濟發展必將帶來深遠影響。
人、機、物三元世界的高度融合引發了數據規模的爆炸式增長和數據模式的高度復雜化,世界已進入網絡化的大數據(Big Data)時代[1,16]。以數據為中心的傳統學科(如基因組學、蛋白組學,天體物理學和腦科學等)的研究產生了越來越多的數據。例如,用電子顯微鏡重建大腦中的突觸網絡,1立方毫米大腦的圖像數據就超過1PB。但近年來大數據的飆升主要還是來自日常生活,特別是互聯網公司的服務。據著名咨詢公司IDC的統計,2011年全球被創建和復制的數據總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量(200PB)[11]。Google公司通過大規模集群和MapReduce軟件,每月處理的數據量超過400PB;百度每天大約要處理幾十PB數據;Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數據;淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20TB數據。傳感網和物聯網的蓬勃發展是大數據的又一推動力,各個城市的視頻監控每時每刻都在采集巨量的流媒體數據。工業設備的監控也是大數據的重要來源。例如,勞斯萊斯公司對全世界數以萬計的飛機引擎進行實時監控,每年傳送PB數量級的數據。
一般意義上,大數據是指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。大數據的特點可以總結為4個V,即Volume(體量浩大)、Variety(模態繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。首先,數據集合的規模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數。IDC的研究報告稱,未來10年全球大數據將增加50倍,管理數據倉庫的服務器數量將增加10倍[11]。其次,大數據類型繁多,包括結構化數據、半結構化數據和非結構化數據。現代互聯網應用呈現出非結構化數據大幅增長的特點,至2012年末,非結構化數據占有比例將達到整個數據量的75%以上。同時,由于數據顯性或隱性的網絡化存在,使得數據之間的復雜關聯無所不在。再次,大數據往往以數據流的形式動態、快速地產生,具有很強的時效性,用戶只有把握好對數據流的掌控才能有效利用這些數據。另外,數據自身的狀態與價值也往往隨時空變化而發生演變,數據的涌現特征明顯。最后,雖然數據的價值巨大,但是基于傳統思維與技術,人們在實際環境中往往面臨信息泛濫而知識匱乏的窘態,大數據的價值利用密度低。
毫無疑問,大數據隱含著巨大的社會、經濟、科研價值,已引起了各行各業的高度重視[14,15,17]。如果能有效地組織和使用大數據,將對社會經濟和科學研究發展產生巨大的推動作用,同時也孕育著前所未有的機遇。著名的O'Reilly公司斷言:“數據是下一個‘Intel Inside’,未來屬于將數據轉換成產品的公司和人們。”
IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨國巨頭是發展大數據處理技術的主要推動者。自2005年以來,IBM投資160億美元進行了30次與大數據有關的收購,促使其業績穩定高速增長。2012年,IBM股價突破200美元大關,3年之內股價翻了3倍。華爾街早就開始招聘精通數據分析的天文學家和理論數學家來設計金融產品。IBM現在是全球數學博士的最大雇主,數學家正在將其數據分析的才能應用于石油勘探、醫療健康等各個領域。eBay通過數據挖掘可精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優化,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。目前推動大數據研究的動力主要是企業經濟效益,巨大的經濟利益驅使大企業不斷擴大數據處理規模[14,15,17]。
近幾年,Nature和Science等國際頂級學術刊物相繼出版專刊來專門探討對大數據的研究[6-9]。2008年Nature出版專刊“Big Data”[6],從互聯網技術、網絡經濟學、超級計算、環境科學、生物醫藥等多個方面介紹了海量數據帶來的挑戰。2011年Science推出關于數據處理的專刊“Dealing with da?ta”[7],討論了數據洪流(Data Deluge)所帶來的挑戰,特別指出,倘若能夠更有效地組織和使用這些數據,人們將得到更多的機會發揮科學技術對社會發展的巨大推動作用。2012年4月歐洲信息學與數學研究協會會刊ERCIM News出版專刊“Big Data”[9],討論了大數據時代的數據管理、數據密集型研究的創新技術等問題,并介紹了歐洲科研機構開展的研究活動和取得的創新性進展。在這樣的大背景下,2012年5月,香山科學會議組織了以“大數據科學與工程——一門新興的交叉學科?”為主題的第424次學術討論會,來自國內外35個單位橫跨IT、經濟、管理、社會、生物等多個不同學科領域的43位專家代表參會,并就大數據的理論與工程技術研究、應用方向以及大數據研究的組織方式與資源支持形式等重要問題進行了深入討論。6月,中國計算機學會青年計算機科技論壇(CCF YOCSEF)舉辦了“大數據時代,智謀未來”學術報告會,就大數據時代的數據挖掘、體系架構理論、大數據安全、大數據平臺開發與大數據現實案例進行了全面的討論。總體而言,大數據技術及相應的基礎研究已經成為科技界的研究熱點,大數據科學作為一個橫跨信息科學、社會科學、網絡科學、系統科學、心理學、經濟學等諸多領域的新興交叉學科方向正在逐步形成。
大數據同時也引起了包括美國在內的許多國家政府的極大關注。如前所述,2012年3月,美國公布了“大數據研發計劃”[13]。該計劃旨在提高和改進人們從海量和復雜的數據中獲取知識的能力,進而加速美國在科學與工程領域發明的步伐,增強國家安全。根據該計劃,美國國家科學基金會(NSF)、國立衛生研究院(NIH)、國防部(DOD)、能源部(DOE)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)6個聯邦部門和機構共同提高收集、儲存、保留、管理、分析和共享海量數據所需的核心技術,擴大大數據技術開發和應用所需人才的供給。該計劃還強調,大數據技術事關美國國家安全、科學和研究的步伐,將引發教育和學習的變革。歐盟方面也有類似的舉措。過去幾年歐盟已對科學數據基礎設施投資1億多歐元,并將數據信息化基礎設施作為Horizon 2020計劃的優先領域之一。2012年1月截止的預算為5000萬歐元的FP7 Call 8專門征集針對大數據的研究項目,仍以基礎設施為先導[9]。縱觀國際形勢,對大數據的研究與應用已引起各國政府的高度重視,并已成為重要的戰略布局方向。
大數據是與自然資源、人力資源一樣重要的戰略資源,是一個國家數字主權的體現。大數據時代,國家層面的競爭力將部分體現為一國擁有大數據的規模、活性以及對數據的解釋、運用的能力。一個國家在網絡空間的數據主權將是繼海、陸、空、天之后另一個大國博弈的空間。在大數據領域的落后,意味著失守產業戰略制高點,意味著數字主權無險可守,意味著國家安全將出現漏洞。大數據將直接影響國家和社會穩定,是關系國家安全的戰略性問題。因此,我國應盡快研究并制定我們國家的大數據戰略。
大數據是現有產業升級與新產業誕生的重要推動力量。數據為王的大數據時代的到來,產業界需求與關注點發生了重大轉變:企業關注的重點轉向數據,計算機行業正在轉變為真正的信息行業,從追求計算速度轉變為關注大數據處理能力,軟件也將從編程為主轉變為以數據為中心。大數據處理的興起也改變了云計算的發展方向,使其進入以分析即服務(AaaS)為主要標志的Cloud 2.0時代。采用大數據處理方法,生物制藥、新材料研制生產的流程會發生革命性的變化,可以通過數據處理能力極高的計算機并行處理,同時進行大批量的仿真比較和篩選,大大提高科研和生產效率,甚至使整個行業邁入數字化與信息化的新階段。數據已成為與礦物和化學元素一樣的原始材料,未來可能形成數據服務、數據探礦、數據化學、數據材料、數據制藥等一系列戰略性的新興產業。
大數據還引起了科技界對科學研究方法論的重新審視,正在引發科學研究思維與方法的一場革命。最早的科學研究只有實驗科學,隨后出現了以研究各種定律和定理為特征的理論科學。由于理論分析方法在許多問題上過于復雜,難以解決實際問題,人們開始尋求模擬的方法,導致計算科學的興起。海量數據的出現催生了一種新的科研模式,即面對海量數據,科研人員只需從數據中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象。2007年,已故的圖靈獎得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數據密集型科學研究的“第四范式”(The Fourth Paradigm)[5],把數據密集型科學從計算科學中單獨區分開來。格雷認為,要解決我們面臨的某些最棘手的全球性挑戰,“第四范式”可能是唯一具有系統性的方法。其實,“第四范式”不僅是科研方式的轉變,也是人們思維方式的大變化。
計算機科學是關于算法的科學,數據科學是關于數據的科學。從事數據科學研究的學者更關注數據的科學價值,試圖把數據當成一個“自然體(Data nature)”來研究,提出所謂“數據界(Data universe)”的概念,頗有把計算機科學劃歸為自然科學的傾向。但脫離各個領域的“物理世界”,作為客觀事物間接存在形式的“數據界”究竟有什么共性問題還不清楚。物理世界在網絡空間中有其數據映像,目前一些學者認為,數據界的規律其本質可能是物理世界的規律(還需要在物理世界中測試驗證)。除去各個領域的規律,作為映像的“數據界”還有其獨特的共同規律嗎?這是一個值得深思的問題。
任何領域的研究,若要成為一門科學,一定是研究共性的問題。針對非常狹窄領域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數據挖掘,不大可能使大數據成為一門科學。數據研究能成為一門科學的前提是,在一個領域發現的數據相互關系和規律具有可推廣到其他領域的普適性。抽象出一個領域的共性科學問題往往需要較長的時間,提煉“數據界”的共性科學問題還需要一段時間的實踐積累。至少未來5—10年內計算機界的學者還需多花精力協助其他領域的學者解決大數據帶來的技術挑戰問題。通過分層次的不斷抽象,大數據的共性科學問題才會逐步清晰明朗。
當前數據科學的目標還不很明確,但與其他學科一樣,科學研究的道路常常是先做“白盒研究”,知識積累多了就有可能抽象出通用性較強的“黑盒模型”和普適規律。數據庫理論是一個很好的例子。在經歷了層次數據庫、網狀數據庫多年實踐后,Codd[18]發現了數據庫應用的共性規律,建立了有堅實理論基礎的關系模型。在這之前人們也一直在問數據庫可不可能有共性的理論。現在大數據研究要做的事就是提出像關系數據庫這樣的理論來指導海量非結構化數據的處理。
信息技術的發展使我們逐步進入“人-機-物”融合的三元世界,未來的世界可以做到“機中有人,人中有機,物中有機,機中有物”。所謂“機”就是聯系人類社會(包括個人身體與大腦)與物理世界的網絡空間,其最基本的構成元素是不同于原子和神經元的bit。物理空間和人類社會(包括人的大腦)都有共性的科學問題和規律,與這兩者有密切聯系的網絡空間會不會有不同的共性科學問題?從“人-機-物”三元世界的角度來探討大數據科學的共性問題,也許是一個可以嘗試的突破口。
觀察各種復雜系統得到的大數據,直接反映的往往是一個個孤立的數據和分散的鏈接,但這些反映相互關系的鏈接整合起來就是一個網絡。例如,基因數據構成基因網絡,腦科學實驗數據形成神經網絡,Web數據反映出社會網絡。數據的共性、網絡的整體特征隱藏在數據網絡中,大數據往往以復雜關聯的數據網絡這樣一種獨特的形式存在,因此要理解大數據就要對大數據后面的網絡進行深入分析。網絡有不少參數和性質,如平均路徑長度、度分布、聚集系數、核數、介數等,這些性質和參數也許能刻畫大數據背后網絡的共性。因此,大數據面臨的科學問題本質上可能就是網絡科學問題,復雜網絡分析應該是數據科學的重要基石。
目前,研究Web數據的學者以復雜網絡上的數據(信息)傳播機理、搜索、聚類、同步和控制作為主要研究方向。最新的研究成果表明[4],隨機的Scale-free網絡不是一般的“小世界”,而是“超小世界(Ultrasmall world)”,規模為N的網絡的最短路徑的平均長度不是一般小世界的lnN而是lnlnN。網絡數據研究應發現網絡數據產生、傳播以及網絡信息涌現的內在機制,還要研究隱藏在數據背后的社會學、心理學、經濟學的機理,同時利用這些機理研究互聯網對政治、經濟、文化、教育、科研的影響。基于大數據對復雜系統內在機理進行整體性的研究,也許將為研究復雜系統提供新的途徑。從這種意義上看,數據科學是從整體上研究復雜系統的一門科學。
發現Scale-free網絡的Albert-László Barabási教授在2012年1月的Nature Phys?ics上發表一篇重要文章“The network take?over”[3]。文章認為:20世紀是量子力學的世紀,從電子學到天文物理學,從核能到量子計算,都離不開量子力學;而到了21世紀,網絡理論正在成為量子力學的可尊敬的后繼,正在構建一個新的理論和算法的框架。
大數據研究不同于傳統的邏輯推理研究,而是對數量巨大的數據做統計性的搜索、比較、聚類、分類等分析歸納,因此繼承了統計科學的一些特點。統計學關注數據的相關性或稱關聯性,所謂“相關性”是指兩個或兩個以上變量的取值之間存在某種規律性。“相關分析”的目的是找出數據集里隱藏的相互關系網(關聯網),一般用支持度、可信度、興趣度等參數反映相關性。兩個數據A和B有相關性,只有反映A和B在取值時相互有影響,并不能告訴我們有A就一定有B,或者反過來有B就一定有A。嚴格來講,統計學無法檢驗邏輯上的因果關系。如,根據統計結果:可以說“吸煙的人群肺癌發病率會比不吸煙的人群高幾倍”,但統計結果無法得出“吸煙致癌”的邏輯結論。統計學的相關性有時可能會產生把結果當成原因的錯覺。如,統計結果表明:下雨之前常見到燕子低飛,從時間先后看兩者的關系可能得出燕子低飛是下雨的原因,而事實上,將要下雨才是燕子低飛的原因。
也許正是因為統計方法不能致力于尋找真正的原因,才促使數據挖掘和大數據技術在商業領域廣泛流行。企業的目標是多賺錢,只要從數據挖掘中發現某種措施與增加企業利潤有較強的相關性,采取這種措施就是了,不必深究為什么能增加利潤,更不必發現其背后的內在規律和模型。一般而言,企業收集和處理大數據,不是按學者們經常描述的“從數據到信息再到知識和智慧”的研究思路,而是走“從數據直接到價值”的捷徑。Google廣告獲得巨額收入經常被引用作為大數據相關分析的成功案例,美國Wired雜志主編Chris Anderson在他的著名文章“The End of Theory”的結尾發問:“現在是時候問這一句了:科學能從谷歌那兒學到什么?”[2]。
因果關系的研究曾引發了科學體系的建立,近代科學體系獲得的成就已經證明,科學是研究因果關系最重要的手段。相關性研究是可以替代因果分析的科學新發展還只是因果分析的補充,不同的學者有完全不同的看法。我們都是從做平面幾何證明題開始進入科學大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習慣看充分必要條件,對于大數據的關聯分析蘊含的科學意義往往理解不深。對于簡單封閉的系統,基于小數據的因果分析容易做到。當年開普勒發現行星三大定律,牛頓發現力學三大定律都是基于小數據。但對于開放復雜的巨系統,傳統的因果分析難以奏效,因為系統中各個組成部分之間相互有影響,可能互為因果,因果關系隱藏在整個系統之中。現在的“因”可能是過去的“果”,此處的“果”也可能是別處的“因”,因果關系本質上是一種相互糾纏的相關性。在物理學的基本粒子理論中,頗受重視的歐幾里德量子引力學(霍金所倡導的理論)本身并不包括因果律。因此,對于大數據的關聯分析是不是“知其然而不知其所以然”,其中可能包含深奧的哲理,不能貿然下結論。
根據數據的來源,大數據可以初略地分成兩大類:一類來自物理世界,另一類來自人類社會。前者多半是科學實驗數據或傳感數據,后者與人的活動有關系,特別是與互聯網有關。這兩類數據的處理方式和目標差別較大,不能照搬處理科學實驗數據的方法來處理Web數據。
科學實驗是科技人員設計的,如何采集數據、處理數據事先都已想好了,不管是檢索還是模式識別,都有一定的科學規律可循。美國的大數據研究計劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”)的大型強子對撞機(LHC)實驗。這是一個典型的基于大數據的科學實驗,至少要在1萬億個事例中才可能找出1個希格斯粒子。2012年7月4日,CERN宣布發現新的玻色子,標準差為4.9,被認為可能是希格斯玻色子(承認是希格斯玻色子粒子需要5個標準差,即99.99943%的可能性是對的)[12]。設計這一實驗的激動人心之處在于,不論找到還是沒有找到希格斯粒子,都是物理學的重大突破。從這一實驗可以看出,科學實驗的大數據處理是整個實驗的一個預定步驟,發現有價值的信息往往在預料之中。
Web上的信息(譬如微博)是千千萬萬的人隨機產生的,從事社會科學研究的學者要從這些看似雜亂無章的數據中尋找有價值的蛛絲馬跡。網絡大數據有許多不同于自然科學數據的特點,包括多源異構、交互性、時效性、社會性、突發性和高噪聲等,不但非結構化數據多,而且數據的實時性強,大量數據都是隨機動態產生。科學數據的采集一般代價較高,LHC實驗設備花了幾十億美元,因此對采集什么數據要做精心安排。而網絡數據的采集相對成本較低,網上許多數據是重復的或者沒有價值,價值密度很低。一般而言,社會科學的大數據分析,特別是根據Web數據做經濟形勢、安全形勢、社會群體事件的預測,比科學實驗的數據分析更困難。
未來的任務主要不是獲取越來來越多的數據,而是數據的去冗分類、去粗取精,從數據中挖掘知識。幾百年來,科學研究一直在做“從薄到厚”的事情,把“小數據”變成“大數據”,現在要做的事情是“從厚到薄”,要把大數據變成小數據。要在不明顯增加采集成本的條件下盡可能提高數據的質量。要研究如何科學合理地抽樣采集數據,減少不必要的數據采集。兩三歲的小孩學習識別動物和汽車等,往往幾十張樣本圖片就足夠了,研究清楚人類為什么具有小數據學習能力,對開展大數據分析研究具有深刻的指導意義。
近10年來增長最快的數據是網絡上傳播的各種非結構化或半結構化的數據。網絡數據的背后是相互聯系的各種人群,網絡大數據的處理能力直接關系到國家的信息空間安全和社會穩定[10]。從心理學、經濟學、信息科學等不同學科領域共同探討網絡數據的產生、擴散、涌現的基本規律,是建立安全和諧的網絡環境的重大戰略需求,是促使國家長治久安的大事。我國擁有世界上最多的網民和最大的訪問量,在網絡大數據分析方面已有較強的基礎,有望做出世界領先的原始創新成果,應加大網絡大數據分析方面的研究力度。
計算復雜性是計算機科學的基本問題,科學計算主要考慮時間復雜性和空間復雜性。對于大數據處理,除了時間和空間復雜性外,可能還需要考慮解決一個問題需要多大的數據量,暫且稱為“數據量復雜性”。數據量復雜性和空間復雜性不是一個概念,空間復雜性要考慮計算過程中產生的空間需求。
設想有人采集完全隨機地拋擲硬幣的正反面數據,得到極長的01數字序列,通過統計可計算出現正面的比例。可以肯定,收集的數據越多,其結果與0.5的誤差越小,這是一個無限漸進的過程。基于唯象假設的數據處理常出現這類增量式進步,數據多一點,結果就好一點。這類問題的數據科學價值可能不大。反過來,可能有些問題的數據處理像個無底洞,無論多少數據都不可能解決問題。這種問題有些類似NP問題。我們需要建立一種理論,對求解一個問題達到某種滿意程度(對判定問題是有多大把握說“是”或“否”,優化問題是接近最優解的程度)需要多大規模的數據量給出理論上的判斷。當然,目前還有很多問題沒有定義清楚,比如,對于網絡搜索之類的問題,如何定義問題規模和數據規模等。
對從事大數據研究的學者而言,最有意思的問題應該是,解決一個問題的數據規模有一個閾值。數據少于這個閾值,問題解決不了;達到這個閾值,就可以解決以前解決不了的大問題;而數據規模超過這個閾值,對解決問題也沒有更多的幫助。我們把這類問題稱為“預言性數據分析問題”,即在做大數據處理之前,我們可以預言,當數據量到達多大規模時,該問題的解可以達到何種滿意程度。
與社會科學有關的大數據問題,例如輿情分析、情感分析等,許多理論問題過去沒有考慮過,才剛剛開始研究。迫切需要計算機學者與社會科學領域的學者密切合作,共同開拓新的疆域。借助大數據的推力,社會科學將脫下“準科學”的外衣,真正邁進科學的殿堂。
已故圖靈獎得主吉姆·格雷提出的數據密集型科研“第四范式(the fourth paradigm)”,將大數據科研從第三范式(計算科學)中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數學模型的傳統研究方式[5]。Google公司的研究部主任Peter Norvig的一句名言可以概括兩者的區別:“所有的模型都是錯誤的,進一步說,沒有模型你也可以成功(All models are wrong,and increasingly you can succeed without them)”[2]。PB級數據使我們可以做到沒有模型和假設就可以分析數據。將數據丟進巨大的計算機機群中,只要有相互關系的數據,統計分析算法可以發現過去的科學方法發現不了的新模式、新知識甚至新規律。實際上,Google的廣告優化配置、戰勝人類的IBM沃森問答系統都是這么實現的,這就是“第四范式”的魅力!
美國Wired雜志主編Chris Anderson 2008年曾發出“理論已終結”的驚人斷言:“數據洪流使(傳統)科學方法變得過時(The Data Deluge Makes the Scientific Method Obsolete)”[2]。他指出,獲得海量數據和處理這些數據的統計工具的可能性提供了理解世界的一條完整的新途徑。Petabytes讓我們說:相互關系已經足夠(Correlation is enough)。我們可以停止尋找模型,相互關系取代了因果關系,沒有具有一致性的模型、統一的理論和任何機械式的說明,科學也可以進步。
Chris Anderson的極端看法并沒有得到科學界的普遍認同,數據量的增加能否引起科研方法本質性的改變仍然是一個值得探討的問題。對研究領域的深刻理解(如空氣動力學方程用于風洞實驗)和數據量的積累應是一個迭代累進的過程。沒有科學假設和模型就能發現新知識究竟有多大的普適性也需要實踐來檢驗,我們需要思考:這類問題有多大的普遍性?這種優勢是數據量特別大帶來的還是問題本身有這種特性?所謂從數據中獲取知識要不要人的參與,人在機器自動學習和運行中應該扮演什么角色?也許有些領域可以先用第四范式,等領域知識逐步豐富了再過渡到第三范式。
現有的數據中心技術很難滿足大數據的需求,需要考慮對整個IT架構進行革命性的重構。而存儲能力的增長遠遠趕不上數據的增長,因此設計最合理的分層存儲架構已成為IT系統的關鍵。數據的移動已成為IT系統最大的開銷,目前傳送大數據最高效也最實用的方式是通過飛機或地面交通工具運送磁盤而不是網絡通信。在大數據時代,IT系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,將計算推送給數據,而不是將數據推送給計算。大數據也導致高可擴展性成為對IT系統最本質的需求,并發執行(同時執行的線程)的規模要從現在的千萬量級提高到10億級以上。
在應對處理大數據的各種技術挑戰中,以下幾個問題值得高度重視:
(1)大數據的去冗降噪技術。大數據一般都來自多個不同的源頭,而且往往以動態數據流的形式產生。因此,大數據中常常包含有不同形態的噪聲數據。另外,數據采樣算法缺陷與設備故障也可能會導致大數據的噪聲。大數據的冗余則通常來自兩個方面:一方面,大數據的多源性導致了不同源頭的數據中存在有相同的數據,從而造成數據的絕對冗余;另一方面,就具體的應用需求而言,大數據可能會提供超量特別是超精度的數據,這又形成數據的相對冗余。降低噪聲、消除冗余是提高數據質量、降低數據存儲成本的基礎;
(2)大數據的新型表示方法。目前表示數據的方法,不一定能直觀地展現出大數據本身的意義。要想有效利用數據并挖掘其中的信息或知識,必須找到最合適的數據表示方法。在一種不合適的數據表示中尋找大數據的固定模式、因果關系和關聯關系時,可能會落入固有的偏見之中。數據表示方法和最初的數據產生者有著密切關系。如果原始數據有必要的標識,就會大大減輕事后數據識別和分類的困難。但標識數據會給用戶增添麻煩,所以往往得不到用戶認可。研究既有效又簡易的數據表示方法是處理網絡大數據必須解決的技術難題之一;
(3)高效率低成本的大數據存儲。大數據的存儲方式不僅影響其后的數據分析處理效率也影響數據存儲的成本。因此,就需要研究高效率低成本的數據存儲方式。具體則需要研究多源多模態數據高質量獲取與整合的理論和技術、流式數據的高速索引創建與存儲、錯誤自動檢測與修復的理論和技術、低質量數據上的近似計算的理論和算法等;
(4)大數據的有效融合。數據不整合就發揮不出大數據的大價值。大數據的泛濫與數據格式太多有關。大數據面臨的一個重要問題是個人、企業和政府機構的各種數據和信息能否方便地融合。如同人類有許多種自然語言一樣,作為網絡空間中唯一客觀存在的數據難免有多種格式。但為了掃清網絡大數據處理的障礙,應研究推廣不與平臺綁定的數據格式。大數據已成為聯系人類社會、物理世界和網絡空間的紐帶,需要通過統一的數據格式構建融合人、機、物三元世界的統一信息系統;
(5)非結構化和半結構化數據的高效處理。據統計,目前采集到的數據85%以上是非結構化和半結構化數據,而傳統的關系數據庫技術無法勝任這些數據的處理,因為關系數據庫系統的出發點是追求高度的數據一致性和容錯性。根據CAP(Consistency,Availability,tolerance to network Partitions)理論,在分布式系統中,一致性、可用性、分區容錯性三者不可兼得,因而并行關系數據庫必然無法獲得較強的擴展性和良好的系統可用性。系統的高擴展性是大數據分析最重要的需求,必須尋找高擴展性的數據分析技術。以MapReduce和Hadoop為代表的非關系數據分析技術,以其適合非結構數據處理、大規模并行處理、簡單易用等突出優勢,在互聯網信息搜索和其他大數據分析領域取得了重大進展,已成為大數據分析的主流技術。MapReduce和Hadoop在應用性能等方面還存在不少問題,還需要研究開發更有效、更實用的大數據分析和管理技術;
(6)適合不同行業的大數據挖掘分析工具和開發環境。不同行業需要不同的大數據分析工具和開發環境,應鼓勵計算機算法研究人員與各領域的科研人員密切合作,在分析工具和開發環境上創新。當前跨領域跨行業的數據共享仍存在大量壁壘,海量數據的收集,特別是關聯領域的同時收集還存在很大挑戰。只有跨領域的數據分析才更有可能形成真正的知識和智能,產生更大的價值;
(7)大幅度降低數據處理、存儲和通信能耗的新技術。大數據的獲取、通信、存儲、管理與分析處理都需要消耗大量的能源。在能源問題日益突出的今天,研究創新的數據處理和傳送的節能方法與技術是重要的研究方向。
盡管大數據意味著大機遇,但同時也意味著工程技術、管理政策、人才培養等方面的大挑戰。只有解決了這些基礎性的挑戰問題,才能充分利用這個大機遇,得到大數據的大價值。因此,我國亟需在國家層面對大數據給予高度重視,特別需要從政策制定、資源投入、人才培養等方面給予強有力的支持;另一方面,建立良性的大數據生態環境是有效應對大數據挑戰的唯一出路,需要科技界、工業界以及政府部門在國家政策的引導下共同努力,通過消除壁壘、成立聯盟、建立專業組織等途徑,建立和諧的大數據生態系統。
就大數據研究計劃與措施,我們有如下的建議:
大數據涉及物理、生物、腦科學、醫療、環保、經濟、文化、安全等眾多領域。網絡空間中的數據是大數據的重要組成部分,這類大數據與人的活動密切相關,因此也與社會科學密切相關。而網絡數據科學和工程是信息科學技術與社會科學等多個不同領域高度交叉的新型學科方向,對國家的穩定與發展有獨特的作用,因此應特別重視與支持網絡大數據的研究。大數據涉及應用領域很廣,當前大數據的研究應與國計民生密切相關的科學決策、環境與社會管理、金融工程、應急管理(如疾病防治、災害預測與控制、食品安全與群體事件)以及知識經濟為主要應用領域。
無論是國外政府的大數據研究計劃,還是國內外大公司的大數據研發,當前最重視的都是大數據分析算法和大數據系統的效率。因此,當工業界把主要精力放在應對大數據的工程技術挑戰的時候,科技界應開始著手關注大數據的基礎理論研究。大數據科學作為一個新興的交叉學科方向,其共性理論基礎將來自多個不同的學科領域,包括計算機科學、統計學、人工智能、社會科學等。因此,大數據的基礎研究離不開對相關學科的領域知識與研究方法論的借鑒。在大數據的基礎研究方面,建議研究大數據的內在機理,包括大數據的生命周期、演化與傳播規律,數據科學與社會學、經濟學等之間的互動機制,以及大數據的結構與效能的規律性(如社會效應、經濟效應等)。在大數據計算方面,研究大數據表示、數據復雜性以及大數據計算模型。在大數據應用基礎理論方面,研究大數據與知識發現(學習方法、語義解釋),大數據環境下的實驗與驗證方法,以及大數據的安全與隱私等。
2012年10月,中國計算機學會和中國通信學會各自成立了大數據專家委員會,從行業學會的層面來組織和推動大數據的相關產學研用活動。但這還不夠,建議中科院、科技部、基金委共同推動成立一個組織機構,建立一個大數據科學研究平臺,更好地組織大數據的協同創新研究與戰略性應用;成立國家級的行業大數據共享聯盟,使產業界、科技界以及政府部門都能夠參與進來,一方面為學術研究提供基本的數據資源,另一方面為大數據的應用提供理論與技術支持。此外,還需成立國家級的面向大數據研究與應用的開源社區,同時也向國際開源社區的核心團隊舉薦核心成員,使國際頂級的開源社區能夠聽到來自中國的“聲音”。
在資源支持方面,建議啟動“中國大數據科學與工程研究計劃”,從宏觀上對我國的大數據產學研用做出系統全面的短期與長期規劃。設立自然科學重大研究計劃(基金重大)以及重大基礎科學研究項目群(“973”項目群或“863”重大項目)等專項資金,有針對性地資助有關大數據的重大科研活動。此外,國家在大數據平臺的構建、典型行業的應用以及研發人才的培養等方面應提供相應的財力、物力與人力支持。
1 李國杰.大數據研究的科學價值.中國計算機學會通訊,2012,8(9):8-15.
2 Chris Anderson.The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.Wired,2008,16(7).
3 Albert-László Barabási.The network takeover.Nature Physics,2012,8(1):14-16.
4 Reuven Cohen,Shlomo Havlin.Scale-Free Networks Are Ultrasmall.Physical Review Letters,2003,90,(5).
5 Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery.Microsoft,2009,October 16.
6 Big Data.Nature,2008,455(7209):1-136.
7 Dealing with data.Science,2011,331(6018):639-806.
8 Complexity.Nature Physics,2012,8(1).
9 Big Data.ERCIM News,2012,(89).
10 David Lazer,Alex Pentland,Lada Adamic et al.Computational Social Science.Science,2009,323(5915):721-723.
11 The 2011 Digital Universe Study:Extracting Value from Chaos.International Data Corporation and EMC,June 2011.
12 CERN experiments observe particle consistent with long-sought Higgs boson.CERN press release,July 4,2012.
13 Tom Kalil.Big Data is a Big Deal,March 29,2012.Available at:http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
14 Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al.Challenges and Opportunities with Big Data,Cyber Center Technical Reports,February 2012.Available at:http://docs.lib.purdue.edu/cctech/1.
15 James Manyika,Michael Chui,Brad Brown et al.Big data:The next frontier for innovation,competition,and productivity.McK-insey Global Institute,May 2011.
16 Steve Lohr.The Age of Big Data.New York Times,February 11,2012.
17 Pattern-Based Strategy:Getting Value from Big Data.Gartner Group press release,July 2011.
18 Codd E F.A Relational Model of Data for Large Shared Data Banks.Communications of the ACM,1970,13(6):377-387.