?
中國工程院院士徐宗本:大數據的挑戰和問題
在方法論方面,大數據帶來了三大挑戰。第一,是分析基礎;第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件。

中國工程院院士、西安交通大學徐宗本教授
談論大數據是時代話題,擁有大數據是時代特征,解讀大數據是時代任務,應用大數據是時代機遇。這四句話概括出大數據時代。從本質上說,數據,就是指資料的信息化、數字化,大數據的復雜性體現在四個方面,第一,海量性;第二,實踐性;第三,異構性;第四,分布性。這是大數據區別于傳統數據的四個特點。
什么是大數據技術?嚴格地講,是沒有定義的。目前,有關大數據搜集、整理、成熟、解讀或應用的技術,我們統稱為大數據。在日常生活中,大數據的價值到底在哪里?需要強調四個方面。
第一,提供社會科學的方法論,實現基于數據的決策,助推管理革命。這也正是目前大數據最熱的領域是在社會科學方面的原因所在。大數據改變了人們對文科、理科的認識。社會科學最大的問題在于沒有一個可普遍遵循的、可重復和被所有人接受的公共方法論,而利用大數據,彌補了這個缺憾。
第二,形成科學研究的新范式,支持基于數據的科學發現,減少對精確模型與假設的依賴,使過去不能解決的問題變得可能解決。也就是說,我們有一種方法能夠較小地依賴于模型和依賴于假設,形成了第四種科研范式。
第三,形成高新科技的新領域,推動互聯網、物聯網、云計算等行業深入發展,形成大數據產業?;ヂ摼W能實現如何把信息技術中的人、環境、機器,溝通在一起來處理問題,這是未來的發展。而大數據,則是實現信息化的組成,換句話說,即實現機器和機器的交換、人和機器的交換,是以數據的形式來溝通、來交換的。
第四,大數據成為社會進步的新引擎,深刻改變人類的思維、生產和生活方式,推動社會變革和進步。
信息技術革命與經濟社會活動的交融催生了大數據。大數據是經濟社會、現實世界、管理決策的片斷記錄,蘊含著碎片化信息。隨著分析技術與計算技術的突破,解讀這些碎片化信息成為可能,這是大數據成為一項新的高新技術、一類新的科研范式、一種新的決策方式乃至一種文化的原由。大數據是指數量特別巨大、種類繁多、增長極快、價值稀疏的復雜數據,簡而言之,是“大而復雜”的數據集。作為信息資產,大數據的價值需要運用全新的處理思維和解譯技術來實現。
大數據具有大價值
大數據的價值主要通過大數據技術來實現。大數據技術是基礎性信息技術,它刻畫了新一代信息技術中機器與機器、機器與人之間信息交換的內容特征,構成了現代信息技術的基本信息處理模式。因此,大數據從信息載體這一底層捕捉到了信息化的共性基礎、未來發展與普適技術。這說明,大數據熱潮的來臨是一種必然,大數據技術不會是過眼云煙。
科學理解大數據的“大”
數據的積累是一個從量變到質變的過程。當數據積累不夠多時,沒有人能讀懂這些“碎片”背后的故事。但隨著數據的積累,特別是超過某個臨界值后,這些“碎片”整體所呈現的規律就會在一定程度上被顯現出來??梢哉J為,這一從量變到質變的臨界值是區分數據“大”與“不大”的標準。所以,大數據的“大”是相對的,是與所關注的問題相關的。只有這樣理解,才能避免產生大數據能解決所有問題的誤讀。
科學理解大數據的“復雜”
由于具有海量性、快變性、異構性和分布性等復雜特性,大數據技術是一項不斷發展的技術,并非已經成熟。這當然并不妨礙運用現有大數據技術從現實的各種大數據中獲得價值,但我們必須清楚:大數據的價值實現是無止境的,大數據理論、技術和產業將相伴而行。這是大數據發展的基本形態。
數據的獲取是基本的,因此,數據的程序和處理是基本的。大數據的資源管理與規模,大數據高效和處理信息技術,大數據分析和處理統計學的計算技術,這三者中,大數據扮演的是不同的角色。
比如,大數據分析和大數據處理,兩者是有區別的。處理,如統計,查詢,排序,比例,融合,對齊等等,統稱為數據處理。數據處理的邏輯,是計算機嚴格的邏輯運算。但是,處理與分析的深層次是不一樣的,那么,大數據分析會涉及到哪些問題?比如,數據中間呈現了什么樣的發展趨勢,數據中間有什么共性結構,數據鏈如何關聯?數據有什么特定的模式,相互之間如何對應?如何分析?以及優化與控制等等。這是大數據分析。因此,分析相對于處理來說,并不是邏輯運算,而是用人工智能的方式來處理。在數據分析技術上,我國目前的發展相當緩慢。有數據表明,目前全世界有4%的大數據,但是真正用來做分析的不到0.4%。
在方法論方面,大數據帶來了三大挑戰。第一,是分析基礎;第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件。依賴于樣本是獨立組成的假設,分析出來的結果可能是謬誤的?!盎A不牢,地動山搖”,就是這個道理。換句話說,如果大數據的分析技術不建立起來的話,很多的假設都是不成立的,大數據的危險性可想而知。
科學技術是關鍵,分析技術是處理辦法,根本性判定,這是當前最值得關注的三個問題。為此,需要建立的三大基礎:第一,統計學基礎;第二,計算理論的基礎;第三,模擬技術。
大數據的機遇是什么?最大的機遇是學科發展問題。什么叫學科發展機遇?以融合信息、數學、計算、數據為一體的數據科學正式形成。這對于大學人才的培養,對于學科的設置等各方面將起到根本性作用。
(本文整理自中國工程院院士、西安交通大學徐宗本在第四屆中國科研信息化發展研討會上的演講“大數據的挑戰和問題”)