邢黎聞
大數據是最底層的信息技術。
按現在的話來說,中國科學院院士、西安交通大學教授徐宗本算是一個數學科科學家。所以,他在會上演講的內容大多基于這個基礎,從科學的角度理性地勸誡大家:“大數據對于近一、兩年的GDP貢獻有限,但對于三年、五年之后的GDP貢獻巨大。如今的大數據技術并不是已經成熟的技術,是一個正在從應用中逐漸走向成熟的技術,目前的挑戰多于成熟。包括分析基礎被破壞,計算技術待革新,真偽判定需重建,對新技術的盲目所引起的盲從。”
“凡是對一些問題積攢的數據量超過這個量,就叫大數據,反之則不叫大數據。”
對于大數據的概念,徐院士從數據和資料說起:“數據是資料的數字化。資料是什么?資料是生產過程、管理過程,乃至經濟、社會、生活過程的記憶,那些記憶可能表現在一個文件、一段演講、一段文字等等。資料不放在計算機上,一般不叫數據。所以有個標準的說法:數據是指以編碼形式存在的信息載體才是數據。因而,數據一定要放在機器上,要有空間。真正的大數據是指大而復雜的資料集,這些復雜性包括了海量性、時變性、異構性、分布性等等。”
那么,大到何種程度才能被稱之為“大數據”?徐院士畫圖舉例道:用圓點表示數據,一開始紙上的圓點看不出什么跡象;隨著時間的延長,紙上的圓點越來越多,意味著人們獲取的信息越來越多,慢慢地大家能看出來是一只大象的輪廓;再隨著時間的延長,大象的牙齒、四肢也清晰地顯露了出來。這個例子告訴我們,信息獲取到一定數量,人們只要看一些局部、看一些數據就能夠指導它背后的故事,這個量就叫做數據的臨界量。
“凡是對一些問題積攢的數據量超過這個量,就叫大數據,反之則不叫大數據。”徐院士認為,“講大數據,要注意兩件事,第一件事是:大和小是相對概念;第二件事是相對特定問題而言,不同的決策問題要求的數據不一樣。盡管大數據可以做很多事,但是大家也千萬不要神化大數據,以為它可以解釋任何事情,做所有的事。”
“大家不要期望某一項技術包打天下,真正產生效益和作用的是所有技術的綜合運用。”
現如今,大家都在討論大數據,都認為大數據是經濟社會的基本生產資源。為什么會出現這股熱潮?徐院士解釋說:互聯網近幾年的發展,逐漸從復雜的消息傳遞走向消費互聯、走向生產互聯、走向智慧互聯。在這個大體走向中,存在著一個非常大的問題,即信息技術在互聯網產生以后,需要和其他任何領域深度融合。這就是今天談論工業化、談論大數據的主要原因。
物聯網、人工智能、移動互聯網、云計算等等這些不斷冒出的新技術,在徐院士看來,都是信息技術的一個層面。他告誡大家不要期望某一項技術包打天下,真正產生效益和作用的是所有技術的綜合運用。“千萬不要以為有了大數據就不講物聯網,講物聯網就不講互聯網,講互聯網就不講人工智能,其實這些技術是互補的,只是從不同的層面來講問題而已。”
他進一步闡述道:“互聯網和云計算是基礎設施,這是肯定的。物聯網講的是交互方式,人工智能講的是應用模式。而大數據講的是人和人、人和機器、機器和機器交互的內容特征。所以,從這個意義上講,大數據是最底層的信息技術。因而,大數據掌握的技術,是基本的標配,任何工業要實現“兩化”,任何政府要實現科學決策,大數據是基本標配。”
“數據是基礎,平臺是支撐,技術是核心,賺錢是王道。記住了這四句話,可以保障大數據的發展不走樣。”
在大數據的應用問題上,徐院士概括了五句話:明確目標是前提、擁有數據是基礎、計算平臺是支撐、分析技術是核心、產生效益是根本。他建議企業記住四句話,數據是基礎,平臺是支撐,技術是核心,賺錢是王道,“記住這四句話,你們發展大數據不會走樣,也不會失望。”
之所以大數據可以帶來超凡價值,背后蘊藏著三大原理。徐院士一一作了解釋:量變到質變的原理——大數據之所以有用,是因為數據積攢到了一定量可以質變,通過數據可以知道背后的故事;分析出價值原理——如果存儲不分析,無疑是只買米不做飯,產生不了GDP,所以要靠分析,要靠挖掘;跨界關聯原理——舉一個簡單的例子,假設一個火鍋店的老板想提高營業額,他首先會收集一年當中的采購量資料、現金流資料等等,這些是企業內部數據。但如果能采集到這個火鍋店周圍的人口分布數據,能夠買得到這個地區天氣預報的精細數據,對火鍋店的營業而言就是極為重要的,這就是賺錢的道理。
隨之,很多觀念也需要改變,包括數據是資產,用戶是資源,服務即感知。
“做工業大數據,互聯網互通是基礎,定制化服務是中心,懂數據會分析是關鍵。”
大數據是新一代信息技術的基礎性技術,需要應用,工業大數據非常有潛力。“繼互聯網之后,真正能夠對企業產生重大影響的就是大數據。”徐院士一再告誡大家,“現在人工智能潮正在到來,但不要冷落了大數據。人工智能在可見時間內,真正發揮作用的其實是數據智能,就是大數據。”
不管是“借力大數據,推動經濟轉型升級”,還是“大數據助力傳統企業轉型升級”,都表明大數據在推動經濟轉型升級上有重大作用。對于工業來講,轉型轉的是過去以產品為中心,以產品組織設計、制造、銷售管理的過程,到以服務為中心,以定制化為中心。在這轉變過程中,大數據、傳感器和零部件成為了新三基。
徐院士指出,數據極其復雜,設計、制造、運行和服務等每一步驟都能產生數據,而這些數據有的是離散型和連續型并存、有的是數值型和非數值類型并存、有的是結構化和非結構化并存,需要仔細分析。大數據必須關注完整屬性,必須關注產品全壽命特性,必須關注全方位連接,必須關注制造系統融合等等,這些要求使得我們的基本難點是在認知數據。
他強調,做工業大數據,一定要解決好定位、規劃、切入點題、標準、開發共享等問題。要牢記互聯互通是基礎,定制化服務是中心,懂數據會分析是關鍵。