作為一個數據科學家,我這里表達兩個觀點。
第一,我非常欣賞杭州市蕭山區對大數據的認識,我不認為大數據對近一兩年GDP的貢獻有那么大,但我可以很肯定地說,大數據對于三年、五年之后的GDP貢獻巨大。換句話說,只有沉得下心,愿意扎扎實實打好基礎的政府和企業,才能從大數據技術上獲益。
第二,大數據技術并非已經成熟的技術,是一個正從應用中逐漸走向成熟的技術,目前的挑戰多于成熟。
今天,我的演講主要分為兩部分:第一部分,大數據承載了如此多的期望,有些期望是合理的,有些期望未必合理,我想從科學的角度說一些科學問題。第二部分,回到智能制造,也就是工業大數據的重要方面,談談自己的認識。
大數據及大數據原理
什么是大數據?大家都知道數據是什么?數據就是資料的數字化。資料是什么?資料就是生產過程、管理過程,乃至經濟、社會、生活過程的記憶,那些記憶可能表現為一個文件,一段演講,一段文字等,這是資料。資料不放在計算機上,一般不叫數據。但放在計算機上就叫數據,所以有個標準的說法:數據是指以編碼形式存在的信息載體,是資料的數字化形式。
因而,數據一定要放在機器上,要有空間。其實真正的大數據是指大而復雜的資料集,這些復雜性包括了海量性、時變性、異構性、分布性等,我們從互聯網數據能夠觀察到其特征。
那么,到底什么是大。凡是對一些問題積攢的數據量超過這個量,就叫大數據,反之則不叫大數據。因而講大數據是兩件事:第一,大和小是相對概念;第二,相對特定問題而言,不同的決策問題要求的數據不一樣。否則大家就認為現在是大數據時代,大數據可以解釋任何事情,我認為不要神化它,大數據可以做很多事,但也不是能做所有事,這是我的基本觀點。
現在都說大數據是基本的生產資料,大數據是基本的生產力,因而,大數據是經濟社會的基本生產資源。看看互聯網就知道,互聯網主要在信息傳遞上發揮作用,近幾年的發展,是把互聯網從復雜的信息傳遞到消費互聯,再到生產互聯(也就是物聯網),再到智慧互聯,這就是互聯網的大體走向。在這個走向中非常大的問題就是信息技術在互聯網產生以后,和其他任何領域要深度整合,這就是今天談論信息工業化、談論大數據的主要原因。
這里面還有一些問題要說清楚。我們知道了太多的新技術,例如物聯網、互聯網、人工智能、移動互聯網等,其實這些新技術都是信息技術的一個層面,大家不要期望某一項技術包打天下。真正產生效益和作用的是所有技術的綜合運用,這是今天和大家分享的第二個觀點。
千萬不要以為有了大數據就不講物聯網,講物聯網就不講互聯網,講互聯網就不講人工智能,其實大家是互補的,都是從不同的層面講問題。物聯網講的是交互方式,人工智能講的是應用模式。那么,大數據講的是信息技術,是人和人、人和機器、機器和機器交互的內容特征。
所以,從這個意義上講,大數據是最底層的信息技術。因而,大數據掌握的技術,是基本的標配,任何工業要實現“兩化”,任何政府要實現科學決策,大數據是基本標配,這是我的第三個觀點。
大數據時代的思維改變
關于大數據應用,我有五個觀點,想講五句話。
第一,明確目標是前提。每個地區、每個政府、每個企業,要解決的問題不一樣,必須要真正解決問題,大數據才有用。
第二,擁有數據是基礎。大數據產業就是以現代技術設施為基礎,以數據為生產要素,以數據的價值挖掘為創新活動的產業,叫大數據產業。因而沒有數據談不上大數據產業。
第三,計算平臺是支撐。沒有一定的計算架構和計算平臺,計算不了。它是支撐作用,但做企業的人不必過分強化,也不必過分低估。
第四,分析技術是核心。這是今天較少講的主題,也是領導較少講的主題。我非常擔心在整個大數據的鏈條中,有些鏈條做得過分粗壯,有的鏈條過分纖弱了一些,也就是我擔心的產業鏈布局不均衡,有的過分膨脹,會產生新的產能過剩。
第五,產生效益是根本。就是說,數據是基礎,平臺是支撐,技術是核心,賺錢是王道,記住這四句話不走樣也不失望。
為什么大數據可以帶來超凡價值、背后的原理是什么?在這個大潮中又給思維帶來怎樣的改變呢?
我概括了三條原理:第一,量變到質變的原理。第二,分析出價值原理。第三,跨界關聯原理。舉一個簡單的例子,假設一個火鍋店的老板想提高營業額,這是目標。他當然會收集一年當中的采購量資料、現金流資料等等,這些是企業內部數據。但如果能采集到這個火鍋店周圍的人口分布數據,如果能夠買得到這個地區天氣預報的精細數據,對火鍋店的營業而言就是極為重要的。我們都知道湖南人和四川人比較喜歡吃火鍋,天氣潮濕的時候比較喜歡吃火鍋,這就是賺錢的道理,就是跨界關聯原理。
這個過程中有很多觀念要改變:第一,數據是資產。第二,用戶是資源。談談用戶,過去企業是上帝,那是教育員工的服務態度,因為我們都知道神是拿來敬的,用戶是心里尊重的。但到了大數據時代,產業模式變了,用戶是我們的生產資源,要個性化服務。如果沒有用戶的反饋,為誰服務?我知道過幾年數據會免費,因為重要的是三大運營商在實時報告我們的信息、行為、愛好,這些是他們掙錢的主要依據,是不是資源?第三,服務即感知。滴滴、快車已經告訴了我們這件事情,還有公共服務免費,高價值服務盈利也是基本的盈利模式。
制造大數據至關重要
制造大數據也非常重要,“中國制造2025”主要講的就是這件事。繼互聯網之后,真正能夠對企業產生重大影響的就是大數據。再次重申,講大數據的時候不要和其他技術隔離開。我也重申,現在人工智能潮正在到來,我要告訴大家的是不要冷落了大數據,人工智能在可見時間內,真正能夠稱得上人工智能,真正發揮作用的就是數據智能,就是大數據。
因為人工智能簡單來說是兩大類,一類是模擬人腦工作機制、行為方式,是仿腦類腦的技術。另一類是快速的認識,因為人腦對大數據的認識本身沒有那么快,但獲取數據的速度極強,可以從數據中分析出人類認識問題特定的方式方法,這部分就是數據智能,也叫人工智能。
大家說大數據能服務于轉型升級,轉什么型,升什么級,至少要清楚這個問題。具體轉什么?對工業來講,轉型就是從過去以產品為中心,以產品組織設計、制造、銷售管理的過程,到以服務為中心,以定制化為中心。
最近有一個基本的觀點,說從過去的老三基到新三基,過去的材料、工藝、零部件是老三基,現在的新三基是大數據、傳感器和零部件。我希望大家了解,對一個行業來講,數據極其復雜,來源于設計、制造、運行和服務,仔細分析每一步的數據。離散型和連續型并存,數值型和非數值類型并存,結構化和非結構化并存。
大數據必須關注完整屬性,必須關注產品全壽命特性,必須關注全方位連接,關注制造系統融合等等,這些要求使得我們認為基本難點在認知知識數據。
總體上說,我想向大家傳遞的是如果要做工業大數據,互聯互通是基礎。首先解決數據采集問題,就是互聯互通問題;定制化服務是中心,基本模式要轉變,懂數據會分析是關鍵。今天我想用這點時間和大家分析基本的觀點。
(本文根據中國科學院院士徐宗本在中國工業大數據大會錢塘峰會上的演講整理而成,未經本人確認。)