郭朝暉
(優也信息科技有限公司,上海 201209)
隨著數字化技術的推進,我們逐步走入了工業大數據時代。對這個概念,人們往往既熟悉又陌生,既對未來滿懷期待,又對現實充滿困惑。
全文結構安排如下。第一部分討論工業大數據的背景與意義,必須跳出大數據技術本身,從智能化的視野看問題,才能看到完整的意義。第二部分闡述工業大數據的概念,不僅要看到工業大數據“新”在何處,更要與推進智能化的意義和工業的特點相結合。第三部分分析工業大數據的優勢,也就是通過工業大數據促進知識獲取、推動智能化。第四部分采用工業大數據推進業務創新時的定位與策略。第五部分闡述工業大數據的價值創造與企業管理之間的關系。
很多工業大數據的文章介紹的是數據分析。但是,如果只是從這個視角看問題,就會是管中窺豹,看不到它對人類未來的意義和價值。
摩爾定律延續了50年,成就了今天的大數據。但數據量本身并沒有多大的意義,它的作用在于推動人類走向智能社會,改變著人類認識世界、改造世界的方式[1-4],甚至把人類帶入新的文明階段[5]。
從數據、信息、知識、智慧(data、information、knowledge、wisdom,DIKW)體系理論中,我們可以看到從數據到智能的邏輯關系。這個理論的基本思想是:數據之間的關聯形成信息,信息中的關聯蘊含知識,知識的綜合運用形成智慧。可以說,大數據是走向智能社會的基礎。
智能制造成為當今的熱點,體現了這個理論的預見性。目前階段,漢語中的智能制造一般對應英文中的Smart Manufacture。它強調的是通過信息感知、基于知識的決策和執行過程的統一,實現對系統內外部變化的快速響應。智能制造的主流流派,幾乎都體現這種思想[6-9]。在筆者看來,智能的本質就是感知、決策、執行的統一[10]。
人工智能(artificail intelligent,AI)是近期的科技熱點之一。大數據對推動人工智能起到了關鍵作用。但是,當前主流的智能制造一般不能理解為人工智能技術在工業界的應用(即intelligent manufacture)。智能制造目前的重點是感知和處理信息能力的提高,未必涉及到特殊的認知過程或復雜的邏輯推理,因此未必與AI技術相關。比如,有些所謂的“智能家電”,只不過是有了遠程遙控能力。從這個角度理解智能制造,能夠看到的機會要比AI的應用廣泛得多[6]、也更容易落地。
智能決策的邏輯可能很簡單,但卻能讓決策的精確性上升,實時性更強、成本也更低,讓智能化具有真正的價值。智能制造的時代機會首先應該歸結于信息獲取和傳播能力的增強,而不是某些學術理論的產生。其中,互聯網能夠成為工業智能化的重要推手,就是因為它能促進信息感知能力的提升。
理解智能制造的關鍵之一是理解人機關系。通用電氣的工業互聯網白皮書[8],強調了重構人和機器的邊界——在數字化、網絡化的背景下,重新思考人和機器如何分工、促進業務活動的創新。從這個角度看,“智能化”的操作性很好,在信息獲取、知識獲取、決策、執行等環節都可以有新的人機界面和業務模式。比如,尋找信息或知識時,可以讓機器自動去找,也可以人機協同去找。利用知識或信息時,可以是機器自動地應用,也可以讓機器處理后推送給人類[11]。只要能夠充分發揮信息、通信和技術 (information communication technology,ICT),ICT帶來的優勢就是值得鼓勵的。
在業務創新方面,需要有豐富的想象力。既不要將大數據工作局限于從數據中發現知識,也不要將智能化理解為機器代替人類工作或決策??傊?,要避免因眼光的局限而漠視創新的機會。
用數據幫助人類決策的意義非常巨大:不僅可以提高決策質量,還能借助互聯網讓決策者遠離現場,讓決策的效率大大提升。這不僅能促進人類智力的共享,更能有效地提升企業的管理能力。而管理能力提升帶來的價值,是不可估量的。總之,工業的智能制造是ICT技術發展帶來的機遇。
智能決策可能不需要復雜的邏輯,但卻一定需要專業化的知識。大數據的本質優勢是其有利于知識和信息的獲取。從這個邏輯,我們可以看到工業大數據對于工業的價值。為此,應該從知識的角度,討論工業大數據的特點和要求。
事實上,大數據在獲取知識和信息獲取方面具有天然的優勢:人類的一切知識來源于歷史,大數據有條件更加完整全面地記錄歷史。我們需要從這個方面去分析大數據在知識產生和應用方面的特點[11]。
在互聯網領域,“大數據”一般指PT級別以上的數據。這個定義的依據是:數據規模大到一定程度,針對存儲、檢索等過程的傳統處理方法就困難了。人們經常提到大數據具有價值(value)、大量(volume)、高速(velocity)、多樣(variety)“4V”特征,就是針對數據處理困難提出的。這些特征,讓大數據區別于以往。
在工業界,數據的結構和相互關系特別復雜。在數據規模遠遠不到PT級別時,很多數據處理方法就不合適了。針對這種情況,國外有學者提出,大數據的概念不必糾結于數據規模。凡是遇到傳統數據分析方法無效的數據集合,都可稱為“大數據”。根據這種思想,文獻[12]將工業大數據定義為“工業數據的總和”。
然而,對應用大數據的企業來講,人們關心的是大數據能為企業帶來什么價值,而不是數據處理時遇到什么困難。所以,我們需要換個角度理解大數據。有人指出:在大數據時代,研究的是相關關系而非因果關系,簡單算法勝過復雜算法[2-4]。從這個角度我們可以看到:大數據時代更容易獲得知識或者模型。這個角度對企業是有吸引力的。
然而,對于這種說法,工業界卻傳出了不同的聲音。工業界對分析結果的可靠性要求往往很高。大數據必須能夠幫助人們獲得可靠的信息或者知識。僅憑相關性是不夠的,而是必須有因果性的支撐。
事實上,工業對象或過程往往可以看成復雜的系統。要素眾多、控制回路眾多、相互關系復雜。這時,相關性與因果性往往并不等價、甚至趨勢相反。
為此,在分析工業數據時,膚淺和片面的分析往往是有害的。為避免這種現象,數據本身必須準確記錄系統中諸要素的關聯關系,完整地記錄系統的狀態和運行軌跡。例如,進行產品質量分析時,需要把各個生產工序中的人員、物料、工藝、設備、質量等信息與對應的產品關聯起來,并記錄準確的時間參數,以便追溯事件之間的因果關系。要做到這一點,自然會對數據的采集和存儲能力產生較高的要求。
過去,由于數據存儲成本高,企業往往只能挑重要的記錄、不得不丟失一些數據。由于網絡的應用不普及,數據的記錄往往是碎片化的。由于這方面的原因,數據的完整性往往不夠,導致數據的分析價值不大。在大數據時代,數據采集和記錄的完整性、實時性顯著加強;在推進智能制造的過程中,信息集成的能力大大加強,也為數據質量和數量的提升創造了很好的條件。這應該是工業進入大數據時代區別于以往的一個重要特征。
DIKW體系啟發我們:大數據的劃時代意義在于促進知識的獲取。本文在參照有關觀點的基礎上[3-4],將工業大數據的相關優勢歸結為以下三個方面。
第一個優勢是“不糾結于因果”。本文的這種提法區別于互聯網領域的“是相關,不是因果”,以及工業工程師強調的“必須是因果”。其具體含義是:從大數據中提煉的工業知識,要以因果關系存在為基礎;但應用知識時,不必按照科學機理的邏輯去計算。這個邏輯并不奇怪:工業界常用的試驗結果符合因果關系,但試驗的具體數值卻不是按照因果邏輯計算得到的。同樣,通過規范數據分析邏輯,可以讓工業大數據像“試驗數據”一樣有用。“不糾結于因果”讓知識獲取變得簡單,也能讓知識獲取的范疇拓展到“感性知識”和“經驗知識”。
第二個優勢是“樣本=全體”。具有這個優勢時,當前發生的問題,可以從歷史中找到答案,只要找到并模仿過去成功的做法就可以了,而不必建立復雜的模型。故而,大數據背景下,簡單的算法可以解決復雜的問題。筆者認為,從應用的角度看,大數據的優勢不在“大”,而在“全”。“大”會增加計算機處理的復雜性,而“全”則保證了知識的存在性。
第三個優勢是“混雜性”。如前所述,可靠性是工業界追求的一個重要目標。具體到建模過程中,就是對“泛化性”的要求高。數據的“混雜性”強時,可以找到多個角度的印證邏輯,提高分析結果的可靠性,也為“不糾結于因果”提供了條件。當前,做到這一點的前提,是前面提到的數據完整性。
由此可見,以上三個優勢都體現在知識獲取。而這個優勢的價值,又進一步體現在對智能化的推動。然而,大數據的這些優勢并不是天生存在,而是要人去創造。
“世界上沒有兩片完全一樣的葉子”。世界上每個具體問題都是獨特的。談到“樣本=全體”時,必然涉及到個性與共性的關系。所以,要借鑒過往的經驗,前提是要進行抽象、歸納、總結。但這往往是人類才能做的事情,至少需要人類告訴計算機怎么做。從這個角度講,大數據的應用也需要人機界面的創新。
大數據記錄的數據畢竟屬于過去,未來可能是不同的。具體應用時,不能過度依賴于“樣本=全體”的假設。在可靠度要求較高的場景,業務系統有后備的辦法來應對新問題。總之,要發揮大數據的優勢,又要避免可能帶來的風險。
再如“不糾結于因果”的前提是能夠保證因果。但是,單憑數據的分析結果是無法保證因果的。因果關系一般只能是具有專業知識的人用自己的領域知識去保證。
另外,大量工業數據常常來自個別的“工作點”附近。數據量雖然很大,但相似度大、信息含量低而噪聲干擾相對大。要解決這個問題,不僅要綜合分析各個工作點的特點,而且還要把生產數據和試驗數據結合起來,而不局限于生產數據本身。
從企業的角度看,大數據重要的用途是促進企業的業務創新[13]。為此,需要思考大數據技術與業務對接的問題和方法。
建立大數據系統時,其功能定位往往與傳統的信息或控制系統有所不同。在過去的系統中,數據是用來支撐基本的業務活動的。業務活動結束后,數據也就基本沒用了。而大數據往往是在產生數據的相關業務場景結束之后才被使用的。故而有人稱之為“二次應用”。
二次應用當然也要服務于現實的業務。但是,二次應用一般不是業務運行所必須的,而是為了讓業務做得更好——可以發現過去業務中的問題和缺陷,也可以從過去的業務中找到好的標桿,還可以從過去的業務中發現規律、進行進一步的優化。所以,大數據與“優化”工作有著不解之緣,能讓優化成為一種常態。
很多文章只強調從大數據中發現信息或知識。事實上,大數據還可以用來直接承載知識本身。換句話說:有些知識的承載也需要大數據才能做到。
復雜產品的設計數據、指導工作的操作動畫、設備的標準狀態等都可能需要很大的數據量來存儲和處理,都需要大數據技術。例如,有家廣告設計企業,為了處理產品的設計數據,每天用電量就高達10萬元。用大數據承載這樣的知識,便于知識的重復使用,進而促進業務活動的創新和再造。
大數據技術常被用來進行業務的創新。這時會遇到一個矛盾:業務創新的邏輯是“先做成、后做好”,然而,前面強調二次應用,指的是大數據主要用于“做好”的優化階段。為了解決這個矛盾,新的業務邏輯必須提前考慮清楚,必須考慮大數據條件不成熟時的托底辦法,逐步過度到“做好”的階段。當然,理想的情況是:原有業務的需求升級,自然地將數據處理技術推進到大數據階段。石家莊的天遠公司就是這樣。
另外,所謂的“做好”包括多個方面:質量更好、速度更快、成本更優,而不僅僅是決策質量更好。比如,知識和信息的重用,就可幫助人們做得更快、成本更低。不要一味地強調“決策質量更優”。如果僅僅局限于優化決策質量,就可能會失去很多創新機會。
理解了智能制造和大數據的原理和意義,具體應用中也會遭遇各種困惑。典型的困惑往往是如何為企業創造價值。任何技術都是需要成本的,很多技術帶來的價值不足以抵消成本的付出。只有將技術應用在合適的場景、解決合適的問題,經濟性才會好。所以,人們在技術經濟性的困惑,本質上就是找不到合適的場景。
經過筆者的調查,通過智能化、大數據的手段提升企業的管理水平,價值潛力是非常巨大的。管理不當造成的損失,一般占到企業成本的10%~20%。這些就是管理水平提升的潛力所在。在我國,管理水平低常常是制約企業產品質量提升和技術發展的瓶頸。
恩格斯說:“何一門科學的真正完善,在于數學工具的廣泛應用?!睋Q個角度看:如果企業的管理不能完善到一定的程度,數學的用處就不會太大。所以,并非所有的企業和部門都適合推進大數據,選擇用戶和場景是非常重要的。
要對管理進行“優化”,就要找到管理中的漏洞和不足。但是,管理漏洞往往是“隱藏的”。所以,我們需要進一步能分析:什么原因導致這些問題被隱藏起來。在筆者看來,問題隱藏的原因大體上可以分成以下三類。
①沒有量化的數據、更不能實時地得到數據。
②問題涉及到多個部門,信息沒有集成起來。
③涉及到局部利益或責任,有意無意地掩蓋問題。
ICT的機遇在于解決這些問題、實現透明化,以提高管理水平。具體地說,廣泛地推動數字化,可以幫助人們解決第一類問題;推進互聯網的應用,可以解決第二類問題;用數字化實現業務過程和價值損失的透明化,可以用來解決第三類問題。
解決這些問題時可能涉及復雜的邏輯。但是,只要人類能把問題和邏輯說清楚,機器就不嫌麻煩。這其實就是智能化的優勢。而用數據幫助人類實現知識的數字化,又讓我們看到了人機界面的創新和大數據的優勢。
大數據應用的效果關鍵在經濟性。而經濟性的關鍵,首先在于業務問題本身的價值,其次是技術線路是否可行。為此,推進大數據應用的時候,建議用“以終為始”的工程方法。
所謂“以終為始”就是在項目開始時,先找出有價值的問題、確定解決問題的基本思路。也就是先明確業務目標和技術線路、確定技術和經濟的可行性,并在此基礎上探索數據處理的方法。這時,探索數據處理方法的目的,是為了得到更好的效果,而不是去驗證技術線路是否可行。這樣做可以把最大的風險放在前面進行研究,避免項目做完后的功虧一簣。
要做到這一點,首先要充分理解業務需求,其次要研究專業技術人員分析問題、解決問題的邏輯。這個邏輯通順之后,再把它轉化成數據處理問題。經驗表明:絕大多數的管理問題,人類是能夠找到可行的思路的;同時,如果把這些思路轉化成計算機處理的問題時,效果往往會更好。
最后需要指出的是:采用計算機處理數據的目的之一,是降低人類處理信息的復雜程度、提高勞動效率和質量。所以,人類關心的不是原始數據,而是重點的業務信息。比如,不是看壓力、溫度、流量,而是設備是否正常、操作是否規范。只有提高了管理者的勞動效率,才能有效地提高管理水平。
概念的提出不是為了標新立異或者追趕潮流,而是為了幫助我們發現新機會、解決新問題、創造新價值。為此,我們不僅要看到大數據時代的麻煩和挑戰,更要看到大數據帶來的機會。要善于發現機會,還要善于抓住機會、創造機會。
從未來看現在,大數據的機會來自于智能化的推進。大數據的概念和優勢也要圍繞著這個要點來考慮。
具體應用時必須明白:技術的應用效果不是技術本身所決定的,而是要結合實際的應用場景。抓住機會的前提是理解企業的文化、管理現狀和業務痛點,不要單純從技術層面看問題。