■文/時培昕
物聯網和大數據,這兩個看似毫無關聯的技術,可以通過數據(一個產生數據,一個處理和分析數據)緊密地聯系在一起。
物聯網(IoT)是一個完整的概念,不僅包括遠端的傳感器數據采集、傳輸、存儲和展示,還包括對采集的傳感器歷史數據的分析,以及基于分析結果所產生的決策、反饋和控制動作。相對于傳統的人的認知方式,物聯網相當于增強了人的“五官”的識別能力,使人能夠獲取很多原本無法直接獲取的信息。而基于物聯網的數據分析,則相當于增強了人的“大腦”的感知能力,讓人能夠擺脫傳統思維的局限性,實現更多維度、更全面、更實時的認知和判斷。
通常意義上的大數據,指的是對批量數據的計算。最近10年陸續(xù)發(fā)展出的一系列包括Hadoop、Spark在內的新技術,可以高效、實時地處理海量的數據(批量數據為主)。在此基礎上,將原來的一些處理小數據集的數據挖掘技術,同大數據結合起來,可以實現對很多業(yè)務系統數據(批量數據為主)的分析,例如針對不同標簽的群體的分類和畫像,并進行精準營銷。隨著實時性的提高,最近幾年流式計算和分析也被提到了一個更高的層次,用于處理時刻都需要分析和處理的、帶有時間標簽的數據,如物聯網數據或日志數據。
由此可見,物聯網和大數據這兩個看似毫無關聯的技術,是可以通過數據(一個產生數據,一個處理和分析數據)緊密地聯系在一起的。
在進一步闡述物聯網和大數據分析的關系之前,需要弄清楚物聯網、工業(yè)物聯網(IIoT)和工業(yè)大數據幾個概念。
傳統物聯網主要針對消費者以及智慧城市等,通過增加眾多分散廣泛的傳感器,采集和傳輸實時數據,構建實時監(jiān)控、展示、告警和歷史數據查詢的能力。工業(yè)物聯網,則主要指的是通過采集現有工業(yè)設備的控制系統數據(很少需要增加傳感器),在監(jiān)控告警的基礎上,通過深入的數據分析,找到提高設備可靠性、降低異常風險、提高生產和運營效率的途徑。
傳統物聯網的數據分析與互聯網上的流式數據分析區(qū)別不大,通過單一指標的處理,產生相應的時間窗口內的平均、極值等計算量,并進行批量計算和展示。
在國外,很多廠商和媒體并沒有工業(yè)大數據這個概念,更多是將其合并在工業(yè)物聯網的范疇,而國內則將二者當成兩個不同的類別,還將二者連同諸如生產和供應鏈系統等,統統融入工業(yè)互聯網的概念中。因此,我們可以看到包括高德納咨詢公司(Gartner)在內的國外分析機構,并沒有專門針對工業(yè)大數據或工業(yè)互聯網的分類,而有很細致的工業(yè)物聯網的分析。
傳統工業(yè)并不是沒有數據處理,只是數據采集、數據處理、數據分析和反饋都分散在不同系統里,從而導致無法處理海量的工業(yè)“大”數據,也無法保證實時性。在工業(yè)企業(yè)里,很多數據分析人員被迫從不同的控制系統中手動導出一些數據文件,通過手工的方式進行交叉關聯和標注,并編寫相應的Matlab程序實現統計分析和建模,然后再提取一些現場數據進行驗證,條件好的企業(yè)還會請一些外部的合作伙伴將其開發(fā)成應用。這種處理和分析的效率非常低,但確實是一種普遍現象。

工業(yè)物聯網的大數據分析
工業(yè)物聯網的數據分析(工業(yè)物聯網+工業(yè)大數據),同傳統的互聯網大數據分析,有很多不一樣的地方。
(1)數據量巨大
工業(yè)數據的“量”,需要從數據維度、采樣頻率、時間跨度等方面來考慮。
傳統的物聯網,由于大多是相對獨立的傳感器,而每個傳感器上數據點的數量往往都是個位數,因此數據維度很少。而對工業(yè)物聯網來說,復雜的生產都是多個過程相互關聯,每個過程又是多維度數據集成的過程。這里所說的數據維度囊括了生產過程中各種設備特征、外部工況、參數、材料和工藝配方等相關因素。這種維度的數量級往往很大,在很多高端自動化生產(如半導體)的過程中,數據維度都達到了千萬級別,而其中任何一個過程的任何一個變量的變化,都有可能對最終生產的結果產生蝴蝶效應。
傳統物聯網的數據采集間隔通常都是秒級、分鐘級,相對比較固定。而工業(yè)設備數據的采樣頻率的跨度非常大,一個設備的不同指標可以有上千倍的差別。對于設備故障診斷常用的電流、振動加速度等傳感器指標,往往需要10 kHz以上的采樣頻率,而一些狀態(tài)變化往往需要幾秒甚至幾十秒才采樣一次。

長期數據的保存,對于積累在不同狀態(tài)下的特征判決,非常有幫助。但是,傳統的物聯網對長期數據的保存需求不是很明顯,沒有太多“狀態(tài)性”(stateless)的需求。而工業(yè)物聯網對基于狀態(tài)(stateful)的數據分析,需求非常強烈。首先,在傳統的工業(yè)領域,對于設備狀態(tài)、控制門限、關鍵參數的設置,往往都是通過廠家或者運營人員的經驗值進行設置和調整,這個值是否正確,是需要經過長期的數據驗證的。其次,工業(yè)設備的電流、功率、扭矩等指標,在不同工作模式、工況條件、故障狀態(tài)下,往往都存在明確的不一樣特征。而這些特征如果能夠被保存下來,通過機器學習來訓練特征識別模型,將有助于實現精準的狀態(tài)判決、異常檢測和故障診斷。此外,通過不斷累積類似相同標簽的數據樣本,將有助于增強識別的準確性。特別是一些可靠性很高的關鍵設備,因為故障的成本很高,更需要保存異常或者故障的特征,并通過部件之間、子系統之間以及設備之間特征的組合分析,來進一步提高可靠性。
(2)實時性強
通常大家都認為工業(yè)數據的實時性會很強,事實上,這指的是工業(yè)控制的實時性,而不是工業(yè)數據分析的實時性。
傳統的工業(yè)數據分析,往往是通過在控制系統或者軟件系統中截取一段數據,保存成文件,通過分析人員編寫一段代碼(如Matlab)和模型,在實驗環(huán)境中進行測試和驗證,再開發(fā)相應的控制邏輯或者應用程序,通過實時接收來評估開發(fā)的模型,在運行的過程中不斷調整模型的參數。這個過程是非常痛苦的,不僅因為數據的來源和分析是脫節(jié)的,更因為在模型開發(fā)的過程中需要的實時數據的驗證是沒有辦法在現有環(huán)境中實現的。
理想的工業(yè)數據分析,應該是一個高效實時的過程。它可以從實時的工業(yè)數據中截取有效的數據樣本,基于不同的開發(fā)語言和模型框架,開發(fā)特定的算法和模型,并基于實時采集的數據進行驗證,然后將驗證的結果同真實的實時數據流結合起來,實現實時的判決。只有這樣,才能形成針對具體場景的智能分析和控制。
(3)數據質量差
工業(yè)數據質量差是工業(yè)數據的典型特點。工業(yè)的專業(yè)性特點,導致大型設備往往是來自多個不同廠家的子系統的大集成。而主機廠往往并不了解每個子系統的工作原理,并沒有形成一套完整的、跨子系統的控制邏輯和數據整合機制,因此只能從其中挑選一些關鍵的控制信號,實現既定的控制邏輯,而不會去關心每一個子系統的工作原理,包括各種有助于實現可靠性、效率乃至質量分析的非控制用指標。
工業(yè)設備生產廠家雖然都聲稱能夠達到各種指標,但他們往往只能保證關鍵控制指標的完整性,而不能保證子系統關鍵指標的精度和可靠性。由于沒有很好的數據整合機制,主機廠往往無法識別不同子系統的工作狀態(tài),而給后期針對不同工作狀態(tài)的數據分析造成巨大的障礙。此外,來自不同子系統的整合,可能會出現時間標簽不統一、數據量程不對、數據標簽錯誤等常見錯誤,甚至在出現問題的時候,主機廠都無法解釋子系統的指標意義。同時,由于現場環(huán)境的惡劣條件,往往會造成傳感器數據失效,或者長期處于不準確狀態(tài)。這些數據質量問題,都給后期的數據分析造成了巨大的障礙,在分析之前需要做大量的清洗和處理工作。
一提到大數據分析,很多人會想到通過海量數據的聚類、分類、挖掘,實現精準營銷、用戶畫像。但是,這些互聯網或業(yè)務系統的數據,都有一些顯著的假設條件,即數據量大、數據可以清晰地標簽化、標準化場景多、分析的準確性要求不高。通過一系列的分類、挖掘,可以找到不同樣本之間的共同特征,針對有相似屬性的不同個體的訓練結果,來推測具備相同或者相近屬性的個體的特征。但是,對于工業(yè)數據分析,這些假設條件基本都不存在,數據分析面臨更多挑戰(zhàn)。
首先是小樣本。工業(yè)的異常現象往往會非常少,或者在單一設備上發(fā)生的概率非常低,這就造成無法使用常規(guī)的大數據、機器學習的方法,根據采集的異常數據特征,去訓練穩(wěn)定的故障模型。
其次是過擬合。根據大量相關因素,通過機器學習在特定數據集下所訓練出來的模型,即使經過了大量的測試數據的驗證,表現出很完美的擬合特征,但在真實環(huán)境下,由于數據和工作狀態(tài)的多變性,往往很難取得長期穩(wěn)定的判決結果,即出現“過擬合”的情況。
第三是難以準確清晰地標注。工業(yè)數據即使出現了一些可以提煉的特征,但這種特征往往跟不同的工況或者工作模式緊密相關(如振動傳感器振動幅度的高低,在設備輕載或者重載下完全不一樣)。如果沒有辦法區(qū)分出異常特征的標注條件,很難實現有效的數據過濾和分析。
第四是場景碎片化。工業(yè)的場景呈碎片化,很難有通用的模型,即使有一些類似電機、泵的故障模型,以及振動分析、統計過程控制(SPC)這樣的通用分析方法,在不同類型的設備上,甚至在同一類型的不同個體上,都很難保證統一穩(wěn)定的運行。
這些挑戰(zhàn),都會造成工業(yè)大數據分析不可能完全采用互聯網大數據的分析方法,而是需要充分結合工作機理,實現復合型的建模和判決。
我們都知道,互聯網大數據的應用場景包括基于用戶畫像的精準營銷、海量結構化的決策支持等。那么,工業(yè)物聯網的數據分析可以應用到哪些場景中呢?
我們認為,工業(yè)物聯網的大數據分析,從工業(yè)的三個層次,都可以發(fā)揮出巨大的作用。
工業(yè)企業(yè)可以通過讀取智能工業(yè)產品的傳感器或者控制系統的各種實時參數,構建可視化的遠程監(jiān)控,并基于采集的歷史數據,構建層次化的部件、子系統乃至整個設備的健康指標體系,并使用人工智能實現趨勢預測。基于預測的結果,工業(yè)企業(yè)可以對維修策略以及備品備件的管理策略進行優(yōu)化,降低和避免客戶因非計劃停機帶來的損失。
例如,寄云科技為某石油機械制造公司提供了鉆井設備的預測性維修和故障輔助診斷系統,不僅能夠實時采集鉆機不同關鍵子系統,如發(fā)電機、泥漿泵、絞車、頂驅的各種關鍵指標數據,更能夠根據歷史數據的發(fā)展趨勢,對關鍵部件的性能進行評估,并根據部件性能預測的結果,調整和優(yōu)化維修的策略。該系統還能夠根據鉆機的實時狀態(tài)的分析,對鉆井的效率進行評估和優(yōu)化,有效地提高鉆井的投入產出比。
工業(yè)企業(yè)可以將生產階段的各種要素,如原材料、設備、工藝配方和工序要求,通過數字化的手段集成在一個緊密協作的生產過程中,并根據既定的規(guī)則,自動完成在不同條件組合下的操作,實現自動化的生產過程;同時,記錄生產過程中的各類數據,為后續(xù)的分析和優(yōu)化提供依據。通過采集生產線上的各種生產設備的實時運行數據,實現全部生產過程的可視化監(jiān)控,并且通過經驗或者機器學習建立關鍵設備參數、檢驗指標的監(jiān)控策略,對出現違背策略的異常情況進行及時處理和調整,實現穩(wěn)定并不斷優(yōu)化的生產過程。
例如,寄云科技為某電子玻璃產線構建的在線質量監(jiān)控體系,充分采集了冷端和熱端的設備產生的數據,并通過機器學習獲得流程生產過程中關鍵指標的最佳規(guī)格,設定相應的監(jiān)控告警策略,在幾萬個數據采集點中實現對特定的質量異常現象的診斷分析。
工業(yè)企業(yè)可以通過將過程層產生的各種運營技術(OT)數據,同業(yè)務系統產生或者填報的各類信息技術(IT)數據相結合,構建統一的數據標準,并在其基礎上,通過一定的計算和分析,就能夠產生準確的經營層面的分析,對企業(yè)的安全生產、經營效率、決策支持都提供支撐,逐步延展至企業(yè)外部環(huán)境,提供開放的數據生態(tài),進而形成更強的競爭力。
例如,寄云科技為某省級能源集團提供了安全生產智慧管控的解決方案,從數十個不同類型的實時數據庫提取生產的實時數據,結合從第三方業(yè)務系統抽取的業(yè)務數據,構建多維度的統一數據標準,并基于IT和OT融合的數據標準,開發(fā)包括生產運行監(jiān)控、安全管理、環(huán)保管理、質量管理、能源管理、經營分析等在內的一系列的工業(yè)應用。

工業(yè)IT/OT數據融合平臺架構示意圖
一個高效運行的工業(yè)企業(yè),按照我們的理解,必須將OT和IT的數據整合到一個大的平臺上,并制定嚴格的數據標準(資產、過程、流程、組織的標準),通過不同的專業(yè)數據分析,持續(xù)開發(fā)不同的新形態(tài)的應用(如上圖所示),才能滿足企業(yè)全方位、精準、高效運營的需求。
總之,對物聯網而言,無論是通用的物聯網還是工業(yè)物聯網,如果沒有結合專業(yè)的精細化的數據分析,是支撐不了企業(yè)未來的發(fā)展戰(zhàn)略的。選擇合適的工業(yè)物聯網平臺,將極大地加快企業(yè)的數字化進程,朝著智能化的道路快速推進。