常廣炎 楊彬
摘 要:物聯網與工業制造深度融合,物聯信息系統將生產中的供應、制造、銷售等信息數據化、智慧化,最后達到快速、有效、個性化的產品供應。文中描述了制造業中使用數據分析的挑戰,根據應用程序中的經驗,提出了操作建議,并分享了首選的技術堆棧。
關鍵詞:物聯網;大數據;制造分析;工業制造;信息系統;智慧化
中圖分類號:TP274文獻標識碼:A文章編號:2095-1302(2019)03-0-03
0 引 言
德國“工業4.0”和美國的“工業互聯網”將重構世界工業布局和經濟格局,給世界各國帶來不同的挑戰和機遇。我國國務院印發“中國制造2025”,作為實施制造強國戰略第一個十年的行動綱領,將加快推動物聯網技術與制造技術融合發展[1]。物聯網收集有關機器操作、材料使用、設施物流等數據,帶來了操作人員的透明度。這種透明性是由數據分析應用所帶來的,它指的是使用統計和機器學習方法來發現不同的數據特征和模式。機器學習技術越來越多地用于各種制造應用中,如預測性維護,測試時間縮短,供應鏈優化和流程優化等[2-4]。企業的制造過程已由傳統的“黑箱”模式逐漸向“多維度、透明化和泛在感知”模式發展[5]。
1 制造分析面臨的挑戰
制造分析的目標是通過降低成本而不影響質量來提高生產力:
(1)減少測試時間和校準,包括預測測試結果和校準參數;
(2)提高質量,通過確定廢品的根本原因和自行優化生產線來降低生產廢品(壞件)的成本;
(3)降低保修成本,使用質量測試和過程數據來預測現場故障,以及跨價值流分析;
(4)提高產量,跨生產線和工廠的基準分析,提高第一次通過率,提高首過產量,并找出總體設備效率(OEE)或周期時間等性能瓶頸的原因;
(5)執行預測性維護,分析機器運行狀況,確定故障的主要原因,預測部件故障以避免計劃外停機。
傳統的質量改進計劃包括六西格瑪、戴明循環、全面質量管理(TQM)和多里安·謝寧的統計工程(SE)[6]。在20世紀80年代和90年代開發的方法通常應用于少量的數據,并找到參與因素之間的單變量關系。 使用MapReduce范式簡化大型數據集中的數據處理及其進一步發展導致大數據分析的主流擴散[7]。隨著機器學習技術的發展,大數據分析的發展提供了一系列新的工具,可應用于制造分析。 這些功能包括能夠在批處理和流模式下分析千兆字節的數據,能夠在許多變量之間找到復雜的多元非線性關系,以及將因果關系與相關性區分開來的機器學習算法。
在生產線上生產數以百萬計的零件,并為他們收集了數千個工序和質量測量的數據,這對提高質量和降低成本非常重要。實驗設計(DoE),通過控制實驗,反復探索數千個原因,往往太耗時,成本高昂。制造專家依靠其領域知識來檢測可能影響質量的關鍵因素,再根據這些因素運行DoE。大數據分析和機器學習的進步使得檢測關鍵因素能夠有效地影響質量和產量。這與領域知識相結合,能夠快速檢測故障的根本原因。然而,在制造業中有一些獨特的數據科學挑戰。
(1)虛警和假陰性的不相等成本,在計算準確率時,必須認識到虛警和假陰性可能產生不相等的成本。假設一個假陰性是一個壞的部分/實例,被錯誤地預測為好的。另外,假設一個錯誤的警報是一個好的部分,被錯誤地預測為壞的。進一步假設所生產的部件是安全關鍵部件,錯誤地預測壞的部分是好的(假陰性),會使人的生命處于危險之中。因此,假陰性的代價可能比假警報高得多。在將業務目標轉化為技術目標和候選評估方法時,需要考慮這種權衡。
(2)數據收集和可追溯性問題,數據收集問題經常發生, 許多裝配線缺乏“端到端的可追溯性”。換句話說,通常沒有與正在生產部件和處理步驟相關聯的唯一標識符。一種解決方法是使用時間戳來代替標識符。另一種情況涉及不完整的數據集。這種情況下,在預測和分析中省略不完整信息部分或實例,或者使用一些估算方法(在咨詢了制造專家之后)。
(3)大量的特性,與傳統的數據挖掘中的數據集不同的是在制造分析中觀察到的特征可能數以千計。因此必須注意避免機器學習算法只能使用精簡數據集(即具有少量特征的數據集)。
(4)多重共線性,當產品通過裝配線時,在生產流程的不同站點上采取不同的測量方法。這些測量中的一些可以是高度相關的,然而許多機器學習和數據挖掘算法特性相互獨立,對于提出的分析方法,應該仔細研究多重共線性問題。
(5)分類失衡問題,好的和壞的部分(或廢品,即不通過質量控制測試的部分)之間存在極大的不平衡。比例范圍可能從9∶1到甚至低于99 000 000∶1。應用標準分類技術區分好的零件和廢料是困難的,因此提出了幾種處理類不平衡方法,并應用于制造分析[8]。
(6)非平穩數據,由于各種因素,如供應商或運營商的變化以及機器中的校準偏差,基礎制造過程可能會發生變化。因此需要應用更穩健的數據非穩態性質的方法。
(7)模型可能難以解釋,生產和質量控制工程師需要了解告知流程或設計更改的分析解決方案。否則生成的建議和決策可能會被忽略。
2 利用大數據工具鏈
從制造產品價值鏈收集的數據存儲到數據庫中后,需要一個數據分析系統對這些數據進行分析。制造數據分析系統框架如圖1所示。數據首先從不同的數據庫提取、轉換和加載(ETL)到分布式文件系統,如Hadoop分布式文件系統(HDFS)或NoSQL數據庫(如MongoDB)中。接下來,機器學習和分析工具執行預測建模或描述性分析。為了部署預測模型,前面提到的工具被用來將歷史數據上的訓練模型轉換為開放的、封裝的統計數據挖掘模型和關聯的元數據,稱為預測模型標記語言(PMML),并將其存儲在一個計分引擎中。任何來源的新數據都使用存儲在計分引擎中的模型進行評估[9]。
用于制造分析的大數據軟件堆??梢允情_源、商業和專有工具的混合體,制造分析軟件堆棧示例如圖2所示。從已完成的項目中獲悉,現有的堆棧供應商目前沒有提供完整的解決方案。盡管技術領域正在迅速發展,但目前最好的選擇是模塊化,重點是真正的分布式組件,成功的核心思想是將開源和商業組件混合在一起[10]。
除了這里介紹的體系結構之外,還有各種商用物聯網平臺。其中包括GE的Predix(www.predix.com),博世的物聯網套件(www.bosch-iot-suite.com),IBM的Bluemix(www.ibm.com/cloud-computing/),ABB基于Microsoft Azure的物聯網服務和人員平臺(https://azure.microsoft.com)以及亞馬遜的物聯網云(https://aws.amazon.com/iot)。這些平臺提供了許多用于物聯網和分析的標準服務,包括身份管理和數據安全,這里的案例研究中沒有涉及。另一方面,最好的方法提供了靈活性和可定制的功能,使實現比標準的商業解決方案更有效。但是實施這樣的解決方案可能需要在實施現場提供一個有能力的數據科學團隊。這個選擇可以歸結為幾個因素,非功能性需求、成本、物聯網和分析技術。
3 降低廢品率的案例研究
任何在工廠組裝或生產的產品都要經過一系列的質量檢測,以確定是否需要報廢。高報廢率是由于不及時向客戶交付產品的機會成本、人員浪費時間、非可重復使用部件的浪費及設備管理費用造成的。降低廢品率是制造商需要解決的主要問題之一。減少廢品的方法包括找出產品質量低的根本原因。
3.1 數據處理
根源分析從整合生產線上所有可用的數據開始。裝配線、工作站和機器構成了工業生產單元,可被視為等同于物聯網傳感器網絡。在制造過程中,有關過程狀態、機器狀態、工具和部件的信息不斷地被傳遞和存儲。在本案例研究中考慮工廠生產的數量、規模和頻率,以至于需要使用一個大數據工具棧,類似于圖2所示的數據工具棧,用于流、存儲、預處理和連接數據。這條數據管道幫助在批處理歷史數據和流實時數據上構建機器學習模型。雖然批量數據分析幫助識別制造過程中的問題,但流式數據分析使工廠工程師能夠定期訪問最新問題及其根本原因。使用Kafka(https://kafka.apache.org)和Spark streaming(http://spark.apache.org/streaming)傳輸來自不同數據源的實時數據;使用Hadoop(http://hadoop.apache.org)和HBase(https://hbase.apache.org)高效地存儲數據;使用Spark(http://spark.apache.org)和MapReduce框架分析數據。
使用這些工具的兩個主要原因是它們作為開源產品的可用性,以及它們龐大而活躍的開發人員網絡,通過這些網絡不斷地更新這些工具。
3.2 機器學習
隨著Spark MLLib(http://spark.apache.org/mllib)和SparkR(http://spark.apache.org/docs/latest/index.html)等分布式計算工具的功能增加,其變得更加容易實現分布式和在線的機器學習模型,如支持向量機、梯度推進樹及大量數據的決策樹。測試不同的機器參數和過程測量對整體產品質量的影響,從相關分析到方差分析和卡方假設檢驗,有助于確定個體測量對產品質量的影響。本設計訓練了一些分類和回歸模型,這些模型可以區分通過質量控制的部分和不通過質量控制的部分,可以使用經過訓練的模型來推斷決策規則。根據純度最高的規則,純度定義為Nb / N,其中N是滿足規則的產品數量,Nb是滿足規則的有缺陷或壞部件的總數。
雖然這些模型可以識別變量之間的線性和非線性關系,但它們并不表示因果關系。因果關系對于確定真正的根本原因至關重要,使用貝葉斯因果模型來推斷所有數據的因果關系。
3.3 可視化
收集大數據的可視化平臺至關重要。工程師面臨的主要挑戰是對完整的制造過程沒有清晰而全面的概述。這樣的概述將幫助他們在發生任何不良事件之前做出決定并評估其狀態。描述性分析使用Tableau(www.tableau.com)和微軟 BI(https://powerbi.microsoft.com/en-us)等工具幫助實現此目的。描述性分析包括許多視圖,如直方圖、雙變量圖和相關性圖。
除了可視化統計描述外,還應為所有預測模型提供一個清晰的視覺界面。所有影響特定質量參數的測量都可以被可視化,后端的數據可按時間過濾。
4 結 語
“物聯網+ 中國制造2025”是實現我國制造業與新一代信息技術深度結合的具體表現,互聯制造業正經歷一場技術革命,用戶會要求在所有產品中增加個性化和許多消費電子產品功能。制造分析有利于發展智能制造和大規模個性化定制,提升網絡化協同制造水平,加速制造業服務化轉型。這將關閉設計、制造、營銷、銷售和上市后跟蹤/監視之間的循環。物聯網將成為“中國制造”轉型升級、提升附加值的重要手段。大數據和相關分析將成為工程連續過程中提取所需知識和提供智能的關鍵技術。
參 考 文 獻
[1]陳玉川.“物聯網+中國制造2025”的實現路徑研究[J]. 物聯網技術,2016,6(6):63-66.
[2] WANG S,YAO X.Using Class Imbalance Learning for Software Defect Prediction[J]. IEEE Trans. Reliability,2013,62(2):434–443.
[3] ELBANNA M.A novel approach for classifying imbalance welding data:mahalanobis genetic algorithm (MGA) [J]. Advanced manufacturing Technology,2015,77(1):407–425.
[4] CHOUDHARY A K,HARDING J A,TIWARI M K.Data mining in manufacturing:a review based on the kind of knowledge[J]. Intelligent Manufacturing,2008,20(5):501-521.
[5]劉明周,馬靖,王強,等. 一種物聯網環境下的制造資源配置及信息集成技術研究[J]. 中國機械工程,2015,26(3):339-347
[6] SENAPATI N R.Six sigma:myths and realitie[J]. Quality & Reliability Management,2004,21(6):683-690.
[7] DEAN J,GHEMAWAT S. MapReduce:simplified data processing on large clusters[J]. J. Dean and S. Ghemawat Comm.ACM,2008,51(1):107-113.
[8] HONG C,GHOSH R,SRINIVASAN S.Dealing with class imbalance using thresholding[C]. presentation,ODD 4.0:Outlier Definition,Detection,and Description on Demand,ACM SIGKDD,2016.
[9]傅建中.智能制造裝備的發展現狀與趨勢[J].機電工程,2014(8):959-962.
[10]孫柏林.未來智能裝備制造業發展趨勢述評[J].自動化儀表,2013(1):1-5.