蔣天寧 朱玉杰 張標
摘 要:根據中國各省市的發展狀況提出評估智能制造能力的成熟度模型。從智能制造裝備、工業信息化、工業創新力、行業應用四個方面選取21個智能制造能力指標,采用BP神經網絡、隨機森林回歸、支持向量機回歸3種機器學習算法構建智能制造能力成熟度模型并進行訓練以及驗證。利用K折交叉驗證、泛化誤差定量的評估3種模型,選擇出最優評價模型后再利用最優評價模型的輸出值,確定各城市智能制造能力的成熟度等級。結果表明:(1)隨機森林回歸模型最適用于評價智能制造能力成熟度,且其特征重要性可以為指標與成熟度的相關性提供依據。(2)我國廣東、江蘇、山東三地的智能制造能力成熟度等級最高,貴州、西藏、甘肅等地等級最低。
關鍵詞:智能制造 成熟度模型 BP神經網絡 隨機森林回歸 支持向量機回歸
中圖分類號:F224;TP391 ?文獻標識碼:A
文章編號:1004-4914(2021)01-229-03
一、引言
近年來,隨著科學技術的不斷發展與社會的不斷進步,信息化和工業化水平大幅度提升。我國制造業正朝著智能制造的生產模式邁進。我國智能制造相較于國外起步雖晚,但近幾年融合了新一代信息技術的智能制造的發展成績顯著{1}。我國制造業由于各地區各產業各企業發展不平衡的限制,目前發展較為多樣化,機械化、自動化、信息化、電氣化均共存于產業中。目前,國內對于評價智能制造成熟度水平的研究并不多,各學者的評價模型不盡相同,且通常只選取一種評價模型進行訓練及測試,因此缺少評價模型的橫向對比{2}。本文將針對智能制造成熟度評價模型的選取問題,以我國的31個主要省市作為研究對象,分別用BP神經網絡、隨機森林回歸、支持向量機回歸三種機器學習算法進行模型的構建以及評測,選出最優評價模型,最后利用其模型對各省市進行智能制造能力成熟度評價。
二、指標的選取和成熟度的劃分
(一)指標的選取
為保證數據的完整性和準確性,本文共選取31個主要省市進行研究。本文結合各省市智能制造發展的實際特點選取如下四個一級指標:
1.智能制造裝備。智能制造裝備實現了企業的數字化、網絡化和智能化。智能化設備與技術幫助傳統產業在產業結構升級的路上不斷探索進步,逐步形成完善的產業體系。
2.工業信息化。智能制造是工業化和信息化深度融合的產物,智能制造運用“互聯網+”的技術,貫穿著整個生產活動中。因此,工業信息化水平的高低決定制造業的智能化程度。
3.創新能力。推進制造業智能化轉型升級,全面發展智能制造需要更多大量新技術與新模式的誕生,以創新來推動發展{3}。市場的不斷變化,個性化需求的日益增多,都需要企業源源不斷的創新思想和技術來應對。
4.行業應用。新模式新業態的智能制造業為戰略性新興產業發展帶來了新的啟發,如規模化定制產業、智能制造服務業等{4}。因此,聚焦智能制造行業發展現狀來評價智能制造能力成熟度是必須且必要的。
綜上,本文共選取了4個一級指標。為了能夠真實地展現各省市的真實情況,綜合考慮實際情況以及數據的可獲得性,共選取了21個二級指標,指標體系如表1所示,指標的來源均為國家統計局以及2018年各省市統計年鑒。
(二)智能制造能力成熟度等級劃分
智能制造能力成熟度模型可以客觀地評估能力等級,并呈現階梯式的改進步驟{5}。由于它的高度適用性,也被IT、工業等領域積極采納{6}。本文結合各區域企業的實際狀況,將成熟度分為五個等級,五個等級分別對應五個水平,具體說明如表2所示。
三、算法
(一)BP神經網絡
BP神經網絡是一種多層前饋神經網絡,共包括輸入層、輸出層和若干個隱含層{7}。BP神經網絡由輸入層輸入數據,通過由閾值和權值組成的隱含層對數據進行處理,最后由輸出層得到結果,再將輸出值和期望輸出進行比較,不斷調整閾值和權值,直到輸出值逼近期望輸出{8}。具體步驟如下:
6.重復3~5步,直到誤差減小到滿足要求為止。
(二)隨機森林回歸
隨機森林是由決策樹{h(x,δm),m=1,2,…,T}組成的一種分類器,其中,x表示輸入變量,δm為獨立同分布的隨機向量,T為決策樹的棵樹。隨機森林既可以適用于分類問題也可以用于回歸問題。隨機森林通過輸入訓練樣本,有放回的抽取子樣本建立分類樹形成隨機森林,最終輸出值為T顆決策樹輸出的平均值{9}。具體步驟如下:
1.從原始訓練集中利用bootstrap法有放回的隨機抽取m個新的訓練集,形成m顆分類樹。
2.對m顆分類樹節點下的l個特征中選取n個特征(n≤l),通過比較基尼指數,選取基尼指數最小的作為最優特征進行分裂。基尼指數為:Gini=1-ki為Ji類出現的概率。
3.每棵樹無修剪的最大程度生長,重復T次后,形成CART決策樹。
4.每一棵決策樹輸出的平均值即為最終結果。
(三)支持向量機回歸
支持向量回歸是支持向量機推廣到回歸問題得到的回歸模型。支持向量回歸認為,在訓練集中存在一個超平面,使得超平面上下兩邊間隔達到最大,最大間隔即為尋找的支持向量回歸,目標即為使訓練集的點最大程度地擬合到模型中,也就是所有訓練集的點和超平面之間的總偏差最小{10}。本文為非線性問題,因此需將訓練集映射到更高級的空間使非線性問題轉化為線性問題,并引入核函數進行求解{17}。具體步驟如下:
1.給定訓練樣本集:S=(x1,y1),(x2,y2),…,(xn,yn)
2.劃分超平面所對應的的模型可表示為:f(x)=wTφ(x)+d
最小化函數:minw,d‖w‖2,s.t.yi(wTφ(x)+d)≥1(i=1,2,…,n)
其中:w為法向量,d為位移量,φ(x)表示將x映射后的特征向量
3.引入核函數k(xi,xj),求解對偶化最優問題:
解出α之后,可以求得w,進而求得b
四、機器學習模型的選擇與訓練
機器學習的學習過程分為數據獲取、數據預處理、特征工程、訓練模型選擇、評估模型{11}。首先按照21個指標整理出31個省市的原始數據,然后對數據進行歸一化處理。機器學習訓練需要一定量的數據量支持,為了得到更好的仿真效果,對處理過的數據進行模擬仿真得到300組仿真數據。
本文選取BP神經網絡、隨機森林回歸、支持向量機回歸三個機器學習模型進行交叉驗證,得出模型的平均準確率。將全部仿真數據重新用于3個模型進行訓練,得到最終模型,再對31組原始數據進行驗證測試,和期望輸出值進行比較,最后比較橫向比較兩步測試的結果并分析,選出具有優秀表現的機器學習模型。
(一)K折交叉驗證
本文首先采用K折交叉驗證進行模型的評估與選擇,K取值為10具有更好的評價效果。本文將300個仿真數據分為相等的10份,即K1、K2、K3,…,K10。取Ki作為測試數據集,剩余部分為訓練數據集。本文的問題類別為回歸分析,因此選取1-均方誤差作為評價標準。
(二)機器學習模型的訓練與驗證
在K折交叉驗證的過程中由于需要留出一部分數據進行評估測試,因此只使用了一部分數據訓練模型。由于三個模型的10折交叉驗證準確度值均達到了85%以上,因此,三個模型的表現都很優秀。現在將300組數據全部用于模型的訓練,并用31組原始數據得到的實際輸出與期望輸出值進行對比驗證。本文的期望輸出值為Ei=wij*sij,其中wij表示城市i的權重為第j個一級指標所包含的二級指標數與總指標數的比值,sij表示城市i的一級指標j的得分之和。三種機器學習模型的預測值和期望輸出的誤差對比圖(如圖1所示)。
(三)模型的選取
三種模型的10折交叉驗證平均準確度和泛化誤差值如下表3所示。由表3可以看出三種模型中只有隨機森林回歸的10折交叉驗證準確度高于85%。并且隨機森林回歸的泛化誤差也最小,這表明隨機數森林回歸的輸出值誤差波動最小。因此,本文選擇隨機森林回歸進行各城市智能制造成熟度的評價,評價結果如表4所示。
五、結論
本文運用三種機器學習算法對31個主要省市的智能制造成熟度分別進行了評價,通過10折交叉驗證和泛化誤差對三種方法進行比較,最后確定隨機森林回歸對比其他兩種模型具有優越性,因此選擇隨機森林算法對31各省市的智能制造成熟度進行評價。為各個省市智能制造成熟度的評級方法和研究過程提供思路和方法。之后的研究可在此基礎上結合指標重要性對隨機森林回歸進行改進與探究,實現對智能制造成熟度更全面的評價。
注釋:
{1}CAINELLI G, MARCHI V D, GRANDINETTI R.Does the development of environmental innovation require different resources evidence from Spanish manufacturing firms[J].Journal of Cleaner Production, 2015,(94):211-220
{2}LEE J,BAGHERI B,KAO H A.A cyber-physical systems architecture for industry 4.0-based manufacturing systems[J].Manufacturing Letters, 2015,(3):18-23
{3}WEBER P, WAGNER C.Equipment interconnection models in discrete manufacturing [J].Ifac Papersonline, 2015,48(1):928-929
{4}Wadhwa,Vivek.Why Its Chinas Turn to Worry about Manufacturing[N].Washington Post,2012,01:11
{5}齊小玲,馮大鵬.CMMI體系建立過程及在項目管理中的作用[J].計算機科學.2013(S2):436-438
{6}溫國鋒.基于成熟度的工程項目風險管理能力提升模型研究[J].現代物業(上旬刊).2015(6):66-69
{7}潘超杰.基于BP人工神經網絡的物流配送中心選址決策[J].知識經濟,2010,(9):10-16
{8}柴穎.基于隨機森林回歸分析的徑流預報模型[J].水利水電快報,2018,39(9):36-38
{9}李永娜.基于支持向量機的回歸預測綜述[J].信息通信,2014(11):32-33
{10}馬旭霞.支持向量機理論及應用[J].科學技術創新,2019(2):13-14
{11}周志華.機器學習[M].北京:清華大學出版社,2016
(作者單位:東北林業大學工程技術學院 黑龍江哈爾濱 150000)
(責編:若佳)