仇利克, 胡乃軍, 郭忠文??, 仇志金 , 劉石勇, 劉 競
(1.中國海洋大學信息科學與工程學院,山東 青島 266100; 2.青島市工商行政管理局信息中心,山東 青島 266071)
產品數據建模是制造信息化的核心技術,也是工業(yè)大數據應用的核心,而產品性能指標預測作為產品數據建模的一部分,在產品的生產加工過程中發(fā)揮越來越大的作用。產品性能指標檢測普遍存在能耗過高的問題,這主要是由于,產品性能指標檢測需要在一定的工況下進行,工況穩(wěn)定后才能開始檢測,檢測過程中要始終維持同一工況條件,這致使很多產品的檢測周期過長,能耗過高。
表1顯示了不同產品一個測試周期的能量消耗情況。能耗的計算條件是:假設一個企業(yè)有40個實驗室,每年測試300 d,每個實驗室每天僅進行一項測試,為維持實驗工況條件需要耗費的電量按照8 kW·h來估算。由表1可以看出,產品性能測試的能量消耗主要集中在維持工況上,一種產品一次測試的能量消耗可能比較少,但是產品生產企業(yè)每天會有大量的實驗室同時不間斷的進行若干項測試,這種累積的能量消耗是巨大的。以表1中耗能最少的冰箱制冷能力測試為例,僅這一項測試一年就可以消耗約2 386.9 MW·h,這個能量消耗是非常巨大的。因此,若能縮短產品的測試周期,在較短的時間內實現(xiàn)對產品性能指標的預測是非常有實用價值的,不僅可以降低能耗,同時又可以減少產品測試環(huán)節(jié)的設備、廠房和人工投入。但目前尚沒有很好的辦法來實現(xiàn)既快速又準確的產品性能預測。

表1 不同產品性能測試能量消耗Table 1 Energy consumption for products performance testing
注:*冰箱制冷能力測試使用的產品型號是BCD-316WDCN,冰箱耗電量測試使用的產品型號是BCD-579WE,空調制冷能力測試使用的產品是3 000 W空調。系統(tǒng)工況穩(wěn)定需要時間取3 h,為了維持實驗的工況條件需要開啟的制冷和制熱空調分別按照10 P(冰箱)和20 P(空調)計算。
Note:The refrigerator model used for refrigerating capacity test is BCD-316WDCN, the refrigerator model used for energy consumption test is BCD-579WE, the air conditioning power used for refrigerating capacity test is 3 000 W. Suppose it takes 3 hours to reach stable working conditions, the power of the air conditioning used to maintain working conditions are 10 P for refrigerator tests and 20 P for air conditioning tests.
①Performance test type;②Test cycle;③The energy consumption for maintaining working condition;④The energy consumption of performance test;⑤Refrigerating capacity test of the refrigerator;⑥Energy consumption test of the refrigerator;⑦Air conditioning refrigerating capacity test.
隨著德國“工業(yè)4.0”和“中國制造2025”發(fā)展戰(zhàn)略的提出,工業(yè)企業(yè)進入了工業(yè)4.0的新的發(fā)展階段,工業(yè)測試環(huán)節(jié)各種各樣傳感器的使用,使工業(yè)企業(yè)所擁有的產品測試數據日益豐富,這些數據成為實現(xiàn)產品性能指標預測的新能源,在保證預測準確率的同時,如何有效利用這些數據降低測試能耗成為目前亟需解決的問題。
針對以上問題,本文提出了一種基于多元傳感參數的性能指標預測方法(Performance Index Prediction based on Multiple Sensor Parameters, PIP-MSP)。該方法(1)使用特征選擇算法選擇區(qū)分能力強的特征組成特征子集,保證了較高的預測準確率;(2)使用開始較短時間內的傳感數據進行預測,縮短了產品的預測周期,從而達到降低能耗的目的;(3)使用多種學習算法建模,選擇效果最佳的一種建模算法。
傳感數據(如溫度、濕度、壓力等)是多維時間序列數據,使用已知的歷史數據可以預測將來的趨勢。隨著傳感器的廣泛應用,傳感數據量越來越大,維數也越來越高,數據中夾雜的噪音和冗余也越來越多。而特征選擇能有效去除原始特征集中的噪音,降低特征維數,提高預測性能。
特征選擇,即從原始特征空間中選擇區(qū)分能力強的特征構成特征子集,這個特征子集能完全或近似代替原始特征集。特征選擇對快速有效的預測至關重要[1-3],目前已有很多研究成果[4-7]都取得了很好的效果。
故本文的PIP-MSP模型首先使用特征選擇算法去除傳感數據的噪音和冗余,降低維度,為后期的數據處理做準備。PIP-MSP模型如圖1所示。模型以虛線為界分成兩部分:上半部分是線下模型,下半部分是線上模型。線下模型的主要功能是模型訓練,以得到最優(yōu)模型參數。線下模型由兩部分組成:特征選擇和模型訓練。每部分的功能描述如下:

圖1 PIP-MSP模型Fig.1 PIP-MSP model
(1)特征選擇:提取多元傳感序列開始較短時間內的特征向量,使用特征選擇算法對原始特征向量進行特征選擇,去除無關特征和冗余特征,生成特征子向量。
(2)模型訓練:輸入特征子向量,使用學習算法訓練模型,學習得到最優(yōu)模型參數。
線上模型主要用于在線預測,對新生成的多元傳感序列,首先進行特征提取,生成特征向量,然后對提取的特征進行特征選擇,生成特征子向量,用線下部分訓練好的模型和參數完成預測,輸出預測值。
PIP-MSP模型中包括兩類算法:特征選擇算法和模型訓練、預測算法。雖然已存在若干特征選擇算法,但這些算法并不能直接應用于多元傳感數據的預測,故本文提出了一種新的特征選擇方法,詳見2.1小節(jié)。2.2小節(jié)介紹了性能指標預測使用的學習算法。
相關特征的判定是特征選擇算法的重要組成部分。而目前存在若干判定相關特征的標準,如相關系數[8]、對稱不確定性[9]和互信息[10]等。傳感數據多是連續(xù)的數值數據,若使用對稱不確定性和互信息等應用于離散數據的判定標準,需要對特征進行離散化處理[11]。特征離散化后會產生誤差,影響預測準確率[12-13]。為了保證預測準確率,本文選擇Pearson相關系數作為相關特征的評價標準。
使用Pearson相關系數判定特征相關,首先定義兩種相關性:Y-相關和F-相關。Y-相關是指任意一個特征Fi與預測值y之間的相關性,記作ρi,y。F-相關是指任意兩個特征Fi和Fj(i≠j)之間的相關性,記作ρi,j。
本文首先使用相關系數區(qū)分相關特征和無關特征,然后從相關特征中區(qū)分冗余特征。為去除無關特征,本文設置γ為Y-相關的門限值,并假設一個特征的Y-相關值越大,這個特征所包含的關于y的信息量就越大。我們首先計算每個特征的Y-相關值,如果一個特征Fi和預測值y之間的相關系數ρi,y>γ,則說明特征Fi對最終的預測值y是有貢獻的,否則,F(xiàn)i即為無關特征。冗余特征的確定主要基于F-相關值ρi,j。為確定一對相關特征Fi和Fj(i≠j)中的冗余特征,我們設置了一個啟發(fā)式的門限值σ,由它來決定F-相關值ρi,j是否足夠大。冗余特征的定義如下。

從相關特征中不斷去除無關特征和冗余特征,此過程可用下面的算法FSPCC(Feature Selection based on Pearson Correlation Coefficient)描述。算法分兩步實現(xiàn):(1)去除無關特征(行2~9)。首先計算每個特征Fi和y之間的相關系數ρi,y,以γ為Y-相關的門限值,把符合條件的相關特征放入集合Slist。同時對所有ρi,y求和,賦給σ。接著對σ求平均(行8)。集合Slist中的元素按ρi,y降序排列(行9)。(2)去除冗余特征(行10~22)。首先獲取Slist中最左端的第一個特征Fj(行10),此特征的ρj,y是所有特征中最大的。然后獲取Slist中Fj右側的第一個特征Fi(行12),判斷ρi,j是否大于等于σ,若大于,則認為特征Fi是冗余的,從Slist中移除,直到Slist中最后一個Fi比較完畢為止。第一輪基于Fj的特征過濾結束后,算法FSPCC將選擇新的Fj(當前Fj右側的第一個特征)(行20)作為新的參考進行下一輪特征過濾,直到沒有新的Fj可以選擇為止。
此算法的計算量主要集中在ρi,y和ρi,j的計算上,假設數據集的特征維數為n,計算ρi,y的時間復雜度為O(n)。算法最好的情況(只有一個特征保留,余下特征都被移除)的時間復雜度是O(n),最壞情況(所有特征都保留)的時間復雜度是O(n2)。
算法1 FSPCC
輸入:S(F1,F2,…,Fn,y)
γ,σ%用戶預先設定的參數
輸出:Sbest
1.begin
2.for i = 1to n do begin
3.為每個Fi計算ρi,y;
4.if(ρi,y>γ)
5.填加Fi到Slist;
6.σ=σ+ρi,y;
7.end
8.σ=σ/n;
9.以ρi,y值降序排列Slist中的特征;
10.Fj=getFirstElement(Slist);
11.do begin
12.Fi=getNextElement(Slist,Fj);
13.if(Fi<>NULL)
14.do begin
15.σ=mean(σ+ρi,y);
16.if(ρi,j≥σ)
17.把Fi從Slist中移除;
18.Fi=getNextElement(Slist,Fi);
19.end until(Fi==NULL)
20.Fj=getNextElement(Slist,Fj);
21.end until(Fj==NULL)
22.Sbest=Slist;
23.end
雖然本文提出的特征選擇算法FSPCC和學習算法無關,但不同的學習算法對最終的結果也會產生一定的影響。故本文選擇了兩種經典的算法,LWLR和多項式算法,來完成性能指標預測,選擇效果最好的一組算法作為FSPCC的內嵌算法。
2.2.1 LWLR算法 與普通線性回歸算法不同,LWLR算法使用“核”來對附近的點賦予更高的權重,優(yōu)先考慮待預測值x附近樣本點的特征,并給予較高的權重w,而距離待預測值x較遠的樣本點,其影響系數要小一些。本文使用的核為高斯核,高斯核對應的權重如下:
其中,x(i)指第i個樣本點的值;x指待預測的樣本點的值。從上式可知,如果|x(i)-x|很小,w(i)接近于1;如果|x(i)-x|很大,w(i)就會很小。因此,訓練時,離待預測值x近的樣本點的權重比較大,而離待預測值x遠的樣本點的權重比較小。帶寬參數τ值用于控制訓練樣本權重w下降的速度。LWLR算法可根據τ值的變化擬合出最適合的曲線。
2.2.2 多項式算法 采用多項式做最小二乘擬合也是常用的一種方法,隨著基函數和多項式冪次的變化,可以擬合出多種曲線,且此算法以簡單易實現(xiàn)而受到大家的青睞。我們實驗了多種擬合曲線,最終選擇了預測效果最好的一種,其對應的基函數為
突發(fā)關鍵詞和高頻關鍵詞中的“社會化閱讀”“閱讀推廣”分布在Cluster 2中,同時結合表4中具有代表性的“閱讀體驗”“全民閱讀”等關鍵詞,綜合可確定Cluster 2的研究熱點為“移動閱讀推廣”。
φ0(x)=1,φ1(x)=x1,φ2(x)=x2,…,
φn(x)=xn,φn+1(x)=x12,…,φ2n(x)=xn2,
它們的線性組合為
P(x)=θ0φ0(x)+θ1φ1(x)+…+θnφn(x)+θn+1φn+1(x)+…+θ2nφ2n(x) 。
以上公式是關于x的二次多項式,其中,n為原始數據特征維數。
X=
實驗使用3個真實世界的傳感數據集來顯示和說明PIP-MSP方法的優(yōu)點和不足。數據集來自某公司一年的制冷能力測試、負載溫度回升測試和耗電量測試數據。數據集的信息描述見表2。其中,制冷能力數據集(Freezing Capacity Data Set)簡寫為FCDS,負載溫度回升數據集(Temperature Rise of Load Time Respectively Data Set)簡寫為TRLTRDS,耗電量數據集(Energy Consumption Data Set)簡寫為ECDS。

表2 數據集信息描述Table 2 Dataset information description
評價PIP-MSP方法是否有效的標準如下:

(2)周期縮短百分比。本實驗使用開測后較短時間內的數據來預測總周期(總耗時),在保證預測準確率的同時,選擇使用的時間段越短,周期縮短百分比越大。
(3)能耗節(jié)省情況。節(jié)省耗電量和周期縮短百分比成正比關系。在保證預測準確率的同時,節(jié)省的能耗越多越好。
由于樣本數較少,實驗中訓練模型使用留一交叉驗證(Leave one out cross validation,LOOCV)確定最優(yōu)參數,最終的預測準確率取LOOCV平均預測準確率。LOOCV多用于樣本數較少的情況,它選取每一個樣本作為測試樣本,其余N-1個樣本作為訓練樣本。(假設有N個樣本),得到N個訓練器,N個測試結果。用這N個結果的平均值來衡量模型的性能。FSPCC算法中的相關性門限值。
使用PIP-MSP方法后的維數和LOOCV平均預測準確率如表3所示。由表3可以看出,F(xiàn)SPCC特征選擇算法能有效降低特征維數。和原始特征集的LOOCV預測準確率相比,F(xiàn)SPCC選擇的特征子集的準確率明顯高于原始特征集,最高相差12.78%(TRLTRDS使用多項式算法),平均LOOCV預測準確率高出原始特征集4.68%。以上結果說明:PIP-MSP方法能有效降低特征維數,提高預測準確率。

表3 維數和LOOCV平均預測準確率Table 3 Dimension and LOOCV average predictive accuracy
Note:①Data sets;②Learning algorithms;③Feature dimension;④Predictive accuracy;⑤Full sets predictive accuracy;⑥Polynomial algorithm
模型訓練選擇的LWLR和多項式算法的預測性能有細微差別,對FCDS和ECDS,LWLR算法的預測結果更優(yōu)一些,而對TRLTRDS,多項式算法的預測結果更好一些。因此,PIP-MSP可以根據不同的測試項目選擇合適的內嵌算法,以達到更好的效果。
使用本文提出的性能指標預測方法后,3項測試的周期縮短百分比和能耗節(jié)省情況如表4所示。其中“能耗節(jié)省(MW·h/a)”計算的僅是維持工況的能耗,相對于工況能耗,測試本身的能耗是微不足道的,計算標準參考前言部分。根據標準GB/T 8059.2-1995,一次制冷能力測試的總耗時不能超過24 h,一次負載溫度回升測試的總耗時不能低于5 h,耗電量測試的總耗時在滿足GB/T 8059.2-1995要求的工況情況下至少需要24 h(實驗中涉及的計算按照最短時間24 h計算)。本文使用測試開始后2~4 h的測試數據預測本次測試的總耗時。周期縮短百分比的計算方法:在各個傳感數據集中分別取一組最長耗時(最大的預測值y)樣本和最短耗時樣本,分別求其周期縮短百分比,然后求兩組值的平均。周期縮短百分比的計算公式是:周期縮短百分比(%)=(本次測試節(jié)省的時間(min)/本次測試總耗時(min))×100%。
由表4可以看出,使用了本文提出的性能指標預測方法后,3項測試的周期均得到了縮短,平均縮短了80.90%。由于產品的測試周期和耗電量成正比(負載溫度回升實驗是在斷電的情況下進行的,僅維持工況需要能量消耗,故測試耗電量為0),測試周期縮短了,必然導致測試所需耗電量的降低。3項測試的工況能耗可以節(jié)省約4 079.7 MW·h/a,這是非常可觀的。

表4 周期縮短百分比和能耗節(jié)省情況Table 3 Cycle reduced percentage and energy saving
Note:①Data sets;②Test cycle;③Cycle shortening percentage;④Power saving;⑤Power saving percentage;⑥Energy saving
針對3個傳感數據集, LWLR和多項式算法采用10次10折交叉驗證計算的平均誤差作為最終誤差,誤差波動如圖2所示。誤差波動值的計算公式為:誤差波動值(%) = 最大誤差(%)-最小誤差(%)。可以看出:數據集中的樣本數越多,誤差波動越小。負載溫度回升數據集的誤差波動最大,耗電量數據集的誤差波動最小,不超過2%。以上結果驗證了PIP-MSP方法具有較好的穩(wěn)定性。

圖2 誤差波動Fig.2 Error fluctuation
本文提出了一種針對多元傳感參數的性能指標預測方法PIP-MSP,此方法使用FSPCC特征選擇算法移除冗余和噪音,選用LWLR和多項式算法訓練模型。3個傳感數據集上的實驗結果驗證了PIP-MSP方法的有效性,此方法能降低傳感特征維數,提高預測準確率,縮短產品性能的預測周期,降低測試能耗。PIP-MSP方法為在開測后短時間內預測本次測試是否合格提供了依據,為實驗室的調度提供了參考,可有效提高實驗室的利用率,減少產品測試環(huán)節(jié)廠房和人工的投入。在PIP-MSP方法中嘗試使用多種特征選擇算法是我們下一步的研究方向。