史柏迪 莊曙東 蔡 鳴 江志偉
(1.河海大學機電工程學院 常州 213022)(2.南京航空航天大學江蘇省精密儀器重點實驗室 南京 210093)(3.梅特勒-托利多測量技術有限公司 常州 213022)
在日益增長的物流需求和人工勞動力缺口矛盾面前[1~2],自動化動態稱重技術是物流業發展的必然之路。動態物流秤對于物體重量實時測量大多依賴于壓感式壓力傳感器,作為典型機電復合系統,傳感器受到多因素干擾,例如秤體傳動電機產生的振動干擾[3]、貨物在上秤時對壓力傳感器的沖擊[4~5]當其與傳感器固有頻率一致時極易導致共振現象直接導致采樣信號大量缺失;此外在實際工程運用中因電流與電壓的不穩定,更是加劇傳感器電信號丟失的情況。在當前大數據模式的發展[6]之下各行業均以數據的精確性與完整性作為行業發展的生命線。
缺失信號的補償與重構一直為當前國內外學者研究的重點。基于統計學原理[7]的加權法、刪除法、補插法因過程簡單,算法時間與空間復雜度低,當前單片機、FPGA 等簡易嵌入式開發設備中有著廣泛的使用。M. V. Gashnikov[8]在2019 基于決策規則與樣條插值算法提出一種缺失信號重構算法;Hussain[9]在2020 基于改進的EM 算法,對單邊Lipschitz系統缺失信號進行了精確補償。張麗君[10]在其學位論文之中,研究了高階插值算法在缺失信號重構之中的可行性,且發現當信號缺失比例小于25%時,插值與線性回歸算法精度較高。基于線性回歸原理建立的補償模型基于凸優化[11]原則可解得全局參數最優解,模型簡單可靠。
當信號為多維變量或原信號缺失比例較大時,線性模型重構精度較低。近年隨著機器學習算法的興起,為缺失信號重構提供了更多可行的方案。雖機器學習算法類模型求解過程復雜,大多數情況下需要依賴群體啟發式算法[12]求解局部最優解,但其強大的多元非線性擬合能力,對高缺失比信號的重構提供了可靠方案。L Kong[13]在2013 年提出一種基于壓縮感知重構大量缺失數據的新方法。2015 年劉功生[14]在軸承傳感器數據缺失的情況下基于隱馬爾可夫模型,獲取狀態轉移概率方程,實現了對缺失信號的補償,與軸承故障的精確判斷。Fenggang Wang[15]在2019提出一種基于稀疏學習與自回歸AR 模型的缺失序列重構模型;2019 張婷婷[16]基于BP神經網絡算法建立的重構模型當信號缺失率高達60%時依舊可有效重構信號。
上述機器學習模型本質上均為監督類模型,通過完備樣本基于特定算法進行超參數更新從而有效學習樣本特征降低信號重建誤差。但上述模型當缺失信號比大于70%,特征過分殘缺時重建精度均不大于60%,直接基于現有殘余特征進行信號重構,模型極易達到性能上限實際重構精度難以達到實際使用需求。本文通過引入與壓力高度相關的加速度信號特征,基于加速度信號使用GMM 無監督聚類尋找相似簇樣本,隨后使用高相關性樣本進行殘缺信號信號精確重構,從增加信號特征信息的角度來提高殘缺信號重構精度。本模型分析對象為某公司的TW155 型動態物流秤,目前廣泛運用于各大物流公司的計重收費系統,分析對象具有普遍性。
基于載重(M)、帶速(V)與傳感器采樣頻率(Hz)設計了三因素四水平的標準正交試驗表1,為后期聚類與回歸提供可靠樣本集。
表中,為避免單一測量結果的隨機干擾,各試驗序號下進行100次測試,共計獲取1600組樣本數據。測試系統由前級、測量測與中間級三部分組成,貨物上秤觸發光電傳感器時,壓力與振動傳感器開始采集數據,其采樣頻率為[366,720]Hz。因采樣頻率與帶速不同,貨物上秤采樣信號長度各因素組合下各不相同,均取離開光電信號前150 個點作為采樣信號。傳感器安裝于圖1(b)所示位置。各組樣本其數據格式如式(1):

圖1 測試系統
式中,i為樣本索引(1 ≤i≤1600);a為加速度矩陣向量分別為x、y、z 軸方向,n為壓力傳感器矩陣向量,s為信號長度本模型中即為150。
由式(1)可知原始數據為[1600×7×144]的高維矩陣,即樣本數目(n)為1600,特征指標為7,指標數目為144。數據維度較大,相關性難以直接進行,將各樣本其基于特征取平均值將原始數據降維為[1400×7],使用式(2)對其進行標準化處理。
式中,nor 為標準化數據;i 為樣本索引,j 為指標索引。μj為第j 個特征均值,sj為其標準差。基于式(3)計算可得任意兩個指標之間的相關系數。
式中,rij為指標i 與j 之間的相關系數,計算可得其相關性矩陣表2。

表2 指標相關性矩陣
易知當i=j 時,相關系數為1;且滿足輪換相等性即rij=rji。三軸加速度與壓力信號兩兩之間相關系數均大于0.8,呈現出高度一致性。
此外將三軸加速度與壓力信號基于式(4)進行合成化處理可得合成加速度a及平均壓力信號n。
皮爾遜相關系數式(5)對兩個數據的位置以及尺度并不敏感,無需進行歸一與標準化處理。被廣泛運用于兩個信號之間相關性檢驗。
式中,ai,ni為第i個采樣點的合成加速度與壓力值;μay 與μn分別為合成加速度a 與平均壓力信號n 的均值,計算得其皮爾遜相關系數為0.94。
相關系數與皮爾遜相關性檢驗表明:在TW155物流秤動態測量過程中振動與壓力信號呈現高度相關性。當壓力信號高度缺失時,可用聚類算法基于現有加速度信號從表1 完備數據組中,尋找高度相關樣本簇,實現對壓力信號實現精確補償。傳統k-means[17]、LVQ[18]等聚類算法基于原型向量來建立樣本聚類結構,高斯聚類[19]基于高維多元高斯分布式(6)來對聚類數據的原型進行表達。
式中,μ為均值向量矩陣。R 為相關系數矩陣其計算方式與式(3)相同;n 為特征維數。易知在加速度信號x 完備的情況下,高斯分布完全由μ、R 參數決定,將式(6)簡寫為p(x|μ,R),可定義混合分布式(7):
式中,該分布由k 個混合成分組成,μi、Ri為該混合成分所對應參數;a 為混合系數。令隨機變量zj為第j 的樣本xj的高斯混合成分,其參數μi、Ri基于該迭代輪次t 樣本計算可得,混合系數ai的求解則基于貝葉斯定理可得其后驗概率分布式(8):
式中,計算得xj在第i 個高斯混合分布下的后驗貝葉斯概率,為簡化求解過程,將其記為γij。在上述條件之下高斯聚類將樣本集D 劃分為k 個簇C={C1,C2,…,Ck},各樣本xj由式(9)確定:
由上述式(6)~(9)可知,高斯混合使用高斯概率分布來對模型進行劃分,對于參數μ、R、a可得其極大似然估計函數式(10)。
式(10)采用最大期望算法(EM)進行迭代求解可獲得較好精度,在文獻[20]已經給出詳細求解流程,結合式(6)~(10)得GMM算法流程:
GMM算法流程
Input:sample set D;Gaussian mixture fraction k
Processing:
1.Initialization {(a,μ,R)i|1 ≤i≤k}
2:for t= 1,2,…,T do
3:for j= 1,2,…,m do
5: end for
6:for i= 1,2,…,k do
7: Calculateai,μi,Ribase on EM algorithm
9: end for
10:update {(a,μ,R)i|1 ≤i≤k}
11:end for
12:Ci=?(1 ≤i≤k)
13:for j=1,2,…,m do
15:end for
Output:C={C1,C2,…,Ck}
表中,D 為表1 獲取的加速度樣本集;高斯混合成分數目k 即為聚類數目,m 為樣本數目;T 為迭代次數;最終輸出為劃分完成的聚類樣本C;選用輪廓系數式(11)作為模型與后續重構聚類評價指標。
式中,a(i)為樣本i 到同簇其他所有樣本的平均距離即為簇內不相似度;b(i)為樣本i 到其他簇Cj內所有樣本的平均距離即為簇外不想似度;s(i)約接近1 則該樣本聚類合理;此外定義S 為所有樣本的平均輪廓系數,用來度量模型整體性能。
經過枚舉k 發現當其取值為15 時,輪廓系數S在區間[0,1]達到極大值為0.8476,圖2為對表1中完備樣本劃分為15類時基樣本聚類結果圖。

圖2 聚類效果(k=15)
圖中,x,y,z 三軸加速度為防止因數值波動造成聚類誤差表1中各類樣本均進行了歸一化處理。
當壓力信號n 出現缺失時,使用加速度信號a輸入上述GMM 模型即可找到其相似樣本完備簇C,通過提取其壓力樣本特征來重構殘缺信號。
GMM 模型中完備樣本數目為1600,神經網絡模型雖擬合性能良好,但當樣本容量較小時,即使引入正則化依舊限極易產生過擬合現象,造成重構精度較差。支持向量機通過核方法將低維不可分數據映射至高維空間,此外基于交叉驗證原則求解決策邊界在小樣本容量下擁有極強的魯棒性與泛化性。SVM 模型中核函數k(xi,yi);正則化系數C,相關系數co(poly 與sigmoid 核函數時生效),多項式最大項次n;軟間隔系數to1;作為超參數其初始值設置直接影響模型后續精度。
SVM模型超參數的確認,作為浮點數與整數混合規劃問題,無法基于凸優化原則獲得最優解。使用GA 算法尋找局部最優解。核函數k(xi,yi)采用排列編碼進行選擇其對應關系表3;C 搜索區間為[0,1],co 搜索區間為[0,10],tol 設置為[10-3,10-1],上述浮點數均采用格雷編碼。最大項次,使用整數編碼。

表3 核函數對應表
表中,高斯核中σ帶寬取1,多項式與Sigmoid核中d與β為上述超參數n,該參數在其他內核函數中為無效參數。設置種群數目N 為50,進化次數T為100;特征維度D為5,交叉閾值CR為0.1。
本GA-SVM 模型的SVM 模塊使用sklearn 工具箱進行搭建,GA模塊基于如下步驟進行:
1)尋找簇樣本。基于待重構信號的加速度a,使用GMM 算法尋找其壓力信號所屬簇C,并將其改寫為待重構的n 記為輸入特征X,原始完備樣本簇中壓力信號Y作為輸出。
2)初始化參數。種群NP 由N 個二進制編碼的個體pop={k,C,co,tol,n}組成。
3)迭代準備。基于種群NP,使用sklearn 建立對應SVM 模型,并計算種群初始適應度y,對最優適應度個體pb進行記錄。
4)遺傳進化。對種群NP基于精英策略進行選擇(賭盤法)、交叉、變異式(11),同時將滿足精度的個體加入下輪循環,不滿足精度的個體進行剔除。
5)迭代終止。當迭代次數達到上限T 時,輸出NP中最優個體,并基于此參數建立SVM模型。
6)模型訓練。基于五折交叉驗證原則使用樣本使用樣本(X,Y)對SVM模型進行訓練。
7)信號重構。使用殘缺壓力信號a 輸入SVM模型,對殘缺信號進行重構輸出。
選用平均均方誤差作為性能評價指標,圖3 為缺失比例為0.6時的GA尋優誤差波動。

圖3 GA參數尋優
圖中,當迭代次數達到40 時,模型已經收斂。對100次的最優參數pb按字典形式進行導出:
式中,當缺失比例為0.6 時,查表3 選用rbf 高斯內核,相關系數co,最大項次n 均為無用系數。選用0.1 為分位點,當缺失比例為0.7、0.8 與0.9 時,可得類似誤差曲線。SVM 模型超參數確認后使用SMO算法訓練,在5 折交叉驗證原則下訓練誤差收斂或驗證集誤差發散時迭代終止。
測試集樣本使用三級傳動系統圖1 產生,對圓盤狀43.137kg 貨物在帶速90(m/min),采樣頻率400(Hz)下進行100 次壓力信號測定,后使用random 函數對采樣的150 個數據點隨機依次剔除60%、70%、80%、90%壓力信號數據點。使用未經聚類的GA-SVM、GA-BP 進行性能對,測試計算機配置為 CPU:i7-9750H、RAM:16GB、GPU:GTX1660Ti。選用運算時間(s)、平均絕對誤差式(13)、最大誤差項式(14)及校正決定系數式(15)評價信號重構修復后與原信號的相似度。
式(13)~(15)中,n 為樣本數目,i 為其索引;k 為一個樣本所包含的信號點數,j 為信號點索引;f 為模型的重構輸出y 為壓力傳感器真實觀測量;調整絕對系數通過加權考慮輸入特征數p,有效避免決定系數R2對樣本數目n的波動敏感的問題。表4為各模型的性能度量。

表4 模型性能測試
表中,GA-BP 為雙隱層結構,神經元數目依次為150、60,使用Adam 優化器進行訓練;經過樣本聚類處理的GA-SVM 相對GA-SVM、GA-BP 模型平均絕對誤差與最大誤差顯著降低,且調整絕對系數最大有著最好的擬合精度。GA-BP模型基于pytorch 框架搭建,使用了cuda 進行GPU 并行加速運算,時間復雜度最低。但因受限于樣本數目,信號重構修復精度并不理想。當信號缺失率低于80%時,對原測試集信號平均解釋度為0.956,誤差可控于5%。圖4 為當缺失比例為90%時,各模型實際重構修復效果。

圖4 信號重構效果
圖中,可知當信號缺失率為90%時通過引入高度相關的振動加速度信號各模型均可還原原始信號基本走向趨勢。結合表4,GMM-GA-SVM 模型尋找高相關樣本聚類后建模,相對使用樣本集直接建模可以獲得更好的擬合精度。
1)當信號缺失率高于60%時,因特征高度缺失擬合回歸算法直接重構信號誤差較大,可基于皮爾遜相關性檢測尋找與原始信號高度相關的信號源,使用特征工程提高信號重構精度。
2)模型重構精度不僅受限于算法、樣本容量,還與樣本相關性直接相關。直接使用大量訓練集樣本訓練模型雖可提高模型的泛化性能力,但相對于特定待修復信號直接引入泛化性誤差。本文中基于GMM算法聚類選擇高度相關樣本作為樣本集對特定樣本重構精度提升顯著。
3)GA-BP模型因pytorch框架引入GPU并行運算cuda 接口,時間復雜度顯著降低。希望后續算法工具箱可大量普及,對提高運算效率意義重大。