







關鍵詞: 汽車安全;汽車碰撞試驗;假人力學響應;降維方法;自編碼器
中圖分類號: U 467 文獻標識碼: A DOI: 10.3969/j.issn.1674-8484.2024.03.006
假人力學響應是評價車輛碰撞安全性能的重要參數(shù)之一。假人內部設置的50~70 個傳感器經(jīng)過標定后可用于采集車輛碰撞過程中假人所受的力、力矩、位移、加速度等數(shù)據(jù)。利用上述數(shù)據(jù)可以計算出假人的損傷值,進而對車輛碰撞安全性能進行評價。因此,在碰撞安全和假人開發(fā)等領域,眾多研究者對假人力學響應曲線進行數(shù)據(jù)挖掘研究工作,為汽車碰撞安全裝置的開發(fā)[1-2] 和假人研發(fā)、傳感器標定[3-4] 等提供依據(jù)。
然而,通過碰撞試驗獲得的假人力學響應,都是時序性的曲線形式,樣本數(shù)據(jù)量少且有效信息和冗余信息雜糅,無法直接用于統(tǒng)計分析,曲線也無法與離散參數(shù)構建函數(shù)關系。因此,需要對假人力學響應曲線的有效信息進行提取和降維。
傳統(tǒng)的降維方法可以分為特征選擇和特征提取。
特征選擇法是將原數(shù)據(jù)集按照某種算法抽樣組成新的數(shù)據(jù)集代替原數(shù)據(jù)集,該過程不產生新數(shù)據(jù)[5-6]。
通過為假人響應曲線附加不同的權重,可以對曲線進行不同密度的抽樣,再通過優(yōu)化算法調整權重值,實現(xiàn)優(yōu)化降維的目的。盡管特征選擇法可以通過優(yōu)化算法提取到曲線的某一段關鍵特征,但是仍然無法與離散的設計參數(shù)建立函數(shù)。同時,優(yōu)化算法的訓練容易陷入局部最優(yōu)解,所以需要研究更復雜的優(yōu)化算法來彌補這一缺陷,卻又會導致降維算法更加復雜[7]。
特征提取法通過提取原高維數(shù)據(jù)中的有效信息融合生成低維數(shù)據(jù),該方法會產生新的數(shù)據(jù)集。應用該方法時,先將響應曲線分割為離散的高維數(shù)據(jù)點,再利用降維方法將高維數(shù)據(jù)點降至低維數(shù)據(jù)點。對于常用的特征提取法可以分為線性和非線性2類,其中研究者常用的線性特征提取降維方法是主成分分析法(principal component analysis,PCA)。
W. Sun 使用PCA 法提取尸體碰撞試驗獲取的力學響應數(shù)據(jù)的有效信息,并用于構建與體型信息相關的函數(shù)表達式[8]。通過PCA 降維得到的低維數(shù)據(jù)獨立性強,用于構建函數(shù)時擬合精度高。然而PCA 法獲取的低維數(shù)據(jù)無法保留原數(shù)據(jù)的全部有效信息,而且該方法只能用于樣本數(shù)據(jù)量大于高維數(shù)據(jù)維度的情況,對于假人力學響應這類小樣本降維問題不適用。
為解決假人力學響應數(shù)據(jù)降維問題,彌補現(xiàn)有降維方法的不足,本文提出了自適應自編碼器方法。基于標準自編碼器的原理和假人力學響應數(shù)據(jù)的特征構建限制條件對其進行改進;利用假人力學響應數(shù)據(jù)對標準自編碼器和自適應自編碼器的線性和非線性降維能力和重構能力進行驗證;對仿真結果進行分析總結。
1 自適應自編碼器方法構建
1.1 標準自編碼器算法
標準自編碼器方法被廣泛應用于圖像降維降噪[9-10]、特征提取[11-12] 等領域。標準自編碼器通過改變可訓練參數(shù)的值,使得輸出層的高維數(shù)據(jù)盡可能地接近輸入層的高維數(shù)據(jù),實現(xiàn)網(wǎng)絡自適應訓練的目的[13]。如圖1所示。該網(wǎng)絡左右2 部分中每一層的神經(jīng)元個數(shù)關于中間層對稱,左半部分為降維網(wǎng)絡,右半部分為升維網(wǎng)絡。輸入層、輸出層的神經(jīng)元個數(shù)與力學響應高維數(shù)據(jù)的維度相同。降維網(wǎng)絡和升維網(wǎng)絡的層與層間都設置權值和偏置作為可訓練參數(shù)。
文中標準自編碼器的采用s-p-s的網(wǎng)絡結構,其中:s為輸入層和輸出層神經(jīng)元的個數(shù),p為中間層神經(jīng)元的個數(shù)。選擇均方誤差作為損失函數(shù),選擇適應性矩估計算法(adaptive moment estimation algorithm,Adam) 作為優(yōu)化器函數(shù)。激活函數(shù)Φ可以是線性或非線性的,相應地標準自編碼器即為線性或者非線性標準自編碼器降維方法。
1.2 自適應自編碼器算法
在標準自編碼器網(wǎng)絡中添加權值正交、無關性特征和單位化3 種限制條件[14],構建自適應自編碼器算法,以增強低維數(shù)據(jù)的獨立性。
1) 權值正交。該限制使得被“編碼”的低維數(shù)據(jù)相互獨立的[15-16]。可以避免信息的冗余,使得網(wǎng)絡有更小的規(guī)模。由于該限制的存在,權值矩陣中僅是有價值的權值( 對角線上的) 是非零的,可確保在利用反向傳播算法更新參數(shù)時,有足夠的信息從非零的權值上傳播,避免梯度消失的問題[12, 16]。
2) 無關性特征。該限制對編碼器輸出數(shù)據(jù)的協(xié)方差矩陣的非對角線的數(shù)據(jù)進行限制,使其接近0。該限制同權值正交限制相結合,去除低維數(shù)據(jù)間的相關性。
3) 單位化。該限制可以防止隨著矩陣范數(shù)的增大,低維數(shù)據(jù)的方差增大,無法求得一個合適的解,導致計算出現(xiàn)問題。
利用自適應自編碼器生成的低維數(shù)據(jù),具備獨立性強的優(yōu)點,可以自由地選擇中間層神經(jīng)元的個數(shù)來匹配設計參數(shù)的個數(shù);可以通過選擇激活函數(shù)來實現(xiàn)線性和非線性降維;特殊的網(wǎng)絡結構對小樣本情況也可實現(xiàn)高效降維。
2 降維方法分析與驗證
為驗證自適應自編碼器算法的線性和非線性降維能力,設計了如圖2 所示的驗證過程。
重構均方誤差:是指降維得到低維數(shù)據(jù)重構回高維數(shù)據(jù)后與原高維數(shù)據(jù)的均方誤差值。重構均方誤差值越小,表明重構的高維數(shù)據(jù)精度就越高,進而說明低維數(shù)據(jù)融合高維數(shù)據(jù)的有效信息越多。
互相關系數(shù):是表示變量間相關程度的量。計算方法如公式(1) 所示。本文通過計算低維數(shù)據(jù)間的協(xié)方差值用于評價低維數(shù)據(jù)間的相關程度。低維數(shù)據(jù)間的互相關系數(shù)越接近0,其相關性越弱,獨立性越強。當與車輛或假人設計參數(shù)構建函數(shù)關系時,低維數(shù)據(jù)間的相互影響就越小,構建的函數(shù)精度就越高[7]。
2.1 樣本數(shù)據(jù)集生成
選擇67個汽車側面碰撞試驗中,EuroSID-II假人的頭部重心合成加速度曲線數(shù)據(jù)作為樣本數(shù)據(jù)。如圖3a 所示為其中某一個示例樣本的有效區(qū)間。將樣本數(shù)據(jù)分割為離散坐標點組成高維數(shù)據(jù)集[8]。本文選擇分割間隔為0.1ms 的均勻取樣方法,利用EVA? 軟件,對每一條曲線在有效區(qū)間內進行取樣,所取的坐標點數(shù)為2001個,樣本數(shù)據(jù)集維度為67×2001。圖3b為示例樣本的分割后的坐標點。
2.2 線性降維方法
2.2.1 標準自編碼器線性降維
應用不同網(wǎng)絡結構的線性標準自編碼器對樣本數(shù)據(jù)進行降維。激活函數(shù)為線性激活函數(shù)。由于67 組樣本中每一組的樣本維度都為2001,所以線性標準自編碼器網(wǎng)絡的輸入層和輸出層神經(jīng)元的個數(shù)s=2 001個,即網(wǎng)絡結構為2001-p-2001。p為中間層神經(jīng)元的個數(shù),同樣也是低維數(shù)據(jù)的維度。待損失值穩(wěn)定后保存網(wǎng)絡。如表1所示為不同網(wǎng)絡結構的標準自編碼器對樣本線性降維的重構均方誤差值和低維數(shù)據(jù)間互相關系數(shù)( 互相關系數(shù)為低維數(shù)據(jù)協(xié)方差的絕對值)。
從表 1可以看出,當中間層神經(jīng)元個數(shù)為50 時,均方誤差值最小,為0.032。得到的低維數(shù)據(jù)間互相關系數(shù)的絕對值的最大值都是遠大于0的,例如:p=50時,最大值為5 152。說明線性標準自編碼器得到低維數(shù)據(jù)間有很強的相關性。
2.2.2 自適應自編碼器線性降維
使用不同網(wǎng)絡結構的線性自適應自編碼器對樣本數(shù)據(jù)進行線性降維。激活函數(shù)為線性激活函數(shù)。待損失值穩(wěn)定后保存網(wǎng)絡。如表2所示表示不同網(wǎng)絡結構的自適應自編碼器對樣本數(shù)據(jù)線性降維的重構均方誤差值和低維數(shù)據(jù)間互相關系數(shù)( 互相關系數(shù)為低維數(shù)據(jù)協(xié)方差的絕對值)。
從表 2 可以看出,當中間層神經(jīng)元個數(shù)p=50時,均方誤差值最小,為0.026。得到的低維數(shù)據(jù)間的互相關系數(shù)都是非常接近于0 的。例如: p=50時,最大值為0.035。說明線性自適應自編碼器得到的低維數(shù)據(jù)間不具有相關性。從表2 可以看出:當p = 10~40時,自適應自編碼器學習能力因受到限制條件的影響而導致均方誤差值大于標準自編碼器的相應網(wǎng)絡結構的均方誤差值。
為比較不同均方誤差值情況下,重構曲線對原曲線的擬合程度,繪制均方誤差相差較大的p = 10、p = 50,這2 種網(wǎng)絡結構下的重構曲線。隨機選取某一樣本描繪成力學響應曲線如圖 4 所示。當p = 10、均方誤差為1.75 時,重構的高維數(shù)據(jù)曲線與原數(shù)據(jù)曲線相比,30 ms 之后整體趨勢大致相近,但與原數(shù)據(jù)曲線的最大幅值完全不符;當p = 50、均方誤差為0.026 時,重構的高維數(shù)據(jù)曲線與原數(shù)據(jù)曲線相比,整體趨勢已經(jīng)非常接近,大部分位置的幅值也十分相符,2 條曲線近似重合。
結果表明:線性降維時,自適應自編碼器和標準自編碼器的均方誤差值隨著中間層神經(jīng)元個數(shù)的增加而減小。在中間層神經(jīng)元個數(shù)相同的情況下,自適應自編碼器的部分重構均方誤差略大于標準自編碼器的重構均方誤差,表 1 與表 2 中數(shù)據(jù)表明自適應自編碼器所添加的限制條件對網(wǎng)絡訓練過程中的可訓練參數(shù)取值加以影響,限制了網(wǎng)絡的學習能力。故表2 中p= 10、20、30、40情況下的均方誤差值都比表1 中相應網(wǎng)絡結構的均方誤差值稍大一些,隨著中間層神經(jīng)元個數(shù)的增加,可訓練參數(shù)的個數(shù)也相應增加,網(wǎng)絡的學習能力也被彌補。當p= 50,經(jīng)過一段時間的訓練后,自適應自編碼器的均方誤差值也相應減小。比較兩者的低維數(shù)據(jù)間互相關系數(shù),自適應自編碼器得到的低維數(shù)據(jù)互相關系數(shù)更接近于0,獨立性更強。
2.3 非線性降維方法
2.3.1 非線性激活函數(shù)選擇
實現(xiàn)非線性的降維的關鍵在于非線性激活函數(shù)的選擇。非線性激活函數(shù)是向神經(jīng)網(wǎng)絡中引入非線性的特性。目前廣泛使用的非線性激活函數(shù)有修正線性單元函數(shù)(rectified linear unit,Relu)、LR 修正線性單元函數(shù)(leaky rectified linear unit,Leaky Relu)、雙曲正切函數(shù)(Tanh) 和比例指數(shù)線性單元函數(shù)(scaledexponential linear unit,Selu) 函數(shù)。基于3.2節(jié)可知,中間層神經(jīng)元個數(shù)為50時,均方誤差值最小,因此采用的網(wǎng)絡結構為2001-50-2001。待損失值穩(wěn)定后保存網(wǎng)絡。表3 為不同激活函數(shù)的標準自編碼器和自適應自編碼器對樣本降維的重構均方誤差值。
從表3可以看出:當激活函數(shù)為LeakyReLU 時,2種自編碼器的均方誤差值最小,分別為0.016和0.024,且均小于各自的線性降維的均方誤差值。當激活函數(shù)為SeLU、ReLU時,同種自編碼器內的均方誤差值比較接近,均大于線性降維的均方誤差值。不同種自編碼器間,自適應遠大于標準自編碼器,說明限制條件的增加對SeLU、ReLU激活函數(shù)都有較大影響。而當激活函數(shù)為Tanh 時,2種自編碼器的均方誤差值最大,均為52.65,遠大于線性降維的均方誤差值。將激活函數(shù)為LeakyReLU的非線性標準自編碼器和非線性自適應自編碼器所得到的低維數(shù)據(jù)重構回高維數(shù)據(jù),并描繪成力學響應曲線如圖5和圖6(b) 所示。圖中降維前與降維后重構的整體趨勢已經(jīng)非常接近,大部分位置的幅值也十分相符。因此,本文在研究非線性降維問題時選擇LeakyReLU 作為激活函數(shù)。
2.3.2 標準自編碼器和自適應自編碼器非線性降維
應用標準自編碼器和自適應自編碼器對樣本數(shù)據(jù)進行非線性降維。激活函數(shù)為LeakyReLU 函數(shù)。待損失值穩(wěn)定后保存網(wǎng)絡。如表4 所示為不同網(wǎng)絡結構的標準自編碼器和自適應自編碼器對樣本數(shù)據(jù)非線性降維的重構均方誤差值和低維數(shù)據(jù)間互相關系數(shù)。
從表4 可以看出:當中間層神經(jīng)元個數(shù)為50 時,兩者均方誤差值最小,分別為0.016 和0.024。然而,標準自編碼器得到的低維數(shù)據(jù)間的互相關系數(shù)都是遠大于0的。例如:p=50時,最大值為1098。而后者的互相關系數(shù)都是非常接近于0的。例如:p=50時,最大值為0.23。
表1 與表4 說明:非線性標準自編碼器得到低維數(shù)據(jù)間有較強的相關性。但相比于標準自編碼器線性降維來說,非線性降維的相關性稍弱一些。非線性自適應自編碼器得到的低維數(shù)據(jù)間不具有相關性。選取某一樣本,描繪成力學響應曲線如圖6 所示。
結果表明:非線性降維時,在中間層神經(jīng)元個數(shù)、非激活函數(shù)相同的情況下,自適應自編碼器的重構均方誤差接近于標準自編碼器的重構均方誤差(表4)。比較兩者的低維數(shù)據(jù)間互相關系數(shù),自適應自編碼器得到的低維數(shù)據(jù)互相關系數(shù)更接近于0,說明其低維數(shù)據(jù)的獨立性更強。
通過標準自編碼器對不同激活函數(shù)的驗證,當激活函數(shù)為LeakyReLU時,均方誤差值為0.016,圖5和圖6b直觀地反映LeakyReLU函數(shù)下的重構曲線非常接近原曲線。當 p=50時,2種降維方法非線性降維均方誤差值都略小于線性降維均方誤差值。
3 結論
本文提出了自適應自編碼器方法,并利用碰撞試驗假人力學響應數(shù)據(jù)進行驗證,結果表明對于合成加速度類型的響應曲線,該方法在保證低維數(shù)據(jù)重構均方誤差值低、維度可調的同時,實現(xiàn)線性和非線性的降維,所得到的低維數(shù)據(jù)互相關系數(shù)小、獨立性強,能有效地解決假人響應數(shù)據(jù)與各類設計參數(shù)構建函數(shù)關系時存在維度過高問題。
主要研究結論如下:
1) 相比于標準自編碼器,自適應自編碼器得到的低維數(shù)據(jù)間互相關系數(shù)更小,獨立性更強,更有利于函數(shù)的擬合。
2) 自適應自編碼器能夠實現(xiàn)線性和非線性降維,能夠將低維數(shù)據(jù)重構回高維數(shù)據(jù)。
3) 自適應自編碼器實現(xiàn)非線性降維的關鍵在于非線性激活函數(shù)的選擇,通過相同網(wǎng)絡結構下不同激活函數(shù)的對比驗證,選擇LeakyReLU函數(shù)適用于本文的樣本數(shù)據(jù)降維。