黃澤英,李海艷,林景亮
廣東工業大學 機電工程學院,廣州510006
基于代理模型的優化方法是現代復雜工程設計的重要技術手段,已被廣泛應用于工程設計優化中[1-3]。此類方法中,仿真模型被視為“黑箱函數”,多次調用數值仿真分析工具獲取“黑箱函數”的足量樣本,并通過代理建模技術構建逼近模型替代“黑箱函數”。但是對于復雜工程,數值求解通常是一個昂貴的過程,例如文獻[4]對沃爾沃D5柴油發動機的一次仿真過程就高達42小時。為了縮短設計周期,應當盡可能減少仿真次數,使用少量樣本構建代理模型。然而,以往方法主要側重于在當前產品的仿真模型上規劃數據來建模,例如多項式響應面模型、Kriging 模型、稀疏響應面等,對以往同類型產品已有的大量仿真數據關注不夠,這些數據中蘊含的大量特征沒有得到重用。因此,對于復雜模型的逼近,此類建模方法對數據量要求較大,并且往往泛化性能不佳。
在統計學習領域,遷移學習已被證明能夠通過引入其他建模任務的知識,改善當前預測模型的泛化性能。如張晨曦等依據YF77 新型發動機和YF75 發動機在構造原理上的一致性,以k近鄰(k-Nearest Neighbor,kNN)和支持向量機(Support Vector Machine,SVM)作為分類器,提出了基于實例和基于模型的遷移策略,大幅度減低了發動機參數的漏報率和誤報率[5];廖一鵬等對卷積神經網絡(Convolutional Neural Network,CNN)進行預訓練,并使用極限學習機(Extreme Machine Learning,ELM)對CNN提取的特征進行分類,使用較少樣本訓練得到高精度浮選工況識別模型[6];Zhu等通過XFOIL程序快速生成徑向基神經網絡(Radial Basis Function Neural Network,RBFNN)代理模型,并將其相關參數遷移至計算流體力學仿真生成的代理模型上,有效地減少了代理建模的時間成本[7]。然而,現有的方法主要集中于構造分類模型,基于遷移學習構造回歸模型的研究相對較少。
綜上,針對在工程產品的迭代更新或者相似工程在特定需求下的重新設計優化中,使用少量樣本構建代理模型以加快設計效率的問題,研究并推導了基于遷移學習的ELM代理建模方法。該方法首先利用相似工程產品研發過程的歷史數據構建極限學習機代理模型;基于此模型,采集新工程產品的樣本數據,通過變可信度近似建模技術構建新工程產品的近似模型;最后,結合近似模型生成的樣本數據和新工程產品的真實樣本,訓練得到關于新工程設計的強泛化代理模型。數值算例實驗和叉車臂架液壓系統的應用案例結果表明,該方法能夠在使用少量訓練樣本的情況下顯著提升代理模型的精度。
多數基于數據驅動的建模方法使用單一源的數據構建代理模型,該類方法下,構造高精度的代理模型需要滿足兩個條件:(1)足夠數量的樣本數據;(2)采集的樣本數據能夠高精度地接近真實模型。從條件(2)的角度看,獲取高精度樣本數據,在工程上通常是一個高度耗時或者高度依賴算力的過程。例如,使用Ansys 或Abaqus 等有限元分析軟件進行工程分析時,為了獲得有限元模型的精確解,需要劃分更精細的有限元網格,伴隨而來的是求解過程的高度耗時和對計算機算力的更高要求,但是劃分粗糙網格的有限元分析模型其求解過程往往十分迅速。因此,很多工程建模問題上存在的一個明顯現象是,低精度樣本數據容易獲取,高精度樣本數據采集成本較高。為了減少高精度樣本數量,可考慮融合低精度樣本。
盡管低精度樣本數據偏離真實模型,但是從數據的全局上看,大量的低精度樣本數據依然能夠反映真實模型的變化趨勢。基于此,考慮到高、低精度樣本數據融合的變可信度近似建模策略得到眾多學者的重視[8-10]。變可信度近似建模策略的核心是如何融合高、低精度樣本數據,具體方法可分為三類:基于標度函數的建模方法、基于空間映射的建模方法和基于Co-Kriging的建模方法[11]。此處僅簡述基于加法標度函數的變可信度近似建模策略。假設高精度分析模型為f h(x),低精度分析模型為f l(x),取少量輸入點高、低精度分析模型的輸出值分別為其差值為:


區別于傳統的機器學習算法使用同一任務的大量數據訓練學習模型,遷移學習通過引入其他任務中學習的知識,提升在特定任務上模型的預測性能[12]。較于變可信度建模策略,遷移學習的一個明顯差別在于其強調的是兩個不同任務知識的融合,而變可信度建模強調的是同一任務的兩種不同精度的樣本數據的融合。但是,可以考慮這樣的思路:變可信度建模策略通過低精度樣本數據的變化趨勢實現數據融合,如果兩個不同的建模任務之間存在較高相關性,那么不同任務之間可視對方為自身的低精度分析模型。從實際的工程問題上看,功能類似的產品的代理模型往往存在較大的相關性,因此可以將相似產品視為自身的低精度分析模型;從遷移學習的角度看,可以將目標域看作一個高精度分析模型,將源域看作目標域的一個低精度分析模型,依據目標域和源域的相關性,變可信度建模策略就可以在其中做進一步拓展。
應用變可信度策略的前提是源域和目標域之間存在一定的相關性,一種簡單的評價指標是使用相關系數:

在很多實際的工程設計問題上,經常需要依據不同的設計需求對產品的參數重新進行優化,考慮到實驗成本、設計周期的問題,僅使用少量的單一源樣本數據構建新的代理模型其預測精度往往很低。由于功能類似的工程產品,其設計原理、硬件構成等都十分相似,其代理模型也往往具有較大的相關性,此情況下,可以引入基于變可信度建模策略的遷移學習方法,如圖1所示。

圖1 基于變可信度的遷移學習建模流程Fig.1 Transfer learning modeling process based on multi-fidelity
本文所提出的基于變可信度的遷移學習策略可以描述如下:首先根據相似工程的歷史累積數據構建代理模型,將該代理模型作為新工程產品設計的低精度分析模型;然后在新工程產品上采集少量樣本,對應變可信度中的高精度分析模型,融合高、低精度樣本數據構建關于新工程產品設計的變可信度近似模型;最后在變可信度近似模型上采集大量樣本,與采集的少量真實樣本混合,構建遷移學習代理模型。
ELM 是一種可以快速學習的單層前饋神經網絡,可用于構建數據的回歸模型[13-14]。ELM 模型可簡寫成線性模型形式:

式中,H和β分別是隱藏層神經元和輸出權重。
本文使用ELM 作為代理模型,推導了兩種基于遷移學習的代理模型構建方法:加法變可信度極限學習機(Additive Multi-Fidelity Extreme Learning Machine,AMF-ELM)和迭代的變可加法變可信度極限學習機(Iterative Additive Multi-Fidelity Extreme Learning Machine,IAMF-ELM)。
步驟1使用源數據集構建ELM代理模型Fs(x),其輸出權重為βs,那么

式中,hs是單個樣本的隱藏層神經元。
步驟2構建基于加法標度的變可信度近似模型。將代理模型Fs作為當前產品設計的低精度分析模型,目標數據集(Xt,Yt)作為高精度分析模型采集的樣本數據,高、低精度分析模型的差值為:


式中,ha是單個樣本的隱藏層神經元。
基于加法標度的變可信度近似模型可以描述為:

步驟3使用第二步得到的近似模型Fmf(x)生成Nr個近似樣本為了準確捕獲該近似模型的變化趨勢,通常Nr?Nt。
步驟4利用步驟3 得到的近似樣本和目標數據集構建關于新工程產品設計的ELM 代理模型Ft(x)=,得到構建模型的優化問題:

式中,第一項和第二項分別是關于近似樣本和目標數據集的懲罰項。寫成矩陣形式可得到:

為了進一步提升模型性能,一種更好的方式是將變可信度近似模型和ELM遷移學習模型在同一個優化問題上進行迭代優化。

模型Ft(x)和Fs(x)的差值函數也可以在差值樣本集上做進一步的近似,以確保Ft(x)可以更加接近真實模型:

由式(8)、(10)、(12)、(13)可得到一個關于βa和βt優化問題:

為了驗證算法的有效性,實驗使用文獻[15]提出的修改版本Frideman回歸問題生成人工數據集:

式中,N是正態分布;ai、bi、ci都是常數;輸入xi相互獨立,且xi~U(0,1),U是均勻分布。
將ai和bi設置為1,ci設置為0,分別隨機采集Nt=10,30,50,70,90,100,200,300,400 個樣本作為目標數據集的訓練集,另外隨機采集10 000 個樣本作為測試集。每次生成源數據集時,令ai和bi從正態分布N(1,0.22)中隨機產生,ci從正態分布N(0,0.12)中隨機產生。每組實驗重復100 次,實驗使用均方根誤差RMSE和相關系數R作為評價指標:

實驗設置了四種模型作為對照:(1)ELM,只使用目標數據集訓練的ELM 代理模型;(2)S-ELM,只使用源數據集訓練的ELM代理模型;(3)AMF-ELM,取由近似模型生成的近似樣本數量Nt=500,輸入權重與S-ELM一致;(4)IAMF-ELM,取由近似生成的近似樣本數量Nt=500,迭代次數設為10,輸入權重與S-ELM 一致。在本次實驗中,正則化系數并沒有提高模型的泛化性能,因此上述模型的正則化系數均取0。
實驗的結果統計如表1所示。可以看到,AMF-ELM和IAMF-ELM的均方根誤差和相關系數均優于未使用遷移學習的ELM,并且訓練樣本數量越少,AMF-ELM和IAMF-ELM 的性能提升越明顯。例如,僅使用10 個訓練樣本時,AMF-ELM和IAMF-ELM相對未使用遷移學習的ELM,其均方根誤差分別下降了41.9%和44.0%,表明在使用少量樣本時,AMF-ELM和IAMF-ELM能顯著提升ELM 代理模型的泛化性能。另一方面,IAMFELM始終優于AMF-ELM和ELM,AMF-ELM始終優于ELM。當增加訓練樣本的數量時,近似模型會更加接近真實模型,意味著從源域遷移得到的模型變化趨勢在構建目標域代理模型時的作用會減弱。因此,從表1可以看到的一個明顯變化趨勢是,隨著訓練樣本數量的增加,三者的泛化性能逐漸接近。

表1 數值測試算例實驗結果統計Table 1 Statistics of experimental results of numerical test cases
為驗證所提算法在實際工程中的作用,將其應用到構建伸縮臂叉車臂架液壓系統代理模型中。伸縮臂叉車是一種被廣泛應用的工業車輛,其臂架的伸縮主要由臂架液壓系統控制。由于臂架伸縮距離較長,工作環境復雜,液壓系統的變幅缸壓力容易出現較大波動,導致臂架劇烈震動,影響其壽命。為了減少變幅缸的壓力波動,需要對變幅缸的最大壓力進行建模和優化,影響變幅缸壓力的相關參數如表2所示。
依據不同的工況需求,需要設計額定負載不同的伸縮臂叉車。前期已經設計了額定負載為10 klb 的伸縮臂叉車,通過動力學分析軟件ADAMS和復雜系統建模和分析軟件AMESim對液壓系統進行聯合仿真,累計采集了500組仿真數據。根據新的設計需求,需要設計額定負載為6 klb的伸縮臂叉車,表2所述參數需重新建模優化。由于同類型的伸縮臂叉車,其臂架液壓系統的組成和構造原理都是一致的,不同額定負載的伸縮臂叉車臂架液壓系統代理模型具有較大的相關性。因此,為了減少仿真次數,縮短設計周期,可考慮使用基于遷移學習的少樣本建模策略,其流程如圖2所示。

表2 輸入參數及其取值空間Table 2 Input parameters and their value spaces

圖2 基于遷移學習的新產品代理建模流程Fig.2 New product surrogate modeling process based on transfer learning
通過ADAMS 和AMESim 聯合仿真,隨機采集200組額定負載為6 klb 的叉車臂架液壓系統樣本,從中分別隨機選取Nt=10,20,30,40,50,70,90,110,130,150 個樣本作為目標數據集的訓練樣本,剩余樣本作為驗證集,每組實驗重復100 次。在模型的相關參數設置上,取近似模型生成的隨機樣本數量為1 000,其余參數均與3.1節的實驗設置相同。
表3 統計了所有重復實驗中RMSE 的均值和標準差,以及S-ELM、AMF-ELM 和IAMF-ELM 相對于ELM的RMSE均值下降的比率。圖3、圖4分別統計了RMSE和R隨著訓練樣本數量增加的變化曲線。

表3 變幅缸最大壓力預測RMSE結果統計Table 3 RMSE result statistics of maximum pressure prediction of luffing cylinder

圖3 均方根誤差變化曲線圖Fig.3 Root mean square error change curve
從實驗結果可以得到以下結論:
(1)由于額定負載為6 klb 和10 klb 的伸縮臂叉車,其臂架液壓系統具有相同的組成和構造原理,從圖4可以看到,盡管S-ELM 沒有使用任何目標數據集的樣本進行訓練,但是依然具有較高的相關系數,此結果也與1.2節假設一致。

圖4 相關系數變化曲線圖Fig.4 Correlation coefficient change curve
(2)AMF-ELM或IAMF-ELM都能顯著提升使用少量樣本訓練時對液壓系統最大壓力的預測精度,例如使用10 個訓練樣本時,AMF-ELM 或IAMF-ELM 相對于ELM,均方根誤差分別下降56.63%和57.68%。此結果表明,相對于ELM 代理建模,構建同等精度的代理模型,基于遷移學習的AMF-ELM和IAMF-ELM代理建模要求使用的原始“黑箱函數”的樣本數量更少,在工程應用上可以有效減少仿真模型或者真實模型的調用次數。
(3)從統計結果可以看到,使用相同數量的訓練樣本時,IAMF-ELM 在兩種指標上都優于AMF-ELM,并且其均方根誤差的標準差更低。因此相對于AMF-ELM,IAMF-ELM泛化性能更好,穩定性更高,但是IAMF-ELM的優化是一個迭代過程,其構造代理模型的時間更長。
針對在工程產品的迭代更新或者重新設計中,要求使用少量樣本構建代理模型的問題,本文對變可信度近似建模策略進行拓展,提出了新的遷移學習建模策略。基于所提的遷移學習策略推導了兩種ELM代理建模方法AMF-ELM和IAMF-ELM,實驗結果表明以下結論:
(1)數值算例實驗和叉車臂架液壓系統變幅缸最大壓力預測的應用案例都表明,本文提出的兩種方法能顯著提升使用少量樣本時的代理建模精度,驗證了基于變可信度的遷移學習建模策略的有效性;
(2)IAMF-ELM 構建的代理模型,在預測精度或者模型穩定性上都優于AMF-ELM,但是AMF-ELM 無需任何迭代,相對于IAMF-ELM能夠更快地構造代理模型。
兩個回歸任務具有較高的相關系數是應用所提算法的前提,如何在相關系數較低的回歸任務之間進行遷移,可作為后續的研究方向。