999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于長短期記憶網絡的FRP 約束混凝土圓柱循環軸壓應力-應變預測模型

2024-02-25 01:27:54姜克杰
工程力學 2024年2期
關鍵詞:機制混凝土模型

姜克杰,胡 松,韓 強

(北京工業大學城市與工程安全減災教育部重點實驗室,北京工業大學,北京 100124)

FRP(Fiber Reinforced Polymer)作為一種纖維增強聚合物,因其輕質、高強、耐腐蝕、耐疲勞等優點而受到土木工程領域的廣泛關注,近年來在土木工程領域得到了廣泛的應用[1-2]。其中一個重要的應用方向是將其用于約束混凝土,使混凝土處于三向應力狀態,從而顯著提高其強度、韌性和延性[3]。近年來,越來越多的FRP 約束混凝土復合材料被開發和應用[4-7]。除了用于混凝土結構的加固,FRP 還被用于新建結構。

在實際應用中,為了保證FRP 約束混凝土柱設計的可靠性和經濟性,有必要全面了解FRP 約束混凝土在單調軸壓和循環軸壓下的應力-應變特性。隨著試驗數據的累積以及機器學習技術的進步,基于知識的或數據驅動的建模范式引起了許多研究者的關注。與傳統的基于力學原理的材料行為建模方法不同,基于知識的或數據驅動的建模范式為材料行為的預測提供了另一種途徑。這種想法可以追溯到GHABOUSSI 等[8]的工作,他們使用神經網絡對材料的力學行為建模。目前,這種建模范式現已被廣泛應用于土木工程材料和構件的力學行為預測。數據驅動的建模方法能夠自適應地從試驗數據中學習材料的力學特性,學習到的力學規律被存儲在神經網絡的權重參數中。這在一定程度上克服了傳統建模方法的不足,主要表現為:1)不依賴于專家經驗和先驗的模型假設,可以快速開發復雜的力學模型;2)建模能力通過“萬能近似定理”[9]得到保證;3)具有很強的可擴展性和可維護性。

許多研究者采用ANN 方法對FRP 約束混凝土圓柱的抗壓強度進行了預測[10-13],結果表明:ANN 具有很強的非線性映射能力,預測精度均優于傳統的數學模型。WU 等[14]基于RBF 神經網絡對FRP 約束混凝土圓柱的抗壓強度進行了預測。CASCARDI 等[15]基于ANN 對FRP 約束混凝土圓柱的約束有效性系數進行預測,進而得到抗壓強度。NADERPOUR 等[16]采用ANN、遺傳編程和GMDH 方法對FRP 約束鋼筋混凝土圓柱的抗壓強度進行了預測,并給出了簡化的預測方程。遺傳編程方法可以給出顯式的表達式,因此也被用于預測FRP 約束混凝土圓柱的抗壓強度[17-20]。除了ANN 外,逐步回歸、模糊邏輯、自適應神經模糊推斷系統、多變量自適應回歸樣條和M5 模型樹也被用于對比[21-22]。此外,ELSANADEDY 等[23]和MANSOURI 等[22]采用ANN 對FRP 約束混凝土圓柱體抗壓強度和極限應變進行了預測。除FRP 約束混凝土圓柱外,少量的研究者也對FRP 約束混凝土方柱/矩形柱的極限條件進行了預測[24-26]。張書穎等[27]提出了一種基于XGBoost 集成學習的FRP 加固混凝土梁抗彎承載力預測方法。最近,JIANG 等[28]建立了基于ANN 的FRP 約束混凝土的極限條件預測方法,并開發了具有遞歸結構的ANN 模型用于單調軸壓下應力-應變全曲線的建模。

可以看到,數據驅動的建模方法在FRP 約束混凝土極限條件預測方面取得了長足的進展。然而,就作者們所知,在數據驅動的建模背景下,目前還沒有針對FRP 約束混凝土的應力-應變全曲線建模進行過系統的研究,尤其是循環軸壓下復雜的滯回行為。JIANG 等[28]僅對單調軸壓下FRP約束混凝土的應力-應變全曲線進行了研究。然而,循環軸壓下FRP 約束混凝土的應力-應變行為的建模需要考慮復雜的加卸載規則和荷載路徑相關的記憶效應,因此更具挑戰性。這促使研究者開發一種新的能夠處理這種復雜行為的數據驅動的建模方法。

在數據驅動的材料或構件的全曲線力學行為建模領域已經發展了幾種建模方法。LUO 等[29]提出了一種基于多輸出支持向量機的骨架曲線模型ML-BCV,用于快速預測鋼筋混凝土橋墩在彎曲、剪切以及彎剪破壞模式下往復循環加載的骨架曲線。ML-BCV 預測時考慮了橋墩的基本材料和幾何特性、外部荷載和失效模式,但是僅能用于預測骨架曲線。HUANG 等[30]提出了一種基于ANN 的滯回力-位移模型ML-HLFD,用于表征具有不同特性的鋼筋混凝土橋墩的側向力和位移之間的關系。ML-HLFD 是一種兩階段的方法,模型輸入與ML-BCV 類似,但模型的輸出是傳統滯回模型的參數,如Pinching4 模型。預測得到滯回模型的參數后,仍基于傳統滯回模型進行計算。然而這種方法受到傳統滯回模型建模假設和建模能力的約束,僅能提供不準確的滯回力-位移曲線。

近年來,深度學習方法在土木工程中的交叉應用領域取得了一些新的進展。例如,WU 等[31]基于深層卷積神經網絡(CNN)對結構動力響應進行估計。XU 等[32]提出了一種基于長短期記憶神經網絡的區域震害實時評估框架,許澤坤等[33]發展了類似的響應預測方法,并改進了模型的評價指標。最近,深度學習方法也被用于材料或構件的全曲線力學行為建模。WANG 等[34]提出了一種基于GRU 和混合注意力機制的材料模型深度學習框架UA-Seq2Seq,用于對具有歷史依賴特性的響應進行預測。然而,他們使用傳統的Teacher forcing 機制[35]訓練模型,可能導致訓練過程不穩定和不魯棒的預測結果。XU 等[36]提出了一種兩階段的模擬復雜滯回行為的高級矯正訓練策略,然而,兩階段的矯正訓練策略也顯著增加了訓練過程的復雜度。與ML-HLFD 等模型不同,這些基于深度學習的建模方法能夠以端到端的方式建模,且不對模型的行為施加先驗約束,因此具有更強的靈活性。目前,針對此類模型在網絡架構設計、訓練策略以及模型的魯棒性等方面的研究仍存在顯著的提升空間。

本文提出了一種用于建模循環軸壓下FRP 約束混凝土柱應力-應變特性的神經網絡預測模型。主要貢獻和創新性可以總結為以下幾個方面:

1)提出采用長短期記憶(LSTM)單元和簡化的注意力機制對循環應力-應變曲線中廣泛存在的顯著的滯后性和復雜的加卸載規則進行建模。所提模型的記憶能力來自三個方面,即輸入中的歷史信息、LSTM 隱層狀態以及注意力機制提供的上下文向量。

2)將構件的物理參數有效地集成在網絡的輸入中,用于應力-應變曲線的條件生成。

3)提出采用相對損失函數訓練模型,避免受到樣本長度和幅值的影響,能夠更加準確一致地描述模型的預測精度。

4)提出了數據裁剪和漸進訓練機制用于提高模型訓練穩定性和預測精度,并抑制曝光偏差問題。

該模型能以端到端的方式進行高效的訓練且不依賴任何專家經驗。通過一個FRP 約束普通混凝土柱的循環軸壓數據庫對所提模型的準確性和魯棒性進行了充分的評估。該模型旨在為FRP 約束混凝土材料循環軸壓模型的快速開發提供一種新的途徑。其可以用于指導新型FRP 復合材料的研發和結構設計,也可以作為傳統材料模型的替代。

1 方法論

循環荷載下應力-應變曲線(或力-位移曲線)中的滯回效應是循環材料模型建模的關鍵。這種滯回效應來自循環加載和卸載過程中試件中材料的累積損傷以及內部的耗能機制。此外,隨著加卸載過程的進行往往還伴隨有試件強度和剛度的退化。因此,滯回效應的本質是試件應力-應變響應的荷載時程依賴性。這種荷載時程依賴性要求在計算當前加卸載步的響應時,必須對試件經歷的加卸載循環歷史進行有效的回溯。這等價于要求神經網絡應當具有某種記憶能力,記錄試件曾經受到過的加卸載歷程,從而判定系統在當前荷載步所處的狀態并做出正確的預測。

然而,賦予神經網絡記憶能力并不容易,尤其是長期記憶。傳統的ANN 并不具備記憶能力,盡管ANN 可以擬合任意復雜的函數(f:A→B,對于集合A中的任何一個元素a,在集合B中都存在唯一的一個元素b與之對應)[9]。然而,循環軸壓下的應力-應變曲線存在同一輸入對應多個不同輸出的情況。即,循環應力-應變曲線并不屬于函數的范疇。JIANG 等[28]使用了一種具有反饋遞歸結構的ANN,手動地為ANN 網絡賦予了簡單的記憶能力。然而,這種簡單的記憶能力對于建模復雜的循環應力-應變曲線并不是最優的。當加載時程較長時,可能需要長程記憶。受到深度學習中自然語言處理(NLP)領域對語言建模的啟發[37-38],本文使用長短期記憶(LSTM)單元[39]作為模型中的記憶部件,并采用注意力機制[40]增強模型的記憶能力。

1.1 循環神經網絡RNN 和長短期記憶網絡LSTM

循環神經網絡(Recurrent Neural Network, RNN)是一種專門為時間序列建模設計的具有記憶能力的神經網絡[41],其結構具有循環本質。RNN 不僅能考慮當前時間步的輸入,也能通過反饋連接考慮歷史輸入的影響。因此,循環軸壓應力-應變曲線中的時程依賴性可以被充分地考慮。RNN 的計算圖如圖1 所示。假設輸入序列為x=[x1,x2,···,xT],xi∈Rm,輸出序列為y=[y1,y2,···,yT],yi∈Rn。對于時間步t,RNN 中的計算過程可以表示為:

圖1 單向 RNN 計算圖及其展開結構Fig.1 Unidirectional RNN computation diagram and its expanded structure

式中:W和b為可學習的網絡參數;Wx、Wh和Wy分別為輸入變量xt、上一時間步的隱變量ht-1和當前時間步的隱變量ht的權重參數矩陣;bh和by稱為偏置;ht-1和ht∈Rd為隱層狀態向量(h0=0);f為非線性激活函數。在每個時間步RNN 都使用一個全連接網絡,即,普通的ANN。在不同的時間步,RNN 網絡參數共享。從式(1)看出RNN 模擬了一個非線性的微分動力系統,并且理論上RNN能夠以任意精度逼近任意一個非線性動力系統[42]。

從形式上看,式(1)和式(2)是傳統的狀態空間模型的非線性擴展。RNN 通過上一時間步的隱層狀態ht-1考慮歷史輸入的影響。即,RNN 假定所有的加載歷史信息均由ht-1表示。這種假定具有馬爾科夫屬性,這簡化了模型的復雜度。然而,當加載時程序列較長時,受限于隱層狀態向量ht-1的表示能力,模型會不可避免地遺忘過去輸入的荷載信息。這種現象被稱為“記憶飽和”。這導致RNN 僅具有短期的“記憶”能力,其對于循環軸壓下應力-應變的建模是不利的。此外,在處理長時間序列時,RNN 的訓練容易產生梯度消失和梯度爆炸等問題[43]。

目前,為了克服RNN 的長期依賴問題,一種主流的做法是引入精細的門控單元[37,39],用于調節信息的流動。本文采用的LSTM (Long Short Term Memory)神經網絡是目前最流行的網絡結構之一。LSTM 神經網絡是一種具有長時間記憶能力的網絡,可以在一定程度上緩解長期依賴問題。圖2給出了LSTM 網絡計算圖。圖3 給出了常用的激活函數。LSTM cell 的計算圖如圖2(a)所示。LSTM 通過引入遺忘門、輸入門和輸出門,以及新的內部狀態Ct獲得捕捉長期依賴關系的能力。

圖2 LSTM 網絡計算圖Fig.2 LSTM network calculation diagram

圖3 激活函數Fig.3 Activation function

LSTM 單元內部的計算流程可以表述如下。

遺忘門可以計算為:

式中,σ(x)為Sigmoid 激活函數,輸出介于0~1 之間,如圖3(a)所示。為了表述的簡潔性,這里以及下文等式中的W和b均為可學習的網絡參數。

輸入門計算為:

式中:it的計算使用了Sigmoid 激活函數;Ct的計算使用了Tanh(x)激活函數,如圖3(b)所示。

下一步是基于遺忘門和輸入門提取的信息執行對Ct狀態的更新,計算如下:

式中: ?為逐元素相乘;ft?Ct-1為需要遺忘的信息;it?為需要增加的信息。

輸出門計算為:

如圖2(b)所示,這里ht有兩個作用:一方面,ht將作為輸入到下一個時間步的記憶變量;另一方面,ht將作為當前時間步的外部輸出,其可以作為后續網絡層的輸入特征。例如,后續網絡層可以是另一層LSTM 網絡或ANN 輸出層。對于后者可以計算為:

LSTM 網絡層的展開結構如圖2(b)所示。LSTM cell 與RNN 類似,具有首尾相連的反饋連接。區別在于LSTM cell 內部具有精細設計的門控機制。需要指出圖2(b)中每個時間步的LSTM cell是同一個網絡,即每個時間步LSTM cell 的網絡參數是共享的。

1.2 基于LSTM 的循環軸壓應力-應變模型

循環軸壓應力-應變曲線的建模本質上可以看作是序列到序列(Seq2Seq)的映射問題。典型的輸入-輸出序列如圖4 所示。

圖4 典型的輸入-輸出序列Fig.4 A typical input-output sequence

建模的挑戰在于輸出對荷載路徑的依賴性和復雜的加卸載規則,本文通過具有記憶能力的LSTM cell 進行建模。基于LSTM cell 和ANN 設計了FRP 約束混凝土的循環軸壓應力-應變模型,如圖5 所示,其具有Seq2Seq 網絡架構[38]。該模型包括5 個部分,即輸入、編碼器、解碼器、輸出層和輸出預測值。編碼器和解碼器均使用LSTM cell,負責對輸入特征進行編碼和翻譯為抽象特征。輸出層的ANN 最終將這些特征映射為輸出預測值。

圖5 模型架構Fig.5 Model Architecture

首先,對網絡的輸入進行了仔細設計。將輸入序列記為x,輸出序列記為y。模型可以為應變ε驅動或應力 σ驅動。這里以應變驅動為例進行說明。為了能夠預測不同試件的力學行為,網絡的輸入必須有效整合試件的材料參數信息。此外,盡管LSTM cell 具有一定的記憶能力,仍有必要將最近的幾個歷史輸入輸出數據作為輸入的一部分用于增強網絡的建模能力和魯棒性。因此,所提網絡的輸入由3 部分組成,分別為材料參數θ、當前時間步的應變輸入值 εi以及最近的 λ個歷史輸入和輸出值對γi=(εi,σi)。第i個時間步的輸入表示為:

式中,材料參數θ為FRP 約束混凝土試件的基本幾何和材料屬性,表示為:

式中:D為約束混凝土核心的直徑;H為試件高度;為非約束混凝土的峰值應力; εco為非約束混凝土的峰值應變;Ec為混凝土彈性模量;t為FRP 的總厚度;EFRP為FRP 的彈性模量;εh,rup為FRP 的環向斷裂應變。除了以上材料的測量參數,還考慮了三個手工制作的特征用于增強預測性能,即剛度比 ρK、應變比 ρε和約束比,fl為約束應力的最大值(環向拉應力導致FRP 斷裂時的圍壓)。這三個手工特征的具體計算方式與文獻[28]保持一致。

盡管LSTM cell 自身已經具備卓越的記憶能力,發現網絡輸入中顯式地包含最近幾個歷史時間步的輸入輸出信息 γi可以進一步改善預測效果。本文選取最近的 λ個時間步的歷史輸入-輸出信息作為輔助特征:

需要指出,對于最初幾個時間步的輸入,可能還沒有生成足夠的歷史信息用作輸入。對于這種情況可以用0 值或固定的常量進行填充,如圖5所示。最終,結合材料參數 θ 和 γ以及當前時間步的應變輸入值 εi,網絡的每個時間步共包含11+2λ+1個輸入特征。

通常,在網絡訓練階段式(14)中的歷史值為真實的應力-應變值。而在測試階段真實的應力-應變值將是不可訪問的,因此他們將是網絡的預測值,如式(15)所示。這種訓練策略被稱為“Teacher forcing”[35],如圖5 中的帶箭頭的虛線所示,這意味著,網絡在訓練時是開環的,而在測試階段他們將轉為具有輸出反饋連接的閉環機制。盡管這種策略加速了網絡訓練,然而訓練好的模型可能存在曝光偏差問題[44]。關于這種機制的討論及影響將在后文給出。為了避免曝光偏差,本文提出漸進訓練機制,并在訓練和測試時均使用式(15)中的預測值。

對于編碼器和解碼器中的LSTM 層,可以采用一層或多個LSTM cell 層的堆疊。與普通的ANN 相比,深層的LSTM 網絡并不容易訓練。因此,并不建議使用過深的LSTM 層。如圖5 所示,在每個時間步中,對于Encoder,輸入特征xi將與LSTM 層中上一時間步的編碼隱層狀態(記憶信息)hi-1相融合。對于Decoder,輸入hi將與上一時間步的解碼隱層狀態相融合。這些融合后的特征一方面作為當前時間步應力預測的特征,另一方面也作為記憶信息向后傳遞。關于LSTM層的層數以及隱層狀態ht和Ct的維度將作為超參數在后文進行詳細討論。

輸出層為簡單的單層前饋神經網絡[28],如圖6所示。輸出層接收來自LSTM 層的融合特征,并負責將這些特征向量映射為最終的應力。式(11)描述了圖6 中的計算過程。需要指出,輸出層的權值在每個時間步中是共享的,即同一個輸出網絡在每個時間步被重復使用。

圖6 單層前饋神經網絡Fig.6 Single layer feedforward neural network

1.3 基于注意力機制的記憶力增強

圖5 中的Seq2Seq 網絡架構的主要缺陷在于用于存儲記憶的隱層狀態ht維度是固定的。隨著序列的增長,ht的容量容易達到飽和。目前,一種有效的改進是引入一個額外的動態外部記憶狀態,稱之為上下文向量。注意力的關鍵思想在于,在獲得t時間步的解碼隱層狀態后,將作為查詢信息對之前所有的編碼隱層狀態信息HEn=[h1,h2,···,ht-1]進行檢索。目前,存在兩種典型的注意力機制,Bahdanau Attention[45]和Luong Attention[46],主要區別在于解碼層和注意力層的順序以及注意力向量的計算方式。本文采用Luong Attention,計算圖如圖7 所示。

圖7 注意力機制計算圖Fig.7 Calculation diagram of attentional mechanism

注意力向量的計算流程簡述如下:

步驟1:計算第t時間步的解碼隱層狀態∈Rd;

步驟2:基于計算HEn=[h1,h2,···,ht]∈Rd×t中每個歷史編碼向量的對齊得分(alignment scores):

注意,本文使用dot 形式的模型計算對齊得分,其僅僅計算兩個向量的內積(即相似性),存在的其他模型參考GALASSI 等[40]的工作。

步驟3:基于對齊得分計算歸一化的注意力權重(attention weights):

步驟4:基于注意力權重 α對HEn加權求和得到上下文向量(context vector):

可以看到上下文向量CV是HEn的凝縮,其提供了額外的動態記憶,并隨著隨時間步而變化。隨后,將上下文向量與解碼隱層狀態拼接用于預測第t時間步的應力值。將式(11)改寫為:

式中,激活函數ReLU(x)=max(0,x),如圖3(c)所示。注意,本文使用ReLU[47]約束應力輸出為非負值。ReLU避免了Sigmoid激活函數在輸出值接近1 時的梯度飽和問題(導致預測結果偏低)。

所提模型的整體計算流程如圖8 所示。本文的建模過程可分為數據預處理、網絡訓練和模型評估、網絡超參數優化三個部分,每個部分的細節將在下文詳細闡述。

圖8 整體建??蚣芎陀嬎懔鞒蘁ig.8 Overall modeling framework and calculation process

2 數據集的準備和預處理

2.1 數據集的準備

為了對所提模型的準確性和魯棒性進行充分的評估,制作了一個包含166 個FRP 約束普通混凝土柱的循環軸壓數據庫,試件的具體參數參考文獻[28]。由于模擬精度的原因,原始數據庫中的28 號、29 號和103 號樣本未參與計算。數據庫中試件直徑D的范圍為100 mm~200 mm,非約束混凝土的強度范圍為26.2 MPa~55.2 MPa,約束比的范圍為0.0169~0.994。包含的FRP 類型包括CFRP、高模量CFRP、GFRP、E-glass FRP和AFRP。本文采用LAM 和TENG[3]的模型作為基準模型。對166 個FRP 約束普通混凝土柱的應力-應變響應進行了模擬。這些數據隨后被用于所提神經材料模型的訓練和測試。

數據集使用的加載路徑如圖9 所示。圖9(a)給出了幾個典型的加載路徑。不同試件每級的加載水平大致相同,并卸載至應力為零。這導致不同試件的卸載點基本相同,再加載點不同。每級循環2 次~3 次。數據集中使用的隨機加載路徑如圖9(b)所示。應變增量步長設為10-5,考慮到計算的精度和訓練成本,將生成的數據下采樣為原來的1/10。在實際應用中,相同的分析精度下,不同的加載路徑會導致不同長度的響應序列,這意味著測試序列和訓練序列的長度可能是不同的。然而,所提模型使用的LSTM 單元具有處理任意長度序列的能力。因此,測試序列的長度沒有必要與訓練集相同。

圖9 加載路徑Fig.9 Loading paths

2.2 數據的預處理

如式(12)所示,模型的輸入分為兩個部分,即試件參數和應力-應變歷史。這些輸入特征在尺度上可能存在顯著差異,如FRP 的厚度和試件的高度不在同一個數量級。這導致輸入中不同維度的特征具有不同的權重。輸入特征的這種量級差異將會給模型的優化帶來困難,同時也會降低模型的精度。實際上,神經網絡模型真正需要學習的是輸入-輸出之間的變化模式,而跟特征的絕對幅值無關。因此,在訓練模型之前有必要對輸入特征進行歸一化處理[48]。在機器學習中,常用的數據歸一化方法有最大-最小歸一化和z-score 歸一化兩種。

最大-最小歸一化采用式(20)將輸入中每個維度的特征分別縮放至[0, 1]區間:

式中:x為縮放前的特征;xs為縮放后的特征;max(x) 和min(x)分別為訓練集中特征x的最大值和最小值。注意,不同特征的縮放是獨立進行的。

z-score 歸一化方法將數據集縮放為均值為0,方差為1 的高斯化數據:

式中,mean(x) 和std(x)分別為訓練集中特征x的均值和標準差。

試件參數采用z-score 歸一化方法進行處理,而應力-應變時程采用最大-最小歸一化。本文數據的歸一化采用scikit-learn[49]。預處理模塊中的MinMaxScaler 和StandardScaler 完成。將歸一化后的數據集用于模型的訓練和測試。

2.3 數據集增廣和漸進訓練機制

受限于試驗成本,對于材料本構模型的開發,通常僅能訪問較少的試驗數據。此外,通過初步評估發現當應力-應變序列非常長時,序列模型收斂緩慢,而且預測精度不佳。為克服以上兩點困難,本文為神經材料模型的訓練提出了一種新的訓練機制,即模型的漸進訓練。將數據集中的每個應力-應變曲線序列均勻(或隨機)裁剪為K份,表示為[(ε1,σ1),(ε2,σ2),···,(εK,σK)]。然后將分割后的序列以遞增的方式拼接起來,[[(ε1,σ1)],[(ε1,σ1),(ε2,σ2)],···,[(ε1,σ1),(ε2,σ2),···,(εK,σK)]]。這至少提供了兩方面的好處:一方面序列長度以遞增的方式呈現,學習的難度也是遞增的,更容易學習的短序列對網絡起到穩定和引導的作用;另一方面,數據裁剪后由于樣本量增多應力-應變曲線的每個部分被網絡更頻繁的訪問,這顯著提高了信息的利用率。本文采用均勻裁剪的方式,K=20。經驗結果表明:所提出的數據增廣和漸進訓練機制顯著加快了模型的收斂速度,提高了預測精度。

3 網絡的訓練

本文采用開源神經網絡計算框架PyTorch 1.9[50]構建圖5 所示的網絡模型。采用基于誤差反向傳播的mini 批隨機梯度下降算法對網絡進行訓練。該方法每次從訓練集中隨機選取(不放回抽樣)一批樣本作為輸入,批尺寸為N。網絡同時對一批樣本的響應進行迭代預測,計算是并行的。然后,計算預測值和真實值之間的誤差,并通過反向傳播算法對網絡參數進行更新。本文將批尺寸N設為1。采用平均相對誤差(MRE)作為序列預測值和真實值y之間誤差的度量:

式中:yij為第i個樣本的第j個應力值;Li為第i個樣本的長度。需要注意,不同樣本通常具有不同的序列長度Li。此外,數據增廣中使用的隨機裁剪也使訓練樣本的長度之間非常不同。因此,本文推薦使用相對損失MRE,其為各個變長樣本的預測精度提供了更為客觀的評價。

具體地,網絡優化算法采用Adam 算法[51],該算法是一種基于一階梯度信息的隨機目標函數優化算法。學習率(LR)是神經網絡訓練過程中另一個重要的超參數,它決定了參數更新的速度。當學習率過大時,可能會跳過局部最小值點;當學習率過小時,會消耗過多的迭代時間。本文的初始學習率設置為0.001。由于Adam 算法是一種自適應學習率的算法,訓練過程中每個參數的學習率會根據一階和二階動量自適應地調整。本文中,Adam 一階矩估計和二階矩估計的指數衰減率β1和 β2分別為0.9 和0.999。此外,還利用指數型學習率衰減來改善模型的收斂性。學習率隨訓練的輪次(Epoch)呈指數型衰減,LRE=0.001·γE。本文衰減指數γ=0.98。

由于本文使用的數據集規模較小,模型可能發生過擬合。為了避免過擬合,采用早停機制來控制模型的訓練程度[28]。如圖10 所示,如果網絡訓練在第n個輪次達到最小測試誤差,并且從第n個輪次開始連續p個輪次不刷新最小測試誤差,則訓練停止并將第n個輪次的模型作為最優訓練模型。其中,p稱為耐心值,本文p=30。這種早停機制可以有效地避免網絡發生過擬合。

圖10 早停機制Fig.10 Early stop mechanism

4 結果與討論

4.1 超參數影響及最優網絡配置

首先對網絡的超參數進行了研究,以期找到合適的網絡參數配置并評估網絡性能對超參數選取的敏感性。本文編碼器和解碼器中LSTM 層數均取1 層,經驗結果表明這對當前的建模任務是足夠的。對于更復雜的材料行為可能需要更深的網絡。LSTM 中的隱層狀態向量ht和Ct使用了相同的維度。編碼器和解碼器中的隱層狀態向量ht和維度也是相同的。研究了隱層狀態向量的維度以及輸入中考慮的歷史時間步長對預測性能的影響。隱層狀態向量的維度分別取16、32 和64,如表1所示。輸入中考慮的歷史時間步長 λ分別取1、10和20,如表2 所示。每個配置下網絡的總參數也列于表中。

表1 對 LSTM 隱層狀態維度的分析Table 1 Analysis of LSTM hidden layer state dimension

表2 對輸入中歷史時間步長λ 的分析Table 2 Analysis of the historical time step λ in the input

隨機選取80%(133 個)的樣本作為訓練集,剩余20%(33 個)的樣本用于模型性能測試。采用所提方法進行數據增廣后訓練集和測試集分別包含2660 個和660 個樣本。由于增廣后訓練集具有充足的樣本,將輪次最大值設為50。模型的評估指標采用式(22)中的MRE,其中N等于訓練集或測試集樣本總數。計算機配置為Intel(R) Core(TM)i7-10700KF CPU @ 3.80 GHz GPU Nvidia GeForce GTX 1080。50 個輪次的訓練大約需要25 h。

不同網絡配置下的訓練曲線如圖11 所示??梢钥吹皆诮涍^1 個輪次后不同網絡配置下的測試集誤差通常低于10%,表明網絡能夠迅速收斂。這得益于所使用的數據增廣和漸進訓練機制。在經過50 個輪次后,網絡基本收斂。最終的訓練集和測試集精度列于表1 和表2 中。圖11(a)表明三種隱層狀態維度下的測試集性能接近,且網絡均沒有發生過擬合。隨著隱層狀態維度的增加,模型性能略有提升。圖11(b)表明輸入中包含的歷史時間步的數目對網絡的收斂速度有顯著影響,然而,其對最終的測試集精度僅有輕微的影響。這可能得益于注意力機制,當輸入中的歷史時間步長較小時,網絡的記憶能力會更多地求助于上下文向量CV中的歷史信息。以上分析表明,所提模型的性能對LSTM 隱層狀態維度和的歷史時間步長取值較為魯棒。采用Case 3 作為最優配置用于后續的分析。

4.2 網絡泛化性能評估

圖12 給出了最優配置下的網絡對測試集樣本循環性能的預測結果。限于篇幅,這里僅展示部分樣本,其余樣本具有一致的精度。所示應力-應變曲線是經過歸一化的。應變歸一化系數為0.0111,應力歸一化系數為73.0351 MPa??梢钥吹筋A測應力值與真實應力值匹配良好。需要強調,測試集樣本的參數配置與訓練集樣本不同,其對于訓練好的網絡而言是從未見到過的新樣本。可以看到不同的試件具有顯著不同的循環力學行為,例如剛度、屈服點、循環包絡曲線以及卸載和再加載段的演化等。結果表明:網絡已經學到了不同參數FRP 約束混凝土試件在循環軸壓下的應力-應變規律,并給出了相當可信的預測。

圖12 測試集樣本預測精度Fig.12 Test set sample prediction accuracy

圖13 進一步檢查了網絡對漸進展開的測試樣本的預測性能,漸進展開的測試樣本與訓練網絡時使用的增廣數據集中的訓練樣本類似??梢钥吹?,網絡對不同漸進展開狀態下的樣本具有一致的預測精度。此外,結果也證明了訓練好的網絡能夠處理不同長度的測試樣本。圖13 也演示了在所提漸進訓練機制下網絡對同一應力-應變值的重復訪問,這顯著提高了對應力-應變曲線不同部位的信息利用率。本文發現這種漸進訓練機制能夠顯著提高過渡段的預測精度。這可以解釋為,相對于循環段,過渡段的數據非常稀疏,經過數據裁剪,過渡段數據能夠更頻繁地被網絡訪問和學習。

圖13 測試集樣本的漸進展開Fig.13 Progressive expansion of test set samples

圖14 檢查了預測曲線與真實曲線之間累積耗能的差異。時間步的累積耗能定義為在地震工程中,該指標經常被用于評估結構的耗能能力和抗震性能。這里采用該指標評估模型的累積預測誤差。圖14 表明隨著加載的進行,模型的累積預測誤差保持在可控范圍內。這意味著訓練好的網絡不存在顯著的曝光偏差問題,這對于模擬長持時的應力-應變響應至關重要。

圖14 累積耗能對比Fig.14 Cumulative energy consumption comparison

圖15 進一步考察了測試集預測誤差的統計特性。圖15(a)給出了增廣后的測試集中所有樣本MRE的分布。對完整長度(未裁剪)樣本的預測誤差進行了單獨的標記。可以看到,大部分測試樣本的MRE 小于1%。此外,完整長度樣本的預測誤差與裁剪后的長度較短的樣本的誤差非常接近,這再次驗證了模型的累積預測誤差保持在可控范圍內。圖15(b)給出了測試集中所有樣本每個應力點預測誤差的分布,其接近正態分布。注意,這里應力均經過了歸一化。第4.2 節已經提到應力歸一化系數為73.0351 MPa。測試集最大應力預測誤差為73.0351×0.013 ≈0.95 MPa。注意,裁剪后的樣本最大應力值遠小于73.0351 MPa,因此這里僅統計具有完整長度樣本的預測誤差。圖15 中預測誤差的統計特性為模型預測性能提供了統計上的保證。

圖15 測試集樣本預測誤差的統計特性Fig.15 Statistical characteristics of sample prediction errors in test sets

4.3 漸進訓練機制的影響

本節進一步討論了數據增廣和漸進訓練機制對模型收斂速度和預測精度的影響。這里考察了均勻步長(記為Case 6)和非均勻步長(記為Case 7)兩種情況。在模擬數據的某些時間節點,如歷史卸載點附近的過渡段,有時需要減小加載步長用于獲得更精細的模擬結果,這導致了不均勻的步長。這里所有工況均采用與Case 3 相同的網絡配置。圖16 對比了三種工況下的訓練曲線,可以清楚地看到使用數據增廣和漸進訓練機制的Case 3,網絡的收斂速度和預測精度要比其余兩個工況高一個數量級,而Case 6 和Case 7 的精度類似。這充分證明了漸進訓練機制的有效性。表3 中給出了每隔10 個輪次的訓練集和測試集MRE 精度,Case 6 和Case 7 的最終測試集誤差分別是Case 3的8.1 倍和5.3 倍。

表3 漸進訓練機制對收斂速度和預測精度的影響Table 3 Effect of progressive training mechanism on convergence rate and prediction accuracy

圖16 漸進訓練機制對模型收斂速度的影響Fig.16 Effect of progressive training mechanism on model convergence rate

圖17 檢查了Case 6 和Case 7 的典型預測結果。從圖17 中可以看到,不使用漸進訓練機制的預測結果往往給出較差的局部預測精度,尤其是骨架曲線部分出現明顯的偏差和抖動。此外,注意到Case 7 中進行步長切換時引起預測值明顯的抖動。這些不魯棒的預測結果在Case 3 中均未出現,這些結果進一步證明了使用漸進訓練機制的必要性。

圖17 不使用漸進訓練機制的預測結果Fig.17 Prediction results without using the progressive training mechanism

5 Teacher forcing 與Exposure Bias

Teacher forcing 機制[35]以一定的概率使用真實的歷史輸出值,其經常被用于穩定和加快Seq2Seq模型的訓練。對于循環網絡,在訓練初期,網絡的預測能力較弱,這導致前期較差的預測值將顯著影響后續的預測值。Teacher forcing 策略由于使用了真實值的引導,因此能夠顯著加快網絡的訓練。然而,與之伴隨的問題是訓練好的模型可能存在所謂的“曝光偏差”(Exposure Bias)問題[44]。鑒于潛在的曝光偏差效應,使用Teacher forcing 機制時應當仔細評估模型在測試集上的預測精度。對不同曝光偏差效應消除機制的討論和對比超出了本文的研究范圍,這將留給以后的工作。

考慮到Teacher forcing 機制可能帶來曝光偏差,本文沒有使用Teacher forcing 策略,而是采用了漸進訓練機制對數據進行增廣。結果表明所提漸進訓練機制能夠很好地穩定并加快網絡的收斂。對當前模型預測結果的檢查并沒有發現顯著的曝光偏差效應。因此,提出的漸進訓練機制可作為Teacher forcing 訓練機制的一種有效替代。

6 結論

本文提出了一種新型的FRP 約束混凝土循環軸壓應力應變預測框架,該框架將具有非線性滯回屬性的材料力學系統的建模轉化為序列到序列的映射問題。材料循環本構建模的挑戰在于輸出對荷載路徑的依賴性,這要求神經網絡具有記憶能力。本文采用帶有注意力機制的Seq2Seq 框架對材料的循環本構規律進行學習。所提模型具有卓越的記憶能力,可以有效地整合歷史輸入對當前輸出的影響。提出了漸進訓練的概念,并用于數據集增廣和穩定訓練,減小了網絡訓練難度,加速了網絡的收斂。通過一個包含166 個FRP 約束普通混凝土柱的循環軸壓數據庫,證明了該框架建模精度和有效性。該框架為FRP 約束混凝土循環軸壓模型的快速開發提供了一種新的途徑。主要的發現和結論總結如下:

(1) 所提模型的記憶能力來自三個方面,即輸入中的歷史信息、LSTM 隱層狀態以及注意力機制提供的上下文向量,三者之間相互影響。

(2) 輸入中顯式地包含歷史輸入輸出信息能夠顯著加快模型的收斂,盡管最終的精度相差不多。

(3) 所提數據增廣和漸進訓練機制穩定并顯著加速了網絡的訓練,而且沒有觀察到顯著的曝光偏差問題,對于非均勻計算步長也能給出魯棒的預測。因此,漸進訓練機制可作為Teacher forcing訓練機制的一種有效替代。對測試集預測誤差的統計分析證明了所提框架的高性能建模能力。

(4) 結果表明:所提出的模型對LSTM 隱層狀態維度的選取較為魯棒。隨著LSTM 隱層狀態維度的增加,測試集精度略有增長。

初步的研究表明該方法是一種有前景的計算框架,未來將在試驗數據庫上進行驗證,并考慮更復雜的FRP 約束方形、矩形截面的循環軸壓應力-應變關系的建模,以及考慮下降段的情況。此外,與現有的建模方法的對比工作也將在未來開展,以充分評估不同建模技術的優劣。

猜你喜歡
機制混凝土模型
一半模型
混凝土試驗之家
現代裝飾(2022年5期)2022-10-13 08:48:04
關于不同聚合物對混凝土修復的研究
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
混凝土預制塊模板在堆石混凝土壩中的應用
混凝土,了不起
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
主站蜘蛛池模板: 国产波多野结衣中文在线播放| 国产尤物jk自慰制服喷水| 国内精品小视频在线| 国产精品久久久久久久久久98| 伊大人香蕉久久网欧美| 国产一区成人| 国产18在线播放| 成色7777精品在线| 在线观看国产小视频| 免费精品一区二区h| 一本久道久综合久久鬼色| 无码国内精品人妻少妇蜜桃视频| 色偷偷男人的天堂亚洲av| 最新国产麻豆aⅴ精品无| 亚洲天堂网站在线| 国产精品久久久久久影院| 亚洲69视频| 日韩av高清无码一区二区三区| 国产精品嫩草影院av| 国国产a国产片免费麻豆| 亚洲乱码视频| 亚洲va欧美ⅴa国产va影院| 国产三级精品三级在线观看| 国产一区二区精品福利| 亚洲人妖在线| 2020国产免费久久精品99| 亚洲精品另类| 欧美自慰一级看片免费| 色老二精品视频在线观看| aⅴ免费在线观看| 亚洲人成人伊人成综合网无码| a毛片免费在线观看| 青青操国产| AV不卡国产在线观看| 欧美日韩另类在线| 动漫精品中文字幕无码| 国产九九精品视频| 97av视频在线观看| 一级毛片在线播放| 2021国产精品自产拍在线| 亚洲欧美另类中文字幕| 91久久偷偷做嫩草影院精品| 亚洲人成网站在线观看播放不卡| 日韩久草视频| 91麻豆国产视频| 亚洲精品在线91| 看国产一级毛片| 久久精品人人做人人爽电影蜜月| 色丁丁毛片在线观看| 欧美成人精品一级在线观看| 欧美亚洲国产一区| 欧美日韩中文字幕二区三区| 午夜免费视频网站| 99er精品视频| 免费在线国产一区二区三区精品| 国产美女精品在线| 91啪在线| 免费国产无遮挡又黄又爽| 丝袜美女被出水视频一区| 午夜限制老子影院888| 欧美日韩精品一区二区在线线| 国产呦精品一区二区三区网站| 91九色视频网| 亚洲AV无码不卡无码| 日本免费一级视频| 亚洲午夜18| 久久人搡人人玩人妻精品| 国产无码精品在线| 国产成人综合亚洲欧美在| 亚洲精品第一在线观看视频| 伊人国产无码高清视频| 久热中文字幕在线| 免费一极毛片| 久青草免费在线视频| 国产一级做美女做受视频| 国产日本一线在线观看免费| 亚洲国产精品不卡在线| 在线观看无码a∨| 国产黄色片在线看| 久久香蕉国产线看精品| 成年人福利视频| 久久五月视频|