999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習在流動控制領域的應用及發展趨勢

2021-07-05 13:44:44任峰高傳強唐輝
航空學報 2021年4期
關鍵詞:模型

任峰,高傳強, 2,唐輝, 3,*

1. 香港理工大學 機械工程學系 流固耦合研究中心,香港 2.西北工業大學 航空學院,西安 710072 3.香港理工大學 深圳研究院,深圳 518057

流動控制常常按照是否有外部能量的輸入分為主動流動控制和被動流動控制兩類。其中,被動流動控制主要通過采用修改目標物體的幾何形狀來實現,比如在泳衣上采用類似鯊魚表面的溝槽結構以實現減阻[1]。主動流動控制需要引入激勵器(如吹吸射流[2]、合成射流[3]、等離子體激勵器[4]等)以改變局部流動,進而實現全局的控制目標。如果激勵器輸出值根據流場中傳感器的反饋信號得到,則稱為閉環控制,否則為開環控制。流動的時空演化由非線性的Navier-Stokes方程主導,往往包含了高維、多頻、多模態、多尺度等復雜特征,因此為控制帶來了許多挑戰。

作為實現人工智能最重要的途徑,機器學習在近些年吸引了來自各個學科領域的大量關注,包括自然語言處理、計算機視覺、機器人等。機器學習致力于研究如何通過計算的手段,利用以數據為存在形式的“經驗”來改善系統自身的性能[5]。因此,對于常常涉及海量數據的流體力學研究來說,機器學習亦已廣泛引入[6],包括粒子圖像測速(PIV)、圖像處理[7]、湍流模型[8-9]、氣動外形優化[10]等。

作為流體力學中的重要領域,對流動控制的研究也在不斷引入機器學習的概念[6,11-12]。在這個背景下,為了展示目前機器學習在流動控制中的應用現狀,本文將從3類方法出發,重點回顧目前基于機器學習方法的流動控制研究工作,包括面向流動控制基于機器學習的系統辨識與降階模型、基于遺傳規劃的主動流動控制、基于人工神經網絡與深度強化學習的主動流動控制。此外,本文將涉及到較為廣泛的具體問題,包括氣動彈性主動控制、鈍體減阻、流致振動、射流摻混、熱對流等。

1 面向流動控制的流動降階模型

1.1 基于降階模型的主動流動控制

在復雜流動的主動控制問題中,基于CFD仿真的主動控制律設計難度較大,并且由于對非定常流動和控制系統交互耦合的高保真求解往往耗費巨大,因此常建立非定常氣動力降階模型來處理。目前常采用的非定常氣動力降階建模方法可以分成兩大類,即流場特征提取類模型和系統辨識類模型。流場特征提取類模型本質上是一種灰箱模型,包括線化穩定性分析法、本征正交分解法(POD)和動模態分解法(DMD)。為了向氣動伺服主動控制系統提供高效高精度的狀態空間模型,陳剛等[13]采用POD建模方法建立了氣動伺服彈性降階方程,并將其應用到主動控制律的設計中。Ahuja和Rowley[14]基于平衡截斷思想,在POD基礎上發展了BPOD方法,開展了平板大攻角分離流動的降階建模和閉環反饋控制研究。

系統辨識類方法主要包括ERA模型和ARX模型。這類模型主要是通過辨識方法構建系統的有限輸入和輸出之間的傳遞函數關系,本質上是一種 “黑箱模型”。這類黑箱模型不僅計算效率高,還方便開展系統特性隨參數的變化分析,因此在以流動控制為代表的多學科耦合研究方面具有無可比擬的優勢。基于辨識類模型的流動反饋控制過程及其與CFD仿真的關系如圖1所示,其中降階模型通過CFD仿真數據構建,具備與CFD仿真相當的流場預測精度。ERA模型是基于特征系統實現算法,Flinois和Morgans[15]采用ERA方法開展了繞鈍體渦街流動的低階模型構建及閉環反饋控制。

圖1 基于系統辨識類降階模型的流動閉環控制示意圖Fig.1 Schematics of flow closed-loop control based on reduced order modeling via system identification

針對跨聲速氣動彈性與流動控制的分析需求,Gao和Zhang等[16]采用自回歸(ARX)方法構建了適用于不穩定跨聲速抖振流動的線性降階模型。該模型能準確地刻畫流動穩定性隨來流攻角和馬赫數的變化,捕捉的抖振始發邊界與數值模擬和實驗結果吻合較好。進一步,針對跨聲速復雜氣動彈性問題的控制問題,張偉偉等[17]還開展了基于低階模型的控制律設計。其中,閉環控制以升力和力矩系數為反饋信號,以機翼尾緣舵面轉動的角度和角速度為控制輸出,控制律設計分別通過極點配置和線性二次型調節器(LQR)方法實現??刂平Y果采用CFD求解器加以驗證,發現二者均能有效抑制抖振,甚至能在非線性擾動和非設計條件下工作,證實其具有較優的魯棒性。對控制律的進一步分析發現,最優控制參數在開環系統的反共振處得到,進而實現了反相控制。

1.2 機器學習與系統辨識和降階模型的結合

在建立流動系統降階模型的過程中,對氣動力的辨識往往局限于線性層面,為完善對非線性氣動力的系統辨識,許多研究者轉向了機器學習和非線性系統辨識方法。機器學習方法將非線性動力學系統視為黑箱,通過模型訓練進行參數學習,得到流場和氣動力的降階模型。基于機器學習和非線性系統辨識方法的典型非線性、非定常氣動力模型包括Kriging模型、神經網絡模型、模塊式模型等。Kriging模型是一種非線性的插值方法,將未知函數視為低階多項式與隨機過程的疊加,其中低階多項式考慮了函數的全局特性,而隨機多項式考慮了局部特性。Glaz等[18]通過Kriging模型建立了非線性、非定常的氣動力模型,并預測了NACA0012翼型的非定常氣動力。胡海巖等[19]進一步將該模型擴展到變馬赫數的非定常氣動力預測。

神經網絡模型是一種模擬人腦神經元處理信息的數學模型,具有很強的非線性函數擬合能力。張偉偉等[20]提出一種遞歸的RBF神經網絡模型,通過神經網絡的非線性建模能力近似大幅運動下的氣動力變化,結合遞歸結構模型反映氣動力的非定常效應。Mannarino和Mantegazza[21]采用類似思路,通過遞歸神經網絡建立非定常非線性氣動力模型,并進行氣動彈性仿真。Winter和Breitsamter[22]通過模糊神經網絡模型,建立了變參數的氣動力模型用于不同馬赫數下的顫振邊界。

模塊式模型是一種對線性與非線性動力學系統進行串聯建模的模型框架。Wiener模型是一種動態線性模型和靜態非線性模型串聯的模型框架。胡海巖等[23]基于Wiener模型提出一種多輸入多輸出的非線性氣動力降階模型,該模型將通過線性狀態方程與單層神經網絡串聯建立Wiener模型,通過逐個建立Wiener模型逐步降低建模誤差。張偉偉等[24]為了考慮更強的氣動力非定常、非線性效應,將標準Wiener模型中的非線性部分從靜態非線性拓展為準動態的非線性模塊,其中線性模塊基于ARX模型,非線性模塊基于RBF神經網絡。結果表明這種新的Wiener模型架構在描述大幅運動的氣動力響應上具有很高精度,且通過線性與非線性部分的兩級訓練保證模型對小幅運動下動態線性特征的預測精度。

模塊式模型在結構小幅運動時,往往難以完全退化成線性模型,而采用并聯結構模型則可以更好地兼顧系統的線性和非線性特征。Mannarino和Dowell[25]利用非線性狀態空間模型建立了并聯結構的氣動力降階模型。Kou和Zhang等[26]提出了分層降階模型(圖2(a)),其中線性的氣動力采用了基于ARX模型的系統辨識方法,非線性部分則利用徑向基函數神經網絡(RBFNN)實現。線性模型和非線性模型輸出的結果疊加而產生最終的氣動力系數。通過在兩種模型之間引入延遲,使得整體模型既適用于準定常問題也適用于非定常問題。

在該項工作的基礎上,Kou和Zhang等[27]繼續改進設計了基于機器學習的混合降階模型架構(圖2(b)),其中線性的氣動力依然采用了基于ARX模型的系統辨識方法,而非線性部分利用多核神經網絡實現??紤]到前述研究中[26]對線性和非線性氣動力的建模彼此獨立,非線性模型引入的偏差對線性模型并不產生影響,因而在改進模型中引入耦合機制和混合模型架構,使得建模的偏差能夠反饋到輸入數據中,從而使模型本身具備一定的自我修正能力。驗證算例也證實模型在處理多種復雜氣動力預測問題時均具有較高的精度。

圖2 分層降階模型框架和混合降階模型框架[26-27]Fig.2 Layered model framework and mixed model framework[26-27]

經典神經網絡模型采用比較簡單的模型架構,對于復雜非線性和大樣本的處理上存在泛化能力不足的問題。近年來隨著深度學習方法的發展,深度神經網絡在流體力學建模中逐漸受到關注。張偉偉等[28]提出一種基于長短時記憶網絡模型(LSTM)的非定常非線性氣動力降階模型,該模型能夠用于預測一定馬赫數范圍內的非定常氣動力響應。結果表明這種模型比經典神經網絡具有更高的泛化能力,在流動控制方面具有較大潛力。

Han等[29]發展了一套混合深度神經網絡方法,用于從高維非定常流動數據中提取有用的時間和空間分布特征。該混合網絡包含了卷積神經網絡(CNN)、長短時記憶網絡(LSTM)和逆卷積神經網絡(DeCNN)。其中卷積神經網絡從高維流場數據中提取空間特征以低維形式表達出來;長短時記憶網絡從低維數據中獲取時域特征以預測未來時刻的流場變化;逆卷積網絡是卷積網絡的逆過程,從低維數據中恢復出高維流場信息。該混合網絡利用不同雷諾數下均勻來流分別流經圓柱和翼型的流場進行訓練,在訓練完成后預測未來時刻內的流場信息。經對比發現,基于該混合網絡預測的流場與計算得到的真實流場吻合良好。

劉學軍等[30]利用最新的生成對抗網絡(GAN)結合卷積神經網絡,建立了一類可參數化描述的超臨界翼型與對應跨聲速流場之間的對應關系,用以預測流場并進一步計算出翼型的氣動力系數。該方法由于在模型內部引入了由生成器和評判器構成的競爭機制,因而在模型泛化能力上具有獨特優勢。盡管作者僅展示將其用于對翼型外形的優化,但該方法在系統辨識以及預測不同來流和攻角條件下的氣動力方面亦具有一定的潛在優勢。

須指出,上述機器學習與系統辨識和降解模型結合方面的研究工作目前還主要集中在對非線性氣動力的辨識,即模型的建立層面。利用數據驅動的方式,完善不同控制條件對氣動力乃至流場的影響,為后續流動控制尤其是閉環控制律的設計奠定模型基礎??紤]到流動問題的復雜性,比如涉及高維強非線性的湍流問題,上述研究仍有相當長的路要走。

2 基于遺傳規劃的主動流動控制

2.1 遺傳規劃方法

遺傳規劃(GP,也譯作“遺傳編程”)是從遺傳算法(GA)中衍生出來的方法[31]。在主體思想上,遺傳規劃和遺傳算法都是受“物競天擇,適者生存”的生物進化思想啟發,即一定規模的種群在接受自然的選擇后,只有具有優勢的個體才能夠生存并有機會將自己的優勢基因遺傳下去,而未能通過自然選擇的個體將會被淘汰并失去繁衍后代的機會。如此一來,在經歷一定世代的進化之后,整個種群適應自然的能力將大大提高。為了增加種群的多樣性,在進化過程中還引入了變異機制。與遺傳算法不同的是,在遺傳規劃中,個體的表達并非簡單的將一組數字進行二進制基因編碼,而是利用LISP語言將之表達成顯式的數學表達式。如此衍生的模型使得遺傳規劃在保留遺傳算法優勢的同時,具備了更加廣闊的應用場景:包括具有回歸、分類等特征的通用數學問題。表1比較了遺傳算法和遺傳規劃的差異,其中,在遺傳規劃的結構形式舉例中,sub、mul、cos分別表示減、乘、余弦函數。須指出,遺傳規劃中除了常規的四則運算外,并不限定數學運算的種類,實際應用中可根據研究者對具體問題的理解而添加。

表1 遺傳算法與遺傳規劃的比較

遺傳算法通過二進制編碼,將可能的參數組合表達成染色體的形式,染色體的位數決定了參數組合有多少可能性。因而,遺傳算法僅能輸出離散而非連續過渡的參數組合,其在主動控制中的應用也主要限于對控制參數組合的優化。比如,Noack等[32]利用遺傳算法對等離子激勵器的電壓、猝發頻率、工作周期等參數進行了優化。Minelli等[33]利用遺傳算法研究了高雷諾數鈍體繞流開環控制的最優參數條件。此外,在常規的線性PID控制中,也可在確定3個控制參數的上下限后利用遺傳算法篩選出最優的參數組合[34]。

對于閉環控制來說,由于顯式控制律可視為以反饋信號為自變量、以激勵強度為因變量的函數表達,恰恰與遺傳規劃的思想相契合。如此一來,由遺傳規劃生成一系列控制律,代入目標系統中分別評估其性能優劣(以特定的損失函數量化),并執行個體直接復制、交叉配對、變異等進化過程,在一定世代后便可收斂得到一定性能水平的控制律。

2.2 實 驗

遺傳規劃在主動流動控制中的應用最早由Gautier等[35]在對后臺階分離流動的控制實驗中引入。該項研究旨在減小后臺階分離區面積,其中,控制系統以PIV實驗獲取的二維流場數據為反饋信息,從臺階前緣附近壁面處的狹縫射流單元輸出可調速度以改變流場。作者利用包含500個個體的種群,在經過12個演化世代后,即獲得了收斂的控制律。基于最優控制律,分離區面積相比未控制時減小約80%。相比優化后的開環控制,該控制所包含的低頻分量使得流動更易發生失穩,有利于流動在分離后再附。此外,該控制律在更高雷諾數下測試得到的性能亦優于開環控制,證實基于遺傳規劃的流動控制方法能夠有效探索較優的控制方案。

圖3 剪切混合流動實驗中基于遺傳規劃的流動控制框架[37]Fig.3 Flow control framework in GP-based mixing layer flow experiments[37]

Li等[38]開展了針對汽車模型減阻的閉環控制研究,其中以脈沖射流為激勵手段,從模型后方布置的壓力傳感器獲取反饋信號,并采用線性化的遺傳規劃模型,獲得了22%的減阻效果。

周裕等[39-40]將線性化的遺傳規劃應用到了增強射流摻混的研究中。整個控制系統包含兩個熱線探針用以提供反饋信號,以及多個微射流激勵器,控制性能以射流中心線上平均速度的衰減率進行量化。在使用多組微射流激勵器協同工作[39]時,利用遺傳規劃得到的最優控制在控制性能大幅提升的基礎上,還發現了一種新的復合流動結構,該復合結構兼具蘑菇狀結構、螺旋運動、波動形式的射流柱等特征。而經過深入分析發現,這3類特征均有助于射流摻混的增強。該項研究有力證實了機器學習應用于流體力學研究時具有發現新知識的潛力。

在上述研究中,研究者在實驗室條件下成功搭建了閉環流動控制系統,并實現了一定的控制目標,是近年來比較典型的遺傳規劃在流動控制中的應用范例,為后續工程化應用提供了重要參考。

2.3 數值模擬

遺傳規劃在執行過程中需要讓一定規模的種群經過多代演化,而其中對每個個體的評價均需要在一次完整的實驗或仿真中進行。在實驗研究中,對個體的評價可以在較短時間內自動完成。但在CFD框架下同樣的效率難以實現,因此目前鮮見基于遺傳規劃的主動流動控制在CFD框架下實現。利用GPU加速的格子Boltzmann求解器,唐輝等[41]首次將遺傳規劃應用到對圓柱渦激振動的主動抑制中,圖4展示了求解器與遺傳規劃的交互框架。在該問題中,CFD求解器用于獲取圓柱在施加不同吹/吸控制時的流場信息及其受到的流體作用力,并通過求解展向結構運動方程以獲得實時的結構動力學響應。遺傳規劃中使用50個個體的種群規模并執行了25個世代的演化。在演化過程中,僅在3個世代后即收斂至最優的控制律,并且發現最終性能前10位的控制律均表現為吸入模式。此時,圓柱的振動幅度受抑制達94.2%。在權衡了能量消耗的性能指標中,遺傳規劃相較最好的開環控制實現了21.4%的性能提高。從圖5可看出控制后圓柱的尾渦在強度和形態等方面均發生了較大的變化。此外,遺傳規劃控制在雷諾數100~400范圍內均獲得了較一致的控制效果,而傳統的比例控制卻顯示出較差的魯棒性。

圖4 基于遺傳規劃的渦激振動主動控制系統數值模擬框架[41]Fig.4 Numerical simulation framework of active flow control loop for suppressing vortex-induced vibrations using GP[41]

圖5 處于渦激振動中的圓柱尾渦形態Fig.5 Wake pattern of a cylinder undergoing vortex-induced vibrations

上述研究基于高保真數值模擬手段,避免了實驗條件下可能存在的一些不確定性因素,如測量誤差、外界干擾、硬件的時間滯后等,為開展基于機器學習的流動控制提供了重要參考。但囿于機器學習過程中的大量硬件、時間成本,在不犧牲計算精度的前提下如何拓展到高雷諾數下的控制問題,仍是目前面臨的一個重要挑戰。

3 基于人工神經網絡與深度強化學習的主動流動控制

3.1 人工神經網絡

人工神經網絡(ANN)受生物神經系統作用機制啟發而來。以常見的多層感知機(MLP)為例(圖6),該網絡結構包括輸入層、隱藏層和輸出層,其中隱藏層可以是單層或多層。每一層包含一定數目的神經元,而每一個神經元可以接收上一層所有神經元傳遞的信息,在經過加權求和處理后施加激活函數,最終結果作為該神經元當前的數值。該過程數學表達式為yi=f(Σwijxj+bi),其中wij為該神經元yi接收上一層神經元xj的權系數,f為指定的激活函數,bi為偏置因子。常用的激活函數包括relu(y=max(0,x))、tanh(y=tanh(x))、sigmoid(y=(1+e-x)-1)、softplus(y=ln(1+ex))等,對應函數圖像如圖7所示。在學習過程中,利用網絡的后向傳播,通過梯度下降等優化方法,可以對網絡中權系數和偏置因子的取值進行更新。最終的策略便是由這些權系數和偏置因子決定。

圖6 多層感知機示意圖Fig.6 Schematics of multi-layer perceptron

圖7 常見的4種激活函數Fig.7 Four typical types of activation functions

ANN的誕生是人工智能發展進程中最重要的里程碑之一。在此基礎上,研究者還發展出卷積神經網絡(CNN)、遞歸神經網絡(RNN)、長短時記憶(LSTM)、門控循環單元(GRU)、生成對抗網絡(GAN)等更加復雜的網絡結構[42],以應對科學研究或現實應用中的一些復雜場景。

3.2 深度強化學習

強化學習是機器學習中側重于同環境進行交互,并在此過程中獲得最大累積獎勵的一類方法。在圍棋比賽中領先人類頂級棋手的AlphaGo[43]、AlphaGo Zero[44]等使得強化學習這一概念為世人所熟知。值得指出的是,AlphaGo除采用強化學習外,還依賴于現存的棋局比賽數據以進行監督式學習。而比賽表現更為出色的AlphaGo Zero則僅僅使用了改進的強化學習方法,在游戲規則下通過自我對局來不斷地提升自身策略水平,除棋局本身的規則和對棋局的特征設計外并不需要任何人類指導。由于強化學習常常借助于深度網絡結構,來構建模型中復雜的狀態輸入和輸出之間的關系,因此這類方法常被稱為深度強化學習(DRL)[45]。2015年發表于《Nature》上的工作——基于深度強化學習獲得與人類水平相接近的控制[46]也使得DRL這一概念成為學術研究的熱點。

在包含DRL的控制系統中,智能體(Agent)從環境中獲取必要的狀態信息,決定輸出動作的大小以對環境進行干預,然后通過特定的函數計算出動作對環境的影響大小。如圖8所示,該回路與閉環控制系統思路大體一致,其中狀態信息(States)由傳感器獲取,動作(Actions)輸出由激勵器執行,控制效果評估與動作獎勵(Reward)同義。因此,基于DRL的許多具體應用也是針對控制相關的問題展開的,如機械臂控制[47]、自動駕駛[48]等。由于深度學習本身在提取復雜系統(如混沌系統)的非線性特征方面已展現出優秀的能力[49],而且從原理的角度來看,大多數強化學習方法本身亦不受系統的非線性特性限制,因此可以預期,DRL在流動控制中具有極大的應用潛力和優勢。

圖8 深度強化學習與環境之間的交互回路Fig.8 Interactive loop between DRL agent and environment

3.3 壁湍流控制

湍流是流體力學的核心問題,對湍流的主動控制也是流體力學界關注的焦點[50]。利用神經網絡對壁湍流進行主動流動控制可追溯到Lee等[51]的一項采用壁面吹/吸激勵器旨在減小槽道湍流壁面阻力的研究。該問題提出的背景源于Choi等[52]提出的設想,即通過從壁面施加與距離壁面y+=10位置處的法向速度相反的吹/吸速度來改變湍流的上揚與下掃運動,進而減小壁面的阻力。Lee等提出,上述y+=10位置的法向速度傳感器可以由壁面上測得的展向切應力代替,而二者的關系可以在控制前預先由ANN建立(見圖9[51])?;谶@一設想,作者在Reτ=100的流動工況下,在流向和展向適當位置處提取展向切應力,使用100個神經元進行訓練即獲得了穩定的目標速度與壁面切應力之間的關系。利用該關系即可施加與Choi等所提出設想類似的閉環主動控制,換言之,該方法可視為與文獻[52]中直接主動控制方式相對應的間接方式。通過對比,這兩種方式產生的激勵作用相當。結果表明,基于ANN的閉環控制最終獲得了高達20%的減阻效果。

圖9 基于神經網絡的槽道湍流減阻網絡結構[51]Fig.9 Network architecture for drag reduction of turbulent channel flow[51]

許春曉針對湍流相干結構和壁湍流的減阻問題展開了大量研究[53]。采用與Lee等[51]相似的思想,楊歌[54]利用主動變形壁面對槽道流動施加了主動控制,并重點對比了神經網絡、次優控制等方法在減小壁面阻力方面的性能。發現神經網絡可視為次優控制在僅考慮物理空間內控制點展向流動信息的特例,其最終性能也略遜于次優控制。

侯宏和楊建華[55]將神經網絡應用于邊界層轉捩的主動控制中,其中利用抽吸控制轉捩的實驗數據訓練神經網絡參數,從而構建了抽吸速度和邊界層轉捩位置之間的函數關系,據此通過反推,實現了以最小的抽吸能量代價保持轉捩在特定位置發生的效果。

可以看出,上述早期基于神經網絡的主動流動控制研究大多偏向于在已探明一定的控制策略或物理規律的基礎上,使用神經網絡對未知關系進行數據回歸操作,因而在探索有別于已有策略之外的控制策略方面具有一定的局限性。比如,在槽道湍流減阻研究中,Choi等[52]提出的線性反饋控制思路尚未被證實為最優或在考察其他幾何外形的壁湍流及大雷諾數范圍時具有普遍意義,新的控制策略尚待發掘。

3.4 鈍體繞流控制

對鈍體繞流的主動控制一直是學術界和工程界研究的重點,包括鈍體減阻、減小升力波動、抑制振動等。Rabault等[56]利用最新的DRL方法,即近端策略優化(PPO),實現了圓柱減阻的閉環控制。在該問題中,作者在圓柱周圍和尾流中布置了151個速度傳感器,使用一對吹/吸射流器對流動施加控制作用。其中,吹/吸射流器對稱布置在圓柱上下表面,以一個射流器吸入另一個射流器吹出的模式工作?;赑PO方法,根據傳感器觀測到的流動信息便能實時作出控制決策。基于DRL的學習過程見圖10[56],其中橫坐標表示訓練集數(Episode),縱坐標為阻力系數CD,每次訓練可視為一次單獨的數值模擬算例,所獲得的獎勵函數采用多種方法進行了平均化處理。經過約300次訓練集數的訓練后,即可獲得收斂的控制策略?;谠摬?,可使得圓柱的繞流阻力減小約8%,此時,圓柱的回流區大幅延長,渦脫落的強度也被大大弱化。

圖10 基于DRL的圓柱繞流主動控制學習曲線[56]Fig.10 Learning curves for DRL-based active control of flow past a cylinder[56]

為了提升學習效率,Rabault和Kuhnle[57]還提出了多環境分布式同步學習的算法。該算法中,智能體同時收集來自多個環境中的狀態信息,以相同的策略給出動作概率分布,控制得到的獎勵值也同樣被收集到智能體中。其中,多環境的模擬可以在多個設備中同步完成,相當于構建了環境之間互不干擾的并行計算環境。如此一來,原先需要在一個環境中執行交互的任務分散到多個環境中完成,在幾乎不影響學習進程的基礎上,大大減小了學習過程所消耗的時間。

基于相同的流動求解器和DRL框架,文獻[58]將上述研究拓展到雷諾數100~400的范圍。

在此范圍內,采用4個射流激勵器獲得了最高可達38.7%的減阻率。此外,通過與采用對稱邊界的算例相比,發現DRL獲得的減阻效果與其十分接近,側面說明了DRL習得的策略能夠有效抑制渦的產生和脫落。

采用格子Boltzmann方法求解器,唐輝等[59]首先復現了Rabault等在層流條件下的控制結果(見圖11),隨后針對湍流條件下(雷諾數1 000)圓柱繞流減阻開展了詳實的研究。在該工況下,流動呈現出更加復雜的非線性特征,這大大增加了DRL習得較優控制策略的難度。針對該問題,作者除采用常規的隨機初始策略外,還采用層流工況下已習得的策略作為初始條件,此時DRL智能體在已掌握層流條件下控制策略的基礎上隨即開始探索更加復雜的流動環境。結果發現,兩種初始化策略盡管尋找最優控制策略的路徑不同,卻獲得了相一致的最終策略,說明DRL本身具有較優的魯棒性。在雷諾數1 000的工況下,所有獨立的學習過程在2 000次的學習集數內最終均獲得了約30%的一致減阻效果,此時從時均流場來看,圓柱尾流中的回流區相比未控制時大幅度延長,且尾流內的速度波動和雷諾應力均得到了大幅抑制。

圖11 層流條件下的圓柱尾流形態Fig.11 Wake pattern of a cylinder in laminar flow regime

Ren和Tang等[60]還提出采用閉環控制系統實現鈍體水動力隱身的設想,并借助DRL加以實現。在該閉環控制系統中,激勵器采用了一組前吸后吹射流器,反饋信號由在鈍體尾流中布置的一組速度傳感器陣列提供。實施實時控制時,由DRL智能體根據反饋信號給出當前的動作輸出。利用這套系統,鈍體尾流的速度虧損可以在開啟控制后短時間內消除,同時該鈍體受到的流向和展向作用力均趨近于零。此時在距離圓柱2~3倍直徑以外的位置上僅憑借對流場的觀測已經難以感知結構體本身的存在,即實現了水動力意義上的隱身。

須指出,上述利用DRL實施的閉環流動控制雖然都基于CFD工具實現,但在設計系統架構時往往也考慮到了實驗的可行性,包括激勵器的選取、傳感器信號的獲取等。作為較新穎的概念,可以預期,將DRL應用到實驗研究中并進而推廣到工程問題中,應當是目前許多研究者的共識。不過,計算與實驗之間存在大的差異,包括傳感器獲取數據的實時性,傳感器、激勵器和處理器之間的延遲,以及測量的不確定度等。為解決上述問題,不僅需要采用先進的硬件設備,在數據預處理等算法層面也亟待深入探索。

3.5 對流控制

對流在自然界中十分普遍,在大的空間尺度上包括大氣中的環流、城市的熱島效應等,小尺度上包括換熱器設計、反應釜內的對流流動等[61-62]?;谏疃葟娀瘜W習PPO方法,Beintema等[63]以Rayleigh-Bénard對流為物理模型開展了以抑制對流、使流動趨穩為目標的閉環控制。在整個寬高比為1的封閉對流腔體內布置了8×8個 監控點,每個監控點提供當前和此前3個時間步的溫度及速度信息,以此作為控制系統的狀態空間。在滿足下壁面溫度平均值不變的前提下,通過在下壁面布置10個溫度可調的激勵單元,每個單元僅能輸出兩種離散的溫度值,以此作為控制系統的動作空間??刂七^程以降低Nusselt數為目標,選取了Prandtl數為0.71(對應常溫下的空氣)和Rayleigh數為103~107區間段的工況。在該Rayleigh數范圍內,未施加控制的對流流動尚未達到湍流發生條件。將基于DRL的主動控制與參數優化后的PID控制進行了對比,表明DRL在選取的整個參數范圍內均獲得了較優的控制效果,而PID控制在Rayleigh數達到3×106后即失效,且在所有Rayleigh數下DRL控制的性能均優于PID控制。通過對瞬時溫度和速度場的分析也發現,DRL控制在部分Rayleigh數條件下能夠破壞大尺度環流,并誘導產生一對渦流,該流動有利于抑制傳熱過程。

上述研究探索了多個激勵輸出條件下,將深度強化學習用于典型對流流動問題的控制,并通過一定Rayleigh數范圍下與常規線性控制算法進行比較,證實了算法的有效性。相信后續圍繞更高Rayleigh數條件下的閉環控制,會吸引學術界更多的興趣。

3.6 生物體運動行為操控

自古至今,自然界中的鳥飛魚游都是為人類探索流動現象帶來啟發的重要源泉。在人工智能飛速發展的今天,科學家們也自然思考能否為人造生物體賦予自主思考、決策的智慧,使其在同環境進行交互的過程中逐漸習得一定的技能,從而為相關研究帶來更廣闊的想象力空間[64]。事實上,強化學習的思想也較完美地契合了這一想法。

在晴朗的天氣中,遷徙的鳥類可以利用上升的對流氣流所產生的升力助力其飛向更高的天空。為了理解其中的物理機制,并探索如何將這一自然界現象應用到滑翔機中以延長其航行距離,Sejnowski等[65]借助強化學習方法實現了這一構想。他們首先對鳥類滑翔的動力學模型進行了簡化,并假設滑翔過程中對背景流場無影響。上升氣流流場建立在邊長1 km的計算域中,利用CFD求解器預先計算經典的Rayleigh-Bénard對流得到。飛鳥在滑翔過程中能夠感知其上升加速度、上升速度、翼展向力矩和當地溫度等信息,通過基于SARSA模型的強化學習智能體作出決策,以此調整自身的攻角和傾斜角,最終以獲得盡可能大的爬升速度以及爬升到盡可能高的海拔位置為目標。通過學習,發現感知上升加速度和展向力矩對于決策最為有利。強化學習習得的策略表明,在遇到單個上升羽流時,控制傾斜角最為有效;而遇到多個上升羽流時,對攻角的控制發揮著更加重要的作用。此外,該習得策略可以有效過濾小的湍流脈動的干擾,利用大尺度上升羽流。

Verma等[66]利用強化學習研究了魚類在群游過程中,位于后方的魚如何從前面魚的尾渦中提取機械能以助力其游動。該研究基于CFD求解器進行,其中流動通過直接求解Navier-Stokes方程得到,魚的身體擺動通過給定的基準曲率方程與3個參數可調的方程疊加得到。身體形狀對應的可調參數利用基于深度Q網絡(DQN)的強化學習獲得。為了賦予魚記憶過往行為的能力,在DQN模型中還使用了LSTM網絡。結果表明,DQN訓練后的魚能夠將自身置于前面魚產生的渦環的適當位置來更好地利用渦流中的機械能。利用二維環境中習得的策略還成功拓展到三維的環境中(見圖12[66]),證實了算法的可拓展性和習得策略的魯棒性。

圖12 三維魚游[66]Fig.12 3D fish swimming[66]

Colabrese等[67]利用強化學習探索了具有趨地性的粒子如何運動到最大的高度位置,同時避免在該過程中受到背景流動的影響而陷入渦流中。作者引入經典的二維Taylor-Green流動作為背景流動,并假設這些粒子的行為不會對流動產生影響。運動的粒子能夠感知背景流動中的渦量和自身的運動方向,借助基于Q學習的強化學習(學習過程見圖13[67])所賦予的自主決策能力,判斷出下一步的優先運動方向(見圖13子圖),進而調整其運動軌跡。通過學習,粒子能夠以較大概率有效利用背景流動的速度趨向高海拔位置運動,而避免陷于渦流中。此外,作者還發現在對背景流動施加一定程度干擾時,獲得智能的粒子仍能夠較好地完成任務,證實已習得策略具有較好的抗干擾性。

圖13 10個不同學習過程獲得的回報曲線(子圖表示習得策略,即不同狀態對應的優先動作)[67]Fig.13 Learning gain for 10 different learning processes, where the subfigures represent the learnt policy, i.e., preferred action for each state[67]

4 總結與展望

本文回顧了近年來國內外研究者在探索將機器學習應用到流動控制研究的過程中所取得的進展??梢钥闯觯谔囟ǖ难芯恐校瑱C器學習用于主動流動控制,在性能方面較常規方法能帶來更優表現,并且能在性能、效率、魯棒性等方面取得較好的平衡。

從應用的角度出發,利用機器學習可以為流動的閉環實時控制提供關鍵的控制律設計指導。其中,利用遺傳規劃可直接獲得顯式的控制律數學表達式,而對于深度強化學習則以神經網絡(動作器)的形式給出了控制律??梢灶A期,機器學習能夠為流動控制的工程化應用帶來極大助力,智能化流動控制的概念也將逐漸獲得研究者的青睞。

此外,基于機器學習的流動控制方法在改善相應問題控制效能的同時,伴隨著新穎、復雜的物理現象,這也為學術研究開拓了更為廣闊的空間,有助于探索新的現象,從中提取概括出新的知識,并形成新的理念。

應當指出,機器學習在主動流動控制中的應用尚處于起步階段,在解決一些復雜流動問題時仍存在諸多挑戰。此外,基于機器學習的流動控制作為一種相對新穎的概念,在許多問題的認識上學界尚未形成統一的觀點。大體而言,這當中的共性困難包括:

1) 湍流、流致振動等問題中,由于流動系統本身存在強非線性,演化/學習過程存在強隨機性,因而基于同樣的初始設置所產生的結果往往存在一定的差異,這種差異會影響到結果的可重復性。

2) 多輸入多輸出(MIMO)問題中尋找最優控制律/控制策略的難度顯著增大。事實上,該問題在不同領域中具有普遍意義,在深度學習中,該問題常被稱為“維數災難”[68]。

針對主動流動控制,機器學習與降階模型的結合是一種相對低成本的方法,同時也是極有潛力的解決方案。但在對復雜非線性問題建模時也存在保真度、易拓展性等諸多需要考量的難題。對于本文提到的遺傳規劃和深度強化學習方法,在展示自身出色能力的同時,也為研究手段提出了較高的挑戰:

1) 在數值模擬研究方面,高效、高精度的計算始終是CFD研究者追求的目標,但常常也是一對相互矛盾的指標。顯然,機器學習的引入對上述兩項指標提出了更高的要求。在不影響最終機器學習結果的前提下,如何在二者之間取得較好的平衡,是擺在研究者面前的重要問題。使用并行計算算法和設備[41]、采用分布式算法[57]等方案是目前較為可行的方法。

2) 在實驗研究方面,機器學習要求控制系統具有較低的不確定度和較低的時間延遲,因此也對傳感器、激勵器的硬件性能和算法處理的時效性提出了高要求。

未來在機器學習推廣到實際的工程應用問題中還伴隨著更具挑戰的課題:比如,對于鈍體減阻問題,實際的工況可能涉及到十分復雜的情形,如來流具有高湍流度、強擾動、橫流等特征,這些復合因素往往難以通過數值模擬或實驗全部復現。因而,在這些情況下,閉環的流動控制系統如何從受干擾的流動環境中提取有效狀態信息并作出反應,既難以預測也難以干預。面向未來和實際應用,在研究過程中還存在多種復雜因素,需要加以關注并探索解決方案。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲日本www| 99视频在线精品免费观看6| 欧美在线视频a| 欧美国产日韩在线| 香蕉蕉亚亚洲aav综合| 欧美日韩午夜| 国产亚洲精品资源在线26u| 国产日韩欧美黄色片免费观看| 99在线视频免费观看| 91福利片| 丁香六月激情婷婷| 亚洲无码A视频在线| 日韩精品无码一级毛片免费| WWW丫丫国产成人精品| 伊人91在线| 成人另类稀缺在线观看| 久久夜夜视频| 无码中文字幕精品推荐| 国产理论最新国产精品视频| 亚洲欧美精品一中文字幕| 亚洲国产中文精品va在线播放 | 欧美第一页在线| 日本一区二区三区精品AⅤ| 亚洲最黄视频| 福利在线不卡一区| 日本在线亚洲| 波多野结衣国产精品| 成年网址网站在线观看| 色婷婷天天综合在线| 精品福利视频网| 精品国产欧美精品v| 亚洲A∨无码精品午夜在线观看| 久草网视频在线| 日本高清成本人视频一区| 国产产在线精品亚洲aavv| 日韩一级二级三级| 日本免费精品| 毛片网站在线看| 男女精品视频| 久久精品丝袜高跟鞋| 亚洲欧美综合精品久久成人网| 国产成人精品高清不卡在线| 国产色爱av资源综合区| 激情乱人伦| 国产精品微拍| 午夜视频免费试看| 国产乱子伦一区二区=| 2020国产精品视频| 欧美不卡视频一区发布| 热99re99首页精品亚洲五月天| 亚洲人精品亚洲人成在线| 波多野结衣一级毛片| 一级毛片在线免费视频| 午夜国产大片免费观看| 国产真实乱了在线播放| 国产三级国产精品国产普男人| 青青草原偷拍视频| 91国内在线视频| 日韩毛片免费观看| 日韩专区欧美| 就去色综合| 免费一级无码在线网站 | 国内精品久久久久久久久久影视| 丰满人妻被猛烈进入无码| 91精品国产91欠久久久久| 国产香蕉在线视频| 欧美日本在线观看| 国产综合日韩另类一区二区| 欧美另类图片视频无弹跳第一页| 国产亚洲精| 国产乱子伦精品视频| 亚洲 欧美 中文 AⅤ在线视频| 91福利片| 国产微拍一区二区三区四区| 亚洲黄色视频在线观看一区| 强乱中文字幕在线播放不卡| 99视频在线观看免费| 四虎影视无码永久免费观看| 四虎在线高清无码| 日韩 欧美 小说 综合网 另类| 国产人成在线视频| 国产成人亚洲综合A∨在线播放|