邱敬然 趙立豪
(清華大學航天航空學院工程力學系應用力學教育部重點實驗室,北京 100084)
近年來,主動顆粒(active particle)的概念逐漸進入人們的視野.流體中的主動顆粒通常指具有自推進能力的微型顆粒物,例如游動的細菌[1]和浮游生物[2]等微生物,或醫用微納機器人[3].研究主動顆粒的行為特性有兩個方面的意義:從微觀角度上,單個顆粒的運動決定了其自身的狀態.例如,浮游生物是否能躲避捕食者,微納機器人是否能完成給定的任務,都取決于其自身的運動情況;從宏觀角度上,群體中每個顆粒的運動模式決定了整個群體的運動性質.例如,Reynolds[4]提出的鳥群模型中就通過控制個體的運動來實現群體層面的運動特性,Li 等[5]也運用類似的原理,利用功能簡單的主動顆粒個體組成群體,從而完成復雜的任務.
主動顆粒通常在流體介質中運動,例如浮游生物在海洋或其他水域活動,微納機器人進入人體后在血液中運動.因此,大量研究聚焦于主動顆粒在各種流動環境下的運動特性,包括游動速度、游動方向和聚集程度等.Durham 等[6]研究了基于微生物模型的主動顆粒在二維Taylor-Green 渦中的分布和聚集情況,并發現重力引起的恢復力矩(gyrotactic力矩)[7]會使顆粒聚集在特定的駐點區域.Durham等[8]發現在重力恢復力矩作用下,湍流中的主動顆粒傾向于聚集在流速朝下的區域.此后,相關研究進一步揭示了不同形狀的主動顆粒的聚集特性和原理[9-10].另一方面,由于主動顆粒獲得的推力通常只沿特定方向,它們的朝向特性也受到廣泛的關注.細長游動顆粒的游動方向會自發地沿著當地流體速度的方向[11];受到重力恢復力矩作用的顆粒傾向于沿著重力的反方向游動[12];在流體慣性作用下,因重力而沉降的游動顆粒也會傾向于沿著重力反方向游動,與受到重力恢復力矩的情況有相似的表現[13].
上述研究中的主動顆粒都只能以簡單且固定的模式運動.然而,實際問題中的主動顆粒往往可以主動改變自身的運動形式.例如,浮游生物能夠感知周圍流場的擾動,做出相應的逃避行為[14-15],或是在湍流的影響下改變游動速率[16].把這類能夠以某種策略,根據變化的環境來智能地調整自身的運動顆粒稱為智能顆粒(smart particle).如何定義一個具體的智能顆粒模型呢? 首先,需要建立描述顆粒在環境中運動的模型.第二,需要明確智能顆粒能夠感知何種環境信息.例如,浮游生物可以感知周圍流場的擾動速度.第三,需要明確智能顆粒能夠以何種行為方式對環境做出響應,并在模型中準確描述顆粒的行為方式.例如,流體擾動會觸發浮游生物改變游動方向、躲避捕食者的行為[14],而模型中需要描述這種行為.第四,需要明確智能顆粒的運動目標,例如最大化浮游生物的生存率.最后,還需要確定智能顆粒的運動策略,即在何種環境狀態下采取何種響應.實際上,尋找運動策略是智能顆粒研究中最關鍵也最困難的一步.當可能的狀態和響應數量較大時,遍歷所有策略將花費很大的代價.另一方面,智能顆粒問題往往會考慮流體的影響,進而引入非線性因素,使理論求解最優策略變得更加困難.
幸運的是,強化學習算法能夠有效地解決智能顆粒的運動策略問題.Colabrese 等[17]首次利用強化學習算法尋找智能游動顆粒在二維Taylor-Green 流動中的高效垂直遷移策略.受到這一工作的啟發,近年來涌現出一系列結合強化學習的智能顆粒研究.Gustavsson 等[18]研究了三維解析流動中的智能顆粒的定向運動問題,驗證了強化學習方法的有效性.Biferale 等[19]和Buzzicoti 等[20]的相關工作則研究了二維湍流流動中智能顆粒的點對點運動問題,并指出對于高度非線性的問題,強化學習方法比傳統的最優路徑理論[21]更具有實用價值.
智能顆粒的研究框架能夠被應用于多種問題.對于不同的問題,需要建立相應的顆粒模型.例如,浮游動物通??捎脽o慣性點顆粒模型描述,一些研究在此基礎上探究了浮游生物的高效運動策略[17-18,22-24].此外,某些浮游生物能夠利用離子交換或偽空胞主動調節自身的密度[25-26],因此有研究者利用慣性點顆粒模型研究了浮游生物如何主動調節密度以控制沉降[27],或停留在特定渦量大小的區域[28].智能顆粒同樣能用于研究群體運動.相關研究將魚或浮游生物視為顆粒,并考慮它們與流體的相互作用,探究了具有低能耗或高隱蔽性的群體游動智能策略[29-30].此外,有研究者利用橢球體在流體中下落的模型,研究了蟻類等昆蟲利用足部控制下落姿態和軌跡的智能策略[31].
最近,浮游生物的運動策略研究取得了一定的進展.雖然浮游生物的體型很小,直徑通常在幾十到幾百微米之間,但是它們擁有對環境的感知能力,能夠響應環境的變化從而提高自身的生存幾率.過去的生物學研究[14-15]已經證實橈足類浮游動物能夠利用觸須感受流體擾動,以識別捕食者或獵物.這種感知能力自然也有可能被浮游動物利用在其他重要的行為上.例如,浮游動物的晝夜間的垂直遷移與它們獲取營養、逃離捕食者以及繁衍[32-33]都有著密切的關系.高效地完成垂直遷移有助于它們取得生存優勢,因此有人猜測浮游生物能利用對流體信號的感知能力加速垂直遷移.然而,受到浮游生物尺寸和實驗觀測難度的限制,關于浮游生物是否能夠利用流體信號加速垂直遷移,目前還缺乏實驗上的驗證.因此,相關研究[17,22-24]借助智能顆粒模型和數值方法研究浮游生物加速垂直遷移的游動策略,為日后的實驗研究提供理論基礎.基于這一背景,本文旨在介紹智能顆粒和強化學習方法在浮游生物運動策略研究中的應用與進展.
將浮游生物近似為球形或橢球形顆粒,并考慮流體對浮游生物平動和轉動的影響,是一種常見的研究方法[6,8,12,17].浮游生物游動所引起的流動通常具有較低的雷諾數.浮游生物的典型直徑為0.1 mm 量級,游動速度為1 mm/s 量級[34],而水的運動黏度約為1 mm2/s,估算得雷諾數約為0.1.在雷諾數遠小于1 的情況下,可以近似忽略顆粒的有限體積效應,將顆粒視為質點,利用蠕流假設下的解析解計算顆粒所受的力和力矩,以牛頓第二定律描述顆粒的運動[35].這類模型被稱為點顆粒模型.當反映顆粒慣性的Stokes 數St遠小于1 時,顆粒自身的慣性可以忽略,進而得到直接描述顆粒速度和角速度的無慣性顆粒模型.其中,St=τp/ τf,τp和τf分別為顆粒的弛豫時間[36]與流體的特征時間尺度.
一般而言,浮游生物的運動可以由以下的無慣性點橢球顆粒模型來描述
其中,x和n表示顆粒的位置和朝向,v和 ω 表示顆粒的速度和角速度.式(2)中等號右邊的前3 項分別代表顆粒當地的流體速度u,顆粒沿著n方向、速率為vs的游動速度,以及顆粒的Stokes 沉降速度vg[23,37].式(4)中等號右邊的前兩項代表當地流體渦量 Ω 與應變率張量S的影響[38].形狀因子Λ=(λ2-1)/(λ2+1),其中λ是橢球顆粒的長軸與短軸之比,也稱長細比.隨著顆粒形狀由球形變得越來越細長,Λ將從0 增大至1.式(4)的第3 項ωs表示顆粒的游動角速度.第四項代表重力恢復力矩,使顆粒的朝向n自發地趨于重力的反方向-eg.這種力矩通常源自于顆粒質量的非均勻分布[7],當質心與形心存在偏移時,重力對于顆粒形心就會產生恢復力矩,而B表征恢復力矩引起的顆粒轉動的時間尺度.圖1(a)展示了主動顆粒的示意圖.
圖1 (a)智能顆粒示意圖.x-y-z 為全局坐標系,n-p-q 為顆粒局部坐標系.(b)強化學習原理示意圖[39]Fig.1 (a) Sketch of smart particle.x-y-z defines the global frame of reference,and n-p-q defines the particle local frame of reference.(b) A diagram of reinforcement learning[39]
這組模型在無慣性點顆粒模型的基礎上,考慮了顆粒的形狀和游動效應,同時也考慮了重力對顆粒平動與轉動的影響.由于游動速度和游動角速度的存在,顆粒不再被動地被流體輸運,因此稱之為主動顆粒.而智能顆粒則能夠根據自身所處的環境,主動調節游動速度和角速度以完成特定任務.
強化學習是一種典型的無監督機器學習方法[39],通常用于尋找智能體在特定環境下的最優行為策略.通過讓智能體反復探索環境,嘗試不同的行為,強化學習利用智能體運動的“經驗”對策略進行優化.簡而言之,強化學習的本質是構建一個從環境狀態到行為的映射,使得目標函數(或回報)最大化.此處以單步Q學習算法(one-stepQ-learning)[40]為例介紹強化學習的原理.
在強化學習中,智能體會在環境中按照某個策略運動.例如,智能顆粒在環境中開始運動時,首先確定初始狀態s0,并根據當前價值函數選擇行為a0.顆粒在環境中運動直到進入下一個狀態s1,根據目標函數的定義產生回報r0,接著確定下一個行為a1,并以此類推.最終,顆粒的運動將產生一段經驗{s0,a0,r0,s1,a1,r1,···,si,ai,ri,···},描述了狀態之間的轉移和相應的回報.在Q學習中,價值函數Q(si,a) 是狀態si下執行動作a所產生的所有未來回報之和的期望值.顯然,如果已知一個問題的真實價值函數,則狀態si下的最優行為就是a′=argmaxaQ(si,a) .然而,真實的價值函數往往很難求解,而強化學習則通過對價值函數的逼近來求解近似最優策略.在訓練階段,智能體需要與環境反復交互并產生上述的經驗,并利用經驗更新價值函數[39]
其中,學習率 α 控制了Q的更新步長.折扣率 γ 衡量了遠期回報對當前決策的影響,通常取0 ≤ γ ≤ 1,其值越小,得到的策略就越短視,反之亦然.在實際運用中,顆粒并不總是選擇使Q最大的行為,而是以很小的概率隨機選擇行為,稱之為ε-貪婪策略.這種技巧有助于顆粒主動探索更多可能性,避免策略被困于局部最優.
由上面的介紹可以總結強化學習方法所需的幾個要素.首先,需要明確智能顆粒和其所處的流體環境.第二,根據具體問題的需要,確定智能顆粒的任務目標,并據此定義合適的目標函數或回報.第三,還需要定義顆粒的狀態和其能執行的行為.顆粒狀態可以由自身的運動情況確定,如顆粒位置[19],也可以由對環境的觀測確定,如流體信號[23].顆粒的行為則根據具體問題有不同的定義方式.以上要素確定后,便能利用強化學習研究智能顆粒的運動策略.
基于浮游生物垂直遷移的背景,Colabrese 等[17]在2017 年首次利用強化學習研究了智能顆粒在在二維Taylor-Green 渦中的定向運動能力.Taylor-Green渦是一種特殊的解析流動,其流場由正反相間、等距排列的旋渦組成.Durham 等[41]發現游動顆粒在Taylor-Green 流動中容易被困在高渦量區域,使得顆粒無法進行垂直遷移.因此,Colabrese 等[17]希望利用強化學習尋找顆粒的優化運動策略,以克服旋渦的捕捉甚至利用流場本身的上升區域進行高效的垂直向上遷移.
Colabrese 等[17]假設顆粒能夠感知當地的渦量大小和自身當前的游動方向作為狀態,并假設顆粒能夠主動改變自身質心的位置,通過重力恢復力矩的機制來調節顆粒游動方向,即
其中k是顆粒主動選擇的朝向.此時他們不再考慮式(4)中等號右邊的最后一項.這種行為模式源于一些浮游生物能在外部流動狀態變化時改變自身的外形或內部質量分布,從而改變質心的位置[42].微型機器人也能通過調節內部的質量塊的位置來實現類似的行為模式.為了最大化顆粒的垂直上升速度,定義回報為
其中zi是狀態si發生時顆粒的垂直高度位置.利用強化學習,他們得到了不同顆粒的游動速度vs和重力恢復力矩的時間尺度B下的優化運動策略,并與傳統生物學模型對比(即k永遠朝向上方,也稱之為簡單策略).對于大部分的參數范圍,智能運動策略下顆粒的垂直上升速度都遠高于簡單策略.
Colabrese 等[17]的工作證明了在二維Taylor-Green 渦中,存在比簡單策略更優秀的智能游動策略.智能顆粒能夠基于有限的信息主動調整自身運動,實現更高效的運動,而強化學習則能夠高效地找出這些智能策略.雖然使用了高度簡化的顆粒和流場模型,得到的策略也難以應用于實際場景,但其首次提出了一個完整的強化學習研究框架.基于這一框架,后續的研究從顆粒和流場模型、顆粒狀態和行為方式、優化目標等多個方面進行改進,并研究多種智能顆粒的游動問題.
Colabrese 等[17]的研究中使用了高度簡化的模型與假設,例如他們只考慮了球形顆粒的運動策略,并忽略了重力引起的沉降作用.然而,真實的浮游生物往往具有不規則的形狀.此外,由于浮游生物的密度通常略大于水,它們在垂直遷移過程中勢必要克服重力沉降作用.若想通過強化學習研究真實浮游生物的運動策略,就需要盡可能準確地描述浮游生物的運動.基于此,本文作者Qiu 等[22]在智能顆粒模型中引入了顆粒形狀和重力沉降的影響,考察了二者對智能游動策略的影響.他們將浮游生物模型化為細長橢球,并用長細比 λ 描述顆粒的形狀.重力沉降的影響則通過引入沉降速度來體現
Qiu 等[22]發現,在浮游生物的典型參數下,隨著橢球顆粒長細比 λ 的增加,簡單的非智能策略和強化學習得到的智能策略都有了更好的表現,如圖2所示.當不考慮重力沉降時,細長顆粒使用智能策略時垂直上升的速度要遠高于簡單策略.然而,在重力沉降的作用下,智能策略雖然仍優于簡單策略,但二者的表現非常接近,所導致的顆粒分布特征也非常相似.前文提到,簡單策略來自于生物學模型——質量非均勻分布的浮游生物在重力恢復力矩作用下自發獲得垂直向上的朝向.由于強化學習沒有找到遠勝于簡單策略的智能游動策略,作者認為在有重力沉降的情況下,簡單策略或許已經是一種足夠高效的垂直運動策略.這一工作首次將智能顆粒研究的模型范圍從理想情況下的球形顆粒拓展到更加真實和復雜的非球形沉降顆粒,也進一步驗證了強化學習和智能顆粒的研究框架.
圖2 智能顆粒垂直運動速度vz 隨形狀和重力沉降作用的變化[22].顆粒速度以流動的特征速度u0 無量綱化.RL:強化學習得到的智能策略,naive:簡單策略,settle:考慮沉降作用Fig.2 Vertical velocity of smart particles vz as functions of the effects of gravitational settling and particle shape [22].Particle velocity is normalized by velocity scale of the background flow u0.RL:smart strategy found by reinforcement learning.Naive:naive strategy.Settle:the cases considering settling effect
Colabrese 等[17]和Qiu 等[22]的研究中都假設游動顆粒能夠直接感知當地的渦量大小和當前的游動方向,并且顆粒能夠調節自身的質心位置,利用重力恢復力矩調整自身的游動方向.然而,實際問題中的顆粒難以獲得這種感知和行為能力.比如浮游生物難以直接測量周邊流體的渦量,更無法直接獲取自身在全局坐標系下的游動方向.對于浮游生物或者微型機器人之類的微型游動智能體,更容易測量的是基于局部坐標系的變量.例如,浮游生物能夠感知局部流體信號,包括流體的變形率以及浮游生物相對于流體的轉動和平動[14].研究浮游生物如何利用有限的、局部坐標系下的信息,在全局坐標系下高效地定向或定點運動,將加深人們對浮游生物生態的認識,也能為智能微型機器人的設計制造提供靈感.
基于這一背景,Qiu 等[23]的工作集中討論了局部坐標系下測量的信號如何為定向運動提供信息,并基于式(1)~ 式(4)的點顆粒模型,構建了一個橈足類浮游動物的運動與感知模型.顆粒能夠感知流體變形率張量在自身坐標系下的兩個分量
以及顆粒相對流體的角速度和速度[14,23]在局部坐標系下的分量,例如
顆粒以定常的速度vs游動,并主動通過基于局部坐標系的游動角速度 ωs=ωsq調節游動的方向,其中ωs=-1,0,1 rad/s.Qiu 等[23]研究了這種游動顆粒在二維Taylor-Green 渦與二維隨機流場中的垂直運動策略,并意識到了局部流體信號的局限性.Taylor-Green 渦具有C4 旋轉對稱性,即流場沿任意軸旋轉90°后所得的流場仍與原流場等價,而二維隨機流動則具有統計意義上的各向同性.顆粒必須能夠分辨目標方向才能夠完成垂直遷移運動,否則強化學習不能得到任何有效的策略.為了分辨目標方向,必須要破壞流場帶來的對稱性.Qiu 等[23]認為,可以在強化學習的各環節中提供破壞對稱性的信息,包括狀態和行為的定義、顆粒動力學系統特性等.例如,Colabrese 等[17]和Qiu 等[22]的研究中顆粒能夠感知自身在全局坐標系中的朝向,而顆粒利用朝向信息即可分辨運動目標方向,從而破壞了對稱性.Biferale等[19]的研究中,顆粒能夠感知自身的位置坐標,也同樣破壞了對稱性.顆粒的行為同樣能夠提供破壞對稱性的信息.Colabrese 等[17]和Qiu 等[22]認為顆粒根據式(6)改變游動方向,而式(6)中的k是根據全局坐標系定義的,因而破壞了對稱性.然而,上文中定義的基于的局部坐標系的流體信號和游動角速度無法提供任何全局坐標系的信息.此時,重力破壞了顆粒動力學的對稱性,使得定向運動成為可能.沉降效應使顆粒相對于流體產生了重力方向的相對速度,而重力恢復力矩則使顆粒獲得了n沿著重力反方向的朝向傾向性.
另一方面,局部流體信號提供了有用信息,使得智能顆粒在重力作用下能夠得到高效的垂直上升策略.變形率的分量Snp反映了流體的變形率對顆粒角速度的影響,而側向的相對速度分量Δup則反映了顆粒當前朝向與重力方向之間的關系[23].利用這些信號,顆粒能夠主動轉動以擴大流體變形率對顆粒角速度的影響,等效地提高了顆粒的長細比,躲避高渦量區域,并利用上升的流動加速垂直向上遷移,如圖3 所示.圖3 中所有變量均以流動的特征速度和長度u0和L0無量綱化
圖3 (a)智能顆粒在二維Taylor-Green 旋渦流動中的運動軌跡.紅點表示顆粒的初始位置,背景為渦量云圖.(b)智能顆粒與非智能顆粒當地流體垂直方向速度uy 的概率密度分布(PDF)[23]Fig.3 (a) Trajectories of smart particles in two-dimensional Taylor-Green vortex flow.Red dots represent the initial position of particles.Background contour shows the vorticity of fluid.(b) The probability distribution function (PDF) of the vertical velocity of local fluid uy[23]
Qiu 等[23]在二維定常流動中證實了局部流體信號的有效性以及相關的物理機制,然而實際中的浮游微生物生活在三維非定常湍流環境中.對稱性相關的結論在三維非定常流動中仍然適用.在重力破壞了對稱性的情況下,游動顆粒理論上可以利用局部流體信號在各向同性均勻湍流里實現定向運動,然而具體的游動策略和其背后的機制或許會有所不同.
所以,Qiu 等[24]探索了智能顆粒在三維湍流中利用局部信號的運動策略.三維情況下,游動顆粒感知的有效流體信號分量會更多,如表1 所示.變形率分量從二維情況下的兩個獨立分量增加到三維情況下的5 個分量,相對角速度從1 個分量增加到3 個分量,相對速度從2 個分量拓展到3 個分量.以流體變形率為例,假設每個流體信號值都被劃分為3 個區間,由兩個不同的信號組成的狀態空間將有32=9個不同的狀態,三維情況下由5 個信號組成的狀態空間則有35=243 個狀態.若每個狀態中顆粒都有3 個可以選擇的行為,那么總策略數分別為39~ 104和3243~ 10116.對于后者,龐大的策略空間中存在大量的局部最優解,使強化學習難以收斂到最優策略.同時,運動策略的可視化和解讀也會變得很困難,導致得到的策略成為一個“黑箱”,難以挖掘其背后的機制.因此,Qiu 等[24]基于此前在二維流動中發現的機制,以及各種流體信號之間的關系,最終確定了4 個對垂直運動最重要的流體信號:Snp,Snq,Δup和Δuq.
表1 二維與三維流場中獨立流體信號分量Table 1 Independent fluid signals in two-dimensional (2D) and three-dimensional (3D) flows
在湍流中研究智能顆粒運動策略的另一個困難來自于流體的非定常性.在2.1 節中曾提到,強化學習的訓練階段需要反復模擬顆粒在流場中的運動以獲取用于訓練的經驗.為了求解顆粒運動軌跡,非定常的湍流也需要同步求解.與一般的數值模擬不同的是,訓練過程中顆粒的運動策略一直在更新,從而無法事先模擬大量的顆粒軌跡用于訓練.換言之,需要對流場進行反復的模擬,使得訓練的計算量急劇增加.
目前,這一問題有3 種應對方法.一是直接同步模擬流場.盡管流場的計算量巨大,但在二維情況或網格數較少的情況下計算量可以接受.二是預先模擬并儲存流場,在反復的訓練中讀取并使用.這一方法的優點在于將計算效率的瓶頸由流場求解轉為流場的讀取.然而,在面對網格量較大的三維流動時,流場的讀取速度仍然較慢.三是使用非定常流場的時間快照進行訓練.Qiu 等[24]將流場時間快照稱為凍結流場,并假設顆粒在凍結流場中的拉格朗日軌跡和在真實流場中的軌跡相似,則凍結流場中學到的策略也適用于真實流場.如圖4(a)所示,顆粒的智能游動策略在凍結流場和隨時間變化的湍流場中都有較好的效果,并優于簡單策略.這一方法無需同步計算流場,也幾乎不用讀取流場,因此計算量與在非定常流場中訓練相差無幾.然而,凍結和真實流場的始終存在差異,因此強化學習得到的策略必須在真實流動中進行檢驗.
圖4 (a)顆粒在凍結流場(frozen)與隨時間變化的流場(DNS)中的垂直方向速度vz,以及游動速度nzvs,當地流體速度uz 和沉降速度vg,z 的貢獻.smart 2D: Δ up 流體信號下的智能策略;naive:簡單策略智能顆粒.(b)不同策略下顆粒在三維各向同性均勻湍流中的運動速度及各部分貢獻.naive:簡單策略;2D:Δup 信號下的二維策略;3D2S:Δup,Δuq 信號下的三維策略;3D4S:Snp,Snq,Δup,Δuq 信號下的三維策略.(c)3D4S 策略下的顆粒瞬時分布[24]Fig.4 (a) Vertical velocity of particles vz in frozen flow (frozen) and time-dependent flow (DNS),with the contributions of swimming velocity nzvs,local fluid velocity uz,and settling velocity vg,z.Smart 2D:smart strategy with signal Δ up .Naive:naive strategy.(b) Vertical velocity of particles under different swimming strategies in homogeneous isotropic turbulence.Naive:naive strategy.2D:two-dimensional strategy with Δup signal.3D2S:two-dimensional strategy with Δup,Δuq signals.3D4S:two-dimensional strategy with Snp,Snq,Δup,Δuq signals.(c) Instanueous distribution of particles with 3D4S strategy[24]
圖4 (a)顆粒在凍結流場(frozen)與隨時間變化的流場(DNS)中的垂直方向速度vz,以及游動速度nzvs,當地流體速度uz 和沉降速度vg,z 的貢獻.smart 2D: Δ up 流體信號下的智能策略;naive:簡單策略智能顆粒.(b)不同策略下顆粒在三維各向同性均勻湍流中的運動速度及各部分貢獻.naive:簡單策略;2D:Δup 信號下的二維策略;3D2S:Δup,Δuq 信號下的三維策略;3D4S:Snp,Snq,Δup,Δuq 信號下的三維策略.(c)3D4S 策略下的顆粒瞬時分布[24] (續)Fig.4 (a) Vertical velocity of particles vz in frozen flow (frozen) and time-dependent flow (DNS),with the contributions of swimming velocity nzvs,local fluid velocity uz,and settling velocity vg,z.Smart 2D:smart strategy with signal Δ up .Naive:naive strategy.(b) Vertical velocity of particles under different swimming strategies in homogeneous isotropic turbulence.Naive:naive strategy.2D:two-dimensional strategy with Δup signal.3D2S:two-dimensional strategy with Δup,Δuq signals.3D4S:two-dimensional strategy with Snp,Snq,Δup,Δuq signals.(c) Instanueous distribution of particles with 3D4S strategy[24] (continued)
對于各向同性均勻湍流,凍結流場和真實流場具有定性上一致的拉格朗日統計量,因此Qiu 等[24]在凍結湍流中進行強化學習訓練,得到了在4 個流體信號的輸入下的一系列局部最優解.結合二維流動中發現的機制,作者提出了全三維的運動策略.在各向同性均勻湍流中,這些策略能夠讓顆粒保持垂直向上的游動方向,從而獲得較高的垂直運動速度[24],如圖4(b)和 圖4(c)所示.圖4 中箭頭表示顆粒當前游動方向.背景云圖為流體垂直方向速度.橫縱坐標與流體速度分別以Kolmogorov 長度尺度η與速度尺度uη無量綱化.因此認為浮游微生物具有利用流體信號實現高效垂直遷移的可能性.這些流體信號能夠幫助它們主動感知并調節自身的游動方向,提升在湍流中垂直遷移的效率.
本文介紹了近些年利用強化學習探究浮游生物運動策略的相關進展.從最簡單的智能顆粒模型[17]出發,逐步考慮重力和顆粒形狀[22]、局部流體信號[23]以及復雜流動[24]的影響,最終得到了魯棒的、有實際意義的智能顆粒游動策略.這一系列工作檢驗并完善了基于強化學習的智能顆粒研究框架,包括對顆粒和流體動力學的建模,對顆粒狀態和行為的定義,以及目標函數的設計.此外,針對局部信號與對稱性的討論,也對狀態、行為和目標函數的選擇提供了指導意義.在這些工作中,強化學習作為一個工具,能夠為一個具體目標提供一系列局部最優解.盡管局部最優解有時可以足以滿足解決問題的需要,進一步探究其背后的機制有助于加深對物理問題的理解.對于具體問題,可以結合這些物理機制和先驗知識,人為提出優于強化學習局部最優解的策略或者實際中更具可行性的策略.
此外,隨著強化學習框架的日漸成熟,研究者已經不滿足于在簡單流動中研究顆粒的智能運動策略.盡管目前還存在2.4 節中提及的問題,研究者正在嘗試將強化學習應用于更加復雜的流動[20,24,43-44].對于不同的問題,顆粒的狀態有不同的定義.除了本文著重介紹的流體信號之外,顆粒也可以根據自身的位置[19],當地流體速度和渦量[44],或附近障礙物的信息[45]進行運動.目前,大部分智能顆粒研究中并沒有考慮顆粒獲取推力的具體方式,因而利用強化學習研究顆粒的高效運動方式也是研究熱點之一[46-47].
智能顆粒相關研究的快速發展為許多問題帶來了新的思路.強化學習作為機器學習的一個重要分支,近年來也廣泛應用于力學研究中.如何發掘新的分析問題的角度,以及如何發揮新興數學工具的優勢,將會是人們在未來面臨的重要挑戰.