999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的巡飛彈突防控制決策

2021-06-24 05:50:16高昂董志明葉紅兵宋敬華郭齊勝
兵工學報 2021年5期
關鍵詞:動作區域策略

高昂,董志明,葉紅兵,宋敬華,郭齊勝

(1.陸軍裝甲兵學院 演訓中心,北京 100072;2.湘南學院,湖南 郴州 423099)

0 引言

按照全域機動,全域力量投送,創造領域優勢,確保行動自由的“多域戰”作戰理念,巡飛彈這種飛航式智能彈藥成為軍事領域的重要發展方向[1-3]。巡飛彈如何在動態對抗環境中有效規避威脅、提高生存力是其執行作戰任務成功與否的關鍵[4-5]。目前,巡飛彈航跡規劃方法主要分為基于知識、推理、規劃,仿生優化,學習3類方法[6]。第1類方法缺乏探索及發現框架之外新知識能力;第2類方法適用于求解旅行商這類靜態環境下的路徑規劃問題,難以應用于動態對抗、決策實時性要求較高的環境;深度強化學習(DRL)屬于第3類方法,DRL可以突破專家先驗知識的限制,直接從高維戰場空間中感知信息,并通過與環境不斷交互優化模型。目前,采用DRL方法進行飛行器航跡規劃的工作并不多。文獻[7]在航跡終端約束條件下,基于DRL實現無人機從終端附近任意位置向目標點自主機動;文獻[8]在城市環境中,基于DRL實現無人機從靜態障礙物中通過,并到達指定目標區域。盡管飛行器控制在自主化方面已經取得了一定進展,但上述方法仍需要在更復雜的環境下進行進一步測試,例如動態環境中的航跡規劃對飛行器來說仍然具有挑戰性。本文考慮了存在潛在敵人威脅條件下,飛行器自主航跡規劃問題,其難點在于飛行器在完成任務之前,并不知道威脅的數量、位置、策略,因此,必須學習一個合適的策略來對動態環境做出反應。具體來說,假設敵人的地空導彈雷達能夠探測到一定范圍內的巡飛彈,并能夠影響巡飛彈在一定空間內的生存概率,因此巡飛彈必須學會在保證其自身不被摧毀的前提下完成突防任務。

1 基于馬爾可夫決策過程的巡飛彈突防控制決策模型

巡飛彈的作戰運用方式為,當其收到控制平臺發出的敵目標信息后,會繞過威脅區域,選擇高效飛行搜尋路線,對固定目標實施打擊。本節將巡飛彈機動突防建模為馬爾可夫決策過程(MDP),建立巡飛彈飛行運動模型,設計巡飛彈狀態空間、動作空間、獎勵函數。MDP可由元組(S,A,P,R,γ)描述,S表示有限狀態集;A表示有限動作集;P=P(st+1|st,a)表示狀態st下,采取動作a后,轉移到下一狀態st+1的概率,t為仿真時間;巡飛彈在與環境交互過程中,在每個時間步長內,根據狀態st執行動作a,通過與環境交互,生成下一時間步長的狀態st+1;R(s,a)表示狀態s下采取動作a獲得的累積獎勵,r(s,a)表示狀態s下采取動作a獲得的即時獎勵;γ為折扣因子,用來計算累積獎勵E.定義狀態值函數vπ(s)和狀態- 行為值函數qπ(s,a)分別如(1)式和(2)式。

(1)

式中:k為仿真時間間隔;vπ(s)能夠衡量策略π下狀態s有多好。相應地,狀態- 行為值函數定義為

(2)

由上述可以看出,qπ(s,a)衡量的是采用策略π時,在狀態s下采取動作a有多好。

1.1 巡飛彈飛行運動模型

巡飛彈的空間質心運動采用3自由度質點運動模型[9-10],假設巡飛彈發動機推力和速度方向一致,采用北東地大地坐標系,建立巡飛彈質點動力學運動模型fm(t)如(3)式所示,系統轉移概率P(·|s,a)=1.

(3)

式中:x、y、z表示大地坐標系下坐標分量;v表示速度矢量;vx、vy、vz分別表示巡飛彈在x軸、y軸、z軸3個方向的分量速度;g表示重力加速度;β、φ、φ分別表示航跡傾角、航向角、滾轉角;nx、nz分別表示巡飛彈切向過載和法向過載。

假設巡飛彈在Oxy平面以固定速度v高速突防,則控制巡飛彈航跡傾角β=0°,滾轉角φ=0°,運動模型簡化為

(4)

圖1 巡飛彈飛行航跡示意圖Fig.1 Schematic diagram of flight path of loitering munition

1.2 狀態空間設計

(5)

式中:α=x(t)-xg,β=y(t)-yg;xg、yg分別為目標區域中心點的經度、緯度坐標。

1.3 動作空間設計

根據巡飛彈飛行運動模型控制量的定義,飛行動作空間定義如 (6) 式所示。

Af={Δφ},Δφ=φ(t)-φ(t-1),
-φmax<Δφ<φmax,

(6)

式中:Δφ表示兩個相鄰仿真時間步長間航向角的改變量。設置巡飛彈作戰條令與交戰規則如圖2所示,主要為巡飛彈可接戰臨機出現目標,武器控制狀態為對地自由開火,即發現目標即摧毀,開火動作不受算法控制。

圖2 巡飛彈作戰條令與交戰規則設置Fig.2 Doctrine and engagement rules of loitering munition

1.4 獎勵函數設計

巡飛彈的突防目的是機動到目標地域執行任務,設巡飛彈完成突防控制任務的條件,如(7)式所示。

(7)

式中:在巡飛彈初始發射時刻,t=0 s,t為離散值,以1 s為1個仿真時間步長;maxt為每輪訓練最大仿真時間;d(t)表示t時刻,巡飛彈與目標區域中心位置AT的距離;l表示巡飛彈的探測半徑。目標區域的范圍是以目標點AT為圓心,以l為半徑的圓形區域,如圖3所示。根據巡飛彈突防控制任務完成的條件,設計巡飛彈突防控制評價函數,如(8)式所示。

圖3 巡飛彈突防場景幾何關系示意圖Fig.3 Schematic diagram of geometric relationship of loitering munition penetration scene

(8)

(9)

2 基于深度強化學習的巡飛彈突防控制決策模型求解

強化學習是在給定的MDP中尋找最優策略π*(a|s)=P(at=a|st=s)的過程。DRL主要是在給出狀態s和qπ(s,a),或s和vπ(s)的值后,可以借助深度神經網絡(DNN)較強的擬合能力,通過模型實現s→qπ(s,a)或s→vπ(s,a)的映射關系。

2.1 基于演員- 評論家的巡飛彈突防決策框架

DRL基本可分為基于策略梯度(PG)與基于值函數兩類,基于PG的DRL夠直接優化策略的期望總獎勵值并在策略空間搜索最優策略,適用范圍更廣[12-13],因此,本節基于PG設計算法框架。

圖4 巡飛彈決策網絡結構Fig.4 Network structure of loitering munition penetration decision

巡飛彈在戰場環境中的狀態、動作、獎勵值探索軌跡τ可描述為

τ={s1,a1,r1,s2,a2,r2,…,st,at,rt,st+1,
at+1,rt+1,…,sT,aT,rT},

式中:st、at、tt分別為仿真時間,巡飛彈的狀態、動作、獎勵值;t=1,2,3,…,T,T為仿真終止時間。

如圖5所示,τ發生的概率為

圖5 巡飛彈探索軌跡示意圖Fig.5 Schematic diagram of loitering munition exploration trajectory

(10)

因此,在巡飛彈的突防策略為π情況下,所能獲得的期望獎勵為

(11)

本節期望通過調整巡飛彈的突防策略π,使得期望獎勵最大,于是對期望函數使用梯度提升方法更新巡飛彈策略網絡參數θ,求解過程如下:

(12)

式中:N表示仿真的最大經驗序列數;Tn表示第n經驗序列的仿真終止時間。

利用該梯度調整策略參數θ,如 (13) 式:

(13)

式中:η為學習率。

(14)

因此,采用Q函數來估算R的期望值,同時,創建一個評價網絡來計算Q函數值。為提升巡飛彈突防學習效率,設計巡飛彈評價網絡結構如圖6所示,輸入層為t時刻巡飛彈狀態空間、動作值,輸出為Q函數值。

圖6 巡飛彈評價網絡結構Fig.6 Network structure of loitering munition evaluation

此時,巡飛彈策略網絡的參數梯度變為

(15)

巡飛彈評價網絡根據估計的Q值和實際Q值的平方誤差進行更新,對評價網絡來說,其損失值為

(16)

設計巡飛彈突防控制決策算法框架設計如圖7所示。

圖7 巡飛彈突防控制決策算法框架Fig.7 Algorithm framework of loitering munition penetration control

以上為基于演員- 評論家(AC)的DRL框架建模,屬于PG方法類,但可以進行單步更新,比傳統PG效率更高。

2.2 基于深度確定性策略梯度的巡飛彈突防控制決策求解

深度確定性策略梯度(DDPG)是AC框架下的算法[14],但融合了DQN的優勢,提高了AC的穩定性、收斂性,其流程示意圖8[15]所示。圖8中:s′、a′分別表示更新后的狀態值、動作值。

圖8 DDPG算法流程圖Fig.8 Flow chart of DDPG algorithm

根據上述流程,基于DDPG的巡飛彈突防控制決策算法訓練流程如表1所示。

表1 巡飛彈突防控制決策算法訓練流程Tab.1 Training process of loitering munition penetration control algorithm

巡飛彈突防控制決策算法流程訓練完畢后,得到最優決策網絡μ(s|θμ),直接使用μ(s|θμ)輸出作為決策結果,即a=μ(s|θμ),s∈S.

3 實驗設計及結果分析

圖9所示為巡飛彈突防敵地空導彈防御陣地,到某地域實施“斬首”行動仿真實驗。

圖9 巡飛彈突防想定示意圖Fig.9 Schematic diagram of loitering munition penetration scenario

3.1 實驗場景及武器性能參數設置

實驗場景主要對巡飛彈及3個地空導彈陣地的初始位置,以及與巡飛彈突防相關的紅方和藍方主要武器性能參數進行了設置。由表2可知:地空導彈的火力射程為6.0~7.6 km,巡飛彈的飛行高度為3.658 km,當巡飛彈進入地空導彈火力范圍時,即進入威脅區域;巡飛彈的偵察距離為10 km,地空導彈的火力范圍為10 km,當巡飛彈距地空導彈陣地發射點10 km時,會相互探測到對方的位置坐標。導彈的爬升速度為323 m/s,爬升至巡飛彈的飛行高度需要約11.3 s時間,此時,巡飛彈以250 km/h速度可機動約785 m. 由于導彈的巡航速度為2 185 km/h,遠大于巡飛彈的機動速度,因此,在導彈爬升至巡飛彈飛行高度前,巡飛彈如果沒有規避到地空導彈陣地火力范圍以外,就會面臨被摧毀的危險;目標區域設置為:以目標點坐標為圓心,巡飛彈偵察距離為半徑圓形區域,是因為這里假定巡飛彈進入該區域,即可在一定探測時間發現目標,并自動鎖定將其摧毀。

表2 實驗場景及主要武器性能參數設置表Tab.2 Experimental scene and weapon performance parameter setting

3.2 仿真流程及參數設置

實驗軟件環境:ubuntu18.04+pytorch. 硬件環境:Intel core i7+GeForce GTX 1060Ti+64G. actor、critic神經網絡結構分別采用2層、3層隱藏層的全連接神經網絡,隱藏單元數分別為(256,128)、(256,128,64),并使用relu激活函數。網絡主要超參數設置:actor、critic網絡學習率η=0.001,折扣因子Γ=0.99,目標網絡更新系數τ=0.001,經驗回放池容量D=100 000,當經驗回放池數據達到scale=10 000規模時,開始采用更新策略網絡,采樣數據規模batchsize=1 000,探索噪聲ε=0.2.

3.3 實驗結果分析

圖10 訓練數據統計圖Fig.10 Statistical graph of training data

圖11(a)為巡飛彈評價網絡損失函數值曲線,由評價網絡損失值函數(16)式可知:橫坐標為訓練周期;縱坐標為目標評價網絡與主評價網絡對巡飛彈狀態- 動作值的估計在每個訓練周期內的累積偏差,即損失值。本文以1 s為仿真時間步長,巡飛彈在每個時間步長內與環境交互采集一次數據,當經驗回放池數據量達到規模scale=10 000之后,每batchsize=1 000條經驗數據根據(16)式計算一次損失函數值,從圖11(a)中可以看出,評價網絡的損失值隨訓練進行不斷減小,并趨近于0,這說明評價網絡對巡飛彈狀態- 動作的估計值趨于準確。圖11(b)為巡飛彈策略網絡訓練目標變化圖,橫坐標為訓練周期,縱坐標為策略網絡在每次訓練時目標,巡飛彈根據(21)式更新訓練目標網絡。從圖11(b)中可以看出,策略網絡訓練目標隨訓練進行,逐漸維持在一個較小的值,說明巡飛彈突防控制策略在逐步優化并趨于穩定。

圖11 巡飛彈突防控制決策模型最優策略求解過程Fig.11 Process of solving the optimal policy of loitering munition penetration control decision model

統計巡飛彈每訓練M輪的平均獎勵值,即

(21)

表3 巡飛彈突防平均獎勵值統計Tab.3 Average reward values of loitering munition penetration

訓練完成后,取Ne=3 500的巡飛彈策略模型π3 500進行1 000次突防仿真測試,數據統計結果如圖12所示。

圖12 巡飛彈突防仿真測試數據統計Fig.12 Data statistics of penetration simulation test for loitering munition

巡飛彈決策控制模型測試統計結果如表4所示,1 000次突防仿真測試實驗,共成功突防821次,成功率為82.1%,平均決策時間1.48 ms,滿足巡飛彈控制決策指標要求。

表4 決策控制模型測試統計結果Tab.4 Statistical results of decision control model test

從1 000次突防仿真測試實驗中,選擇3組具有代表性的巡飛彈突防軌跡樣例,如圖13所示。巡飛彈的初始位置在圖13中綠色圓形區域內隨機初始化,進而反應訓練結果在該發射區域的泛化性能。目標區域為圖13中橙色圓形區域,巡飛彈進入該區域成功摧毀目標,即為成功完成突防任務。圖13中藍色區域為地空導彈威脅區域,巡飛彈實施突防任務時需要即時調整突防路線,避開威脅區域。從圖13中可以看出有紅、綠、藍3條不同顏色的巡飛彈突防軌跡,分別記為1號、2號、3號突防路線。

圖13 巡飛彈突防仿真測試軌跡樣例Fig.13 Sample trajectories of loitering munition in penetration simulation test

圖14 巡飛彈突防仿真測試獎勵值曲線Fig.14 Reward curves of loitering munition in penetration simulation test

圖15為巡飛彈動作控制參數變化曲線,結合圖13可知:在1號突防路線中,巡飛彈在突破威脅區之前,Δφ>0 rad,并且Δφ逐漸增大,后逐漸減小,實現向東平穩轉向;巡飛彈臨近威脅區域,Δφ減小至0 rad,并且隨著距離的進一步臨近,Δφ繼續減小,實現向西平穩轉向,從而在威脅區西側邊緣繞過;巡飛彈突破威脅區域,Δφ逐漸增大至大于0 rad,實現向東平穩轉向之后,始終控制航向與任務方向保持一致,機動至目標區,實現突防。

圖15 巡飛彈動作控制參數變化曲線Fig.15 Sample diagram of penetration trajectories

在2號突防路線中,巡飛彈在突破威脅區前,Δφ>0 rad,進而向東機動至臨近威脅區域,隨后控制航向與任務方向保持一致;Δφ在沒有大的變動情況下,始終朝目標區域方向機動,從防御體系漏洞突破威脅區,實現突防。

在3號突防路線中,Δφ的變動范圍較大,特別是在即將進入威脅區時,Δφ>0 rad持續增大,后持續減小至Δφ<0 rad,從而在威脅區東側邊緣繞過;在突破威脅區后,又調整Δφ,向目標區域機動,實現突防。

綜上所述,3組具有代表性的突防仿真樣例中,巡飛彈均能從發射區域的任意位置機動至目標區域,并將目標摧毀,決策網絡具有較好的泛化能力,獎勵值均層指數級增長。由此可以看出,本文所提模型可有效實現巡飛彈突防控制決策,在一定程度上提高了巡飛彈的自主性。

4 結論

本文針對巡飛彈動態突防控制決策問題,采用MDP描述了巡飛彈飛行運動模型,設計了飛行狀態空間、動作空間、獎勵函數等,提出基于DRL的LMPCD模型及其求解方法。仿真實驗結果表明,巡飛彈在動態對抗環境中,能夠實現自主突防,證明了模型及求解方法的有效性。該方法可為預測“藍軍”巡飛彈突防路線提供了技術借鑒,以及該方法以實際武器裝備可獲取的數據為輸入,對下一步在真實環境中應用具有重要軍事意義。

參考文獻(References)

[1] 龐艷珂,韓磊,張民權,等.攻擊型巡飛彈技術現狀及發展趨勢[J].兵工學報,2010,31(增刊2):149-152.

PANG Y K,HAN L,ZHANG M Q,et al.Status and development trends of loitering attack missiles [J].Acta Armamentarii,2010,31(S2):149-152.(in Chinese)

[2] 郭美芳,范寧軍,袁志華.巡飛彈戰場運用策略[J].兵工學報,2006,27(5):944-947.

GUO M F,FAN N J,YUAN Z H.Battlefield operational strategy of loitering munition [J].Acta Armamentarii,2006,27(5):944-947.(in Chinese)

[3] 劉楊,王華,王昊宇.巡飛彈發展背后的作戰理論與概念支撐[J].飛航導彈,2018 (10):51-55.

LIU Y,WANG H,WANG H Y.Operational theory and conceptual support behind the development of loitering munition [J].Aero-dynamic Missile Journal,2018 (10):51-55.(in Chinese)

[4] 郝峰,張棟,唐碩,等.基于改進RRT算法的巡飛彈快速航跡規劃方法[J].飛行力學,2019,37(3):58-63.

HAO F,ZHANG D,TANG S,et al.A rapid route planning me-thod of loitering munitions based on improved RRT algorithm [J].Flight Mechanics,2019,37(3):58-63.(in Chinese)

[5] 歐繼洲,黃波.巡飛彈在陸上無人作戰體系中的應用初探[J].飛航導彈,2019(5):20-24.

OU J Z ,HUANG B.Application of loitering munition in land unmanned combat system [J].Aerodynamic Missile Journal,2019(5):20-24.(in Chinese)

[6] 王瓊,劉美萬,任偉建,等.無人機航跡規劃常用算法綜述[J].吉林大學學報(信息科學版),2019,37(1):58-67.

WANG Q,LIU M W,REN W J,et al.Overview of common algorithms for UAV path planning [J].Journal of Jilin University (Information Science Edition),2019,37(1):58-67.(in Chinese)

[7] 張堃,李珂,時昊天,等.基于深度強化學習的UAV航路自主引導機動控制決策算法[J].系統工程與電子技術,2020,42(7):1567-1574.

ZHANG K,LI K,SHI H T,et al.Autonomous guidance maneuver control and decision-making algorithm based on deep reinforcement learning UAV route [J].Journal of Systems Engineering and Electronics,2020,42(7):1567-1574.(in Chinese)

[8] Bouhamed O,Ghazzai H,Besbes H,et al.Autonomous UAV navigation:a DDPG-based deep reinforcement learning approach[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.

[9] 張建生.國外巡飛彈發展概述[J].飛航導彈,2015(6):19-26.

ZHANG J S.Overview of foreign cruise missile development [J].Aerodynamic Missile Journal,2015 (6):19-26.(in Chinese)

[10] 李增彥,李小民,劉秋生.風場環境下的巡飛彈航跡跟蹤運動補償算法[J].兵工學報,2016,37(12):2377-2384.

LI Z Y,LI X M,LIU Q S.Trajectory tracking algorithm for motion compensation of loitering munition under wind environment [J].Acta Armamentarii,2016,37(12):2377-2384.(in Chinese)

[11] 黎珍惜,黎家勛.基于經緯度快速計算兩點間距離及測量誤差[J].測繪與空間地理信息,2013,36(11):235-237.

LI Z X,LI J X.Quickly calculate the distance between two points and measurement error based on latitude and longitude[J].Geomatics &Spatial Information Technology,2013,36(11):235-237.

[12] 劉建偉,高峰,羅雄麟.基于值函數和策略梯度的深度強化學習綜述[J].計算機學報,2019,42(6):1406-1438.

LIU J W,GAO F,LUO X L.A review of deep reinforcement learning based on value function and strategy gradient [J].Chinese Journal of Computers,2019,42(6):1406-1438.(in Chinese)

[13] 劉全,翟建偉,章宗長.深度強化學習綜述[J].計算機學報,2018,41(1):1-27.

LIU Q,ZHAI J W,ZHANG Z C.A survey on deep reinforcement learning [J].Chinese Journal of Computers,2018,41(1):1-27.(in Chinese)

[14] KONDA V R,TSITSIKLIS J N.Actor-Critic algorithms[C]∥Proceedings of Advances in Neural Information Processing Systems.Denver,CO,US:NIPS Foundation,2000:1008-1014.

[15] LILLICRAP T P,HUNT J J,PRITZEL A,et al.Continuous control with deep reinforcement learning[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.

猜你喜歡
動作區域策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
關于四色猜想
分區域
非同一般的吃飯動作
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 免费在线a视频| 色偷偷av男人的天堂不卡| 91国内外精品自在线播放| 毛片免费视频| 亚洲v日韩v欧美在线观看| 日韩无码黄色网站| 爱色欧美亚洲综合图区| 无码国内精品人妻少妇蜜桃视频| 亚洲成人精品久久| 国产欧美日韩视频一区二区三区| 在线观看91香蕉国产免费| 无遮挡一级毛片呦女视频| 成人av专区精品无码国产| 午夜小视频在线| 日本午夜精品一本在线观看| 色妞www精品视频一级下载| 久久一本日韩精品中文字幕屁孩| 亚洲天堂久久久| 少妇精品在线| 成人国产小视频| 精品黑人一区二区三区| 国产精品蜜芽在线观看| 国产午夜精品鲁丝片| 色老二精品视频在线观看| 国语少妇高潮| 欧美一区日韩一区中文字幕页| 国产精品一区二区国产主播| 小13箩利洗澡无码视频免费网站| 在线观看亚洲人成网站| 中文字幕在线看| 久久国产成人精品国产成人亚洲| 欧美亚洲国产视频| 国产在线精彩视频论坛| 亚洲成人在线网| 99人体免费视频| 扒开粉嫩的小缝隙喷白浆视频| 亚洲色图欧美在线| 狠狠色噜噜狠狠狠狠奇米777 | 色精品视频| 五月天福利视频| 91精品免费久久久| 大香网伊人久久综合网2020| 无码精品一区二区久久久| 欧美精品H在线播放| 欧美无遮挡国产欧美另类| 国产国拍精品视频免费看| 午夜限制老子影院888| 美女国产在线| 国产激爽大片高清在线观看| 激情乱人伦| 日韩av电影一区二区三区四区| 国产精品第| 国产精品熟女亚洲AV麻豆| 亚洲天堂777| 亚洲Va中文字幕久久一区| 免费一级毛片在线播放傲雪网| 无码专区在线观看| 国产精鲁鲁网在线视频| 亚洲国产精品一区二区高清无码久久| 国产91av在线| 99视频在线观看免费| 国产91熟女高潮一区二区| 无码人中文字幕| 久久99国产综合精品1| 亚洲高清无在码在线无弹窗| 亚洲av片在线免费观看| 伊人激情综合网| 国产精品三区四区| 国产99久久亚洲综合精品西瓜tv| 久久综合国产乱子免费| 亚洲人人视频| 最新日本中文字幕| 亚洲人人视频| 亚洲一区二区黄色| 性视频一区| 亚洲熟女偷拍| 欧美一级视频免费| 欧美天天干| 人妻出轨无码中文一区二区| 亚洲高清在线播放| 91在线日韩在线播放| 国产亚洲欧美在线人成aaaa|