摘要:無人水面艇局部路徑規劃在海事救援、海洋運輸等領域中發揮著重要的作用。現有局部路徑規劃算法在簡單場景中取得了不錯的效果,但面對環境中存在的復雜障礙物和海流干擾時,性能表現較差。為此,提出了一種基于時空感知增強的深度Q網絡強化學習算法,首先,引入多尺度空間注意力模塊捕捉距離傳感器的多尺度空間信息,提升了復雜障礙物環境的感知能力;其次,利用基于長短時記憶網絡的海流感知模塊提取海流干擾環境的時間序列特征,增強了對海流干擾的感知能力;此外,對無人水面艇傳感器和運動模型進行了模擬,并設計了強化學習狀態空間、動作空間和基于方向導引的獎勵函數,提升了算法的導航性能和收斂速度。在復雜仿真場景中進行了實驗,結果表明,所提算法相比于原始算法在導航成功率和平均到達時間兩個指標上均得到了提升,算法表現出較強的復雜環境適應性。
關鍵詞:局部路徑規劃;復雜障礙物;海流干擾;深度Q網絡;多尺度空間注意力;獎勵函數
中圖分類號:TP391文獻標志碼:A文章編號:1001-3695(2023)05-007-1330-05doi:10.19734/j.issn.1001-3695.2022.09.0466
0引言
無人水面艇(unmannedsurfacevehicle,USV)局部路徑規劃要求USV根據自身傳感器獲取的部分環境信息來完成實時避障和導航[1],從而規劃出從起點到達終點的安全行駛路徑,該技術近年來被廣泛應用于海事救援、海洋運輸等領域[2],并在實現USV航行無人化、智能化、安全化的過程中發揮著重要作用。
目前較為常見的局部路徑規劃算法包括人工勢場法[3](artificialpotentialfield,APF)、動態窗口法[4](dynamicwindowapproach,DWA)和深度強化學習類的深度Q網絡(deepQ-network,DQN)[5]及其衍生算法D3QN(duelingdouble,DQN)等。人工勢場法通過在目標和障礙物周圍構建引力勢場和斥力勢場來實現路徑規劃,在簡單障礙物場景中取得了較好的效果。動態窗口法根據若干條未來可行的軌跡,使用評價函數選擇出下一時刻的最優行駛速度來完成路徑規劃,其充分考慮和評估規劃主體的運動學約束,能夠得到較高的成功率和較少的到達時間。隨著人工智能技術的發展,深度強化學習[6]被越來越多地應用到局部路徑規劃中,它結合了深度學習強大的環境特征提取能力和強化學習[7]的控制策略學習能力,能夠實現端對端的決策輸出,算法的適應性、魯棒性較強,且規劃實時性較好。Xiao等人[8]通過改進人工勢場法的引力勢場模型和約束遠處的引力勢場,實現了USV局部路徑規劃,但其只能在規則障礙物下完成避障,并且未考慮海流干擾。Wang等人[9]重新設計了動態窗口法的運動學模型和評估函數,在海洋環境下進行了USV實時路徑規劃與避障,但障礙物場景較為簡單。Wu等人[10]模擬了USV的實際運動模型,使用DuelingDQN算法在靜態和動態環境下完成了USV局部路徑規劃,但其未考慮海流干擾和復雜無規則障礙物的環境。Wang等人[11]提出了一種基于先驗知識的強化學習actor-critic算法,完成了USV的實時避障,但其對復雜環境的適應性較差。
USV局部路徑規劃目前存在的問題有:a)現有算法一般都只能在簡單的規則障礙物場景中取得不錯的效果,但是在真實環境下,障礙物的形狀和大小都較為復雜,現有算法往往會陷入局部最小點,以至于無法在規定時間內到達目標;b)現有算法較少考慮海流干擾對USV運動狀態的影響。為此,本文提出了一種基于時空感知增強的深度Q網絡算法ESD3QN(enhancedsensingD3QN)。首先,利用多尺度空間注意力模塊(multi-scalespatialattention,MSA)捕捉不同尺度的障礙物空間距離信息,以提高傳感器對復雜障礙物環境的空間感知能力,增加了USV在復雜障礙物環境下的導航性能。其次,利用基于長短時記憶網絡的海流感知模塊捕捉海流時間序列特征,提升了USV對海流干擾環境的感知能力;最后,在Python平臺下對海洋環境與無人水面艇運動和感知模型進行了模擬仿真,并設計了強化學習狀態空間、動作空間,針對海流對USV運動模型的干擾,設計了基于方向導引的獎勵函數,增加了算法的內在獎勵,使算法能夠應對海流干擾,提升了算法的導航性能和收斂速度。ESD3QN相比于D3QN算法,導航成功率和平均到達時間等指標均得到明顯提升,同時保持了良好的計算實時性,能夠適應復雜的海洋環境。
1本文方法
1.1深度Q網絡
深度Q網絡(DQN)是深度強化學習的開山之作,它用一個Q值神經網絡替代了傳統的Q值表,解決了Q-learning[12]難以處理高維狀態空間的問題,同時引入了經驗回放機制(experiencereplay),保證了訓練樣本的獨立同分布特性。
DQN中Q值網絡損失函數如式(1)所示。
其中:Q(s,a;θ)是當前Q值網絡,用于策略選擇;Q(s,a;θ′)是目標Q值網絡,用于Q值估計;Yt是目標Q值(如式(2)所示),用于估計當前狀態的最大獎勵期望。DQN算法利用當前Q值作為訓練對象,目標Q值作為訓練標簽,當前Q值和目標Q值之間的均方誤差作為損失函數來更新Q(s,a;θ)的參數,以實現算法的最優迭代。
1.2D3QN
在DQN中會出現Q值過估計的問題[13],于是提出DoubleDQN(DDQN)[14],利用當前Q值網絡來選擇動作,目標Q網絡來估計Q值,降低了Q值過估計帶來的誤差,其目標Q值Ydoublet和損失函數L(θ)如式(3)和(4)所示。
D3QN[15]在DoubleDQN的基礎上引入了動作優勢函數,它將Q值函數拆分成兩個分支,一個分支為狀態價值函數V(s;θ,β),它僅與狀態s有關,而與動作a無關,另一分支為動作優勢函數A(s,a;θ,α),它與狀態s和動作a都有關,D3QN將狀態價值和動作優勢相分離,提高了算法的學習速度,其Q值計算方法如式(5)所示。
D3QN算法流程如圖1所示。
1.3ESD3QN網絡
1.3.1ESD3QN網絡結構
ESD3QN(圖2)在傳統D3QN的基礎上對神經網絡結構進行了修改,將低層的環境感知部分分成了三個分支模塊,即狀態感知模塊(statesensingmodule,SSM)、障礙物感知模塊(obstaclesensingmodule,OSM)和海流感知模塊(currentsensingmodule,CSM)。狀態感知模塊輸入目標狀態信息,以提取目標點的相對位置和USV的運動狀態等狀態感知特征;障礙物感知模塊輸入一維障礙物距離信息,通過多尺度空間注意力模塊捕捉不同尺度下的障礙物距離空間感知特征;海流感知模塊輸入海流環境信息,利用長短時記憶網絡(longshort-termmemory,LSTM)[16]提取海流狀態的時間感知特征。
在網絡的動作決策部分,利用一個全連接網絡對上述三個模塊的輸出進行特征融合,得到融合感知特征,然后送入兩個全連接分支網絡,分別得到動作優勢和狀態價值,并將它們相加得到Q值,以輸出不同的動作。
1.3.2狀態感知模塊
狀態感知模塊由一個全連接網絡構成,網絡輸入是終點相對USV當前位置的距離、方位角以及USV當前的速度、偏航角等目標狀態信息,其目的是融合終點相對于USV的實時位置信息和USV的運動狀態,得到狀態感知特征,提取出USV的導航信息。
1.3.3障礙物感知模塊
障礙物感知模塊由一個多尺度空間注意力模塊(MSA)[17]和全連接網絡構成。海洋環境中,障礙物的形狀和大小都十分復雜,呈現出非結構化特征,距離傳感器采集一維的空間距離信息,對于這類信息通常使用空間注意力進行特征提取,以加強對某些重要空間位置的感知能力,然而一般的空間注意力僅僅考慮單尺度信息,學習到的空間特征比較單一,無法適應復雜的障礙物環境,于是本文使用多尺度空間注意力模塊,利用不同大小的卷積核提取多尺度的空間注意力信息,學習到更豐富的障礙物特征,并用通道注意力機制自適應地標定不同尺度通道的權重,以加強USV對復雜障礙物環境的感知能力。MSA模塊(圖3)輸入距離傳感器一維序列感知數據,分別使用多種不同大小的一維卷積核對輸入進行滑動卷積,再將卷積輸出經過sigmoid函數得到多尺度下的空間注意力權重[18],并將它們分別與輸入相乘得到多尺度空間注意力特征,然后在通道上拼接起來并經過一個通道注意力模塊[19],賦予其相應的通道注意力權重,得到多尺度的障礙物距離空間感知特征。最后將MSA模塊的輸出經過全連接層進行多尺度特征融合,得到障礙物感知特征。MSA模塊能夠提取不同尺度下的障礙物空間距離信息,因此能夠提升USV在復雜障礙物場景的導航與避障能力。
1.3.4海流感知模塊
海流感知模塊由LSTM和全連接網絡構成。在復雜的海流環境下,USV運動過程中僅能感知當前時刻的海流信息,同時可以保存歷史時刻的海流信息以構成海流時序數據。LSTM針對時序數據具有較強的預測能力,使用LSTM可以獲取對未來時刻的海流干擾的估計信息,以優化USV的運動策略。LSTM網絡的輸入為由歷史海流狀態時間序列組成的海流環境信息,它使用滑動窗的方式進行構建,USV每更新一次運動狀態,就記錄該時刻的海流狀態vc(t),并刪除最早存入的海流狀態,使得輸入序列的長度固定為L。LSTM輸出的海流時間序列特征經過一個全連接網絡,以獲得海流感知特征。海流感知模塊能夠利用LSTM的長序列特征提取能力,獲取海流狀態的時間特征信息,提升USV對海流干擾環境的感知能力和預測能力[20],提高導航成功率,減少到達終點的時間。
1.4強化學習模型設計
1.4.1動作空間設計
在平面空間構建USV三自由度運動模型[21],三個自由度分別表述為朝向USV船首、右舷的前進速度u、橫漂速度v,以及繞朝向地心的USV中軸旋轉的艏搖角速度ω。USV在平面的運動狀態為[x,y,φ],其中[x,y]為USV的坐標,φ為USV的偏航角。
在海流干擾環境中,海流主要影響的是USV的橫漂和前進速度,海流在USV當前位置的速度矢量表示為vc(t)=[vcx(t),vcy(t)],USV在離散時間Δt內的運動學方程如式(6)所示。
根據上述運動學模型,為方便航行時間的計算,假設航行的前進速度固定不變,在最大偏航角范圍內設置n個不同的角速度,作為離散動作空間Ci,如式(7)所示。
1.4.2狀態空間設計
USV感知的目標狀態信息表示為g=[dg,φg,φ],dg、φg分別為終點與USV的相對距離和相對方位角。為獲取障礙物距離信息,在USV上模擬配置了k個等角度間隔的距離傳感器,每一個距離傳感器可以在最大感知距離dmax內實時探測自身角度的障礙物距離,返回的障礙物距離信息為d=[d0,d1,…,dk]。海流環境信息表示為vcseq=[vc(t),vc(t-1),…,vc(t-L+1)],其中vc(t)表示t時刻USV位置的海流速度。
基于USV所獲取的局部環境感知信息,構建強化學習算法中的狀態空間為S=[g,d,vcseq]。
1.4.3獎勵函數設計
稀疏獎勵[22]是強化學習獎勵設計中的一個難題,智能體在中間狀態無法獲得獎勵,難以探索出成功的策略。因此,常用的做法是獎勵重塑(rewardshaping)[23],即在智能體作出每一個動作后都給予一個中間狀態獎勵,在路徑規劃任務中,常用的獎勵重塑方法設計的獎勵函數如式(8)所示,其中m是到達目標時獲得的獎勵,dt-1、dt分別是上一時刻和當前時刻智能體與目標點的距離。
式(8)是獎勵函數無法在海流干擾環境下給予USV合適的內在獎勵,因此本文設計了方向導引獎勵函數,將海流干擾矢量與方向導引矢量相結合,使USV可以更好地克服海流干擾,同時提升了算法的收斂速度。其設計思路是:假設目標點對USV存在一個吸引力Fatt=ζea,ζ為吸引力的大小,ea為吸引力單位向量,方向由USV當前位置指向目標點位置。傳感器檢測到距離USV最近的障礙物對USV存在一個排斥力,如式(9)所示。其中d是USV與障礙物的距離;d0是排斥力的最小作用范圍;er是排斥力單位向量,方向由USV當前位置指向障礙物。
吸引力Fatt和排斥力Frep的合力方向為USV期望的導引方向,然而由于存在海流干擾力Fc=βvc,它會導致真實的導引方向發生偏離,所以將三個作用力矢量進行合成,得到海流環境下的方向導引矢量Fguide=Fatt+Frep-Fc,如圖4所示。USV的前進速度矢量為V=[vx,vy],通過計算前進速度矢量與方向導引矢量的余弦相似度cosθg來衡量USV前進方向與導引方向的偏離程度,由此構建方向導引獎勵函數(如式(10)所示),該獎勵函數使USV能夠盡量避免海流干擾帶來的軌跡偏離,使其朝著期望的導引方向前進。
2實驗
2.1實驗仿真環境
本研究分別構建了訓練和測試場景的仿真環境。為了便于障礙物的構建以及距離傳感器對障礙物的感知,對二維場景地圖進行了柵格化和二值化處理[24],每一個柵格用0或1來表示該位置是否有障礙物,同時每一個柵格還包含了該位置的海流速度。實驗仿真海流環境由定常流(如式(11)所示)和渦流(如式(12)所示)[25]疊加生成,(x0,y0)是渦流中心點的坐標,r是地圖上某一點(x,y)到渦流中心點的距離。
訓練階段,每一輪生成若干個隨機位置的不同形狀大小的障礙物,USV起點和終點位置在地圖上隨機生成,且場景中存在隨機生成的海流干擾。
測試階段,設置了100組不同的USV起點和終點。場景選取了舟山群島的部分海域,對真實地圖進行了二值化處理,以作為測試環境,如圖5所示。環境中障礙物的空間排布和障礙物形狀都十分復雜,呈現出非結構化特征,并且存在隨機生成的海流干擾,增加了導航和避障的難度。
2.2實驗設置
本文實驗是在Windows10系統下進行,采用PyTorch1.4深度學習框架和gym強化學習框架,硬件配置為NVIDIAGeForceGTX1060,3GB顯存,IntelCoreTMi5-8400CPU@280GHz×6,8GBRAM。訓練的學習率為00005,探索率為0.1,折扣因子為0.99,經驗回放池容量為10000,目標Q網絡更新頻率為500,批次大小為32。
2.3評價指標
為了衡量不同算法的導航性能,主要設置了導航成功率(successrate,SR)、平均到達時間(averagearrivaltime,AAT)和每步計算耗時(time-consumingperstep,TPS)這三個評價指標。SR的計算方式如式(13)所示,其中SE為導航成功的實驗次數,TE為總實驗次數;AAT的計算方式如式(14)所示,其中SS為所有導航成功實驗的到達步數之和;TPS的計算方式如式(15)所示,其中TT為所有實驗的總計算耗時,TS為所有實驗的總步數。這三個指標當中,SR和AAT是評價算法路徑規劃能力的重要指標,而TPS是評價算法實時性的指標。
2.4消融實驗
本文提出的MSA模塊、CSM模塊是對算法網絡結構部分的修改,方向導引獎勵函數是對算法獎勵函數部分的修改,這三個模塊之間相互獨立。為了驗證不同模塊的效果提升能力,在測試場景中進行了消融實驗。本節所有實驗均以D3QN和如式(8)所示獎勵函數為基礎,依次添加本文提出的方向導引獎勵函數(簡稱DG)、MSA模塊和CSM模塊,來驗證不同模塊對SR、AAT和TPS性能指標的影響,如表1所示。
對比實驗1和2可知,方向導引獎勵函數加強了算法在復雜環境中的適應性,有效提高了SR、減少了AAT;對比實驗2和3可知,MSA模塊加強了障礙物感知能力,提高了SR,減少了AAT;對比實驗3和4可知,CSM模塊加強了海流感知能力,提高了SR,減少了AAT;對比實驗1和4可知,由于本文方法具有較強的環境感知能力,其在增加一定TPS的情況下,大幅提高了SR,減少了AAT,具有對復雜環境的適應能力。實驗過程中各項性能指標隨所加模塊的變化情況如圖6所示。由圖可知,本文使用的模塊雖然在TPS指標上作出了一定犧牲,但換取了SR和AAT這兩個重要性能指標的提升。
2.5對比實驗
將本文算法與其他算法的性能指標進行對比實驗。首先對ESD3QN和D3QN算法在訓練階段的SR和AAT這兩個性能指標隨迭代次數的變化進行對比分析,以評估算法在訓練時的學習和收斂性能,結果如圖7和8所示。原始收斂曲線的波動較大,為使曲線的變化情況更清晰,對其進行了平滑(smooth)處理。
由于ESD3QN的方向導引獎勵函數能夠提供更為準確的內在獎勵,所以ESD3QN相比于D3QN的SR和AAT訓練迭代曲線能夠更快地收斂,ESD3QN在第2500次迭代時便趨于收斂,而D3QN在10000次迭代之后才趨于收斂,同時收斂后ESD3QN的SR值更高,AAT值也更小。由此可知,ESD3QN算法具有更好的學習和收斂性能。
為了驗證ESD3QN算法相比于其他局部路徑規劃算法對于復雜環境的適應能力。在測試場景下對APF、DWA、DQN、DDQN、D3QN和ESD3QN算法的SR、AAT和TPS三項性能指標進行對比分析,結果如表2所示,同時,對這幾種算法導航成功的軌跡進行了對比,航行軌跡如圖9所示。
在實驗場景中,由于存在隨機生成的海流干擾以及復雜無規則分布的不同形狀大小的障礙物,給算法的局部避障性能造成了較大的影響,DWA和APF算法對復雜環境的適應性較差,在該場景下測試時,均出現了陷入局部最小點或不可達點的情況,導致它們的導航成功率較低。APF算法的每步計算耗時最小,但其導航成功率最低,并且由于勢場的動態變化和海流干擾影響,其軌跡平滑性較差;DWA算法由于需要進行大量的采樣,所以每步計算耗時最大,并且由于存在海流干擾,算法對未來軌跡的預測有一定偏差,導致平均到達時間較長;由于深度強化學習算法具有較強的學習能力和自適應能力,所以DQN類算法在該場景下均能達到較高的導航成功率,但DQN、DDQN、D3QN算法的平均到達時間均較長,其中D3QN算法的效果表現最好,導航成功率和平均到達時間分別為80%和7296;本文提出的ESD3QN算法對復雜的障礙物和海流環境具有優秀的感知能力,因而避障能力較強,導航成功率和平均到達時間分別達到90%和60.38,相比于D3QN算法分別提升了1250%和1724%,同時算法能夠克服海流對USV運動模型的干擾,規劃的軌跡平滑性較好。相對于其他算法,本文提出的ESD3QN算法表現出了較強的復雜環境適應性和魯棒性。
3結束語
本文針對無人水面艇在復雜環境下的局部路徑規劃問題,提出了一種基于多尺度空間注意力、海流感知模塊和方向導引獎勵函數的ESD3QN算法。算法在復雜場景中的導航成功率和平均到達時間相比于D3QN均得到了提升,算法收斂性也得到了提高,具有較強的復雜環境適應性,解決了傳統局部路徑規劃算法難以處理復雜無規則障礙物和海流干擾的問題。本文研究的是二維海洋環境下的局部路徑規劃問題,未考慮更加復雜的三維海洋環境,未來的研究工作可以考慮復雜三維海洋環境的情況。
參考文獻:
[1]ChengChunxi,ShaQixin,HeBo,etal.PathplanningandobstacleavoidanceforAUV:areview[J].OceanEngineering,2021,235:109355.
[2]KarimiHR,LuYanyang.Guidanceandcontrolmethodologiesformarinevehicles:asurvey[J].ControlEngineeringPractice,2021,111:104785.
[3]XieShaorong,WuPeng,PengYan,etal.TheobstacleavoidanceplanningofUSVbasedonimprovedartificialpotentialfield[C]//ProcofIEEEInternationalConferenceonInformationandAutomation.Piscataway,NJ:IEEEPress,2014:746-751.
[4]FoxD,BurgardW,ThrunS.Thedynamicwindowapproachtocollisionavoidance[J].IEEERoboticsamp;AutomationMagazine,1997,4(1):23-33.
[5]MnihV,KavukcuogluK,SilverD,etal.PlayingAtariwithdeepreinforcementlearning[EB/OL].(2013).https://arxiv.org/abs/1312.5602.
[6]MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529-533.
[7]KaelblingLP,LittmanML,MooreAW.Reinforcementlearning:asurvey[J].JournalofArtificialIntelligenceResearch,1996,4:237-285.
[8]XiaoMa,ZuanLin,SongRuiyin.Localpathplanningforunmannedsurfacevehiclewithimprovedartificialpotentialfieldmethod[J].JournalofPhysics:ConferenceSeries,2020,1634(1):012125.
[9]WangZhenyu,LiangYan,GongChangwei,etal.Improveddynamicwindowapproachforunmannedsurfacevehicles’localpathplanningconsideringtheimpactofenvironmentalfactors[J].Sensors,2022,22(14):5181.
[10]WuXing,ChenHaolei,ChenChanggu,etal.TheautonomousnavigationandobstacleavoidanceforUSVswithANOAdeepreinforcementlearningmethod[J].Knowledge-BasedSystems,2020,196:105201.
[11]WangWei,LuoXiangfeng,LiYang,etal.Unmannedsurfacevesselobstacleavoidancewithpriorknowledge-basedrewardshaping[J].ConcurrencyandComputation:PracticeandExperience,2021,33(9):e6110.
[12]WatkinsCJCH,DayanP.Q-learning[J].MachineLearning,1992,8(3):279-292.
[13]HasseltH.DoubleQ-learning[J].AdvancesinNeuralInformationProcessingSystems,2010,23:2613-2621.
[14]VanHasseltH,GuezA,SilverD.DeepreinforcementlearningwithdoubleQ-learning[C]//ProcofAAAIConferenceonArtificialIntelligence.2016.
[15]WangZ,SchaulT,HesselM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning[C]//ProcofInternationalConferenceonMachineLearning.2016:1995-2003.
[16]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
[17]ZhangHu,ZuKeke,LuJian,etal.EPSANet:anefficientpyramidsqueezeattentionblockonconvolutionalneuralnetwork[EB/OL].(2021).https://arxiv.org/abs/2105.14447.
[18]ZhaoHengshuang,ZhangYi,LiuShu,etal.PSANet:point-wisespatialattentionnetworkforsceneparsing[C]//ProcofEuropeanConferenceonComputerVision.2018:267-283.
[19]HuJie,ShenLi,SunGang.Squeeze-and-excitationnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:7132-7141.
[20]BakkerB.Reinforcementlearningwithlongshort-termmemory[J].AdvancesinNeuralInformationProcessingSystems,2001,14:1475-1482.
[21]HuangChen,YinKai,LiuLantao.Learningpartiallystructuredenvironmentaldynamicsformarineroboticnavigation[C]//ProcofOCEANSMTS/IEEECharleston.Piscataway,NJ:IEEEPress,2018:1-8.
[22]PlappertM,AndrychowiczM,RayA,etal.Multi-goalreinforcementlearning:challengingroboticsenvironmentsandrequestforresearch[EB/OL].(2018).https://arxiv.org/abs/1802.09464.
[23]NgAY,HaradaD,RussellS.Policyinvarianceunderrewardtransformations:theoryandapplicationtorewardshaping[C]//ProcofInternationalConferenceonMachineLearning.1999:278-287.
[24]WuMeiyi,ZhangAnmin,GaoMiao,etal.ShipmotionplanningforMASSbasedonamulti-objectiveoptimizationHA*algorithmincomplexnavigationconditions[J].JournalofMarineScienceandEngineering,2021,9(10):1126.
[25]王奎民,趙玉飛,侯恕萍,等.一種改進人工勢場的UUV動礙航物規避方法[J].智能系統學報,2014,9(1):47-52.(WangKuimin,ZhaoYufei,HouShuping,etal.Dynamicobstacleavoidanceforunmannedunderwatervehiclebasedonanimprovedartificialpotentialfield[J].CAAITransonIntelligentSystems,2014,9(1):47-52.)