霍建文 劉宏偉 凌銘潤 羅明華
(西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點實驗室 四川綿陽 621010)
半個多世紀(jì)以來,核能在優(yōu)化能源結(jié)構(gòu)、保障能源安全、促進(jìn)污染減排和應(yīng)對氣候變化等方面發(fā)揮著重要作用。然而,在核能及核技術(shù)發(fā)展過程中,若發(fā)生核事故,則會給社會安全和國家經(jīng)濟(jì)帶來極大威脅,可能造成大規(guī)模人員傷亡和嚴(yán)重社會恐慌。如:2011年日本福島核電站特大事故[1]、2016年南京放射源[2]和松原放射源[3]不慎丟失等事件引起了廣泛的社會關(guān)注。
傳統(tǒng)機(jī)器人放射源搜索方法采用遍歷整個搜索區(qū)域[4-8]的方法,這種方法的優(yōu)點是不需要事先對放射源的參數(shù)進(jìn)行估計,搜索準(zhǔn)確度高,但是搜尋效率低。為了提高搜索效率,Li等[9]在遍歷基礎(chǔ)上提出了二分查找、逐次逼近。二分查找通過每次丟棄一半的區(qū)域來降低了搜索時間,但搜索準(zhǔn)確性低;逐次逼近則需要放射源的活度更高,因為該算法需要在區(qū)域邊界上檢測到劑量率的明顯變化。
放射性衰變是隨機(jī)發(fā)生的且服從泊松分布,可知探測器的計數(shù)率將服從泊松分布。因此,計數(shù)率統(tǒng)計法通過在不同位置采集計數(shù)率或劑量率并建立熱點參數(shù)的后驗概率分布來近似估計放射源位置。然后,機(jī)器人根據(jù)當(dāng)前估計的結(jié)果,在每個步驟中采取適當(dāng)?shù)男袆右詭椭湟宰钚〕杀镜纸派湓矗缧畔⒃鲆妫?0]、信息熵[11]、人工勢場[12-13]等方法使機(jī)器人運動到目標(biāo)點。文獻(xiàn)[14-20]在單個無人系統(tǒng)上研究了粒子濾波及改進(jìn)方法來估計放射源參數(shù);文獻(xiàn)[21-22]提出了一種按固定隊形移動的多無人系統(tǒng)協(xié)同估計放射源,解決了單一系統(tǒng)探測局限的問題;針對大區(qū)域單個無人系統(tǒng)尋源效率低的問題,張?zhí)鞂毜龋?3]提出一種基于領(lǐng)航者模型的多無人系統(tǒng)合作搜尋放射源的方法;Huo等[24]設(shè)計了粒子融合與自適應(yīng)步長的多機(jī)器人協(xié)同放射源搜索算法。雖然多機(jī)器人按固定隊形可增加數(shù)據(jù)采集量,但在有限通信資源下現(xiàn)有方法難以有效解決單機(jī)器人測量不準(zhǔn)及計算量大等問題。本文在貝葉斯框架下設(shè)計了分布式參數(shù)估計的多機(jī)器人源項估計算法,算法將認(rèn)知差異理論和一致性方法結(jié)合,有效解決單個機(jī)器人測量不準(zhǔn)確以及計算量大的問題,從而提高放射源參數(shù)估計的準(zhǔn)確性。根據(jù)放射源參數(shù)估計結(jié)果,多機(jī)器人通過變步長人工勢場與信息熵結(jié)合的策略漸進(jìn)完成放射源搜尋,從而提高搜索效率。
式中:P(C,λ)=λCe-λ/C!;λ=η∈,η為探測器探測效率,∈為多次測量的平均值;C受當(dāng)前位置劑量率H以及探測器能量響應(yīng)常數(shù)ρ的影響,即C=。
本文考慮了障礙物屏蔽的影響,構(gòu)建了存在障礙物的放射源搜索環(huán)境,在此環(huán)境下劑量率H·的具體計算如式(2)所示:
式中:φm為屏蔽材料m的衰減因子;Δm是屏蔽材料m的厚度為環(huán)境中的背景輻射,本文將其設(shè)為常數(shù)。
機(jī)器人i搜索放射源是一個漸進(jìn)的過程,在獲得輻射場內(nèi)的觀測序列z1:k后,可得放射源參數(shù)的后驗概率分布函數(shù)為:
式中:δ(·)是狄拉克函數(shù);為粒子權(quán)重。具體計算如下:
隨著算法迭代次數(shù)的增多,粒子出現(xiàn)退化現(xiàn)象,即存在大量權(quán)重很低的粒子導(dǎo)致參數(shù)估計不準(zhǔn)確。本文用有效粒子數(shù)Neff小于某一設(shè)定閾值(1.5n)來判定是否出現(xiàn)退化現(xiàn)象。當(dāng)出現(xiàn)粒子退化現(xiàn)象時,采用公式(6)進(jìn)行重采樣。
在搜尋放射源的過程中,目標(biāo)點是未知放射源的位置,也就是在未知目標(biāo)點的情況下,多機(jī)器人通過自身對周圍環(huán)境的感知、信息交互估計源項參數(shù)。最后,利用這些局部信息設(shè)計移動策略,實現(xiàn)對放射源的搜尋任務(wù)。
由于搜索區(qū)域過大及障礙物存在的情況,可能導(dǎo)致多機(jī)器人間通信受限制。因此,定義多機(jī)器人放射源搜尋過程中的鄰居n為:
式中:r為尋源任務(wù)的機(jī)器人;n(ri)表示以機(jī)器人i為中心R為半徑的機(jī)器人i鄰居集合。
如果機(jī)器人間交換所有的粒子權(quán)重,將面臨嚴(yán)重的通信問題。為了減少通信負(fù)載,用高斯密度函數(shù)來近似概率分布,則,因此每個機(jī)器人只需要交換高斯參數(shù)來獲得認(rèn)知差異。但是,參數(shù)交換過程中存在著其他機(jī)器人n(n∈n(ri))交換的錯誤信息,錯誤信息的出現(xiàn)將會影響其他機(jī)器人放射源搜索的決策。為了解決這一問題,算法引入了測量信息檢驗環(huán)節(jié)。即引入?yún)?shù)βni來度量粒子的分布差異,當(dāng)機(jī)器人n和機(jī)器人i的粒子分布差異越大時βni越小。參數(shù)βni用不同機(jī)器人粒子分布之間的KL散度來定義:
當(dāng)集合內(nèi)機(jī)器人完成信息交互后,每個機(jī)器人對接收的信息進(jìn)行一致性操作,并將用于下個時刻的局部粒子濾波,從而完成放射源參數(shù)估計。具體而言,機(jī)器人i下一時刻迭代過程中進(jìn)行一致性處理的初始粒子計算如下:
使用移動機(jī)器人搜尋放射源是一個漸進(jìn)的過程,則機(jī)器人i放射源搜尋過程可看作是部分可觀察馬爾可夫決策過程,即:機(jī)器人i根據(jù)G-M傳感器獲得k時刻的劑量率,多個機(jī)器人基于信息融合算法可在k時刻估算出放射源的參數(shù);根據(jù)估計獲得的參數(shù)以及機(jī)器人分布信息計算每個機(jī)器人各自備選動作的獎勵函數(shù),獲得動作獎勵值;每個機(jī)器人在各自的動作集合里根據(jù)獎勵值選擇下一步動作;該過程直到放射源被搜尋到為止。本文所提出的策略將信息熵和人工勢場有機(jī)結(jié)合,信息熵能夠指導(dǎo)機(jī)器人在搜索過程中進(jìn)行探索以獲得更多有用信息;人工勢場可以讓機(jī)器人對已估計的參數(shù)進(jìn)行利用,將其假設(shè)為一個引力場,根據(jù)信息不確定程度對機(jī)器人施加不同大小的引力,從而引導(dǎo)機(jī)器人向目標(biāo)點運動。因為考慮了通信范圍受限情況和分布式尋源系統(tǒng),因此機(jī)器人利用自身階段性估計結(jié)果構(gòu)建的引力場也將對通信范圍內(nèi)的其他機(jī)器人施加力的作用。
本文簡化機(jī)器人運動模型,假設(shè)機(jī)器人運動的集合為A={↑,↓,←,→,Stepsize=Auto},Stepsize表示機(jī)器人運動的步長,其基于分布式估計情況來調(diào)整更合理的行進(jìn)速度和區(qū)域中探測次數(shù),不僅保證未知參數(shù)估計的準(zhǔn)確性還將保證放射源搜索的快速性,具體由如下函數(shù)確定:
式中:Const表示機(jī)器人移動的最大步長,根據(jù)區(qū)域大小設(shè)置為常數(shù);當(dāng)源項估計的不確定性減小時,exp(·)函數(shù)可執(zhí)行加大步長,更快移動到源估計的位置表示自身和鄰居機(jī)器人粒子濾波算法中計算獲得的估計方差。
由于k+1時刻傳感器的測量值zk+1取決于k時刻的位置以及選擇的行為動作a∈A。在每個時間步長內(nèi),機(jī)器人應(yīng)向預(yù)期計數(shù)率最大的方向移動。因此,本文借助信息熵來描述行為動作a的獎勵ΔS:
式中Fa為源參數(shù)估計對機(jī)器人i的引力,具體函數(shù)如下:
本小節(jié)將對提出的分布式參數(shù)估計的多機(jī)器人放射源搜索算法進(jìn)行驗證和分析。算法在AMD Ryzen 75800H和Radeon Graphics 3.20 GHz處理器上進(jìn)行仿真實驗。假設(shè)如下:(1)二維障礙物場景:區(qū)域大小為1000 m×1000 m,障礙物個數(shù)為7個;(2)在每一次搜尋過程中,遺失放射源以及障礙物的位置是固定的;(3)伽馬放射源模型中的參數(shù)設(shè)為:ρ=100,η=0.45,Is=2.94×108Bq;(4)環(huán)境本底輻射H·b為每秒鐘內(nèi)計數(shù)1個;(5)障礙物厚度Δm=10 m,φm=0.1,機(jī)器人個數(shù)N=4;(6)搜索成功的判斷條件為所有機(jī)器人與真實源之間的距離小于40 m,源估計值與真實值的距離小于10 m。
4個機(jī)器人起點設(shè)為:(1 000 m,50 m),(1 000 m,350 m),(1 000 m,650 m),(1 000 m,950 m);放射源參數(shù)設(shè)置為=(150 m,150 m,Is),實驗結(jié)果如圖1所示。
圖1 分布式放射源搜索實驗結(jié)果圖Fig.1 Experimental results of the distributed radioactive source search
在圖1(a)中4條彩色實線表示尋源機(jī)器人的軌跡;深綠色長方塊代表區(qū)域中存在的障礙物,對射線具有衰減作用;紅色圓圈代表遺失的伽馬放射源,在周圍進(jìn)行輻射劑量當(dāng)量的可視化;放射源周圍的不同顏色圓點代表了不同機(jī)器人粒子濾波算法中的粒子。可以看到所有粒子都圍繞在放射源周圍,表明4個機(jī)器人實現(xiàn)對源參數(shù)的一致性準(zhǔn)確估計。圖1(b)中為搜索過程中4個機(jī)器人輻射測量值。
為驗證本文尋源算法在不同條件下運行效果,重設(shè)多機(jī)器人的初始位置為(100 m,0 m),(300 m,0 m),(600 m,0 m),(900 m,0 m),重設(shè)放射源參數(shù)為=(500 m,800 m,Is)。實驗結(jié)果如圖2、圖3所示。由圖2可知,本文所提出的算法能夠適應(yīng)的障礙物環(huán)境具有一定的泛化能力。圖3為采用了本文所提分布式源項估計算法與共享測量值源項估計方法進(jìn)行對比的結(jié)果圖。由圖3(a)可知,當(dāng)粒子數(shù)設(shè)為100時本文所提算法的放射源搜索成功率為82%,而共享測量值方法的搜索成功率僅10% 。共享測量值方法是通過增加單個機(jī)器人同一個時刻的測量值來提高搜索成功率,而對尋源過程中各個機(jī)器人粒子濾波算法所漸進(jìn)估計的后驗參數(shù)進(jìn)行融合。隨著粒子數(shù)的增多,本文算法尋源成功率逐步增加。但從圖3(b)可知,當(dāng)粒子數(shù)超過150后,由于計算量增大導(dǎo)致放射源平均搜索時間增加。
圖2 分布式放射源搜索實驗結(jié)果圖Fig.2 Experimental results of the distributed radioactive source search
圖3 性能指標(biāo)對比圖Fig.3 Comparison of performance indexes
由圖3可知,多個機(jī)器人進(jìn)行粒子濾波算法中后驗參數(shù)的融合有利于提高搜索性能,為了進(jìn)一步體現(xiàn)本文所提分布式估計算法優(yōu)勢,與文獻(xiàn)[24]使用認(rèn)知差異原理對其他機(jī)器人的測量信息進(jìn)行選擇性融合算法進(jìn)行對比,其源項參數(shù)估計誤差如圖4所示。
圖4 源項參數(shù)估計誤差對比圖Fig.4 Comparison of source parameter estimation errors
由圖4可知,本文所設(shè)計的算法具有更高的源項參數(shù)估計精度,主要原因為:文獻(xiàn)[24]將各個機(jī)器人共享的所有粒子進(jìn)行升序排列和降序排列,并按照預(yù)先設(shè)置的融合粒子數(shù)H,用機(jī)器人的H個高概率粒子來替換另一個機(jī)器人的H個低概率粒子,從而各個機(jī)器人得到了粒子信息融合后的粒子權(quán)重,該方法是基于高概率粒子具有更多未知放射源信息以及低概率粒子包含無效信息的假設(shè),此假設(shè)在總體上看是成立的,但是在尋源前期,進(jìn)行較少探測、獲取較少未知放射源信息的情況下,此假設(shè)會導(dǎo)致一些潛在的有效粒子被錯誤剔除,由此損失源項參數(shù)估計的精度。本文所提算法將當(dāng)前機(jī)器人的低概率粒子與處于通信范圍內(nèi)的其他機(jī)器人的高概率粒子進(jìn)行一致性處理,僅進(jìn)行融合而非直接替換,減少低權(quán)重粒子對放射源參數(shù)估計的影響而非完全消除其影響,合理提高了機(jī)器人的粒子多樣性,最終獲得了如圖4所示的更高的源項參數(shù)估計精度。此外,本文所提算法考慮了通信范圍有限和障礙物屏蔽影響的情況,而文獻(xiàn)[24]兩種情況均未考慮。為了進(jìn)一步驗證本文所提分布式源項估計算法的有效性,在同等搜索成功率與搜索時間情況下對不同算法的粒子數(shù)、區(qū)域大小、信息交互種類及有無障礙物信息進(jìn)行比較,結(jié)果如表1所示。由表1可知,在無障礙物時需要達(dá)到相同搜索成功率和同等搜索時間,文獻(xiàn)[24]提出的算法設(shè)置粒子數(shù)與搜索區(qū)域優(yōu)于[25],由此可見共享測量值與粒子信息有助提高搜索性能。在同等搜索區(qū)域大小時,融合信息方式不同導(dǎo)致所需粒子數(shù)量不同,且文獻(xiàn)[24]未考慮有障礙物情況。
表1 同等搜索成功率與搜索時間情況下不同算法性能對比表Table 1 Performance comparison of different algorithms w ith the same search success rate and search time
為驗證本文算法在搜索策略上的優(yōu)勢,在設(shè)置粒子數(shù)為150、搜索區(qū)域為1000 m×1000 m、搜索步長由公式(11)確定、放射源估計算法采用本文所提方法的情況下,開展了部分可觀測馬爾可夫決策過程[25]、信息熵[22]、自由能[24]、本文所提搜索策略的源項搜索實驗,其搜索成功率和平均搜索時間如表2所示。由表2分析可得,本文所提策略中探測與利用階段相互平衡,使得平均搜索時間更短、效率更高。
表2 不同搜索策略的性能對比Table 2 Performance comparison of different search strategies
本文提出了一種分布式參數(shù)估計的多機(jī)器人放射源搜索算法,所有機(jī)器人能夠獲得通信范圍內(nèi)鄰居的測量值、后驗信息,采用高斯密度函數(shù)近似后驗概率分布,用信息一致性理論將多機(jī)器人交互的后驗信息進(jìn)行融合,有效解決單機(jī)器人測量不準(zhǔn)及運算量大等問題。為保證完成尋源任務(wù)的快速性,降低電離輻射對機(jī)器人器件的損害,本文將信息熵與人工勢場算法結(jié)合,提出了變步長的多機(jī)器人移動策略,從而提高放射源自主搜尋效率。實驗結(jié)果表明,本文算法能夠以更高的搜索成功率、更短的平均搜索時間完成放射源搜索任務(wù),并且整個實驗過程中考慮了障礙物屏蔽作用的影響,展現(xiàn)了本文所提分布式尋源算法在復(fù)雜環(huán)境中完成任務(wù)的能力。未來,將在分布式估計的基礎(chǔ)上進(jìn)一步研究分布式?jīng)Q策的多機(jī)器人放射源搜尋策略,實現(xiàn)具有全局最優(yōu)決策的放射源搜尋,并開展真實實驗研究。