999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于可傳遞置信模型的分布智能體決策融合方法

2010-01-01 00:00:00普杰信
計算機應用研究 2010年2期

摘 要:在分析與研究對抗性多機器人系統決策問題的基礎上,提出了一種基于可傳遞置信模型的多智能體決策融合方法;構建了決策融合體系架構,分別設計了基于證據推理的觀測智能體模型,基于TBM的決策智能體模型以及決策融合中心模型,給出了相應的算法。通過在機器人足球中的應用及仿真實驗,體現了本方法在對抗性多機器人系統中決策制定的良好性能及效果。

關鍵詞:多智能體決策; 信息融合; 可傳遞置信模型; 證據推理; 機器人足球

中圖分類號:TP181; TP242.6

文獻標志碼:A

文章編號:1001-3695(2010)02-0443-03

doi:10.3969/j.issn.1001-3695.2010.02.010

New method to distributed agent decision fusion based ontransferable belief model

FAN Bo, PU Jie-xin, LIU Gang

(College of Electronic Information Engineering, Henan University of Science Technology, Luoyang Henan 471003)

Abstract:With the analysis and study of the decision in adversarial multi-robot system, this paper proposed a method to multi-agent decision fusion based on TBM. Built the architecture of decision fusion, in which designed observing agent model based on evidential reasoning, decision agent model based on TBM and decision fusion center model. Also, provided the associative algorithms. With the application and experiment in robot soccer, it is shown that this method has better performance and effectiveness for making decision in adversarial multi-robot system.

Key words:multi-agent decision; information fusion; transferable belief model(TBM); evidential reasoning; robot soccer

0 引言

隨著多機器人系統的不斷發展,對于多機器人策略的研究變得越來越重要了,許多研究學者更關注于完善地實現多機器人策略,其中態勢評估是多機器人決策系統的重要組成部分。在對抗性多機器人環境中,決策系統通過觀察對方機器人的動作推測其行為目標,以當前形勢及將來動作、事件的預測為基礎,從而制訂己方機器人的行為選擇。當前的多機器人決策研究主要集中在協作多機器人領域, 機器人之間是善意的,因此這種控制方案用于對抗性機器人系統難以取得理想的效果。這些決策系統雖然也提出了演繹推理、概率表示等方案[1,2],但由于其本身的復雜性,在應用到實際的機器人系統,特別是對實時性要求較高的機器人足球等動態多變的領域時,這些方案都具有一定的局限性。對抗環境多機器人系統策略研究,對于多機器人的行為控制及協作有重大的意義。

針對對抗性多機器人系統環境動態多變且實時性要求高的特點,本文提出了一種基于TBM的多智能體(multi-agent)決策融合方法,在multi-agent決策融合體系架構中,通過利用證據推理設計觀測agent模型;基于TBM模型的設計決策agent模型以及設計決策融合中心,給出相應的算法;最后本方法在多機器人足球比賽中進行應用及仿真試驗。

1 Multi-agent決策融合模型及算法

在MAS領域中,multi-agent信息融合一直是研究的熱點。Rogova等人[3,4]利用多agent分布式系統改進了信息融合結構,并引入了證據推理方法用于決策融合。Koes等人[5]構建了信息融合的多agent結構來解決高層信息融合和傳感器協調。FOI Swedish Defense Research Agency的研究人員設計了基于agent的數據融合和傳感器管理通用平臺,建立了傳感器agent和任務agent,并有效地借鑒了傳統的OODA環結構來設計任務[6]。Knoll等人[7]分析了多agent網絡的結構和性能,將其用于數據融合。從以上文獻可以看出,多agent信息融合研究主要集中在信息融合結構和分布推理,通過合理地構建體系結構,結合多agent信息協作技術對分布數據進行收集、處理和融合,從而完成決策。

1.1 Multi-agent決策融合體系架構

本文設計一種分層協調方案:環境信息由分布的觀測agent進行數據采集、處理,觀測agent并不是彼此進行信息分享,而是將其信息傳遞到決策agent,通過綜合每個觀測agent的局部信息,決策agent得到某個環境特征信息值,并作出對它的決策判斷,決策融合中心融合所有決策agent的環境特征判斷,得出全局環境的最終決策。Multi-agent決策融合體系架構如圖1所示。

1.2 觀測agent模型

本文利用證據推理模型設計觀測agent,如圖2所示。假定agent i(1≤i≤I)觀測并提取的環境特征信息可由一個特征向量表示:Si=(si1,si2,…,siNi),式中Ni表示特征向量維數。令Θ=θ1,θ2,…,θn是一個辨識框架,θk(k=1,…,n)是屬于模式類型k的前提。令Φ(Si,θk)表示特征向量S i與θk之間的一個測度函數,并且Φ是一個遞減函數,0≤Φ(Si,θk)≤1。Φ(Si,θk)產生了一個單支置信函數[3]:

mik(θk)=Φ(S i,θk)(1)

mik(Θ)=1-Φ(S i,θk)(2)

mik(A)=0,A≠θkΘ(3)

如圖2所示,觀測agent從環境信息中提取特征向量作為輸入,然后從測度函數得到辨識框架中每個前提的單支置信函數;最后通過公式合成輸出agent的基本置信指派:mi(θ1),mi(θ2),…,mi(θn),mi(Θ)。

每個觀測agent分別將自身獲取的環境信息傳遞到對應的決策agent,進行下一步的協同處理。

1.3 決策agent模型

決策agent首先融合觀測agent i(1 ≤ i ≤ I)所產生的置信指派。按照Dempster組合規則可以合成所有的mik,從而得到agent i的基本置信指派[4]:

mi(θk)=mik∏j≠k(1-mij)∑kmik∏j≠k(1-mij)+∏j(1-mij)(4)

依據決策系統的需要,同構觀測agent的置信信息可以進行融合處理,得出綜合的特征值,具體如下式組合:

m(θk)=c∑AiΘ∩Ii=1Ai=θkm1(A1)#8226;m2(A2)…mI(AI)i=1,2,…,I(5)

c=(∑AiΘ∩Ii=1Ai≠m1(A1)#8226;m2(A2)…mI(AI)i=1,2,…,I)-1

決策agent依據置信信息,采取Pignistic轉換,得到對于辨識框架中每類前提θk的概率分布[8]。

AΘ

BetPk=BetP(θk)=∑θk∈AAΘmc(A)A(6)

每個決策agent將自身對局部環境的概率判斷傳遞到決策融合中心,進行下一步的全局環境決策融合處理。

1.4 決策融合中心

異構決策agent的融合,以及決策融合中心需按系統經驗綜合接收觀測信息,是決策融合中心必須考慮的關鍵問題。決策融合中心模型如圖3所示。

決策融合中心的融合策略包括異構融合、可靠性分配以及融合處理。其中,異構融合是解決異構決策agent的信息融合;可靠性分配依據決策系統的經驗信息對不同決策agent提供的信息進行折扣分析,分配不同的折扣因子;融合處理完成全局信息的決策融合。

1)異構融合

假設兩個agenti、agentj有不同的相容辨識框架Θ={θi1,θi2,…,θin}和Ω={θj1,θj2,…,θjm},映射σ:2Θ→2Ω是從Θ到Ω的一個細化。如果存在AΘ,BΩ,使得有σ(A)=B,那么就可以對辨識框架Θ和Ω的概率進行轉換和傳遞了。令Bet1和Bet2分別為辨識框架Θ和Ω的Pignistic概率:

BΩ,BetP2(B)=∑AΘ:σ(A)=BωxBetP1(A)(7)

其中:ωx表示A的Pignistic概率系數,可由σ(A)=B得出,且Σωx=1。當沒有A滿足條件時,上式求和為0。

2)可靠性分配

決策融合中心如何處理不同的決策agent提供信息的可靠性,即不同的決策agent的有效值?筆者的思路是:對于有效值高的決策agent,它提供的信息賦予高的權值;而有效值低的決策agent提供的信息賦予低的權值。

在系統制定某個決策時,根據系統經驗為每個決策agenti分配信息源的可靠性因子αi∈[0, 1],有

∑Ii=1αi=1(8)

3)融合處理

令BetPi是決策agenti的Pignistic概率,并且使每個決策agent的Pignistic概率都能夠轉換到同一個辨識框架下。令αi是決策agenti的可靠性因子。決策融合處理如下:

BetPc(θk)=∑Ii=1θ∈ΘBetPαii(θk)(9)

這樣,決策融合中心就得出了辨識框架Θ={θ1, θ2,…, θn}中每個前提的Pignistic概率{BetPc(θ1), BetPc(θ2), …, BetPc(θn)},進行全局決策。

通過對multi-agent決策融合體系的觀測agent、決策agent和決策融合中心的分析可以看出,在multi-agent決策融合系統中,每個agent有了更明確的模型和含義以及各自具體的功能。決策系統利用信息融合中的證據推理理論,得到了更有效的合成分布式系統信息的能力,并且擁有一種新的決策制定方法。

2 在機器人足球中的應用

機器人足球是人工智能和機器人學研究的一個新的標準問題,它以MAS和分布式人工智能(DAI)為主要研究背景,其主要目的就是通過提供一個標準的、易于評價的比賽平臺,檢驗并促進人工智能及相關智能機器人技術的研究與發展。作為比賽策略研究的高層問題,機器人足球賽場態勢評估是一個嶄新的研究課題,是開發高水平策略系統所必須解決好的關鍵問題。但現已開發出的大多數策略系統在賽場態勢評估方面的研究還很缺乏,導致場上陣型打法比較單一,缺少策略上的機動靈活性。本文將multi-agent決策融合機器人足球比賽態勢分析,實現在對抗性多機器人系統中的態勢評估。本文應用平臺為SimuroSot仿真比賽平臺[9]。

機器人足球中賽場態勢信息包括足球的位置信息、對手的陣型信息。足球的位置信息由agentball_ob觀測,對手的陣形信息由四個觀測agenti_ob分別進行觀測(賽場有四個對手機器人)。

令觀測agentball_ob的辨識框架為Θball= {威脅,次威脅,次有利,有利}。觀測agentball_ob的特征向量是足球的位置坐標Sp={x,y},根據比賽場地的特點定義四個參考向量ω1p、ω2p、ω3p、ω4p,測度函數定義為Φ(Sp,θkp)=exp(-γk(dk))。這里k=1,2,3,4,γk >0,dk=‖Sp-ωkp‖。可以得出agentbalball置信指派mball (威脅)、mball (次威脅)、mball (次有利)、mball (有利)、mball (Θp);繼而得出決策agentball的Pignistic概率BetPball (威脅)、BetPball (次威脅)、BetPball (次有利)、BetPball (有利)。

Agent i(i=1,2,3,4)有相同的內部結構,從對方機器人的位置信息得出它的基本置信指派。辨識框架Θr={進攻,平衡,防守}。Agent i觀測的特征向量為對方機器人i的位置坐標Si={xi,yi},根據比賽場地的特點定義兩個參考向量ω1i、ω2i,測度函數定義為Φ(Si,θki)=exp(-γk(dk))。這里k=1,2,γk >0,dk=‖Si-ωki‖,構建agent i的模型可以得到基本置信指派:mi(進攻)mi(平衡),mi(防守),mi(Θr)。通過融合四個進攻對手的置信信息得出對手的整體態勢評估置信值:mopp(進攻)、mopp (平衡)、mopp (防守)、mopp (Θr)。決策agentopp得出Pignistic概率BetPopp (進攻)、BetPopp (平衡)、BetPopp (防守)。

決策融合中心分布采用異構融合、可靠性分配、融合處理過程,得出全局Pignistic概率BetPc(威脅)、BetPc(次威脅)、BetPc(次有利)、BetPc(有利)。

3 仿真分析

在仿真試驗中,本文構建了五種比賽態勢,分別包括足球的位置信息和對手四個進攻機器人(不包括守門員)的位置信息,如圖4所示,圖4中我方為從右向左進攻。

仿真分別采用三種方法對比賽態勢進行決策:a)對足球的位置信息進行決策,結果如表1所示;b)對四個對手機器人位置進行信息融合,并得出決策,結果如表2所示;c)采用multi-agent決策融合進行決策,其中決策融合中心的辨識框架為{威脅,次威脅,次有利,有利},參數ωx分別設置為0.7、0.5、0.3,可靠性因子αi分別選擇0.6,0.4,結果如表3所示。

表1 對足球位置信息的決策結果

賽場狀態BetPball(威脅)BetPball(次威脅)BetPball(次有利)BetPball(有利)

(a)0.072 8560.159 9310.224 4610.542 753

(b)0.058 5790.220 6460.617 4790.103 296

(c)0.021 7590.856 9010.103 3490.017 991

(d)0.203 9530.457 6380.251 4370.086 973

(e)0.639 4090.172 9160.126 9390.060 736

表2 對四個對手機器人位置信息的決策結果

賽場狀態BetPopp(進攻)BetPopp(平衡)BetPopp(防守)

(a)0.049 4000.153 6750.796 925

(b)0.635 9630.286 9890.077 048

(c)0.111 2500.299 6990.589 052

(d)0.519 7760.358 8720.121 352

(e)0.164 8990.672 4730.162 628

表3 Multi-agent決策融合結果

賽場狀態BetPc(威脅)BetPc(次威脅)BetPc(次有利)BetPc(有利)

(a)0.057 5460.132 6220.261 0430.548 791

(b)0.290 5360.288 8280.346 9570.073 678

(c)0.055 4290.452 6950.237 5800.254 80

(d)0.299 8870.384 2760.230 0800.085 757

(e)0.429 8170.258 0320.230 1730.081 978

由仿真結果可以看出,multi-agent決策融合的方法能更有效的判斷出賽場狀態的全局信息,選擇合理的可靠性參數,能夠產生優于單純地判斷賽場足球信息、對手位置信息的決策結果。

4 結束語

在對抗性多機器人系統中,環境狀態變化的復雜性是系統決策制定的難點之一。決策的依據主要來自于環境自身的因素,但不能忽視對抗性特點對環境狀態改變的影響。本文基于multi-agent的決策融合,分別利用異構的觀測agent對不同的環境特征信息、對手整體特征進行處理,再分別由相應的決策agent根據不同的置信值產生概率判斷,通過決策融合中心得出最終的全局判斷。

本文采用觀測—決策—決策融合的方法構建決策融合系統能夠滿足對抗性多機器人系統決策制定的時效性能。如何研究和發展更高效的決策融合系統需要借助于更多的理論和方法,這也是MAS發展面臨的一個重要問題。

參考文獻:

[1]HEINZE C, GOSS S, PEARCE A. Plan recognition in military simulation: incorporating machine learning with intelligent agents[C]//Proc of the 16th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco:Morgan Kaufman Publishers, 2000:405-411.

[2]GOLDMAN R P, GEIB C W, MILLER C A. A new model of plan recognition[C]//Proc of the 15th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco:Morgan Kaufmann Publishers, 1999:245-254.

[3]ROGOVA G, SCOTT P, LOLETT C. Distributed reinforcement lear-ning for sequential decision Making[C]//Proc of the 5th International Conference on Information Fusion. Maryland, USA:ISIF IEEE Press, 2002:1263-1268.

主站蜘蛛池模板: 亚洲av无码牛牛影视在线二区| 热热久久狠狠偷偷色男同| 国产精品欧美日本韩免费一区二区三区不卡| 日韩大片免费观看视频播放| 亚洲第一在线播放| 老色鬼久久亚洲AV综合| 性色一区| 精品久久久久久中文字幕女| 成人a免费α片在线视频网站| 99在线观看国产| 天堂成人在线视频| 日韩欧美国产综合| 91伊人国产| 日韩在线欧美在线| 亚洲免费福利视频| 欧美国产日产一区二区| 91精品国产一区| 成人永久免费A∨一级在线播放| 国产在线视频二区| 手机在线免费毛片| 国产成a人片在线播放| 国产91精品久久| 理论片一区| 毛片网站在线播放| 欧美精品黑人粗大| 亚洲精品无码av中文字幕| 91美女视频在线观看| 久久91精品牛牛| 一本大道AV人久久综合| 国产精品深爱在线| 国产手机在线ΑⅤ片无码观看| 久久男人资源站| 9久久伊人精品综合| 香蕉99国内自产自拍视频| 国产自视频| 国产激情第一页| 久久久精品无码一区二区三区| 亚洲中文在线视频| 亚洲伊人久久精品影院| 欧美激情综合一区二区| 亚洲视频黄| 国产人前露出系列视频| 2021国产精品自拍| 91av成人日本不卡三区| 黄色网站在线观看无码| 国产美女在线观看| 激情网址在线观看| 国产人妖视频一区在线观看| 国产美女91呻吟求| 亚洲欧美另类久久久精品播放的| 亚洲欧美日韩成人高清在线一区| 日本午夜在线视频| 国产微拍一区二区三区四区| 中国精品久久| 91av国产在线| 国产日本欧美在线观看| 天堂av高清一区二区三区| 色综合国产| 国产成人精彩在线视频50| 免费Aⅴ片在线观看蜜芽Tⅴ| 中文字幕 91| 亚洲日本韩在线观看| 国产精品香蕉| 高清无码不卡视频| 日韩精品一区二区三区中文无码| 成年片色大黄全免费网站久久| 熟妇丰满人妻av无码区| 色视频国产| 在线观看视频99| 91精品国产综合久久香蕉922| 国产成人综合久久精品下载| 91 九色视频丝袜| 免费亚洲成人| 亚洲IV视频免费在线光看| 欧美激情视频二区三区| 在线观看国产网址你懂的| 亚洲天堂在线免费| 伊人AV天堂| 在线观看亚洲国产| 欧美精品伊人久久| 亚洲第一成年免费网站| 精品视频在线一区|