999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態環境下多智能體協作學習方法的研究

2011-12-31 00:00:00王全武胡曉輝
科技創新導報 2011年9期

摘 要:將預測分析技術和強化學習技術有機結合,使多Agent系統中的各Agent,不僅具有了高度反應自適應性,而且擁有了高效而準確的預測分析能力;使Agent的行為更具有針對性,盡可能地減少錯誤,保證學習的正確方向,提高Agent間進行信息共享,融合單個Agent的Q值表。相當于相同情況下增加了學習次數,不僅盡可能地消除策略中的冗余動作,以高效的方式實現最終目標,而且提高多Agent系統執行效率和收斂速度及性能。本文提出了一種改進的多Agent間協作學習方法,適用于環境不完備的復雜情況。以追捕問題作為仿真實驗。結果表明所提方法能夠有效地促進多智能體系統中各Agent間協作學習能力。

關鍵詞:多智能體系統 強化學習 協作學習 預測分析技術 追捕問題 黑板模型

中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2011)03(c)-0253-02

1 引言

近年來,分布式人工智能研究者對多Agent協作完成任務的研究越來越多。這是因為隨著計算機網絡,分布式計算技術等不斷發展和完善,所要研究的系統往往異常復雜龐大,并且呈現動態多變的分布式特性,要解決問題單憑單Agent所擁有的有限的資源和能力是無法完成的,或者完成任務的效益不是理想的,同時,成本也很高。因此,對多Agent間的協作學習方法的研究是十分必要的,也是非常重要的,更是多Agent系統發展的必然趨勢。學習可以使多Agent能夠在開放、復雜、動態的環境中提高自反應適應性,更是學習機制可能有效地實現多Agent間的協作。反之,為多Agent系統增加協作學習機制也能起到加速多Agent的學習進程。本文以追捕問題為背景,采用協作機制和獨立強化學習技術來研究多Agent系統中的協作學習問題,結合預測分析技術和黑板模型使多Agent擁有了可預測的能力,和共享學習成果的平臺,從而達到了利用協作來改善學習效果的目的。

2 強化學習

強化學習是一種無人監督的在線的機器學習方法,也稱為再勵學習或評價學習,使智能體能夠在環境模型未知的情況下利用環境獎賞發現最優的行為序列。其原理是:如果學習者即Agent的某個動作策略導致環境正的獎賞,那么Agent以后產生這個動作策略的趨勢就會加強;反之,Agent產生這個動作策略的趨勢便會減弱。Agent算法是由Watkins于1989年提出的一種與環境無關的動態差分強化學習算法,其本質是MDP的一種變化形式。馬爾可夫決策過程是一個四元組MDP=(S,A,P,R),其中:S是離散的狀態空間;A:是離散的動作空間;P:S是表示環境狀態轉移概率函數;R:是狀態-動作對的獎賞函數。

馬爾可夫決策過程的思想是,智能體每步可在有限的動作集合中選取某一動作,環境接受該動作后狀態發生轉移,同時作出評價,Agent面臨的主要任務是決定一個最優策略,使得最終總的折扣獎賞信號期望值最大。

3 改進的多Agent協作學習方法

3.1 算法思想

3.1.1 各Agent均采用獨立強化學習算法進行學習

3.1.2 為了加快學習速度,提高學習效率。首先,各Agent在采取行為動作之前,預測分析其他Agent的可能動作和下一個時刻可能所處的狀態。其次,多Agent通過黑板模型進行策略的共享。再次,利用融合算法對多個策略進行融合來改進策略,利用融合后的策略進行再次學習。

3.2 算法描述

多Agent系統中,各個Agent處于同一個環境中獨立地執行Q-learning.

3.2.1 對于在t+1時刻將到達的狀態的概率預測函數P的定義如下式:

(1)

任意時刻有:成立。

表示Agenti狀態集中的第k個狀態,st是時刻所有Agent的組合狀態,是預測學習模型的學習率,它在學習過程中是逐漸衰減的。

3.2.2 具體實現多Agent協作學習算法

Step1 t←0,隨機初始化每個智能體的Q(s,α);

Step2:對于每個智能體,執行標準的Q-learning算法:

首先,觀察環境當前狀態st;

其次,按如下公式Boltzmann機的方式選擇一個動作αt并執行;

最后,觀察環境的后繼狀態st+1并從環境中獲得強化信號rt;(4)根據此公式對(s,α)狀態-動作對相應的Q(st,αt)進行更新;

Step3:如果t能被事先指定的F整除,則所有的Agent交換策略并融合;

Step4:t←t+1;

Step5:如果后繼狀態滿足結束條件,則結束;否則s←s'轉Step2。在學習收斂之后,采用公式

4 仿真實驗

以追捕問題對改進多Agent協作學習方法改進仿真實驗,得出比傳統多Agent強化學習算法的有效性和其自身的收斂性。宏觀上把Agent分為獵人和獵物兩類。實驗結果要使多個獵人通過協作采取有效的策略追捕并最終捕獲到獵物。采用有界柵格建模,在20×20追捕地圖中,實現四個獵人追捕一個獵物。用N=(N1,N2,N3,N4)表示四個獵人的集合,M表示獵物,初始狀態如圖1所示。獵人的目標是在最少的步數內成功捕獲獵物,即指在某一個時刻獵人們在獵物周圍分別占據了四個鄰近網格,如圖2所示。其中,N1,N2,N3,N4之間是相互協作關系,稱為協作團隊,與獵物對抗。各獵人都執行獨立強化學習,通過預測分析,感知、規劃、移動,并與其他獵人進行通信協商。而獵物的逃避策略是為向其最近的獵人的反方向逃跑。在每個狀態,各個Agent只能在水平和垂直方向移動一個網格的位置。Agent不能越邊界方格,且任意兩個Agent均不能同時占據同一個網格,若出現此現象,則二者都將原地不動。設Agent可視半徑為r,能夠看見區域內所有網格為S=(2r+1)×(2r+1)。各個Agent分配唯一的ID,r=4,且交換頻率f=50Hz

(1)定義獵人的狀態值為獵人當前狀態,與其目標狀態的相對距離的平方,即

(2)動作選擇策略,先對各個Q(st,αt)用Boltzmann機進行非線性化,再采用輪盤賭算法進行抉擇。對于動作αi被選擇概率為

(4)

式中,T為退火溫度值,T越大。隨機性越強。

(3)獎賞函數:若獵人達到目標位置時,獎賞+300,靠近目標時,獎賞+100,位置未發生變化得到獎賞0;獵人與獵物的距離反而增加時,獎賞值為-1。在獨立學習過程中,每個Agent都有一份Q值表,每個Agent互斥獨立地修改各自的Q值表,經過一定的學習步數后,所有的Agent采用黑板模型與融合算法共享各自的Q值表。

5 實驗結果及其分析

將本文提出的多Agent協作學習算法和獨立強化學習算法來進行比較試驗。捕獲的平均成功概率和Q值的比較如圖3所示。從實驗結果很明顯得出,協作學習與獨立學習相比,能夠更快地收斂于平穩值。同時,多Agent之間進行相互合作,如多Agent間通信機制,共享策略預測其他Agent的后繼狀態。

參考文獻

[1] 張汝波,顧國昌,劉照德,王醒策.強化學習理論、算法及應用[J].控制理論與應用,2000,17(5):637~642.

[2] 高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86~101.

[3]譚民,王碩,曹志強.多機器人系統[M].北京:清華大學出版社,2005.

[5] 張維明,姚莉.智能協作信息技術[M].北京:電子工業出版社,2002.

[6] Sutton RS.Learning to predict by the methods of temporal difference[J].Machine Learning.1988(3):9~44.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: a级毛片在线免费观看| 日韩精品专区免费无码aⅴ| 成人午夜免费视频| 日本成人精品视频| 国产精品流白浆在线观看| 性欧美在线| 中文字幕亚洲电影| 久久婷婷六月| 91福利一区二区三区| 国产精品三级专区| 1级黄色毛片| 日本精品αv中文字幕| 久久精品娱乐亚洲领先| 曰韩人妻一区二区三区| 91福利国产成人精品导航| 精品久久久无码专区中文字幕| 狠狠综合久久久久综| 国产色偷丝袜婷婷无码麻豆制服| 国产丝袜丝视频在线观看| 亚洲无码免费黄色网址| 婷婷成人综合| 国产午夜精品一区二区三区软件| 亚洲国产精品日韩专区AV| 亚洲精品波多野结衣| 日韩国产精品无码一区二区三区| 98超碰在线观看| 日韩无码黄色网站| 熟女成人国产精品视频| 欧美国产日本高清不卡| 日韩资源站| 久久夜色精品国产嚕嚕亚洲av| 午夜一级做a爰片久久毛片| 国产二级毛片| 亚洲天堂久久新| 婷婷丁香在线观看| 欧美日韩免费在线视频| 5555国产在线观看| 激情综合激情| 2020极品精品国产| 色婷婷狠狠干| 亚洲另类国产欧美一区二区| 欧美影院久久| 亚洲av色吊丝无码| 亚洲色无码专线精品观看| 国产你懂得| 2020精品极品国产色在线观看 | 久久精品aⅴ无码中文字幕| 永久在线精品免费视频观看| 亚洲精品你懂的| 免费观看国产小粉嫩喷水| 国产成人精品18| 理论片一区| 婷婷六月天激情| 夜夜爽免费视频| 99久久性生片| 成年人国产网站| 在线观看国产精品日本不卡网| 色欲不卡无码一区二区| 亚洲中文字幕精品| 新SSS无码手机在线观看| 日本亚洲成高清一区二区三区| 国产在线拍偷自揄拍精品| 激情综合网激情综合| 国内精品久久九九国产精品 | www欧美在线观看| 9久久伊人精品综合| 亚洲成a∧人片在线观看无码| 啪啪永久免费av| 国产日本一线在线观看免费| 狠狠色丁婷婷综合久久| 人人爽人人爽人人片| 人人91人人澡人人妻人人爽| 亚洲性视频网站| 欧美午夜小视频| 国产一级在线播放| 美女潮喷出白浆在线观看视频| 欧美国产在线一区| 丁香婷婷久久| 亚洲成av人无码综合在线观看| 免费激情网址| 怡红院美国分院一区二区| 人人妻人人澡人人爽欧美一区|