999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙向DIAL 的多智能體交流

2020-07-21 06:30:42樊敏風洪居亭
現代計算機 2020年16期
關鍵詞:交流智能信息

樊敏風,洪居亭

(四川大學電子信息學院,成都610065)

0 引言

溝通、交流是智能的一個基本方面,它可以使得智能體能夠作為一個群體而不是個體的集合。在現實世界中,交流對于執行復雜的任務至關重要,因為在現實世界中,每個參與者的能力和世界的可見度都是有限的。在多智能體場景中,智能體如果要進行有效地協同、合作,它們就需要學會溝通、交流,來達成一致的協議。交流的目的之一是智能體之間共享部分觀察,相鄰的智能體可以更容易地相互理解;其次,相鄰智能體之間可以更容易地完成協作決策;最后,所有智能體共享一個策略網絡,這就意味著相鄰智能體可能有類似的行為,但交流可以增加其策略的多樣性。在任何部分可觀察的環境中,智能體之間的交流對于協調每個智能體的行為至關重要,而控制每個智能體的模型通常是通過強化學習來實現的[2]。多個智能體在通過各自的觀察之后,可以相互合作,經過不斷地向環境學習,逐漸接近最終的集體目標。多個智能體在環境中感知和行動問題的目的是最大限度地利用它們的共享效用,在這些環境中要想解決任務所需的共享信息問題,智能體不僅要具備交流能力,還必須發現,學會通信協議。

智能體如何能利用深度強化學習的方法來自動發現通信協議,學會它們需要的通信協議來協調它們的行為呢?本文針對這些問題提出一些方案:首先,提出了一組需要交流的多智能體基準測試任務(開關謎語游戲[3]);然后針對這些任務提出了DIAL(Differentiable Inter-Agent Learning)算法;最后,分析該算法是如何為這些智能體學習或者不學習通信協議的。本文考慮的基準測試任務是完全合作的、部分可觀察的多智能體決策問題。所有的智能體只有一個共同的目標,那就是最大限度地獲得同樣折扣的獎勵總和。雖然沒有一個智能體能夠觀察潛在的馬爾科夫狀態,但是每一個智能體都能接收到一個與該狀態相關的私有觀察,除了采取影響環境的行為之外,每個智能體還可以通過離散的有限帶寬信道與其他的智能體進行交流。由于部分可觀察性和有限的信道容量,智能體必須發現一種通信協議,使它們能夠協調自己的行為并完成任務。

1 開關謎語

本文給出的多智能體基準測試任務是開關謎語游戲,該游戲具體描述如下:

一百名囚犯新被送進監獄。典獄長告訴他們,從明天開始,他們每個人都將被安置在一個孤立的牢房里,無法相互交流。每天,監獄長都會隨機選擇一名囚犯,并將他安置在一個無人的院子里,院子里面只有一個帶有開關的燈泡。囚犯將能夠觀察燈泡的當前狀態。如果他愿意,他可以通過院子里的開關開燈關燈。他還可以選擇告訴典獄長,他認為所有囚犯都在某一時間訪問了該院子。如果他說的是正確的,那么所有囚犯都會被釋放,但如果是錯誤的,所有囚犯都被處決。典獄長離開了,囚犯們聚在一起討論他們的命運。他們能否就保證他們自由的協議達成一致的協議呢?

在上面的形式中,如果所有的智能體都已經到過院子,則任務成功完成,獎勵為1,否則為-1。所有智能體的目標就是最大限度地獲得折扣獎勵,即智能體達到的最優性能。智能體學習效率越高,訓練的成功率越大,最優性能就越好。開關謎語游戲帶來了重大的交流與學習協議挑戰,因為智能體之間只有通過交流來達成一致的通信協議才能完成這個任務。

2 DIAL理論介紹

為了完成上面的基準測試任務,可以使用DIAL 方法來訓練智能體。DIAL 允許在集中學習期間,智能體之間可以傳遞實值消息,從而將交流行為視為智能體之間的瓶頸連接。因為可以通過通信信道推動梯度,從而產生一個系統,該系統在智能體之間也是可以端到端訓練的。在分散執行期間[4-5],實值信息被離散化,并映射到任務允許的一組離散交流操作中,由于DIAL傳遞梯度是從一個智能體傳遞到另一個智能體當中去的,所有這是一種內在的深度學習的方法。其次,DIAL的端到端訓練是跨智能體的,也就是在不同智能體間進行端到端訓練。讓梯度從一個智能體流向另一個智能體,給它們提供更豐富的反饋,然后通過試錯來減少所需的學習量,并簡化有效協議的發現。DIAL 是最早提出的通過反向傳播與深度Q 網絡相結合進行學習交流的方法,在每個時間步驟中,智能體生成的信息作為下一個時間步驟中其他智能體的輸入,然后梯度再通過通信信道從一個智能體反向流到另一個智能體,帶來豐富的反饋來訓練智能體有效地學會交流。

在集中學習期間,一個智能體網絡的輸出與另一個智能體的網絡輸入之間的直接連接取代了交流行為。因此,雖然任務限制了對離散信息的交流,但是在學習過程中,智能體可以自由地互相發送真正有價值的信息。由于這些信息的功能與其他任何網絡的激活功能相同,梯度可以沿信道傳遞回來,從而允許在智能體之間進行端到端的反向傳播。每個智能體由一個循環神經網絡組成,該網絡輸出單個智能體的Q 值,以及為每個時間步驟傳輸的信息,然后將生成的信息傳輸到其他智能體,作為下一時間步驟中其他智能體的輸入。接收到的信息將嵌入智能體當前的觀察和最后的行為,作為全局信息的表示。

DIAL 中的神經網絡輸出兩種不同類型的值,如圖1 所示:(a)環境行為的Q 值Q(?)被饋送給行為選擇器。(b)傳遞給其他智能體的實值信息繞過行為選擇器,由DRU 來處理(DRU())。在集中學習過程中,DRU 規范了它。

圖1 DIAL—交流

該過程的表達式為:

同時,在分散執行過程中DRU 使它離散化,其中σ是添加到信道中的噪聲。圖1 顯示了梯度是如何在DIAL 中流動的,DIAL 中Q的梯度鏈是基于DQN 損失的,但是DIAL 中m的梯度項是從信息的接收者向發送者反向傳遞的誤差。使用這種跨智能體梯度來進行訓練比RIAL 中Qm的DQN 損失提供了更加豐富的訓練信號。

在圖1 中,智能體1 在t時刻輸出的信息是繞過行為選擇器由DRU 處理,并作為連續值傳遞到下一個Q 神經網絡,也就是t+1 時刻的智能體2 中。與此同時,梯度在智能體之間流動,從接收方向流向發送方。同時,所有智能體梯度的更新可以通過整個網絡進行高效地傳播。

雖然DQN 的誤差僅對所選的信息為非零,但是傳入的梯度是一個 |m|維的,可包含更多信息的向量,這里的 |m|是m的長度。它還允許網絡來直接調整信息,以最大限度地減少下游的DQN 損失,減少對試錯探索的需要來學習良好的協議。由于梯度在智能體之間流動,DIAL 還可以優化信息的內容,使之與隨后多次執行的獎勵相關。

當我們把我們的分析局限于離散信息時,DIAL 自然而然地處理連續的協議,因為它們是差異訓練的。同時DIAL 也自然而然地處理連續的信息空間,因為它們在集中學習期間無論如何都會被使用,DIAL 也可以自然而然地擴展到大的離散信息空間,因為它學習的是二進制編碼。

3 DIAL中存在的不足

DIAL 方法雖然可以很好地訓練多智能學會交流,但是,DIAL 在信息交流架構上采用的是單向環狀的交流架構,而且它的動態規劃能力不是很好。在DIAL中,神經網絡中的信息傳遞方式只能按照固有的智能體編號進行傳遞:在1,2,3,…i,…3,2,1,的順序中往復循環[6]。當智能體的個數增多時,遍歷一次信息所需要的時間比較長,同時,在這段時間內,如果智能體的狀態出現大幅度地改變,網絡就會失去實時性,從而失效了,這樣就無法高效地訓練多智能體,這是因為智能體的交流方式是單向環狀交流方式。另外,如果單向環狀網絡上的某個點出現了問題,交流序列在后面的智能體將永遠無法將信息傳遞給交流序列在前面的智能體,這樣就會導致智能體之間的交流徹底失效。同時,DIAL 使得智能體之間的連接結構比較不穩定,不能很好地處理復雜的動態環境問題,也承受不了網絡架構上的破壞??偠灾珼IAL 雖然可以很好地解決多智能體交流問題,但是在信息交流速度方面以及處理復雜的動態環境問題方面,表現依然不是很好。所以本文在下面的內容中通過借鑒BRNN[7]的思想對DIAL 進行了改進,得出了雙向DIAL。

4 雙向DIAL原理

由于DIAL 在處理多智能體交流問題中仍然有些不足,例如交流信息的速度不是很快,智能體之間的連接結構不是很穩定,不能很好地處理復雜的動態環境較問題,也無法承受神經網絡架構上的破壞。針對這些問題本章提出了用正反兩個方向的連接方式來對智能體進行連接的方法。這個方法就是在原DIAL 的基礎上將單向的信息傳遞方式變成雙向的信息傳遞,使得單向DIAL 變成雙向DIAL。這樣智能體就可以進行雙向信息交流,交流信息的速度就會變快,智能體之間的連接結構也更加穩定,在處理復雜的動態環境問題上表現得更好。

DIAL 是在允許智能體之間傳遞信息的部分可觀察設置中引入的。智能體也被稱為獨立學習者,也可以找到學習獨立智能體的想法[8]。在DIAL 中,每個智能體由一個循環神經網絡組成,該網絡輸出單個智能體的Q 值并為每個時間步驟傳送一條消息。然后將生成的信息轉移到其他智能體,并在下一個時間步中用作其他智能體的輸入。接收到的信息將嵌入智能體當前的觀察結果和最后一個行動,作為全局信息的表示形式。獨立智能體之間的溝通是一種方法,可以緩解智能體間臭名昭著的非平穩問題,因為梯度至少會在智能體之間流動。對于雙向DIAL 的學習,可以直觀地考慮通過受控智能體的數量的網絡,然后通過時間反向傳播來計算反向梯度,這些梯度同時傳遞給每個智能體的策略函數和Q 函數,這些梯度來自所有智能體的行為。換句話說,所有智能體獎勵的梯度首先被反向傳遞來影響每個智能體的行為,同時這個智能體產生的梯度被進一步傳遞回來更新參數。

圖2 顯示了雙向DIAL 的交流原理。在該圖中,智能體1 在t時刻輸出的信息繞過行為選擇器由DRU 處理,處理之后在t+1 時刻傳遞給智能體2。智能體2 輸出的信息m不僅經由DRU 處理之后傳遞給了后面智能體3,同時也傳遞給了前面的智能體1。從信息流動方向來看,是雙向流動的。這也說明了智能體2 的輸入由智能體1 的輸出和智能體3(圖中未標出)的輸出共同組成的。而梯度還是從后一個智能體反向流向前一個智能體,還是單向流動的。

圖2 雙向DIAL—交流

從圖2 中可以還看出雙向DIAL 可以使用向前傳遞和向后傳遞的所有可用的輸入信息進行訓練,這也說明了在訓練的時候雙向DIAL 可以用與單向DIAL基本相同的方法進行訓練。

5 數值仿真實驗

本次仿真實驗使用的是ε=0.5 的貪婪策略,折扣因子γ=1,每訓練100 次目標網絡重置一次,神經網絡優化器選擇了RMSProp 優化器,動量為0.95,學習率為5×10-4。

圖3 是3 個智能體20 次實驗結果的指數加權平均值得出來的。從圖3 中可以看出,訓練開始時DIAL的最優標準化獎勵要高于雙向DIAL。當訓練到500次左右時,雙向DIAL 的最優標準化獎勵開始反超DIAL,并在后面的訓練過程始終保持著領先。

圖4 是4 個智能體5 次實驗結果的指數加權平均值得出來的。從圖4 中可以看出,當訓練到2000 次左右時,雙向DIAL 開始優于DIAL,并在后面的訓練過程中始終保持著領先。圖3 和圖4 證明了雙向DIAL 在一定程度上確實可以提高訓練的速度及成功率,在性能上更優于DIAL。

圖3 智能體的個數n=3

圖4 智能體的個數n=4

6 結語

本文針對在DIAL 方法存在的不足,即單向信息傳遞方式使得智能體之間的信息交流速度不是很快,學習效率不高。同時單向連接方式使得智能體之間的連接結構比較不穩定,不能很好地處理復雜的動態環境問題,也承受不了網絡架構上的破壞,這樣會導致訓練的成功率不是很高。提出了引入BRNN 的思想將單向信息傳遞方式變成正反方向的雙向信息傳遞方式,智能體之間的連接方式也才從單向連接變成了正反方向的雙向連接,于是DIAL 就變成了雙向DIAL。最后是通過實驗證明了雙向DIAL 的性能確實比DIAL 的性能更好,因為雙向DIAL 進一步提高了訓練的速度及成功率。

猜你喜歡
交流智能信息
如此交流,太暖!
科教新報(2022年12期)2022-05-23 06:34:16
加強交流溝通 相互學習借鑒
今日農業(2021年14期)2021-10-14 08:35:28
周櫻 兩岸交流需要更多“對畫”
海峽姐妹(2020年8期)2020-08-25 09:30:18
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
“交流”等5幅
海外星云 (2001年12期)2001-07-10 16:09:30
主站蜘蛛池模板: 亚洲不卡影院| 九九九久久国产精品| 亚洲AⅤ综合在线欧美一区| 国产一级毛片网站| 国产精品一区二区在线播放| 青草视频在线观看国产| 国产欧美在线观看一区| 婷婷综合色| 午夜不卡视频| 国产99久久亚洲综合精品西瓜tv| 亚洲成人福利网站| 99热国产这里只有精品9九| 日本高清成本人视频一区| 欧美亚洲国产一区| 91无码人妻精品一区二区蜜桃| 一区二区无码在线视频| 国产乱子伦精品视频| 国产精品v欧美| 爱做久久久久久| 中国毛片网| 久久婷婷六月| 亚洲天堂网在线视频| 久草视频中文| 国产精品欧美在线观看| 国产成人高清在线精品| 亚洲精品自拍区在线观看| 亚洲AV无码乱码在线观看裸奔| 欧美亚洲第一页| 亚洲成网站| 欧美 国产 人人视频| 国产成人综合欧美精品久久| 日韩天堂在线观看| 亚洲午夜福利在线| 久久精品91麻豆| 中文成人无码国产亚洲| 无码人中文字幕| 国产后式a一视频| 日本道综合一本久久久88| 国产成人区在线观看视频| 亚洲五月激情网| 一区二区三区四区在线| 欧美日韩国产精品va| 日韩精品高清自在线| 她的性爱视频| 亚洲视屏在线观看| 久久一本精品久久久ー99| 国产欧美日韩综合在线第一| 美女内射视频WWW网站午夜 | 国产三级韩国三级理| 国产人碰人摸人爱免费视频| 国产高清色视频免费看的网址| 亚洲成人在线免费| 国产手机在线ΑⅤ片无码观看| 欧美97色| 精品视频福利| 国产91视频观看| 日韩在线1| 久青草网站| 国产哺乳奶水91在线播放| 伊人五月丁香综合AⅤ| 四虎成人免费毛片| 99国产精品国产高清一区二区| 另类专区亚洲| 亚洲成年人片| 亚洲精品天堂在线观看| 欧美区一区二区三| 伊人久久婷婷五月综合97色| 中文字幕欧美日韩高清| 午夜日b视频| 成人亚洲视频| 国产精品成人免费视频99| 国产在线八区| 久久无码高潮喷水| 国产在线无码一区二区三区| 高清无码不卡视频| 最新精品久久精品| 精品午夜国产福利观看| 五月天福利视频| 日韩久久精品无码aV| 国产精品成人观看视频国产 | 国产乱人伦AV在线A| 免费看美女自慰的网站|