999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

逆向強化學習研究概述

2021-07-19 21:24:45劉旖菲
電腦知識與技術 2021年15期
關鍵詞:深度學習人工智能

劉旖菲

摘要:深度強化學習在可以手動設計獎勵函數的領域取得了優異的效果。逆向強化學習利用專家演示數據推斷獎勵函數,可以有效解決強化學習的獎勵函數設計困難的問題。為了全面反映逆向強化學習的研究進展,本文對國內外公開發表的具有代表性的論文進行了概述。本文首先介紹了逆向強化學習的簡介,然后概述了逆向強化學習的研究進展,最后提出了逆向強化學習存在的問題以及未來的研究方向。

關鍵詞:人工智能;深度學習;逆向強化學習

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)15-0190-02

近年來,強化學習在復雜問題的處理上取得了不錯的效果。強化學習利用獎勵函數表示優化目標,優化目標決定了智能體的所學策略的最終形式。但是,好的獎勵函數的設計是困難的。一方面,獎勵函數的設計具有主觀性和經驗性;另一方面,一些任務的獎勵信號是稀疏的,無法用嚴格的理論知識推導獎勵函數的設計。因此,獎勵函數的設計是阻礙強化學習算法得到普遍應用的一個難點。

Ng等人提出[1],專家在完成某項任務時,其決策往往是最優的或接近最優的,當所有的策略產生的累積回報函數期望都不比專家策略產生的累積回報期望大時,強化學習所對應的回報函數就是根據示例學到的回報函數。通過逆向強化學習算法,智能體從專家的演示數據中推斷出獎勵函數,并利用該獎勵函數學習策略,使得在該獎勵函數下所學習的最優策略與專家的執行策略接近。因此,逆向強化學習是解決強化學習的獎勵函數設計困難的問題的一個解決方案。

1 逆向強化學習的簡介

馬爾可夫決策過程(Markov Decision Process, MDP)由一個四元組構成,[M={S,A,T,r}]。其中,S表示狀態空間,A表示動作空間,T表示狀態轉移概率模型,r表示獎勵函數。在已知MDP的前提下,[π*]是累計獎勵值最大的最優策略。此外,考慮到未來對現在的影響,故引入了貼現系數[γ]。

逆向強化學習考慮的情況是MDP的獎勵函數未知,提供一組從專家的執行策略[π]中采樣得到的演示數據[D={?1,?2,…,?N}],每個演示數據由一組狀態動作對組成,[?i={(s0,a0),(s1,a1),…(sN,aN)}]。逆向強化學習的目標是利用演示數據學習隱藏的獎勵函數。

2 逆向強化學習的研究進展

早期的研究假設獎勵函數是特征向量的線性組合。Abbeel等人[2]利用線性函數表示獎勵函數,雖然無法保證算法可以正確地學習專家所執行的策略產生的累計匯報函數,但是結果表明,該算法所學習的策略的表現效果與專家所執行的策略的表現效果相當。Ziebart等人[3]提出基于最大熵的逆向強化學習,它可以有效地模擬大規模用戶的駕駛行為。在給定的起點和終點之間有多條行駛路徑,專家在任意一條路徑上行駛的概率與沿著該條路徑行駛所獲得的獎勵的指數成比例關系,通過最大化專家的行駛軌跡的后驗概率學習獎勵函數。該算法能通過改變行駛軌跡的分布特征解決專家的演示數據的次優和隨機的問題。

Levine等人[4]使用擴展的高斯過程學習非線性化的獎勵函數,同時還確定了每個特征與專家策略的相關性。該基于概率模型的算法可以從次優和隨機的演示數據中學習復雜的行為,同時可以自動平衡智能體學到的獎勵函數的簡單性和觀察到的動作的一致性。

逆向強化學習有兩個基本挑戰,其一是獎勵函數存在模糊性的問題,即智能體可以從一組專家演示數據中推斷出不同的獎勵函數,其二是控制任務所涉及的系統動力學的復雜性的問題,許多早期的方法都是在每次迭代優化的內循環中求解MDP,而這些方法需要完善的系統動力學知識體系和一個有效的離線解算器,因此限制了它們在復雜的現實場景中的應用,如機器人控制。Finn等人[5]提出引導成本學習,該方法可以學習復雜的非線性成本表示,如神經網絡,這消除了對成本特征的手工設計的精細程度的要求。此外,它可以應用于具有未知動力學特征的高維系統。它是基于最大熵的逆向強化學習模型,且是一種基于樣本的有效近似方法,其中,通過基于局部線性模型的策略學習算法生成樣本。將該方法應用于各種真實世界的機器人操作任務,評估表明,在一組模擬基準上,該方法優于先前的逆向強化學習算法,并在多個真實世界的任務上取得了良好的結果。

3 存在的問題與未來研究方向

逆向強化學習學到的策略往往是次優的,其表現效果低于專家的表現效果。這主要是由于兩個原因,一方面,樣本不具有完整性,考慮到訓練示例是由專家執行的參考策略抽樣得到,從而導致用于訓練獎勵函數的訓練集是按照專家策略執行時所訪問的狀態的子集,因此在大部分情況下,智能體的演示水平低于專家水平。此外,為智能體提供高質量的演示數據是困難的,因此,實際的最優水平有可能遠高于專家水平。另一方面,逆向強化學習的目標僅僅是找到專家的執行策略的隱含的獎勵函數,卻沒有對專家的執行策略的改進做進一步的探索。Brown等人[6]研究了傳統的逆向強化學習的學習效果不能超越專家的原因,并提出了軌跡排名獎勵外推(trajectory-ranked reward extrapolation, T-REX)。T-REX首先根據每個軌跡中的累積獎勵對采樣軌跡進行排序。然后,T-REX推斷一個由深度神經網絡參數化的獎勵函數。最后,對該網絡進行訓練。該方法遵循最大似然法的模式,該模式通過推斷的獎勵函數來解釋觀測的和排序得到的軌跡。TREX探索潛在的獎勵空間以推斷高質量的獎勵函數,從而學習有效的策略。仿真結果表明,T-REX在多個Atari和MuJoCo基準任務上優于最先進的模仿學習和逆向強化學習方法,且其性能往往可以達到最佳演示性能的兩倍以上。此外,即使在存在顯著的排名噪聲的情況下,T-REX也表現良好。

大多數逆向強化學習算法是兩階段的,即首先推斷一個獎勵函數,然后通過強化學習學習策略。由于采用了兩個獨立的過程,從而導致兩階段的逆向強化學習算法的計算復雜度高,魯棒性差。與兩階段算法相比,單階段算法具有更高的效率和魯棒性。Justin等人[7]提出了對抗性逆強化學習,它在推斷獎勵函數的同時學習策略。對抗性逆強化學習將逆強化學習問題轉化為生成對抗方式,即策略產生軌跡,并由判別器判別軌跡是否來自專家。同時,將判別器的評判分數設置為策略的獎勵函數。為了使累計回報最大化,策略應與專家的執行策略高度匹配,從而獲得更高的分數。訓練結束后,智能體同時學會了獎勵函數和策略。對抗性逆強化學習算法是一種特殊的單階段算法,它基于推斷的獎勵函數學習策略。此外,獎勵函數的推斷與策略的學習密切相關,實現了相互監督,并有效地減小了方差。

4 結語

綜上所述,強化學習的目標是使智能體學習決策過程以產生行為,并使某些預定義的累計獎勵最大化。但是設計一個可以有效優化并表征所學策略的最終形式的獎勵函數是困難的,因此獎勵函數的設計是阻礙強化學習算法得到普遍應用的一大障礙。逆向強化學習的目標是從專家的演示數據中提取獎勵函數,它可以有效解決手動設定獎勵函數存在困難的問題。在已知獎勵函數的情況下,問題可以簡化為利用強化學習方法使智能體學習最優策略。由于演示數據的不完整性和質量較低,可能導致逆向強化學習學到的策略是次優的,其表現效果低于專家的表現效果。此外,兩階段的逆向強化學習算法的計算復雜度高,魯棒性差。因此,超越演示的逆向強化學習算法和單階段的逆向強化學習算法將是未來的一大發展趨勢。

參考文獻:

[1]? Ng A Y, Russell S J. Algorithms for inverse reinforcement learning[C]//Icml. 2000(1): 2.

[2] Abbeel P,Ng A Y.Apprenticeship learning via inverse reinforcement learning[C]//Twenty-first international conference on Machine learning - ICML '04.July 4-8,2004.Banff,Alberta,Canada.New York:ACM Press,2004:1.

[3]? Ziebart B D, Maas A L, Bagnell J A, et al. Maximum entropy inverse reinforcement learning[C]//Aaai,2008(8):1433-1438.

[4] Levine S, Popovic Z, Koltun V. Nonlinear inverse reinforcement learning with gaussian processes[J]. Advances in neural information processing systems, 2011, 24: 19-27.

[5]? Finn C, Levine S, Abbeel P. Guided cost learning: Deep inverse optimal control via policy optimization[C]//International conference on machine learning. PMLR, 2016: 49-58.

[6]? Brown D, Goo W, Nagarajan P, et al. Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations[C]//International Conference on Machine Learning. PMLR, 2019: 783-792.

[7]? Fu J, Luo K, Levine S. Learning robust rewards with adversarial inverse reinforcement learning[J]. arXiv preprint arXiv:1710.11248, 2017.

【通聯編輯:李雅琪】

猜你喜歡
深度學習人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
主站蜘蛛池模板: 国产精品天干天干在线观看 | 日韩高清无码免费| 在线另类稀缺国产呦| 亚洲h视频在线| 日韩免费中文字幕| 永久天堂网Av| 18禁高潮出水呻吟娇喘蜜芽| 小13箩利洗澡无码视频免费网站| 国产欧美视频综合二区| 97国内精品久久久久不卡| 国产精品久久久久久搜索| 嫩草国产在线| 午夜不卡视频| 久久国产精品77777| 亚洲精品在线观看91| 911亚洲精品| 欧美视频在线观看第一页| 日韩福利视频导航| 亚洲午夜国产片在线观看| 欧美午夜理伦三级在线观看| 在线观看的黄网| 国产一级毛片在线| 在线播放国产99re| 日日拍夜夜嗷嗷叫国产| 亚洲日产2021三区在线| 国产成人高清精品免费软件| www中文字幕在线观看| 熟妇人妻无乱码中文字幕真矢织江| 九九香蕉视频| 亚洲综合国产一区二区三区| 最新亚洲人成无码网站欣赏网| 国产精品美女网站| 四虎永久免费地址在线网站| 婷五月综合| 伊人久久影视| 国产激情影院| 亚洲成a人片| 亚洲日韩精品伊甸| 欧美亚洲一二三区| 亚洲色图另类| 国产超薄肉色丝袜网站| 午夜三级在线| 欧美专区日韩专区| 亚洲国产欧美中日韩成人综合视频| 亚洲AV无码一区二区三区牲色| 亚洲aⅴ天堂| 中文字幕 91| 欧美日本激情| 天天摸天天操免费播放小视频| 久久久久亚洲av成人网人人软件 | 国模沟沟一区二区三区| 国产一区二区三区在线观看视频| 性欧美久久| 色老头综合网| 热re99久久精品国99热| 99视频精品全国免费品| 国产天天射| 国产xx在线观看| 四虎AV麻豆| 欧美亚洲一区二区三区导航| 狠狠亚洲婷婷综合色香| 精品久久久久久成人AV| 四虎影视8848永久精品| 青青国产成人免费精品视频| 亚洲精品另类| 亚洲美女AV免费一区| 97视频在线精品国自产拍| 久久精品无码一区二区国产区| 99视频在线免费| 欧美在线视频不卡第一页| 精品黑人一区二区三区| 久久99精品久久久久纯品| 美女一区二区在线观看| 九九热视频在线免费观看| 欧美在线三级| 免费xxxxx在线观看网站| 精品久久香蕉国产线看观看gif| 成人福利视频网| 国产69精品久久久久孕妇大杂乱 | 99久久精品国产精品亚洲| 久久亚洲中文字幕精品一区| 欧美日本激情|