999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強化學習算法與應用綜述①

2021-01-21 06:48:40李茹楊彭慧民李仁剛
計算機系統應用 2020年12期
關鍵詞:價值智能策略

李茹楊,彭慧民,李仁剛,趙 坤

1(浪潮(北京)電子信息產業有限公司,北京 100085)

2(浪潮集團有限公司 高效能服務器和存儲技術國家重點實驗室,北京 100085)

3(廣東浪潮大數據研究有限公司,廣州 510632)

1 引言

近年來,強化學習(Reinforcement Learning,RL)因其強大的探索能力和自主學習能力,已經與監督學習(supervised learning)、無監督學習(unsupervised learning)并稱為三大機器學習技術[1].伴隨著深度學習的蓬勃發展,功能強大的深度強化學習算法層出不窮,已經廣泛應用于游戲對抗[2-4]、機器人控制[5,6]、城市交通[7-9]和商業活動[10-12]等領域,并取得了令人矚目的成績.AlphaGo[2]之父David Silver 曾指出,“深度學習+強化學習=通用人工智能(artificial general intelligence)”[13],后續大量的研究成果也表明,強化學習是實現通用人工智能的關鍵步驟.

1.1 馬爾可夫決策過程(MDP)

強化學習的核心是研究智能體(agent) 與環境(enironment)的相互作用,通過不斷學習最優策略,作出序列決策并獲得最大回報[14].強化學習過程可以描述為如圖1所示的馬爾可夫決策過程(Markov Decision Process,MDP),其中參數空間可表示為一個五元組〈A,S,P,R,γ〉,包括動作空間(action space)A,狀態空間(state space)S、狀態轉移P:S×S×A→[0,1]、回報(reward)R:S×A→R和折扣因子(discounted factor)γ ∈[0,1].在一些情況下,智能體無法觀測到全部的狀態空間,這類問題被稱為部分觀測馬爾可夫決策過程(Partially Observed Markov Decision Process,POMDP),在多智能體強化學習(multi-agent RL)設置中尤其常見[15].

圖1 MDP 中智能體與環境的交互作用[14]

具體實施過程中,智能體在時刻t觀測到所處環境和自身當前的狀態st∈S,根據策略(policy) π,采取一個動作at∈A(S).下一個時刻t+1,環境根據智能體采取的行動給予一個回報rt+1∈R?R,并進入一個新的狀態st+1,智能體根據獲得的回報對策略進行調整,并進入下一個決策過程.MDP 過程中得到的序列為:

Herbertus giraldianus(Steph.)W.E.Nicholson.熊源新等(2006);楊志平(2006)

智能體通過不斷學習,找到能夠帶來最大長期累積回報的最優策略π?.時刻t之后,帶有折扣因子γ ∈[0,1]的長期累積回報如下:

血清同型半胱氨酸與神經元特異性烯醇化酶聯合檢測對進展性腦梗死的預測價值………………………………………………………………………… 代鳴明,等(8):938

經典的策略梯度算法REINFORCE[32]使用蒙特卡洛(MC)方法估計梯度策略,具有較好的穩定性.但樣本效率較低,同時MC 方法包含整個軌跡上的信息,會帶來較大的策略梯度估計方差.通過引入少量噪聲的無偏估計,例如在回報中減去基線的方式,能夠有效降低估計方差.Kakade 在2002年提出自然策略梯度(natural policy gradient)[44]來提升算法的穩定性和收斂速度,由此引出了后續的置信域(trust region)方法,例如著名的置信域策略優化算法TRPO (Trust Region Policy Optimization)[33]和近端策略優化算法PPO(Proximal Policy Optimization)[34].TRPO 和PPO 均為同步策略(on-policy)算法,在經典策略梯度算法的基礎上通過人為或自適應的方式選擇超參數,將更新步長約束一定范圍內,以確保每一步回報單調不減,持續獲得更優的策略,防止出現策略崩潰(Policy Collapse)的問題.此外,Nachum 等在2017年提出了樣本效率更高的異步策略(off-policy)置信路徑一致性學習算法Trust_PCL (Trust Path Consistency Learning)[15],同年Heess 等將PPO 算法推廣到分布式策略梯度的Distributed PPO 算法[45].

1.2 價值函數

當智能體學習到最優策略 π?之后,MDP 在給定策略下退化成馬爾可夫回報過程(Markov Reward Process,MRP).由此,狀態價值(state value)函數Vπ(s)和動作價值(action value)函數Qπ(s,a)分別表示為:

鄉村旅游顧名思義都是在鄉村,且森林資源比較富集的地方。漫山遍野的花草樹木能夠給城市人帶來好心情,同時也讓他們呼吸到新鮮的空氣,被贊譽為“洗肺”。但好些鄉村旅游的從業者,喜歡選擇靠山的地方修建房屋,大規模營造避暑山莊、鄉村旅館,結果隨意砍伐樹木,導致翠綠的山野呈現光禿禿的境況,他們把鋼筋水泥延伸到森林中,如不加制止,破壞后果不堪設想?,F在各地因鄉村旅游破壞森林資源的現象普遍存在,且存在一些屢禁不止的惡習。

將上式轉換為貝爾曼最優方程(Bellman optimality equations)形式即為:

獲得狀態價值函數和動作價值函數后,理論上可以通過策略迭代的方式獲得最優策略,進而求解價值函數.但在具體的實踐過程中,策略迭代效率低、計算成本高,因此通常采用人工設計的線性函數,或非線性函數(如神經網絡)來近似估計價值函數[16].

1.3 探索與利用

對照組:阿托伐他汀鈣膠囊,20 mg/d,1次/d,口服,連用8周。試驗組:瑞舒伐他汀鈣片,10 mg/d,1次/d,口服。兩組患者均連續接受8周藥物治療,并在第4、8周時分別檢測血脂水平。

隨著網約車經濟的發展,越來越多的人選擇網約車的方式出行.為提升服務效果,強化學習被大量應用于網約車派單業務中.以滴滴出行AI Lab 為代表的企業研究院進行了大量的研究工作和應用實踐[9,94,95].其中,乘客與潛在司機之間的距離、道路擁堵程度和司機服務評分等多種因素作為環境狀態,派單系統不斷優化策略進行派單,為乘客匹配最合適的司機,最小化乘客等待時間,以及減少司機空車等待時間,獲得最大的收益.

1.4 本文章節設置

針對國內外強化學習的研究歷程和發展現狀,本文第2 章和第3 章集中闡述經典強化學習算法與前沿研究方向,第4 章介紹強化學習的應用情況,第5 章給出結論與展望.

很多學術期刊微信公眾號更新頻率較低,也沒有形成統一規律。一般是在紙刊文章刊出后對文章進行宣傳推送,或是在刊物有相關新聞報道時進行推送,有些微信公眾號甚至長期沒有更新,成了名存實亡的“僵尸號”。這種不定期更新的頻率無法吸引讀者,更無法保持固有用戶的黏度。

2 強化學習經典算法

從Bellman 提出動態規劃方法[19]到AlphaGo 打敗人類圍棋冠軍[2],強化學習經歷60年的發展,成為機器學習領域最熱門的研究和應用方向.2006年,深度學習[20]的提出,引領了機器學習的第二次浪潮,在學術界和企業界持續升溫,并成功促進了2010年之后深度強化學習的蓬勃發展.

現在北京汽車維修企業基本都要求招收高職院?;?年制中職院校畢業生,在崗維修人員如不提高診斷技術就會長期處于低技術水平從而導致被淘汰。以前汽車維修技術含量低,高級技師可以“挑大梁”,而今后則必須是精于診斷技術的技師才能“挑大梁”。我國政府號召“培育精益求精的工匠精神”,古代工匠魯班發明鋸,現代工匠工作精雕細刻。當代汽修技工必須在診斷技術上不斷提高,弘揚工匠精神,才能成就維修技術人員的精彩人生。

強化學習算法有眾多分類方式,如根據是否構建模型可以分為無模型(model-free) 算法和基于模型(model-based)算法;依據執行策略與評估策略是否一致,分為同步策略(on-policy) 算法和異步策略(offpolicy)算法;根據算法更新機制,分為回合更新的蒙特卡洛(Monte-Carlo,MC)算法和單步更新的時間差分(Temporal-Difference,TD)算法.其中,無模型(modelfree)算法、同步策略(on-policy)算法、時間差分算法(TD)算法,是各自分類下的主流方向,不同分類下的算法存在一定交叉.另外,依據智能體動作選取方式,可將強化學習算法分為基于價值(value-based)、基于策略(policy-based),以及結合價值與策略(actor-critic)3 類,這也是目前最主流的分類方式[21].表1中給出3 類主流強化學習算法的對照,下文將對每一類算法展開介紹.

表1 3 類主流強化學習算法對照

2.1 基于價值(value-based)的強化學習算法

基于價值(value-based)的強化學習算法通過獲取最優價值函數,選取最大價值函數對應的動作,隱式地構建最優策略.代表性算法包括Q-learning[22]、SARSA[23],以及與深度學習相結合的Deep Q-Network (DQN)算法[24,25].此類方法多通過動態規劃(dynamic programming)或值函數估計(value function approximation)的方法獲得最優價值函數,且為確保效率采用時間差分(TD)方法進行單步或者多步更新,而不是蒙特卡洛(MC)回合更新方式.例如,異步策略(off-policy)的Q-learning算法使用非探索策略計算時間差分誤差(TD error),而同步策略(on-policy)的SARSA 算法使用探索策略計算時間差分誤差(TD error).Value-based 算法的樣本利用率高、價值函數估值方差小,不易陷入局部最優.但是,此類算法只能解決離散動作空間問題,容易出現過擬合,且可處理問題的復雜度受限.同時,由于動作選取對價值函數的變化十分敏感,value-based 算法收斂性質較差.

近年來,發展出眾多改進的actor-critic 算法,最具代表性的算法包括:確定性策略梯度算法DPG (Deterministic Policy Gradient)[37]及其深度改進版本DDPG(Deep Deterministic Policy Gradient)[38]、異步優勢actor-critic 算法A3C (Asynchronous Advantage Actor-Critic)[36]、雙延遲確定性策略梯度算法TD3 (Twin Delayed Deep Deterministic policy gradient)[39],以及松弛actor-critic 算法SAC (Soft Actor-Critic)[40]等.DPG算法[37]僅在狀態空間整合確定性策略梯度,極大降低了采樣需求,能夠處理較大動作空間的問題.DDPG 算法[38]繼承了DQN 的目標網絡,采用異步策略的Critic估計策略梯度,使訓練更加穩定簡單.著名的A3C 算法[36]使用在線Critic 整合策略梯度,降低訓練樣本的相關性,在保證穩定性和無偏估計的前提下,提升了采樣效率和訓練速度.TD3 算法[39]在DDPG 的基礎上,引入性能更好的Double DQN,取兩個Critic 之間的最小值來限制過擬合.與TD3 同期的SAC 算法[40]中,Actor在獲得最大回報之外,也具有最大熵,大大提升算法的探索能力.圖4中對比了幾種最先進的policy-gradient算法在同一個強化學習基準問題上的表現,整體對比效果約為SAC=TD3>DDPG=TRPO=DPG>VPG[50].其中,VPG 指經典的策略梯度算法,如REINFORCE[32].

圖2 各類DQN 算法在Atari 游戲(57 種)中的表現[31]

需要指出的是,DQN 及其各變體算法(后文簡稱DQN 算法)雖然在以電子游戲為代表的離散動作空間問題上取得了優異的表現,甚至在一些游戲上以壓倒性優勢戰勝人類玩家[25],但針對實際生產、生活中大量存在的連續動作空間問題,如機械手臂控制、車輛駕駛等,面向離散動作空間的DQN 算法無法應對.同時,相比SARSA 等同步策略算法,雖然異步策略的DQN 算法已經具有較高的樣本效率,但正如圖2所示,即使DQN 系列中最先進的Rainbow DQN 算法,在面對簡單的Atari 游戲時,仍然需要學習約1500 萬幀圖像(樣本)、持續訓練1 天時間才能達到人類玩家的水平[31],而人類只需幾個小時就能掌握同一游戲.因此,DQN 算法的采樣效率問題仍然不可忽視.

2.2 基于策略(policy-based)的強化學習算法

盡管強化學習具有很好的研究和應用前景,但從頭開始訓練算法時,獲取樣本的代價過于高昂,嚴重阻礙強化學習研究與應用的發展.“Learning to learn”的元學習(meta-learning)為快速、靈活的強化學習提供了可能[65].在元強化學習(meta RL)體系當中,通過在大量先驗任務(prior tasks)上訓練出泛化能力強的智能體(agent)/元學習者(meta-learner),在面對新任務時只需少量樣本或訓練步即可實現快速適應.

一系列的實踐經驗證明,大口井運用一定時間后,會有不同程度的淤塞,從而出水量會大大降低。眾多水文地質學家已經通過大量的理論探討和工作時間證明:大口徑輻射井技術可以用于增加單井出水量。大口井輻射井是以傳統的大口井為基礎,在井下部的井筒中增加了多個集水管,并將其整個徑向延伸到蓄水層中,使地下水流入集水管中并最終進入取水井中。

考慮智能體所處環境的隨機性,以及回報獲取存在延遲,MDP 使用折扣因子反映越是深入未來的回報,對當前t時刻累積回報的貢獻越小[14].

TRPO 和PPO 算法因其良好的實驗效果,被選為許多研究工作的基礎算法[46-49],PPO 更是成為了OpenAI的默認算法[1].然而,盡管TRPO 和PPO 算法具有十分優秀的超參數性能,在學術研究中獲得了廣泛關注,但是作為典型的同步策略算法,每次策略更新時都需要在當前策略下采樣大量樣本進行訓練和確保算法收斂.因此,TRPO 和PPO 算法的局限性也非常明顯,算法采樣效率低,需要大量算力作為支撐,這些都極大限制了算法在應用領域的推廣.

2.3 執行者-評論者(actor-critic)強化學習算法

執行者-評論者(actor-critic)算法將value-based(對應評論者,critic)方法與policy-based (對應執行者,actor) 方法進行結合,同時學習策略和價值函數[35].Actor 根據critic 反饋的價值函數訓練策略,而critic 訓練價值函數,使用時間差分法(TD) 進行單步更新.Actor-critic 算法的框架如圖3所示.通常情況下,actorcritic 被認為是一類policy-based 方法,特殊之處在于使用價值作為策略梯度的基準,是policy-based 方法對估計方差的改進.Actor-critic 兼備policy-based 方法和value-based 方法兩方面的優勢,值函數估計方差小、樣本利用率高,算法整體的訓練速度快.與此同時,actor-critic 方法也繼承了相應缺點,例如actor (policybased)對樣本的探索不足,critic (value-based)容易陷入過擬合的困境.并且,本身不易收斂的critic 在與actor結合后,收斂性質更差.后續發展的算法中,通過引入深度學習等手段,在一定程度上緩解了這些問題.

圖3 Actor-critic 算法框架

DQN 算法[24]中使用卷積神經網絡(Convolutional Neural Network,CNN)估計價值函數,是第一個深度強化學習算法,將value-based 方法的應用范圍拓展到高維度問題和連續空間問題.DQN 這種端到端(end-toend)的強化學習算法中使用經驗重放(experience replay)和目標網絡(target network)穩定了價值函數估計,顯著降低對特定領域知識的要求,并提高了算法的泛化能力.此后,DQN 算法演化出眾多變體,如使用不同網絡評估策略和估計價值函數的Double DQN 算法[26],差異化不同經驗重放頻率的優先經驗重放(prioritized experience replay)算法[27],采用競爭網絡結構分別估計狀態價值函數和相關優勢函數、再結合兩者共同估計動作價值函數的Dueling DQN 算法[28],添加網絡參數噪聲以提升探索度的NoisyNet 算法[29],拓展到分布式價值函數的Distributional DQN (C51)算法[30],以及綜合以上各種算法的Rainbow DQN[30].這些DQN 算法能夠有效解決過擬合的問題,具備更高的學習效率、價值函數評估效果和更充分的空間搜索能力,以及更廣泛的適用性.圖2中展示了DQN 算法及各類變種算法的性能對比.

圖4 基于策略的強化學習算法(含actor-critic)在Hopper 問題的效果對比[50]

Actor-critic 的代表性算法,如DPG、DDPG、TD3 及SAC 算法,其中critic 采用了異步策略的Qlearning、DQN 算法,都是典型的異步策略算法,而A3C 可根據critic 所采用的算法進行同步/異步訓練,能適用于同步策略、異步策略.因此,actor-critic 算法多是異步策略算法,能夠通過經驗重放(experience replay)解決采樣效率的問題.然而,策略更新與價值評估相互耦合,導致算法的穩定性不足,尤其對超參數極其敏感.Actor-critic 算法的調參難度很大,算法也難于復現,當推廣至應用領域時,算法的魯棒性也是最受關注的核心問題之一.

3 強化學習前沿研究

近年來,在傳統強化學習算法的基礎上,結合多智能體系統理論、元學習、遷移學習等研究手段,延伸出眾多前沿研究方向,如面向更現實場景的多智能體強化學習(Multi-Agent RL,MARL)、借助元學習泛化能力的元強化學習(Meta RL)、致力于解決大規模問題維度爆炸的分層強化學習(Hierarchical RL),以及遷移先驗知識的強化學習等.本節選取關注度最高、研究最廣泛的多智能體強化學習和元強化學習方向,介紹其中核心思想和代表性算法.

3.1 多智能體強化學習

復雜的現實場景中往往包含多個智能體協作、通信和對抗,例如生產機器人、城市交通信號燈、電商平臺搜索平臺等,都是典型的多智能體系統.目前,應用于多智能體系統的強化學習正在逐漸發展成為研究和應用熱點[51].除了傳統強化學習中的稀疏回報和采樣效率問題,多智能體強化學習還面臨著更多的挑戰,例如多智能體如何達到納什均衡[52],每個智能體如何應對其他智能體造成的非平穩環境,如何僅憑自身觀測到的部分信息做出決策和更新策略[53],如何實現各個智能體之間的通信[54],以及在多智能體系統中十分重要的信用分配(credit assignment)問題[51].此外,當智能體數量增多時,維度爆炸的問題也愈發突出[1].

式中:為梁補差預期值(的取值在一定的區間并可正可負);H為預計竣工時橋梁高度;Hjg1為最終竣工標高。

根據任務的類型,多智能體強化學習(Multi-Agent RL,MARL)可分為完全合作、完全競爭和混合模式.MARL 的關鍵是學習聯合動作價值函數和優秀的分布式策略,實現系統均衡和回報最優[55].早期的MARL算法,如針對兩個智能體零和博弈的MiniMax-Q learning[56]、擴展到多個智能體一般和博弈的Nash-Q learning[57],以及將一般和博弈轉化為兩個零和博弈的FFQ (Friend-or-Foe Q-learning)算法[58],需要使用巨大空間來存儲Q 值,同時線性規劃也導致算法整體學習速度較慢,因此多適用于小規模的問題.此外,Tan 在1993年提出IQL (Independent Q-Learning)算法[59],按照傳統強化學習的步驟對每一個智能體分別執行Qlearning.由于多智能體問題的環境是動態不穩定的,IQL 算法無法收斂,但仍在部分應用中取得良好的效果.

近幾年,以actor-critic 架構為基礎的MARL 算法成為重要發展方向之一.代表性算法有MADDPG(Multi-Agent Deep Deterministic Policy Gradient)[60]和COMA (COunterfactual Multi-Agent actor-critic)[61].此類算法采用集中式訓練、分布式執行(centralized training for decentralized execution),利用聯合動作的所有狀態信息訓練出一個集中的critic,每個智能體通過自身觀測到的歷史信息學習策略,都有自己的回報函數,并分別執行各自的actor,能夠較好地處理非平衡問題,可應用于合作任務、對抗任務和混合任務.然而,這種中心化算法中critic 使用全局信息,當智能體數目增多時,算法的可擴展性較差,集中的critic 更難訓練,多智能體信用分配問題更難解決.同時,一旦環境中某個智能體學習到較好的策略,其他智能體將會變得懶惰,進而影響整體進度.

不同于actor-critic 類型的方法中,每一個智能體都有各自獨立的回報函數,在基于價值分解(valuedecomposition)的MARL 算法中,多個智能體通過各自的觀測得到局部價值函數,再合并為聯合動作價值函數,代表性算法有簡單加和局部價值函數的VDN(Value-Decomposition Network)[62],以及采用非線性混合網絡(mix network)來聯合價值函數的QMIX[63].因此,基于價值函數分解的方法只能應用于合作問題,在此過程中理解智能體之間的關系尤為關鍵.此外,Yang等提出的平均場方法MFMARL (Mean Field Multi-Agent Reinforcement Learning)[64],將一個智能體與其鄰居智能體間的相互作用簡化為兩個智能體間的關系,即智能體與其鄰居智能體均值的相互作用,極大減緩了智能體數量增加帶來的維數爆炸問題.平均場方法只能將智能體的動作空間進行維度縮減,而每個智能體進行策略更新時仍然需要獲取全局狀態信息.

3.2 元強化學習(Meta RL)

基于策略(policy-based)的強化學習算法跨越價值函數,直接搜索最佳策略.Policy-based 算法通過最大化累積回報來更新策略參數,分為基于梯度(gradientbased)算法和無梯度(gradient-free)算法[41].無梯度算法[42,43]能夠較好地處理低維度問題,基于策略梯度算法仍然是目前應用最多的一類強化學習算法,尤其是在處理復雜問題時效果更佳,如AlphaGo[2]在圍棋游戲中的驚人表現.相比value-based 算法,policy-based算法能夠處理離散/連續空間問題,并且具有更好的收斂性.與此同時,policy-based 方法軌跡方差較大、樣本利用率低,容易陷入局部最優的困境.

早期的元強化學習研究中多使用循環神經網絡(Recurrent Neural Network,RNN)表示智能體[46,66].之后,加州大學伯克利分校的人工智能研究組BAIR(Berkeley Artificial Intelligence Research)提出了著名的模型無關元學習方法(Model-Agnostic Meta-Learning,MAML)[53],通過“二重梯度”算法找到泛化能力最強的參數,只需一步或幾步梯度下降實現對新任務的快速適應.MAML 不限定具體的網絡模型,通過改變Loss函數去解決各類問題,如回歸、分類和強化學習.之后眾多工作以此為基礎發展出性能更優的算法,如增加結構化噪聲擴大搜索范圍的MAESN (Model-Agnostic Exploration with Structured Noise)算法[48],識別模型任務分布、調整參數的多模型MMAML (Multimodel Model-Agnostic Meta-Learning)算法[67].同時,MAML算法因其良好的泛化性能,已被推廣到自適應控制[68]、模仿學習[69-71]、逆強化學習[72]和小樣本目標推理[73]等研究領域.然而,以MAML 為基礎的一系列算法中,“二重梯度”過程極大增加了計算量,同時外層循環采用TRPO、PPO 等同步策略方法,算法在元訓練階段的采樣效率較低.

除了以上同步策略算法之外,Rakelly 等提出了一種異步策略的、概率表示的強化學習算法PEARL[74](Probabilistic Embeddings for Actor-critic RL),極大提高了樣本效率,并采用后驗采樣提高探索效率,相比同步策略算法實現了20-100 倍的元訓練(meta-training)采樣效率提升,以及顯著的漸進性能提升.同時,由于概率表示量的引入,PEARL 算法具有更強的探索能力,能夠很好地解決稀疏回報問題.需要指出的是,PEARL算法并不針對一個新任務去更新策略參數,而是利用概率表示的潛在上下文信息泛化到新任務.一旦新任務與元訓練任務間存在較大差異,PEARL 算法的表現將大幅下降.此外,Mendonca 等在最近的工作中提出一種新的引導式元策略學習方法GMPS (Guided Meta-Policy Search)[49],通過多個異步策略的局部學習者(local learner)獨立學習不同的任務,再合并為一個中心學習者(centralized learner)來快速適應新的任務,同樣實現了元訓練效率跨量級的提升.此外,GMPS 算法能夠充分利用人類示范或視頻示范,適應稀疏回報的操縱性問題.雖然GMPS 算法在采樣效率、探索效率、稀疏回報問題上均有十分優異的表現,但其中的元(訓練)策略非常復雜,進一步增加了異步策略超參數的敏感性,算法的復現和應用難度極大.

4 強化學習應用

從提出至今的60 多年里,強化學習已經在科學、工程和藝術等領域獲得了越來越廣泛的應用,并產生了眾多成功案例[1].本節選取強化學習應用較多的游戲對抗、機器人控制、城市交通和商業等領域,針對近年來的應用進展作簡要介紹.

4.1 強化學習在游戲對抗領域的應用

游戲作為人工智能算法絕佳的實驗床,從中誕生了眾多代表性算法.在之前的眾多電子游戲中,強化學習算法取得了不錯的成績,在一些游戲中甚至超過了人類玩家,例如DQN 及其各類變種在Atari 2600 游戲中表現優異[24,31].當然,最著名的還是Silver 等提出的針對零和、信息完備的回合制棋類游戲程序AlphaGo、AlphaGo Zero 和Alpha Zero[2,75,76].“Alpha 系列”使用蒙特卡洛樹搜索(Monte-Carlo Tree Search,MCTS)[77]的基礎架構,將價值網絡(value network)、策略網絡(policy network)和快速走子(fast rollout)模塊結合起來,形成一個完整的系統.強化學習拓展了樹搜索的深度和寬度,平衡探索(exploration)與利用(exploitation)的關系,通過智能體的自我博弈(self-play)獲得了非常顯著的效果.“Alpha 系列”程序先后戰勝了當時的人類世界圍棋冠軍,并將這種優勢推廣到中國象棋與日本將棋.

同時,強化學習算法也被應用于多人參與游戲,如在非完備信息、涉及心理學的多人博弈游戲——德州撲克中,利用反事實后悔最小化(Counter Factual Regret minimization,CFR)[3,78]的遞歸推理,處理信息不對稱的問題,實現廣義的納什均衡,并在六人德州撲克游戲中首次戰勝了5 名人類頂尖選手.另外,地圖不完全公開的多人電子游戲中,OpenAI Five 在高度復雜、局部觀測、玩家高度配合的5v5 Dota2 游戲中戰勝人類高手[79],Pang 等設計的程序也在StarCraft II 游戲中表現優異[4].

4.2 強化學習在機器人領域的應用

機器人是強化學習最經典也最具發展潛力的應用方向[72],強化學習核心的MDP 序列決策特性為機器人復雜的工程設計提供了可能,如機械臂運動[69-71,80],直升機、無人機操控[6,81]、機器人自動導航[82,83]等.在機器人打乒乓球[80]的應用中,機器人觀測到乒乓球的位置、速度變化,以及手臂關節的位置和速度等狀態信息,通過不斷調整揮臂策略和動作,直至學會將不同方向飛來的乒乓球擊回.近年來,基于元強化學習的機器人模仿學習獲得了快速發展,在BAIR 基于MAML 算法[53]的系列工作中[69-71],分別讓機器人觀看人類動作示范和視頻示范,通過在大量元任務上訓練,逐步學會根據示范學會元學習策略.隨后,機器人面對沒有見到過的新任務時,能夠很快完成對物品的抓取、歸類等動作.另外,已經有一些研究開始探索實際生產線上的人機協作問題[84,85].

在實際的應用過程中,由于樣本獲取困難,智能體狀態空間維度高,以及模型很難抓取動態系統的特征等問題,還沒有實現真正的工業級應用[5].

4.3 強化學習在城市交通領域的應用

現代城市交通中,機動車數量日益增多,部分道路擁堵嚴重,行人與非機動車又具有很高的隨機性,路況十分復雜,對順暢交通和參與者的安全帶來巨大挑戰.由此,城市交通網絡調配和機動車駕駛紛紛將目光投向人工智能技術領域,發展城市智慧交通和自動/輔助駕駛技術[86].其中,強化學習算法因其核心的MDP 過程與城市交通網絡調配的需求高度吻合,獲得了越來越多的關注與應用.最近的一些工作研究了實際城市交通中交通信號燈的統一調控[7,87,88],以及城市道路設計問題[89],研究如何改善真實的城市交通.同時,機動車自動/輔助駕駛技術深受各大汽車生產廠商和技術公司的關注[90].其中,輔助/自助駕駛控制系統作為MDP 過程中的智能體,通過觀測機動車行駛狀態、交通信號燈,以及周圍車輛、行人和非機動車的運動和分布情況,充分感知周圍路況信息.根據觀測到的環境狀態,借由基于價值函數或策略的強化學習方法,控制系統發出方向盤轉向、加速、減速、急停、等待等一系列指令,輔助人類駕駛員實現智能導航、路線規劃,避讓行人、非機動車和緊急避險等操作,保障各交通參與者的安全和道路暢通[8].后續工作中,研究人員進一步針對城市交通中車輛稠密[91,92]和少數極端路況[93]進行自動駕駛汽車模擬.

在強化學習問題中,智能體需要平衡探索(exploration)與利用(exploitation)的關系來獲得最優策略,進而得到最大累積回報[17].采取隨機動作來充分探索全部不確定的策略,可能經歷大量較差策略,導致回報較低;然而,持續利用現有最優策略來選取價值最高的動作,缺乏對狀態空間的探索,可能導致錯過全局最優策略,且回報不穩定.

針對強化學習中的探索與利用問題,多采用簡單的貪婪探索,即 ε?greedy 方 法進行改善,其中ε ∈[0,1]是一個接近于0 的小量.在ε?greedy方法中,智能體有1?ε的較大概率選取現有最優策略下價值最高的動作a=argmaxa∈AQ(s,a),但同時保留ε 的小概率隨機選取動作,實現對狀態空間的持續探索.實現過程中,貪婪探索的 ε不斷衰減,直到降低到一個固定的、較低的探索率.在 ε?greedy這類最常用的貪心探索方法之外,置信上界(Upper Confidence Bound,UCB)等方法[18]還考慮了價值函數本身的大小和搜索次數,能夠自動實現探索和利用的自動平衡,并能夠有效減少探索次數.

4.4 強化學習在商業領域的應用

近年來,搜索引擎、數字媒體、電子商務逐漸深入到人們的日常生活中,深刻改變了人們的生活方式.強化學習作為一種有效的基于用戶與系統交互過程建模和最大化累積收益的學習方法,在信息檢索、商品推薦、廣告推送等場景中都具有十分廣闊的應用潛力和眾多成功案例[96].

相關性排序是信息檢索應用的關鍵,而學會排序(Learning-to-Rank,LTR)又是其中的核心技術[97].信息檢索系統中,搜索引擎(agent) 在用戶(environment)每次請求時做出相應排序決策(action),用戶根據搜索引擎給出的結果反饋點擊、翻頁等信號.據此,搜索引擎在收到新的請求時會做出新的排序決策.這個決策過程會持續到用戶購買商品或退出搜索為止[10,98].推薦系統的核心是根據用戶的歷史行為,盡可能準確地推薦最符合用戶偏好的商品/信息[99].在MDP 設定下,用戶的偏好即環境狀態,而轉移函數則描述一段時間內用戶偏好的動態變化屬性.每次系統向用戶推薦商品/信息,用戶給出相應的反饋,如跳過、點擊瀏覽或購買,其中體現用戶對被推薦商品的滿意度.根據用戶的歷史行為,系統調整對用戶偏好的判定,即環境狀態發生改變,并做出下一次推薦[100].推薦系統的目標是向用戶推薦最相符的商品/信息,實現用戶點擊率和逗留時間的最大化[11].在線廣告的目標是將正確的廣告推送給正確的用戶,強化學習在其中為廣告發布者提供最大化目標的合作策略[101]和競價策略[12],從而使廣告活動的收入、點擊率(Click Through Rate,CTR)或投資回報率(Rate Of Investment,ROI)最大化.

滾,二十四把壺,就那一把壺是漏的,你專提它是不?我看你狗咬石匠想挨錘哩。李老鬼這樣說著,幾滴老淚呱唧呱唧掉在木船上,像是摔死了幾只綠色的青蛙。

1.1.3 主要試劑。1,1-二苯基-2-三硝基苯肼(DPPH,Sigma-Aldrich,USA),2,2-聯氨-二(3-乙基苯并噻唑啉-6-磺酸)二銨鹽(ABTS,東京化成),其他試劑均為分析純(成都科龍)。

5 結論與展望

強化學習作為一種端到端的學習過程,以MDP 為基礎做出序列決策和訓練最優策略,具有很強的通用性,已經吸引了學術界與企業界的廣泛關注,也被認為是實現通用人工智能的關鍵步驟.本文綜述了強化學習算法與應用的研究進展和發展動態,重點介紹基于價值函數、基于策略搜索、結合價值與搜索的代表性強化學習方法,以及多智能體強化學習和元強化學習等前沿研究的最新進展,這些算法都促進強化學習向著更加通用化、更加便捷的方向發展.最后,本文概述了強化學習在游戲、機器人、城市交通和商業領域的成功應用,展示了強化學習智能決策特性的優勢和潛力.

實地調研中,盡管村民對專合社的總體態度是認可并支持的,但是滿意度卻并不高。專合社剛成立時,各方發展信心都很足,理事會也很賣力,不僅引進了許多新業態,通過對村民開展相關的旅游服務技能和服務規范培訓,提高了村民的服務意識。2017年,由于鎮政府的大力宣傳,游客很多,幾乎家家戶戶都被分配了客源,部分家庭還多次接待游客。尤其是詩歌節期間,更是全村爆滿。但是今年,政府扶持重心有所轉移,游客量較去年減少,專合社的業務也少了許多,社員熱情退卻,開會次數也明顯減少。

盡管強化學習在研究和應用領域已經取得了一定的成功,但本質上仍局限于模擬環境中理想、高度結構化的實驗數據,強化學習還不具備類人的自主學習、推理和決策能力.為了進一步向通用人工智能的目標邁進,強化學習研究與應用有以下幾個努力方向:

采用電抗子模塊分段投切的模塊化多電平換流器降電容方法//李鈺,李帥,趙成勇,許建中,曹均正//(19):90

(1)借助監督學習手段,提高強化學習魯棒性.基于策略梯度的強化學習算法是現有研究的主流,然而不可避免地帶有方差大的缺點,對算法的穩定性造成影響.對此,可以結合更高效、更穩定的監督學習方法,如模仿學習(imitation learning)、行為克隆(behavioral cloning),充分利用專家經驗快速訓練出更優的策略.

(2)構建更智能的強化學習表示與問題表述方式.關注算法的數學本質,設計具有可解釋性、簡單的強化學習策略,摒棄單純“調參”手段,從根源上拓展算法的適用性,降低算法復雜度,突破強化學習中探索與應用、稀疏回報和樣本效率等核心問題.

(3)添加記憶模塊,利用上下文信息增強強化學習的自主學習能力.在強化學習模型中整合不同類型的記憶模塊,如LSTM、GRU 等模型,引入額外的回報和之前的動作、狀態信息,使得智能體學習到更多任務級別信息,從而使智能體掌握更多的自主學習、推理和決策等功能.

(4)將元學習、遷移學習拓展到多智能體強化學習研究和應用領域.針對真實任務場景中普遍存在的多智能體系統,如生產線機器人、城市道路車輛等,避免大量智能體從頭開始訓練的高成本與不確定性,吸收元學習、遷移學習的思想,利用先驗知識訓練出快速適應新任務的模型,緩解MARL 對強大算力支撐的需求,向復雜場景的應用更進一步.

(5)開發針對實體輸入的強化學習算法,應對實際工業生產應用.實際生產、生活中,智能體面對高維環境如實際物品、視頻畫面等實物信息,而非原始的像素級信息.在此過程中,利用無監督學習或其他機器學習技術對實物、實物間關系進行理解和特征提取,將大幅提高強化學習算法的效率,促進強化學習算法在真實場景中的應用.

猜你喜歡
價值智能策略
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
一粒米的價值
“給”的價值
Passage Four
主站蜘蛛池模板: 中文字幕欧美成人免费| 日韩在线永久免费播放| 国产成人三级| 无码中字出轨中文人妻中文中| 国产永久免费视频m3u8| 伊人欧美在线| 久久这里只有精品2| 国产欧美成人不卡视频| 国产福利微拍精品一区二区| 91探花国产综合在线精品| 国产成人毛片| 国产亚洲男人的天堂在线观看| 乱人伦视频中文字幕在线| 二级毛片免费观看全程| 一级毛片基地| 99ri国产在线| 国产不卡在线看| 亚洲精品第1页| 久久77777| 麻豆精品国产自产在线| AV片亚洲国产男人的天堂| 伊人色综合久久天天| 狠狠色婷婷丁香综合久久韩国| 欧美日韩国产在线观看一区二区三区| 99在线观看国产| 小说 亚洲 无码 精品| 青青草原偷拍视频| 97精品伊人久久大香线蕉| 亚洲不卡av中文在线| 亚洲精品色AV无码看| 国产精品美女自慰喷水| 国产精品网址在线观看你懂的| 国产精品自在在线午夜区app| 久久综合国产乱子免费| 香蕉综合在线视频91| 丁香亚洲综合五月天婷婷| 国产一区二区精品福利| av一区二区无码在线| 在线观看国产黄色| 亚洲日本中文综合在线| 久久青草精品一区二区三区| 9啪在线视频| 欧美精品1区| 亚洲看片网| 高清免费毛片| 国产精品部在线观看| 国产欧美日韩一区二区视频在线| 狼友视频国产精品首页| 99999久久久久久亚洲| 国产无码制服丝袜| 无码精油按摩潮喷在线播放 | 亚洲精品视频免费看| 影音先锋丝袜制服| 亚洲黄色成人| 欧美性天天| 国产91线观看| 色综合成人| 欧美精品不卡| 欧美成人手机在线视频| 无码AV日韩一二三区| 欧美色香蕉| 国产乱子伦无码精品小说| 成人毛片在线播放| 欧美日韩一区二区在线免费观看 | 91久久性奴调教国产免费| 尤物精品国产福利网站| 国产91九色在线播放| 夜夜操国产| 一区二区三区毛片无码| 精品一区二区无码av| 色综合网址| 久久特级毛片| 色综合网址| 日韩福利视频导航| 99热在线只有精品| 精品国产自在现线看久久| 国产视频只有无码精品| 午夜不卡视频| 国产欧美日韩va| 噜噜噜综合亚洲| 国产AV毛片| 亚洲精品麻豆|