999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能深度強化學習的原理與核心技術探究

2020-03-24 22:28:38吳英萍耿江濤
理論與創新 2020年24期
關鍵詞:深度學習人工智能

吳英萍 耿江濤

【摘? 要】應用大數據技術的深度學習及深度強化學習是人工智能領域的一場革命,深度學習使強化學習能夠處理以前難以解決的問題,取得了令人矚目的進步,特別是在游戲和棋類競技等領域都超過了人類的表現。本文介紹了強化學習的一般領域,然后介紹了基于價值和基于策略的方法和深度強化學習中的核心算法,進一步表現了深層神經網絡融入強化學習的獨特優勢。

【關鍵詞】強化學習;深度學習;深度強化學習;人工智能

引言

近期的人工智能(Artificial Intelligence, AI)研究為機器學習(Machine Learning,ML)提供了強大的技術。作為解決人工智能問題通用框架的強化學習(Reinforcement learning,RL)也與深度學習(Deep Learning,DL)相結合,產生的深度強化學習(Deep Reinforcement Learning,DRL)也在近年取得了令人興奮的成就。

強化學習(RL)是關于一個智能體與環境相互作用,通過試驗和錯誤的方法,為自然科學、社會科學和工程等領域的順序決策問題學習一個最優策略。

強化學習和神經網絡的整合有著悠久的歷史。近期深度學習取得了令人振奮的成果,得益于大數據、強大計算力、新算法技術、成熟的軟件包和架構以及強大的資金支持,強化學習也開始復興,尤其是深層神經網絡與強化學習的結合,即深度強化學習。

在過去的幾年里,深度學習在游戲、機器人、自然語言處理等領域的強化學習中一直很流行,也取得了一些突破,比如Deep Q-network和AlphaGo;以及新穎的架構和應用,如可微神經計算機、異步方法、價值迭代網絡、無監督強化和輔助學習、神經結構設計,機器翻譯的雙重學習、口語對話系統、信息提取、引導策略搜索和生成性對手模仿學習,進一步推動創新的核心要素和機制等。

為什么深度學習有助于強化學習取得如此巨大的成就?基于深度學習的表示學習通過梯度下降實現自動特征工程和端到端學習,從而大大減少甚至消除了對領域知識的依賴。特征工程過去是手工完成的,通常耗時、過多且不完整。深層次的分布式表示利用數據中因子的分層組合來對抗維度指數級爆炸的挑戰。深層神經網絡的通用性、表達性和靈活性使一些任務變得更容易或可能,例如,在上面談到的突破和新的體系結構和應用。

深度學習作為機器學習的一個特定類別,并非沒有局限性,例如,它是一個缺乏可解釋性的黑匣子,沒有清晰而充分的科學原理,沒有人類的智慧,在某些任務上無法與嬰兒競爭。因此,對于深度學習、機器學習和人工智能,還有很多探索性的工作要做。

深度學習和強化學習分別被選為2013年和2017年麻省理工學院技術評論十大突破性技術之一,將在實現人工通用智能方面發揮關鍵作用。AlphaGo的主要貢獻者David Silver甚至提出了一個公式:人工智能=強化學習+深度學習。

1.深度學習

以下簡要介紹機器學習和深度學習的概念和基本原理。

1.1機器學習

機器學習是從數據中學習并做出預測和決策。通??煞譃楸O督學習、無監督學習和強化學習。

在監督學習中,使用標記的數據。分類和回歸是兩類監督學習研究的問題,分別是分類輸出和數值輸出。

無監督學習試圖從沒有標簽的數據中提取信息,例如聚類和密度估計。表征學習是一種典型的無監督學習。表征學習尋找一種表示方法,以盡可能多地保留原始數據的信息,同時保持表示比原始數據更簡單或更易訪問,具有低維、稀疏和獨立的表示。

強化學習使用評價性反饋,但沒有監督信號。

機器學習基于概率論、統計和優化理論,是大數據、數據科學、預測建模、數據挖掘和信息檢索的基礎,并成為計算機視覺、自然語言處理和機器人技術等的重要組成部分。機器學習是人工智能(AI)的一個子集,并且正在發展成為人工智能各個領域的關鍵。

1.2深度學習

深度學習與淺層學習形成鮮明對比。對于許多機器學習算法,如線性回歸、邏輯回歸、支持向量機、決策樹、boosting集成提升算法等,都有輸入層和輸出層,在訓練前可以用人工特征工程對輸入進行轉換。在深度學習中,在輸入和輸出層之間,則有一個或多個隱藏層。在除輸入層之外的每一層,都計算每個單元的輸入,作為前一層單元的加權和;然后使用非線性變換或激活函數,如對數處理、三角函數處理或最近更流行的校正線性單元(Rectified Linear Unit, ReLU)應用于單元的輸入,以獲得輸入的新表示從上一層開始。在各個層的單元之間的鏈接上標有權重。在計算從輸入到輸出后,在輸出層和每個隱藏層,都可以向后計算誤差導數,并向輸入層反向傳播梯度,從而更新權重以優化某些損失函數。

前向深層神經網絡或多層感知器(Multi-Layer Perceptron, MLP)是將一組輸入值映射到輸出值,該數學函數由每一層的許多簡單函數組成。卷積神經網絡(Convolutional Neural Network, CNN)設計用于處理具有多個陣列的數據,如彩色圖像、語言、音頻頻譜圖和視頻,受益于這些信號的特性:局部連接、共享權重、池和多層的使用,并受到視覺神經科學中簡單細胞和復雜細胞的啟發。殘差網絡(Residual Networks, ResNets)旨在通過添加快捷連接來學習參考層輸入的殘差函數來簡化深層神經網絡的訓練。為解決這些問題,提出了長短時記憶網絡(Long Short Term Memory networks, LSTM)和門控遞歸單元(Gated Recurrent Unit, GRU),并通過門控機制通過遞歸細胞操縱信息。

2.強化學習與深度強化學習

為了更好地理解深度強化學習,首先要對強化學習有一個很好的理解。以下簡要介紹強化學習的背景,并介紹值函數、時間差分學習、函數逼近、策略優化、深度強化學習等術語。

2.1問題背景

強化學習的基本過程可以用狀態 (State) 、行動 (Action) 、狀態轉移概率 (Possibility) 、狀態轉移獎勵或回報 (Reward) 構成的四元組{s, a, p, r}表示。對于離散時間MDP(Markov Decision Programming), 狀態和動作的集合稱為狀態空間 (State Space) 和動作空間 (Action Space) , 分別使用S和A表示, si∈S, ai∈A。根據第t步選擇的行動, 狀態根據概率P (st+1st, at) 從st轉移到st+1, 在狀態的轉移的同時, 決策主體得到一個即時的獎勵Rt (st, at, st+1) .該過程結束時的累積獎勵 (Return) 為

其中, γ∈(0,1]為折扣因子。該智能體決策的目標是使每個狀態下的這種累計獎勵的期望值最大化。問題設定為離散狀態和動作空間,但很容易將其擴展到連續空間。

2.2探索與應用

探索(Exploration)是使用多種探索技術找到關于環境的更多信息。

應用(Exploitation)是利用已知信息應用多種手段來得到最多的獎勵。

2.3值函數

值函數是對預期的、累積的、折扣的、未來獎勵的預測,用于衡量每個狀態或狀態行動對的好壞。

狀態值vπ (s) = E[Rt|st = s] 是指從狀態s出發,按照策略函數π (a|s)采取動作a的狀態期望值。

最優狀態值 v*(s) = maxπ vπ (s) = maxa qπ* (s, a) 是采用行動策略函數π對狀態s所能達到的最大狀態值。

行動值qπ (s, a) = E[Rt|st = s, at = a] 是指在狀態s中選擇行動a,然后遵循策略函數π的獎勵期望值。

最優行動值函數q*(s, a) = maxπ qπ (s, a)是狀態s和行動a的任何策略所能達到的最大行動值,使用π*表示最優策略。

2.4時間差分學習

當強化學習問題滿足馬爾科夫性質,即未來狀態只取決于當前狀態和行動,而不取決于過去時,將其表述為馬爾科夫決策過程(Markov Decision Process, MDP),由5元組(S, A, P, R, γ)定義。當有系統模型時,采用動態編程方法:策略評估來計算策略的價值/行動價值函數,價值迭代和策略迭代來尋找最優策略。當沒有模型時,則采用強化學習方法。當有模型時,強化學習方法也能發揮作用。

時間差分(Temporal Difference, TD)學習是強化學習的核心。時間差分學習通常是指值函數評價的學習方法。Q-learning也被認為是時差學習。

TD學習以無模型、在線、完全增量的方式,直接從TD誤差的經驗中學習價值函數V(s),并進行引導。TD學習是一個預測問題。迭代規則是:

V (s) ← V (s) + α[r + γV (st) -V (s)],

其中: α是學習率,而[r + γV (st) - V (s)] 稱為TD誤差。

引導方法和TD迭代規則一樣,根據后續的估計來估計狀態或動作值,這在強化學習中很常見,比如TD學習、Q學習、動作者-評判者算法。引導方法通常學習速度較快,并且可以實現在線和持續學習。

2.5函數逼近

當狀態和/或動作空間很大、很復雜或連續時,函數近似是一種泛化的方法。函數逼近旨在從函數的實例中概括出一個函數,以構造出整個函數的一個近似值。這通常是監督學習中的一個概念,用于機器學習和統計曲線擬合等研究領域。函數逼近通常選擇線性函數,部分原因是其理想的理論特性。

2.6深度強化學習

當使用深度神經網絡來進行深度強化學習(deep reinforcement learning)時,就得到深度強化學習(deep RL)方法。此時,使用深度神經網絡來近似逼近強化學習的值函數、策略和模型(狀態轉移函數和獎勵函數)。

3.深度強化學習核心技術

強化學習智能體主要由值函數、策略和模型組成。探索與應用是強化學習的一個基本權衡。知識對強化學習至關重要。

3.1值函數

價值函數是強化學習中的一個基本概念,時間差分(Temporal Difference, TD)學習及其擴展Q-learning分別是學習狀態和動作價值函數的經典算法。

Q-learning 算法偽代碼如下:

然而,當動作值函數被類似神經網絡的非線性函數逼近時,強化學習是不穩定甚至發散的。由此,提出了深度強化學習模型(Deep Q-Network, DQN)。DQN做出了以下重要貢獻:利用經驗重演和目標網絡,穩定了用深層神經網絡(CNN)進行動作值函數逼近的訓練;設計了一種僅以像素和游戲分數為輸入的端到端增強學習方法,從而只需要最小的領域知識;訓練一個具有相同算法、網絡架構和超參數的靈活網絡,能夠在許多不同的任務上表現出色,其性能優于以前的算法,性能與人類專業測試人員相當。

3.2策略

策略將狀態映射到動作上,策略優化就是要找到一個最優映射。策略搜索法將策略參數化, 以累積回報的期望作為目標函數。

目標函數同時也是參數θ的函數, 原問題變成基于θ的最優化問題, 求解該優化問題的方法又稱為策略梯度法。

相對而言,值函數Q-learning算法更有效率,而策略梯度法則是穩定收斂的。

異步動作者-評判者算法 (Asynchronous Actor Critic, A3C)同時學習策略和狀態值函數,值函數用于引導,即從后續估計中更新狀態,以減少方差和加快學習速度。

在A3C中,并行動作參與者采用不同的探索策略來穩定訓練,從而避免了經驗重演。與大多數深度學習算法不同,異步方法可以在單個多核CPU上運行。對于Atari游戲,A3C運行速度快得多,但表現優于DQN、D-DQN和優先D-DQN。A3C還成功地解決了連續的電機控制問題:TORCS賽車游戲和MujoCo物理操作和移動,以及迷宮,一個使用視覺輸入的隨機3D迷宮導航任務,在這個任務中,每一個新的場景中,每個智能體都將面對一個新的迷宮,因此它需要學習一個探索隨機迷宮的一般策略。

3.3獎勵

獎勵為增強學習智能體提供評估性的反饋以做出決策。獎勵可能是稀疏的,因此對學習算法是有挑戰性的,例如,在計算機圍棋中,獎勵發生在游戲結束時。有無監督的方式來利用環境信號。獎勵函數是獎勵的數學公式。獎勵形成是指在保持最優策略的同時,修改獎勵函數,以促進學習。獎勵功能可能不適用于某些增強學習問題。

在模仿學習中,智能體通過專家演示學習執行任務,從專家那里獲取軌跡樣本,不需要強化信號,也不需要訓練時專家提供額外的數據;模仿學習的兩種主要方法是行為克隆和逆強化學習。行為克隆,或稱學徒學習,或示范學習,被定義為一個有監督的學習問題,用于將狀態-行為對從專家軌跡映射到政策,而無需學習獎勵函數。逆強化學習(Inverse Reinforcement Learning IRL)是在觀察到最優行為的情況下確定獎勵函數的問題,通過IRL探討學徒制學習。

(1)從示范中學習。

深度Q-示范學習(Deep Q-learning from Demonstrations, DQfD),試圖通過利用示范數據,結合時間差分(TD)、監督損失和正則化損失來加速學習。在這種方法中,示范數據沒有獎勵信號,但Q學習中有獎勵信號。有監督的大邊際分類損失使從學習值函數導出的策略能夠模仿演示者;TD損失使值函數根據Bellman方程有效,并進一步用于強化學習;網絡權重和偏差的正則化損失函數可防止過度擬合小型演示數據集。在預訓練階段,DQfD只對演示數據進行訓練,以獲得模仿演示者的策略和用于持續學習RL的值函數。然后,DQfD自生成樣本,并按一定比例與演示數據混合,得到訓練數據。在Atari游戲中,DQfD通常比DQN具有更好的初始性能、更高的平均回報和更快的學習速度。

監督學習策略網絡是從專家的行動中學習的,如同從演示中的學習一樣,用結果初始化強化學習策略網絡。

(2)生成性對抗性模仿學習。

在IRL中,智能體首先學習一個獎勵函數,然后從中得到最優策略。許多IRL算法都有很高的時間復雜度,內環存在RL問題。生成性對抗性模仿學習算法,繞過中間IRL步驟,直接從數據中學習策略。生成性對抗訓練是為了適應辨別器,定義專家行為的狀態和行為的分布,以及生成器和策略。

生成性對抗模仿學習發現了一種策略,使得判別器DR無法區分遵循專家策略的狀態和遵循仿真器策略的狀態,從而迫使DR在所有情況下都取0.5,而在等式中無法區分。通過將兩者都表示為深度神經網絡,并通過反復對每一個進行梯度更新來找到一個最優解。DR可以通過監督學習來訓練,數據集由當前的和專家的記錄組成。對于一個固定的DR,尋找一個最優的DR。因此,這是一個以 -logDR(s)為獎勵的策略優化問題。

(3)第三人稱模仿學習。

上述模仿學習中,具有第一人稱示范的局限性,因此可以從無監督的第三人稱示范中學習,通過觀察其他人實現目標來模仿人類的學習。

3.4模型與計劃

模型是一個智能體對環境的表示,包括轉移概率模型和獎勵模型。通常假設獎勵模型是已知的。無模型強化學習方法處理未知的動力學系統,但通常需要大量的樣本,這對于實際的物理系統來說可能是昂貴的或難以獲得的。基于模型的強化學習方法以數據高效的方式學習價值函數和/或策略,但存在模型辨識問題,估計的模型可能不精確,性能受到估計模型的限制。規劃通常用模型來構造價值函數或策略,因此規劃通常與基于模型的強化學習方法相關。

價值迭代網絡(Value Iteration Networks,VIN),是一個完全可微的CNN規劃模塊,可用于近似值迭代算法,以學習計劃,例如強化學習中的策略。與傳統規劃不同,車輛識別號是無模型的,其中獎勵和轉移概率是神經網絡的一部分,因此可以避免系統辨識問題。利用反向傳播技術可以對車輛識別碼進行端到端的訓練。價值迭代網絡為強化學習問題設計了新的深層神經網絡結構。

3.5探索

強化學習智能體通常使用探索來減少其對獎勵函數和轉移概率的不確定性。這種不確定性可以量化為置信區間或環境參數的后驗概率,這些參數與其行動訪問次數有關。使用基于計數的探索,強化學習智能體使用訪問計數來指導其行為,以減少不確定性。然而,基于計數的方法在大型域中并不直接有用。內在動機方法建議探索令人驚訝的東西,典型的是在學習過程中基于預測誤差的變化。內在動機方法并不像基于計數的方法那樣需要馬爾科夫屬性和表格表示。狀態空間上的密度模型pseudo count,通過引入信息增益,將基于計數的探索和內在動機統一起來,在基于計數的探索中與置信區間相關,在內在動機中與學習進度相關聯。

另一種獎勵探索技術,以避免以往獎勵的無效、無方向的探索策略,如貪婪和熵正則化算法,并促進對區域的定向探索,其中當前策略下行動序列的對數概率低估了最終的獎勵。未充分獎勵的探索策略是由最優策略的重要性抽樣而來,并結合模式尋優和均值尋優兩個條件來權衡探索與應用。

3.6知識

知識對于深度強化學習的進一步發展至關重要。知識可以通過值函數、獎勵、策略、模式、探索技術等多種方式融入強化學習。然而如何將知識融入強化學習仍然是一個很大的需要進一步研究的問題。

4.結語

深度強化學習方法推動了人工智能領域鼓舞人心的進步。目前深度強化學習的研究集中在表征學習和目標導向行為的研究上,克服了樣本效率低下的明顯問題,使深度強化學習能夠有效的工作。

參考文獻

[1]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-+.

[2]萬里鵬, 蘭旭光, 張翰博, et al. 深度強化學習理論及其應用綜述 [J]. 模式識別與人工智能, 2019, 32(01): 67-81.

[3]SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature, 2017, 550(7676): 354-+.

[4]SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.

[5]ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. Ieee Signal Processing Magazine, 2017, 34(6): 26-38.

[6]趙星宇,丁世飛. 深度強化學習研究綜述 [J]. 計算機科學, 2018, 45(07): 1-6.

[7]唐平中,朱軍,俞揚等. 動態不確定條件下的人工智能 [J]. 中國科學基金, 2018, 32(03): 266-70.

[8]孫路明,張少敏,姬濤等. 人工智能賦能的數據管理技術研究 [J]. 軟件學報, 2020, 31(03): 600-19.

[9]劉全,翟建偉,章宗長等. 深度強化學習綜述 [J]. 計算機學報, 2018, 41(01): 1-27.

基金項目:(1)廣東省教育廳2019年度普通高校特色創新類項目(2019GKTSCX152);? ? (2)廣東省教育廳2018年度重點平臺及科研項目特色創新項目(2018GWTSCX030);(3)廣東省教育廳2018年度省高等職業教育教學質量與教學改革工程教育教學改革研究與實踐項目(GDJG2019309);(4)廣州涉外經濟職業技術學院2020年校級質量工程重點項目(SWZL202001)。

作者簡介:吳英萍(1982.10-),講師,學士,廣州涉外經濟職業技術學院計算機應用與軟件技術教研室專任教師。研究方向為軟件技術,人工智能。

*通訊作者:耿江濤(1965.12-),教授,高級工程師,華南師范大學博士生,廣州涉外經濟職業技術學院教育研究院教授。研究方向為大數據應用技術,高職教育管理與國際化。

1.廣州涉外經濟職業技術學院? ? 廣東廣州? ? 510540

2.華南師范大學? ? 廣東廣州? ? ? 510631

猜你喜歡
深度學習人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
主站蜘蛛池模板: 国产成人久久综合777777麻豆| 在线观看亚洲人成网站| 久久精品女人天堂aaa| 女同久久精品国产99国| 四虎影院国产| 在线观看视频一区二区| 国产精品欧美激情| a在线亚洲男人的天堂试看| 天堂网亚洲系列亚洲系列| 久久综合亚洲色一区二区三区| 日韩东京热无码人妻| 国产精品短篇二区| 久久这里只精品国产99热8| 久草视频精品| 真实国产乱子伦高清| 欧美视频在线不卡| 性69交片免费看| 无码网站免费观看| 无码福利日韩神码福利片| 超碰91免费人妻| 久久久久夜色精品波多野结衣| 爆乳熟妇一区二区三区| 国产日本欧美亚洲精品视| 国产女人在线| 久久精品娱乐亚洲领先| 国产婬乱a一级毛片多女| 91亚洲视频下载| 亚洲综合18p| 亚洲欧美国产高清va在线播放| 精品亚洲欧美中文字幕在线看| 天堂av高清一区二区三区| 在线视频97| 91亚洲视频下载| 波多野结衣无码视频在线观看| lhav亚洲精品| 亚洲精品天堂在线观看| 亚洲码在线中文在线观看| 久久99国产乱子伦精品免| 婷婷色丁香综合激情| 国产本道久久一区二区三区| 国产精品视频999| 在线观看视频99| 青草精品视频| 71pao成人国产永久免费视频| 国产精品第页| a毛片在线免费观看| 天天色综网| 国产欧美自拍视频| 成人午夜久久| 国产杨幂丝袜av在线播放| 女人18毛片一级毛片在线| 午夜性刺激在线观看免费| 天天综合网色中文字幕| 欧美在线黄| 久久国产V一级毛多内射| 色吊丝av中文字幕| 97国产在线视频| 2021国产在线视频| 欧美一区二区福利视频| 久久99国产综合精品女同| 中文字幕无码av专区久久| 成人午夜天| 伊人色婷婷| 国产小视频免费观看| 在线播放真实国产乱子伦| 成人午夜亚洲影视在线观看| 欧美一级99在线观看国产| 成人第一页| 青青青国产视频| 福利片91| 亚洲美女一级毛片| 丁香五月婷婷激情基地| 免费高清a毛片| 久久无码免费束人妻| 久久国产免费观看| 欧美高清三区| 婷婷色一区二区三区| 四虎成人精品在永久免费| 欧类av怡春院| 亚洲V日韩V无码一区二区| 欧美精品v日韩精品v国产精品| 伊人久久久久久久|