999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習研究進展

2019-05-24 14:11:40高振洋秦斌
電腦知識與技術 2019年4期
關鍵詞:深度學習人工智能

高振洋 秦斌

摘要:在高端人工智能領域中,感知力和決策能力都是衡量智能水平的重要指標。將深度學習的感知能力與強化學習的決策能力相結合,使得智能體能夠從高維的狀態動作空間中感知信息,通過得到的信息對模型進行訓練、做出決策,以能夠通過端對端的學習方式來實現從原始輸入到輸出的直接控制。本文介紹了深度學習和強化學習基礎知識;闡述了深度強化學習主流算法中的DQN及其變種和應用,分析了深度層次強化學習算法。最后對相關工作做了總結和展望。

關鍵詞:深度學習;強化學習;深度強化學習;層次強化學習;人工智能

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2019)04-0157-03

Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.

Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence

2016年由Google擁有的人工智能(AI)研究團隊DeepMind創新性地將具有感知能力的深度學習(Deep Learning:DL)和具有決策能力的強化學習(Reinforcement Learning:RL)相聯合,提出了深度強化學習(Deep Reinforcement Learning:DRL)算法。通過DRL算法訓練得到的圍棋智能體——AlphaGo擊敗了人類頂尖職業棋手,引起了全世界的關注,開啟了AI領域研究的新時代。

近幾年,DRL算法被廣泛應用于視頻預測、文本生成、機器人、機器翻譯、控制優化、目標定位、文本游戲、自動駕駛等多個領域中,展現了強大的適應和學習能力。因此,深入分析和研究DRL算法,對于促進人工智能領域的發展及拓展其應用具有極其重要的意義[1]。

1 深度強化學習理論基礎

1.1 深度學習

2006年,Hinton及其學生等人[2]提出了深度網絡的概念,開啟了DL研究的熱潮。DL的核心思想是對觀察數據進行分層特征表示,實現由低級特征進一步抽象到高級特征[3]。

深度學習的模型主要有:深度信念網絡(DBN)、卷積神經網絡(CNN)、循環神經網絡(RNN)等。

深度學習的發展階段包括:萌芽期:BP算法的發明(1970s-1980s)到2006年;發展期:從2006年Hinton等人提出的‘深度學習概念以及訓練方法到2012年。該階段主要以深度無監督學習為研究重點;爆發期:從2012年Hinton團隊的Alexnet模型[4]在Imagenet競賽中取得驚人的成績至今。

當今社會,深度學習廣泛應用于人工智能相關多個領域,極大促進了機器學習的發展。受到世界各國高科技公司和研究人員的重視。

1.2 強化學習

強化學習(RL)是機器學習中的重要學習工具。主要解決的是序貫決策問題,智能體(Agent)通過動作與環境進行交互時,環境會返給Agent一個當前的獎勵,Agent根據當前的獎勵評估所采取的動作。經過數次迭代學習后,Agent可以最終學到達到相應目標的最優動作(最優策略[5])。

RL問題通常由馬爾科夫決策過程(Markov Decision Process, MDP)來建模。MDP通常由元組(S,A,P,R,γ)描述,其中:

(1) S為所有環境狀態的集合,s·S。

(2) A為有限的動作集合,a∈A。

(3) P為狀態轉移概率,P(s/s,a)表示在s狀態下執行動作a時,轉移到s的概率。

猜你喜歡
深度學習人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
主站蜘蛛池模板: 国产国拍精品视频免费看| 99ri国产在线| 亚洲高清在线播放| 国产日韩久久久久无码精品| 欧美性爱精品一区二区三区| 在线视频97| 久久a毛片| 在线观看亚洲人成网站| 免费一级毛片在线播放傲雪网| 日韩大乳视频中文字幕| 婷婷色一区二区三区| 麻豆国产在线观看一区二区| 91人人妻人人做人人爽男同| 久久中文字幕av不卡一区二区| 亚洲AV无码乱码在线观看代蜜桃 | 成人午夜免费视频| 中文字幕亚洲专区第19页| 久久先锋资源| 久久午夜影院| 国产产在线精品亚洲aavv| 鲁鲁鲁爽爽爽在线视频观看| 午夜老司机永久免费看片| AV天堂资源福利在线观看| 午夜性爽视频男人的天堂| 日韩国产高清无码| 欧美日韩另类在线| 亚洲成aⅴ人在线观看| 国产精品微拍| 一级成人a毛片免费播放| 国产黄在线观看| 综合久久五月天| 亚洲精品国产精品乱码不卞| 欧洲欧美人成免费全部视频| 国产成年无码AⅤ片在线| 国产微拍一区| 亚洲国产欧美国产综合久久| 区国产精品搜索视频| 亚洲第一视频区| 国产精品久久国产精麻豆99网站| 九色综合伊人久久富二代| 国产一区免费在线观看| 操国产美女| 国产玖玖视频| 成年免费在线观看| 久久亚洲黄色视频| 日韩专区欧美| 亚洲自偷自拍另类小说| 高清不卡一区二区三区香蕉| 国产国拍精品视频免费看| a国产精品| 91精品伊人久久大香线蕉| 欧美国产在线精品17p| 日韩精品成人在线| 国产区网址| 中文字幕无码中文字幕有码在线| 亚洲黄色高清| 国产成人AV综合久久| 精品国产黑色丝袜高跟鞋| 成人午夜网址| 欧美成a人片在线观看| 久久9966精品国产免费| 欧美激情一区二区三区成人| 在线国产综合一区二区三区| 特级毛片8级毛片免费观看| 国产亚洲欧美在线视频| 亚洲一区无码在线| 中文字幕66页| 亚洲精品视频网| 国产成人一区二区| 中文无码影院| 影音先锋丝袜制服| 99re视频在线| 国产肉感大码AV无码| 日韩中文精品亚洲第三区| 亚洲精品天堂自在久久77| 国产精品久线在线观看| 欧美另类一区| 欧美久久网| 久久96热在精品国产高清| 99视频在线免费| 日本不卡视频在线| 国产精品一区在线观看你懂的|