徐 聰,李 擎,張德政,陳 鵬,崔家瑞
1) 北京科技大學自動化學院,北京 100083 2) 材料領域知識工程北京市重點實驗室,北京 100083 3) 北京科技大學計算機與通信工程學院,北京 100083
由于深度學習的興盛,強化學習和自然語言處理技術都得到了巨大的發展,突破了各自在傳統方法上的瓶頸. 如今越來越多研究將強化學習的強大決策能力應用于自然語言處理的各個任務之中,都取得了不錯的進展. 本文首先簡要介紹深度強化學習和文本生成任務,然后分別梳理三類深度強化學習方法在文本生成任務中的應用以及各自的優缺點,最后對深度強化學習技術和自然語言處理任務相結合的前景與方向進行總結.
強化學習(Reinforcement learning)通常用來解決科學、工程甚至經濟文化等眾多領域中的序列決策問題[1]. 強化學習和神經網絡的結合可以追溯到20世紀90年代,而直到近年來由于深度學習和大數據的驚人成就以及硬件計算能力的大幅提升,才使得強化學習迎來了一次復興,同時也使深度強化學習(Deep reinforcement learning, DRL)成為目前人工智能科學中最熱門的研究領域之一.
谷歌的深度思維團隊是深度強化學習的主要提出者和研究者,他們于2015年在《Nature》雜志上提出了深度Q網絡(Deep Q-network,DQN)[2],并讓其學習如何操作Atari視頻游戲,最終在49個游戲中取得了高于人類專業玩家的得分. 2016年,他們提出了蒙特卡羅樹搜索和深度強化學習相結合的算法?人工智能算法(AlphaGo),在與職業九段棋手李世石的……