999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成對抗思想在強化學習技術中的研究與應用

2020-05-08 08:43:25王嘉偉
大經貿 2020年2期
關鍵詞:深度學習

王嘉偉

【摘 要】 近年來,生成對抗網絡技術和強化學習技術取得了很大的進步,前者主要研究了生成對抗網絡應用于分布建模的基本原理,而后者研究了智能體如何在與環境交互過程中學習最優策略的基本問題。實際上,這兩個技術在思想層面上存在著交叉與耦合,本文將深入探討生成對抗思想在強化學習技術中的研究與應用,并在數學形式上揭示其異同。

【關鍵詞】 生成對抗網絡 強化學習 深度學習

引 言

2014年,Ian Goodfellow首次提出了一種名為生成對抗網絡(Generative Adversarial Networks,GAN)的架構[1],GAN是一類能夠學習數據分布,并實現在該數據分布中采樣的模型。其架構主要由判別器D和生成器G組成,D能夠估計數據分布與生成分布之間的散度或距離,G則負責最小化該散度或距離,以生成以假亂真的樣本。而后,GAN便取得了極大的發展。2016年,阿爾法圍棋(Alpha Go)橫空出世,成為第一個戰勝世界圍棋冠軍的強化學習算法[2]。這種算法使用了一種名為Actor-Critic的架構,其結合了Value-based模型和Policy-based模型的優點,使得強化學習模型能夠在自我博弈和互相對抗中學習和進步。這種算法在本質上與生成對抗思想具有異曲同工的地方,下文將從優化函數的角度對其進行闡述和說明。

算法思想分析

生成對抗網絡 GAN的目標是,給定一個來自真實分布的數據集,我們想用一個模型學習一個生成分布,從而去逼近真實分布。首先,GAN由一個判別網絡(Discriminator, D)和一個生成網絡(Generator, G)組成,D用來估計生成分布與真實分布的散度,G則通過優化其網絡參數來最小化該散度。以標準GAN的原理為例,其損失函數的形式如下:

其中,為噪聲,其滿足均值為0,方差為1的高斯分布。從公式中可以看出,D和G分別是用min-max訓練方式迭代學習的,D的目標是要最小化網絡生成結果的判別誤差,而G網絡的目標是要最大化其判別概率。

強化學習 在強化學習技術中,有兩種主要的基本模型,一種是Value-based的模型,另外一種是Policy-based的模型。前者通過學習值函數來評估策略,并通過比較不同策略的估計值來選擇當前時刻的動作。而后者不學習值函數,其通過梯度估計的方法直接優化策略網絡以最大化收益。Actor-Critic算法結合了兩者的優點,其中Actor為一個策略網絡,其輸入為狀態、動作,輸出為相應概率值;而Critic的作用是估計給定狀態和動作的值函數,用于策略評估和策略改進。標準的Actor-Critic算法的更新算法如下:

其中,為智能體的行動軌跡。對于Q網絡而言,其目標是要最小化行動所造成的值函數估計誤差,而對于網絡而言,其目標是要最大化其行動策略的值函數。這和GAN一樣,剛好構成了min-max對抗訓練過程。

生成對抗思想與Actor-Critic技術的對比 GAN與Actor-Critic網絡的損失函數從數學形式看非常相似,這兩種算法都有一個共同點,就是任務本身難以實現有監督學習。比如對于GAN而言,我們無法獲取生成圖像的標簽進行有監督訓練;對于Actor-Critic而言,策略網絡生成的動作我們也沒法直接判斷其正確與否;為此,這兩種技術都采用了生成對抗思想,即用一個值網絡對目標進行估計,再用最大化其值估計的方式去訓練另一個子網絡,從而剛好對應min-max訓練過程。

結 論

生成對抗思想是人工智能技術中一種巧妙的理論構思,其脫胎于生成對抗網絡技術領域,卻有利于強化學習技術的進步。從本質上來說,這是一種自動化構建損失函數的方法,使得機器學習算法能夠在自我博弈中學習。本文從數學形式進行討論,研究了生成對抗思想在強化學習技術中的應用,但這其實只是生成對抗思想的應用之一。本人希望在未來工作中,能看到更多生成對抗思想的借鑒與使用,進而促進人工智能領域的蓬勃發展。

【參考文獻】

[1] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.

[2] Silver, D., Huang, A., Maddison, C. et al. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature 529, 484–489 (2016). https://doi.org/10.1038/nature16961

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 99视频精品在线观看| 国产亚洲视频免费播放| 欧美乱妇高清无乱码免费| 日韩国产欧美精品在线| 亚洲无线视频| 色悠久久综合| 青青热久麻豆精品视频在线观看| 欧美日韩午夜视频在线观看| 99久久精品久久久久久婷婷| 亚洲精品高清视频| 日韩一级二级三级| 97国产一区二区精品久久呦| 无码aⅴ精品一区二区三区| 国产H片无码不卡在线视频| 国产欧美又粗又猛又爽老| 人妻21p大胆| 伊伊人成亚洲综合人网7777| 色哟哟国产精品一区二区| 亚洲欧美国产高清va在线播放| 1769国产精品免费视频| 亚洲第七页| 四虎永久免费网站| 亚洲AV无码久久精品色欲| 人人爽人人爽人人片| 亚洲无码四虎黄色网站| 日本免费a视频| 高清精品美女在线播放| 538精品在线观看| 午夜激情福利视频| 午夜福利无码一区二区| 日本人妻丰满熟妇区| 亚洲国产精品无码AV| 国产乱人伦AV在线A| 永久免费AⅤ无码网站在线观看| 亚洲AⅤ波多系列中文字幕| 99热亚洲精品6码| 精品福利网| 中日韩一区二区三区中文免费视频| 在线亚洲精品自拍| 国产1区2区在线观看| 爱色欧美亚洲综合图区| 精品久久久久久中文字幕女| 精品国产成人三级在线观看| 91午夜福利在线观看| 日韩视频精品在线| 亚洲精品中文字幕无乱码| 国产亚洲一区二区三区在线| 久久精品丝袜| 亚洲一区波多野结衣二区三区| 呦系列视频一区二区三区| 97se亚洲综合不卡 | 999精品在线视频| 成人午夜免费观看| 国产亚洲精品97AA片在线播放| 久久黄色一级视频| 色婷婷色丁香| 欧美国产视频| 毛片视频网| 国产精品三级专区| 亚洲丝袜第一页| 久久精品最新免费国产成人| 91po国产在线精品免费观看| 国产成人做受免费视频| 欧洲高清无码在线| 亚洲综合日韩精品| 免费观看男人免费桶女人视频| 国产成人高清在线精品| 视频一区视频二区中文精品| 热九九精品| Aⅴ无码专区在线观看| 国产福利免费观看| 又大又硬又爽免费视频| 无码国产伊人| 国产日韩AV高潮在线| a毛片在线| 另类欧美日韩| 91小视频在线播放| 国产免费久久精品99re丫丫一| 伊人久久福利中文字幕| 亚洲精品第一页不卡| av无码一区二区三区在线| 国内精品一区二区在线观看|