999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強學習算法尋找最優策略分析

2017-03-27 20:44:35孫燦宇
電子技術與軟件工程 2017年4期
關鍵詞:策略

摘 要 如今人工智能發展迅速,在日常生活中越來越普及,與人工智能接觸的機會越來越多。本文介紹了增強學習中的Q學習中如何找到最優策略以達到最終狀態的過程和總結,以及通過試驗對影響Q值的幾個因素的進行了分析。

【關鍵詞】Q-learning 策略 探索 Q值 狀態

1 實驗背景

文章研究增強學習算法是如何找到最優策略以達到最終狀態的。通過使用off-Policy TD Control即Q learning實現。

2 實現和實驗

2.1 方法和影響因素

起初機器人對環境一無所知,能做的只是采取行動然后根據反饋的信息進行判斷。每次行走之前機器人會根據當前的動作產生一個次優策略。隨著機器人行走步數增多,逐漸會優化行走策略。對于增強學習(Q-learning)考慮以下影響因素:

S:一組狀態

A:機器人能夠采取的動作

T:轉換函數T

α:學習率,可擴展的范圍和方向(范圍從0到1)

γ:折扣因子(范圍從0到1)

Living reward:生存狀態時的獎勵

Epsilon:隨機采取動作或者在當前的策略上采取動作(范圍從0到1)

Noise:一個影響機器人是否能采取正確動作的因子(范圍從0到1)

注:s是當前狀態,s是由當前狀態執行操作后的狀態。

以上等式可以計算出Q值。最開始初始化Q值表中的每一個值為0。

每輪假設機器人從state 8開始采取動作到下一個狀態。當機器人選擇向上走(up)時,有(1-noise)的可能到達state 4,也有一定可能到達state 9或原地不動(除開邊界和有障礙的情況)。從開始到結束機器人決定是否探索或者采用當前策略,顯然不探索就無法確保得到了最優的策略,不采取當前策略這很有可能在無用的嘗試上浪費大量的時間。

2.2 實驗數據

2.2.1 將參數設置為

與epsilon=0相比這種情況更理想,因為這種情況保證至少每種state能夠被探索一遍。所以這種情況的Q值更為合理有更快的收斂速度。但這不是最理想的情況,因為機器人有可能采取同樣的動作會浪費大量時間去計算Q值。

3 總結

讓探索更加有效率而非重復相同的動作,采用了一個探索函數提高效率。實現這個函數需建立一個數組記錄到達每個狀態的次數,當計算值時需要用有效狀態的訪問次數。訪問的次數越少,探索的獎勵就越高。

Noise因素,若程序中沒有Noise因素(noise=0),Q值則會很快收斂,當noise的值增加,Q值則會不穩定。對于Alpha (α) 和折扣因子Gamma(γ),這兩個參數的值不宜太小。因為Alpha的值越小,Q值收斂的速度越慢。一般來說,Alpha因素的值應該在整個過程中是改變的。對于折扣因子(γ),用來判斷即刻反饋和未來反饋哪一個更重要。γ=1表示未來反饋和即刻反饋同樣重要,γ=0表示只考慮即刻反饋的因素。因此,γ因子也需要根據不同的場景進行改變。

參考文獻

[1]Richard S.Sutton & Andrew G.Barto.Reinforcement Learning:An introduction[M].Massachusetts:MIT Press,1998:12-16.

[2]Tom M.Mitchell. Machine Learning:A Guide to Current Research[M].Germany: Springer,1986:265-278.

作者簡介

孫燦宇(1995-),男,重慶市人。現為四川大學軟件學院軟件工程系本科在讀。主要研究方向為軟件工程。

作者單位

四川大學軟件學院軟件工程系 四川省成都市 610207

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 国产成人精品18| 欧美性精品不卡在线观看| 无码久看视频| 国产91在线|中文| 成年人午夜免费视频| 精品免费在线视频| 欧美一级色视频| 久久96热在精品国产高清| 国产精品无码作爱| 亚洲伦理一区二区| 波多野结衣在线se| 亚洲国产精品日韩av专区| 高潮爽到爆的喷水女主播视频 | 亚洲日韩高清在线亚洲专区| 午夜福利网址| 欧美一级在线播放| 亚洲欧美日韩另类在线一| 国产乱子伦精品视频| 久久频这里精品99香蕉久网址| 亚洲国产清纯| 久久人搡人人玩人妻精品| 找国产毛片看| 免费毛片视频| 国产精品3p视频| 亚洲美女一区| 精品自窥自偷在线看| 国产精品污视频| 男人天堂伊人网| 中文字幕久久波多野结衣 | 亚洲欧美日韩色图| 亚洲成人免费看| 国产精品视频公开费视频| 国产午夜一级淫片| 伊人婷婷色香五月综合缴缴情| 欧美成人精品在线| 国产综合欧美| 国产va视频| 自偷自拍三级全三级视频| 色综合成人| 成人午夜福利视频| 丁香亚洲综合五月天婷婷| 无码乱人伦一区二区亚洲一| 91精品综合| 99re经典视频在线| 婷婷六月在线| 久久这里只有精品国产99| 欧美特级AAAAAA视频免费观看| 亚洲国产天堂久久综合226114| 99人妻碰碰碰久久久久禁片| 国产福利免费视频| 亚洲一区二区三区在线视频| 国产精品丝袜在线| 日韩国产精品无码一区二区三区 | 欧美亚洲国产精品第一页| 91综合色区亚洲熟妇p| 88国产经典欧美一区二区三区| 视频一本大道香蕉久在线播放| 国产一级特黄aa级特黄裸毛片| 日韩高清一区 | 国产精品自在在线午夜| 国产精品美人久久久久久AV| 88av在线播放| 波多野结衣的av一区二区三区| 四虎影视8848永久精品| 国产成人啪视频一区二区三区| 国产精品成人第一区| 亚洲欧洲日产国码无码av喷潮| 日韩性网站| 亚洲av无码牛牛影视在线二区| 亚洲成在人线av品善网好看| 呦女亚洲一区精品| 国产精品林美惠子在线播放| 最新亚洲人成网站在线观看| 日本一区二区三区精品国产| 国产成人综合亚洲欧美在| 国产高清又黄又嫩的免费视频网站| 一区二区三区国产| 亚洲成aⅴ人片在线影院八| 伊人色综合久久天天| 97色伦色在线综合视频| 亚洲一区波多野结衣二区三区| 福利在线一区|