999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

谷歌打造開放源碼庫RLiable讓機器強化學習評估更可靠

2021-01-19 09:14:55
海外星云 2021年23期
關鍵詞:深度

強化學習作為機器學習的三大基本范式之一,被用在諸多學科,如信息理論、基于仿真的優化、多智能體系統、群體智能、統計學等。

強化學習通過從經驗中學習來解決決策任務,其重點是在探索未知領域和開發現有知識之間找到平衡,涉及智能代理應如何在環境中采取行動,以最大限度地提高累積獎勵。

強化學習已在電子游戲、平流層飛行氣球和設計硬件芯片等復雜的任務上取得了可觀的實驗結果。然而,谷歌認為現行的強化學習經驗評估標準越來越表現出一些問題,可能會給人一種機器學習在快速進步的錯覺,同時會減慢強化學習領域的發展速度。

針對這個問題,谷歌在NeurIPS 2021上的一份口頭報告《基于統計邊緣的深度化學習》中,深入探討了如何在只使用少量訓練的情況下,考慮結果的統計不確定性,并使深度強化學習的評估更可靠。

谷歌提出了一個更嚴格的強化學習評估方法,并發布了多種統計工具,包括分層引導置信區間、性能概況、四分位數均值和最優性差距, 同時還發布了一個開放源碼庫RLiable。

強化學習中的經驗研究依賴于評估一系列不同任務的表現,例如,使用Atari 100k游戲來評估進展。大多數深度強化學習算法是以比較海量任務上的相對性能進行評估的,它們得出的結果比較了總體表現的點估計值,如任務的平均值和中位數。

但不同訓練運行的得分具有隨機性,因此只報告點估計值并不能表明新的獨立運行也會得到相似的結果。少量的訓練運行,再加上深度強化學習算法性能的高可變性,往往導致此類點估計的統計不確定性很大。

隨著基準測試逐漸復雜,任務的解決需要更多的計算和數據,對多次運行的評估將變得越來越困難。

因此,要想減小在計算要求高的基準上的統計不確定性,評估更多的運行不是一個可行的解決方案。

雖然以前將統計顯著性測試作為一種解決辦法, 但這種測試本質上是“ 二分法”的, 也就是要么“ 顯著” , 要么“ 不顯著”,而簡單地認為不顯著的結果表明“沒有關聯”是毫無根據的,它們通常缺乏產生有意義的見解所需的“粒度”。

下面簡單介紹下谷歌對強化學習進行更可靠評估所使用的工具。

任何基于有限次數運行的綜合指標都是一個隨機變量。考慮到這一點,谷歌建議使用報告分層的引導置信區間。這能夠預測在不同運行中重復同一個實驗時可能出現的聚合度量值。

在統計中,CIs是未知參數的一系列估計值,它可使我們理解結果的統計不確定性和再現性。

例如,在Atari 100k上對3個運行進行評估,每個運行包含26個任務,產生了78個用于不確定性評估的樣本分數。在每個任務中,彩色球表示不同運行時的得分。

大多數深度強化學習算法在某些任務和訓練運行中表現得更好,但是總體性能度量標準可能會掩蓋這種變化,可參見下圖。

谷歌對此推薦使用性能配置文件,其通常用于比較優化軟件的解決時間。使用這些配置文件可以一目了然地對分數進行定性比較,當一個算法的曲線高于另一個算法時,就意味著這個算法要更好。

盡管性能配置文件對定性比較有用,但在算法方面卻稍遜一籌,以致它們的圖像經常相交。因此,為了更好地進行定量比較,需要總體性能指標。

然而, 現有的度量標準存在一些局限性,比如,單個高績效任務可能支配任務平均得分;近一半任務的中位數不受零得分的影響,并且在較小的統計不確定性下需要大量的訓練運行。

為了解決上述問題,谷歌想了兩個基于穩健統計學的替代方案,四分位數均值和最優性差距,兩者表示的區域如下圖所示。

作為中位數和平均數的替代,四分位數均值對應于所有任務中50%的運行總和的平均得分。它對異常值比平均值更有效,是比中位數更好的總體性能指標,并且導致較小的CIs,也需要較少的運行來改進。平均數的另一種替代方法最優性差距,測量的是算法達到最優性能的距離。

為了直接比較兩種算法,還需要考慮一個改進的平均概率指標,這個指標描述了改進超過基線的可能性,其計算使用的是曼—惠特尼U統計。

運用上述評估工具,谷歌在對現有廣泛用于強化學習的算法進行重新審查,還發現這些評估算法中有一些自相矛盾的地方。例如, 在廣泛認可的強化學習基準Arcad eLearning Environment(ALE)中,算法的性能排名隨聚合度量的選擇而變化。而在連續控制基準DM Control中,大多數算法的平均標準化分數在95%的CIs中存在大量重疊。

最后,谷歌希望研究人員能夠通過開源庫RLiable整合這些評估工具,以避免不可靠結果對強化學習的影響。

猜你喜歡
深度
深度理解不等關系
四增四減 深度推進
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
深度觀察
芻議深度報道的深度與“文”度
新聞傳播(2016年10期)2016-09-26 12:14:59
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
微小提議 深度思考
主站蜘蛛池模板: 国产成人一区二区| a毛片基地免费大全| 91亚洲免费| 婷婷综合缴情亚洲五月伊| 麻豆精品视频在线原创| 人妻少妇久久久久久97人妻| 日韩专区欧美| 色噜噜久久| 国产农村精品一级毛片视频| 99精品伊人久久久大香线蕉| 欧美人与牲动交a欧美精品| 国产欧美精品一区aⅴ影院| 国产人妖视频一区在线观看| 国产日韩欧美一区二区三区在线| 青青青视频蜜桃一区二区| 日韩精品成人在线| 婷婷色中文| 少妇高潮惨叫久久久久久| 欧美日韩成人| 欧美色综合网站| 一级毛片无毒不卡直接观看 | 免费99精品国产自在现线| 在线免费a视频| 91探花在线观看国产最新| 亚洲天堂啪啪| 亚洲伊人久久精品影院| 18禁高潮出水呻吟娇喘蜜芽| 日韩成人高清无码| 国产精品亚洲а∨天堂免下载| 福利在线不卡一区| 精品伊人久久久久7777人| 日韩精品毛片人妻AV不卡| 91福利免费| 激情在线网| 亚洲综合色吧| 手机精品视频在线观看免费| 国产亚洲现在一区二区中文| 亚洲欧美不卡中文字幕| 9丨情侣偷在线精品国产| 国产91视频免费| 亚洲狼网站狼狼鲁亚洲下载| 免费国产高清视频| 免费a在线观看播放| 制服丝袜无码每日更新| 91福利一区二区三区| 国产精品尤物铁牛tv | 国产黄网站在线观看| 久久这里只有精品免费| 香蕉视频在线观看www| 欧美一区精品| 国产91视频免费观看| 成人字幕网视频在线观看| 亚洲欧美日韩天堂| 国产一级精品毛片基地| 日韩第九页| 国产在线精品香蕉麻豆| 激情无码视频在线看| 国产福利免费视频| 国产精品性| jizz国产在线| 伊人久久婷婷五月综合97色| a亚洲视频| 午夜日韩久久影院| 国产大全韩国亚洲一区二区三区| 中国丰满人妻无码束缚啪啪| 色综合狠狠操| 精品国产一区91在线| 无码一区18禁| 日韩福利在线观看| 人人澡人人爽欧美一区| 国产一区二区在线视频观看| 亚洲天堂精品在线观看| 国产亚洲精久久久久久久91| 怡红院美国分院一区二区| 日本一区二区不卡视频| 国产人成乱码视频免费观看| 亚洲av无码专区久久蜜芽| 国产真实乱人视频| 一级看片免费视频| 色欲色欲久久综合网| 精品91视频| 日韩a级毛片|