999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多目標強化學習的動態難度調節方法

2021-10-25 21:44:10薛永暉溫偉航
科技信息·學術版 2021年16期

薛永暉 溫偉航

摘要:保持游戲難度與玩家能力水平的匹配對玩家獲得最佳游戲體驗至關重要。本文提出了一種基于多目標強化學習的動態難度調節方法,該方法在算法層面對多目標強化學習的單一策略方法進行了創新,在結構設計層面分為線下訓練和在線學習2個層級。實驗結果表明,該方法能夠在勝任感、愉悅感和緊張感3個方面有效提升玩家的游戲體驗。該方法簡單直觀便于實現,為游戲開發者帶來了一種新穎有效的開發思路。

關鍵詞:動態難度調節;強化學習;游戲體驗

引言

電子游戲在當今世界的地位正變得愈發重要,玩家通過與游戲系統進行交互可以滿足自身的許多心理需求。游戲設計者也把給玩家帶來最佳的游戲體驗作為一項重要任務。達到“心流”狀態對玩家的游戲體驗至關重要[1],這需要游戲難度與玩家的能力水平相匹配。一種解決方法是在游戲中設置不同的靜態難度等級供玩家選擇,但這種方法存在降低沉浸感、玩家無法準確評估難度等問題。動態難度調節方法改善了這一問題,它能夠根據玩家當下的能力水平對游戲難度進行實時調整。

傳統的動態難度調節方法需要開發者手動設計各種行為規則,比較依賴開發者的設計經驗,而且隨著游戲復雜程度的增加,該方法會變得難以維護。人工智能方法中的監督式學習方法直接利用數據進行建模,無需開發者手動設計,但是該方法需要獲取大量用戶數據并進行數據預處理,而且模型訓練完成投入使用后無法對模型參數進行實時調整。強化學習方法通過 “觀測—行動—獎勵”這一過程對各種復雜的游戲環境進行學習,學習者在游戲環境中嘗試各種行動并獲得反饋,據此對自己的行動策略進行調整。該方法簡單直觀,無需收集大量數據,模型參數亦可以在使用時進行實時調整。本文即是利用了強化學習技術中的多目標強化學習方法提出了一種新型的動態難度調節方法。

1強化學習理論

1.1 強化學習原理

強化學習是一種機器學習方法,其靈感來源于人和動物通過與環境交互所獲得的(正面或負面)獎勵來學習做出決策的方式[2]。學習是一種傳統的強化學習算法,可用于求解馬爾可夫決策過程[3]。學習由表得名,用于存儲一系列的值。是在狀態中采取行動的預期獎勵,表示在在狀態中采取行動的價值。代理通過選擇行動并獲得獎勵來進行學習,目標是在每個狀態采取正確的行動來最大化其預期獎勵。獎勵是指未來獎勵期望值的加權總和。學習以迭代方式對值進行更新。表的初值為設計者設定的任意值,代理每次從狀態選擇動作時,都會獲得獎勵,并訪問狀態,更新其值。如下所示:

其中,α∈[0,1]是學習率,γ∈[0,1]是折扣因子。學習率確定算法對Q的新估值將在多大程度上覆蓋舊估值。折扣因子用于調整當下獎勵和未來獎勵所占的權重;γ越接近1,則未來獎勵的權重越大。Q學習會根據其對下一狀態 優劣程度的評估來維持其對當前狀態Q(s,a)的評估。事實證明,通過使用上式的學習規則,Q(s,a)值能夠收斂到預期的未來獎勵[3],進而可以基于Q值得到最佳策略。代理在狀態s下會選擇具有最高Q(s,a)值的行動a。

1.2 多目標強化學習原理及其改良

多目標強化學習是傳統強化學習的重要變體,與傳統強化學習相比,他要求學習者可以對兩個或多個目標的行動策略同時進行優化[4]。可以將多目標強化學習視為多目標優化和強化學習技術的組合,用來解決具有多個目標的順序決策問題。

圖 1展示了多目標強化學習的基本架構,其中一共有個目標,是與第個目標相對應的獎勵信號。這種基本架構展示了單個學習代理所面對的情況,它需要針對一組不同的目標來優化自身的行動策略。

多目標強化學習方法可以分為兩類:單一策略方法和多策略方法。本文使用單一策略方法,該方法較為簡潔明了,使用頻率較高,既能夠滿足動態難度調節的需求,也節省了計算資源。單一策略方法的目的是獲得一種最佳策略,該策略能夠同時滿足用戶分配或是系統定義的多個目標的偏好。解決方法是設計一個綜合目標函數,它可以適當地代表多個目標的總體偏好。算法 1展示了多目標強化學習單一策略方法的解決方案。

最終的單一策略可以根據來確定,可以通過所有目標的值得出。各種單一策略方法之間的主要區別在于定義多個目標的總體偏好的方式。通過綜合目標函數,每個目標的值都可以被合理利用于下一步行動的選擇。本文的綜合目標函數采用了加權求和的方法,為所有目標計算值的線性加權和。如下所示:

其中,Wi表示第i個目標所對應Q值的權重,設計者可以調整這些權重來改變每個目標在整體目標中的重要程度。

前文所述的多目標強化學習的單一策略方法雖然滿足了基本需求,但可以明顯看到,在每個訓練步長中,該算法會分別對每個子目標的值進行更新,過程較為繁復,在子目標較多的情況下,容易變得難以維護。實際上,由于算法的基本需求是得到單一策略,所以我們最為關注的是綜合目標函數,對每個子目標具體的值并不關注,在實現的過程中也完全無需計算出每個子目標的值,只需最終計算出綜合目標函數即可。接下來我們試著對該算法進行優化。

將值的更新規則代入公式(2)可得:

與綜合目標函數TQ(s,a)相似,我們定義綜合獎勵TR為所有子目標獎勵的線性加權和:

于是我們得到綜合目標函數的更新規則:

這樣我們就得到了經過優化的改良方法:首先根據公式計算綜合獎勵,然后通過公式直接更新綜合目標函數的值。算法 2展示了通過計算綜合獎勵直接更新綜合目標函數的改良方法。

可以看到,經過優化后的算法無需對每個子目標的值逐個進行更新,而是通過綜合獎勵,直接對綜合目標函數進行一次性的更新。這種經過改良的算法達到了與原始的多目標強化學習單一策略方法相同的效果,但在過程上更加簡潔直觀,需要的中間變量更少,節省了計算資源,而且容易實現,我們采用該算法作為動態難度調節方法的核心算法。

2 動態難度調節方法的具體實現

2.1 框架結構設計

本文提出了一種兩級強化學習動態難度學習框架,并且被實現在一款第一人稱生存射擊游戲中。游戲規則較為簡潔,玩家周圍會不斷生成AI智能體對手,玩家需要擊殺這些AI智能體對手來獲得盡可能長的生存時間。該框架的結構設計如圖 2所示。游戲內的AI智能體對手分為簡單、中等和困難3類,為了讓這3類AI智能體對手的具體行動策略產生難度區分,我們使用強化學習技術對這3類游戲AI智能體的具體行動策略(路徑策略和射擊策略)進行線下訓練。為了達到動態難度調節的目的,我們引入更高一級的難度控制器,運用強化學習技術,利用游戲內實時產生的數據對玩家的特點進行在線學習,根據玩家當下的技能水平實時調整各個難度AI智能體對手的生成概率,給玩家提供合適的挑戰,使玩家進入心流狀態并獲得最佳游戲體驗。

2.2 智能體行為策略的線下訓練

我們根據智能體AI與玩家前方視場的相對位置來對智能體AI的路徑策略進行訓練。訓練邏輯比較直觀:若敵人所處的位置在玩家正前方的視場內,玩家就會比較容易地射擊到該敵人。相反,若敵人的位置在玩家的視場之外,玩家射擊到該敵人就會變得困難。基于該邏輯,我們得出AI智能體路徑策略訓練的具體方案:3種難度AI智能體初始的路徑策略完全隨機。對于簡單難度的AI智能體,當它的位置到達了玩家視場之內,就會獲得正獎勵,當它離開了玩家的視場,則會獲得負獎勵。對應地,對于困難難度的AI智能體,當它的位置到達了玩家視場之內,就會獲得負獎勵,當他離開了玩家的視場,則會獲得正獎勵。中等難度AI智能體無論處在何種位置都不會獲得獎勵。

我們通過子彈的擴散角來模擬子彈在真實情況下的彈道偏移,擴散角的取值范圍是0°-90°。當擴散角為0°時,子彈最終射出的方向即為初始方向,此時子彈總是能擊中玩家;當擴散角逐漸增大,子彈射出的最終方向與初始方向的偏移量也逐漸增大,擊中玩家軀體的概率逐漸變小。基于以上的概念,我們得到AI智能體射擊策略訓練的具體方案:3種AI智能體的初始擴散角完全隨機。對于簡單難度的AI智能體,當它擊中玩家就會獲得負獎勵,未擊中玩家則會獲得正獎勵。同理,對于困難難度的AI智能體,當它擊中玩家會獲得正獎勵,未擊中玩家則會獲得負獎勵。對于中等難度AI智能體,無論是否擊中玩家都不會獲得任何獎勵。

2.3 通過在線學習實現動態難度調節

我們選取玩家射擊的命中率、單位時間內擊殺敵人的數量、單位時間內損失的生命值這3個游戲內參數作為動態難度調節的3個子目標。每個游戲內參數都存在一個最優的取值范圍,若參數

落在此范圍內,代表此時游戲提供的挑戰與玩家的技能水平相匹配,若游戲內參數超出此范圍(過高或過低),說明游戲在此維度上提供的挑戰過易或過難。控制器通過改變3種難度AI智能體(簡單、中等、困難)的生成比例來對當前游戲難度進行調節。于是我們得到具體的在線學習方案:當某個子目標對應的游戲內參數恰好落在最優范圍內時,難度控制器會獲得正獎勵;若游戲參數超出此范圍,難度控制器則會獲得負獎勵。根據多目標強化學習思想,各個子目標被融合成為單一的總體目標,子目標的獎勵也被融合成為一個總體的獎勵,代表系統對當前AI智能體生成策略的判斷。若總體獎勵為正,表示此時的AI智能體生成策略是合適的,應當繼續保持;若總體獎勵為負,表示此時的AI智能體生成策略已經不再與玩家技能水平相匹配,需要進行調整。系統通過學習,不斷更新當前最佳的難度調節策略,并對游戲難度進行實時調節。

3 實驗與結論

本文通過對比實驗的方法,對基于多目標強化學習的動態難度調節方法在提升玩家游戲體驗方面的有效性進行驗證。玩家分別在部署了動態難度調節系統和未部署動態難度調節系統(3種靜態難度)的情境下體驗一款自定義射擊游戲,并分別在每個游戲情境結束后填寫PENS問卷[5]和IMI問卷[6],對各個情境下的游戲體驗進行評估。通過對問卷結果的統計學分析可以得出,本文提出的基于多目標強化學習的動態難度調節方法相比靜態難度方法能夠顯著提高玩家的勝任感和愉悅感,并且把玩家的緊張感控制在較為適中的范圍。

由此我們可以判斷,本文提出的基于多目標強化學習的動態難度調節方法可以有效提升玩家的游戲體驗。該方法能夠對游戲難度進行精準調節,使之與玩家當下的能力水平迅速匹配,讓玩家快速進入心流狀態,體驗到強烈的勝任感和愉悅感,同時使玩家保持適度的壓力和緊張感,增強玩家游玩游戲的興趣與動力。此外,該方法較為簡單直觀,便于部署,為游戲開發者帶來了一種新穎有效的開發思路。

參考文獻

[1]Csikszentmihalyi M,Csikzentmihaly M.Flow:The psychology of optimal experience[M].New York:Harper & Row,1990.

[2]Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.

[3]Watkins C J C H,Dayan P.Q-learning[J].Machine learning,1992,8(3-4):279-292.

[4]Vamplew P,Dazeley R,Berry A,et al.Empirical evaluation methods for multiobjective reinforcement learning algorithms[J].Machine learning,2011,84(1-2):51-80.

[5]Ryan R M,Rigby C S,Przybylski A.The motivational pull of video games:A self-determination theory approach[J].Motivation and emotion,2006,30(4):344-360.

[6]Ryan R M.Control and information in the intrapersonal sphere:An extension of cognitive evaluation theory[J].Journal of personality and social psychology,1982,43(3):450.

作者簡介:

薛永暉(1995—),男,中國傳媒大學動畫與數字藝術學院,碩士研究生,研究方向為動態難度調節。

溫偉航(1988—),男,中國傳媒大學動畫與數字藝術學院,碩士研究生,研究方向為游戲用戶體驗。

主站蜘蛛池模板: www.91在线播放| 乱色熟女综合一区二区| 日韩毛片基地| 亚洲三级片在线看| 亚洲热线99精品视频| 成人在线亚洲| 成人a免费α片在线视频网站| 国产精品福利一区二区久久| 久久久精品无码一区二区三区| 婷婷99视频精品全部在线观看| 欧美日韩一区二区三区在线视频| 很黄的网站在线观看| 国产精品大白天新婚身材| 91视频99| 国产一区二区在线视频观看| 自拍中文字幕| 国产永久在线视频| 婷婷亚洲综合五月天在线| 黄色网址免费在线| 国产人成网线在线播放va| 久久精品中文字幕免费| 少妇被粗大的猛烈进出免费视频| 中文字幕亚洲专区第19页| 欧美日韩资源| 久草网视频在线| 精品国产香蕉伊思人在线| 99热这里只有精品免费| 久久久久国产精品免费免费不卡| 99免费在线观看视频| 国产精品主播| av天堂最新版在线| 青青青视频蜜桃一区二区| 97国产在线视频| 婷婷色中文| 一级成人a做片免费| av天堂最新版在线| 国产精品欧美在线观看| 中文字幕天无码久久精品视频免费| 久久精品人人做人人爽97| 国产第三区| 亚洲成年人片| 国产女主播一区| 国产高清国内精品福利| 丝袜国产一区| 欧美日韩亚洲国产| 国产午夜无码片在线观看网站 | 日本尹人综合香蕉在线观看| 天天综合网亚洲网站| 国产av剧情无码精品色午夜| 国产午夜人做人免费视频| 五月婷婷综合色| 91国语视频| 成人福利在线视频| 国产精品流白浆在线观看| 2021国产精品自拍| 亚洲视频三级| 色欲色欲久久综合网| 亚洲日韩第九十九页| 色国产视频| 国产无码精品在线播放| 精品久久久久久成人AV| 久草国产在线观看| 色妺妺在线视频喷水| 亚洲男女在线| 最近最新中文字幕在线第一页| 91po国产在线精品免费观看| 国产H片无码不卡在线视频| 六月婷婷综合| 性色一区| 精品三级在线| 国产成人8x视频一区二区| 91成人在线观看| 无码AV高清毛片中国一级毛片| 操操操综合网| 波多野结衣视频网站| 呦女精品网站| 亚洲午夜福利在线| 狼友av永久网站免费观看| 欲色天天综合网| 天堂网国产| 青青青视频91在线 | 国产jizz|