999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習算法的財務機器人任務分配的研究

2022-02-27 03:05:40張文娟廖帥元
中國管理信息化 2022年1期
關鍵詞:深度動作用戶

劉 星,張文娟,廖帥元

(1.國網湖南省電力有限公司 信息通信分公司,長沙 410007;2.長沙凱鈿軟件有限公司,長沙 410000)

0 引言

任務分配的主要研究方法可分為兩種:固定分配方法和綜合評估方法。固定分配方法:按要求設置好每個任務的執行用戶。該方法存在一定缺陷,即不能隨著系統和實際任務的變化而靈活設置任務的執行用戶。綜合評估方法:通過考慮各方面因素,綜合評估每個時刻可能發生的不同情況和影響因子(如負載、工作能力水平等),以此進行任務分配。財務機器人采用綜合評估的思想,以工作任務進度自動計算規則作為深度策略梯度方法的重要依據,得到最大的總獎賞。

近年來,深度學習、強化學習是機器學習領域的一個研究熱點,應用廣泛。深度學習側重對事物的感知,強化學習更側重解決問題,因此采用深度學習算法以及自定義策略梯度優化任務執行路徑,為任務分配提供新的思路,從而找到全局最優解。

1 任務分配數學模型

1.1 問題描述

目前輸配電成本監審日常工作仍舊采用人工方式進行工作安排、電話溝通、紙質傳遞和報送等工作,缺少對整體工作計劃的有效管理手段,工作范圍上存在遺漏缺少情況,工作進度上無法及時準確地把控和監管,工作過程中信息傳遞和溝通不暢通,部門工作配合方面步伐不一致,工作的組織和開展零散、效率不高,工作成果的質量低,亟待建設相應的信息化項目來滿足實際成本監審和監管的工作需要,做到工作事前有計劃、事中有監管(進度和質量)、事后有評價,提升精益管理水平。

在財務機器人工作分配中通常包括人工分配任務以及自動分配任務。在任務分配過程中,由于系統缺少對用戶工作經驗、用戶任務完成度的評估,而引起任務分配不均衡。這種情況通常會降低工作效率。因此任務均衡分配極其重要。

1.2 任務分配的主要因素

在財務機器人中,任務和用戶及其任務完成情況是任務分配的核心影響因素。由于每個任務和用戶都存在不同的屬性值,因此在財務機器人工作任務分配問題中,依據主要的工作任務進度自動計算規則判定該用戶是否是最合理的任務執行者。

工作任務進度自動計算規則是由開發者根據以往的工作經驗,合理得到的一組判定任務完成進度的算法。進度自動計算結果=A*B*C,其中B 和C 支持自定義。其中A 表示任務提交次數,如表1;B 表示任務收集狀態,如表2;C 表示任務審核狀態,如表3。

表1 提交次數

表2 收集狀態

表3 審核狀態

為了提高財務機器人的工作效率,達到最高點,需構造工作任務進度自動計算規則,讓任務分配均衡達到最好,因此構造任務分配總體達到最優目標函數是必要的。

2 算法分析

深度強化學習(Deep Reinforcement Learning,DRL)是人工智能領域新的研究熱點,DRL 是由具有感知能力的深度學習(Deep Learning,DL)和具有決策能力的強化學習(Reinforcement Learning,RL)相結合產生的。DL 的基本思想是通過多層的網絡結構和非線性變換,組合底層特征,形成抽象的、易于區分的高層表示,已發現數據的分布式特征表示。RL 的基本思想是通過最大化智能體(Agent)從環境中獲得的累計獎賞值,以學習到完成目標的最優策略。其中DQN 作為經典算法之一,它用一個深度網絡代表價值函數,依據強化學習中的Q-Learning,為深度網絡提供目標值,對網絡不斷更新直至收斂。由于DQN 是基于Q-Learning,如果輸出DQN 的Q 值,可能會發現,Q 值非常大,這時QLearning 預測目標值的時候可能出現overestimate,對于這一類問題,我們可采用DDQN 解決。

本文采用DQN 算法、DDQN 和輪詢調度三種算法,其中DQN 和DDQN 融合了強化學習的Q-Learning和深度神經網絡,本文將探索哪一種算法能更快地求取合理的任務分配。

2.1 DQN 算法

DQN 包含狀態(state)、行動(action)和獎勵(reward)三個要素。reward 值靜態描述了各個狀態之間轉移的立即獎勵值,行動則決定狀態之間的轉移規則。QLearning 迭代時采用立即獎勵值、Q 值函數和折扣率共同組成評價函數,Q 值表中保存各狀態行動對(s,a)的估計值。Q-Learning 算法在給定策略h(x)下,在狀態S采取行動A的評價函數為:

式中:α∈(0,1)為學習步長;γ∈(0,1]為折扣率,決定agent 以多大權重考慮未來獎勵;t 為時間步;R為在采取當前(S,A)的立即獎勵;max 函數表示算法會根據下一個(S,A)中預測值的最大值來評價(S,A);式中R+γ max Q(S,a)-Q(S,A)定義為時間差分誤差(TD error),算法通過TD error 對估計值遞增更新直到收斂,行動選擇常采用ε-greedy 策略。將agent從開始狀態轉移到目標狀態整個過程稱為一次情景(epsiode),在episode 中每次狀態轉移的時刻稱為一個時間步(time step)。

Deep Q-Learning 算法流程如下:

(1)首先初始化“樣本集”(Memory D),簡稱D,它的容量為N,初始化Q 網絡,隨機生成權重ω,初始化target Q 網絡,權重為ω-=ω,循環遍歷episode=1,2,…,M:初始化initial state S1;

(2)循環遍歷step=1,2,…,T:用∈-greedy 策略生成action at(以∈概率選擇一個隨機的action,或選擇at=maxaQ(S,a;ω));

(3)執行action at,接收reward rt 及新的state S+1;

(4)將transition 樣本(S,a,r,S)存入D 中;

(5)從D 中隨機抽取一個minibatch 的transitions(S,a,r,S);

(6)如果j+1 步是terminal 的話,令y=r;否則,令y=r+γ maxa′Q(S,a′;ω-);

(7)對(y-Q(S,a;ω))2 關于ω 使用梯度下降法進行更新;

(8)每隔C steps 更新target Q 網絡,ω-=ω。

(9)輸出原始問題的最優策略h*(x)為在各狀態下貪婪地選擇Q 值最大的行動。

2.2 DDQN 算法

DDQN 網絡結構和DQN 一樣,也有一樣的兩個Q網絡結構。在DQN 的基礎上,通過解耦目標Q 值動作的選擇和目標Q 值的計算這兩步,來消除過度估計的問題。在DDQN 這里,不是直接在目標Q 網絡里面找各個動作中最大Q 值,而是先在當前Q 網絡中先找出最大Q 值對應的動作,即

然后利用這個選擇出來的動作amax(S,w)在目標網絡里面去計算目標Q 值。即:

綜合起來寫就是:

DDQN 算法流程如下:

(1)隨機初始化所有的狀態和動作對應的價值Q,且隨機初始化當前Q 網絡的所有參數w,初始化目標Q 網絡Q′的參數w′=w。清空經驗回放集合D。

(2)進行迭代。

1)初始化S 為當前狀態序列的第一個狀態,拿到其特征向量φ(S);

2)在Q 網絡中使用φ(S)作為輸入,得到Q 網絡的所有動作對應的Q 值輸出。用∈-貪婪法在當前Q 值輸出中選擇對應的動作A;

4)將{φ(S),A,R,φ(S′),is_end}這個五元組存入經驗回放集合D;

5)S=S′;

6)從經驗回放集合D 中采樣m 個樣本{?(S),A,R,φ(S′),is_endj},j=1,2,…,m,計算當前目標Q 值y:

7)使用均方差損失函數1/m∑j=1/m(y-Q(φ(S),A,w))2,通過神經網絡的梯度反向傳播來更新Q 網絡的所有參數w;

8)如果T%C=1,則更新目標Q 網絡參數w′=w;

9)如果S′是終止狀態,當前輪迭代完畢,否則轉到步驟2)。

2.3 輪詢調度算法

輪詢調度算法是簡潔的,無須記錄所有用戶任務分配情況,只需要把任務依次按順序輪流分配給用戶,當用戶都分配了任務后,還需要繼續分配,則重新開始循環。

3 任務分配流程

(1)學習環境設計:通過和環境進行交互,利用不確定的環境獎賞來發現最優行為序列。本文提出的學習環境主要根據調度方案包含工作任務進度完成度建模,獲取當前調度方案下完成任務所需的時間,從而對當前調度方案針對調度目標的優劣進行評估。

(2)動作集:動作集是為Q 學習算法的可以選擇執行動作的集合。本文通過工作任務自動計算規則,充當Q 學習算法的動作集合。

(3)狀態變量確定和狀態空間劃分:該因素是Q 學習算法合理選擇動作的基礎,為了使得算法更好地選擇工作任務自動計算規則,實現優化調度目標,必須完成算法狀態空間的離散化和定量化。

(4)懲罰函數:懲罰函數的設計目的在于對算法每次動作執行后的優化效果進行獎懲。對于優化的動作,進行獎勵,使得該動作具有較大的選取概率;對于不優的動作,進行懲罰,減小該動作的選取概率。

(5)算法流程:根據上述Q 學習算法相關定義,最后確定算法的流程。

算法實現步驟如圖1 所示。

圖1 優化算法實現步驟

4 仿真校驗

為了驗證上述方法的均衡性以及工作效率,選擇本文提出的DQN 算法、DDQN 算法和輪詢調度方法進行實驗對比分析。

4.1 用戶所獲得各類任務比例

三種方法的用戶所獲得的類別任務比例分別如圖2、圖3、圖4 所示。從圖2 可以看出,對于不同的任務,4個實驗用戶分配到的任務數量基本一致,并沒有按照用戶完成任務的效率合理分配任務;從圖3 可以看出,根據不同的任務類型,4 個實驗用戶分配到的任務數量完全不一樣,可以推斷出DQN 算法可以給用戶合理地分配任務;從圖4 可以看出,DDQN 與DQN 任務分配占比相似,可推斷DDQN 算法可用于任務分配問題。用戶對于該任務完成度越高,被分配的任務量也就越多,并且隨著其他一些任務或用戶屬性的影響,任務量與工作進度之間的關系還可以產生動態變化,說明深度強化學習算法可以有效的按照工作進度合理分配任務。

圖2 輪詢調度法

圖3 DQN 算法

圖4 DDQN 算法

4.2 深度強化學習訓練結果分析

因為DQN 和DDQN 算法區別在于Q-target 的計算,所以兩者神經網絡結構一樣,結構圖如圖5 所示。其中target_net 與eval_net 采用相同的網絡架構和不同的參數。

圖5 神經網絡結構圖

采用DQN 算法得到的損失結果展示如圖6 所示。采用DDQN 算法得到的損失結果展示如圖7 所示。由圖可知隨著訓練步長的增加,損失值在不斷減小,表明該函數更加趨近于最優解。

圖6 DQN 函數損失圖

圖7 DDQN 函數損失圖

5 結論

本文通過系統地分析任務分配問題的特點,提出了財務機器人任務分配問題的數學描述,采用深度強化學習算法(DQN、DDQN)解決任務均衡分配問題。這兩種方法收斂速度快,可以有效地處理連續動作集的問題,彌補了后者初期解決速度慢的缺點。實驗結果表明,該方法適用于財務機器人,在性能上優于傳統的任務分配方法(輪詢調度法)。

猜你喜歡
深度動作用戶
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
動作描寫要具體
畫動作
動作描寫不可少
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: a色毛片免费视频| 国产福利拍拍拍| 欧美不卡视频一区发布| 国产成人欧美| 国产人免费人成免费视频| 99在线观看视频免费| 日韩无码黄色网站| 欧美区一区| 免费Aⅴ片在线观看蜜芽Tⅴ | 8090成人午夜精品| 日韩精品无码免费专网站| 色成人亚洲| 久久狠狠色噜噜狠狠狠狠97视色 | av无码久久精品| 成人韩免费网站| 91精品国产一区| 欧美精品不卡| 91亚洲精品第一| 国产在线视频二区| 国产精品va| h网址在线观看| 精品1区2区3区| 久久精品国产亚洲麻豆| 男女精品视频| 午夜老司机永久免费看片| 国内精品久久久久久久久久影视 | 欧美日韩福利| 亚洲欧洲国产成人综合不卡| 中日韩一区二区三区中文免费视频| 美女视频黄频a免费高清不卡| 亚洲无码在线午夜电影| 奇米精品一区二区三区在线观看| 在线另类稀缺国产呦| 国产美女无遮挡免费视频| 国产激情影院| 永久天堂网Av| 亚洲欧美日韩动漫| 久久青草免费91线频观看不卡| 综合网天天| 成AV人片一区二区三区久久| 97国产成人无码精品久久久| 欧美三级视频网站| 国产成人高清精品免费| 亚洲精品色AV无码看| 久久国产亚洲偷自| 无遮挡一级毛片呦女视频| 日韩精品一区二区三区中文无码| 亚洲国产亚洲综合在线尤物| 日韩高清一区 | 无码电影在线观看| 国产亚洲精品自在久久不卡| 欧美日韩精品在线播放| 国产成人综合久久精品下载| 久久久噜噜噜| 亚洲国产精品无码AV| 亚洲制服丝袜第一页| 欧美激情视频一区二区三区免费| 亚洲精品卡2卡3卡4卡5卡区| 国产综合日韩另类一区二区| 国产特级毛片| 国产午夜在线观看视频| 999精品免费视频| 亚洲国产天堂久久综合| 欧美黄色网站在线看| 成年人午夜免费视频| 国产精品一区在线观看你懂的| 2022国产91精品久久久久久| 国产成人凹凸视频在线| 成人无码一区二区三区视频在线观看 | 亚洲第七页| 色综合天天娱乐综合网| 嫩草在线视频| 欧美全免费aaaaaa特黄在线| 秋霞一区二区三区| 国产爽妇精品| www.亚洲一区二区三区| 四虎影视国产精品| 国产精选自拍| 亚洲va视频| 丰满人妻一区二区三区视频| 97成人在线观看| 日韩欧美在线观看|