999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的基于隱喻地圖的RPA路徑規劃算法

2023-01-01 00:00:00李超群黃曉芳周祖宏廖敏
計算機應用研究 2023年4期

作者簡介:李超群(1997-),男,山西大同人,碩士研究生,主要研究方向為深度學習、增強學習、自動化;黃曉芳(1977-),女(通信作者),教授,博士研究生,主要研究方向為信息安全、深度學習(xf.swust@qq.com);周祖宏(1966-),男,四川綿陽人,主要研究方向為計算機軟件系統開發、醫院信息化建設;廖敏(1986-),女,四川遂寧人,碩士,主要研究方向為深度學習.

摘 要:智能化地制定機器人流程自動化(robotic process automation,RPA)執行路徑有利于企業節約相關人力成本以及提高RPA的推廣,提出基于改進深度雙Q網絡(double deep Q-learning algorithms,DDQN)算法進行RPA路徑規劃。首先針對存在RPA的作業環境即Web頁面,不滿足深度增強算法的探索條件的問題,借助隱喻地圖的思想,通過構建虛擬環境來滿足路徑規劃實驗要求。同時為了提高DDQN算法探索效率,提出利用樣本之間的位置信息的杰卡德系數,將其作為樣本優先度結合基于排名的優先級(rank-based prioritization)構建新的采樣方式。通過隨機采用任務樣本在虛擬環境上進行驗證,證明其符合實驗要求。進一步比較改進DDQN、深度Q網絡(deep Q network,DQN)、DDQN、PPO以及SAC-Discrete算法的實驗結果,結果顯示改進算法的迭代次數更少、收斂速度更快以及回報值更高,驗證了改進DDQN的有效性和可行性。

關鍵詞:深度增強學習;DDQN;RPA;業務流程自動化;路徑規劃;采樣策略

中圖分類號:TP18 文獻標志碼:A 文章編號:1001-3695(2023)04-008-1006-06doi: 10.19734/j.issn.1001-3695.2022.08.0433

Abstract:Intelligently formulating the RPA execution path is conducive to saving labor costs and improving the promotion of RPA for enterprises. For the first time, this paper proposed based on improving DDQN algorithm for RPA path planning. First of all, the problem that the working environment of RPA was a Web page, which didn’t meet the exploration conditions of the depth enhancement algorithm, with the help of the idea of metaphor map, it built the virtual environment to meet the requirements of the path planning experiment. At the same time, in order to improve the exploration efficiency of DDQN algorithm, this paper proposed to use the Jaccard coefficient of the location information between samples as a sample priority and combined it with rank-based prioritization to build new sampling methods. This paper randomly used task samples on the virtual environment to verify to demonstrate compliance with the experimental requirements. Further comparison of experimental results of the improved DDQN with DQN, DDQN, PPO and SAC-Discrete shows that the improved algorithm has fewer iterations, faster convergence speed, and higher return value, indicating the effectiveness and feasibility of the improving DDQN algorithm.

Key words:deep reinforcement learning; DDQN; RPA; business process automation; route plan; sampling strategy

0 引言

機器人流程自動化(RPA)能夠滿足高水平的運營效率,同時對風險管理以及任務質量和流程有著高標準的把控,引起了企業的極大興趣。一些日常任務(如工作流處理、自動電子郵件查詢處理、調度系統、在線數據采集和自動庫存補充[1])可由配備自動軟件代理和機器人的專家系統執行。RPA可以自動化重復地執行業務流程,在模擬日常手動任務和工作流程方面起著關鍵作用,比如Amazon Alexa[2]、Microsoft Cortana[3]、Google Assistant[4]以及Apple Siri[5]。RPA已經出現并吸引了實踐者對部署的關注[6],盡管RPA是一種功能強大的工具,但其應用基于規則的、結構化的、成熟的、標準化的、競爭性的和有良好文檔記錄的決策邏輯,以便于通過數字化結構化數據輸入完成任務流程[7,8]。目前行業正在尋求更智能和創新的RPA,利用認知計算和嵌入式智能處理決策過程。此類系統智能化程度的提高意味著技術邏輯能力的提高,從而為利益相關者實現高水平的過程自動化和價值創造[9]。

近些年,隨著計算機技術的發展,一些需要人類參與決策的任務可以利用人工智能相關技術完成,許多研究者結合機器學習(ML)方法,可以快速完成復雜模型中的大型數據集分析,強大的圖形處理單元也提高了處理復雜的深度學習和強化學習算法的兼容性。這些因素都有助于RPA利用人工智能執行認知決策,從而進一步擴展到不同的工程應用中。例如常關羽[10]提出語義識別與業務流程管理相結合,實現流程模型管理智能化。Martins等人[11]通過結合圖像識別技術,對業務流程中的圖片信息進行讀取與理解。Dubiel等人[12]通過結合數據挖掘技術,基于用戶個人進行個性化推薦。目前大部分學者都是針對不同類型數據的讀取與理解,提供了針對性的解決方案,即借助深度學習或者增強學習處理流程中的非結構數據和輔助決策,而對于整體的流程執行策略的制定仍缺少研究和解決方案。

本文針對RPA路徑規劃問題進行研究,提出一種RPA執行路徑規劃的解決方案,即RPA可以自主在環境中尋找到一條滿足任務要求的執行路徑。與其他研究不同的是,本文并非針對執行過程中某個單點問題提出解決方案,而是針對執行路徑制定,這也是RPA智能化的關鍵問題,在不同的作業環境中學習到適合的執行路徑。同時這種通過與環境交互,不斷探索的學習方式,正好符合增強學習的學習方式,即通過智能體與環境的交互,不斷地試錯糾正,學習到執行策略,所以將深度增強學習算法[13]用于RPA自主進行路徑規劃的研究中。深度強化學習算法已經被廣泛應用于路徑規劃中,有效克服了人工勢場法[14]、遺傳算法[15]等在復雜環境中無法處理復雜高維度信息的問題,但是其依舊存在著學習效率低、數據探索效率低下和過度估計等問題,為了打破數據相關性,提升算法穩定性,Schaul等人[16]提出基于優先級的經驗回放機制替代等概率的抽樣方法,解決了均勻采樣的問題。Schulman等人提出通過與環境的交互作用來采樣數據,使用隨機梯度代替標準策略梯度優化目標函數交替,使得機器人路徑規劃算法具有較好的數據效率和魯棒性。目前許多研究者針對樣本抽取策略進行優化,對傳統的學習方法進行改進,提升了智能體的探索效率、準確度等。但流程自動化的路徑規劃不只是針對提升探索效率來說的,還需要解決如何消除環境中無關因素的干擾,即Web頁面中無效元素,以及還需要考慮如何在環境中體現元素之間的邏輯關系。針對此類問題,目前尚未有人提出有效解決方案。本文借鑒了深度增強學習解決路徑規劃問題的經驗[17]以及元素的類地圖表達方式[18,19],首先構建可以滿足實驗需求的虛擬環境,即通過抽取頁面有效元素、元素之間的關系以組成元素的基本信息組;然后基于Gosper折線能將相鄰元素聚攏組成塊狀的特性,構建虛擬環境;為了將聚攏到一起的元素與其他元素進行劃分,通過創建LOD(level of detail)值,體現出不同層次和關聯關系;最后以元素節點作為發生元創建泰森多邊形,單個六邊形表示一個有效元素的信息節點,從而表達環境信息。本文通過分析深度雙Q網絡[20]的優點與不足之后,提出將樣本與目標的位置信息的杰卡德系數作為樣本優先度,結合基于排名的優先級采樣方法[21]構建新的采樣方法,從而優化模型探索策略提高探索效率。

1 問題描述與相關工作

1.1 問題描述

機器人流程自動化由生產機器人、管理機器人和執行機器人組成,作業場景是Web頁面。在Web環境中實現RPA執行任務的路徑規劃。如圖1所示,agent(RPA執行機器人)從隨機初始點(x0,y0)出發,隨機向未知區域進行探索,當到達一個點后提取元素的信息進行驗證是否滿足進行下一步的要求,當驗證失敗后則返回隨機初始點,并根據環境的反饋實時進行調整方向和步長,避免其碰撞并尋找到執行路徑,反之繼續沿著當前路徑繼續探索,目標就是在約束條件下以運行最少步驟數到達目的地。

1.2 深度Q網絡

深度增強學習(deep reinforcement learning,DRL)作為一種基于模型與環境交互進行學習的研究方向,目的就是通過計算機進行感知、記憶然后作出決策。圖2展示了強化學習中涉及的基本思想和要素。

傳統增強學習(reinforcement learning,RL)采用的是表格的方式記錄每個[狀態—動作]的價值(例如Q learning),agent通過讀取表中的記錄進行判斷當前狀態下如何選擇合適的動作。 但隨著環境越來越復雜,狀態越來越多,通過表格的方式無法記錄那么多[狀態—動作—價值]。隨著對RL算法的研究,2013年Mnih等人[22]將神經網絡與傳統DRL中的Q lear-ning相結合,提出了深度Q網絡模型(deep Q network, DQN)算法,以神經網絡為載體,將agent在環境中的狀態信息作為神經網絡的輸入,使用均方差更新網絡權重來定義目標函數,如式(2)所示。

2 設計方案

RPA的路徑規劃基于實際作業環境進行實驗,存在著許多因素影響實驗效率和結果,例如頁面中元素分布無序,且其中摻雜著大量無效元素,即這些元素在實際任務中不會起到關鍵作用,例如一些圖片、文本內容等。其次是在一些任務中,在與瀏覽器或者后臺服務器進行交互時,需要一些時間等待交互結果從而決定下一步操作,而時間因素與RPA路徑學習無關,而且對實驗效率有很大影響。為了消除這些無關因素的影響,提出了構建虛擬環境的解決方案。

另一部分是為了解決深度雙Q網絡的不足,包括容易陷入局部最優解,以及均勻隨機采樣的采樣策略存在獲取到有用樣本的概率低的問題。因此提出了基于DDQN算法的采樣策略的改進算法,通過計算agent當前位置與目標點位置信息的杰卡德系數,作為agent是否朝著目標位置進行探索的標量樣本優先度(priority of sample experience,PSE),以PSE作為樣本排名的依據,采用rank-based prioritization(基于排名的優先級)的方法進行采樣來彌補樣本的多樣性。

2.1 虛擬環境的設計

通過提取頁面有效元素信息,結合元素在頁面DOM樹中的位置信息,構建出元素信息可被讀取、元素之間關聯性強、易于訓練的虛擬環境。

如圖1所示,RPA在路徑探索中對于元素的探索是通過不斷在頁面上進行元素匹配,然后進行動作選擇進行操作。可以發現一個基本的登錄頁面由賬號輸入框、密碼輸入框以及確認按鈕三個元素組成,而頁面其余部分都是由樣式元素和一些非必要元素組成,存在大量無效信息,這使得深度增強模型無法準確地獲取到有用信息,嚴重局限了模型對于有效路徑的探索范圍。提出的解決方案為首先結合頁面DOM樹的結構進行關鍵元素信息的分析并進行提取,如表1所示;同時為了約束agent的行為,使其符合實際作業環境的執行邏輯,依據元素在DOM樹中的層級關系給予元素LOD屬性,通過判斷agent所經過元素的LOD之差是否存在非法跨越,即通過設定好的閾值來限制其行為,本文設定agent經過兩個相鄰的LOD值相差不大于1,即跨越LOD閾值為1。

接下來根據元素的關聯關系進行類地圖的表達。首先利用Gosper分形規則構建Gosper折線圖,如圖3所示;接下來依據Gosper引導順序,將通過LOD劃分層次的數據葉子節點排布在曲線節點上;再根據父子節點包含關系,對下層節點區域融合得到父節點區域,自下而上重復此過程,生成體現層次數據嵌套包含關系的多邊形集合(圖4)。

相同父節點的節點元素具有相同的LOD,而不同父節點的節點元素的LOD不同,對于層次樹上游節點所對應的區域,為其設定較小的LOD 等級,隨著層次的深入,展示細節信息的子節點區域對應較高的LOD等級。因此可以通過設置執行機器人單步所能跨域LOD等級差的閾值來實現約束執行機器人的行為。

最后利用曲線節點作為發生元構造泰森多邊形,同時作為元素信息保存位置,形成蜂窩狀底圖,并根據元素信息為六邊形綁定顏色,同LOD的元素顏色相同,同色系的元素之間存在父子關系,利用顏色顯式地凸顯元素之間關系,如圖5所示(見電子版)。

2.2 改進DDQN算法

本節針對DDQN算法的改進主要包括對樣本經驗的處理、樣本排序以及采樣操作,同時將新的采樣方法引入到原算法中,其網絡結構如圖6所示。

提出了對DDQN采樣策略的改進方案,沿用加權重要性采樣的思想,通過設置樣本優先度提升更有價值的樣本被采集的概率,同時消除利用樣本TD-error的重要性采樣方法的缺陷,避免訓練過程中樣本多樣性缺失和采樣率差的問題。提出基于rank-based prioritization改進采樣策略,首先針對樣本優先度的設置,本文借助在虛擬環境中agent移動方向是否具有朝目標節點位置移動的趨勢來表示當前agent所獲得樣本的優先度,即通過計算agent當前位置的LOD與目標點LOD的杰卡德系數,此時樣本優先度只與位置因素有關,不再受模型的訓練狀態的影響,就可以避免網絡模型在訓練初期或者后期導致樣本的優先度發生相對變化,從而防止樣本優先度缺失。

樣本優先度的獲取,通過agent自身或者外部反饋獲得環境的數據,獲得當前agent位置的LOD值與目標位置的LOD值,首先將長短不一的數據補零使其長度一致,接下來轉換為TF矩陣,如式(7),其次計算agent當前位置的LOD值與目標點位置的LOD值的杰卡德系數,agent的位置信息如圖4所示。

其次通過構建新的采樣方式來提升模型采樣率,本文提出基于rank-based prioritization采樣理論改進的分段隨機采樣策略,確保不同優先度的樣本盡可能被利用。其基本思路是首先將經驗池中的樣本根據優先度進行排序并劃分區間分層,對于劃分樣本優先度區間則是按照皮爾森相關系數進行分類,(08,10]極強相關,(0.6,0.8]強相關,(0.4,0.6]中等相關,(02,0.4]弱相關,(0,0.2]極弱或無相關,[-1,0]負相關。其次是在神經網絡訓練過程中,每次在不同優先度區間隨機獲取一定比例的樣本共同組成batch_size大小的樣本集,其中各個區間抽取的樣本比例是通過實驗不斷對比得出的,樣本優先度從[-1,1]中依次采樣比例為[1, 3, 2.5, 1.5, 1, 1],如圖7所示。

3 實驗結果與分析

3.1 實驗環境建模

本文方案是基于一個在線簽名系統進行實驗驗證,主要元素由平臺的九個功能頁面和若干彈窗界面構成,共有一百多個有效元素組成。根據設計方案的步驟,依次對于頁面元素的信息進行提取,抽取有效元素的關鍵信息,基于DOM樹根據元素之間的關系計算LOD值,接下來將有效元素依次綁定到Gosper折線上,獲得元素的位置信息,最后利用曲線節點作為發生元構造泰森多邊形,形成蜂窩狀底圖并通過賦予顏色,更直觀地表現出元素之間的關聯關系以及明顯的層級關系,最終顯示如圖8所示。

3.2 動作函數設計

深度增強學習中智能體的行為方式是基于虛擬環境構建的,在虛擬環境中每個節點與之相鄰的只存在6個,這樣表示智能體行動方向的向量只有6個,同時為了增加智能體對頁面元素的探索范圍,尋找到更短執行路徑,在探索方向的基礎上增加了探索長度step,即方向以及長度對應的向量元素的關系映射,如圖9所示,左邊為方向和長度step,右邊為決策向量。

結合網頁DOM樹與實際生產環境中有效元素的分布位置進行觀察,發現與當前有效元素〈x0,y0,LODi,element0〉具有相同LOD值的有效元素〈x1,y1,LODi,element1〉都可以在3個step以內,到達位移方式如圖10所示,所以設step≤3的范圍為當前元素的有效探索范圍。

然而依舊存在相鄰LOD的有效元素〈x2,y2,LODi+1,element2〉距離遠超于3個step,這導致了在實際生產環境中有效的執行路徑在虛擬環境中無法被學習到。通過梳理實驗環境中不同LOD有效元素之間的關系,從LODi內向LODi+1中進行探索過程中,不難發現執行路徑進入LODi+1的路徑是確定的,只有通過一些關鍵節點才可以在得到正獎勵的情況下進入下一個LOD中。這些關鍵點位在實際生產環境中一般充當頁面切換元素或者表單提交元素,所以只需要在當前元素的有效探索范圍內創建一個這些關鍵元素的索引,可以保證基于當前元素的有效探索范圍包含了當前元素的所有執行路徑。即增加了一種新的探索方式,通過元素名稱進行探索,探索演示如圖11所示。

3.3 獎勵函數設計

獎罰函數是深度增強學習中經驗的重要組成部分,通過計算智能體在環境中采取動作的反饋,獲得經驗的獎懲值,從而保證訓練合適的神經網絡,用標量λ表示。模型的目的是學習到RPA在有限的step內獲得最大獎懲值之和對應的路徑,其中獎罰值表示智能體在探索過程中尋找到存在的路徑,或者尋找到無效路徑的反饋。即當智能體沿著(x0,y0)方向前進m個step后無障礙物,則λ0為1.01;如果智能體沿著(x1,y1)方向前進n個step后存在障礙物,則λ1為-1;當智能體沿著(x2,y2)方向前進w個step后到達目的地,則λ2為10。數學表達為

λ=1.01-110 正獎勵負獎勵到達目的地(12)

3.4 實驗比較

3.4.1 實驗環境可行性驗證

為了驗證虛擬環境可行性,在實際生產環境中,隨機抽取執行起始點與終止點的距離為小于等于6、小于等于12各7 600個執行任務,基于虛擬環境進行驗證其可行性。主要進行分析虛擬環境是否包含實際生產環境所必需的相關元素以及執行路徑是否滿足實際生產環境的規則,驗證結果如表2所示,實際生產環境所需的任務執行流程是可以基于虛擬環境學習實現的。

3.4.2 多模型實驗結果對比

在上文中,基于Gosper生成環境相關元素的位置信息,同時結合元素的LOD構建泰森多邊形,以柵格圖為環境建模方式的網格地圖來表示環境信息。建模大小為13×13,截取有效元素集中的區域,每個柵格對應一個有效元素,顏色相同的為同一LOD,同一色系的則存在包含的關系,如圖8所示。

為驗證本文方案的有效性,分別對不同算法在相同執行任務的地圖環境下的訓練結果進行分析,再對同種算法在不同執行任務的地圖環境下的訓練結果進行分析。前者是為了衡量改進DDQN相較于其他算法更優秀的學習效果,后者是為了衡量算法在不同場景下表現的穩定性。通過在不同類型的任務場景下進行實驗驗證改進DDQN算法的適應性,從而衡量模型對于問題的適應程度。對于路徑規劃問題,路徑長度的增加對應著問題規模的上升,即處理難度也會增加。

圖12所示為學習到簽署任務發布的路徑,起始點坐標為(1.73,13.00),黑色為無效位置,目標為(0.00,8.00),其他為有效元素。在迭代了2 850次虛擬環境中學到的執行路徑,路徑長度為12,實際執行步數為10,任務主要由兩部分組成:a)平臺登錄功能,關鍵步驟為[1,2,3],對應的是賬號信息的輸入以及提交;b)發布簽署,關鍵步驟為[5,6,7,8,9,10],對應文檔信息、用戶信息的填充以及發布功能。其中步驟[3,4]為頁面跳轉,證明agent通過與環境的不斷交互,深度雙Q網絡可以在簡單環境中進行良好的路徑規劃。

圖13為初始點與目標點的距離為6時,對改進DDQN與DDQN、DQN、PPO以及SAC-discrete算法訓練回報值的對比。通過回報值可以發現,改進DDQN算法獲得回報值的速度更快,并且比較平穩,數據變化也比較穩定;DQN和DDQN采用的是均勻隨機采樣,樣本之間差異較大導致學習效果差;而PPO容易受到超參數變化影響,所以在參數更新時進行了一定程度的限制,從而導致其采樣率低下;而SAC-discrete基于最大熵確實使探索更加均勻,訓練速度也很快,避免一個動作陷入次優,但是也造成了數據變化并不穩定。

比較五種算法的平均損失值,結果如圖14所示,可以發現改進DDQN算法可以在相同episode中獲得更多有效信息。最后對比其他算法學習效果,可以發現DQN、DDQN以及PPO算法在學習過程中存在無效路徑的學習,SAC-discrete算法的探索策略隨機化存在明顯的抖動,而改進DDQN算法則沿著價值最高的路徑學習,實驗效果最好。

圖15中為初始點與目標點為12時,五種算法的回報值的變化,其中DQN實驗結果最差,回報值最低,同時數據變化抖動明顯。其次,DDQN與PPO結果相近,SAC-discrete實驗結果與改進DDQN相近,探索效率與回報值略慢于改進DDQN。

由圖可見,改進DDQN可以在2 800 episode后達到了最大回報值,其數據變化也較為平穩。綜合分析,改進DDQN在復雜環境中也能很好地完成路徑規劃任務。

綜合實驗結果可以得出,基于Gosper折線與LOD相結合,進行類地圖的表達Web頁面有效元素信息,可以有效凸顯有效元素的空間信息以及元素之間的關系,同時改進后的DDQN明顯提高了模型學習的準確度和RPA的路徑規劃能力,同時改進DDQN得到的執行路徑的執行效果比DQN、DDQN、PPO以及SAC-discrete算法更好,執行路徑更短。

為了驗證虛擬環境的可行性以及其與實際生產環境的差異,通過隨機抽取起始點與目標點的方式,獲取15 200個隨機任務并進行驗證虛擬環境是否滿足完成條件,從而驗證本文提出的虛擬環境可行性。實驗結果如表3所示。

根據任務起始點與終止點的距離進行劃分,從而將任務分為長度為(0,6)和[6,12)兩類任務,從表中可知,兩類任務都可以在虛擬環境下完成。

為了更清楚地對比改進DDQN的優化效果,本文將DQN、DDQN、改進DDQN、PPO以及SAC-discrete算法進行對比,比較五個算法在獎賞值、訓練時間以及不同類型任務的迭代次數,結果如表3所示。從表可知改進DDQN算法平均積累獎賞值更高,說明改進的DDQN算法產生的解的質量更好,能更快地解決RPA路徑規劃問題,在改進的 DDQN下可以更好地適應復雜環境,完成對RPA的訓練,更好解的出現幫助算法可以更快完成路徑規劃任務。

4 結束語

本文提出了一種基于Web作業環境的RPA路徑規劃的解決方案,即通過抽取頁面有效元素信息,以及將元素之間抽象的關聯關系通過LOD表達出來,最后利用Gosper將有效元素之間的關聯關系進行圖形化的表現,從而構建滿足深度增強學習的虛擬環境,通過實驗驗證,該方案是可以滿足實驗要求的。

其次所提出一種改進的DDQN算法,通過結合樣本之間位置信息的杰卡德系數與基于排名的優先級采樣方法構建新的采樣方法,克服模型原地擺動的問題,保證模型沿著目標選擇最優行動方向。實驗對比了DQN、DDQN、PPO和SAC-discrete算法,結果表明改進DDQN算法得到的回報值最高,分別比其他算法高1984%、1172%、846%、406%,所需訓練次數分別減少4480%、3500%、1803%、657%,平均損失值也最低,表明所提算法可以保證RPA在實際生產環境中能夠更加準確地完成任務。但是依舊存在個別問題影響模型的學習效率,首先是為了提高模型的探索范圍,在探索方向的基礎上增加了探索長度step,由于本文采取的是離散動作空間,這就導致空間維度過大,使探索到有效的路徑所需時間增加,這將是下一個主要研究方向。

參考文獻:

[1]Radke A M,Dang M T,Tan A. Using robotic process automation(RPA) to enhance item master data maintenance process[J]. LogForum,2020,16(1): 129-140.

[2]Alepis E,Patsakis C. Monkey says,monkey does: security and pri-vacy on voice assistants[J]. IEEE Access,2017,5: 17841-17851.

[3]Allen A A,Shane H C,Schlosser R W. The EchoTM as a speaker-independent speech recognition device to support children with autism: an exploratory study[J]. Advances in Neuro Developmental Disorders,2018,2(1): 69-74.

[4]Angelini L,Caon M,Carrino S,et al. Designing a desirable smart bracelet for older adults[C]// Proc of ACM Conference on Pervasive and Ubiquitous Computing Adjunct Publication. New York: ACM Press,2013: 425-434.

[5]Azaria A,Hong J. Recommender systems with personality[C]// Proc of the 10th ACM Conference on Recommender Systems. New York: ACM Press,2016: 207-210.

[6]Lhuer X. The next acronym you need to know about: RPA (robotic process automation)[EB/OL]. (2016-12-06). https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-next-acronym-you-need-to-know-about-rpa.

[7]Kedziora D,Kiviranta H M. Digital business value creation with robo-tic process automation(RPA) in northern and central Europe[J]. Management,2018,13(2):161-174.

[8]Schuck P,Delion D S,Dukelsky J,et al. Equation of motion method for strongly correlated Fermi systems and extended RPA approaches[J]. Physics Reports,2021,929: 1-84.

[9]Dizon G. Using intelligent personal assistants for second language learning: a case study of Alexa[J]. Tesol Journal,2017,8(4): 811-830.

[10]常關羽. 基于語義的流程模型構建及其智能化管理技術研究[D]. 西安:西北工業大學,2018. (Chang Guanyu. The semantic process model construction and its intelligent management technology research[D]. Xi’an: Northwestern University of Technology,2018.)

[11]Martins P,Sá F,Morgado F,et al. Using machine learning for cognitive robotic process automation(RPA)[C]// Proc of the 15th Iberian Conference on Information Systems and Technologies. 2020: 1-6.

[12]Dubiel M,Halvey M,Azzopardi L,et al. A survey investigating usage of virtual personal assistants[EB/OL]. (2018-07-12). https://arxiv.org/abs/1807.04606.

[13]Arulkumaran K,Deisenroth M P,Brundage M,et al. Deep reinforcement learning: a brief survey[J]. IEEE Signal Processing Magazine,2017,34(6): 26-38.

[14]Khatib O. Real-time obstacle avoidance system for manipulators and mobile robots[J]. The International Journal of Robotics Research,1986,5(1): 90-98.

[15]Dorgio M,Maniezzo V,Colorni A. The ant system: an autocatalytic optimizing process,TR91-016[R]. 1991.

[16]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay[C]// Proc of International Conference on Learning Representations. 2016: 1-21.

[17]董豪,楊靜,李少波,等. 基于深度強化學習的機器人運動控制研究進展[J]. 控制與決策,2022,37(2): 278-292. (Dong Hao,Yang Jing,Li Shaobo,et al. Research progress of robot motion control based on deep reinforcement learning[J]. Control and Decision,2022,37(2): 278-292.)

[18]艾廷華,周夢杰,陳亞婕. 專題地圖屬性信息的LOD表達與TreeMap可視化[J]. 測繪學報,2013,42(3): 453-460. (Ai Ting-hua,Zhou Mengjie,Chen Yajie. LOD expression of attribute information of thematic map and visualization of TreeMap[J]. Journal of Surveying and Mapping,2013,42(3): 453-460.)

[19]信睿,艾廷華,何亞坤. Gosper地圖的非空間層次數據隱喻表達與分析[J]. 測繪學報,2017,46(12): 2006-2015. (Xin Rui,Ai Tinghua,He Yakun. Non-spatial hierarchical data metaphor expression and analysis of Gosper map[J]. Journal of Surveying and Mapping,2017,46(12): 2006-2015.)

[20]Hasselt H V,Guez A,Silver D. Deep reinforcement learning with double Q-learning[C]// Proc of AAAI Conference on Artificial Intelligence. 2016: 2094-2100.

[21]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay [EB/OL]. (2016-02-25). https://arxiv.org/abs/1511.05952.

[22]Mnih V,Kavukcuoglu K,Silver D,et al. Playing Atari with deep reinforcement learning [EB/OL]. (2013-12-19). https://arxiv.org/abs/1312.5602.

主站蜘蛛池模板: 青青草久久伊人| AV网站中文| 欧美日韩成人| 亚洲天堂日韩av电影| 国产99在线| 成人在线观看一区| 婷婷色狠狠干| 麻豆国产精品一二三在线观看| 亚洲成人网在线观看| 日本一区二区三区精品国产| 天天躁日日躁狠狠躁中文字幕| 亚洲天堂网站在线| 免费a级毛片视频| 国产日本一区二区三区| 114级毛片免费观看| 亚洲综合专区| 久久99国产综合精品1| 久久精品视频一| 一个色综合久久| 米奇精品一区二区三区| 91久久精品日日躁夜夜躁欧美| 国产精品99久久久久久董美香| 久久久久人妻一区精品色奶水| 久精品色妇丰满人妻| 国产欧美亚洲精品第3页在线| 国产麻豆另类AV| 国产新AV天堂| 亚洲欧美精品在线| 国产精品hd在线播放| 国产91精选在线观看| 欧美日本二区| 2020亚洲精品无码| 亚洲三级色| 麻豆a级片| 视频二区国产精品职场同事| 97综合久久| 亚洲资源站av无码网址| 免费观看欧美性一级| 91在线精品免费免费播放| 色哟哟国产精品一区二区| 四虎永久在线视频| 亚洲无线观看| 国产精品9| 欧美中出一区二区| 久久精品人人做人人爽97| AV在线天堂进入| 日a本亚洲中文在线观看| 爱爱影院18禁免费| 国产传媒一区二区三区四区五区| 影音先锋亚洲无码| 久久精品波多野结衣| 99九九成人免费视频精品| 伊人久久婷婷五月综合97色| 国产精品亚洲а∨天堂免下载| 亚洲日韩精品欧美中文字幕| 国产成人福利在线| 国产在线98福利播放视频免费| 综合社区亚洲熟妇p| 亚洲码一区二区三区| 欧美国产在线看| 日韩精品一区二区三区中文无码| 亚洲成人一区二区三区| 免费人成黄页在线观看国产| 熟妇丰满人妻av无码区| 亚洲精品第一页不卡| 天天摸夜夜操| 欧美影院久久| 午夜无码一区二区三区| 91视频首页| 制服丝袜无码每日更新| 久草青青在线视频| 野花国产精品入口| 欧美无遮挡国产欧美另类| 99精品一区二区免费视频| 午夜性爽视频男人的天堂| 国产精品13页| 幺女国产一级毛片| 亚洲a级毛片| 亚洲视频免费播放| 狠狠v日韩v欧美v| 亚洲性一区| 2021国产精品自产拍在线观看 |