999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于蟻群優(yōu)化和離策略學(xué)習(xí)的機(jī)器人路徑規(guī)劃

2019-04-29 05:51:34趙廣復(fù)方加娟
關(guān)鍵詞:規(guī)劃信息方法

趙廣復(fù),方加娟

(鄭州職業(yè)技術(shù)學(xué)院軟件工程系,河南鄭州 450121)

1 研究背景

機(jī)器人路徑規(guī)劃是機(jī)器人領(lǐng)域的一個(gè)研究重點(diǎn)和難點(diǎn),也是人工智能走向工業(yè)和生活必須要解決的一個(gè)關(guān)鍵問題。機(jī)器人的路徑規(guī)劃可以定義為:在一個(gè)具有障礙物的場景中,機(jī)器人從某初始位置出發(fā),避開障礙物,尋求一條從初始位置到目標(biāo)位置的最優(yōu)路徑。最優(yōu)路徑指的是路徑長度最短,或是花費(fèi)時(shí)間最短,或是路徑上消耗的能量最少[1]。

從移動(dòng)機(jī)器人路徑規(guī)劃的定義可以看出,移動(dòng)機(jī)器人規(guī)劃的關(guān)鍵問題可以分為三個(gè)部分:(1)路徑規(guī)劃是從初始位置到目標(biāo)位置的一條路徑;(2)規(guī)劃出的路徑必須要避開環(huán)境場所中的所有障礙物;(3)在滿足條件(1)(2)的情況下,盡可能地根據(jù)機(jī)器人規(guī)劃的具體優(yōu)化目標(biāo),來尋求其運(yùn)動(dòng)軌跡。

根據(jù)機(jī)器人是否依賴在線產(chǎn)生的數(shù)據(jù),機(jī)器人規(guī)劃方法可以分為在線和離線的方法。離線方法是指機(jī)器人一開始就擁有全部的環(huán)境信息,機(jī)器人只需要根據(jù)已知環(huán)境信息和知識(shí)來進(jìn)行規(guī)劃即可。在線方法是指機(jī)器人在初始時(shí)刻并不知道環(huán)境的所有信息,可能只知道部分的信息,因此,機(jī)器人需要同時(shí)進(jìn)行路徑規(guī)劃和獲取環(huán)境的信息。鄭延斌[2]提出了一種基于分層強(qiáng)化學(xué)習(xí)和人工勢場的多agent路徑規(guī)劃算法,以提高規(guī)劃的收斂速度和規(guī)劃效率。將規(guī)劃場景虛擬為一個(gè)人工勢場,采用先驗(yàn)知識(shí)來初始化每點(diǎn)的勢能值,并利用分層強(qiáng)化學(xué)習(xí)算法來更新策略。趙開新[3]提出了一種改進(jìn)的自適應(yīng)遺傳算法,根據(jù)進(jìn)化過程中對(duì)個(gè)體的適應(yīng)度值,來對(duì)交叉概率和變異概率進(jìn)行調(diào)節(jié),使得算法能跳出局部最優(yōu)解,求取全局近似最優(yōu)解,并通過柵格法對(duì)機(jī)器人工作空間進(jìn)行建模。祁若龍[4]采用概率論方法結(jié)合機(jī)器人的線性控制和卡爾曼濾波對(duì)機(jī)器人可行軌跡進(jìn)行規(guī)劃,并對(duì)先驗(yàn)概率進(jìn)行評(píng)估,從而獲得機(jī)器人的先驗(yàn)估計(jì)概率,采用高斯運(yùn)動(dòng)模型對(duì)可行軌跡評(píng)估,從而計(jì)算出避開障礙和到達(dá)目標(biāo)點(diǎn)的概率。陳洋[5]分別考慮了空中飛行機(jī)器人和地面移動(dòng)機(jī)器人的最大運(yùn)動(dòng)速度,在滿足最小充電時(shí)間、最大滯空時(shí)間以及各目標(biāo)位置的鄰域的約束,將目標(biāo)序列訪問任務(wù)的總時(shí)間最短作為目標(biāo)優(yōu)化模型,從而將機(jī)器人系統(tǒng)路徑規(guī)劃問題轉(zhuǎn)換為混合整數(shù)凸優(yōu)化問題進(jìn)行求解。唐建業(yè)[6]提出了一種改進(jìn)的多項(xiàng)式插值軌跡規(guī)劃方法,在滿足運(yùn)動(dòng)學(xué)約束的前提下實(shí)現(xiàn)時(shí)間和沖擊的綜合最優(yōu),采用序列二次規(guī)劃方法求得最優(yōu)運(yùn)動(dòng)時(shí)間,綜合關(guān)節(jié)空間位置序列的運(yùn)動(dòng)學(xué)參數(shù)確定最終的關(guān)節(jié)軌跡。方嘯[7]首先定義了連續(xù)型的強(qiáng)化信號(hào),采用強(qiáng)化學(xué)習(xí)信號(hào)對(duì)輸入和輸出量進(jìn)行了定義,并設(shè)計(jì)了機(jī)器人自主學(xué)習(xí)尋路和避障的控制策略,在不同的初始位置和目標(biāo)狀態(tài)下進(jìn)行仿真實(shí)驗(yàn),并通過實(shí)驗(yàn)表明了基于啟發(fā)式動(dòng)態(tài)規(guī)劃的方法使得機(jī)器人具有更好的適應(yīng)能力。游曉明[8]定義了一種新的動(dòng)態(tài)搜索誘導(dǎo)算子,并對(duì)動(dòng)態(tài)搜索模型進(jìn)行了定義,通過設(shè)計(jì)較大的閾值來增加多樣性,同時(shí)利用衰減模型調(diào)整來加快算法收斂。

由于現(xiàn)實(shí)世界的機(jī)器人規(guī)劃場景通常是動(dòng)態(tài)變化的,因此,機(jī)器人規(guī)劃通常要采用在線方法來尋求。本文通過離策略的強(qiáng)化學(xué)習(xí)算法來動(dòng)態(tài)更新路徑上各個(gè)位置點(diǎn)的信息素,然后通過蟻群算法來基于信息素尋求初始位置到目標(biāo)位置的最優(yōu)路徑。通過機(jī)器人路徑規(guī)劃的仿真實(shí)例,對(duì)所提的方法進(jìn)行驗(yàn)證,結(jié)果表明所提的方法能滿足動(dòng)態(tài)在線規(guī)劃的需求,具有很強(qiáng)的適應(yīng)能力。

2 機(jī)器人規(guī)劃模型

機(jī)器人規(guī)劃的環(huán)境場景首先需要被建模,使機(jī)器人可以對(duì)環(huán)境場景進(jìn)行更為精確的表示。本文采用柵格對(duì)機(jī)器人規(guī)劃的二維環(huán)境進(jìn)行建模。在機(jī)器人規(guī)劃環(huán)境場景中,障礙物、初始位置和目標(biāo)都是初始時(shí)刻確定的,一旦確定則在規(guī)劃的整個(gè)過程中均不會(huì)發(fā)生變化。

在對(duì)二維環(huán)境場景進(jìn)行柵格化的過程中,可以通過對(duì)x軸方向和y軸方向分別進(jìn)行等分來進(jìn)行柵格化。圖1是對(duì)一個(gè)二維的環(huán)境場景進(jìn)行柵格化的圖,其中黑色填充部分為障礙物,而其它坐標(biāo)則是對(duì)場景進(jìn)行柵格化的結(jié)果。

圖1 環(huán)境場景柵格化圖

圖2 仿真場景設(shè)置

3 基于蟻群算法的機(jī)器人路徑規(guī)劃

3.1 蟻群算法

蟻群算法是Dorigo M[9]提出的一種蟻群系統(tǒng)算法,其主要思想是通過對(duì)螞蟻行走路徑上信息素進(jìn)行實(shí)時(shí)更新,通過強(qiáng)化最優(yōu)信息反饋加快算法的收斂。目前蟻群算法已經(jīng)廣泛應(yīng)用于旅行商問題、車間調(diào)度問題、無線傳感器路由控制問題以及機(jī)器人路徑規(guī)劃問題中。

經(jīng)典的蟻群算法在通過正反饋機(jī)制尋求最優(yōu)路徑的同時(shí),也會(huì)導(dǎo)致蟻群多樣性缺失,使得全局搜索能力大為減弱。本文對(duì)蟻群算法的改進(jìn)主要分為兩個(gè)方向:(1)對(duì)蟻群信息素的更新方法進(jìn)行改進(jìn);(2)對(duì)蟻群算法中當(dāng)前位置到下一位置的轉(zhuǎn)移概率進(jìn)行改進(jìn)。

3.2 蟻群信息素的更新

蟻群信息素通過離策略的學(xué)習(xí)算法進(jìn)行實(shí)時(shí)更新,將路徑上任意一個(gè)柵格點(diǎn)的信息素作為離策略學(xué)習(xí)算法中的長期回報(bào)來求解。任意時(shí)刻、任意柵格上的信息素都會(huì)采用離策略學(xué)習(xí)算法來進(jìn)行全局更新。

在采用離策略算法對(duì)蟻群信息素進(jìn)行更新時(shí),采用離策略算法中的Q學(xué)習(xí)算法對(duì)各位置的蟻群信息素進(jìn)行更新。

立即獎(jiǎng)賞函數(shù)的設(shè)置為:達(dá)到目標(biāo)狀態(tài)后,獲得一個(gè)較大的正值為10的立即獎(jiǎng)賞;而在其它位置獲得值為1的累積獎(jiǎng)賞。

遷移函數(shù)的設(shè)置為:機(jī)器人向上移動(dòng)時(shí),x軸方向的坐標(biāo)不變,而y軸方向的坐標(biāo)加1;機(jī)器人向下移動(dòng)時(shí),x軸方向的坐標(biāo)不變,而y軸方向的坐標(biāo)減1;機(jī)器人向左移動(dòng)時(shí),x軸方向的坐標(biāo)減1,而y軸方向的坐標(biāo)不變;機(jī)器人向右移動(dòng)時(shí),x軸方向的坐標(biāo)加1,而y軸方向的坐標(biāo)不變。

算法1 基于離策略學(xué)習(xí)的信息素動(dòng)態(tài)更新算法

輸入:探索因子ε,折扣率γ,步長因子α,情節(jié)最大數(shù)ET,每個(gè)情節(jié)包含的最大時(shí)間步ETS;

初始化:狀態(tài)空間X為所有柵格化的離散二維點(diǎn),動(dòng)作空間包含的動(dòng)作有:向下(-1),向上(+1),向左(-2),向右(+2),原地(0),初始化所有狀態(tài)動(dòng)作處的Q值為0,即Q0(x,u)=0,初始化當(dāng)前狀態(tài)x=x0;

Repeat(ET)

Loop(ETS)

(2)根據(jù)ε的值,以1-ε的概率選擇最優(yōu)動(dòng)作a,以ε的概率選擇其它動(dòng)作;

(3)基于選擇的動(dòng)作和當(dāng)前的狀態(tài),根據(jù)遷移函數(shù)將當(dāng)前狀態(tài)遷移到后續(xù)狀態(tài)x′,并根據(jù)獎(jiǎng)賞函數(shù)獲得立即獎(jiǎng)賞r;

(5)更新當(dāng)前狀態(tài):x←x′;

(7)更新下一個(gè)狀態(tài)處執(zhí)行的動(dòng)作:a←a′;

(8)更新當(dāng)前時(shí)步;

End Loop

更新當(dāng)前情節(jié)

End Repeat

輸出:各狀態(tài)動(dòng)作處的Q值

3.3 改進(jìn)的轉(zhuǎn)移概率

為了增加多樣性,在轉(zhuǎn)移概率的基礎(chǔ)上加入隨機(jī)選擇機(jī)制,如同離策略學(xué)習(xí)中的ε。設(shè)定隨機(jī)參數(shù)s∈(0,1),對(duì)于每個(gè)時(shí)間步t產(chǎn)生的隨機(jī)數(shù)st∈(0,1)。當(dāng)s≤st,必須通過計(jì)算轉(zhuǎn)移概率來確定下一個(gè)可以選擇的位置;當(dāng)s≥st時(shí),則查看當(dāng)前位置旁邊所有的可達(dá)位置,除去障礙位置和已經(jīng)過的位置,隨機(jī)選擇一個(gè)可行的位置作為下一個(gè)要達(dá)到的位置:

其中,rand(allowedt)表示可行位置從非障礙位置和未經(jīng)過的位置集allowedt中選擇。

對(duì)于任意一個(gè)可行節(jié)點(diǎn)j,轉(zhuǎn)移概率可以表示為:

在式②中,τij(t)為當(dāng)前位置i到下一個(gè)可行位置j的路徑ij上的信息素,這個(gè)信息素通過算法1來實(shí)時(shí)更新,而ηj為啟發(fā)式因子,ηj為節(jié)點(diǎn)j的被訪問的次數(shù)的倒數(shù),即當(dāng)下一個(gè)節(jié)點(diǎn)的訪問次數(shù)越多,該節(jié)點(diǎn)由于已經(jīng)被充分探索,因此避免訪問該節(jié)點(diǎn),以增加多樣性。a和β分別為信息素和啟發(fā)式信息的權(quán)重因子。

3.4 基于蟻群算法的機(jī)器人路徑規(guī)劃

本文提出的基于蟻群算法的機(jī)器人規(guī)劃算法對(duì)傳統(tǒng)蟻群算法的改進(jìn)主要在于蟻群信息素更新方法和轉(zhuǎn)移概率,分別如前文3.2節(jié)和3.3節(jié)所示。

算法2 基于蟻群算法的機(jī)器人規(guī)劃算法

輸入:探索因子ε,折扣率γ,步長因子α,情節(jié)最大數(shù)ET,每個(gè)情節(jié)包含的最大時(shí)間步ETS,信息素權(quán)重因子a,啟發(fā)式信息的權(quán)重因子β,信息素的揮發(fā)因子ρ;

初始化:調(diào)用算法1求解出所有狀態(tài)動(dòng)作對(duì)處的Q值,并用于初始化信息素τij;

Repeat(T輪迭代)

(1)螞蟻從初始位置出發(fā);

(2)根據(jù)公式①,螞蟻計(jì)算出下一個(gè)可行的位置節(jié)點(diǎn)集合;

(3)根據(jù)公式②計(jì)算螞蟻轉(zhuǎn)移到下一個(gè)可行位置節(jié)點(diǎn)的概率,選擇概率最大的節(jié)點(diǎn)進(jìn)行轉(zhuǎn)移;

(4)調(diào)用算法1來計(jì)算各節(jié)點(diǎn)的Q值,并用于更新各節(jié)點(diǎn)的信息素Δτij(t+1);

(5)更新各節(jié)點(diǎn)的信息素:τij(t+1)=(1-ρ)*τij(t)+ρΔτij(t+1),其中,τij(t+1)和τij(t)分別表示t+1時(shí)刻和t時(shí)刻時(shí)路徑ij上的信息素,Δτij(t+1)為t+1時(shí)刻通過算法1得到的實(shí)時(shí)信息素;

(6)更新當(dāng)前迭代次數(shù);

End Repeat

輸出:選擇從初始位置開始到目標(biāo)位置中信息素最大的路徑

4 仿真實(shí)驗(yàn)

在Matlab仿真環(huán)境下,對(duì)本文所提方法進(jìn)行驗(yàn)證。仿真場景如圖1所示,按圖1對(duì)場景進(jìn)行柵格化后,但圖1并未標(biāo)記初始位置和目標(biāo)位置。因此,在對(duì)圖1標(biāo)記了初始位置和目標(biāo)狀態(tài)后,初始位置被標(biāo)記為“Initial State”,其坐標(biāo)位置為(1,1),目標(biāo)位置為“Goal”,其坐標(biāo)位置為(5,7)。

仿真場景如圖2所示。仿真環(huán)境參數(shù)為:探索因子ε=0.05,折扣率γ=0.9,步長因子α=0.5,情節(jié)最大數(shù)ET=100,每個(gè)情節(jié)包含的最大時(shí)間步ETS=200,信息素權(quán)重因子a=0.5,啟發(fā)式信息的權(quán)重因子β=0.5,信息素的揮發(fā)因子ρ=0.4,最大迭代次數(shù)T=500。

將由本文方法得到的規(guī)劃仿真結(jié)果收斂性與文獻(xiàn)[2]中基于強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃方法以及文獻(xiàn)[8]所示的基于蟻群算法的機(jī)器人路徑規(guī)劃方法進(jìn)行比較,得到的收斂結(jié)果如圖3所示。

圖3 簡單障礙物環(huán)境下收斂曲線

圖4 仿真得到的最優(yōu)路徑

從圖3中可以看出,本文方法在第10個(gè)情節(jié)左右就開始趨于收斂,收斂的解為11個(gè)時(shí)間步;文獻(xiàn)[2]方法直接采用強(qiáng)化學(xué)習(xí)算法來尋求最優(yōu)解,但在40個(gè)情節(jié)時(shí)才開始收斂,且收斂解為12個(gè)時(shí)間步;文獻(xiàn)[8]方法在第125個(gè)情節(jié)時(shí)收斂,收斂的時(shí)間步為11個(gè)時(shí)間步。

本文方法得到的最優(yōu)路徑,從初始位置到目標(biāo)位置的最優(yōu)路徑一共包含兩條,如圖4所示,其中實(shí)心三角形組成的路徑為其中一條最優(yōu)路徑,另一條最優(yōu)路徑從初始位置縱坐標(biāo)5處仍然由實(shí)心三角形構(gòu)成,而另一段路徑由空心三角形構(gòu)成。

5 結(jié)語

為了實(shí)現(xiàn)機(jī)器人的在線實(shí)時(shí)路徑規(guī)劃,本文提出一種基于蟻群優(yōu)化和離策略學(xué)習(xí)的機(jī)器人規(guī)劃方法。首先,提出了機(jī)器人規(guī)劃模型,并采用柵格法對(duì)環(huán)境場景進(jìn)行離散化;然后,設(shè)計(jì)了基于離策略學(xué)習(xí)算法的蟻群信息素初始化和更新方法;最后,提出了一種基于蟻群算法的機(jī)器人路徑規(guī)劃算法。對(duì)兩個(gè)算法均進(jìn)行了定義和描述。仿真實(shí)驗(yàn)證明,本文方法具有收斂速度快和收斂精度高的優(yōu)點(diǎn),具有很強(qiáng)的適應(yīng)能力。

猜你喜歡
規(guī)劃信息方法
規(guī)劃引領(lǐng)把握未來
快遞業(yè)十三五規(guī)劃發(fā)布
商周刊(2017年5期)2017-08-22 03:35:26
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
多管齊下落實(shí)規(guī)劃
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
迎接“十三五”規(guī)劃
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲欧美在线综合一区二区三区 | 亚洲日本韩在线观看| 综合社区亚洲熟妇p| 精品国产成人三级在线观看| 99在线视频网站| 久久国产精品国产自线拍| 国产一区二区人大臿蕉香蕉| 成人精品亚洲| 激情在线网| 国产精品大尺度尺度视频| 国产成人综合久久精品尤物| 欧洲精品视频在线观看| 在线不卡免费视频| 成人av专区精品无码国产| 国产精品永久在线| 亚洲成人福利网站| 久草网视频在线| 日韩AV手机在线观看蜜芽| 国产亚洲男人的天堂在线观看| 欧美不卡视频在线| 男女精品视频| 91在线精品麻豆欧美在线| 欧美日韩第二页| 国产理论一区| 日韩无码黄色| 亚洲—日韩aV在线| AV不卡无码免费一区二区三区| 孕妇高潮太爽了在线观看免费| 日本午夜在线视频| 国产永久无码观看在线| 国产大片黄在线观看| 在线观看国产小视频| 国产九九精品视频| 国内精自线i品一区202| 麻豆精品在线视频| 欧美一级在线看| 亚洲一区二区在线无码| 国产偷国产偷在线高清| 毛片大全免费观看| 精品国产网| 国产福利观看| 国产精品短篇二区| 亚洲视频四区| 国产成人超碰无码| 亚洲人成影视在线观看| 亚洲一欧洲中文字幕在线| 中文无码日韩精品| 日本人又色又爽的视频| 久久无码高潮喷水| 亚洲欧美日韩精品专区| 欧美国产日韩在线| 中文字幕亚洲电影| 一本久道热中字伊人| 91最新精品视频发布页| 亚洲视频三级| 97在线国产视频| 一级毛片在线播放免费| 国产成人精品2021欧美日韩| av一区二区无码在线| aⅴ免费在线观看| 91精品国产91欠久久久久| 欧美一区二区福利视频| 国产乱子伦无码精品小说 | 特级aaaaaaaaa毛片免费视频| 99视频国产精品| 中文字幕久久亚洲一区| 超碰aⅴ人人做人人爽欧美| 亚洲中文字幕无码爆乳| 亚洲水蜜桃久久综合网站| 一级一级一片免费| 国产成人艳妇AA视频在线| 精品久久香蕉国产线看观看gif| 欧美精品一二三区| 亚洲AV无码久久精品色欲| 麻豆精品在线视频| 精品国产网站| 国产91丝袜| 黄色成年视频| 91成人精品视频| 精品国产一区91在线| 久久激情影院| 国产亚洲欧美另类一区二区|