999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能的強(qiáng)化學(xué)習(xí)理論及其應(yīng)用

2021-02-26 21:21:04鐘偉嵐
中國(guó)新通信 2021年21期

鐘偉嵐

【摘要】? ? 近年來(lái),人工智能研究領(lǐng)域中強(qiáng)化學(xué)習(xí)大受歡迎,它與監(jiān)督學(xué)習(xí)有異曲同工之妙,也有許多的不同點(diǎn)可以區(qū)分。首先,監(jiān)督學(xué)習(xí)需要在他人的督促下進(jìn)行,而強(qiáng)化學(xué)習(xí)更多的依賴自身的管理。強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)能夠不是先設(shè)置目標(biāo),從周圍數(shù)據(jù)中獲得有關(guān)動(dòng)作的反饋信息,然后再利用這些信息來(lái)優(yōu)化模型數(shù)據(jù)。顯而易見(jiàn),強(qiáng)化學(xué)習(xí)具有廣闊的前景。集多種環(huán)節(jié)于一體的復(fù)雜控制系統(tǒng),具有非常經(jīng)典的復(fù)雜問(wèn)題,以本次論文研究的倒立擺為例。自然界有很多無(wú)規(guī)律的不穩(wěn)定的物體,倒立擺系統(tǒng)可以通過(guò)控制手段,使不穩(wěn)定的物體變得穩(wěn)定,具有規(guī)律性。而在控制過(guò)程中,倒立擺系統(tǒng)也是一個(gè)驗(yàn)證各種控制理論的很理想的模型之一。它可以反映例如可鎮(zhèn)定性,隨機(jī)能動(dòng)性以及魯棒性一系列情況。近代以來(lái),倒立擺系統(tǒng)廣泛應(yīng)用于我們的生活當(dāng)中。衛(wèi)星的運(yùn)行、火箭的飛行都借助了倒立擺系統(tǒng)。因此,非常有必要對(duì)倒立擺系統(tǒng)進(jìn)行研究,該系統(tǒng)具有無(wú)可取代的現(xiàn)實(shí)意義,以及深刻的工程意義。

【關(guān)鍵詞】? ? 強(qiáng)化學(xué)習(xí)? ? Q學(xué)習(xí)算法? ? 倒立擺系統(tǒng)

引言:

眾所周知,我們獲得新的知識(shí)的主要途徑之一就是學(xué)習(xí),學(xué)習(xí)是人類聰明才智的體現(xiàn)。近年來(lái)人工智能領(lǐng)域在研究機(jī)器學(xué)習(xí)時(shí),主要將研究的內(nèi)容放在擬人化,目的是讓機(jī)器的行為舉止與人類無(wú)限接近,能夠像人類一樣主動(dòng)吸收知識(shí)。機(jī)器學(xué)習(xí)比人類學(xué)習(xí)具有更多的優(yōu)點(diǎn),首先機(jī)器是不會(huì)感到疲憊的,不需要大腦對(duì)信息進(jìn)行整合,通過(guò)數(shù)字編碼就可以對(duì)信息進(jìn)行儲(chǔ)存復(fù)制,具有學(xué)習(xí)時(shí)間長(zhǎng),學(xué)習(xí)效率高的優(yōu)點(diǎn)。[1]選擇機(jī)器學(xué)習(xí),可以讓學(xué)習(xí)不會(huì)因?yàn)槿祟惖膲勖蛩乇挥绊懀欣谥R(shí)的儲(chǔ)備。

強(qiáng)化學(xué)習(xí)[2]機(jī)器學(xué)習(xí)的研究模塊中,有一部分涉及到心理學(xué)理論和動(dòng)物學(xué)習(xí)原理。首先從生物學(xué)的研究中構(gòu)建反饋機(jī)制,借助該反饋機(jī)制采集周圍環(huán)境對(duì)動(dòng)作產(chǎn)生的評(píng)價(jià)信息,利用反饋的信號(hào)對(duì)學(xué)習(xí)模型參數(shù)進(jìn)行更新。強(qiáng)化學(xué)習(xí)是人工智能學(xué)習(xí)模塊中非常熱門的一個(gè)板塊,涉及到多個(gè)學(xué)科的內(nèi)容[3]。

智能控制,人們希望通過(guò)對(duì)人工智能的研究,賦予機(jī)器人性化。詳細(xì)的說(shuō)就是使僵硬的機(jī)器被賦予學(xué)習(xí)的功能,通過(guò)機(jī)器的運(yùn)轉(zhuǎn)將信息儲(chǔ)存,從而達(dá)到擁有類似于生物的運(yùn)動(dòng)控制技能[4]。到目前來(lái)說(shuō)也取得了不少成果,許多機(jī)器人構(gòu)建的認(rèn)知模型中,很少涉及到運(yùn)動(dòng)平衡控制問(wèn)題,但實(shí)際上,機(jī)器人的運(yùn)動(dòng)與運(yùn)動(dòng)平衡控制具有十分緊密的聯(lián)系,所以本次論文研究將從運(yùn)動(dòng)平衡問(wèn)題入手,結(jié)合相關(guān)認(rèn)知問(wèn)題進(jìn)行探索[5]。在借閱許多學(xué)者前輩的研究材料發(fā)現(xiàn),對(duì)倒立擺的控制問(wèn)題的研究,一直是智能領(lǐng)域中熱門板塊。

倒立擺系統(tǒng),該系統(tǒng)擁有非常多的特殊性,常見(jiàn)的有快速、多變量、嚴(yán)重非線性等。除此之外該系統(tǒng)是實(shí)驗(yàn)室中研究自控理論時(shí)所必備的設(shè)備,同樣是經(jīng)典的控制理論教學(xué)物理模型[6]。倒立擺采用線性設(shè)計(jì),能夠使用線性控制理論,而且還與系統(tǒng)識(shí)別等多方面皆有所關(guān)聯(lián),在控制理論研究中極具挑戰(zhàn)性,一直被學(xué)者所關(guān)注。倒立擺系統(tǒng)在近代的許多科學(xué)領(lǐng)域都有應(yīng)用,像直升飛機(jī)和衛(wèi)星的運(yùn)行等等都與倒立擺系統(tǒng)穩(wěn)定控制有所聯(lián)系。所以倒立擺系統(tǒng)的研究對(duì)于我們生活中的許多的新興科技都具有十分重要的研究意義。筆者在對(duì)論文進(jìn)行設(shè)計(jì)時(shí),以運(yùn)動(dòng)平衡控制為出發(fā)點(diǎn),將強(qiáng)化學(xué)習(xí)作為研究對(duì)象,倒立擺系統(tǒng)作為實(shí)驗(yàn)?zāi)P汀T谶@些的基礎(chǔ)上使用一種基于Q學(xué)習(xí)的強(qiáng)化學(xué)習(xí)系統(tǒng)以對(duì)倒立擺平衡控制展開(kāi)深入探索,最終目的將學(xué)習(xí)能力賦予學(xué)習(xí)系統(tǒng),以期該學(xué)習(xí)系統(tǒng)在日常運(yùn)行時(shí),能夠自主學(xué)習(xí)新的知識(shí),能夠做出行走、跳躍各種動(dòng)作,從而在各個(gè)領(lǐng)域中進(jìn)行應(yīng)用。

一、強(qiáng)化學(xué)習(xí)原理

1.1 強(qiáng)化學(xué)習(xí)原理與模型

眾所周知,機(jī)器學(xué)習(xí)有許多的方向,強(qiáng)化學(xué)習(xí)是其中一種重要的方法。在我們的身邊的諸多領(lǐng)域都與強(qiáng)化學(xué)習(xí)有著不少聯(lián)系。在強(qiáng)化學(xué)習(xí)過(guò)程中,裝載強(qiáng)化學(xué)習(xí)系統(tǒng)的智能體與周圍的環(huán)境進(jìn)行信息交流,再通過(guò)反饋信息不斷更新策略,直到最終獲得最優(yōu)決策。在訓(xùn)練的過(guò)程中系統(tǒng)會(huì)通過(guò)不斷的嘗試并且在這個(gè)過(guò)程中得到相應(yīng)環(huán)境反饋評(píng)價(jià)。系統(tǒng)會(huì)在這整個(gè)過(guò)程中不斷的積累經(jīng)驗(yàn)并且更新策略,最后可以使累積的獎(jiǎng)懲值達(dá)到最大值。

很明顯由強(qiáng)化學(xué)習(xí)的原理與模型可知強(qiáng)化學(xué)習(xí)不等同于自適應(yīng)控制技術(shù)和規(guī)劃技術(shù)。

強(qiáng)化學(xué)習(xí)也被認(rèn)為是一種直接最適應(yīng)最優(yōu)方法,擁有自適應(yīng)控制技術(shù)的環(huán)境反饋機(jī)制。但是,自適應(yīng)控制技術(shù)是要處理參數(shù)問(wèn)題,系統(tǒng)也要求能夠在統(tǒng)計(jì)數(shù)據(jù)中獲得結(jié)果。但強(qiáng)化學(xué)習(xí)去除了這些限制因素。實(shí)際上,無(wú)論是強(qiáng)化學(xué)習(xí)還是規(guī)劃技術(shù),他們二者之間在技術(shù)上是有明顯區(qū)別的。以狀態(tài)圖的規(guī)劃構(gòu)造為例,如果一些復(fù)雜的狀態(tài)圖沒(méi)有提前進(jìn)行設(shè)計(jì),就無(wú)法進(jìn)行規(guī)劃技術(shù)。但是強(qiáng)化學(xué)習(xí)只對(duì)環(huán)境的反饋信息進(jìn)行記憶即可。除此之外,強(qiáng)化學(xué)習(xí)與規(guī)劃技術(shù)相比更加強(qiáng)調(diào)與環(huán)境的交互。也由此可見(jiàn),強(qiáng)化學(xué)習(xí)擁有更廣闊的適用面。

1.2 強(qiáng)化學(xué)習(xí)系統(tǒng)的組成要素

強(qiáng)化學(xué)習(xí)的內(nèi)容按要素分可以分為三類:策略、獎(jiǎng)賞函數(shù)和值函數(shù)。在一般情況下智能體在給定的時(shí)間內(nèi)產(chǎn)生相應(yīng)的動(dòng)作的方法就是策略(Policy)。 策略在強(qiáng)化學(xué)習(xí)中占據(jù)著舉足輕重的地位,是智能體的核心。在一般情況下策略會(huì)給予智能體特定的答案,告訴在智能體應(yīng)該采取哪些動(dòng)作。獎(jiǎng)賞函數(shù)(Reward Function)在強(qiáng)化學(xué)習(xí)問(wèn)題中有著舉足輕重的地位,一般表現(xiàn)在獎(jiǎng)賞函數(shù)往往會(huì)對(duì)問(wèn)題中的目標(biāo)會(huì)起到?jīng)Q定性的作用。獎(jiǎng)賞函數(shù)具有確定性和客觀性等性質(zhì),這些性質(zhì)會(huì)給予智能體正確的動(dòng)作選擇。最后再來(lái)介紹一下值函數(shù)(Value Function) ,從長(zhǎng)遠(yuǎn)的角度來(lái)看,直函數(shù)可以用來(lái)判斷狀態(tài)的優(yōu)劣,這種函數(shù)可以更有效的幫助學(xué)者研究強(qiáng)化學(xué)習(xí)的算法。

二、強(qiáng)化學(xué)習(xí)算法的應(yīng)用

馬爾可夫決策問(wèn)題在人類科技進(jìn)步的過(guò)程中扮演著重要的角色,而動(dòng)態(tài)規(guī)劃方法的提出可謂是馬爾可夫決策問(wèn)題里具有代表性的成果之一,Q學(xué)習(xí)算法和SARSA學(xué)習(xí)算法可以通過(guò)值函數(shù)的逼近來(lái)尋求最優(yōu)策略,這兩種算法可以說(shuō)把時(shí)間差分和動(dòng)態(tài)規(guī)劃結(jié)合起來(lái)的典型。

2.1 SARSA算法

到現(xiàn)在,算法有了新的突破,理論研究也向前邁進(jìn)一大步。Sarsa學(xué)習(xí)算法和Q學(xué)習(xí)算法可以算作是里面具有代表性的兩個(gè)。

Rummery在1994 年第一次提出了SARSA這種強(qiáng)化學(xué)習(xí)算法,我們可以把SARSA學(xué)習(xí)算法看作Q學(xué)習(xí)算法的一種改進(jìn)過(guò)的在線的(Online)形式。

2.2 Q學(xué)習(xí)算法

整體的算法流程如下所示:

對(duì)Q(s,a)初始化,在每一個(gè)情節(jié)都會(huì)進(jìn)行以下的操作:

初始化狀態(tài)s并且重復(fù)以下的操作一直到能夠到達(dá)終態(tài);

由貪心策略確定和執(zhí)行動(dòng)作a,狀態(tài)得到轉(zhuǎn)移到s'并且能夠獲得獎(jiǎng)賞r;

對(duì)Q(s,a)進(jìn)行更新,令s←s'。

列式如下所示:

(1)

其中C為常數(shù),用高等代數(shù)的方法對(duì)該式子進(jìn)行收斂判斷,如果在貪心策略的方法下式子是收斂的,就可以將該式子認(rèn)為是強(qiáng)化學(xué)習(xí)中最有效的算法是Q學(xué)習(xí)。

2.3 程序運(yùn)行結(jié)果

我們分別運(yùn)行SARSA算法,Q學(xué)習(xí)算法的有模型和無(wú)模型三個(gè)程序,得到結(jié)果如圖1。

由圖1可知,三個(gè)程序都順利的驗(yàn)證了不同的強(qiáng)化學(xué)習(xí)算法按照目標(biāo)驗(yàn)證了其在倒立擺平衡控制過(guò)程中有認(rèn)知和學(xué)習(xí)的能力。

2.4? 仿真結(jié)果分析與結(jié)論

在本次畢業(yè)設(shè)計(jì)中,我們主要會(huì)對(duì)Q學(xué)習(xí)算法的倒立擺實(shí)驗(yàn)進(jìn)行波形的仿真與研究。在設(shè)置變量時(shí),初始狀態(tài)的倒立擺是隨機(jī)數(shù),而這個(gè)隨機(jī)值常常被指定在一定的范圍內(nèi)。

從圖2的仿真曲線中我們不難看出即使沒(méi)有儲(chǔ)備的知識(shí)條件,強(qiáng)化學(xué)習(xí)也可以讓倒立擺系統(tǒng)具備自我的學(xué)習(xí)能力和記憶聯(lián)想能力并且很快的得到控制。在圖2中,不難看出這是強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)曲線,我們可以觀察到的是平衡控制技能在強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)過(guò)程中在被逐漸掌握,直至最后強(qiáng)化學(xué)習(xí)系統(tǒng)成功的控制了倒立擺系統(tǒng)。接下來(lái)我們會(huì)通過(guò)不同的仿真波形探究在不同的條件下Q學(xué)習(xí)強(qiáng)化學(xué)習(xí)系統(tǒng)對(duì)于倒立擺系統(tǒng)平衡的掌握。

2.4.1? 不同初始角度的控制效果

我們先改變擺桿的初始角度,再去觀察系統(tǒng)控制性能是否會(huì)產(chǎn)生明顯的變化。我們觀察圖3不難看出擺桿的角度初始角度分別為-5與10,角度不同,但是強(qiáng)化學(xué)習(xí)系統(tǒng)在時(shí)間為三秒的時(shí)候,都幾乎達(dá)到直線狀態(tài),控制效果幾乎沒(méi)有變化。

2.4.2? 改變小車初始位置多次實(shí)驗(yàn)

在其他條件一致的情況下,我們改變小車初始位置變量,進(jìn)行重復(fù)實(shí)驗(yàn),探索系統(tǒng)的控制性能變化情況。我們從圖4不難看出即使小車處在不同的初始位置,倒立擺的控制精度仍然可以達(dá)到要求并在短時(shí)間內(nèi)再次返回到平衡狀態(tài)。

2.4.3? 有外界擾動(dòng)的控制效果

在我們加入幅值不同的脈沖干擾后強(qiáng)化學(xué)習(xí)系統(tǒng)仍然可以順利的完成對(duì)倒立擺的控制。在圖5中不難看出在控制過(guò)程中的脈沖干擾無(wú)法對(duì)但強(qiáng)化學(xué)習(xí)系統(tǒng)產(chǎn)生明顯的影響,證明了其具有良好的抗干擾能力。

三、結(jié)束語(yǔ)

強(qiáng)化學(xué)習(xí)采用了生物學(xué)習(xí)中的“行動(dòng)——評(píng)價(jià)——改進(jìn)”機(jī)制。這種評(píng)價(jià)機(jī)制的特點(diǎn)是將活動(dòng)與環(huán)境相聯(lián)系,將活動(dòng)置于環(huán)境下,接收環(huán)境對(duì)于活動(dòng)的評(píng)價(jià)信息,從而利用評(píng)價(jià)信息更新模型數(shù)據(jù),優(yōu)化決策行為。強(qiáng)化學(xué)習(xí)在目前已經(jīng)成為了很多領(lǐng)域研究的熱點(diǎn)之一,是一個(gè)多學(xué)科交叉的研究方向。在本次實(shí)驗(yàn)中,我們把倒立擺系統(tǒng)作為實(shí)驗(yàn)的載體,對(duì)幾個(gè)強(qiáng)化學(xué)習(xí)算法做了研究與學(xué)習(xí),并探究了強(qiáng)化學(xué)習(xí)在倒立擺系統(tǒng)中的控制和應(yīng)用。

具體對(duì)整體的過(guò)程進(jìn)行總結(jié):1.通過(guò)查閱文獻(xiàn)的方式來(lái)分析總結(jié)強(qiáng)化學(xué)習(xí)研究的現(xiàn)狀。2.介紹分析本文中用到的相關(guān)強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念以及模型。3.在 Python 語(yǔ)言開(kāi)發(fā)環(huán)境下利用 Pycharm完成了強(qiáng)化學(xué)習(xí) SARSA算法和Q學(xué)習(xí)算法在一級(jí)直線倒立擺平衡控制的實(shí)驗(yàn)仿真,三種控制算法均可以完成訓(xùn)練以達(dá)到一級(jí)直線倒立擺的平衡控制。4.對(duì)實(shí)驗(yàn)仿真的波形進(jìn)行提取分析,對(duì)實(shí)驗(yàn)進(jìn)行總結(jié)與展望。

總之強(qiáng)化學(xué)習(xí)已經(jīng)在默默影響與改變我們的生活,在機(jī)器人規(guī)劃和控制和人工智能問(wèn)題的求解等領(lǐng)域取得了成績(jī),擁有值得期待的未來(lái)與前景。

參? 考? 文? 獻(xiàn)

[1]李京,劉道偉,安軍,李宗翰,楊紅英,趙高尚,楊少波,鄭恒峰.基于強(qiáng)化學(xué)習(xí)理論的靜態(tài)電壓穩(wěn)定裕度評(píng)估[J].中國(guó)電機(jī)工程學(xué)報(bào),2020,40(16):5136-5148.

[2]萬(wàn)里鵬,蘭旭光,張翰博,鄭南寧.深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述[J].模式識(shí)別與人工智能,2019,32(01):67-81.

[3]劉洋,崔穎,李鷗.認(rèn)知無(wú)線電網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的智能信道選擇算法[J].信號(hào)處理,2014,30(03):253-260.

[4]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研究,2004(07):4-10.

[5]張汝波,顧國(guó)昌,劉照德,王醒策.強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論與應(yīng)用,2000(05):637-642.

主站蜘蛛池模板: 午夜无码一区二区三区| 国产99欧美精品久久精品久久| 乱人伦中文视频在线观看免费| 欧美一区二区福利视频| 99久久国产综合精品2023| 午夜福利在线观看成人| 九九精品在线观看| 免费99精品国产自在现线| 国产一在线| 国产综合另类小说色区色噜噜| 一级毛片高清| 欧美精品另类| 欧美日韩精品一区二区视频| 91精品小视频| 国产人成在线观看| 亚洲无码日韩一区| 欧美狠狠干| 一区二区理伦视频| 精品无码专区亚洲| 毛片一级在线| 国产精品免费露脸视频| 免费国产一级 片内射老| 人人看人人鲁狠狠高清| 国产成在线观看免费视频| 福利小视频在线播放| 中文字幕伦视频| 国产欧美日韩视频一区二区三区| 91久久精品国产| 色135综合网| 亚洲国产黄色| 成人日韩视频| 又爽又黄又无遮挡网站| www.av男人.com| 美女被操黄色视频网站| 亚洲美女久久| 58av国产精品| 国产亚洲高清视频| 国产又色又刺激高潮免费看| av在线手机播放| 免费毛片网站在线观看| 国产美女视频黄a视频全免费网站| 一级毛片免费高清视频| 99免费在线观看视频| 欧美成人手机在线观看网址| 好久久免费视频高清| 亚洲日韩图片专区第1页| 老熟妇喷水一区二区三区| 国产aⅴ无码专区亚洲av综合网| 精品久久人人爽人人玩人人妻| 91精品国产综合久久不国产大片| av尤物免费在线观看| 午夜国产大片免费观看| 亚洲综合专区| 国产黄视频网站| 丁香五月婷婷激情基地| 中文一区二区视频| 国产拍在线| 久久美女精品| 国产va在线| 亚洲国产理论片在线播放| 亚洲精品在线观看91| 国产一级特黄aa级特黄裸毛片| 亚洲欧美国产视频| 久草中文网| 5555国产在线观看| 中文字幕不卡免费高清视频| 成人无码区免费视频网站蜜臀| 黄色一及毛片| 日韩欧美中文| 色婷婷国产精品视频| 成人综合在线观看| 午夜福利视频一区| 欧美人与牲动交a欧美精品 | 亚洲色图另类| 青青青视频免费一区二区| 亚洲国产在一区二区三区| 亚洲清纯自偷自拍另类专区| 亚洲成a人片| 亚洲成人动漫在线观看 | 亚洲第七页| 中文字幕在线一区二区在线| 福利一区三区|