基于Q-學(xué)習(xí)的智能雷達(dá)對(duì)抗

2018-04-26 07:30:17朱衛(wèi)綱

系統(tǒng)工程與電子技術(shù) 2018年5期

邢強(qiáng), 賈鑫, 朱衛(wèi)綱

(1. 航天工程大學(xué)研究生管理大隊(duì), 北京 101416; 2. 航天工程大學(xué)電子與光學(xué)工程系, 北京 101416)

0 引言

隨著雷達(dá)技術(shù)的不斷發(fā)展,雷達(dá)已經(jīng)從固定工作模式發(fā)展到可以根據(jù)其工作環(huán)境與任務(wù)需求靈活改變工作參數(shù)的多工作模式[1-3]。這對(duì)傳統(tǒng)雷達(dá)對(duì)抗(traditional radar countermeasure, TRC)方式提出以下挑戰(zhàn):①TRC偵察系統(tǒng)從雷達(dá)輻射的信號(hào)中獲取雷達(dá)技術(shù)與參數(shù)信息與本地?cái)?shù)據(jù)庫進(jìn)行匹配,如果存有該部雷達(dá)信息,則干擾系統(tǒng)調(diào)用對(duì)應(yīng)的干擾樣式實(shí)施干擾,如果未存有該部雷達(dá)信息,則先存儲(chǔ)該信息,再進(jìn)行分析與處理,制定相應(yīng)干擾措施,該過程需要數(shù)天或數(shù)月時(shí)間,最佳對(duì)抗時(shí)間已經(jīng)失去,干擾實(shí)時(shí)性差;②傳統(tǒng)干擾方式一般只針對(duì)某種體制的雷達(dá),而面對(duì)靈活多變的多功能雷達(dá),本地?cái)?shù)據(jù)庫未存儲(chǔ)該部雷達(dá)信息或只存儲(chǔ)了部分信息,傳統(tǒng)干擾方式很難實(shí)施有效干擾;③雷達(dá)發(fā)展趨于智能化,有的進(jìn)行組網(wǎng),抗干擾性能增強(qiáng),增加了干擾的難度。在此背景下,認(rèn)知電子戰(zhàn)技術(shù)出現(xiàn)并取得快速發(fā)展[4-6],主要包括認(rèn)知偵察技術(shù)、智能干擾措施合成技術(shù)以及實(shí)時(shí)干擾效果評(píng)估技術(shù)[7]。其中認(rèn)知偵察技術(shù)與實(shí)時(shí)干擾效果評(píng)估技術(shù)分別為智能化干擾措施合成技術(shù)提供先驗(yàn)知識(shí)與干擾措施更新的依據(jù),可見在認(rèn)知電子戰(zhàn)中智能化干擾措施合成技術(shù)是關(guān)鍵技術(shù)的核心。

對(duì)于提高電子戰(zhàn)的靈活性與智能化水平,早在20世紀(jì)七八十年代有專家把人工智能技術(shù)應(yīng)用到電子戰(zhàn)中[8],其后該項(xiàng)應(yīng)用卻少有人問津,也可能由于保密原因,沒有公開文獻(xiàn)報(bào)道。直到2010年,美國DARPA相繼發(fā)布自適應(yīng)電子戰(zhàn)行為學(xué)習(xí)(behavior learning for adaptive electronic warfare,BLADE)[9]、極限通信(communication under extreme,CommEx)[10]、認(rèn)知干擾機(jī)(cognitive jammer, CJ)[11]、自適應(yīng)雷達(dá)對(duì)抗(adaptive radar countermeasures,ARC)[12]等項(xiàng)目公告,人工智能在電子戰(zhàn)中的應(yīng)用才得以快速發(fā)展。其中,強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域里面最活躍的研究領(lǐng)域之一[13-14],有人稱其為真正人工智能的希望,主要研究行為主體如何通過環(huán)境變化,決定采取何種動(dòng)作,以獲取最大的期望回報(bào)。對(duì)比認(rèn)知電子戰(zhàn)的工作流程,干擾機(jī)根據(jù)偵收的目標(biāo)狀態(tài)變化,確定對(duì)抗措施,以期望獲取最佳對(duì)抗效果,兩者的工作過程近乎一致。對(duì)此,文獻(xiàn)[15]引入認(rèn)知技術(shù),提出了基于Q-學(xué)習(xí)算法的認(rèn)知雷達(dá)對(duì)抗過程設(shè)計(jì),使得干擾更具有主動(dòng)性、針對(duì)性與自適應(yīng)性,但文獻(xiàn)[15]是在假定雷達(dá)工作模式數(shù)目已知的條件下進(jìn)行研究的,對(duì)于雷達(dá)工作模式數(shù)目未知的情況目前還沒有文獻(xiàn)報(bào)道研究?；诖?本文研究雷達(dá)工作模式數(shù)目未知情況下的智能雷達(dá)對(duì)抗(intelligent radar countermeasure, IRC)過程設(shè)計(jì),這將對(duì)于研究具有智能化特征的干擾系統(tǒng)與實(shí)現(xiàn)技術(shù)具有一定的理論意義。

1 IRC概述

TRC流程如圖 1所示。

圖1 TRC流程Fig.1 Architecture of TRC

干擾系統(tǒng)只是固定地根據(jù)偵察基本參數(shù)及先驗(yàn)雷達(dá)數(shù)據(jù)庫調(diào)用干擾資源庫干擾樣式。并沒有依據(jù)干擾效果是否有效及周圍環(huán)境信息對(duì)干擾樣式進(jìn)行調(diào)整,干擾效率低、效果差。

本文改進(jìn)上述雷達(dá)對(duì)抗流程,提出IRC設(shè)計(jì)。智能指從認(rèn)知到記憶、判斷、想象并對(duì)結(jié)果表達(dá)的過程[16]。特點(diǎn)為:①能對(duì)外部環(huán)境進(jìn)行感知并獲取相關(guān)信息;②能夠?qū)Ω兄降男畔⒋鎯?chǔ)并利用已有知識(shí)進(jìn)行思維活動(dòng);③能夠自主學(xué)習(xí)、與外部環(huán)境交互并適應(yīng)外部環(huán)境變化;④能夠?qū)ν饨绲拇碳みM(jìn)行自主決策反應(yīng)。

該文研究的正是這樣一種針對(duì)多功能雷達(dá)工作模式數(shù)目未知條件下的IRC方法,干擾接收機(jī)通過處理偵收的雷達(dá)信息,對(duì)其工作狀態(tài)進(jìn)行識(shí)別,根據(jù)目標(biāo)所處狀態(tài)自主合成干擾樣式,并繼續(xù)偵收雷達(dá)目標(biāo)狀態(tài)變化,評(píng)估干擾效果,將干擾效果反饋至干擾決策模塊,輔助干擾樣式合成。IRC架構(gòu)如圖2所示[12]。

圖2 IRC架構(gòu)Fig.2 Architecture of IRC

綜上可知,IRC與TRC的區(qū)別如表1所示。

表1 IRC與TRC的區(qū)別

2 IRC方法研究

2.1 強(qiáng)化學(xué)習(xí)基本原理

強(qiáng)化學(xué)習(xí)[13]基于動(dòng)物生理學(xué)與心理學(xué)的原理,采用人類與動(dòng)物“試錯(cuò)”機(jī)制,從與環(huán)境的交互中學(xué)習(xí),學(xué)習(xí)過程中僅需要獲得評(píng)價(jià)性的反饋信號(hào),以極大化獎(jiǎng)勵(lì)為學(xué)習(xí)目標(biāo),其優(yōu)點(diǎn)為:自學(xué)習(xí)、在線學(xué)習(xí)與更新,強(qiáng)化學(xué)習(xí)原理如圖3所示。

圖3 強(qiáng)化學(xué)習(xí)原理圖Fig.3 Principle of reinforcement learning

交互過程為:①Agent對(duì)周圍環(huán)境信息進(jìn)行感知;②Agent依據(jù)環(huán)境的狀態(tài)st及反饋獎(jiǎng)勵(lì)rt,選擇執(zhí)行動(dòng)作at;③at作用于環(huán)境,環(huán)境轉(zhuǎn)換為st+1,并給出新的反饋獎(jiǎng)勵(lì)rt+1;④Agent根據(jù)反饋獎(jiǎng)勵(lì)值,計(jì)算回報(bào)值,并將回報(bào)值作為內(nèi)部更新策略的依據(jù)。st∈S代表Agent在t時(shí)狀態(tài),S為狀態(tài)集;at∈A(st)表示Agent在t時(shí)選擇的動(dòng)作,A(st)表示在st下可選擇動(dòng)作集。當(dāng)環(huán)境為st時(shí),Agent選擇并執(zhí)行動(dòng)作at,接收到反饋獎(jiǎng)勵(lì)rt+1∈R,同時(shí)轉(zhuǎn)移到新的狀態(tài)st+1。

強(qiáng)化學(xué)習(xí)Agent與環(huán)境交互過程中,并沒有收到指令選擇何種策略,是依據(jù)周圍環(huán)境的反饋?zhàn)陨頉Q定,基本原則是最大化Agent在學(xué)習(xí)中從周圍環(huán)境獲取正向信息的概率。定義目標(biāo)函數(shù)來衡量強(qiáng)化學(xué)習(xí)的最優(yōu)策略。策略指從狀態(tài)到動(dòng)作的映射:π:S→A,其決定了在t時(shí)刻狀態(tài)st選擇的動(dòng)作:at=π(st)。策略π的價(jià)值Vπ(st)指從t時(shí)刻st開始,Agent所選動(dòng)作獲得的獎(jiǎng)勵(lì)之和。

有限階或片段模型中,Agent選擇N個(gè)動(dòng)作最大化獎(jiǎng)勵(lì)為

(1)

無限階模型中,無序列長度限制,但未來獎(jiǎng)勵(lì)會(huì)被打折扣:

(2)

式中,γ∈[0,1],表示折扣率,以確保返回的獎(jiǎng)勵(lì)是有限的。對(duì)于每個(gè)策略,都有其價(jià)值Vπ(st),若找到最優(yōu)策略π*,則有

?st

(3)

在某些應(yīng)用,狀態(tài)-動(dòng)作價(jià)值Q(st,at)比策略價(jià)值V(st)更有意義,Q(st,at)表示在狀態(tài)st下,采取動(dòng)作at獲得的價(jià)值。Q*(st,at)表示狀態(tài)st下采取動(dòng)作at,并遵循最優(yōu)策略獲得的期望累積獎(jiǎng)勵(lì)。

(4)

(5)

對(duì)于轉(zhuǎn)移到每個(gè)可能的下一狀態(tài)st+1的概率為p(st+1|st,at+1),并遵循最優(yōu)策略,獲得的累計(jì)期望獎(jiǎng)勵(lì)為V(st+1),對(duì)于狀態(tài)-動(dòng)作價(jià)值則有

Q*(st,at)=E[rt+1]+γ·

(6)

強(qiáng)化學(xué)習(xí)算法中,動(dòng)態(tài)規(guī)劃基于完整系統(tǒng)模型進(jìn)行策略尋優(yōu),且計(jì)算量隨狀態(tài)增加呈指數(shù)增長,存在“維數(shù)災(zāi)難”問題[17];蒙特卡羅方法是一種與模型無關(guān)的強(qiáng)化學(xué)習(xí)方法,對(duì)馬爾可夫?qū)傩砸蟛桓?但是該方法只能在每次學(xué)習(xí)任務(wù)結(jié)束時(shí)才能更新狀態(tài)值函數(shù),算法的學(xué)習(xí)速度較慢;時(shí)序差分結(jié)合動(dòng)態(tài)規(guī)劃與蒙特卡羅的優(yōu)點(diǎn),值函數(shù)步步更新,對(duì)模型無要求[18];在時(shí)序差分的基礎(chǔ)上,根據(jù)與環(huán)境交互過程中行為決策方式不同,Watkins與Rummery分別提出了Q-學(xué)習(xí)與Sarsa算法,兩者的不同之處在于,Q-學(xué)習(xí)中行為決策和值函數(shù)的迭代是相互獨(dú)立的,是一種離線算法,采用的是值函數(shù)最大值進(jìn)行迭代,R值的更新依賴于各種假設(shè)決策;Sarsa學(xué)習(xí)行為決策與值函數(shù)的迭代是一致的,是一種在線R學(xué)習(xí),采用實(shí)際Q值迭代,基于執(zhí)行某個(gè)策略所獲得的經(jīng)驗(yàn)來更新值函數(shù)。根據(jù)上述特點(diǎn),本文選擇Q-學(xué)習(xí)用于智能化的雷達(dá)對(duì)抗研究。

Q-學(xué)習(xí)基本形式為

Q(st,at)←Q(st,at)+α[rt+1+γ·

maxQ(st+1,a′)-Q(st,at)]

(7)

式中,Q(st,at)表示Agent在狀態(tài)st下,采用動(dòng)作at所獲得的最優(yōu)獎(jiǎng)賞折扣和;α∈(0,1)為學(xué)習(xí)率;γ為折扣率。

2.2 基于Q-學(xué)習(xí)的雷達(dá)智能對(duì)抗

IRC原理如圖4所示。

圖4 IRC原理Fig.4 Principle of IRC

sRt∈S表示多功能雷達(dá)在t時(shí)工作狀態(tài),aj∈A(sRt)表示干擾機(jī)在t時(shí)選擇的干擾樣式,A(sRt)表示雷達(dá)在模式sRt下,干擾機(jī)采取的干擾樣式的集合。當(dāng)雷達(dá)處于工作模式sRt時(shí),干擾機(jī)選擇并執(zhí)行干擾樣式,接收到干擾效能評(píng)估rRt+1,同時(shí)轉(zhuǎn)移到新的工作模式sRt+1。

工作模式-干擾樣式價(jià)值更新為

Q(sRt,aj)←Q(sRt,aj)+α[rRt+1+

γmaxQ(sRt+1,a′)-Q(sRt,aj)]

(8)

式中,Q(sRt,aj)為工作模式-干擾樣式價(jià)值;rRt+1為干擾效能評(píng)估值。

干擾機(jī)每次強(qiáng)化學(xué)習(xí)是從雷達(dá)的隨機(jī)狀態(tài)開始的,依據(jù)策略選擇干擾樣式,如ε貪婪策略或Boltzamann分布策略。干擾機(jī)選擇干擾樣式后實(shí)施干擾,估計(jì)雷達(dá)狀態(tài)并評(píng)估干擾效果,根據(jù)雷達(dá)最新估計(jì)狀態(tài)的最大Q值和干擾效果更新上一個(gè)Q值,干擾機(jī)將不斷根據(jù)新的雷達(dá)狀態(tài)選擇干擾樣式,循環(huán)至終止?fàn)顟B(tài)。

雷達(dá)有多種工作模式過程中,干擾機(jī)干擾樣式集合A包含多種干擾樣式。定義立即回報(bào)值為

對(duì)于干擾樣式的選擇,干擾機(jī)需平衡探索型策略與利用型策略的矛盾,因此本文選擇ε貪婪策略選擇干擾樣式。智能化干擾的干擾樣式選擇指標(biāo)為:尋找干擾樣式序列,使獲取的雷達(dá)工作模式-干擾樣式值最大。

算法的描述如下:

步驟1初始化Q(sRt,aj)與R為一階0矩陣,給定參數(shù)γ初值。

步驟2觀察當(dāng)前環(huán)境,識(shí)別雷達(dá)工作模式sRt,估計(jì)雷達(dá)威脅等級(jí);根據(jù)ε貪婪策略選擇干擾樣式aj并執(zhí)行;

步驟3循環(huán)開始

步驟3.1繼續(xù)偵察雷達(dá)工作模式,若判斷為新工作模式sRt+1,估計(jì)威脅等級(jí),存入雷達(dá)數(shù)據(jù)庫;

步驟3.2增加Q(sRt,aj)矩陣與R相應(yīng)行列,利用式(9)計(jì)算效能評(píng)估值rRt;

步驟3.4sRt←sRt+1;

直到工作模式數(shù)目穩(wěn)定,循環(huán)停止。

步驟4輸出最終干擾樣式選擇方式及目標(biāo)狀態(tài)(威脅等級(jí)最低工作模式)。

基于上述算法,雷達(dá)工作模式數(shù)目未知情況下智能對(duì)抗流程如圖 5所示。

圖5 雷達(dá)工作模式未知的智能對(duì)抗流程Fig.5 IRC of radar working modes unknown

3 仿真實(shí)驗(yàn)

多功能雷達(dá)具有搜索、跟蹤、火炮測(cè)距、非合作目標(biāo)識(shí)別等多種工作模式,同時(shí),針對(duì)雷達(dá)不同工作模式也有不同的干擾樣式,如噪聲調(diào)幅、噪聲調(diào)相、噪聲調(diào)頻、速度欺騙等等。本文假設(shè)某雷達(dá)有威脅等級(jí)分別為1、1、2、2、3、4的S1,S2,…，S66種工作模式,威脅等級(jí)由高到底分別是S1,S2,…,S6,則狀態(tài)S6是目標(biāo)狀態(tài),不同工作模式之間的轉(zhuǎn)換模型如圖 6所示。

圖6 雷達(dá)狀態(tài)轉(zhuǎn)換模型Fig.6 Diagram of radar state conversion

圖6表示在干擾樣式aij的作用下,雷達(dá)從狀態(tài)Si轉(zhuǎn)換為狀態(tài)Sj。干擾機(jī)沒有先驗(yàn)知識(shí),需要通過Q-學(xué)習(xí)來確定工作模式數(shù)目以及不同工作模式之間的狀態(tài)轉(zhuǎn)換。雷達(dá)工作時(shí),根據(jù)自身任務(wù)需求或受干擾情況調(diào)整工作模式,其工作模式是動(dòng)態(tài)變化的,因此偵察接收機(jī)接收到的雷達(dá)工作模式也是動(dòng)態(tài)變化的,判定工作模式的變化由認(rèn)知偵察環(huán)節(jié)完成,作為本文的輸入。偵察接收機(jī)將偵收到的第一個(gè)雷達(dá)狀態(tài)作為初始雷達(dá)狀態(tài)存入數(shù)據(jù)庫,并采取響應(yīng)動(dòng)作,繼續(xù)觀察雷達(dá)狀態(tài),并根據(jù)第2.2節(jié)算法步驟,實(shí)時(shí)計(jì)算干擾回報(bào)矩陣R與工作模式-干擾樣式矩陣Q。

折扣常數(shù)初始化為0.5,Q與R矩陣初始化為一階0矩陣。對(duì)雷達(dá)進(jìn)行1 000次獨(dú)立觀察,每次觀察后求解R矩陣,本次實(shí)驗(yàn)中依次得到雷達(dá)的工作模式為S5、S4、S3、S1、S6、S2,偵察接收機(jī)按偵收順序依次偵收的雷達(dá)狀態(tài)定義為sj1、sj2、sj3、sj4、sj5、sj6,威脅等級(jí)分別為3、2、2、1、4、1,進(jìn)行100次求解Q矩陣實(shí)驗(yàn)。并用Matlab制作圖形用戶界面(graphical user interface, GUI),偵收雷達(dá)狀態(tài),威脅等級(jí),求解得到的R矩陣、Q矩陣在圖形用戶界面顯示如圖7所示。

圖7 圖形用戶界面顯示圖Fig.7 GUI display diagram

則不同狀態(tài)之間的轉(zhuǎn)換工作模式-干擾樣式價(jià)值,如圖8所示。

圖8 最優(yōu)路徑選擇圖Fig.8 Optimal path selection diagram

定義Q矩陣收斂值為各元素之和,繼續(xù)分析求解Q矩陣循環(huán)次數(shù)與矩陣收斂時(shí)間、收斂值的關(guān)系,如圖9所示。仿真實(shí)驗(yàn)可以看出,在循環(huán)次數(shù)為100次左右的時(shí)候,Q矩陣收斂值已經(jīng)趨于穩(wěn)定,而收斂時(shí)間會(huì)隨著循環(huán)次數(shù)的增加而增加。

綜上所所述,在設(shè)定循環(huán)次數(shù)時(shí)應(yīng)取值合理,既要滿足矩陣收斂要求,又不能浪費(fèi)時(shí)間與資源。

圖9 循環(huán)次數(shù)與收斂時(shí)間、收斂值的關(guān)系Fig.9 Relationship between cycle times and convergence time and value

4 結(jié)束語

隨著雷達(dá)技術(shù)的發(fā)展,雷達(dá)發(fā)展趨于智能化,TRC方法作戰(zhàn)效能下降。本文基于現(xiàn)有雷達(dá)對(duì)抗面臨的問題研究了IRC方法,對(duì)比了IRC與TRC的區(qū)別。針對(duì)功能單一、實(shí)時(shí)性差問題,研究了基于Q-學(xué)習(xí)的智能雷達(dá)對(duì)抗方法,給出了Q-學(xué)習(xí)算法應(yīng)用到智能化的雷達(dá)對(duì)抗步驟,并進(jìn)行了仿真實(shí)驗(yàn),分析了Q矩陣收斂時(shí)間、收斂值與循環(huán)次次數(shù)的關(guān)系。

本文研究了單部雷達(dá)多工作模式未知的智能對(duì)抗,未考慮多部雷達(dá)不同工作模式訓(xùn)練情況下的智化對(duì)抗,計(jì)劃作為后續(xù)研究內(nèi)容繼續(xù)研究。隨著人工智能及相關(guān)算法的發(fā)展及其在雷達(dá)領(lǐng)域的應(yīng)用(如深度強(qiáng)化學(xué)習(xí)),新的雷達(dá)與雷達(dá)對(duì)抗技術(shù)將進(jìn)入新時(shí)代并將繼續(xù)呈螺旋式發(fā)展。

參考文獻(xiàn)：

[1] HAYKIN S. Cognitive radar: a way of the future[J]. IEEE Signal Processing Magazine, 2006, 23(1):30-40.

[2] GUERCI J R. Cognitive radar: a knowledge-aided fully adaptive approach[C]∥Proc.of the IEEE Radar Conference, 2010:1365-1370.

[3] YUAN R F, GAN R B, TANG G F, et al. Range-Doppler and anti-interference performance of cognitive radar detection waveform[C]∥Proc.of the 12th IEEE International Conference on Electronic Measurement & Instruments, 2015:607-612.

[5] PENG H H, CHEN C K, HSUEH C S. Design and implementation of intelligent electronic warfare decision making algorithm[C]∥Proc.of the Signal Processing, Sensor/Information Fusion, and Target Recognition XXVI, 2017:1-5.

[6] SAMEER A. Cognitive electronic warfare system[C]∥Proc.of the Cognitive Radio Network, 2016.

[7] 戴幻堯, 周波, 雷昊,等. 認(rèn)知電子戰(zhàn)的關(guān)鍵技術(shù)發(fā)展動(dòng)態(tài)與分析[J]. 飛航導(dǎo)彈, 2014(9):57-60.

DAI H Y, ZHOU B, LEI H, et al. Development and analysis of key technologies of cognitive EW[J]. Aerodynamic Missile Journal, 2014(9):57-60.

[8] 李振初. 人工智能技術(shù)在電子戰(zhàn)中的應(yīng)用[J]. 電子對(duì)抗技術(shù),1988(2):27-39.

LI Z C. Application of AI technology in EW[J]. Electronic Warfare Technology, 1988(2): 27-39.

[9] DARPA. Behavior learning for adaptive electronic warfare[EB/OL].[2010-10-06]. https:∥www.fbo.gov.

[10] DARPA. Communications under extreme RF spectrum conditions[EB/OL].[2010-09-10]. https:∥www.fbo.gov.

[11] Air Force. Cognitive jammer[EB/OL].[2010-01-20]. https:∥www.fbo. gov.

[12] DARPA. Adaptive radar countermeasures[EB/OL].[2012-08-27]. https:∥www.fbo.gov.

[13] MOUSAVI S S, SCHUKAT M,HOWLEY E. Deep reinforcement learning: an overview[C]∥Proc.of the Intelligent Systems Conference, 2016:426-440.

[14] BARTO A G, SUTTON R S. Reinforcement learning:an introduction[M]. Cambridge: MIT Press, 2005.

[15] 李云杰, 朱云鵬, 高梅國. 基于Q-學(xué)習(xí)算法的認(rèn)知雷達(dá)對(duì)抗過程設(shè)計(jì)[J]. 北京理工大學(xué)學(xué)報(bào), 2015, 35(11):1194-1199.

LI Y J, ZHU Y P, GAO M G. Design of cognitive radar jamming based onQ-learning algorithm[J]. Transactions of Beijing Institute of Technology, 2015, 35(11): 1194-1199.

[16] Autovalmet. Intellectualization[EB/OL].[2017-05-05]. http:∥baike. baidu. com/item/ Intellectualization.

[17] 欒詠紅, 章鵬. 強(qiáng)化學(xué)習(xí)方法的對(duì)比分析[J]. 計(jì)算機(jī)時(shí)代, 2015(12):93-97.

LUAN Y H, ZHANG P. Comparative analysis of reinforcement learning method[J]. Computer Era, 2015(12):93-97.

[18] 徐明亮. 強(qiáng)化學(xué)習(xí)及其應(yīng)用研究[D]. 無錫: 江南大學(xué), 2010.

XU M L. Research on the reinforcement learning and its application[D]. Wuxi: Jiangnan University, 2010.