吳 佳,陳森朋,陳修云,周 瑞
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054)
近年來(lái),機(jī)器學(xué)習(xí)已廣泛應(yīng)用于如機(jī)器翻譯[1-2]、語(yǔ)音識(shí)別[3-4]、圖像識(shí)別[5-6]和游戲[7]等眾多領(lǐng)域。針對(duì)某一問(wèn)題,如何快速構(gòu)建一個(gè)成熟、可靠的機(jī)器學(xué)習(xí)模型就顯得尤為重要。為了滿足行業(yè)需要,使機(jī)器學(xué)習(xí)算法能夠得到快速、高效的利用,一大批企業(yè)針對(duì)普通用戶(hù)開(kāi)發(fā)出了一些應(yīng)用系統(tǒng),如DataRobot.com[8]、BigML.com[9]、Wise.io[10]等。在機(jī)器學(xué)習(xí)算法的應(yīng)用中,不可避免涉及兩個(gè)重要問(wèn)題:算法模型選擇和超參數(shù)優(yōu)化。
現(xiàn)有的機(jī)器學(xué)習(xí)算法眾多,具有代表性的算法有邏輯回歸(logistic regression)、支持向量機(jī)(support vector machine)、決策樹(shù)(decision tree)和隨機(jī)森林(random forest)等。針對(duì)不同的問(wèn)題,沒(méi)有一個(gè)機(jī)器學(xué)習(xí)算法模型能夠適用于所有問(wèn)題。在同一問(wèn)題上,不同的方法所達(dá)到的性能也存在不同程度的差異。這給機(jī)器學(xué)習(xí)算法的使用者造成了不小的麻煩。算法模型選擇成了機(jī)器學(xué)習(xí)算法廣泛應(yīng)用的一大障礙。
另外,超參數(shù)優(yōu)化同樣成為了機(jī)器學(xué)習(xí)算法應(yīng)用中的難點(diǎn)之一。超參數(shù)不同于算法模型內(nèi)部的參數(shù),它是在算法模型訓(xùn)練之前設(shè)置的參數(shù)。在訓(xùn)練開(kāi)始之前,往往希望找到一組超參數(shù)的值,即超參數(shù)組合,使得算法模型可以在合理的時(shí)間范圍內(nèi)對(duì)某一數(shù)據(jù)集的分類(lèi)或擬合達(dá)到最佳性能。這個(gè)過(guò)程被稱(chēng)為超參數(shù)優(yōu)化,它對(duì)機(jī)器學(xué)習(xí)算法的性能起著至關(guān)重要的作用。在實(shí)踐中通常需要不斷調(diào)整超參數(shù)的值,最終選擇最佳的超參數(shù)組合。若算法模型的超參數(shù)搜索空間較大,該過(guò)程將非常耗時(shí)。
因此,針對(duì)某一問(wèn)題(或數(shù)據(jù)集),最終結(jié)果很大程度上是由機(jī)器學(xué)習(xí)算法模型和算法對(duì)應(yīng)的超參數(shù)組合共同決定的。本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的方法,用于自動(dòng)實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的選擇和超參數(shù)的優(yōu)化。該方法利用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)[8]構(gòu)建一個(gè)智能體(Agent)來(lái)代替機(jī)器學(xué)習(xí)使用者選擇最優(yōu)的機(jī)器學(xué)習(xí)算法及其超參數(shù);Agent 在訓(xùn)練集上訓(xùn)練所選擇的機(jī)器學(xué)習(xí)算法及超參數(shù)組合所對(duì)應(yīng)的算法模型,在驗(yàn)證數(shù)據(jù)集上驗(yàn)證該算法模型的性能;以在驗(yàn)證集上的準(zhǔn)確度作為獎(jiǎng)賞值,利用策略梯度算法(policy gradient)[9]優(yōu)化Agent 的決策。經(jīng)過(guò)多次迭代,Agent 選擇出適合該問(wèn)題的最優(yōu)模型及對(duì)應(yīng)的超參數(shù)。在Agent 訓(xùn)練過(guò)程中,梯度方差較大,本文提出引導(dǎo)數(shù)據(jù)池來(lái)解決該問(wèn)題。本文主要的貢獻(xiàn)在于以下3 點(diǎn):
1) 使用強(qiáng)化學(xué)習(xí)框架來(lái)解決模型選擇和超參數(shù)優(yōu)化問(wèn)題;
2) 提出了數(shù)據(jù)引導(dǎo)池結(jié)構(gòu)來(lái)提高方法的穩(wěn)定性;
3) 通過(guò)在標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)8 種機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化,相比于其他方法,本文提出的方法達(dá)到了最好的優(yōu)化結(jié)果。
模型選擇和超參數(shù)優(yōu)化問(wèn)題通常稱(chēng)為CASH(combined algorithm selection and hyperp-arameter optimization)[10]問(wèn)題。CASH 問(wèn)題定義如下:
針對(duì)某一數(shù)據(jù)集,尋找使得式(1)的值最小的算法 A?及相應(yīng)的超參數(shù)配置 λ?:
為了解決CASH 問(wèn)題,研究者提出了一系列解決方案,如隨機(jī)搜索,貝葉斯優(yōu)化等。隨機(jī)搜索在算法和對(duì)應(yīng)的超參數(shù)構(gòu)成的搜索空間中隨機(jī)采樣。該方法執(zhí)行起來(lái)效率高且操作簡(jiǎn)單,經(jīng)過(guò)少量的嘗試就可以搜索到性能較好的機(jī)器學(xué)習(xí)算法及相應(yīng)的超參數(shù)的值。但文獻(xiàn)[10]表明,隨機(jī)搜索方法只有在達(dá)到或接近最優(yōu)值的組合的數(shù)量占總的組合數(shù)量的比重超過(guò)5%時(shí),搜索效率較高;其他情況下,隨機(jī)搜索方法的表現(xiàn)較差,很難搜索到最優(yōu)值。Auto-WEKA 是一個(gè)基于機(jī)器學(xué)習(xí)工具包WEKA[11]的自動(dòng)化機(jī)器學(xué)習(xí)框架。CASH 問(wèn)題首先在Auto-WEKA[12]系統(tǒng)中被解決,其核心是貝葉斯優(yōu)化方法,主要包括基于高斯過(guò)程的貝葉斯優(yōu)化方法[13],基于模型的順序算法配置方法(sequential modelbased algorithm configuration, SMAC)[14]及其改進(jìn)版本的基于樹(shù)狀結(jié)構(gòu)Parzen 的估計(jì)方法(TPE)[15]。文獻(xiàn)[16]使用熱啟動(dòng)技術(shù)提升SMAC 的性能。自適應(yīng)協(xié)方差矩陣進(jìn)化策略(CMA-ES)算法[17],是基于進(jìn)化算法的一種改進(jìn)算法,主要用來(lái)解決非線性、非凸的優(yōu)化問(wèn)題,在解決模型選擇和超參數(shù)優(yōu)化問(wèn)題也具有很好的效果。最近,BOHB[18]被提出,該方法將貝葉斯優(yōu)化與HyperBand 方法相結(jié)合用于解決模型選擇和超參數(shù)優(yōu)化問(wèn)題,并具有很好的優(yōu)化效果。上述這些方法存在一定的局限性,如基于高斯過(guò)程的貝葉斯優(yōu)化方法只適用于低維空間的超參數(shù)優(yōu)化問(wèn)題。在搜索性能方面,基于貝葉斯優(yōu)化的方法容易陷入局部最優(yōu),很難探索出模型性能最好的算法及超參數(shù)組合。在時(shí)間性能方法,對(duì)于擁有較大的搜索空間的問(wèn)題,貝葉斯優(yōu)化方法時(shí)間效率會(huì)大幅降低。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)[19]是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來(lái)的。其基本原理是:智能體的行為決策得到環(huán)境的反饋,即獎(jiǎng)賞值;通過(guò)最大化累積獎(jiǎng)賞值,以學(xué)習(xí)到最優(yōu)的行動(dòng)策略。通常利用馬爾可夫決策過(guò)程對(duì)強(qiáng)化學(xué)習(xí)問(wèn)題進(jìn)行建模。隨著問(wèn)題復(fù)雜度增加,谷歌的人工智能團(tuán)隊(duì)將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合,即深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[20],成功解決了諸如與人類(lèi)進(jìn)行圍棋對(duì)弈[21]等復(fù)雜任務(wù)。通過(guò)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,實(shí)現(xiàn)了從感知(perception)到動(dòng)作(action)的端對(duì)端的學(xué)習(xí)。目前,深度強(qiáng)化學(xué)習(xí)在視頻[22]、游戲[23]、機(jī)器人[24]等領(lǐng)域獲得廣泛的應(yīng)用。本文利用深度強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)來(lái)解決CASH 問(wèn)題。
模型選擇和超參數(shù)優(yōu)化可看作一個(gè)多階段決策問(wèn)題,在每個(gè)階段(時(shí)刻)針對(duì)某個(gè)模型或者超參數(shù)做出相應(yīng)決策,因此不同的時(shí)刻產(chǎn)生不同的輸出。由于模型以及超參數(shù)之間存在相關(guān)性,每個(gè)階段的決策又是相互關(guān)聯(lián)、相互影響的。根據(jù)上述特點(diǎn),模型和超參數(shù)設(shè)置的過(guò)程可由一個(gè)可變的字符串來(lái)表示,利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)構(gòu)造的智能體來(lái)生成這樣的字符串,具體優(yōu)化過(guò)程如圖1 所示。
智能體以概率P 為選擇一組超參數(shù)a1:T,其中,動(dòng)作a1對(duì)應(yīng)選擇的機(jī)器學(xué)習(xí)算法;動(dòng)作序列a2:T表示a1選擇的算法模型中超參數(shù)的取值。T–1 為a1選擇的算法模型中超參數(shù)的總個(gè)數(shù),不同的機(jī)器學(xué)習(xí)算法T 的取值不同。接下來(lái),在訓(xùn)練數(shù)據(jù)集上訓(xùn)練智能體選擇a1:T所對(duì)應(yīng)的算法模型;以訓(xùn)練好模型在驗(yàn)證集上的準(zhǔn)確率作為獎(jiǎng)賞值(reward),利用強(qiáng)化學(xué)習(xí)中的策略梯度算法來(lái)訓(xùn)練Agent。獎(jiǎng)賞值引導(dǎo)Agent 在下次迭代中以更高的概率選擇準(zhǔn)確率高的算法及對(duì)應(yīng)的超參數(shù)的值。隨著時(shí)間的推移,智能體將學(xué)會(huì)如何針對(duì)某一問(wèn)題(或數(shù)據(jù)集)自主選擇最優(yōu)的機(jī)器學(xué)習(xí)算法和相關(guān)超參數(shù)。
本文利用LSTM 網(wǎng)絡(luò)構(gòu)造Agent 來(lái)自動(dòng)選擇算法模型及超參數(shù)組合。該Agent 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,它的核心由3 層LSTM 網(wǎng)絡(luò)構(gòu)成,每層擁有35 個(gè)神經(jīng)元節(jié)點(diǎn);輸出層由softmax 函數(shù)構(gòu)成;輸入層、輸出層與3 層LSTM 網(wǎng)絡(luò)結(jié)構(gòu)之間各有一個(gè)全連接層。Agent 中3 層LSTM 網(wǎng)絡(luò)結(jié)構(gòu)在任意時(shí)刻的結(jié)構(gòu)、參數(shù)共享。Agent 在不同時(shí)刻輸出不同的模型/超參數(shù)選擇,并把不同時(shí)刻選擇值在候選值中的索引位置作為下一時(shí)刻的輸入數(shù)據(jù),當(dāng)所有超參數(shù)值生成后,Agent 輸出停止。Agent 在任意時(shí)刻的輸出為對(duì)某個(gè)模型/超參數(shù)所有候選值的評(píng)估。該值越大,對(duì)應(yīng)的預(yù)選值被選中的概率越高;反之,越低。Agent 根據(jù)這些評(píng)估值做出最優(yōu)的選擇。
當(dāng)Agent 以概率P 選擇模型/超參數(shù)序列a1:T后,將a1:T對(duì)應(yīng)的算法模型在訓(xùn)練數(shù)據(jù)集上訓(xùn)練至收斂,再在驗(yàn)證數(shù)據(jù)集上運(yùn)行得到的準(zhǔn)確率作為獎(jiǎng)勵(lì)信號(hào)R 來(lái)優(yōu)化Agent 的參數(shù)θ,使得隨著時(shí)間的推移,Agent 學(xué)會(huì)選擇準(zhǔn)確率更高的模型/超參數(shù)組合。Agent 訓(xùn)練方法采用強(qiáng)化學(xué)習(xí)算法中的策略梯度[12],算法的優(yōu)化目標(biāo)為最大化期望總獎(jiǎng)賞:
式中, P( a1:T;θ)表示表示Agent 輸出模型/超參數(shù)序列a1:T的概率。
由于優(yōu)化目標(biāo)是找到一個(gè)參數(shù)θ,使得期望總獎(jiǎng)賞最大化。根據(jù)梯度下降算法,通過(guò)求解目標(biāo)函數(shù)的梯度,進(jìn)而更新參數(shù)θ,最終可求得局部最優(yōu)值:
根據(jù)上式,可以看出 ?θ(J(θ))為 函數(shù)?θlogP(at|a(t?1):1;θ)的期望。本文利用在固定參數(shù)θ 下m 次采樣的均值作為梯度更新的無(wú)偏估計(jì):
式中,Rk為第k 次采樣的模型在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率;b 為基準(zhǔn)值,其值為已采樣到的算法模型的準(zhǔn)確率的指數(shù)滑動(dòng)平均值。基準(zhǔn)值設(shè)置的目的在于減小Agent 訓(xùn)練過(guò)程中的方差。
雖然策略梯度算法中采用了基準(zhǔn)值降低訓(xùn)練中的方差,但Agent 訓(xùn)練過(guò)程中仍存在方差過(guò)大問(wèn)題。為了進(jìn)一步減小方差,提高Agent 決策的穩(wěn)定性,本文為Agent 添加一個(gè)“引導(dǎo)數(shù)據(jù)池”。具體來(lái)說(shuō),設(shè)置一個(gè)大小為m 的數(shù)據(jù)池,保存到當(dāng)前時(shí)刻性能表現(xiàn)最好的m 條數(shù)據(jù),定期把這批數(shù)據(jù)送入到Agent 中進(jìn)行訓(xùn)練。這樣做起到了一個(gè)把握優(yōu)化方向、防止模型方差過(guò)大的作用,故稱(chēng)之為引導(dǎo)數(shù)據(jù)池。具體算法如下。
輸入:無(wú)
輸出:最優(yōu)超參數(shù)組合
1) 初始化Agent 的模型參數(shù)θ;
2) 初始化引導(dǎo)數(shù)據(jù)池top_data;
3) for i = 1 : (N/m)
4) for j = 1 : m
5) 初始化Agent 的輸入數(shù)據(jù)input 為全1 向量;
6) for t = 1 : T
7) 將t 時(shí)刻的輸入數(shù)據(jù)添加進(jìn)輸入數(shù)據(jù)列表;
8) 將Agent 在t 時(shí)刻輸出值作為下一時(shí) 刻的輸入數(shù)據(jù);
9) 將t 時(shí)刻的選擇添加進(jìn)動(dòng)作列表actions;
10) end for;
11) end for;
12) 在訓(xùn)練數(shù)據(jù)集上訓(xùn)練與動(dòng)作列表actions 對(duì) 應(yīng)的模型,在驗(yàn)證數(shù)據(jù)上驗(yàn)證模型準(zhǔn)確 性,得到獎(jiǎng)賞值并存入獎(jiǎng)勵(lì)值列表rewards;
13) 更新引導(dǎo)數(shù)據(jù)池top_data;
14) if i == 0
15) b = mean(rewards);
16) end if;
17) if (i+1) % n_step == 0
18) 獲取引導(dǎo)數(shù)據(jù)池top_data 中的數(shù)據(jù);
19) 利用策略梯度算法更新Agent 的參數(shù)θ;
20) else
21) 利用策略梯度算法更新Agent 的參數(shù)θ;
22) end if;
23) b=b*r + mean(rewards)*(1-r);
24) end for
其中,N 表示Agent 采樣的總批次數(shù)(迭代次數(shù));m 為Agent 更新一次模型參數(shù)所需的數(shù)據(jù)量大小;n_step 為Agent 利用數(shù)據(jù)引導(dǎo)池中的數(shù)據(jù)更新模型參數(shù)的步伐大小;r 控制著基準(zhǔn)值b 的滑動(dòng)范圍。
為了驗(yàn)證引導(dǎo)數(shù)據(jù)池的有效性,同樣對(duì)隨機(jī)森林算法的超參數(shù)進(jìn)行優(yōu)化實(shí)驗(yàn)。在相同的實(shí)驗(yàn)環(huán)境下,本文進(jìn)行了共20 次的未添加引導(dǎo)數(shù)據(jù)池的Agent 與添加了引導(dǎo)數(shù)據(jù)池的Agent 的對(duì)比實(shí)驗(yàn),如圖3 所示。實(shí)驗(yàn)結(jié)果表明,添加了引導(dǎo)數(shù)據(jù)池的Agent 在18 次運(yùn)行中都選擇到了同一個(gè)最優(yōu)的超參數(shù)組合,而未添加引導(dǎo)數(shù)據(jù)池的Agent 只有1 次選擇到了最優(yōu)的超參數(shù)組合。未添加引導(dǎo)數(shù)據(jù)池的Agent 所存在的高方差、不穩(wěn)定的問(wèn)題得到了有效的解決。
根據(jù)文獻(xiàn)[25]中對(duì)179 種機(jī)器學(xué)習(xí)算法在UCI machine learning repository 數(shù)據(jù)集上的評(píng)估結(jié)果,本文挑選了一些具有代表性的學(xué)習(xí)算法以及相應(yīng)超參數(shù),并為這些超參數(shù)設(shè)定了一些候選值,詳細(xì)情況如表1 所示。
UCI machine learning repository 數(shù)據(jù)集是一種常見(jiàn)的、用于分類(lèi)任務(wù)的數(shù)據(jù)集。采用兩種UCI標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試,數(shù)據(jù)集信息如表2 所示。數(shù)據(jù)集的原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,將整個(gè)數(shù)據(jù)集分成驗(yàn)證集和測(cè)試集兩部分,驗(yàn)證集占整個(gè)數(shù)據(jù)集的80%,數(shù)據(jù)集中剩余的20%的數(shù)據(jù)將作為測(cè)試集,用于測(cè)試所選擇的超參數(shù)組合對(duì)應(yīng)的模型最終的性能。
在構(gòu)建Agent 的過(guò)程中,Agent 采用3 層LSTM,每一層有35 個(gè)隱藏節(jié)點(diǎn)。采樣的總次數(shù)N 設(shè)置為5 000 次;每次采樣的超參數(shù)組合的數(shù)量m 設(shè)置為8;引導(dǎo)池大小設(shè)置為8;數(shù)據(jù)引導(dǎo)池的利用間隔n_step 設(shè)置為10;基準(zhǔn)值b 的控制率r 設(shè)置為0.8;以?0.2~0.2 之間的隨機(jī)值對(duì)Agent 的權(quán)重進(jìn)行初始化,使用Adam 優(yōu)化器[26]進(jìn)行策略?xún)?yōu)化。

表1 候選算法模型及對(duì)應(yīng)超參數(shù)候選值

表2 數(shù)據(jù)集基本信息
實(shí)驗(yàn)在兩個(gè)UCI 標(biāo)準(zhǔn)數(shù)據(jù)集下進(jìn)行,對(duì)比了CMAES 優(yōu)化方法、TPE 優(yōu)化方法、隨機(jī)搜索方法的準(zhǔn)確度、時(shí)間效率、穩(wěn)定性。實(shí)驗(yàn)結(jié)果如圖4 和表3 所示,所有結(jié)果為3 次實(shí)驗(yàn)后統(tǒng)計(jì)值。圖中所示為3 次實(shí)驗(yàn)的平均值和1 倍標(biāo)準(zhǔn)差。
圖4為優(yōu)化過(guò)程中所有方法的準(zhǔn)確度。橫軸表示采樣次數(shù);縱軸表示每次采樣后選擇的模型在驗(yàn)證集上的準(zhǔn)確率。圖中數(shù)據(jù)為3 次實(shí)驗(yàn)的均值和一倍標(biāo)準(zhǔn)差。表3 結(jié)果為5 000 次采樣完成后,4種方法選擇的模型的統(tǒng)計(jì)結(jié)果(3 次實(shí)驗(yàn)平均值)。其中,準(zhǔn)確度表示模型在驗(yàn)證集上最高準(zhǔn)確率的平均值;耗時(shí)為完成3 次訓(xùn)練所耗費(fèi)時(shí)間的平均值,該值大小反應(yīng)了優(yōu)化算法的時(shí)間性能;標(biāo)準(zhǔn)差為3 次實(shí)驗(yàn)最高準(zhǔn)確率統(tǒng)計(jì)的標(biāo)準(zhǔn)差,該項(xiàng)數(shù)據(jù)反應(yīng)了算法的穩(wěn)定性。

表3 優(yōu)化結(jié)束后統(tǒng)計(jì)結(jié)果
通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)可以看出,本文提出的優(yōu)化算法能夠在最短的時(shí)間搜索到最優(yōu)的結(jié)果。雖然隨機(jī)搜索、TPE 優(yōu)化方法和CMAES 優(yōu)化方法也能達(dá)到較好的優(yōu)化結(jié)果,相比之下,Agent 能夠用遠(yuǎn)少于前兩種方法的時(shí)間搜索出更優(yōu)的算法模型和超參數(shù)組合,尤其是在問(wèn)題規(guī)模增大時(shí),Agent 優(yōu)化方法仍具有很高的時(shí)間效率,綜合性能更好。TPE 方法使用從開(kāi)始到當(dāng)前時(shí)刻所有采樣的數(shù)據(jù)進(jìn)行訓(xùn)練,這就造成了對(duì)數(shù)據(jù)的極大依賴(lài),容易造成過(guò)擬合,最終陷入局部最優(yōu)。相比之下,Agent 在對(duì)自身的模型參數(shù)進(jìn)行更新時(shí),每次都是由當(dāng)前時(shí)刻采樣到的新數(shù)據(jù)進(jìn)行訓(xùn)練,能夠搜索到更好最優(yōu)解。隨機(jī)搜索算法的搜索效率相比與TPE 算法更低,究其原因在于隨機(jī)搜索方法的采樣具有隨機(jī)性,隨著搜索空間增大,搜索到相同模型超參數(shù)組合可能性越小,因而耗費(fèi)在模型訓(xùn)練上的時(shí)間也就越多。通過(guò)實(shí)驗(yàn)還發(fā)現(xiàn)Agent 通過(guò)數(shù)據(jù)引導(dǎo)池結(jié)構(gòu),相比于TPE 和隨機(jī)搜索方法能夠有效的減小訓(xùn)練時(shí)的方差,使訓(xùn)練更加穩(wěn)定。
本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法。該方法利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)構(gòu)建了一個(gè)Agent,針對(duì)不同問(wèn)題(數(shù)據(jù)集)自動(dòng)進(jìn)行算法選擇超參數(shù)優(yōu)化。Agent 以最大化模型在驗(yàn)證集上的準(zhǔn)確率為目標(biāo),以Agent 每次選擇的所對(duì)應(yīng)的模型在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率作為獎(jiǎng)賞值,利用策略梯度算法來(lái)修正Agent 的模型參數(shù)。經(jīng)過(guò)多次迭代,Agent 最終收斂并選擇出最優(yōu)的算法模型及超參數(shù)組合。為了驗(yàn)證算法的可行性和性能,利用Agent對(duì)兩種標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行優(yōu)化實(shí)驗(yàn)。通過(guò)對(duì)比TPE和隨機(jī)搜索兩種具有代表性的超參數(shù)優(yōu)化方法,本文提出的方法在準(zhǔn)確率、運(yùn)行時(shí)間效率和穩(wěn)定性上均優(yōu)于上述算法,特別是對(duì)于規(guī)模較大的問(wèn)題,具有絕對(duì)優(yōu)勢(shì),其完成優(yōu)化所需的時(shí)長(zhǎng)最低僅約為隨機(jī)搜索方法的12%和TPE 優(yōu)化方法的19%。