基于強(qiáng)化學(xué)習(xí)的模型選擇和超參數(shù)優(yōu)化

2020-04-06 08:48:16陳森朋陳修云

電子科技大學(xué)學(xué)報(bào) 2020年2期

吳佳，陳森朋，陳修云，周瑞

(電子科技大學(xué)信息與軟件工程學(xué)院成都 610054)

近年來(lái)，機(jī)器學(xué)習(xí)已廣泛應(yīng)用于如機(jī)器翻譯[1-2]、語(yǔ)音識(shí)別[3-4]、圖像識(shí)別[5-6]和游戲[7]等眾多領(lǐng)域。針對(duì)某一問(wèn)題，如何快速構(gòu)建一個(gè)成熟、可靠的機(jī)器學(xué)習(xí)模型就顯得尤為重要。為了滿足行業(yè)需要，使機(jī)器學(xué)習(xí)算法能夠得到快速、高效的利用，一大批企業(yè)針對(duì)普通用戶(hù)開(kāi)發(fā)出了一些應(yīng)用系統(tǒng)，如DataRobot.com[8]、BigML.com[9]、Wise.io[10]等。在機(jī)器學(xué)習(xí)算法的應(yīng)用中，不可避免涉及兩個(gè)重要問(wèn)題：算法模型選擇和超參數(shù)優(yōu)化。

現(xiàn)有的機(jī)器學(xué)習(xí)算法眾多，具有代表性的算法有邏輯回歸(logistic regression)、支持向量機(jī)(support vector machine)、決策樹(shù)(decision tree)和隨機(jī)森林(random forest)等。針對(duì)不同的問(wèn)題，沒(méi)有一個(gè)機(jī)器學(xué)習(xí)算法模型能夠適用于所有問(wèn)題。在同一問(wèn)題上，不同的方法所達(dá)到的性能也存在不同程度的差異。這給機(jī)器學(xué)習(xí)算法的使用者造成了不小的麻煩。算法模型選擇成了機(jī)器學(xué)習(xí)算法廣泛應(yīng)用的一大障礙。

另外，超參數(shù)優(yōu)化同樣成為了機(jī)器學(xué)習(xí)算法應(yīng)用中的難點(diǎn)之一。超參數(shù)不同于算法模型內(nèi)部的參數(shù)，它是在算法模型訓(xùn)練之前設(shè)置的參數(shù)。在訓(xùn)練開(kāi)始之前，往往希望找到一組超參數(shù)的值，即超參數(shù)組合，使得算法模型可以在合理的時(shí)間范圍內(nèi)對(duì)某一數(shù)據(jù)集的分類(lèi)或擬合達(dá)到最佳性能。這個(gè)過(guò)程被稱(chēng)為超參數(shù)優(yōu)化，它對(duì)機(jī)器學(xué)習(xí)算法的性能起著至關(guān)重要的作用。在實(shí)踐中通常需要不斷調(diào)整超參數(shù)的值，最終選擇最佳的超參數(shù)組合。若算法模型的超參數(shù)搜索空間較大，該過(guò)程將非常耗時(shí)。

因此，針對(duì)某一問(wèn)題(或數(shù)據(jù)集)，最終結(jié)果很大程度上是由機(jī)器學(xué)習(xí)算法模型和算法對(duì)應(yīng)的超參數(shù)組合共同決定的。本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的方法，用于自動(dòng)實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的選擇和超參數(shù)的優(yōu)化。該方法利用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)[8]構(gòu)建一個(gè)智能體(Agent)來(lái)代替機(jī)器學(xué)習(xí)使用者選擇最優(yōu)的機(jī)器學(xué)習(xí)算法及其超參數(shù)；Agent 在訓(xùn)練集上訓(xùn)練所選擇的機(jī)器學(xué)習(xí)算法及超參數(shù)組合所對(duì)應(yīng)的算法模型，在驗(yàn)證數(shù)據(jù)集上驗(yàn)證該算法模型的性能；以在驗(yàn)證集上的準(zhǔn)確度作為獎(jiǎng)賞值，利用策略梯度算法(policy gradient)[9]優(yōu)化Agent 的決策。經(jīng)過(guò)多次迭代，Agent 選擇出適合該問(wèn)題的最優(yōu)模型及對(duì)應(yīng)的超參數(shù)。在Agent 訓(xùn)練過(guò)程中，梯度方差較大，本文提出引導(dǎo)數(shù)據(jù)池來(lái)解決該問(wèn)題。本文主要的貢獻(xiàn)在于以下3 點(diǎn)：

1) 使用強(qiáng)化學(xué)習(xí)框架來(lái)解決模型選擇和超參數(shù)優(yōu)化問(wèn)題；

2) 提出了數(shù)據(jù)引導(dǎo)池結(jié)構(gòu)來(lái)提高方法的穩(wěn)定性；

3) 通過(guò)在標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)8 種機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化，相比于其他方法，本文提出的方法達(dá)到了最好的優(yōu)化結(jié)果。

1 相關(guān)工作

模型選擇和超參數(shù)優(yōu)化問(wèn)題通常稱(chēng)為CASH(combined algorithm selection and hyperp-arameter optimization)[10]問(wèn)題。CASH 問(wèn)題定義如下：

針對(duì)某一數(shù)據(jù)集，尋找使得式(1)的值最小的算法 A?及相應(yīng)的超參數(shù)配置 λ?：

為了解決CASH 問(wèn)題，研究者提出了一系列解決方案，如隨機(jī)搜索，貝葉斯優(yōu)化等。隨機(jī)搜索在算法和對(duì)應(yīng)的超參數(shù)構(gòu)成的搜索空間中隨機(jī)采樣。該方法執(zhí)行起來(lái)效率高且操作簡(jiǎn)單，經(jīng)過(guò)少量的嘗試就可以搜索到性能較好的機(jī)器學(xué)習(xí)算法及相應(yīng)的超參數(shù)的值。但文獻(xiàn)[10]表明，隨機(jī)搜索方法只有在達(dá)到或接近最優(yōu)值的組合的數(shù)量占總的組合數(shù)量的比重超過(guò)5%時(shí)，搜索效率較高；其他情況下，隨機(jī)搜索方法的表現(xiàn)較差，很難搜索到最優(yōu)值。Auto-WEKA 是一個(gè)基于機(jī)器學(xué)習(xí)工具包WEKA[11]的自動(dòng)化機(jī)器學(xué)習(xí)框架。CASH 問(wèn)題首先在Auto-WEKA[12]系統(tǒng)中被解決，其核心是貝葉斯優(yōu)化方法，主要包括基于高斯過(guò)程的貝葉斯優(yōu)化方法[13]，基于模型的順序算法配置方法(sequential modelbased algorithm configuration, SMAC)[14]及其改進(jìn)版本的基于樹(shù)狀結(jié)構(gòu)Parzen 的估計(jì)方法(TPE)[15]。文獻(xiàn)[16]使用熱啟動(dòng)技術(shù)提升SMAC 的性能。自適應(yīng)協(xié)方差矩陣進(jìn)化策略(CMA-ES)算法[17]，是基于進(jìn)化算法的一種改進(jìn)算法，主要用來(lái)解決非線性、非凸的優(yōu)化問(wèn)題，在解決模型選擇和超參數(shù)優(yōu)化問(wèn)題也具有很好的效果。最近，BOHB[18]被提出，該方法將貝葉斯優(yōu)化與HyperBand 方法相結(jié)合用于解決模型選擇和超參數(shù)優(yōu)化問(wèn)題，并具有很好的優(yōu)化效果。上述這些方法存在一定的局限性，如基于高斯過(guò)程的貝葉斯優(yōu)化方法只適用于低維空間的超參數(shù)優(yōu)化問(wèn)題。在搜索性能方面，基于貝葉斯優(yōu)化的方法容易陷入局部最優(yōu)，很難探索出模型性能最好的算法及超參數(shù)組合。在時(shí)間性能方法，對(duì)于擁有較大的搜索空間的問(wèn)題，貝葉斯優(yōu)化方法時(shí)間效率會(huì)大幅降低。

強(qiáng)化學(xué)習(xí)(reinforcement learning，RL)[19]是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來(lái)的。其基本原理是：智能體的行為決策得到環(huán)境的反饋，即獎(jiǎng)賞值；通過(guò)最大化累積獎(jiǎng)賞值，以學(xué)習(xí)到最優(yōu)的行動(dòng)策略。通常利用馬爾可夫決策過(guò)程對(duì)強(qiáng)化學(xué)習(xí)問(wèn)題進(jìn)行建模。隨著問(wèn)題復(fù)雜度增加，谷歌的人工智能團(tuán)隊(duì)將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合，即深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning，DRL)[20]，成功解決了諸如與人類(lèi)進(jìn)行圍棋對(duì)弈[21]等復(fù)雜任務(wù)。通過(guò)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合，實(shí)現(xiàn)了從感知(perception)到動(dòng)作(action)的端對(duì)端的學(xué)習(xí)。目前，深度強(qiáng)化學(xué)習(xí)在視頻[22]、游戲[23]、機(jī)器人[24]等領(lǐng)域獲得廣泛的應(yīng)用。本文利用深度強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)來(lái)解決CASH 問(wèn)題。

2 模型選擇和超參數(shù)優(yōu)化方法

2.1 Agent 模型結(jié)構(gòu)

模型選擇和超參數(shù)優(yōu)化可看作一個(gè)多階段決策問(wèn)題，在每個(gè)階段(時(shí)刻)針對(duì)某個(gè)模型或者超參數(shù)做出相應(yīng)決策，因此不同的時(shí)刻產(chǎn)生不同的輸出。由于模型以及超參數(shù)之間存在相關(guān)性，每個(gè)階段的決策又是相互關(guān)聯(lián)、相互影響的。根據(jù)上述特點(diǎn)，模型和超參數(shù)設(shè)置的過(guò)程可由一個(gè)可變的字符串來(lái)表示，利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)構(gòu)造的智能體來(lái)生成這樣的字符串，具體優(yōu)化過(guò)程如圖1 所示。

智能體以概率P 為選擇一組超參數(shù)a1:T，其中，動(dòng)作a1對(duì)應(yīng)選擇的機(jī)器學(xué)習(xí)算法；動(dòng)作序列a2:T表示a1選擇的算法模型中超參數(shù)的取值。T–1 為a1選擇的算法模型中超參數(shù)的總個(gè)數(shù)，不同的機(jī)器學(xué)習(xí)算法T 的取值不同。接下來(lái)，在訓(xùn)練數(shù)據(jù)集上訓(xùn)練智能體選擇a1:T所對(duì)應(yīng)的算法模型；以訓(xùn)練好模型在驗(yàn)證集上的準(zhǔn)確率作為獎(jiǎng)賞值(reward)，利用強(qiáng)化學(xué)習(xí)中的策略梯度算法來(lái)訓(xùn)練Agent。獎(jiǎng)賞值引導(dǎo)Agent 在下次迭代中以更高的概率選擇準(zhǔn)確率高的算法及對(duì)應(yīng)的超參數(shù)的值。隨著時(shí)間的推移，智能體將學(xué)會(huì)如何針對(duì)某一問(wèn)題(或數(shù)據(jù)集)自主選擇最優(yōu)的機(jī)器學(xué)習(xí)算法和相關(guān)超參數(shù)。

本文利用LSTM 網(wǎng)絡(luò)構(gòu)造Agent 來(lái)自動(dòng)選擇算法模型及超參數(shù)組合。該Agent 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，它的核心由3 層LSTM 網(wǎng)絡(luò)構(gòu)成，每層擁有35 個(gè)神經(jīng)元節(jié)點(diǎn)；輸出層由softmax 函數(shù)構(gòu)成；輸入層、輸出層與3 層LSTM 網(wǎng)絡(luò)結(jié)構(gòu)之間各有一個(gè)全連接層。Agent 中3 層LSTM 網(wǎng)絡(luò)結(jié)構(gòu)在任意時(shí)刻的結(jié)構(gòu)、參數(shù)共享。Agent 在不同時(shí)刻輸出不同的模型/超參數(shù)選擇，并把不同時(shí)刻選擇值在候選值中的索引位置作為下一時(shí)刻的輸入數(shù)據(jù)，當(dāng)所有超參數(shù)值生成后，Agent 輸出停止。Agent 在任意時(shí)刻的輸出為對(duì)某個(gè)模型/超參數(shù)所有候選值的評(píng)估。該值越大，對(duì)應(yīng)的預(yù)選值被選中的概率越高；反之，越低。Agent 根據(jù)這些評(píng)估值做出最優(yōu)的選擇。

2.2 Agent 訓(xùn)練學(xué)習(xí)

當(dāng)Agent 以概率P 選擇模型/超參數(shù)序列a1:T后，將a1:T對(duì)應(yīng)的算法模型在訓(xùn)練數(shù)據(jù)集上訓(xùn)練至收斂，再在驗(yàn)證數(shù)據(jù)集上運(yùn)行得到的準(zhǔn)確率作為獎(jiǎng)勵(lì)信號(hào)R 來(lái)優(yōu)化Agent 的參數(shù)θ，使得隨著時(shí)間的推移，Agent 學(xué)會(huì)選擇準(zhǔn)確率更高的模型/超參數(shù)組合。Agent 訓(xùn)練方法采用強(qiáng)化學(xué)習(xí)算法中的策略梯度[12]，算法的優(yōu)化目標(biāo)為最大化期望總獎(jiǎng)賞：

式中， P( a1:T;θ)表示表示Agent 輸出模型/超參數(shù)序列a1:T的概率。

由于優(yōu)化目標(biāo)是找到一個(gè)參數(shù)θ，使得期望總獎(jiǎng)賞最大化。根據(jù)梯度下降算法，通過(guò)求解目標(biāo)函數(shù)的梯度，進(jìn)而更新參數(shù)θ，最終可求得局部最優(yōu)值：

根據(jù)上式，可以看出 ?θ(J(θ))為函數(shù)?θlogP(at|a(t?1):1;θ)的期望。本文利用在固定參數(shù)θ 下m 次采樣的均值作為梯度更新的無(wú)偏估計(jì)：

式中，Rk為第k 次采樣的模型在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率；b 為基準(zhǔn)值，其值為已采樣到的算法模型的準(zhǔn)確率的指數(shù)滑動(dòng)平均值。基準(zhǔn)值設(shè)置的目的在于減小Agent 訓(xùn)練過(guò)程中的方差。

2.3 減小方差

雖然策略梯度算法中采用了基準(zhǔn)值降低訓(xùn)練中的方差，但Agent 訓(xùn)練過(guò)程中仍存在方差過(guò)大問(wèn)題。為了進(jìn)一步減小方差，提高Agent 決策的穩(wěn)定性，本文為Agent 添加一個(gè)“引導(dǎo)數(shù)據(jù)池”。具體來(lái)說(shuō)，設(shè)置一個(gè)大小為m 的數(shù)據(jù)池，保存到當(dāng)前時(shí)刻性能表現(xiàn)最好的m 條數(shù)據(jù)，定期把這批數(shù)據(jù)送入到Agent 中進(jìn)行訓(xùn)練。這樣做起到了一個(gè)把握優(yōu)化方向、防止模型方差過(guò)大的作用，故稱(chēng)之為引導(dǎo)數(shù)據(jù)池。具體算法如下。

輸入：無(wú)

輸出：最優(yōu)超參數(shù)組合

1) 初始化Agent 的模型參數(shù)θ;

2) 初始化引導(dǎo)數(shù)據(jù)池top_data;

3) for i = 1 : (N/m)

4) for j = 1 : m

5) 初始化Agent 的輸入數(shù)據(jù)input 為全1 向量;

6) for t = 1 : T

7) 將t 時(shí)刻的輸入數(shù)據(jù)添加進(jìn)輸入數(shù)據(jù)列表;

8) 將Agent 在t 時(shí)刻輸出值作為下一時(shí) 刻的輸入數(shù)據(jù);

9) 將t 時(shí)刻的選擇添加進(jìn)動(dòng)作列表actions;

10) end for;

11) end for;

12) 在訓(xùn)練數(shù)據(jù)集上訓(xùn)練與動(dòng)作列表actions 對(duì) 應(yīng)的模型，在驗(yàn)證數(shù)據(jù)上驗(yàn)證模型準(zhǔn)確性，得到獎(jiǎng)賞值并存入獎(jiǎng)勵(lì)值列表rewards;

13) 更新引導(dǎo)數(shù)據(jù)池top_data;

14) if i == 0

15) b = mean(rewards);

16) end if;

17) if (i+1) % n_step == 0

18) 獲取引導(dǎo)數(shù)據(jù)池top_data 中的數(shù)據(jù)；

19) 利用策略梯度算法更新Agent 的參數(shù)θ;

20) else

21) 利用策略梯度算法更新Agent 的參數(shù)θ;

22) end if;

23) b=b*r + mean(rewards)*(1-r);

24) end for

其中，N 表示Agent 采樣的總批次數(shù)(迭代次數(shù))；m 為Agent 更新一次模型參數(shù)所需的數(shù)據(jù)量大小；n_step 為Agent 利用數(shù)據(jù)引導(dǎo)池中的數(shù)據(jù)更新模型參數(shù)的步伐大小；r 控制著基準(zhǔn)值b 的滑動(dòng)范圍。

為了驗(yàn)證引導(dǎo)數(shù)據(jù)池的有效性，同樣對(duì)隨機(jī)森林算法的超參數(shù)進(jìn)行優(yōu)化實(shí)驗(yàn)。在相同的實(shí)驗(yàn)環(huán)境下，本文進(jìn)行了共20 次的未添加引導(dǎo)數(shù)據(jù)池的Agent 與添加了引導(dǎo)數(shù)據(jù)池的Agent 的對(duì)比實(shí)驗(yàn)，如圖3 所示。實(shí)驗(yàn)結(jié)果表明，添加了引導(dǎo)數(shù)據(jù)池的Agent 在18 次運(yùn)行中都選擇到了同一個(gè)最優(yōu)的超參數(shù)組合，而未添加引導(dǎo)數(shù)據(jù)池的Agent 只有1 次選擇到了最優(yōu)的超參數(shù)組合。未添加引導(dǎo)數(shù)據(jù)池的Agent 所存在的高方差、不穩(wěn)定的問(wèn)題得到了有效的解決。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 搜索空間及數(shù)據(jù)集

根據(jù)文獻(xiàn)[25]中對(duì)179 種機(jī)器學(xué)習(xí)算法在UCI machine learning repository 數(shù)據(jù)集上的評(píng)估結(jié)果，本文挑選了一些具有代表性的學(xué)習(xí)算法以及相應(yīng)超參數(shù)，并為這些超參數(shù)設(shè)定了一些候選值，詳細(xì)情況如表1 所示。

UCI machine learning repository 數(shù)據(jù)集是一種常見(jiàn)的、用于分類(lèi)任務(wù)的數(shù)據(jù)集。采用兩種UCI標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試，數(shù)據(jù)集信息如表2 所示。數(shù)據(jù)集的原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理后，將整個(gè)數(shù)據(jù)集分成驗(yàn)證集和測(cè)試集兩部分，驗(yàn)證集占整個(gè)數(shù)據(jù)集的80%，數(shù)據(jù)集中剩余的20%的數(shù)據(jù)將作為測(cè)試集，用于測(cè)試所選擇的超參數(shù)組合對(duì)應(yīng)的模型最終的性能。

在構(gòu)建Agent 的過(guò)程中，Agent 采用3 層LSTM，每一層有35 個(gè)隱藏節(jié)點(diǎn)。采樣的總次數(shù)N 設(shè)置為5 000 次；每次采樣的超參數(shù)組合的數(shù)量m 設(shè)置為8；引導(dǎo)池大小設(shè)置為8；數(shù)據(jù)引導(dǎo)池的利用間隔n_step 設(shè)置為10；基準(zhǔn)值b 的控制率r 設(shè)置為0.8；以?0.2～0.2 之間的隨機(jī)值對(duì)Agent 的權(quán)重進(jìn)行初始化，使用Adam 優(yōu)化器[26]進(jìn)行策略?xún)?yōu)化。

表1 候選算法模型及對(duì)應(yīng)超參數(shù)候選值

表2 數(shù)據(jù)集基本信息

3.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)在兩個(gè)UCI 標(biāo)準(zhǔn)數(shù)據(jù)集下進(jìn)行，對(duì)比了CMAES 優(yōu)化方法、TPE 優(yōu)化方法、隨機(jī)搜索方法的準(zhǔn)確度、時(shí)間效率、穩(wěn)定性。實(shí)驗(yàn)結(jié)果如圖4 和表3 所示，所有結(jié)果為3 次實(shí)驗(yàn)后統(tǒng)計(jì)值。圖中所示為3 次實(shí)驗(yàn)的平均值和1 倍標(biāo)準(zhǔn)差。

圖4為優(yōu)化過(guò)程中所有方法的準(zhǔn)確度。橫軸表示采樣次數(shù)；縱軸表示每次采樣后選擇的模型在驗(yàn)證集上的準(zhǔn)確率。圖中數(shù)據(jù)為3 次實(shí)驗(yàn)的均值和一倍標(biāo)準(zhǔn)差。表3 結(jié)果為5 000 次采樣完成后，4種方法選擇的模型的統(tǒng)計(jì)結(jié)果(3 次實(shí)驗(yàn)平均值)。其中，準(zhǔn)確度表示模型在驗(yàn)證集上最高準(zhǔn)確率的平均值；耗時(shí)為完成3 次訓(xùn)練所耗費(fèi)時(shí)間的平均值，該值大小反應(yīng)了優(yōu)化算法的時(shí)間性能；標(biāo)準(zhǔn)差為3 次實(shí)驗(yàn)最高準(zhǔn)確率統(tǒng)計(jì)的標(biāo)準(zhǔn)差，該項(xiàng)數(shù)據(jù)反應(yīng)了算法的穩(wěn)定性。

表3 優(yōu)化結(jié)束后統(tǒng)計(jì)結(jié)果

通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)可以看出，本文提出的優(yōu)化算法能夠在最短的時(shí)間搜索到最優(yōu)的結(jié)果。雖然隨機(jī)搜索、TPE 優(yōu)化方法和CMAES 優(yōu)化方法也能達(dá)到較好的優(yōu)化結(jié)果，相比之下，Agent 能夠用遠(yuǎn)少于前兩種方法的時(shí)間搜索出更優(yōu)的算法模型和超參數(shù)組合，尤其是在問(wèn)題規(guī)模增大時(shí)，Agent 優(yōu)化方法仍具有很高的時(shí)間效率，綜合性能更好。TPE 方法使用從開(kāi)始到當(dāng)前時(shí)刻所有采樣的數(shù)據(jù)進(jìn)行訓(xùn)練，這就造成了對(duì)數(shù)據(jù)的極大依賴(lài)，容易造成過(guò)擬合，最終陷入局部最優(yōu)。相比之下，Agent 在對(duì)自身的模型參數(shù)進(jìn)行更新時(shí)，每次都是由當(dāng)前時(shí)刻采樣到的新數(shù)據(jù)進(jìn)行訓(xùn)練，能夠搜索到更好最優(yōu)解。隨機(jī)搜索算法的搜索效率相比與TPE 算法更低，究其原因在于隨機(jī)搜索方法的采樣具有隨機(jī)性，隨著搜索空間增大，搜索到相同模型超參數(shù)組合可能性越小，因而耗費(fèi)在模型訓(xùn)練上的時(shí)間也就越多。通過(guò)實(shí)驗(yàn)還發(fā)現(xiàn)Agent 通過(guò)數(shù)據(jù)引導(dǎo)池結(jié)構(gòu)，相比于TPE 和隨機(jī)搜索方法能夠有效的減小訓(xùn)練時(shí)的方差，使訓(xùn)練更加穩(wěn)定。

4 結(jié) 束語(yǔ)

本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法。該方法利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)構(gòu)建了一個(gè)Agent，針對(duì)不同問(wèn)題(數(shù)據(jù)集)自動(dòng)進(jìn)行算法選擇超參數(shù)優(yōu)化。Agent 以最大化模型在驗(yàn)證集上的準(zhǔn)確率為目標(biāo)，以Agent 每次選擇的所對(duì)應(yīng)的模型在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率作為獎(jiǎng)賞值，利用策略梯度算法來(lái)修正Agent 的模型參數(shù)。經(jīng)過(guò)多次迭代，Agent 最終收斂并選擇出最優(yōu)的算法模型及超參數(shù)組合。為了驗(yàn)證算法的可行性和性能，利用Agent對(duì)兩種標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行優(yōu)化實(shí)驗(yàn)。通過(guò)對(duì)比TPE和隨機(jī)搜索兩種具有代表性的超參數(shù)優(yōu)化方法，本文提出的方法在準(zhǔn)確率、運(yùn)行時(shí)間效率和穩(wěn)定性上均優(yōu)于上述算法，特別是對(duì)于規(guī)模較大的問(wèn)題，具有絕對(duì)優(yōu)勢(shì)，其完成優(yōu)化所需的時(shí)長(zhǎng)最低僅約為隨機(jī)搜索方法的12%和TPE 優(yōu)化方法的19%。