999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的特征選擇方法及材料學(xué)應(yīng)用

2022-11-12 09:03:12張鵬張瑞
關(guān)鍵詞:符號特征智能

張鵬張瑞

(1.上海大學(xué)計算機(jī)工程與科學(xué)學(xué)院,上海200444;2.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;3.之江實(shí)驗(yàn)室,浙江杭州311100)

新材料的開發(fā)和應(yīng)用幾乎伴隨著每一項(xiàng)人類歷史上重大的科技進(jìn)步,從銅和鋅混合制成青銅,到作為數(shù)字技術(shù)的核心部件——高質(zhì)量硅芯片.然而,傳統(tǒng)的新材料研發(fā)方法[1],如經(jīng)驗(yàn)試錯法,因具有開發(fā)周期長、效率低、成本高等一系列缺點(diǎn),很難滿足當(dāng)今社會發(fā)展的需求.目前,采用人工智能、機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法[2],因計算成本低、能有效縮短開發(fā)周期,已被應(yīng)用于材料制備、材料分析和材料設(shè)計等諸多領(lǐng)域[3],包括預(yù)測鋼材的疲勞強(qiáng)度、合金材料的物理和機(jī)械性質(zhì)[4]等.

特征選擇通過從原始特征集中選擇出最佳的特征子集,來提高機(jī)器學(xué)習(xí)算法的泛化性能.對材料數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的過程中,需要對含有大量數(shù)據(jù)的特征集進(jìn)行預(yù)處理.通過對特征數(shù)據(jù)的降維操作,不僅能夠減少冗余特征,避免模型過擬合,還能提高模型的可解釋性.同時,特征子集的選擇是一個全局搜索的過程,采用遺傳算法、粒子群算法等啟發(fā)式算法來搜索最優(yōu)子集很有必要.基于此,本工作提出一種基于強(qiáng)化學(xué)習(xí)的封裝式特征選擇方法,首先利用強(qiáng)化學(xué)習(xí)中的智能體探索可能的特征子集空間,然后根據(jù)封裝式特征選擇的評價標(biāo)準(zhǔn)——機(jī)器學(xué)習(xí)算法的性能優(yōu)劣給強(qiáng)化學(xué)習(xí)分配不同的獎勵,最終將獲得最大獎勵的決策序列作為最優(yōu)策略,從而得到最優(yōu)特征子集.與此同時,本工作在非晶合金的分類問題上進(jìn)行驗(yàn)證.此外,為了提高模型的預(yù)測性能,本工作通過符號變換的特征構(gòu)造方法,將低維特征映射到高維特征,最后利用強(qiáng)化學(xué)習(xí)從高維特征中選出最優(yōu)的特征子集,并在鋁基復(fù)合材料的力學(xué)性能預(yù)測上進(jìn)行驗(yàn)證.

1 相關(guān)工作

1.1 特征選擇相關(guān)工作

特征選擇的研究最早可以追溯到20世紀(jì)60年代,涉及機(jī)器學(xué)習(xí)、模式識別等多個領(lǐng)域.隨著特征維度的上升,為了保證學(xué)習(xí)算法的預(yù)測精度,需要訓(xùn)練的樣本數(shù)量大幅增加.因此,特征選擇作為一種最直接的降維手段,得到眾多學(xué)者的關(guān)注和研究.根據(jù)特征選擇過程中使用的評價標(biāo)準(zhǔn)不同,特征選擇方法大致可以分為3種:過濾式方法(filter)、封裝式方法(wrapper)和嵌入式方法(embedded)[5].

過濾式方法獨(dú)立于后續(xù)的機(jī)器學(xué)習(xí)算法,基于數(shù)據(jù)之間的內(nèi)在特性篩選特征,其中針對內(nèi)在特征的評價衍生出很多相關(guān)研究.Relief、ReliefF算法使用歐氏距離衡量特征和目標(biāo)量之間的關(guān)系[6].該類算法考慮了特征和目標(biāo)量之間的相關(guān)性,但是沒有考慮特征之間可能存在冗余.Fisher方法來源于fisher準(zhǔn)則——類內(nèi)距離盡可能小、類間距離盡可能大,能夠選出具有明顯影響的特征[7].其他度量手段,如互信息、信息增益、加入冗余懲罰的互信息、條件互信息、歸一化互信息等[8],都可歸結(jié)為度量特征間、特征與類別間非線性關(guān)系的手段.

封裝式方法將特征選擇過程與后續(xù)的機(jī)器學(xué)習(xí)算法緊密結(jié)合,將模型指標(biāo)作為篩選特征的標(biāo)準(zhǔn).Guyon等[9]在2002年提出高效的封裝式特征選擇算法——支持向量機(jī)-遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE),該算法將SVM的分類準(zhǔn)確率作為選擇特征的標(biāo)準(zhǔn),通過前向搜索尋找最優(yōu)的特征子集,因其高效性目前仍被廣泛使用.2014年,姚登舉等[10]提出一種基于隨機(jī)森林的封裝式特征選擇方法,通過隨機(jī)森林對特征的重要性排序,用后向搜索的方法依次刪去子集中重要性最低的特征,并重新訓(xùn)練模型,最后選擇分類準(zhǔn)確率最高的特征子集作為特征選擇結(jié)果.封裝式方法結(jié)合了具體的機(jī)器學(xué)習(xí)算法,每次評價都需要訓(xùn)練一次模型,因此運(yùn)行時間較長,但該類算法通常能夠選出具有良好解釋性的、小規(guī)模的特征子集.隨著計算能力的提高以及智能優(yōu)化算法的發(fā)展,封裝式方法也得到了廣泛的應(yīng)用.

嵌入式方法是將特征選擇方法嵌入機(jī)器學(xué)習(xí)算法中,整個模型訓(xùn)練的過程也是特征選擇的過程,模型訓(xùn)練結(jié)束就可以得到特征子集.決策樹是典型的嵌入式特征選擇方法,其特征選擇的標(biāo)準(zhǔn)有信息增益、信息增益率和基尼系數(shù)等[11].另一類是基于L1正則化方法,通過將回歸系數(shù)中0的特征刪掉,最后留下來的特征就是選出的特征子集[12].

1.2 強(qiáng)化學(xué)習(xí)相關(guān)工作

1953年,Bellman提出了動態(tài)規(guī)劃數(shù)學(xué)理論和方法,其中的貝爾曼方程是強(qiáng)化學(xué)習(xí)的基礎(chǔ)之一.1957年,Bellman等[13]又提出了馬爾可夫決策過程,為強(qiáng)化學(xué)習(xí)的發(fā)展作出重要貢獻(xiàn).20世紀(jì)60年代,Andreae等[14]開發(fā)了通過與環(huán)境交互進(jìn)行試錯學(xué)習(xí)的系統(tǒng)——STeLLA系統(tǒng).1988年,Sutton等[15]首次使用時間差分(time difference,TD)學(xué)習(xí)算法.1989年,Watkins[16]首次提出了Q-learning強(qiáng)化學(xué)習(xí)算法,利用TD算法更新維護(hù)Q表,最終可以收斂到最優(yōu)Q值.2013年,DeepMind團(tuán)隊(duì)利用智能體通過深度學(xué)習(xí)網(wǎng)絡(luò)直接從高維度的感應(yīng)器輸入中提取有效特征,然后利用Q-learning的思想尋找最優(yōu)策略,這種與深度學(xué)習(xí)結(jié)合的Q-learning強(qiáng)化學(xué)習(xí)也被稱為深度Q-learning網(wǎng)絡(luò)(deepQ-learning network,DQN)[17].2014年,Silver等[18]提出確定性策略梯度強(qiáng)化學(xué)習(xí)算法,相較于DQN,該算法可以選擇連續(xù)的動作行為.2015年,Van Hasselt等[19]提出雙Q-learning的深度強(qiáng)化學(xué)習(xí),加速強(qiáng)化學(xué)習(xí)的收斂.2017年,DeepMind發(fā)布AlphaGo Zero,該智能體不需要人類專業(yè)棋譜,通過自我對弈,就超過了之前的AlphaGo版本[20].

2 強(qiáng)化學(xué)習(xí)基本理論

強(qiáng)化學(xué)習(xí)是一種學(xué)習(xí)環(huán)境狀態(tài)到智能體行為映射的機(jī)器學(xué)習(xí)方法.強(qiáng)化學(xué)習(xí)的主體——智能體,通過接收當(dāng)前環(huán)境特征,對當(dāng)前環(huán)境特征進(jìn)行判斷,做出相應(yīng)的行為,使得自身在執(zhí)行一系列行為后所得的累計獎勵值最大.強(qiáng)化學(xué)習(xí)方法不需要類似監(jiān)督學(xué)習(xí)那樣被告知采取何種行為,而是通過獎勵來“告訴”智能體當(dāng)前所作行為的“好壞”,智能體通過不斷嘗試選擇最優(yōu)的策略即可.因此,整個學(xué)習(xí)過程中設(shè)計者只需要給出對應(yīng)的獎懲大小.

2.1 強(qiáng)化學(xué)習(xí)原理

標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架如圖1所示.智能體接收環(huán)境的狀態(tài)編碼,將其作為智能體輸入,即感知當(dāng)前環(huán)境狀態(tài)s,然后通過自身決策策略選擇動作a,將其作為智能體的輸出.智能體執(zhí)行動作a后,將導(dǎo)致環(huán)境發(fā)生變化,進(jìn)入環(huán)境狀態(tài)s′,與此同時,環(huán)境會給予智能體對應(yīng)的獎懲信號r.智能體的目標(biāo)是每次選擇動作后,使得環(huán)境給予智能體的獎勵盡可能大.為了完成目標(biāo),智能體會執(zhí)行一系列動作,這些動作被統(tǒng)稱為行動策略Π,Π={a1,a2,···,an}.當(dāng)某個行動策略獲得的獎懲信號r>0,強(qiáng)化學(xué)習(xí)過程會加強(qiáng)選擇該類行為的趨勢;對應(yīng)地,當(dāng)某個行動策略獲得的獎懲信號r<0,則會減弱選擇該類行為的趨勢.而獎懲信號r的絕對值大小代表了增強(qiáng)或減弱趨勢的幅度.

圖1 標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架Fig.1 Standard reinforcement learning framework

強(qiáng)化學(xué)習(xí)過程中智能體探索環(huán)境和訓(xùn)練過程基于馬爾可夫決策過程,該過程可由一個五元組表示:M=(S,A,P,R,γ),式中:S表示一組環(huán)境狀態(tài)集合,st表示智能體在t時刻所處的狀態(tài),st∈S;A表示一組動作集合,at表示智能體在a時刻執(zhí)行的動作,at∈A;P表示狀態(tài)轉(zhuǎn)移概率分布函數(shù),P(st,at)表示在st狀態(tài)下執(zhí)行了動作at后,轉(zhuǎn)移到其他環(huán)境狀態(tài)的概率分布;R表示獎勵函數(shù),R(st,at)表示在st狀態(tài)下執(zhí)行了動作at后獲得的獎勵;γ表示折扣率或折扣因子,其值為[0,1].

智能體在狀態(tài)st下執(zhí)行了行為at,此后每個時刻所獲得的收益都需要乘以γ.引入折扣率主要是出于兩方面的考慮:其一是由于某些任務(wù)具有時限性,引入折扣率可以使得相同的獎勵越早獲得,總收益就會越大,則整個決策行為朝著越快獲得更大獎勵的方向執(zhí)行;其二是由于距離當(dāng)前環(huán)境狀態(tài)越遠(yuǎn),獲得收益的不確定性就會越大,通過衰減因子來縮小未來的收益變化能夠縮小誤差.

強(qiáng)化學(xué)習(xí)的整個過程就是在尋求最優(yōu)策略Π*,以使獲得的折扣獎勵和的期望v(s,Π)最大,這是由于狀態(tài)轉(zhuǎn)移函數(shù)是個概率函數(shù),所以要求期望最大.v(s,Π)的定義為

式中:s0表示初始狀態(tài);rt表示t時刻獲得的獎勵.式(1)又可以被改寫成

式(2)體現(xiàn)了執(zhí)行策略Π所獲得獎勵總和等于當(dāng)前狀態(tài)下執(zhí)行策略Π中的行為aΠ獲得的獎勵以及轉(zhuǎn)移到下一個狀態(tài)s′后執(zhí)行后續(xù)Π策略行為所獲得的累積獎勵和.智能體通過學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)和獎勵函數(shù),就可以通過迭代搜索得到最優(yōu)策略Π*.

基于馬爾可夫決策過程,研究者提出了多種不同的強(qiáng)化學(xué)習(xí)算法.本工作主要研究將強(qiáng)化學(xué)習(xí)應(yīng)用于特征選擇,根據(jù)強(qiáng)化學(xué)習(xí)的訓(xùn)練探索過程,抽象出基于強(qiáng)化學(xué)習(xí)的封裝式特征選擇模型,得到如下抽象關(guān)系:①狀態(tài)集S,特征的不同組合方式組成的子集;②動作集A,添加某個特征或結(jié)束;③收益R,將特征子集在模型上的預(yù)測準(zhǔn)確率作為收益.

以上關(guān)系可通過DQN求解最優(yōu)策略,即通過DQN方法運(yùn)行特征選擇.

2.2 深度Q-learning網(wǎng)絡(luò)

DQN是在Q-learning強(qiáng)化學(xué)習(xí)的基礎(chǔ)上演進(jìn)而來的,二者具有相同思想.Q-learning是一種基于價值的強(qiáng)化學(xué)習(xí)算法[21],其中的Q代表動作-價值函數(shù)Q(st,at),表示在某個時刻t的st狀態(tài)下,采用動作at所得到的最大累計收益.Q值是由智能體選擇行為后獲得的即刻收益以及執(zhí)行最優(yōu)策略后得到的值,因此可表示為

Q-learning的主要思想是利用狀態(tài)s和動作a構(gòu)建出一張二維的Q表,表中的每一個值表示在當(dāng)前狀態(tài)下選擇對應(yīng)行為預(yù)期獲得的獎勵.基于Q表,當(dāng)智能體處于對應(yīng)環(huán)境狀態(tài)時,不斷選擇預(yù)期獎勵值最大的行為,直到流程結(jié)束,這個過程中選擇的行為集合就是所需要的最優(yōu)策略Π*.顯然,Q-learning的訓(xùn)練過程就是訓(xùn)練出一張Q表,從而準(zhǔn)確計算每個狀態(tài)-動作對應(yīng)的預(yù)期獎勵.根據(jù)式(3),Q(st+1,at+1)和Q(st,at)是Q表中對應(yīng)的兩個值,R(st,at)是環(huán)境反饋的值.由于等式兩部分初始化后存在誤差,可以用式(3)迭代優(yōu)化Q表,具體為

可以看到,優(yōu)化只需要當(dāng)前狀態(tài)和下一狀態(tài)的值,而不需要整個策略,因此有單步更新速度快的優(yōu)點(diǎn).整個Q-learning的訓(xùn)練流程如算法1所示.

算法1:Q-learning訓(xùn)練過程1.初始化Q表中的值,折扣因子γ,迭代次數(shù)i=0;2.while i≤最大迭代次數(shù)do 3.while所處的狀態(tài)st不是終止?fàn)顟B(tài)do 4.根據(jù)當(dāng)前所處的狀態(tài)st,選擇Q表中對應(yīng)的預(yù)期獎勵最大的動作at;5.執(zhí)行動作at,進(jìn)入下一個狀態(tài)st+1,并獲得獎勵rt;6.根據(jù)獎勵rt更新Q表對應(yīng)的部分;7.end 8.i=i+1;9.end

Q-learning在機(jī)械控制、游戲智能等領(lǐng)域有著廣泛的應(yīng)用[22].然而,現(xiàn)實(shí)情況中的問題會很復(fù)雜,狀態(tài)多到難以統(tǒng)計,使用二維表的方式去記錄所有可能的狀態(tài)和行為是不現(xiàn)實(shí)的.不過,在機(jī)器學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)可以很好地解決此問題.DQN可以看作是Q-learning和神經(jīng)網(wǎng)絡(luò)的結(jié)合[17].DQN將環(huán)境狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)計算后得到每個動作的Q值.神經(jīng)網(wǎng)絡(luò)接受環(huán)境狀態(tài)的信息,類似人類通過眼睛、鼻子和耳朵接受外界信息,通過大腦——神經(jīng)網(wǎng)絡(luò),分析出每個行為未來可能帶來的預(yù)期收益,然后選擇收益最大的行為執(zhí)行.整個過程是將當(dāng)前智能體所處的環(huán)境狀態(tài)編碼,并將該編碼輸入神經(jīng)網(wǎng)絡(luò),然后神經(jīng)網(wǎng)絡(luò)通過對當(dāng)前狀態(tài)的計算,輸出其執(zhí)行每個行為后能獲得的預(yù)期獎勵,選擇預(yù)期獎勵最大的行為作為接下來要執(zhí)行的行為.選擇行為過程如圖2所示.

圖2 DQN選擇行為過程Fig.2 Process of DQN selection behavior

同時,DQN為了加快神經(jīng)網(wǎng)絡(luò)的收斂,還使用了經(jīng)驗(yàn)回放機(jī)制和“凍結(jié)”Q-網(wǎng)絡(luò)機(jī)制[19].根據(jù)Q-learning的更新方式,每執(zhí)行一次動作轉(zhuǎn)換到新狀態(tài)就進(jìn)行一次神經(jīng)網(wǎng)絡(luò)的更新,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)頻繁抖動而難以收斂.不同于Q-learning,經(jīng)驗(yàn)回放機(jī)制是指訓(xùn)練過程中DQN會維護(hù)一個“記憶庫”來存儲四元組(s,a,r,s′),即從狀態(tài)s執(zhí)行動作a轉(zhuǎn)移到狀態(tài)s′,獲得的獎勵為r.DQN每次更新時都會隨機(jī)抽取“記憶庫”中的部分四元組進(jìn)行學(xué)習(xí)優(yōu)化,這種隨機(jī)抽取部分內(nèi)容的方式打亂了學(xué)習(xí)經(jīng)歷之間的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)更新更有效率.同時,由于神經(jīng)網(wǎng)絡(luò)更新的數(shù)據(jù)來源于數(shù)據(jù)庫,因此也不需要智能體真實(shí)地與環(huán)境進(jìn)行交互,而是可以使用“別人的經(jīng)歷”.類似于人類學(xué)習(xí),既可以從自己的“經(jīng)歷”中學(xué)習(xí),也可以從他人告知的“經(jīng)歷”中學(xué)習(xí).“凍結(jié)”Q-網(wǎng)絡(luò)機(jī)制也是一套打亂相關(guān)性的方法,在DQN中,常使用兩個結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),其中用來預(yù)測Q(st,at)的神經(jīng)網(wǎng)絡(luò)稱作Q-估計網(wǎng)絡(luò),而用來計算R(st,at)+γQ(st+1,at+1)的神經(jīng)網(wǎng)絡(luò)稱作Q-現(xiàn)實(shí)網(wǎng)絡(luò).每次更新DQN時僅更新Q-估計網(wǎng)絡(luò),而Q-現(xiàn)實(shí)網(wǎng)絡(luò)使用之前的參數(shù),經(jīng)過一段時間后,才會使用最新的網(wǎng)絡(luò)參數(shù),即一段時間內(nèi)“凍結(jié)”Q-現(xiàn)實(shí)網(wǎng)絡(luò)的參數(shù).通過這種方式計算出來的Q(st,at)和Q(st+1,at+1)降低了相關(guān)性,使得更新更有效率.綜上,整個DQN的訓(xùn)練流程如算法2所示.

算法2:DQN訓(xùn)練過程輸入:最大迭代次數(shù)T;兩個完全相同的神經(jīng)網(wǎng)絡(luò)模型;訓(xùn)練步長step;訓(xùn)練樣本數(shù)k;同步網(wǎng)絡(luò)步長syn step;記憶庫容量M;折扣因子γ.輸出:預(yù)測Q值的神經(jīng)網(wǎng)絡(luò).1.初始化迭代次數(shù)i=0;2.while i≤最大迭代次數(shù)do 3.while所處的狀態(tài)st不是終止?fàn)顟B(tài)do 4.根據(jù)當(dāng)前所處的狀態(tài)st,選擇Q表中對應(yīng)的預(yù)期獎勵最大的動作at;5.執(zhí)行動作at,進(jìn)入下一個狀態(tài)st+1,并獲得獎勵rt;6.if記憶庫當(dāng)前大小m<M then 7.將四元組{st,at,rt,st+1}存入記憶庫;8.end 9.else 10.刪除記憶庫的第一條記錄;11.將四元組{st,at,rt,st+1}存入記憶庫;12.if i % step=0 then 13.從記憶庫中隨機(jī)選擇k個樣本;14.根據(jù)樣本用兩個神經(jīng)網(wǎng)絡(luò)計算對應(yīng)狀態(tài)下的Q值;15.將(R(st,at)+γQ(st+1,at+1)-Q(st,at))2作為損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)參數(shù);16.if i % syn step=0 then 17.將Q-估計網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)同步到Q-現(xiàn)實(shí)網(wǎng)絡(luò);18.end 19.end 20.end 21.i=i+1;22.end

2.3 基于符號變換的特征構(gòu)造方法

在通常情況下,數(shù)據(jù)中的很多特征信息都是通過觀察、測量等手段獲得的,這類信息往往含有干擾維度,且往往與要進(jìn)行預(yù)測的目標(biāo)相關(guān)性較低.盡管有很多類似核函數(shù)的升維方法,但升維選擇的核函數(shù)較為單一,使得模型預(yù)測精度不能達(dá)到應(yīng)用要求.基于上述問題,本工作提出了一種基于符號變換的特征構(gòu)造方法,用來生成新的特征,以提高模型的預(yù)測精度.

符號變換的思想來源于符號回歸[23],主要是將各維度的數(shù)據(jù)通過符號,即數(shù)學(xué)操作符、常量等,組成各種各樣的數(shù)學(xué)表達(dá)式,而新組成的數(shù)學(xué)表達(dá)式空間可看作是構(gòu)造的新的特征空間.符號變換的方法不需要假設(shè)特征和目標(biāo)之間的相互關(guān)系,新組成的數(shù)學(xué)表達(dá)式由特征和符號組成,其中數(shù)學(xué)操作符包括“+”“-”“*”“/”和“l(fā)g”等.符號變換生成數(shù)學(xué)表達(dá)式的過程可以看作是特征從低維空間映射到高維空間的過程,通過取對數(shù)、冪函數(shù)等非線性方式,將原始特征互相組合,并進(jìn)行非線性變換,使得生成的數(shù)學(xué)表達(dá)式特征相比于原始特征能夠更好地描述目標(biāo)變量.可以選擇的符號算子如下:①布爾型特征:析取、合取、否定等;②數(shù)值類特征:最小值、最大值、加法、減法、乘法、除法、三角函數(shù)變換、對數(shù)、冪函數(shù)等.

通過一次符號變換所組成的特征不一定能很好地描述預(yù)測目標(biāo),因此可以重復(fù)迭代多次,將新組成的數(shù)學(xué)表達(dá)式空間看作是在一個原始特征空間上繼續(xù)進(jìn)行符號變換,最后將多次符號變換的結(jié)果作為最終構(gòu)造的特征空間.然而,通過上述方式組成的數(shù)學(xué)表達(dá)式空間中存在大量的冗余和干擾特征,需要進(jìn)行特征選擇,使預(yù)測目標(biāo)變量能夠更加準(zhǔn)確.本工作提出一種基于符號變換的特征構(gòu)造過程和基于強(qiáng)化學(xué)習(xí)的特征選擇過程,使得篩選出來的數(shù)學(xué)表達(dá)式特征能夠更好地描述目標(biāo)變量,整個框架如圖3所示.

圖3 結(jié)合符號變換的特征構(gòu)造和基于強(qiáng)化學(xué)習(xí)的特征選擇整體框架Fig.3 Overall framework of feature construction based on symbolic transformation and feature selection based on reinforcement learning

整個特征選擇的過程首先是對數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗、歸一化等預(yù)處理操作;然后再用符號對每個特征進(jìn)行變換,形成新的特征集合,整個過程不斷迭代,直至滿足條件產(chǎn)生新的更大的特征空間.特征構(gòu)造過程可表示為如圖4所示的樹形結(jié)構(gòu),其中F1,F2,···,F8是原始數(shù)據(jù)特征,O1,O2,···,O7是符號變換.通過符號變換,將F1、F2等原始數(shù)據(jù)特征轉(zhuǎn)化成新的特征,組成新的特征空間space1,之后再對新的特征空間繼續(xù)進(jìn)行符號變換,得到特征空間space2、space3.特征空間中新構(gòu)造的每一個特征融合了多維原始特征,因此每一個新特征能夠表現(xiàn)出多維原始特征的某些特性,具有更好的表達(dá)能力.在產(chǎn)生的新的特征空間中使用強(qiáng)化學(xué)習(xí)進(jìn)行特征選擇來降維,可去除大量冗余特征,進(jìn)一步提升預(yù)測精度,得到最終選擇出的特征子集以及模型.

圖4 基于符號變換的特征構(gòu)造過程舉例Fig.4 An example of the process of feature construction based on symbolic transformation

2.4 基于強(qiáng)化學(xué)習(xí)的特征選擇算法設(shè)計

結(jié)合封裝式特征選擇的特點(diǎn)以及強(qiáng)化學(xué)習(xí)中的DQN方法,本工作提出一種基于強(qiáng)化學(xué)習(xí)的特征選擇(feature selection based on reinforcement learning,FSRL)算法.FSRL算法利用智能體的決策能力選擇特征子集,通過訓(xùn)練一個收斂的價值網(wǎng)絡(luò)得到最優(yōu)特征子集.

FSRL算法流程如圖5所示.環(huán)境狀態(tài)編碼是一個僅由0和1組成的n維向量,n是全部特征個數(shù).若向量中第i個元素為1,則表示第i個特征已經(jīng)被加入當(dāng)前特征子集;若向量中第i個元素為0,則表示沒有被加入.每次選擇一個新的特征加入特征子集后,環(huán)境狀態(tài)編碼對應(yīng)位置的數(shù)字由0變?yōu)?.流程開始時先對原始數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)歸一化、刪除異常點(diǎn)以及過濾式特征選擇等;然后初始化特征子集為空集,智能體可執(zhí)行的行為有n種(n表示可選特征的個數(shù)),每次選擇某個特征加入特征子集.同時,設(shè)定一個超參數(shù)表示最后選擇的特征子集大小.若當(dāng)前特征子集等于設(shè)定的特征子集時,將選擇的特征子集輸入分類器,測試當(dāng)前所選特征子集的準(zhǔn)確率,并將其作為環(huán)境反饋獎勵大小的依據(jù).但是,單純使用準(zhǔn)確率作為獎勵函數(shù),會使得整個訓(xùn)練過程中都是正獎勵,即全都是增加選擇該特征的趨勢,不易收斂且很容易陷入局部最優(yōu)解.因此,可以設(shè)置一個基準(zhǔn)目標(biāo)target,當(dāng)分類準(zhǔn)確率大于target,反饋正獎勵;低于target,反饋負(fù)獎勵,即對于特征選擇后模型能達(dá)到的分類準(zhǔn)確率有一個目標(biāo).具體的獎勵score設(shè)置為

圖5 基于強(qiáng)化學(xué)習(xí)的特征選擇算法流程Fig.5 Flowchart of feature selection algorithm based on reinforcement learning

式中:α是比例因子,用于放大準(zhǔn)確率accuracy和目標(biāo)target間的差值.由于accuracy和target都是[0,1]的小數(shù),僅僅以二者的差作為獎勵會使得獎勵都很小,整個訓(xùn)練過程的變化很慢,不容易收斂,因此需要引入比例因子進(jìn)行適當(dāng)放大.

同時,為了避免探索過程中持續(xù)選擇同一個策略,即陷入局部最優(yōu)解,可使用ε-貪心策略,即智能體有ε的幾率按照最大預(yù)期獎勵的方式選擇對應(yīng)的特征子集,同時也有1-ε的幾率隨機(jī)選擇行為.通過該策略可以有效跳出局部最優(yōu)解,從而盡量獲得全局最優(yōu)[24].此外,按照設(shè)定的方法選擇特征,有可能出現(xiàn)當(dāng)前特征已經(jīng)被選進(jìn)特征子集中,但是后續(xù)預(yù)測過程中選擇該特征的行為的預(yù)期獎勵最大,即依舊選擇該特征,此時智能體會選擇預(yù)期獎勵第二大的特征.

3 實(shí)驗(yàn)設(shè)計

為了驗(yàn)證算法的有效性,本工作將FSRL算法分別應(yīng)用于兩個材料數(shù)據(jù)集——非晶合金材料和鋁基復(fù)合材料,兩個數(shù)據(jù)集對應(yīng)兩個不同的預(yù)測任務(wù):分類和回歸.

3.1 非晶合金材料分類

非晶合金,又稱為“金屬玻璃”,是一類新型的多組元合金,因其具有高強(qiáng)度、高硬度、耐腐蝕、超塑性、軟磁性等優(yōu)異性能,被廣泛應(yīng)用于新能源、高端制造業(yè)等高技術(shù)領(lǐng)域[25].非晶合金的研發(fā)不同于傳統(tǒng)材料,因此快速研判給定材料是否屬于非晶合金在實(shí)際應(yīng)用中具有重要價值.基于已有研究收集的非晶合金數(shù)據(jù)集,通過強(qiáng)化學(xué)習(xí)特征選擇,從全部數(shù)據(jù)集的94維特征中選出固定的10維特征來預(yù)測非晶合金類型.BMG(bulk metallic glass)為大塊金屬玻璃,RMG(ribbon metallic glass)為帶狀金屬玻璃,CRA(crystalline alloy)為結(jié)晶合金.數(shù)據(jù)集共包含5 935條數(shù)據(jù),其中BMG類別有675條,RMG類別有3 708條,CRA類別有1 552條.對于分類問題而言,這是一個類別不平衡的數(shù)據(jù)集,若以常規(guī)的隨機(jī)采樣方式分割訓(xùn)練集和測試集,會使得分類器偏向于大類別,使準(zhǔn)確率指標(biāo)的參考性大幅降低.因此,本工作使用分層抽樣的方法,即根據(jù)數(shù)據(jù)中3種不同的類別,將總體數(shù)據(jù)集分成3個不同的子總體(稱為層),在每層中按照3類對應(yīng)數(shù)據(jù)的比例隨機(jī)抽取樣本分成訓(xùn)練集和測試集.通過分層抽樣方法使得測試集中含有的3個類別數(shù)據(jù)的比例和訓(xùn)練集大致相同,也使得各評價指標(biāo)能夠有效說明分類的結(jié)果.

在數(shù)據(jù)預(yù)處理階段,通過計算特征之間的Pearson相關(guān)系數(shù)過濾掉一部分冗余特征.假設(shè)X、Y為兩個隨機(jī)變量,有N條記錄,則X和Y的Pearson相關(guān)系數(shù)為

Pearson相關(guān)系數(shù)反映了兩個變量之間的線性相關(guān)程度,因此式(6)可以看作是兩個隨機(jī)向量中得到的樣本集向量之間夾角的余弦值.在實(shí)驗(yàn)過程中,對于Pearson相關(guān)系數(shù)大于0.85的兩個特征,僅保留其中一個,即其中一個特征能夠被另一個特征線性表示,則該特征是冗余的.通過數(shù)據(jù)預(yù)處理,僅保留50維特征.由于數(shù)據(jù)本身維度較高,并且分類任務(wù)相較于回歸比較簡單,因此在得到的數(shù)據(jù)集上沒有使用基于符號變換的特征構(gòu)造方法,僅在保留的50維特征上使用FSRL算法.同時,選擇多個分類器來驗(yàn)證FSRL算法的有效性.

從表1可以看出,經(jīng)過降維后,4種模型算法在準(zhǔn)確率方面都有了不同程度的提升,其中決策樹算法的提升最大.這是由于決策樹本身是通過類似多叉樹的方式進(jìn)行分類,盡管有一定的剪枝策略,但決策樹的優(yōu)化常需要調(diào)參,并且這種通過人為調(diào)參避免過擬合的方式不容易找到一個合適的參數(shù).通過特征選擇的方式減少特征維度,使得決策樹的選擇范圍變小,有效減小樹的深度,避免了過擬合現(xiàn)象.

表1 使用全部特征和特征選擇后的準(zhǔn)確率結(jié)果Table 1 Accuracy results using all features and feature selection

為了從多個角度評價分類效率,表2對比了FSRL算法使用與否情況下4種機(jī)器學(xué)習(xí)模型在每個類別的精確率和召回率.從表2可以看出,通過FSRL算法進(jìn)行特征選擇后,大部分非晶合金類別的精確率和召回率都有明顯的提升,且3個類別在召回率上的表現(xiàn)均是FSRL算法處理后的結(jié)果最優(yōu).在精確率上,只有RMG分類上的FSRL結(jié)果較全部特征差0.002.FSRL算法在總體表現(xiàn)上更加優(yōu)異,能夠很好地區(qū)分3類非晶合金材料,驗(yàn)證了在分類任務(wù)中通過FSRL算法進(jìn)行特征選擇能夠有效減少特征數(shù)量,提升分類效果.

表2 使用全部特征和特征選擇后的精確率和召回率結(jié)果Table 2 Precision and recall results using all features and feature selection

3.2 鋁基復(fù)合材料性能預(yù)測

復(fù)合材料是指通過將兩種及兩種以上性質(zhì)不同的物質(zhì),使用不同的成分配比混合制成的新型材料.復(fù)合材料克服了單一材料某些性能不足的問題,從20世紀(jì)中期開始,就受到材料領(lǐng)域的廣泛關(guān)注和重視.根據(jù)復(fù)合材料中使用的基體種類不同,可以大致分成3類:樹脂基復(fù)合材料、金屬基復(fù)合材料以及陶瓷基復(fù)合材料.金屬基復(fù)合材料由于具有更好的綜合性能、更高的性價比和良好的發(fā)展前景,而受到研究人員的青睞.金屬基復(fù)合材料中,由于鋁具有成本低、抗老化性能好、可加工性好等優(yōu)點(diǎn),被更多地應(yīng)用于復(fù)合材料的基體.目前,鋁基復(fù)合材料已被應(yīng)用于航空航天、電子和光學(xué)儀器等領(lǐng)域[26].力學(xué)性能是鋁基復(fù)合材料的關(guān)鍵性能,其中抗拉強(qiáng)度和延伸率尤為重要.

本實(shí)驗(yàn)數(shù)據(jù)集由32條鋁基復(fù)合材料的實(shí)驗(yàn)數(shù)據(jù)構(gòu)成,其中特征10維主要包括成分特征(基體、增強(qiáng)體各2維)和工藝參數(shù)(熱壓溫度、熱壓壓力、固溶溫度、固溶時間、時效溫度和時效時間).預(yù)測的目標(biāo)變量為抗拉強(qiáng)度和延伸率.

在應(yīng)用基于符號變換的特征構(gòu)造方法時,在原始特征基礎(chǔ)上使用16種運(yùn)算符組合生成第一輪特征空間space1,然后在space1上重復(fù)使用上述運(yùn)算符,生成第二輪特征空間space2,重復(fù)上述過程3次,得到3個特征空間.這3個特征空間大約包含了109數(shù)量級的組合特征.最后,使用Pearson相關(guān)系數(shù)篩選相關(guān)性最大的前100維特征,對這100維特征使用FSRL算法進(jìn)行特征選擇.

在使用FSRL算法進(jìn)行特征選擇時,相比分類問題中的FSRL算法進(jìn)行了優(yōu)化.主要優(yōu)化體現(xiàn)在,設(shè)定選擇的最大特征數(shù)為20,同時設(shè)置可選行為有(n+n/2)種,這里n代表特征升維過程結(jié)束后得到的新的特征維度,其中前n個行為表示選擇對應(yīng)的第n維特征加入特征子集,之后的n/2個行為表示終止選擇過程.對當(dāng)前的特征子集進(jìn)行評估,要盡可能降低選出空集的趨勢,如果當(dāng)前子集為空時,選擇了第n到第(n+n/2)行為,則給一個負(fù)獎勵.由于智能體探索到終止選擇過程的概率比較低,所以需要增加n/2個行為終止選擇,使得最后的特征選擇的最優(yōu)特征子集盡可能小(特征子集越小,越能避免過擬合).通過上述方法可以使得FSRL算法具有動態(tài)選擇最優(yōu)特征子集大小的能力,而不需要人為指定選擇多少個特征后再停止.

實(shí)驗(yàn)結(jié)果為10折交叉驗(yàn)證結(jié)果,這里使用“1-平均絕對百分比誤差”(mean absolute percentage error,MAPE)作為衡量指標(biāo):

式中:ytrue為實(shí)際值;ypre為預(yù)測值.

表3和4顯示了鋁基復(fù)合材料使用構(gòu)造新特征中的100維數(shù)據(jù)以及FSRL兩種特征選擇方法的結(jié)果,同時也比較了動態(tài)選擇特征和固定特征子集個數(shù)兩種方式的結(jié)果,其中5種常見的回歸預(yù)測模型作為基礎(chǔ)模型,SVR(support vector regression)代表支持向量回歸.

表3 鋁基復(fù)合材料延伸率預(yù)測結(jié)果Table 3 Elongation prediction results of aluminum matrix composite

表4 鋁基復(fù)合材料抗拉強(qiáng)度結(jié)果Table 4 Tensile strength results of aluminum matrix composite

從表3和4延伸率和抗拉強(qiáng)度的預(yù)測結(jié)果可以看出,基于符號變換的特征構(gòu)造方法能明顯提升多個基礎(chǔ)模型的預(yù)測能力.同時,經(jīng)過FSRL算法降維,減少了大量的冗余和噪聲維度,能夠進(jìn)一步提升模型的預(yù)測精度.兩組實(shí)驗(yàn)的預(yù)測結(jié)果顯示,在大多數(shù)基礎(chǔ)模型中,使用動態(tài)選擇特征維度的方法比固定數(shù)據(jù)維度的結(jié)果要好(僅在抗拉強(qiáng)度的SVR模型預(yù)測中略低0.1%).這是由于動態(tài)選擇特征維度后,搜索空間變大,在迭代次數(shù)足夠多的情況下能夠探索到更多可能的特征組合,而動態(tài)選擇的數(shù)據(jù)維度不是5維的預(yù)測結(jié)果也從側(cè)面印證了這一結(jié)論.

4 總結(jié)與展望

本工作提出了一種基于強(qiáng)化學(xué)習(xí)的特征選擇方法,并將其應(yīng)用到材料數(shù)據(jù)的特征選擇過程中,可有效降低特征維度,去除冗余信息,提高模型的泛化能力.

首先,在非晶合金材料的分類任務(wù)中應(yīng)用固定維度的FSRL算法.結(jié)果表明,通過特征選擇使得4種基礎(chǔ)模型的分類準(zhǔn)確率得到了提升,最高提升了2.8%.同時,對于每個類別的精確率和召回率,只有在非晶RMG的分類上,FSRL算法的精確率結(jié)果較全部特征差0.002,其余均是FSRL算法最優(yōu),從而驗(yàn)證了FSRL算法在分類任務(wù)上的有效性.

其次,在鋁基復(fù)合材料的回歸任務(wù)中,先是通過基于符號變換的特征構(gòu)造方法構(gòu)造出新的特征,然后再用FSRL算法在新構(gòu)造的特征集中進(jìn)行特征選擇.同時,由于回歸任務(wù)較分類任務(wù)更為復(fù)雜,通過動態(tài)確定特征維度的方法擴(kuò)大了搜索空間范圍.結(jié)果表明,基于符號變換的特征構(gòu)造方法能夠?qū)⒁恍┫嚓P(guān)性較低的特征組合成相關(guān)性高的新特征,從而提高數(shù)據(jù)的表達(dá)能力.并且,動態(tài)確定特征選擇維度相較于固定特征維度也更為有效.

未來的研究可以通過剪枝操作避開一些明顯會對模型造成劣化的特征,縮小搜索范圍,加快強(qiáng)化學(xué)習(xí)收斂速度.同時,DQN算法的穩(wěn)定性和收斂性問題也是一個值得繼續(xù)探索和改進(jìn)的方向.

猜你喜歡
符號特征智能
學(xué)符號,比多少
幼兒園(2021年6期)2021-07-28 07:42:14
如何表達(dá)“特征”
“+”“-”符號的由來
不忠誠的四個特征
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
抓住特征巧觀察
變符號
主站蜘蛛池模板: 国产精品一区在线观看你懂的| 国产成人精品亚洲77美色| 日韩av手机在线| 国产一区二区免费播放| 日韩在线视频网| 伊人91在线| 午夜人性色福利无码视频在线观看| a毛片在线| 男女猛烈无遮挡午夜视频| 狠狠色丁婷婷综合久久| 久久精品丝袜| 亚洲男人在线天堂| 中文字幕佐山爱一区二区免费| 亚洲天堂网在线播放| 国产情精品嫩草影院88av| 精久久久久无码区中文字幕| 国产精品所毛片视频| 国产一区三区二区中文在线| 一级看片免费视频| 免费在线a视频| 久热re国产手机在线观看| 一本久道热中字伊人| 久久亚洲美女精品国产精品| vvvv98国产成人综合青青| 国产精品视频a| 精品色综合| 69av免费视频| 亚洲男人的天堂在线观看| 国产精品蜜臀| 日本欧美成人免费| 国产毛片高清一级国语 | 亚洲Av激情网五月天| 日韩在线视频网| 欧美精品亚洲精品日韩专| 成人福利在线视频免费观看| 国产欧美一区二区三区视频在线观看| 久久无码免费束人妻| 免费可以看的无遮挡av无码| 欧美日韩精品综合在线一区| 91免费观看视频| 极品av一区二区| 亚洲午夜福利在线| 国产高清无码第一十页在线观看| 91精品专区国产盗摄| 国产成人区在线观看视频| 亚洲色图欧美在线| 在线色国产| 亚洲精品视频免费看| jizz在线观看| 18禁黄无遮挡免费动漫网站 | 国产女同自拍视频| 国产麻豆精品久久一二三| 国产精品久久久久鬼色| 久久婷婷六月| 久久久久青草线综合超碰| 久久无码av三级| 99久久99这里只有免费的精品| 午夜日本永久乱码免费播放片| 黄色不卡视频| 精品国产自在在线在线观看| 国产精品福利社| 亚洲国产系列| 精品无码一区二区三区电影| 激情乱人伦| 亚洲中文字幕av无码区| 手机成人午夜在线视频| 日本手机在线视频| 国产小视频免费观看| 亚洲欧美在线精品一区二区| 婷婷色中文网| 国产精品19p| 国产精品对白刺激| 亚洲无线国产观看| 亚洲无卡视频| 无码综合天天久久综合网| 这里只有精品在线播放| 2021最新国产精品网站| 欧美亚洲综合免费精品高清在线观看| 国产成人精品综合| 扒开粉嫩的小缝隙喷白浆视频| 国产精品久久久久久久久| 国产亚洲精品97在线观看|