999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的無機鈣鈦礦材料形成能預(yù)測

2023-10-25 10:54:18
無線互聯(lián)科技 2023年16期
關(guān)鍵詞:模型

馮 順

(西京學(xué)院 電子信息學(xué)院,陜西 西安 710123)

0 引言

無機鈣鈦礦材料因其優(yōu)異的光電性質(zhì),如高光吸收系數(shù)和高載流子遷移率,目前在光伏領(lǐng)域受到廣泛關(guān)注,是具有極大產(chǎn)業(yè)化潛力的新型材料[1]。然而,常規(guī)實驗法篩選和設(shè)計新材料的效率較低,無法滿足產(chǎn)業(yè)化發(fā)展的需求。此外,新材料的發(fā)現(xiàn)和設(shè)計是一個多變量、多目標(biāo)的復(fù)雜問題,很難通過簡單的實驗手段解決[2]。

近年來,機器學(xué)習(xí)技術(shù)得到長足發(fā)展,在材料領(lǐng)域展現(xiàn)出重要應(yīng)用前景[3]。機器學(xué)習(xí)可以處理高維數(shù)據(jù),發(fā)現(xiàn)復(fù)雜的pattern,建立精確的預(yù)測模型,大幅提高材料發(fā)現(xiàn)和設(shè)計的效率[4]。特別是深度學(xué)習(xí)和Boosting學(xué)習(xí)算法具有強大的預(yù)測能力和高效性,在無機半導(dǎo)體材料中已應(yīng)用于材料屬性預(yù)測[5]。但是,無機鈣鈦礦材料的相關(guān)研究較少。

為了提高無機鈣鈦礦材料高通量篩選和設(shè)計的效率,本研究采用機器學(xué)習(xí)方法構(gòu)建無機鈣鈦礦材料形成能預(yù)測模型。通過比較XGBoost、隨機森林、支持向量回歸和LightGBM 4種算法,LightGBM算法展現(xiàn)出最高的預(yù)測精度和效果。這證明LightGBM算法在材料發(fā)現(xiàn)和設(shè)計中具有重要應(yīng)用潛力,值得進一步探索。

本研究構(gòu)建的預(yù)測模型為無機鈣鈦礦材料的高通量篩選和設(shè)計提供關(guān)鍵技術(shù)支持,將大幅提高材料設(shè)計的效率,推動產(chǎn)業(yè)發(fā)展,對實現(xiàn)新材料的高效篩選和發(fā)現(xiàn)產(chǎn)生深遠影響。研究結(jié)果表明,機器學(xué)習(xí)及LightGBM算法在材料科學(xué)中具有廣闊的應(yīng)用前景。

1 原理與方法

1.1 支持向量機

支持向量機(SVM)是一種機器學(xué)習(xí)算法,通過構(gòu)建高維特征空間中的分離超平面,實現(xiàn)分類和回歸分析[6]。SVR是SVM的回歸器(Regressor),用于解決回歸問題,通過引入slack變量和損失函數(shù)來構(gòu)建回歸模型,實現(xiàn)連續(xù)響應(yīng)值的預(yù)測。

SVM通過非線性映射,將輸入空間x映射到高維特征空間F。在這個高維空間中,數(shù)據(jù)可以被線性分類,在高維空間構(gòu)造的最佳線性模型決策方程為:

y(x)=wTΦ(x)+b

(1)

其中,w是權(quán)重向量,b是偏置,超平面是由w和b唯一確定的。

SVM的核函數(shù)是實現(xiàn)核技巧的關(guān)鍵,通過某種非線性映射將輸入空間映射到高維特征空間,使原來線性不可分的問題在高維空間變得線性可分,高斯核和多項式核是最常用的兩種SVM核函數(shù)[7]。高斯核由于可以將輸入映射到無限維特征空間,分類效果較好,適用于各種類型的分類問題,而多項式核計算速度更快一些,也比較簡單。

1.2 隨機森林

隨機森林(Random Forest,RF)是由Breiman于2001年提出的由決策樹組合成的算法[8],RF是一種集成學(xué)習(xí)方法,通過構(gòu)建多個決策樹的組合來進行機器學(xué)習(xí)任務(wù),通常用于分類和回歸。隨機森林是由多個決策樹組成,每個決策樹的輸出是一個類預(yù)測或者一個值預(yù)測,通過投票或平均,所有決策樹的預(yù)測結(jié)合起來成為最終的預(yù)測結(jié)果。隨機森林的構(gòu)造流程主要分為兩個部分:

第一部分是決策樹的構(gòu)建。通過bootstrap抽樣和隨機特征選擇,構(gòu)建多棵決策樹,可以最大限度地減少單棵樹過擬合的風(fēng)險,并產(chǎn)生更好的泛化能力。

第二部分是多棵決策樹的集成。通過對各棵決策樹預(yù)測結(jié)果的投票或平均,來獲得更高精度和更加穩(wěn)定的最終預(yù)測,這實現(xiàn)了隨機森林的集成學(xué)習(xí)效果。

通過上述過程,隨機森林可以有效地控制決策樹之間的相關(guān)性,提高整體的預(yù)測效果。這是隨機森林理論上可以取得接近最佳泛化誤差的原因,同時也使其對噪聲數(shù)據(jù)具有很強的魯棒性。

1.3 極端梯度提升算法

極端梯度提升算法(XGBoost)是梯度提升算法的擴展和改進,通過算法和系統(tǒng)層面的優(yōu)化,提高了梯度提升算法的效率和性能,旨在正確利用資源并克服先前梯度提升的局限性[9]。XGBoost與其他梯度提升的區(qū)別主要在于它使用了一種新的正則化技術(shù)來控制過度擬合[10]。因此,在模型調(diào)整期間更快、更穩(wěn)健,可以在模型訓(xùn)練的過程中進行特征選擇和參數(shù)調(diào)整,提高泛化能力。

XGBoost算法是Boosting架構(gòu)的一種算法實現(xiàn),同樣符合模型函數(shù):

(2)

模型的輸出可以表示為K個弱學(xué)習(xí)器輸出的累加。基本思路就是不斷生成新的樹,每棵樹都是基于上一顆樹和目標(biāo)值的差值來進行學(xué)習(xí),從而降低模型的偏差。最終模型結(jié)果的輸出如公式(2)所示,即所有樹的結(jié)果累加起來才是模型對一個樣本的預(yù)測值。

1.4 輕量級梯度提升算法

輕量級梯度提升算法(LightGBM)是由微軟團隊在決策樹的基礎(chǔ)上研發(fā)的,該算法包含兩種新技術(shù):基于梯度的單邊采樣和獨占特征捆綁,分別處理大量數(shù)據(jù)實例和大量特征[11]。LightGBM具有精度更高、訓(xùn)練速度更快、能夠處理大規(guī)模數(shù)據(jù)、支持GPU學(xué)習(xí)等多項優(yōu)勢。

LightGBM是一種高效的梯度提升算法。相比于XGBoost等算法,它提供了更高的計算效率和更低的內(nèi)存消耗,LightGBM在保證模型效果的同時,大大縮短了模型訓(xùn)練時間,這使其已經(jīng)在許多領(lǐng)域廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的機器學(xué)習(xí)問題[12]。LightGBM和XGBoost成為機器學(xué)習(xí)領(lǐng)域中最流行和有影響力的梯度提升算法,他們在提高分類樹模型的計算效率和性能上做出了很大貢獻,為數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師提供了很有價值的工具。

1.5 性能評估

回歸模型的性能評估主要有以下幾個指標(biāo):均方誤差(MSE)、均方根誤差(RMSE)、擬合優(yōu)度(R2),公式如下:

(3)

(4)

(5)

式中,m為樣本數(shù)量;fi為真實值;yi為預(yù)測值。

2 模型的建立

2.1 建立數(shù)據(jù)集

本文中使用的數(shù)據(jù)來自無機晶體結(jié)構(gòu)數(shù)據(jù)庫(ICSD)中無機鈣鈦礦數(shù)據(jù),通過對數(shù)據(jù)的初步篩選,篩選出無機鈣鈦礦數(shù)據(jù)集16 324組。原始數(shù)據(jù)中共有66個原始特征,通過特征選擇,剔除了無用特征name、entry_id、icsd_id、sg、cs、cs1,由于是對無機鈣鈦礦材料的形成能進行預(yù)測,將目標(biāo)變量設(shè)為Ef,輸入Eg等其他特征對輸入特征矩陣進行降維,可以進一步提高模型預(yù)測的精確度。

2.2 建立預(yù)測模型

由數(shù)據(jù)預(yù)處理之后和數(shù)據(jù)集和特征篩選后的輸入變量,機器學(xué)習(xí)預(yù)測模型構(gòu)建如下。

(1)數(shù)據(jù)準(zhǔn)備:將16 324條數(shù)據(jù)的30%分為測試集,70%分為訓(xùn)練集,同時設(shè)置隨機種子為9,保證每次分割結(jié)果都相同。

(2)模型訓(xùn)練:設(shè)置10折交叉驗證,分別建立SVR、XGBoost、LightGBM、RF算法的模型。使用這4種算法分別對訓(xùn)練集的形成能進行訓(xùn)練。

(3)模型評價指標(biāo):使用均方誤差(MSE)、均方根誤差(RMSE)、擬合優(yōu)度(R2)對模型效果進行評估。

(4)模型應(yīng)用:通過對4個算法訓(xùn)練建立的模型對測試集的目標(biāo)屬性進行預(yù)測,并對預(yù)測結(jié)果進行評估。

2.3 超參數(shù)尋優(yōu)

為了提高模型的預(yù)測精確度,模型訓(xùn)練前會對學(xué)習(xí)算法的超參數(shù)進行調(diào)優(yōu)。提高機器學(xué)習(xí)模型的預(yù)測能力,超參數(shù)優(yōu)化是必不可少的一步。選擇合適的超參數(shù)優(yōu)化方法,可以大大提高模型訓(xùn)練的效率,并獲得最優(yōu)的預(yù)測效果。對于SVR算法,正則化參數(shù)C=100.0,核參數(shù)設(shè)置為gamma='auto',指定核函數(shù)為高斯核。對于RF算法,決策樹參數(shù)設(shè)置為默認參數(shù),設(shè)置固定隨機種子'random_state':6。對于XGBoost算法與LightGBM算法,均設(shè)置超參數(shù)n_estimators的值為1 000。通過基于經(jīng)驗在迭代過程尋找到對目標(biāo)屬性最佳的超參數(shù)。

3 結(jié)果與分析

基于形成能為目標(biāo)屬性,實驗結(jié)果分析。如表1所示,列出了4種樹形回歸算法模型的訓(xùn)練擬合結(jié)果,從表中數(shù)據(jù)可以分析出這4種機器學(xué)習(xí)算法建立的模型對無機鈣鈦礦材料的形成均能達到很好的擬合效果,其中效果最好的算法為LightGBM,此算法對形成能預(yù)測的R2為0.99、RMSE為0.087 9。結(jié)果證明,本文使用的模型可用于預(yù)測無機鈣鈦礦材料的形成能,從而建立高精度預(yù)測模型。

表1 訓(xùn)練集擬合效果比較

如圖1所示,直觀地反映了真實值與預(yù)測值的線性關(guān)系,其中橫坐標(biāo)是通過DFT計算的真實值,縱坐標(biāo)是預(yù)測值,可以看到基于機器學(xué)習(xí)的無機鈣鈦礦材料形成能預(yù)測值與DFT計算的真實值走勢是斜率接近1的直線。從圖中可以看到基于這4種算法的預(yù)測模型訓(xùn)練準(zhǔn)確性都是較為不錯的,模型訓(xùn)練效果都比較理想,其中LightGBM算法的效果在對比實驗中是最好的,訓(xùn)練模型的精度是最高的,通過各個評價指標(biāo)也可以得出相同的結(jié)論。同時在圖1中可以發(fā)現(xiàn)一些異常點,是因為數(shù)據(jù)集中混入一些非無機鈣鈦礦材料,為負樣本影響了機器學(xué)習(xí)算法的預(yù)測結(jié)果。

圖1 基于機器學(xué)習(xí)算法的回歸模型結(jié)果

以上結(jié)果表明,不同機器學(xué)習(xí)算法對于數(shù)據(jù)集的敏感性不同,導(dǎo)致了預(yù)測效果也有差異,這4種算法對于無機鈣鈦礦材料形成能預(yù)測效果比以往的準(zhǔn)確效率均有提高,均可以進行有效的預(yù)測。通過使用機器學(xué)習(xí)方法來協(xié)助預(yù)測鈣鈦礦材料性能,從而規(guī)避了傳統(tǒng)材料研發(fā)現(xiàn)存的一些問題,大幅提高了材料發(fā)現(xiàn)和設(shè)計的效率,給材料科學(xué)發(fā)展帶來深遠影響。

4 結(jié)語

本文采用機器學(xué)習(xí)方法,構(gòu)建無機鈣鈦礦材料形成能的預(yù)測模型。通過比較XGBoost、隨機森林、支持向量回歸和LightGBM 4種算法的預(yù)測效果,LightGBM算法展現(xiàn)出最高的預(yù)測精度和效果。其相關(guān)系數(shù)R2達到0.991 2,MAE為0.043 8 eV/atom。LightGBM算法具有以下優(yōu)點:

(1)自動選擇最優(yōu)葉子大小,避免過擬合問題。

(2)根據(jù)樣本損失率確定每個數(shù)據(jù)點的權(quán)重,模型能更加聚焦在目標(biāo)數(shù)據(jù)上。

(3)利用GPU并行計算,實現(xiàn)更高效的訓(xùn)練。

(4)在特征劃分時考慮特征值大小,減少不必要的計算量,訓(xùn)練和預(yù)測速度更快。

本研究證明,LightGBM是一種適用于無機材料形成能預(yù)測的高效算法。與傳統(tǒng)的機器學(xué)習(xí)算法相比,它不僅預(yù)測精度更高、速度更快,也具有更高的可解釋性和泛化能力。相比于其他3種算法,LightGBM在本研究的預(yù)測任務(wù)上顯示出更優(yōu)的性能。

本文為無機鈣鈦礦材料的形成能預(yù)測提供了一種基于LightGBM算法的預(yù)測模型,證明了機器學(xué)習(xí)技術(shù)特別是LightGBM算法在材料發(fā)現(xiàn)和設(shè)計中具有廣闊的應(yīng)用前景。它將大幅提高材料研發(fā)的效率,為新材料的設(shè)計和發(fā)現(xiàn)帶來深遠影響,助力我國新材料產(chǎn)業(yè)的發(fā)展。總之,本研究采用LightGBM算法構(gòu)建無機鈣鈦礦材料形成能高精度預(yù)測模型,為無機鈣鈦礦材料的高效篩選和設(shè)計提供了關(guān)鍵技術(shù)支持,也證明了LightGBM在材料領(lǐng)域具有重要應(yīng)用潛力,值得未來進一步探索。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码电影在线观看| 在线欧美日韩国产| 国产亚洲精品自在久久不卡| 精品国产香蕉伊思人在线| 成人欧美在线观看| 91啪在线| 亚洲色图狠狠干| 日韩性网站| 亚洲精品福利视频| 精品1区2区3区| 一级在线毛片| 国产农村妇女精品一二区| 国产性爱网站| 超薄丝袜足j国产在线视频| 国产毛片高清一级国语 | 中国美女**毛片录像在线| 亚洲成人黄色在线观看| 97在线公开视频| 亚洲aaa视频| 九九九久久国产精品| 国产精品手机在线观看你懂的| 91精品国产丝袜| 伊人久久精品亚洲午夜| 免费人成视网站在线不卡| 国产亚洲美日韩AV中文字幕无码成人| 久久人与动人物A级毛片| 国产精品香蕉在线观看不卡| 色网站在线视频| 99re精彩视频| 伊人久久久久久久| 精品欧美一区二区三区在线| 日韩国产黄色网站| 国产视频一区二区在线观看| 又黄又湿又爽的视频| 成人综合在线观看| 九九热精品免费视频| 大学生久久香蕉国产线观看| 日韩av资源在线| 制服丝袜一区| 香蕉国产精品视频| 欧美另类图片视频无弹跳第一页| 久久久国产精品无码专区| 激情综合网激情综合| 伊人久久婷婷| 亚洲视频色图| 国产精品一区二区国产主播| 啊嗯不日本网站| 91国内视频在线观看| 欧美精品在线观看视频| 亚洲成a人在线播放www| 久久毛片免费基地| 亚洲综合片| 欧美高清三区| 国禁国产you女视频网站| 中文字幕伦视频| 欧美亚洲国产视频| 在线亚洲小视频| 九九久久精品免费观看| 国产成人无码Av在线播放无广告| 亚洲二区视频| 国产免费黄| 精品国产网| 色屁屁一区二区三区视频国产| 国产午夜人做人免费视频中文| 国产av色站网站| 91久久国产热精品免费| 国产永久免费视频m3u8| 亚洲日本www| 日韩av高清无码一区二区三区| 亚洲愉拍一区二区精品| 欧美在线黄| 国产精品中文免费福利| 亚洲福利网址| 99久久人妻精品免费二区| 亚洲精品视频免费观看| 国产亚洲精品资源在线26u| 香蕉eeww99国产精选播放| 久久久成年黄色视频| 99热亚洲精品6码| 精品国产女同疯狂摩擦2| 亚洲动漫h| 国产黑丝一区|