999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進PSO-BP 神經網絡算法的半導體材料帶隙寬度預測

2022-07-10 02:15:30斌胡國梁
電子器件 2022年2期
關鍵詞:特征模型

肖 斌胡國梁

(西南石油大學計算機科學學院,四川 成都 610500)

半導體材料是導電性介于導體與絕緣體之間的材料。半導體材料因其“光生電”“熱生電”等獨特性質,被廣泛地應用于電子通訊、航空航天、國防科研等領域。半導體材料的帶隙寬度是影響半導體材料性能的重要屬性之一。快速準確地模擬計算、預測帶隙寬度對半導體材料的研究具有重要意義。在材料性能模擬計算領域,目前應用最為廣泛的是基于復雜多電子波函數的密度泛函理論。然而密度泛函理論的計算需要花費大量時間,且在復雜環境下的模擬計算結果往往不盡人意。科學家們渴望一種更加快速、更加精確的材料性能模擬計算方法。隨著信息時代的到來,材料科學領域產生的大數據為機器學習在材料性能模擬計算領域的應用提供了可能性[1]。從已有的材料科學領域大數據中進行數據挖掘,提煉出其中的數學規律來預測未知的材料性能是一種新型的材料性能模擬計算手段[2]。

最近幾年一些通過機器學習預測半導體材料帶隙寬度的探索取得了一定的進展。例如徐永林等人[3]使用套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)、支持向量回歸算法(Support Vector Regression,SVR)、梯度提升決策樹算法(Gradient Boosting Decision Tree,GBDT)的融合算法找到了金剛石化合物帶隙寬度與其相關特征之間的映射關系,開發了一種有效的帶隙預測模型。Gu等人[4]將 SVR 和前饋神經網絡算法(Back Propagation Neural Network,BP 神經網絡)結合,提高了BP 神經網絡性能的同時預測了56 種化合物的帶隙寬度。Li 等人[5]通過偏最小二乘法構建納米金屬氧化物帶隙值與結構參數的關系模型,預測不同晶型、不同粒徑納米金屬氧化物的帶隙值。鄭偉達等人[6]通過隨機森林算法可以有效地預測鈣鈦礦材料帶隙性能。這些創新的工作展現了機器學習在材料帶隙寬度預測上的應用。然而如何優化輸入變量、降低預測模型的冗余仍是一個亟待解決的問題[7]。

本文建立一套基于統計學方法和改進粒子群優化前饋(PSO-BP)神經網絡算法的半導體材料帶隙寬度預測模型。該模型運用了統計學和機器學習的方法,從已知半導體材料數據集中提取9 種影響材料帶隙寬度預測的重要特征屬性,挖掘了這些重要特征屬性與帶隙寬度之間隱含的數學規律并將這種數學規律推廣到帶隙寬度的預測之中,從而提高了帶隙寬度預測的效率。對照實驗的結果表明,本文提出的預測模型均方誤差相比對照模型降低了約25%,可靠性達到了75.15%,能更加有效地預測未知半導體材料的帶隙寬度。

1 研究方法

1.1 數據集來源與描述

本文所用半導體材料帶隙寬度實驗數據源于徐永林等人[3]通過搜集整理、組分替換及理論計算等方式得到的443 種類金剛石結構材料體系的帶隙寬度。該數據集包括晶體結構參數、陰陽離子的相對電負性差值、陰離子平均鍵長、所含元素族信息等42 種特征屬性,以及1 種目標變量GAP(帶隙寬度)。由于并非每種化合物都包含所有族的元素,因此數據集中部分特征屬性出現大量的缺失值。為了保證算法模型的判斷力及提高算法模型的泛化能力,刪除了存在缺失值的特征屬性,僅保留“A(晶格常數A)、B(晶格常數B)、C(晶格常數C)、BE(軸角β)、GA(軸角γ)、ED(陰陽離子相對電負性差)、NNCN(陰離子最近鄰配位數)、V(方差)、ASBL(陰離子平均鍵長)、AAM(陰離子原子質量)、CAAM(陽離子平均原子質量)、AVEN(平均價電子數)、ETN(元素種類數)、6_AIE(6A 組元素的電離能)、6_AAM(6A 組元素的原子質量)、6_AE(6A 組元素的電負性)”共計16 個特征屬性。

1.2 輸入變量的分析和選擇

本文在數據集總體大小有限的情況下,繪制相關性系數圖譜和方差表,以分析識別出高價值特征屬性,盡可能降低數據集維度,縮短樣本在數據空間上的距離,以降低預測算法過擬合的風險[8]。同時還要盡可能保留方差較大的特征屬性,以保留數據集中隱含的信息,優化該算法的泛化能力。為此本文使用Pearson 相關系數和方差兩種統計量來描述特征屬性的重要程度。

Pearson 相關系數是一種描述兩個變量之間的線性關系并將這種關系數值化的方法[9]。Pearson相關系數的值介于-1 與1 之間。Pearson 相關系數的絕對值越接近于1,表明兩個變量之間的線性關系越強;Pearson 相關系數的絕對值越接近于0,表明兩個變量之間的線性關系越弱。如果隨著一個變量增大,另一個變量逐漸減小,則表明它們之間是線性負相關的,Pearson 相關系數小于0;如果隨著一個變量增大,另一個變量也隨之增大,則表明它們之間是線性正相關的,Pearson 相關系數大于0。具體公式如下:

式中:Cov(X,Y)為隨機變量X和Y的協方差,E為數學期望,μ和ν分別為隨機變量X和Y的總體均值,σX和σY分別為隨機變量X和Y的標準差。

采用方差評估單一特征屬性的離散程度時,單一特征屬性的方差越大,算法模型越容易分辨出其中的區別。具體公式如下:

式中:μ為隨機變量X的總體均值,N為總體例數。

1.3 回歸算法

1.3.1 基于集成學習和Adam 自適應矩估計法改進的PSO-BP 神經網絡算法

本文提出一種基于集成學習和Adam 自適應矩估計法改進的PSO-BP 神經網絡算法(以下簡記為IPSO-BPNN)。該算法主要分為兩個部分,一是基于集成學習改進的PSO 算法部分和二是基于Adam自適應矩估計法改進的BP 神經網絡算法部分。

在PSO 算法部分采用了集成學習的思想進行改進。其具體方法為:第一步,隨機抽取PSO-BP 神經網絡訓練集中20%的樣本作為集成學習粒子群優化算法的訓練集。第二步,無重復選取1 個集成學習粒子群優化算法的訓練樣本與PSO 算法構成1個弱學習器。隨機抽取60%除該訓練樣本以外的訓練樣本作為該弱學習器的測試集。第三步,當集成學習粒子群優化算法的訓練集中的訓練樣本全部取完時,利用弱學習器對應的測試集對所有弱學習器得到的神經網絡權重值和閾值進行測試,選取誤差最小者作為全局BP 神經網絡的最優權重值和閾值。第四步,開始BP 神經網絡的訓練。

基于集成學習改進的優勢在于在不遍歷所有訓練樣本的前提下,盡可能重現原樣本空間的數值特點,得到最佳BP 神經網絡權重、閾值的估計。避免由于PSO 算法易早熟的特性導致PSO 算法優化結果遠離BP 神經網絡全局誤差的最小值點。同時也避免了PSO 算法遍歷訓練數據集導致的訓練時間大幅增加。

在BP 神經網絡算法部分采用了Adam 自適應矩估計法作為BP 神經網絡算法的優化器。Adam自適應矩估計法利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率。Adam 自適應矩估計的特點是其在經過偏置校正后,每次迭代學習率都有個確定范圍,使得參數比較平穩,不易陷入局部極小值點。其公式如下:

式中:gt是目標函數關于參數的梯度,mt、nt分別是對梯度的一階矩估計和二階矩估計。mt-1、nt-1是梯度的累計一階矩估計、二階矩估計,二者初始值皆為0。、是對mt、nt的校正。β1、β2分別是一階矩估計和二階矩估計對應的衰減速率,一般取0.9 和0.999,α是學習率,ε是防止出現除零錯誤的較小常數,一般取10-8。Δθt是根據、計算的動態學習率范圍。

Adam 自適應矩估計法能夠自動為各個參數分配學習率,訓練末期不易擺動,整個訓練期參數變化較為平穩。相比于隨機梯度下降法,Adam 自適應矩估計法更適合優化非平穩目標,更不容易陷入局部極小值。

本算法的時間復雜度為O(m2+mn2),其中m正比于訓練集樣本數量,n正比于BP 神經網絡中神經元數量。

1.3.2 對照模型的回歸算法

本文使用LASSO[10]、SVR[11]、GBDT[12]以及未經改進的PSO-BP 神經網絡算法(Particle Swarm Optimization-Back Propagation Neural Network,PSOBPNN)作為對照實驗的回歸算法。其中,LASSO 算法是在傳統最小二乘估計上改良而來的一種多元線性回歸算法;SVR 算法是支持向量機在回歸問題上的一種應用;GBDT 是一種迭代的決策樹算法。3 種算法均為回歸問題常用的算法。

對照實驗結果的表格引用了Ensemble 算法實驗結果。Ensemble 算法是徐永林等[3]提出的一種有利于找到帶隙寬度特征描述符的融合算法。它通過集成LASSO、SVR、GBDT 分別構成的弱學習器對數據集進行預處理,然后再次利用GBDT 構成的強學習器進行回歸計算。

1.4 評價指標

對于1.3 節中不同回歸模型產生的結果,本文使用平均絕對誤差(MAE)、均方誤差(MSE)、決定系數[13](R2)共3 種不同的性能評價指標描述了各個模型在測試集上的性能表現。MAE 和MSE 反映的是回歸偏差的大小,其值越接近于0,說明該模型回歸偏差越小,回歸性能越好;R2反映的是回歸結果的可靠性高低,其值越接近于1,說明該模型回歸結果的可靠性越高。3 種評價指標的計算規則為如下:

式中:N為樣本總量,xi為測試集中對應的第i個實際值,為其對應的模型預測值,為測試集中所有實際值的平均值。

2 實驗結果及分析

2.1 基于Pearson 相關系數及方差的輸入變量選擇

利用上述Pearson 相關系數公式可繪制數據集中特征屬性之間、特征屬性與帶隙值之間的相關系數圖譜[14]如圖1。

圖1 數據集中特征屬性之間Pearson 相關系數圖譜

表1 描述了數據集中16 個特征屬性的方差值。

表1 特征屬性的方差表

通過圖1 可以發現6_AIM、6_AE、ED、ETN 四種特征屬性之間存在多重共線性,因此只保留方差最大的6_AIM。NNCN、V、AVEN 三種特征屬性與帶隙值之間的Pearson 相關系數較低,線性關系較差,因此予以刪除。ASBL 的方差較低,且與AAM 存在一定的二重共線性,因此予以刪除。

綜上,本文在經過基于Pearson 相關系數和方差的輸入變量分析與選擇后,僅保留A、B、C、BE、GA、AAM、CAAM、6_AIE、6_AAM 共9 種特征屬性。

2.2 對照實驗的參數設定與結果

在對照實驗中,IPSO-BPNN 與PSO-BPNN、Lasso、SVR、GBDT 一同在材料帶隙寬度數據集上進行回歸計算。各算法的輸入變量均為上節中所述影響材料帶隙寬度預測的9 種特征屬性。

其中IPSO-BPNN 與PSO-BPNN 采用3 層BP神經網絡結構。基于上述對輸入變量的分析與選擇,輸入層神經元數量確定為9。以材料帶隙寬度值數據為輸出層,故輸出層神經元數為1。隱含層節點采用ReLU 函數激活函數[15]。隱含層神經元個數由下列經驗式計算并初步測試后確定為13:

式中:m為隱含層神經元個數;n為輸入層神經元個數;l為輸出層神經元個數;a為1 至10 之間的整數。

在PSO 優化算法設置中,慣性權重w取0.8,加速因子c1=c2=2,r1、r2為(0,1)之間的隨機數,粒子初始位置及速度均為隨機值,迭代最大次數取50,設置粒子位置區間以防止出現權重、閾值過大的情況,但不設粒子速度區間。

在LASSO 算法中,正則項系數α值設為0.06,最大迭代次數設為1 000。

在SVR 算法中,核函數Kernel 設為徑向基函數(Radial Basis Function,RBF),核函數系數γ值設為10,錯誤項懲罰系數C值設為5,模型錯誤分類容忍度ε值設為0.01。

在GBDT 算法中,回歸樹個數設為1 500,學習率設為0.03,子采樣值設為0.6。

在訓練集上分別對PSO-BPNN 和IPSO-BPNN進行調優后,將測試集數據代入模型中輸出預測結果并與實際值進行比較。

圖2 所示為5 種算法預測結果的散點圖。圖中橫坐標為帶隙理論值,縱坐標為算法預測值。散點越接近于斜率為1 的黑線,預測效果越好。表2 是各個模型在材料帶隙寬度數據集上的預測結果。

圖2 5 種算法預測結果的散點圖

表2 各個算法在材料帶隙寬度數據集上的預測結果

由圖表可見IPSO-BPNN、PSO-BPNN、GBDT 具有較好的預測效果。而IPSO-BPNN 預測值相比于其余4 種算法都更加接近真實值,其MAE、MSE 均為5 種算法中最低,分別達到了0.309 5 和0.174 0,相比次好算法降低了約11%和25%。R2值為5 種算法中最高,達到了0.751 5。得益于優化的回歸算法,IPSO-BPNN 具有更好的預測效果。

IPSO-BPNN 相比于引用的Ensemble 算法來說各有勝負,MAE 相差無幾,MSE 占據優勢,R2略有不足。IPSO-BPNN 略微犧牲了R2值換得了更小的預測誤差。

此外,5 種算法均對于0~0.2 eV 之間的材料帶隙預測效果較差,其原因可能是該段用于訓練的數據集較少,使得5 種算法沒能很好學習到該段數據的特點,其次帶隙寬度為0~0.2 eV 之間的材料性質接近于導體,與典型的半導體之間存在著差距,致使5 種算法未能很好地分辨其中的區別。

3 結論

本文設計了一種基于統計學方法和機器學習的半導體材料帶隙寬度預測模型,并針對于類金剛石材料帶隙寬度數據集進行了預測實驗。通過輸入變量的分析與選擇、PSO-BP 神經網絡算法的優化等手段,使得本預測模型預測的均方誤差低至0.174 0,決定系數提升至0.751 5,相比于對照算法更具準確性。本預測模型在材料帶隙寬度上的預測精度能夠更好地滿足研究實際需求,對提高預測材料帶隙寬度的效率具有重要的應用價值。而本算法的時間復雜度較高,實際運行速度較PSO-BPNN 算法更慢。下一步的工作將降低算法的時間復雜度,使得本算法在材料帶隙寬度預測方面取得更加令人滿意的效果。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中国丰满人妻无码束缚啪啪| 亚洲V日韩V无码一区二区| 亚洲天堂精品在线观看| 久久精品一卡日本电影| 国产精品手机视频一区二区| 国产精品短篇二区| 国产第一页亚洲| 亚洲AV无码乱码在线观看代蜜桃 | 色综合久久88色综合天天提莫| 亚洲精品欧美日本中文字幕| 国产人成网线在线播放va| 午夜小视频在线| 99手机在线视频| 国产情侣一区二区三区| 久久久成年黄色视频| 女人18毛片一级毛片在线| 国产中文一区二区苍井空| 欧美一区国产| 视频在线观看一区二区| 国产又爽又黄无遮挡免费观看 | 91麻豆精品视频| 亚洲国产欧美目韩成人综合| 亚洲黄色视频在线观看一区| 国产福利免费视频| 免费毛片a| 欧美成人日韩| 伊人久久大香线蕉aⅴ色| 欧美高清视频一区二区三区| 麻豆精选在线| 午夜精品福利影院| 天堂在线www网亚洲| 国产福利小视频高清在线观看| 毛片网站免费在线观看| 在线毛片免费| 视频二区中文无码| 国产精品专区第1页| 日韩视频免费| 免费毛片全部不收费的| 国产精品人成在线播放| 免费国产高清视频| 在线综合亚洲欧美网站| 欧美一级在线播放| 欧美精品成人| 国产精品亚洲五月天高清| 欧美国产日韩一区二区三区精品影视| 高潮毛片免费观看| 青青草国产一区二区三区| 在线看片中文字幕| 亚洲男人的天堂久久香蕉网| 色噜噜狠狠狠综合曰曰曰| 亚洲免费毛片| 一本大道AV人久久综合| 亚洲午夜片| 无码精品国产dvd在线观看9久| 4虎影视国产在线观看精品| 毛片免费观看视频| 成人在线亚洲| 国产97视频在线观看| 亚洲视频影院| 久久国产热| 国产丝袜第一页| 久久国产香蕉| 国产sm重味一区二区三区| 毛片网站免费在线观看| 97在线免费| 亚洲天堂网在线播放| 欧美在线伊人| 国产人前露出系列视频| 国产精品自在在线午夜| 青青热久麻豆精品视频在线观看| 怡红院美国分院一区二区| 亚欧美国产综合| 又黄又湿又爽的视频| 超清人妻系列无码专区| 色亚洲激情综合精品无码视频| 国产高清在线丝袜精品一区| 久久福利网| 一区二区无码在线视频| 日韩中文无码av超清| 2020最新国产精品视频| 免费在线不卡视频| 日本一区中文字幕最新在线|