馬 薇,師小偉,郝禹齊
(寧夏大學光伏材料重點實驗室,寧夏 銀川 750021)
功能材料的開發(fā)是工業(yè)創(chuàng)新的基石,同時開發(fā)具有靶向性的材料一直是前瞻科學研究的熱點問題[1-3].其中,基于密度泛函理論(Density-functional theory ,DFT)的高通量計算等技術的出現(xiàn)在一定程度上加速了材料的搜尋過程.鈣鈦礦是一種用途廣泛的功能材料,其中諸如HOIPs是一種極具前景的光電材料,其最顯著的優(yōu)點包括高功率轉(zhuǎn)換效率(Photo-conversion efficiency ,PCE)、易合成以及可調(diào)的帶隙等.但存在兩個關鍵的不足限制了HOIPs的商業(yè)應用,其中之一便是毒性(這也是一個嚴重的問題),主要是材料中含有鉛(Pb)元素,其次是環(huán)境穩(wěn)定性較差.因此,設計具有高PCE且在空氣中持續(xù)穩(wěn)定的雜化有機-無機鈣鈦(Hybrid organic-inorganic perovskites, HOIPs)至關重要.近年來,由于諸如上手功能材料的結構越來越復雜,傳統(tǒng)手工方法從成千上萬種候選材料中高效篩選出具有價值的體系,這類方法耗時耗力且不能有效應用于工業(yè)生產(chǎn).另外,在非晶合金研究領域,如何設計并開發(fā)出具有良好玻璃形成能力的合金,是一個具有重要產(chǎn)業(yè)價值的科學問題.過去非晶合金材料新體系的探索主要依據(jù)經(jīng)驗性判據(jù)的指導,由于其準確性與通用性的限制,非晶新材料的研發(fā)速度非常緩慢.如何提高材料設計的效率,尋找具有更優(yōu)性能的材料,是非晶材料領域非常具有挑戰(zhàn)性的問題.
機器學習(Machine Learning, ML)技術[3-5]通過標注數(shù)據(jù)學習一種對未知數(shù)據(jù)進行預測和泛化.傳統(tǒng)基于機器學習的特征工程方法主要分為兩類:基于手工特征提取方法和基于特征學習方法.圖像局部不變特征檢測方法一般分為角點檢測子、斑點檢測子、區(qū)域檢測子,近年來也出現(xiàn)了大量相關方法,代表性的方法有尺度不變特征變換(Scale-invariant feature transform,SIFT)[6],局部二值模式(Local binary pattern ,LBP)[7]和(梯度直方圖Histogram of gradients ,HOG)[8]等.基于特征學習諸如深度學習DL[9-10]的方法通過對訓練集的學習,總結數(shù)據(jù)集蘊含的規(guī)律,學習視覺特征.基于特征學習的方法因其對數(shù)據(jù)集更加適應,在視覺感知中取得了更為突出的成績[11-18].近年來,深度學習(Deep Learning, DL)方法在視覺目標檢測與識別領域取得了極為出色的成果.如2012年的ImageNet物體識別競賽中,基于深度卷積神經(jīng)網(wǎng)絡的AlexNet就取得了最高的準確率[15]. 此后Simonyan和Zisserman為大規(guī)模物體識別設計了“非常深”的卷積神經(jīng)網(wǎng)絡[16],Ioffe和Szegedy提出了批正則化加速卷積神經(jīng)網(wǎng)絡的訓練[17],He等人設計了深度殘差網(wǎng)絡使得網(wǎng)絡深度可以大幅增加,進一步改進了基于深度學習的視覺目標檢測識別方法的性能[18].
機器學習(ML)技術已經(jīng)在功能材料設計和性能屬性預測和分析等方面凸顯其強大的功能,相關文獻[19-22]指出,其不僅可以快速準確地實現(xiàn)功能材料設計,也可以從大規(guī)模材料數(shù)據(jù)庫中挖掘出有效的材料構效關系.美國在2011年提出了材料基因組計劃(Materials Genome Initiative),以期加快材料的研發(fā)過程.我國懷柔科學城的發(fā)展規(guī)劃中,“材料基因組研究平臺”項目已全面開工建設.高通量實驗+高性能計算+深度數(shù)據(jù)分析的研究方式已經(jīng)成為時代發(fā)展的趨勢.最近,中國科學院物理研究所凝聚態(tài)物理國家實驗室汪衛(wèi)華研究組博士研究生孫奕韜在汪衛(wèi)華研究員、白海洋研究員的指導下,與人民大學物理系李茂枝教授合作,采用機器學習的方法,對影響二元合金玻璃形成能力的諸多因素進行了系統(tǒng)的研究,建立了合金成分與性能之間的關聯(lián),并對可能的新材料進行了預測.研究過程中使用到了支持向量機(Support Vector Machine, SVM)這種方法,通過構建多維空間,并在這個多維空間內(nèi)對數(shù)據(jù)進行分割,從而建立輸入?yún)⒘颗c輸出參量之間的關聯(lián)[21-22].雖然ML技術為設計無機鈣鈦礦材料提供了思路,但其在有機-無機雜化鈣鈦礦(HOIPs)領域的應用目前鮮有報道.
論文中通過深入結合傳統(tǒng)ML和DL技術提出基于目標驅(qū)動的挖掘穩(wěn)定無鉛化HOIP方法和DFT計算方法.所提方法總體流程圖如圖1所示,結合ML(如GBR統(tǒng)計回歸模型)和DFT的材料設計框架用于高效搜尋具有適當帶隙的穩(wěn)定無鉛化HOIPs,由已報道過的HOIP數(shù)據(jù)訓練ML模型的材料篩選過程,之后,利用DFT進一步計算這些候選材料的電子性質(zhì)并評估其穩(wěn)定性.從212個已報道的HOIPs帶隙值中訓練ML模型,然后成功地從5158種未開發(fā)的潛在HOIPs中篩選出六種具有適當太陽能帶隙和室溫熱穩(wěn)定性的正交無鉛HOIPs,其中兩種在可見區(qū)域具有直接帶隙和優(yōu)異的環(huán)境穩(wěn)定性.之后,通過ML數(shù)據(jù)挖掘出了一種HOIPs帶隙的緊密性結構-性質(zhì)關系,發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.最后,該方法能夠快速實現(xiàn)高精度篩選,可廣泛應用于功能材料設計.
由于傳統(tǒng)手工篩選可能HOIP結構表現(xiàn)耗時耗力,為有效提升功能材料結構的挖掘過程,提出了基于ML和DL技術的統(tǒng)計模型方法通過優(yōu)化預測得到一種高精度的HOIP帶隙的緊密性結構-性質(zhì)關系,進而發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素.這一部分將從總體設計框架、傳統(tǒng)ML模型、DL模型以及模型推斷和驗證介紹.
基于傳統(tǒng)ML和DL技術的方法框架總體流程圖如圖1所示,具體而言,總體設計包括三部分:輸入HOIPs數(shù)據(jù),ML算法以及DFT計算.正如傳統(tǒng)ML方法,由于所采集的HOIP數(shù)據(jù)特征包含大量冗余的特征,因此在訓練和預測HOIPs時如何提取和描述其特征表示是ML訓練和測試中的核心步驟.當特征被準確選擇時,即通過五折交叉驗證從中選出最優(yōu)的超參數(shù)搜索HOIPs.隨后將訓練好的ML模型用于數(shù)據(jù)預測.最終將DFT計算研究和驗證ML模擬的結果.

圖1 總體流程圖
采用ML常用技術手段——梯度boosting回歸(Gradient boosting regression, GBR),是一種非參數(shù)化的統(tǒng)計機器學習回歸模型,該模型用于預測未知的HOIP的帶隙參數(shù).該模型核心思想是通過學習一組弱回歸器從而單獨使用弱回歸器的預測性能,該模型在訓練過程依次學習每個弱回歸器,進而利用求和模型加強模型預測和建模能,其數(shù)學表達式如下所示:
(1)
其中m表示訓練迭代次數(shù),x表示輸入數(shù)據(jù),θm表示模型參數(shù)向量的分布.整個ML模型共訓練M次,每次訓練產(chǎn)生一個弱回歸函數(shù)T.弱分類器的損失函數(shù)定義如下:
(2)
其中Fm-1(xi)代表當前模型,GBR用于通過最小經(jīng)驗損失確定下一個弱分類器的參數(shù).采用的傳統(tǒng)ML方法基于分析小樣本數(shù)據(jù)計算DFT進而驗證ML模型的預測能力.
傳統(tǒng)ML(手工特征+線性回歸器)方法有兩方面不足:1)手工特征性能對于不同域分布的數(shù)據(jù)表現(xiàn)過于敏感,因此特征工程需要大量的先驗知識且耗時耗力;2)傳統(tǒng)線性回歸函數(shù)表達能力有限,故難以直接對原始數(shù)據(jù)和預測目標屬性準確建模.為解決上述問題,DL被研究者通過采用多層神經(jīng)網(wǎng)絡結構有效地對數(shù)據(jù)和目標標簽之間復雜的非線性關系建模.除此之外,由于深度神經(jīng)網(wǎng)絡強大的非線性建模能力,故在大規(guī)模數(shù)據(jù)中基于深度學習的分類識別任務表現(xiàn)尤為突出.綜上所述,DL能夠被應用于功能材料性能預測任務,并且其優(yōu)勢在于特征工程不再依賴于繁瑣的手工設計過程和大量的功能材料專業(yè)先驗知識.而只是將已有標注數(shù)據(jù)作為神經(jīng)網(wǎng)絡的輸入,并通過優(yōu)化算法更新網(wǎng)絡參數(shù)至收斂,最終得到最優(yōu)的參數(shù)解.如圖2 所示,基于2.2節(jié)所述傳統(tǒng)ML框架,式(1)重新定義為
FK(x)=f1°f2°…°fk(σ(WTx+b))
(3)
同時,損失函數(shù)式(2)形式化為
(4)

圖2 深度神經(jīng)網(wǎng)絡結構示意圖
其中f表示單層神經(jīng)網(wǎng)絡,K代表網(wǎng)絡層數(shù).W和b分別代表需要更新學習的網(wǎng)絡參數(shù)權值和偏置.σ(·)表示非線性的激活函數(shù),這樣使得多層網(wǎng)絡具有復雜強大的非線性表示能力.f1°f2表示網(wǎng)絡嵌套,即將f1的網(wǎng)絡輸出作為f2的輸入.優(yōu)化式(4)中的網(wǎng)絡參數(shù),通常采用反向傳播(BP)隨機梯度下降方法[13-14],進而迭代更新參數(shù)W和b,再根據(jù)式(4)給出兩組更新公式如下所示:
(5)
其中k對應網(wǎng)絡第k層參數(shù)W和b,ρ為模型優(yōu)化學習率,即控制整個網(wǎng)絡學習收斂速率.
所述ML和DL方法中的關鍵是選擇合適的ML算法.目前,常用預測的ML回歸算法包括諸如上述提到的GBR、人工神經(jīng)網(wǎng)絡(Artificial neural networks,ANN)、基于核的嶺回歸(Kernel ridge regression,KRR).這些回歸方法能夠提供材料屬性預測的DFT 精度.在本節(jié)給出了GBR和DL(同ANN)兩種基于ML的回歸策略用于材料性能預測([7]文中給出多種回歸方式:支持向量回歸、高斯過程回歸、決策樹回歸以及多層感知器回歸).具體而言,在所有數(shù)據(jù)里選出一部分子集作為訓練集,訓練好模型之后將該模型用于預測剩余數(shù)據(jù)從而選擇有效統(tǒng)計ML/DL模型.為驗證訓練模型在測試集上的性能表現(xiàn),文獻[7]同時給出了三種評價預測誤差準則:1)決定系數(shù);2)Pearson系數(shù);3)均方差.利用上述三項評價指標驗證所采用MLDL統(tǒng)計模型訓練收斂性和泛化能力(泛化能力是指統(tǒng)計ML模型在訓練集和測試集的性能表現(xiàn),表現(xiàn)一致表明泛化能力).
本部分介紹ML模型的數(shù)據(jù)準備和特征選擇的技術策略細節(jié).
驗證數(shù)據(jù)集包含346種HOIPs,其中所有的HOIP是通過高通量第一性原理計算得到.為保證數(shù)據(jù)一致和ML預測精度,只選擇通過PBE函數(shù)計算所得帶隙的正交晶結構.所以,該算法中選擇212種HOIP復合物.進而,構造一種能夠反應出容忍因子和帶隙的HOIP,從中將所有數(shù)據(jù)的80%作為訓練集,20%作為測試集,并且整體輸入HOIP數(shù)據(jù)通過選取不同帶隙值進而保持一定程度的數(shù)據(jù)分布平衡.
如第2部分所述,任何ML預測特定屬性的方法,關鍵在于選取特征描述.材料科學不同于模式識別領域,其特征不僅僅只關系到某一種特定材料,同時還與其目標物理化學屬性相關.雖然,影響材料目標屬性的因素較多,其特征選擇仍需合理.一種最優(yōu)的特征選擇策略可避免ML維度災難,具體而言,控制特征數(shù)目應當遠小于數(shù)據(jù)規(guī)模維度.文獻[7]實驗中采用30個初始特征,該特征具體選取離子半徑, 容忍因子和電負性從化學空間描述HOIP.為進一步表示特征和目標屬性間的關聯(lián),首先采用GBR驗證初始特征的有效性.緊接著,通過搜索算法去除冗余特征(對于帶隙影響輕微的特征).最終14個關鍵特征被選做作為最終的特征描述進而表示HOIP.文獻[7]實驗表明通過ML的方法能夠降低不同維度特征間的相關性進而去除特征冗余信息,最終有效提升ML統(tǒng)計模型的預測能力.
為提升HOIP材料結構屬性預測和篩選策略,通過深入結合現(xiàn)有ML/DL技術以及DFT計算,提出一種快速目標驅(qū)動的方法進而挖掘有效的HOIP結構屬性,最終通過測試發(fā)現(xiàn)5158中HIOP結構.與此同時,通過ML技術在收集的大規(guī)模功能材料數(shù)據(jù)中挖掘HOIP結構-屬性映射,并發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.
由于傳統(tǒng)高通量搜索方法作用于整個化學空間DFT層級,所用方法利用ML統(tǒng)計模型與DFT結合的模式,因此整個過程僅限于DFT層級的計算,其搜索空間遠遠小于傳統(tǒng)方法,實現(xiàn)節(jié)約計算資源.同時也介紹基于神經(jīng)網(wǎng)絡的DL技術.該技術可直接將功能材料數(shù)據(jù)作為原始輸入,通過標注目標屬性,從而自動挖掘具有判別和表達能力的材料特征,進而提高搜索材料結構的精度和效率.特別指出基于DL方法依賴于大規(guī)模海量功能材料數(shù)據(jù)作為訓練數(shù)據(jù),因此為得到更加優(yōu)秀的性能需提供足夠多高質(zhì)量數(shù)據(jù)訓練模型.
不同于需要在DFT水平上搜尋整個化學空間的高通量篩選方法,目前的ML/DL和DFT組合方案只需在DFT水平上計算最具前景的HOIPs,這樣可以極大地節(jié)省計算資源.注意,上面提到的篩選非常嚴格,事實上,其篩選條件可以根據(jù)目標進行調(diào)整以找到適合實驗合成的候選材料.本文提出的靶向驅(qū)動法克服了傳統(tǒng)試錯法的主要障礙,同時,由于這種ML技術采用一種基于GBR算法的“末位淘汰”特征選擇程序,因此其不僅可以瞬間達到DFT精度(甚至快于神經(jīng)網(wǎng)絡算法),而且適用于小數(shù)據(jù)集.這也就意味著可以使用相對較小的數(shù)據(jù)集來實現(xiàn)準確的預測.如果計算或?qū)嶒灥牟牧蠑?shù)據(jù)足以訓練ML模型,本文方法也適用于其他功能材料的設計與發(fā)現(xiàn).另外,如何利用基于圖結構的DL技術,通過實現(xiàn)全局優(yōu)化的材料結構屬性預測任務以提升將是一個具有挑戰(zhàn)性的開放問題.