面向功能材料屬性預測的機器學習方法初探

2019-05-05 03:31:32師小偉郝禹齊

長沙大學學報 2019年2期

馬薇，師小偉，郝禹齊

(寧夏大學光伏材料重點實驗室，寧夏銀川 750021)

功能材料的開發是工業創新的基石，同時開發具有靶向性的材料一直是前瞻科學研究的熱點問題[1-3].其中，基于密度泛函理論(Density-functional theory ，DFT)的高通量計算等技術的出現在一定程度上加速了材料的搜尋過程.鈣鈦礦是一種用途廣泛的功能材料，其中諸如HOIPs是一種極具前景的光電材料，其最顯著的優點包括高功率轉換效率(Photo-conversion efficiency ，PCE)、易合成以及可調的帶隙等.但存在兩個關鍵的不足限制了HOIPs的商業應用，其中之一便是毒性(這也是一個嚴重的問題)，主要是材料中含有鉛(Pb)元素，其次是環境穩定性較差.因此，設計具有高PCE且在空氣中持續穩定的雜化有機-無機鈣鈦(Hybrid organic-inorganic perovskites， HOIPs)至關重要.近年來，由于諸如上手功能材料的結構越來越復雜，傳統手工方法從成千上萬種候選材料中高效篩選出具有價值的體系，這類方法耗時耗力且不能有效應用于工業生產.另外，在非晶合金研究領域，如何設計并開發出具有良好玻璃形成能力的合金，是一個具有重要產業價值的科學問題.過去非晶合金材料新體系的探索主要依據經驗性判據的指導，由于其準確性與通用性的限制，非晶新材料的研發速度非常緩慢.如何提高材料設計的效率，尋找具有更優性能的材料，是非晶材料領域非常具有挑戰性的問題.

機器學習(Machine Learning, ML)技術[3-5]通過標注數據學習一種對未知數據進行預測和泛化.傳統基于機器學習的特征工程方法主要分為兩類：基于手工特征提取方法和基于特征學習方法.圖像局部不變特征檢測方法一般分為角點檢測子、斑點檢測子、區域檢測子，近年來也出現了大量相關方法，代表性的方法有尺度不變特征變換(Scale-invariant feature transform，SIFT)[6]，局部二值模式(Local binary pattern ，LBP)[7]和(梯度直方圖Histogram of gradients ，HOG)[8]等.基于特征學習諸如深度學習DL[9-10]的方法通過對訓練集的學習，總結數據集蘊含的規律，學習視覺特征.基于特征學習的方法因其對數據集更加適應，在視覺感知中取得了更為突出的成績[11-18].近年來，深度學習(Deep Learning, DL)方法在視覺目標檢測與識別領域取得了極為出色的成果.如2012年的ImageNet物體識別競賽中，基于深度卷積神經網絡的AlexNet就取得了最高的準確率[15]. 此后Simonyan和Zisserman為大規模物體識別設計了“非常深”的卷積神經網絡[16]，Ioffe和Szegedy提出了批正則化加速卷積神經網絡的訓練[17]，He等人設計了深度殘差網絡使得網絡深度可以大幅增加，進一步改進了基于深度學習的視覺目標檢測識別方法的性能[18].

機器學習(ML)技術已經在功能材料設計和性能屬性預測和分析等方面凸顯其強大的功能，相關文獻[19-22]指出，其不僅可以快速準確地實現功能材料設計，也可以從大規模材料數據庫中挖掘出有效的材料構效關系.美國在2011年提出了材料基因組計劃(Materials Genome Initiative)，以期加快材料的研發過程.我國懷柔科學城的發展規劃中，“材料基因組研究平臺”項目已全面開工建設.高通量實驗+高性能計算+深度數據分析的研究方式已經成為時代發展的趨勢.最近，中國科學院物理研究所凝聚態物理國家實驗室汪衛華研究組博士研究生孫奕韜在汪衛華研究員、白海洋研究員的指導下，與人民大學物理系李茂枝教授合作，采用機器學習的方法，對影響二元合金玻璃形成能力的諸多因素進行了系統的研究，建立了合金成分與性能之間的關聯，并對可能的新材料進行了預測.研究過程中使用到了支持向量機(Support Vector Machine, SVM)這種方法，通過構建多維空間，并在這個多維空間內對數據進行分割，從而建立輸入參量與輸出參量之間的關聯[21-22].雖然ML技術為設計無機鈣鈦礦材料提供了思路，但其在有機-無機雜化鈣鈦礦(HOIPs)領域的應用目前鮮有報道.

論文中通過深入結合傳統ML和DL技術提出基于目標驅動的挖掘穩定無鉛化HOIP方法和DFT計算方法.所提方法總體流程圖如圖1所示，結合ML(如GBR統計回歸模型)和DFT的材料設計框架用于高效搜尋具有適當帶隙的穩定無鉛化HOIPs，由已報道過的HOIP數據訓練ML模型的材料篩選過程，之后，利用DFT進一步計算這些候選材料的電子性質并評估其穩定性.從212個已報道的HOIPs帶隙值中訓練ML模型，然后成功地從5158種未開發的潛在HOIPs中篩選出六種具有適當太陽能帶隙和室溫熱穩定性的正交無鉛HOIPs，其中兩種在可見區域具有直接帶隙和優異的環境穩定性.之后，通過ML數據挖掘出了一種HOIPs帶隙的緊密性結構-性質關系，發現影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.最后，該方法能夠快速實現高精度篩選，可廣泛應用于功能材料設計.

1 研究方法

由于傳統手工篩選可能HOIP結構表現耗時耗力，為有效提升功能材料結構的挖掘過程，提出了基于ML和DL技術的統計模型方法通過優化預測得到一種高精度的HOIP帶隙的緊密性結構-性質關系，進而發現影響理想HOIPs太陽能電池性能的因素.這一部分將從總體設計框架、傳統ML模型、DL模型以及模型推斷和驗證介紹.

1.1 總體設計框架

基于傳統ML和DL技術的方法框架總體流程圖如圖1所示，具體而言，總體設計包括三部分：輸入HOIPs數據，ML算法以及DFT計算.正如傳統ML方法，由于所采集的HOIP數據特征包含大量冗余的特征，因此在訓練和預測HOIPs時如何提取和描述其特征表示是ML訓練和測試中的核心步驟.當特征被準確選擇時，即通過五折交叉驗證從中選出最優的超參數搜索HOIPs.隨后將訓練好的ML模型用于數據預測.最終將DFT計算研究和驗證ML模擬的結果.

圖1 總體流程圖

1.2 傳統ML模型

采用ML常用技術手段——梯度boosting回歸(Gradient boosting regression， GBR)，是一種非參數化的統計機器學習回歸模型，該模型用于預測未知的HOIP的帶隙參數.該模型核心思想是通過學習一組弱回歸器從而單獨使用弱回歸器的預測性能，該模型在訓練過程依次學習每個弱回歸器，進而利用求和模型加強模型預測和建模能，其數學表達式如下所示：

(1)

其中m表示訓練迭代次數，x表示輸入數據，θm表示模型參數向量的分布.整個ML模型共訓練M次，每次訓練產生一個弱回歸函數T.弱分類器的損失函數定義如下：

(2)

其中Fm-1(xi)代表當前模型，GBR用于通過最小經驗損失確定下一個弱分類器的參數.采用的傳統ML方法基于分析小樣本數據計算DFT進而驗證ML模型的預測能力.

1.3 DL模型

傳統ML(手工特征+線性回歸器)方法有兩方面不足：1)手工特征性能對于不同域分布的數據表現過于敏感，因此特征工程需要大量的先驗知識且耗時耗力；2)傳統線性回歸函數表達能力有限，故難以直接對原始數據和預測目標屬性準確建模.為解決上述問題，DL被研究者通過采用多層神經網絡結構有效地對數據和目標標簽之間復雜的非線性關系建模.除此之外，由于深度神經網絡強大的非線性建模能力，故在大規模數據中基于深度學習的分類識別任務表現尤為突出.綜上所述，DL能夠被應用于功能材料性能預測任務，并且其優勢在于特征工程不再依賴于繁瑣的手工設計過程和大量的功能材料專業先驗知識.而只是將已有標注數據作為神經網絡的輸入，并通過優化算法更新網絡參數至收斂，最終得到最優的參數解.如圖2 所示，基于2.2節所述傳統ML框架，式(1)重新定義為

FK(x)=f1°f2°…°fk(σ(WTx+b))

(3)

同時，損失函數式(2)形式化為

(4)

圖2 深度神經網絡結構示意圖

其中f表示單層神經網絡，K代表網絡層數.W和b分別代表需要更新學習的網絡參數權值和偏置.σ(·)表示非線性的激活函數，這樣使得多層網絡具有復雜強大的非線性表示能力.f1°f2表示網絡嵌套，即將f1的網絡輸出作為f2的輸入.優化式(4)中的網絡參數，通常采用反向傳播(BP)隨機梯度下降方法[13-14]，進而迭代更新參數W和b，再根據式(4)給出兩組更新公式如下所示：

(5)

其中k對應網絡第k層參數W和b，ρ為模型優化學習率，即控制整個網絡學習收斂速率.

1.4 模型推斷和驗證

所述ML和DL方法中的關鍵是選擇合適的ML算法.目前，常用預測的ML回歸算法包括諸如上述提到的GBR、人工神經網絡(Artificial neural networks，ANN)、基于核的嶺回歸(Kernel ridge regression，KRR).這些回歸方法能夠提供材料屬性預測的DFT 精度.在本節給出了GBR和DL(同ANN)兩種基于ML的回歸策略用于材料性能預測([7]文中給出多種回歸方式：支持向量回歸、高斯過程回歸、決策樹回歸以及多層感知器回歸).具體而言，在所有數據里選出一部分子集作為訓練集，訓練好模型之后將該模型用于預測剩余數據從而選擇有效統計ML/DL模型.為驗證訓練模型在測試集上的性能表現，文獻[7]同時給出了三種評價預測誤差準則：1)決定系數；2)Pearson系數；3)均方差.利用上述三項評價指標驗證所采用MLDL統計模型訓練收斂性和泛化能力(泛化能力是指統計ML模型在訓練集和測試集的性能表現，表現一致表明泛化能力).

2 實驗數據集和實驗設置

本部分介紹ML模型的數據準備和特征選擇的技術策略細節.

2.1 實驗數據集

驗證數據集包含346種HOIPs，其中所有的HOIP是通過高通量第一性原理計算得到.為保證數據一致和ML預測精度，只選擇通過PBE函數計算所得帶隙的正交晶結構.所以，該算法中選擇212種HOIP復合物.進而，構造一種能夠反應出容忍因子和帶隙的HOIP，從中將所有數據的80%作為訓練集，20%作為測試集，并且整體輸入HOIP數據通過選取不同帶隙值進而保持一定程度的數據分布平衡.

2.2 特征選擇

如第2部分所述，任何ML預測特定屬性的方法，關鍵在于選取特征描述.材料科學不同于模式識別領域，其特征不僅僅只關系到某一種特定材料，同時還與其目標物理化學屬性相關.雖然，影響材料目標屬性的因素較多，其特征選擇仍需合理.一種最優的特征選擇策略可避免ML維度災難，具體而言，控制特征數目應當遠小于數據規模維度.文獻[7]實驗中采用30個初始特征，該特征具體選取離子半徑, 容忍因子和電負性從化學空間描述HOIP.為進一步表示特征和目標屬性間的關聯，首先采用GBR驗證初始特征的有效性.緊接著，通過搜索算法去除冗余特征(對于帶隙影響輕微的特征).最終14個關鍵特征被選做作為最終的特征描述進而表示HOIP.文獻[7]實驗表明通過ML的方法能夠降低不同維度特征間的相關性進而去除特征冗余信息，最終有效提升ML統計模型的預測能力.

3 討論

為提升HOIP材料結構屬性預測和篩選策略，通過深入結合現有ML/DL技術以及DFT計算，提出一種快速目標驅動的方法進而挖掘有效的HOIP結構屬性，最終通過測試發現5158中HIOP結構.與此同時，通過ML技術在收集的大規模功能材料數據中挖掘HOIP結構-屬性映射，并發現影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.

由于傳統高通量搜索方法作用于整個化學空間DFT層級，所用方法利用ML統計模型與DFT結合的模式，因此整個過程僅限于DFT層級的計算，其搜索空間遠遠小于傳統方法，實現節約計算資源.同時也介紹基于神經網絡的DL技術.該技術可直接將功能材料數據作為原始輸入，通過標注目標屬性，從而自動挖掘具有判別和表達能力的材料特征，進而提高搜索材料結構的精度和效率.特別指出基于DL方法依賴于大規模海量功能材料數據作為訓練數據，因此為得到更加優秀的性能需提供足夠多高質量數據訓練模型.

4 結論

不同于需要在DFT水平上搜尋整個化學空間的高通量篩選方法，目前的ML/DL和DFT組合方案只需在DFT水平上計算最具前景的HOIPs，這樣可以極大地節省計算資源.注意，上面提到的篩選非常嚴格，事實上，其篩選條件可以根據目標進行調整以找到適合實驗合成的候選材料.本文提出的靶向驅動法克服了傳統試錯法的主要障礙，同時，由于這種ML技術采用一種基于GBR算法的“末位淘汰”特征選擇程序，因此其不僅可以瞬間達到DFT精度(甚至快于神經網絡算法)，而且適用于小數據集.這也就意味著可以使用相對較小的數據集來實現準確的預測.如果計算或實驗的材料數據足以訓練ML模型，本文方法也適用于其他功能材料的設計與發現.另外，如何利用基于圖結構的DL技術，通過實現全局優化的材料結構屬性預測任務以提升將是一個具有挑戰性的開放問題.