999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖神經網絡的高溫樹脂材料預測模型

2022-01-09 05:52:24胡航語
功能高分子學報 2021年6期
關鍵詞:模型

楊 寧,魏 偉,胡航語,郭 雷,方 俊

(西北工業大學 1.自動化學院; 2.計算機學院,西安 710129)

在材料信息領域,大部分研究主要針對樹脂等高分子材料的制備以及性能[1-3],而較少通過機器學習方法研發高分子新材料。基于機器學習方法的材料性能預測,已經在新材料研發領域體現出獨特優勢,能夠有效地預測潛在的高分子材料性能,部分替代第一性原理的運算。

目前,使用傳統機器學習方法預測材料性能已成為關注熱點。Jacob 等[4]在化學子結構家族之間使用基于張量積的特征,然后使用了具有成對核的支持向量機(Support Vector Machine,SVM)。Yamanishi 等[5]提出了一種二部圖學習方法,將化合物映射到一個共同特征向量空間,并最小化,由已知相互作用鏈接向量之間的歐幾里德距離。Bleakley 等[6]提出了一種二分局部模型,該模型采用化學結構之間的相似性測量,使用了具有已知相互作用的SVM。van Laarhoven 等[7]使用基于網絡拓撲的高斯交互配置文件內核,而G?nen[8]使用具有雙內核的貝葉斯矩陣分解特征。

傳統機器學習方法存在兩個不足:第一,需要使用人為設定固定化學特征(即二進制值),這種人為設定的化學特征適用范圍小,不能完全體現數據本身特性;第二,沒有辦法處理簡化分子線性輸入(SMILES)碼,只能將其當作類別型數據進行二進制編碼,損失了高分子材料的結構特征。

針對這些問題,本文提出了一種端到端的圖神經網絡(Graph Neural Network,GNN[9,10])模型,它可以學習分子圖的低維實值向量表示。將SMILES 碼轉換為圖數據表示分子結構,其中頂點是原子,邊是化學鍵。然后將這種圖數據按照半徑(r)分割為多個子圖進行學習和迭代,最終得到分子的向量表示。最后將分子向量、條件、環境等特征,通過構建神經網絡進行樹脂材料的高溫性能預測。在高溫樹脂數據集實驗中,驗證了基于GNN 模型可以實現比現有方法更高的模型準確率(準確率能夠達到0.6 以上)。而作為對比的基于化學特征的經典機器學習方法,如SVM、梯度提升回歸樹(GBRT)等方法,準確率難以突破0.3。這表明GNN 模型獲得的數據驅動特征比傳統人工提取的化學特征更有效。

本工作的意義有以下三個方面:第一,采用GNN 模型可以根據特定任務自學習地提取分子相關化學特征,解決了之前需要人為手動設定化學特征的問題;第二,采用GNN 模型表示高分子材料特征,將高分子的結構表示為由頂點和邊構成的圖,同時定義頂點的作用半徑來模擬高分子化學反應的迭代過程,可以更全面地提取高分子的結構和反應特征;第三,通過和傳統機器學習方法在樹脂材料數據集上的高溫性能預測實驗的比較,證實GNN 模型方法相較于傳統機器學習模型,預測準確率提升了一倍以上。

1 數據預處理

數據集由1 970 種樹脂材料組成,為非公開數據集,研究對象是:在空氣、氧氣、氮氣等環境下,升溫速率分別為5、10、20、40 ℃/min 時,樹脂材料質量損失5%的最高溫度(Td5%)。

1.1 處理數值型數據

本文使用線性函數歸一化方法對原始數據執行線性變換,使結果被映射到[0,1]區間,這樣會讓原始數據等比縮放。歸一化操作公式為:

式中:X表示原始數據;Xmin、Xmax分別表示數據最小值、最大值;Xnorm為歸一后的結果。

1.2 處理類別型數據

氣體和升溫幅度這類文字描述數據都屬于類別型特征,原始輸入是字符串,采用二進制編碼方法處理。首先將每個類別特征賦予標簽(id)值,然后對這些id 值進行二進制編碼。當某個特征存在4 種取值可能性時,這4 個取值可以被表示為001,010,011,100。本質上是利用二進制的方法對id 值進行哈希映射,最終能夠得到0 和1 表示的特征向量。例如,使用了氮氣,編號為001;使用了空氣,編號為010;以此類推。

1.3 處理重復數據

在本數據集中,存在大量環境、條件、升溫速率、SMILES 碼等信息完全一致,而只有Td5%不同的情況。這是因為樹脂材料SMILES 碼的鏈長難以給出所致。這樣的數據會對模型產生錯誤干擾,因此從1 970 種樹脂材料的原始數據集中保留了879 種進行模型構建。

2 方 法

圖1 是本方法的整體流程圖。首先利用化學信息學開源工具包(RDKit)庫將高分子的SMILES 碼轉換為圖數據,然后通過圖神經網絡處理,提取高分子對應的結構特征和反應特征,得到分子圖的分子向量;最后結合數值、類別等數據,采用全連接神經網絡進行回歸分析,得到高溫性能的預測結果。

圖1 流程圖Fig.1 Flow chart

2.1 分子圖的GNN

利用GNN 來繪制分子圖以獲得分子圖的低維實值向量表示。GNN 映射圖 G到一個向量y∈Rd具有兩個函數,即轉移函數和輸出函數(分別在2.3 節和2.4 節詳細說明)。轉移函數根據每個頂點的相鄰頂點和邊更新信息,并通過輸出函數將頂點集映射到分子向量。這兩個函數都是使用神經網絡實現的。其中,轉移函數和輸出函數都是可微的,函數中的所有參數,包括輸入特征,都是通過反向傳播學習的。

2.2 輸入:嵌入r 半徑子圖

如圖2 所示,本文以乙醛的SMILES 碼CC=O 為例,以r=1 和r=2 分為兩個子圖,即圖2 的上下兩個部分。然后分別以兩個碳原子為中心,尋找r半徑的原子,以及它們之間的化學鍵。即圖表示為G=(V,E),其中V是頂點集合,E是邊的集合。在一個分子中,vi∈V是第i個原子,而eij∈E是第i個和第j個原子之間的化學鍵。最后需要將所有原子和化學鍵嵌入到d維實值向量空間中。

圖2 GNN 得到的分子圖以及嵌入r 半徑子圖Fig.2 GNN for molecular graph and the embeddings based on r-radius subgraphs

本文使用的嵌入r半徑子圖由頂點半徑r內的相鄰頂點和邊組成。這個r被假定等于從一個頂點開始的跳數。給定一個圖G=(V,E),從第i個頂點到半徑r內的所有相鄰頂點索引的集合N(i,r),其中,N(i,0)={i}。我們定義頂點vi的r半徑子圖的公式如下:

然后,對于每種類型嵌入r半徑子圖的頂點和r半徑子圖的邊,根據類型分配一個嵌入(即向量),它是隨機初始化的,最后在監督學習期間通過反向傳播進行訓練。圖2 顯示了r半徑子圖的頂點、邊及其分配的嵌入示例。

2.3 轉移函數

2.3.1 頂點轉移函數 給定一個圖 G以及隨機初始化的頂點和邊嵌入,將時間步進t的第i個頂點嵌入表示為,然后更新,使用下面的轉移函數:

其中:σ是逐元素S 型生長曲線(sigmoid)函數σ(x)=1/(1+e?x),N(i)是i的相鄰索引集合,并且是隱藏的鄰域向量。可以使用以下神經網絡通過考慮相鄰頂點和邊eij來計算此隱藏向量:

其中f是是非線性激活函數,例如線性整流函數(ReLU):f(x)=max(0,x),Wneighbor∈Rd×2d是權重矩陣,bneighbor∈Rd是偏置向量,是時間步進t處第i個和第j個頂點之間的邊嵌入。因此,通過對相鄰隱藏向量求和,并在時間步進上迭代它們,頂點嵌入可以逐漸在圖上收集更多全局信息。

2.3.2 邊的轉移函數 上述迭代過程也可以以類似的方式應用于邊的嵌入。在這里,使用兩側頂點嵌入和更新:

其中:Wside∈Rd×d是權重矩陣;bside∈Rd是偏置向量;因為邊在分子圖中是無向的,例如C=O 和O=C 是相同的,并且它們的向量也相同,因此,通過頂點和邊緣轉移函數(示意圖見圖3)這兩個向量嵌入在GNN 模型中被同等考慮并同時更新。

圖3 頂點轉移函數和邊轉移函數示意圖Fig.3 Schematic diagram of vertex transfer function and edge transfer function

2.4 輸出函數:分子向量表示

其中 |V|是分子圖中的頂點數。這是獲得分子向量的最簡單操作。

通過之前的轉移函數更新得到的分子向量組合如圖4 所示。

圖4 分子向量組合表示Fig.4 Combined representation of numerator vectors

2.5 回歸模型

如圖1 所示,在得到了分子向量后,將條件、環境、升溫速率等信息全部加入到神經網絡中,經過幾層全連接,通過最后一層sigmoid 函數,得到最終回歸模型。神經網絡的損失函數設定為均方誤差(MSE),最后一層激活函數設定為sigmoid 函數σ(x)=1/(1+e?x)。

式中:f(xi)為預測值;yi為真實值。

3 實 驗

3.1 訓練

數據按照9∶1 的比例劃分為訓練集和測試集。SMILES 碼轉換為圖數據,并提取分子圖的各種信息,例如原子類型、化學鍵和原子的鄰接表。

我們使用Chainer(3.2.0 版[11])實現GNN,這些神經網絡的訓練細節如下:優化適應性矩估計(ADAM)[12],這是基于隨機梯度下降(SGD)算法中的一個最常見方法;半徑r為0(即每個原子和化學鍵)、1 或2;窗口大小為11(固定);頂點、邊和n-gram 的向量維數為5、10、20 和30;GNN 中的時間步數(即深度)為2、3、4。注意batch size 為1;一個批次包含一個分子,該分子包含相對較多的頂點和邊。此外,當batch size 取1 時,模型收斂可取得最佳效果。使用五折交叉驗證,對上述超參數組合進行網格搜索得到最佳參數組合。訓練用機器參數為顯卡NVIDIA Tesla V100。

圖5 展示了訓練和驗證過程中的Loss 曲線圖。其中藍色、橙色、綠色為訓練過程中的Loss 曲線,紅色、紫色、棕色為驗證過程中的Loss 曲線。橫軸為訓練迭代次數,縱軸為Loss 值。在經過大概400次訓練迭代之后,整個模型已經趨于穩定。采用MSE 和平均絕對誤差(MAE)兩種方法表達的損失函數之間存在0.05 左右的誤差。在訓練過程中,MSE 和MAE 損失函數均存在較大波動。

圖5 模型訓練驗證Loss 曲線圖Fig.5 Model training and verification loss curves

圖5 的Loss 曲線表明GNN 模型能夠很好地收斂。曲線的波動下降趨勢可能是因為學習率設置過大造成的,但是在訓練200 次迭代之后明顯波動減少,訓練400 次迭代之后,波動幾乎消失。因為模型最終走向收斂,所以這種情況下,并未調整學習率。MSE 和MAE 之間的差距是由于其計算公式導致的,任何一個小數的平方,都會更接近于0。

3.2 評價指標

本文采用MAE,均方根誤差(RMSE)和決定系數(R2)來對實驗結果進行評價,它們的定義分別如下所示:

MAE 表示計算每個樣本預測值f(xi)與真實值yi之差的絕對值,然后求和取平均值。MAE 用來評估預測結果與真實數據的接近程度,該值越小擬合效果越好。RMSE 表示預測值的離散程度,其值越小擬合效果越好。R2取值在[0,1]區間,越接近于1,表示模型預測能力越好;越接近于0,表示模型預測能力越差;當為負值時,表示模型預測能力非常差。

4 結果與討論

4.1 結果

在測試集的測試中,選擇了SVM[13]、梯度提升回歸樹(GBRT)[14]、隨機森林(RF)[15]這三種傳統的機器學習方法作為和GNN 模型相對比的模型。

表1 中,以R2作為回歸準確率的評價指標,GNN 模型的準確率能夠達到0.68 左右,相較于其他傳統機器學習方法均成倍提升。以MAE 和RMSE 的評價標準來看,GNN 模型是所有模型中數值最小的,也是指標最好的,分別能達到23.41 和15.63。

表1 不同模型應用于數據集的指標Table 1 Indicators of different models applied to the data set

圖6 顯示了預測結果,大部分預測結果比較準確,但是有少許值完全偏離。從圖中選擇了兩個差距很大的,兩個差距較小的樣本列舉在表2 中。

圖6 預測結果Fig.6 Prediction Result

4.2 討論

SVM 模型的均方根誤差和平均絕對誤差最大,表明SVM 模型訓練的精度不如其他模型;GBRT 和RF作為集成學習的樣例,準確率確實比SVM 好,但是提升效果不明顯。GNN 模型性能非常好,R2的準確率能夠達到0.68 左右,RMSE 的準確率約為23,MAE 的準確率小于16,這些指標說明GNN 模型算法明顯優于其他方法,其訓練精度最高。因此,從表1 模型訓練精度來看,無論是均方根誤差還是平均絕對誤差,GNN 模型的誤差都小于SVM、GBRT 和RF 模型誤差,從中可以看出在樣本量不大的情況下,GNN 模型能夠展現出較強的數據擬合能力。另外,從訓練時長來看,GNN模型盡管采用并行的顯卡輔助計算方法,訓練速率會比傳統機器學習方法慢很多,這也是神經網絡算法的缺點,會大量的占用計算資源和時長。采用訓練GNN 模型預測樹脂材料的Td5%,不僅能夠得到最小的均方誤差,而且能夠解釋60%以上的方差變化,因此GNN 模型算法在避免過擬合的情況下,取得了最佳效果。

在表2 中,*CC(*)C 差值在289 的原因可能是,這是一種只有碳的鏈式基礎結構,而鏈長未知,所以誤差很大。c1ccc(*)c(O)c1 結構可能因為訓練數據集中有一個*CO*的真實值為270,所以導致和CO 相關結構的準確率都不高,誤差也較大。*C(F)(F)C(*)(F)F 結構可能因為受氟元素的影響更多,誤差較小。*Nc1c(C(C)C)cc(*)cc1C(C)C 結構可能因為更受氮元素的影響,而且是非基礎結構,誤差較小。可能因為越是基礎結構,越是影響模型準確性,所以對于基礎結構需要更加準確的信息,對于鏈式結構需要給出明確鏈長。顯然,數據質量在很大程度上決定著模型準確率。

表2 結果分析表Table 2 Result analysis

下一步工作除了繼續進行GNN 模型優化之外,還需在數據層面進行更多優化。由于SMILES 碼鏈長難以給出,預測結果還有很大的提升空間,之后如果能夠得到更加詳實的數據,盡量保證全部數據進入模型訓練,將大大提高模型準確率。此外,用于三維結構化的GNN(3D-GNN)模型開發是一項重大挑戰。特別是3DGNN 模型能夠從結構的角度獲得更優的性能,提供更詳細的分析,并為化合物之間的相互作用位點獲取更多有用信息。

5 結論

針對目前基于傳統機器學習模型的高分子材料預測方法中特征提取困難和SMILES 碼難以表示結構等問題,本文提出了一種端到端的圖神經網絡方法來表示樹脂材料的結構特征,并預測其高溫性能。本文的方法相對于傳統機器學習模型在高溫樹脂材料數據集上的預測準確率提升了一倍多。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 99久久国产自偷自偷免费一区| 免费 国产 无码久久久| 亚洲二区视频| 国产成人亚洲综合A∨在线播放| 国产青榴视频| 亚洲娇小与黑人巨大交| 国产在线观看第二页| 极品尤物av美乳在线观看| 亚洲精品不卡午夜精品| 久久久久久高潮白浆| 亚洲欧美精品在线| 欧美三级不卡在线观看视频| 色视频国产| 国产一级α片| 超碰91免费人妻| 久久精品最新免费国产成人| 老司机久久99久久精品播放| 亚洲a级毛片| 欧美激情成人网| 久久精品丝袜高跟鞋| 亚洲av无码牛牛影视在线二区| a级毛片网| 91成人免费观看| 亚洲黄色网站视频| 国产美女无遮挡免费视频| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 国产成人久久综合777777麻豆 | 人妻无码中文字幕第一区| 91色老久久精品偷偷蜜臀| 欧美激情第一区| 91在线国内在线播放老师| 乱人伦99久久| 亚洲免费福利视频| 波多野结衣中文字幕一区二区| 伊人久久大线影院首页| 99久久国产自偷自偷免费一区| 91综合色区亚洲熟妇p| 老司国产精品视频91| 99re免费视频| 日本午夜精品一本在线观看| 青青热久免费精品视频6| 亚洲福利视频网址| 成人免费视频一区| 久综合日韩| 国产高潮流白浆视频| 国产人成乱码视频免费观看| 国产成人精品男人的天堂下载| 国产精品第一区| 日韩一级二级三级| 精品少妇人妻一区二区| 人妻丰满熟妇av五码区| 国内精品免费| 日本免费精品| 婷婷开心中文字幕| 91美女在线| 日本欧美午夜| 欧美天天干| 精品成人一区二区三区电影| 亚洲第一极品精品无码| 免费又爽又刺激高潮网址 | 久久美女精品国产精品亚洲| 国产精品部在线观看| 中文成人在线视频| 国产精品福利导航| 九九九国产| 欧美色99| 国产大全韩国亚洲一区二区三区| 久久精品国产精品青草app| 欧美成人怡春院在线激情| 在线观看网站国产| 国产在线98福利播放视频免费| 最新国产麻豆aⅴ精品无| 亚洲欧美精品一中文字幕| 精品欧美一区二区三区久久久| 欧美在线国产| 日韩A∨精品日韩精品无码| 2020久久国产综合精品swag| 老司机精品99在线播放| 亚洲不卡av中文在线| 久久人与动人物A级毛片| 亚洲一级无毛片无码在线免费视频|