999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法研究進(jìn)展

2023-07-26 12:42:22朱洪翔傅鈺江李雪陳博
科學(xué)技術(shù)與工程 2023年19期
關(guān)鍵詞:性質(zhì)特征模型

朱洪翔, 傅鈺江, 李雪, 陳博

(中石化(大連)石油化工研究院有限公司, 大連 116045)

分子性質(zhì)預(yù)測(cè)對(duì)新型材料和藥物設(shè)計(jì)具有重要意義,人們通常利用從頭算方法,在此基礎(chǔ)上逐一計(jì)算物理化學(xué)性質(zhì),這樣的方法計(jì)算成本高,計(jì)算效率低,不利于相關(guān)研究的快速開展。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,對(duì)于原子個(gè)數(shù)較少且重要的分子體系,計(jì)算機(jī)的算力已經(jīng)可以足夠支撐高精度的從頭算能量點(diǎn)。2004年Brown等[1]提出交換對(duì)稱多項(xiàng)式來(lái)擬合多原子分子勢(shì)能面的方法,該方法利用從頭算獲得的能量點(diǎn)和能量梯度,進(jìn)行交換對(duì)稱多項(xiàng)式擬合,取得了良好的效果。2006年Qiu等[2]在多參考組態(tài)相互作用上,使用augcc-pV5Z基組并結(jié)合Davidson糾正,在使用分子對(duì)稱的基礎(chǔ)上,計(jì)算了15 000個(gè)從頭算能量點(diǎn),構(gòu)造了描述氟原子和氫氣反應(yīng)的全域勢(shì)能面。在石油化工領(lǐng)域,中國(guó)研究者[3-4]利用分子模型對(duì)頁(yè)巖開采中的甲烷吸附過(guò)程和有機(jī)胺頁(yè)巖抑制劑進(jìn)行的分析,為油氣開采提供理論依據(jù)。

近年來(lái),利用機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)(neural network,NN)相關(guān)方法預(yù)測(cè)分子性質(zhì),引起了眾多的關(guān)注[5-6],對(duì)于擬合精度、勢(shì)能面維度以及相同原子的交換對(duì)稱性問題都得到了一定程度的發(fā)展。機(jī)器學(xué)習(xí)在分子科學(xué)領(lǐng)域的發(fā)展主要從藥物分子設(shè)計(jì)和性質(zhì)計(jì)算開始[7-9],后來(lái)將應(yīng)用領(lǐng)域擴(kuò)展到分子計(jì)算領(lǐng)域,Rupp等[10]引入一種機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)大量有機(jī)分子原子化能。Faber等[11]針對(duì)118 000個(gè)有機(jī)小分子的13種分子性質(zhì)展開研究,對(duì)應(yīng)的機(jī)器學(xué)習(xí)模型可以有效地將預(yù)測(cè)誤差從10 kcal/mol減小到3 kcal/mol。

神經(jīng)網(wǎng)絡(luò)則從勢(shì)能面預(yù)測(cè)問題切入,2013年Chen等[12]提出通過(guò)系統(tǒng)增加樣本點(diǎn)的方法來(lái)進(jìn)行NN擬合勢(shì)能面精度的方法。在H2+OH-反應(yīng)體系中計(jì)算了17 000個(gè)從頭算能量樣本點(diǎn),使用NN方法構(gòu)造該反應(yīng)體系的高精度全域勢(shì)能面。在與Brown等[1]提出的交換對(duì)稱多項(xiàng)式方法能量點(diǎn)數(shù)量相同的情況下,利用了更少的計(jì)算資源,取得了相當(dāng)?shù)男Ч=鼛啄?在生命科學(xué)領(lǐng)域,利用深度學(xué)習(xí)方法預(yù)測(cè)藥物和蛋白質(zhì)性質(zhì)受到了廣泛的關(guān)注。袁露[13]通過(guò)圖神經(jīng)網(wǎng)絡(luò)構(gòu)建出藥物虛擬篩選模型;徐大杰[14]、丁小雨[15]通過(guò)生成模型和主動(dòng)學(xué)習(xí)模型參與設(shè)計(jì)藥物分子;顧耀文等[16]將注意力機(jī)制融入圖神經(jīng)網(wǎng)絡(luò)中,對(duì)藥物的毒性和代謝進(jìn)行預(yù)測(cè)。曹曉勇[17]利用局部自由能對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行優(yōu)化。

通過(guò)文獻(xiàn)調(diào)研,梳理近5年基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法的發(fā)展時(shí)間軸,如圖1所示,分析分子性質(zhì)預(yù)測(cè)領(lǐng)域相關(guān)關(guān)鍵詞,繪制關(guān)鍵詞關(guān)系矩陣圖如圖2所示。分子模擬(molecular dyna-mics,MD)權(quán)重最大,與分子模擬相關(guān)聯(lián)的關(guān)鍵詞中,第一性原理計(jì)算(ab-initio)權(quán)重最大。在分子模擬領(lǐng)域中,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)是應(yīng)用最廣泛的智能算法,主要應(yīng)用于力場(chǎng)和能量場(chǎng)的預(yù)測(cè)。本文結(jié)構(gòu)如下:開篇介紹分子性質(zhì)預(yù)測(cè)算法及其發(fā)展,第1節(jié)闡述基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測(cè)算法的兩大類:多層感知機(jī)(multi-layer perceptron,MLP)和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN),及文獻(xiàn)中涉及的數(shù)據(jù)集和評(píng)價(jià)指標(biāo),第2、3節(jié)概述了基于MLP和GNN的分子性質(zhì)預(yù)測(cè)算法,第4節(jié)通過(guò)實(shí)驗(yàn)復(fù)現(xiàn)不同框架下的算法并進(jìn)行對(duì)比,最后討論和展望分子性質(zhì)預(yù)測(cè)領(lǐng)域未來(lái)的研究方向。

圖1 基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法發(fā)展時(shí)間軸Fig.1 Development timeline of molecular property prediction algorithm based on neural network

圖2 分子性質(zhì)預(yù)測(cè)領(lǐng)域關(guān)鍵詞檢索關(guān)系矩陣圖Fig.2 Keyword search relation matrix of molecular property prediction domain

1 概述

隨著人工智能快速發(fā)展,在分子性質(zhì)預(yù)測(cè)領(lǐng)域,人們提出了各種不同的算法,從淺層神經(jīng)網(wǎng)絡(luò)[18-21],到基于深度學(xué)習(xí)的最新方法[22-26]。有基于特征描述的[27],將原子所處的環(huán)境信息通過(guò)人工構(gòu)建的描述符進(jìn)行特征編碼,該特征多用于基于前饋神經(jīng)網(wǎng)絡(luò)的輸入;有基于消息傳遞的[28],將深度學(xué)習(xí)網(wǎng)絡(luò)作用于單個(gè)原子之間的信息交換,從網(wǎng)絡(luò)中學(xué)習(xí)其中的物理化學(xué)特征。

1.1 算法分類

當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法主要呈現(xiàn)兩種模式(圖3):一種是基于前饋神經(jīng)網(wǎng)絡(luò)的多層感知機(jī)(MLP)架構(gòu)算法,將分子勢(shì)能看作每個(gè)原子勢(shì)能之和,每個(gè)原子的勢(shì)能通過(guò)一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),多個(gè)原子的神經(jīng)網(wǎng)絡(luò)組成神經(jīng)網(wǎng)絡(luò)勢(shì),最后將所有原子的能量求和得到最終的分子能量;另一種是基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的分子性質(zhì)預(yù)測(cè)算法,將分子看成不同原子之間相互連接的無(wú)向圖,通過(guò)無(wú)向圖中的節(jié)點(diǎn)與節(jié)點(diǎn)、節(jié)點(diǎn)與邊、邊與邊的消息傳遞得到對(duì)應(yīng)的原子和分子的勢(shì)能。本文中將基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測(cè)算法分為基于MLP和GNN的分子性質(zhì)預(yù)測(cè)算法,根據(jù)其內(nèi)部的特征提取機(jī)制,總結(jié)上述兩種框架的特點(diǎn)和功能,見表1。

表1 基于MLP和GNN兩種框架的分子性質(zhì)預(yù)測(cè)算法

圖3 基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法分類示意圖Fig.3 Classification diagram of molecular property prediction algorithm based on neural network

1.2 數(shù)據(jù)集

數(shù)據(jù)集是神經(jīng)網(wǎng)絡(luò)模型開發(fā)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)模型的成功多取決于數(shù)據(jù)集的質(zhì)量和大小。研究者們?cè)O(shè)計(jì)并建立眾多的數(shù)據(jù)集來(lái)適應(yīng)不同的任務(wù),如以數(shù)量著稱的GDB[29]系列數(shù)據(jù)集,其建立的初衷是發(fā)現(xiàn)與合成藥物,它包含了海量的穩(wěn)定化學(xué)分子結(jié)構(gòu);以溶解度預(yù)測(cè)為研究目標(biāo)的ESOL[30]數(shù)據(jù)集,包含1 128種化合物的水溶性數(shù)據(jù);研究分子在水中特性的數(shù)據(jù)集FreeSolv[31],主要提供小分子在水中水化自由能的相關(guān)數(shù)據(jù)。

QM系列數(shù)據(jù)集,以GDB系列數(shù)據(jù)集為基礎(chǔ),選取其中某些分子利用密度泛函理論(density functional theory, DFT)計(jì)算得到相應(yīng)的物化性質(zhì),其中具有代表性的是QM9[32]數(shù)據(jù)集。QM9數(shù)據(jù)集從GDB-17中1 660億個(gè)分子中提取138 850個(gè)分子作為樣本,包含C、H、O、N、F 5種元素,其中每個(gè)分子都有完整的空間結(jié)構(gòu),并在笛卡爾坐標(biāo)系中進(jìn)行描述。除空間結(jié)構(gòu)信息外。QM9數(shù)據(jù)集還提供了每個(gè)分子的15種理化性質(zhì),每條性質(zhì)均以密度泛函計(jì)算得到,即每個(gè)內(nèi)層電子軌道由6個(gè)高斯型函數(shù)線性組合而成,每個(gè)價(jià)層電子軌道則會(huì)被劈裂成兩個(gè)基函數(shù),分別由3個(gè)和1個(gè)高斯型函數(shù)線性組合而成。上述15種理化性質(zhì)分別為三個(gè)旋轉(zhuǎn)常數(shù)、偶極矩、各向同性極化率、最高占據(jù)分子軌道的能量、最高與最低占據(jù)分子軌道的能量之差、電子空間范圍、零點(diǎn)能、0 K下內(nèi)能、298.15 K下內(nèi)能、298.15 K下焓值、298.15 K下吉布斯自由能以及298.15 K下熱容。更多的數(shù)據(jù)集[33-36]及其描述見表2。

表2 常見的分子性質(zhì)特征數(shù)據(jù)集

1.3 評(píng)價(jià)指標(biāo)

為了評(píng)價(jià)算法性能,設(shè)置合理的評(píng)價(jià)指標(biāo)尤為關(guān)鍵。目前基于深度學(xué)習(xí)的分子模擬算法主要包含兩種評(píng)價(jià)方法:一種是基于誤差型的評(píng)價(jià)指標(biāo),一種是基于相關(guān)性的評(píng)價(jià)指標(biāo)。其中基于誤差型的評(píng)價(jià)指標(biāo)分為平均絕對(duì)誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)和均方根誤差(root mean square error,RMSE),基于相關(guān)性的評(píng)價(jià)指標(biāo)為相關(guān)系數(shù),又稱皮爾遜相關(guān)系數(shù)(R)。

MAE誤差又稱L1 loss,計(jì)算公式為

(1)

MSE誤差計(jì)算公式為

(2)

MSE越小代表預(yù)測(cè)值與標(biāo)簽值越接近,MSE的最小值為0,表示預(yù)測(cè)值與真實(shí)值相等。

RMSE誤差又稱L2 loss,其計(jì)算公式為

(3)

RMSE越小代表預(yù)測(cè)值與標(biāo)簽值越接近,RMSE的最小值為0,表示預(yù)測(cè)值與真實(shí)值相等。

三種評(píng)價(jià)指標(biāo)對(duì)于預(yù)測(cè)值的敏感度不同,其中最敏感的是MSE誤差,較為敏感的是RMSE,最不敏感的是MAE誤差。

相關(guān)系數(shù)常用來(lái)描述預(yù)測(cè)值與原數(shù)據(jù)的擬合程度。常用的相關(guān)系數(shù)為R,其計(jì)算公式為

(4)

2 基于MLP的分子性質(zhì)預(yù)測(cè)算法

基于MLP的分子性質(zhì)預(yù)測(cè)算法一般流程如圖4所示。網(wǎng)絡(luò)輸入通常為原子電荷數(shù)和位置信息,不同層級(jí)的特征進(jìn)入不同的神經(jīng)網(wǎng)絡(luò)或模塊中,模塊中的特征通過(guò)全連接層進(jìn)行特征交互,通過(guò)激活層進(jìn)行非線性處理,最終的特征通過(guò)求和得到。

圖4 基于MLP的分子性質(zhì)預(yù)測(cè)算法流程圖Fig.4 Flow chart of molecular property prediction algorithm based on MLP

2.1 基于RBF的分子性質(zhì)預(yù)測(cè)算法

基于RBF(radial basis function)的分子性質(zhì)預(yù)測(cè)算法主要針對(duì)徑向基函數(shù)進(jìn)行改進(jìn)。由Hohenberg-Kohn第一定理可知,分子的一切物理化學(xué)性質(zhì)均由該分子的核骨架決定。Behler等[20]將分子骨架信息融入神經(jīng)網(wǎng)絡(luò)中,通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)分子的勢(shì)能。該方法首先將分子的結(jié)構(gòu)信息通過(guò)分段函數(shù)進(jìn)行編碼,經(jīng)過(guò)編碼后的信息通過(guò)徑向?qū)ΨQ函數(shù)處理后作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)原子所具有的勢(shì)能,最后通過(guò)求和得到分子的總勢(shì)能。

隨著深度學(xué)習(xí)的不斷發(fā)展并在其他領(lǐng)域取得巨大成功,基于神經(jīng)網(wǎng)絡(luò)勢(shì)(neural network potential,NNP)逐漸成為分子模擬的主流算法之一。歐式距離作為典型特征雖然可以衡量原子間距,但將角度和空間信息掩蓋。Smith等[37]嘗試將分子骨架中的二面角引入,將勢(shì)能的影響因素從原子間的距離擴(kuò)展為距離和二面角。而Zhang等[24]則將每個(gè)原子的位置信息進(jìn)行多維度編碼,包含距離信息、x方向分量、y方向分量、z方向分量組成特征向量,經(jīng)歸一化后輸入神經(jīng)網(wǎng)絡(luò)中預(yù)測(cè)分子的勢(shì)能。但前饋式神經(jīng)網(wǎng)絡(luò)所能容納的特征有限,且隨著網(wǎng)絡(luò)層次的加深,特征丟失嚴(yán)重,針對(duì)RBF的分子性質(zhì)預(yù)測(cè)算法性能提升有限。

2.2 基于Residual Block的分子性質(zhì)預(yù)測(cè)算法

前饋神經(jīng)網(wǎng)絡(luò)特征丟失嚴(yán)重,從數(shù)學(xué)本質(zhì)上看,是特征在多層網(wǎng)絡(luò)的前向傳遞時(shí)梯度發(fā)生衰減,殘差網(wǎng)絡(luò)則將特征進(jìn)行躍層連接如圖5所示,將上一層特征的梯度傳遞到下一層,在保證模型表達(dá)能力的同時(shí),盡量減少梯度消失。研究者考慮將殘差機(jī)制引入,同時(shí)將普通殘差結(jié)構(gòu)擴(kuò)展為多特征融合殘差結(jié)構(gòu)。

圖5 SchNet[23]殘差機(jī)制示意圖Fig.5 Schematic diagram of residual block in SchNet

其中具有代表性的是Schütt等[25]針對(duì)原子能量的預(yù)測(cè)任務(wù)提出的SchNet網(wǎng)絡(luò),該網(wǎng)絡(luò)構(gòu)建具有多尺度感知的殘差原子交互模塊,增加了原子之間的局部相關(guān)性。Unke等[38]受SchNet的啟發(fā)提出PhysNet,該網(wǎng)絡(luò)在引入殘差機(jī)制的基礎(chǔ)上進(jìn)一步改進(jìn)了內(nèi)部交互殘差模塊,與SchNet中只在特征采樣前后進(jìn)行融合不同,PhysNet在網(wǎng)絡(luò)中采取多級(jí)殘差設(shè)計(jì)。Lu等[36]建立了一個(gè)新的數(shù)據(jù)集Frag20,并對(duì)PhysNet進(jìn)行了簡(jiǎn)化得到sPhysNet,利用sPhysNet在新數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)果表明復(fù)雜的殘差結(jié)果在一定程度上可以提高模型的預(yù)測(cè)精度,但殘差網(wǎng)絡(luò)架構(gòu)對(duì)原子間的內(nèi)部交互表達(dá)不兼容,特征大多仍為單原子的性質(zhì)融合,對(duì)復(fù)雜分子性質(zhì)預(yù)測(cè)能力不足。

2.3 基于Interaction的分子性質(zhì)預(yù)測(cè)算法

不同于將分子性質(zhì)僅看做原子性質(zhì)的加權(quán)和,研究者認(rèn)為一些預(yù)測(cè)效果較差的性質(zhì)可能受原子間的交互影響,故將原子間的交互機(jī)制引入[39]。若將分子看成圖結(jié)構(gòu),則構(gòu)成分子的每個(gè)原子則組成圖中的一個(gè)結(jié)點(diǎn),原子和原子之間的聯(lián)系可以通過(guò)關(guān)系矩陣進(jìn)行關(guān)聯(lián),如圖6所示,關(guān)聯(lián)度越大該原子的能量在空間受到的影響越大。但在實(shí)際訓(xùn)練時(shí)很難將所有性質(zhì)在有效時(shí)間步中訓(xùn)練到合適精度,所以有些研究者增加內(nèi)部交互模塊的訓(xùn)練時(shí)長(zhǎng)。

圖6 相鄰時(shí)間步原子間交互矩陣示意圖Fig.6 Schematic diagram of interaction matrix between atoms in adjacent time steps

在此基礎(chǔ)上,Schütt等[33]還將原子擴(kuò)張影響引入,具體是將原子矢量特征與原子間距離進(jìn)行非線性耦合。經(jīng)過(guò)若干時(shí)間步修正后的能量輸入至神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)該原子的能量。Yao等[40]將這種原子間的影響直接獨(dú)立出來(lái),利用獨(dú)立的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,一個(gè)電荷網(wǎng)絡(luò)勢(shì)負(fù)責(zé)預(yù)測(cè)庫(kù)倫能和范德華能,一個(gè)能量網(wǎng)絡(luò)勢(shì)負(fù)責(zé)由原子結(jié)構(gòu)影響的總勢(shì)能,三者之和即為分子的總勢(shì)能。Li等[41]引入主要官能團(tuán)的影響,對(duì)于不同類型的體系利用不同的算子進(jìn)行特征描述,在分子能量的預(yù)測(cè)中具有良好表現(xiàn)。

3 基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的分子性質(zhì)預(yù)測(cè)算法

圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是近年來(lái)出現(xiàn)的一種利用深度學(xué)習(xí)在圖結(jié)構(gòu)中進(jìn)行學(xué)習(xí)的框架,其優(yōu)異的性能引起了學(xué)者高度的關(guān)注和深入的探索。通過(guò)在圖中的節(jié)點(diǎn)和邊上制定一定的策略,GNN 將圖結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的特征表示,在多種任務(wù)中取得優(yōu)良的效果。基于圖神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法一般流程為模型通過(guò)構(gòu)建好的輸入特征,通過(guò)多層圖卷積進(jìn)行消息傳遞,如圖7所示,基于圖神經(jīng)網(wǎng)絡(luò)的分子模擬算法其主要特征是將分子結(jié)構(gòu)看成圖結(jié)構(gòu),并利用圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不變性進(jìn)行預(yù)測(cè)。

圖7 GNN算法基本流程圖Fig.7 Basic flow chart of algorithm

3.1 基于MP的分子性質(zhì)預(yù)測(cè)算法

消息傳遞本來(lái)指代計(jì)算機(jī)間用于實(shí)現(xiàn)同步的通信機(jī)制,在分子性質(zhì)預(yù)測(cè)中,研究者將不同層級(jí)的圖中包含的信息更新機(jī)制稱為消息傳遞。組成分子的不同原子構(gòu)成圖或者超圖結(jié)構(gòu),圖的節(jié)點(diǎn)包含描述結(jié)點(diǎn)本身特征信息,圖的邊則包含兩個(gè)節(jié)點(diǎn)的連接關(guān)系特征,消息傳遞機(jī)制規(guī)定了下一層圖中的節(jié)點(diǎn)和邊的更新規(guī)則。

基于MP的分子模擬算法主要針對(duì)消息傳遞機(jī)制進(jìn)行改進(jìn)。Gilmer等[28]在消息傳遞階段分別借鑒GG-NN[42]和Interaction Networks[43]的消息函數(shù),對(duì)于消息傳遞距離的改進(jìn),消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural networks,MPNNs)提出兩種方法,一種是將未連接的節(jié)點(diǎn)增加虛擬邊,另一種是增加與所有節(jié)點(diǎn)連接的全局節(jié)點(diǎn),這樣的設(shè)計(jì)類似卷積神經(jīng)網(wǎng)絡(luò)中的增加感受野。Lu等[44]在改進(jìn)消息傳遞機(jī)制的基礎(chǔ)上,考慮不同數(shù)量級(jí)原子間相互作用,即若干2個(gè)原子間的相互作用Pair-wise、若干3個(gè)原子間的相互作用Triple-wise等。僅針對(duì)分子結(jié)構(gòu)進(jìn)行編碼從某種程度上忽略了原子在空間上的排布信息,一方面可以將空間方向信息融入圖結(jié)構(gòu)中[45],另一方面可以建立3D圖結(jié)構(gòu)[46],在一定程度上增加了模型的精度。但基于消息傳遞機(jī)制的圖神經(jīng)網(wǎng)絡(luò)存在特征傳遞瓶頸問題,有些研究者通過(guò)增加注意力機(jī)制來(lái)克服[47],有些則通過(guò)等變機(jī)制來(lái)解決[48],但效果提升有限。

3.2 基于Equivariant的分子性質(zhì)預(yù)測(cè)算法

分子中原子結(jié)構(gòu)具有旋轉(zhuǎn)不變性、平移不變性和鏡像反轉(zhuǎn)不變性等幾何性質(zhì)。其中,具有旋轉(zhuǎn)不變性的稱為SO(3),除SO(3)外具有平移不變性的稱為SE(3),除SE(3)外具有鏡像反轉(zhuǎn)不變性的稱為E(3),如圖8所示。基于Equivariant的分子性質(zhì)預(yù)測(cè)算法主要將分子間的位置關(guān)系看成旋轉(zhuǎn)等變的特征描述。在特征不斷傳遞更新時(shí),保持特征旋轉(zhuǎn)等變,這和卷積神經(jīng)網(wǎng)絡(luò)有所區(qū)別,卷積神經(jīng)網(wǎng)絡(luò)不能保持特征的旋轉(zhuǎn)等變。

圖8 三種不變性分子示意圖Fig.8 Schematic diagram of three invariant molecules

大多旋轉(zhuǎn)的等變網(wǎng)絡(luò)考慮原子軌道間的電子相互作用,一方面引入物理運(yùn)動(dòng)算子[49],學(xué)習(xí)原子間的勢(shì)和力。利用來(lái)自可訓(xùn)練的潛在力向量方向信息,以及受牛頓物理學(xué)啟發(fā)的物理注入算子的優(yōu)勢(shì),整個(gè)模型保持旋轉(zhuǎn)等變,并通過(guò)更可解釋的物理特征推斷出多體相互作用。Qiao等[50]利用有效的緊束縛模擬和學(xué)習(xí)映射預(yù)測(cè)量子化學(xué)性質(zhì)。Schütt等[51]提出了極化原子相互作用神經(jīng)網(wǎng)絡(luò)PaiNN。

信息傳遞神經(jīng)網(wǎng)絡(luò)已成為圖形學(xué)習(xí)的首選方法,特別是在預(yù)測(cè)化學(xué)性質(zhì)和加速分子動(dòng)力學(xué)研究方面。雖然它們很容易擴(kuò)展到大型訓(xùn)練數(shù)據(jù)集,但以前的方法已被證明不如內(nèi)核方法有效。不變表示的局限性是一個(gè)主要原因,并將消息傳遞公式擴(kuò)展到旋轉(zhuǎn)等變表示。Qiao等[26]提出了一般多體等變神經(jīng)網(wǎng)絡(luò)——UNiTE,對(duì)于N-body的張量,一方面通過(guò)對(duì)角化進(jìn)行簡(jiǎn)化,另一方面通過(guò)線性映射,將兩部分的特征進(jìn)行高階卷積后,再進(jìn)行消息傳遞,經(jīng)過(guò)等變歸一化使用對(duì)稱消息池讀出預(yù)測(cè)結(jié)果。Takamoto等[52]提出了通用神經(jīng)網(wǎng)絡(luò)勢(shì)PFP(preferred potential),該網(wǎng)絡(luò)面向更廣闊的應(yīng)用空間,為了這種普適性,PFP提供了復(fù)雜的數(shù)據(jù)集生成模塊,并在LiFeSO4F中的鋰擴(kuò)散、金屬有機(jī)框架中的分子吸附、Cu-Au合金的有序-無(wú)序轉(zhuǎn)變,以及費(fèi)托催化劑的材料發(fā)現(xiàn)等方面進(jìn)行有效性驗(yàn)證。

3.3 基于李群的分子性質(zhì)預(yù)測(cè)算法

李群指光滑可微的群,通常可以認(rèn)為綜合了群和光滑流形的概念。光滑、可微的流形,指領(lǐng)域和歐式空間同構(gòu)的線性空間,也就是李群的每個(gè)元素存在線性空間或者向量空間作為切空間。由于單位元在群中的特殊地位,所以李群?jiǎn)挝辉那锌臻g李代數(shù)是非常重要的概念。由于李群的光滑性,每個(gè)元素的切空間結(jié)構(gòu)相同,都可以通過(guò)線性變換變化至單位元的切空間,也就是李代數(shù)。

基于李群的分子性質(zhì)預(yù)測(cè)算法將分子間的作用看成對(duì)稱平移等變問題[53],通過(guò)過(guò)向旋轉(zhuǎn)等變網(wǎng)絡(luò)中增加角度信息,利用角度信息使模型預(yù)測(cè)準(zhǔn)確度提升更明顯。或者增加對(duì)稱適應(yīng)原子軌道(symmetry-adapted atomic orbitals,SAAO)的分子特征[50],通過(guò)對(duì)該矩陣進(jìn)行對(duì)角化處理得到具有旋轉(zhuǎn)不變性的自適應(yīng)原子軌道基,如圖9所示。將上述特征映射到對(duì)應(yīng)的圖結(jié)構(gòu)中,經(jīng)過(guò)多層的消息傳遞層和特征編碼最終通過(guò)解碼得到最終的勢(shì)能預(yù)測(cè)值。

圖9 三維空間上的等變特征示意圖Fig.9 Isovariant feature diagram in 3D space

除了在三維空間中實(shí)現(xiàn)特征的旋轉(zhuǎn)、平移、反射和置換不變性,更高維空間的等變特征也受到了廣泛的關(guān)注[54],甚至重新定義網(wǎng)絡(luò)中的乘法[55]和卷積[56]。一方面擴(kuò)展特征維度[23],另一方面增加物理化學(xué)性質(zhì)[57],使網(wǎng)絡(luò)特征更具解釋性。上述算法均未考慮特征的異向傳遞,雖然在預(yù)測(cè)精度上已經(jīng)具有較大的優(yōu)勢(shì),但忽略非對(duì)稱結(jié)構(gòu)在不同空間方向具有不同的理化性質(zhì)。

其他新穎的改進(jìn)方法則受其他深度學(xué)習(xí)任務(wù)啟發(fā),比如:Liu等[58]將注意力機(jī)制引入到消息傳遞過(guò)程中,提出DeepMoleNet網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)加權(quán)不同原子的貢獻(xiàn),將以原子為中心的對(duì)稱函數(shù)(atom-centered symmetry functions,ACSF)作為teacher描述符,而不是以傳統(tǒng)方式使用ACSF作為輸入,使化學(xué)可解釋的見解能夠融合到多任務(wù)學(xué)習(xí)中。Godwin等[59]提出了NoisyNodes策略,該策略通過(guò)簡(jiǎn)單的噪聲正則化解決過(guò)度平滑問題。NoisyNodes用噪聲破壞輸入圖,并添加一個(gè)噪聲校正節(jié)點(diǎn)級(jí)損失。多樣的節(jié)點(diǎn)級(jí)損失鼓勵(lì)潛在的節(jié)點(diǎn)多樣性,噪聲節(jié)點(diǎn)可以作為GNN中的補(bǔ)充構(gòu)建模塊。

4 實(shí)驗(yàn)分析

近年來(lái),基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測(cè)算法呈現(xiàn)爆發(fā)式增長(zhǎng),基于GNN的深度學(xué)習(xí)分析模擬算法受到更廣泛的關(guān)注。為了對(duì)當(dāng)前基于深度學(xué)習(xí)的分子模擬算法進(jìn)行比較,選取0 K下的內(nèi)能U0、298.15 K下的內(nèi)能U、298.15 K下焓值H、298.15 K下吉布斯自由能G的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。

根據(jù)目前公開的結(jié)果,如表3所示,在預(yù)測(cè)精度上, UNiTE[26]的預(yù)測(cè)精度最高,在算法大類對(duì)比中,如表4所示基于MLP的算法精度低于基于圖神經(jīng)網(wǎng)絡(luò)的算法精度。從圖1所示趨勢(shì)圖不難看出,基于MLP的分子性質(zhì)預(yù)測(cè)算法在2018年后逐漸被GNN相關(guān)算法所取代,基于GNN分子性質(zhì)預(yù)測(cè)算法已逐漸成為研究熱點(diǎn)。

表3 幾個(gè)算法的公開代碼鏈接

表4 不同分子性質(zhì)預(yù)測(cè)算法結(jié)果對(duì)比表

本文中對(duì)相關(guān)算法進(jìn)行調(diào)研,將每個(gè)算法的代碼公開情況,匯總形成表5。在幾個(gè)表現(xiàn)較突出的算法中,基于深度學(xué)習(xí)相關(guān)算法預(yù)測(cè)時(shí)間要遠(yuǎn)小于密度泛函理論相關(guān)算法,如圖10(a)所示,其中幾個(gè)算法在準(zhǔn)確度上可以媲美DFT相關(guān)算法。與機(jī)器學(xué)習(xí)相關(guān)算法相比,準(zhǔn)確度上有較大的優(yōu)勢(shì)。

表5 大類對(duì)比表

圖10 實(shí)驗(yàn)結(jié)果圖Fig.10 Diagram of experimental result

本文中還對(duì)幾個(gè)模型的模型特征表達(dá)能力進(jìn)行對(duì)比,如圖10(b)隨著訓(xùn)練集的增加,模型的測(cè)試誤差降低,不難看出模型的特征表達(dá)能力仍然有較大的擴(kuò)展空間,隨著新型數(shù)據(jù)集的開發(fā),基于深度學(xué)習(xí)的分子性質(zhì)預(yù)測(cè)算法將更具優(yōu)勢(shì)。

5 總結(jié)與展望

概述了近些年來(lái)基于神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測(cè)算法,分為MLP和GNN兩大類進(jìn)行分析,結(jié)合公開數(shù)據(jù)集對(duì)算法進(jìn)行對(duì)比驗(yàn)證,發(fā)現(xiàn)在精度上基于GNN的分子性質(zhì)預(yù)測(cè)算法要高于基于MLP的分子性質(zhì)預(yù)測(cè)算法,并且基于GNN的分子性質(zhì)預(yù)測(cè)算法在近三年受到更廣泛的關(guān)注。基于MLP的分子性質(zhì)預(yù)測(cè)算法將分子性質(zhì)看作若干原子分子性質(zhì)之和,每個(gè)原子的相關(guān)信息通過(guò)獨(dú)立的神經(jīng)網(wǎng)絡(luò)開展預(yù)測(cè)任務(wù),相關(guān)聯(lián)的分子之間通過(guò)殘差結(jié)構(gòu)進(jìn)行特征融合,得到最終的預(yù)測(cè)結(jié)果。基于GNN的分子性質(zhì)預(yù)測(cè)算法將分子結(jié)構(gòu)看成圖結(jié)構(gòu),原子與原子之間的關(guān)系映射為無(wú)向圖之間的邊,原子映射為圖的節(jié)點(diǎn)。原子的性質(zhì)通過(guò)消息傳遞機(jī)制,傳遞給下一層的圖結(jié)構(gòu),典型的GNN分子性質(zhì)預(yù)測(cè)算法存在節(jié)點(diǎn)到節(jié)點(diǎn)的消息傳遞,邊到節(jié)點(diǎn)的消息傳遞,全局節(jié)點(diǎn)到各節(jié)點(diǎn)的消息傳遞,每個(gè)節(jié)點(diǎn)與上一層的若干節(jié)點(diǎn)相關(guān)聯(lián),多層消息傳遞后,特征將像圖像中的卷積中的特征張量具有一定的感受野,最終通過(guò)讀出層讀出最終的預(yù)測(cè)結(jié)果。

基于以上的調(diào)研,未來(lái)可以開展的工作包含以下幾個(gè)方面。

(1)超大規(guī)模數(shù)據(jù)集的構(gòu)建。目前的算法在特征表達(dá)上仍未到達(dá)瓶頸,大規(guī)模和超大規(guī)模的數(shù)據(jù)集將有利于當(dāng)前的算法形成預(yù)測(cè)更為精確的模型,使算法在可接受的時(shí)間復(fù)雜度內(nèi)達(dá)到可以與第一性原理計(jì)算相媲美的預(yù)測(cè)結(jié)果。此外,模型的損失函數(shù)與模型的評(píng)價(jià)指標(biāo)高度契合,即模型訓(xùn)練用的損失函數(shù)大多由評(píng)價(jià)指標(biāo)或評(píng)價(jià)指標(biāo)的變體構(gòu)成,這導(dǎo)致模型在一定程度上過(guò)度向評(píng)價(jià)指標(biāo)方向傾斜從而忽略其他關(guān)鍵因素。

(2)圖神經(jīng)網(wǎng)絡(luò)的各向異性特征傳遞。當(dāng)前的圖神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)精度上已經(jīng)具有較大的優(yōu)勢(shì),當(dāng)前的圖神經(jīng)網(wǎng)絡(luò)較為依賴等變的特征傳遞而忽略非對(duì)稱結(jié)構(gòu)在不同空間方向具有不同的理化性質(zhì),該問題將制約圖神經(jīng)網(wǎng)絡(luò)在非對(duì)稱性結(jié)構(gòu)中的性質(zhì)預(yù)測(cè)。此外,目前的模型針對(duì)過(guò)擬合問題缺乏系統(tǒng)的優(yōu)化,結(jié)合圖神經(jīng)網(wǎng)絡(luò)特征,一方面考慮增加池化、噪聲等結(jié)構(gòu),另一方面設(shè)計(jì)更適合的損失函數(shù)。

(3)材料科學(xué)與生命科學(xué)中的實(shí)際應(yīng)用。在材料科學(xué)中,基于勢(shì)能面搜索的材料結(jié)構(gòu)預(yù)測(cè),目前的算法更關(guān)注搜索的時(shí)間和空間復(fù)雜度,而不是材料的性質(zhì),在基于勢(shì)能面搜索的材料性質(zhì)預(yù)測(cè)仍然是需要解決的問題。此外,目前的算法針對(duì)材料結(jié)構(gòu)預(yù)測(cè)往往基于簡(jiǎn)單體系,當(dāng)考慮材料的強(qiáng)相互作用、磁性時(shí),仍不能起到實(shí)際指導(dǎo)作用。在生命科學(xué)中,目前相關(guān)研究只能針對(duì)小蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè),目前距離真正理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系并在此基礎(chǔ)上開展具有特定結(jié)構(gòu)或功能蛋白質(zhì)的設(shè)計(jì)仍有較大差距。

猜你喜歡
性質(zhì)特征模型
一半模型
隨機(jī)變量的分布列性質(zhì)的應(yīng)用
重要模型『一線三等角』
完全平方數(shù)的性質(zhì)及其應(yīng)用
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
九點(diǎn)圓的性質(zhì)和應(yīng)用
不忠誠(chéng)的四個(gè)特征
厲害了,我的性質(zhì)
抓住特征巧觀察
主站蜘蛛池模板: 中国黄色一级视频| 香蕉久人久人青草青草| 国产黑丝视频在线观看| 欧美激情一区二区三区成人| 日本国产精品一区久久久| 久久综合五月婷婷| 97在线免费| 国产精品高清国产三级囯产AV| 国产成人精品在线| 亚洲一级毛片| 成人福利在线看| 蜜桃臀无码内射一区二区三区| 91精品专区国产盗摄| 91青青视频| 日本午夜视频在线观看| 免费av一区二区三区在线| 午夜福利无码一区二区| 国产超碰一区二区三区| 2022国产无码在线| 无码内射在线| 东京热av无码电影一区二区| 成人综合在线观看| 欧美日韩亚洲国产主播第一区| 欧美国产另类| 久久免费视频6| 中文字幕永久视频| 青草娱乐极品免费视频| 都市激情亚洲综合久久| 1级黄色毛片| 中美日韩在线网免费毛片视频| 欧美在线视频不卡第一页| 亚洲男人的天堂在线观看| 老色鬼久久亚洲AV综合| 国产粉嫩粉嫩的18在线播放91| 国产精品视频猛进猛出| 亚洲全网成人资源在线观看| 午夜国产大片免费观看| 福利片91| 久久精品一卡日本电影| 欧美乱妇高清无乱码免费| 国产精品浪潮Av| 亚洲欧美日韩成人在线| 国产经典免费播放视频| 国产成人综合久久精品尤物| 青青操视频在线| 国产亚洲欧美在线专区| 女人av社区男人的天堂| 午夜在线不卡| 亚洲va视频| 亚洲成人一区二区三区| 成年人视频一区二区| 欧美精品xx| 欧美不卡在线视频| 国产一区二区精品福利| 四虎影视永久在线精品| 国产美女91视频| 一本大道视频精品人妻 | 国产农村妇女精品一二区| 国产精品2| 亚洲人成色在线观看| 9啪在线视频| 亚洲美女视频一区| 国产AV无码专区亚洲精品网站| 激情综合网激情综合| 中国一级特黄大片在线观看| 国产色爱av资源综合区| 婷婷六月综合网| 色综合久久久久8天国| 亚洲午夜国产精品无卡| 亚洲天堂色色人体| 亚洲v日韩v欧美在线观看| 麻豆精品国产自产在线| 久久99精品久久久久久不卡| 国产高清免费午夜在线视频| 在线国产欧美| 114级毛片免费观看| 福利在线不卡一区| 天堂网国产| 午夜电影在线观看国产1区| 丁香六月综合网| 久久久黄色片| 国产三级国产精品国产普男人|