AI for Science：科學(xué)研究范式的新革命*

2023-05-13 00:14:42李建會(huì)

廣東社會(huì)科學(xué) 2023年6期

李建會(huì) 楊寧

人工智能驅(qū)動(dòng)的科學(xué)研究（AI for Science）是大數(shù)據(jù)時(shí)代以機(jī)器學(xué)習(xí)（ML，machine learning）為代表的人工智能技術(shù)與科學(xué)研究深度融合（AI+Science）的產(chǎn)物。作為AI子領(lǐng)域，機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)技術(shù)以其在理解高維數(shù)據(jù)和解析復(fù)雜系統(tǒng)方面遠(yuǎn)勝人類的優(yōu)勢(shì)，成為科學(xué)研究數(shù)字化和自動(dòng)化轉(zhuǎn)型的中堅(jiān)力量。當(dāng)前，AI for Science在物理學(xué)、生命科學(xué)、材料科學(xué)和地球科學(xué)等領(lǐng)域的知識(shí)發(fā)現(xiàn)與成果優(yōu)化方面表現(xiàn)驚人，基于多領(lǐng)域整合和人-機(jī)協(xié)作的數(shù)據(jù)驅(qū)動(dòng)型科學(xué)發(fā)現(xiàn)模式越來越得到科學(xué)家的認(rèn)可和應(yīng)用。AI for Science不僅加速科學(xué)的發(fā)展，而且反過來，加速發(fā)展的科學(xué)又推動(dòng)AI的加速發(fā)展。AI與科學(xué)之間的持續(xù)雙向賦能使得AI向著其技術(shù)奇點(diǎn)加速邁進(jìn)。在這個(gè)循環(huán)加速的發(fā)展中，數(shù)據(jù)隱私和AI模型可信度及可控性等重要科技倫理問題也引發(fā)社會(huì)擔(dān)憂，使得開發(fā)可解釋的AI模型成為焦點(diǎn)議題。在AI領(lǐng)跑科技創(chuàng)新的國(guó)際競(jìng)爭(zhēng)背景下，開展AI for Science的前瞻性規(guī)劃及其資源整合研究對(duì)推動(dòng)我國(guó)基礎(chǔ)科研實(shí)力具有非常重要的價(jià)值。

一、從AI到“AI+Science”

（一）人工智能與機(jī)器發(fā)現(xiàn)

科學(xué)研究的目的之一是做出科學(xué)發(fā)現(xiàn)。AI誕生初期，一些專家便開始嘗試開發(fā)程序以通過機(jī)器進(jìn)行科學(xué)發(fā)現(xiàn)。起初，他們雄心勃勃地認(rèn)為，“學(xué)習(xí)的每一個(gè)方面或智力的任何其他特征在原則上都可以被精確地描述，以至于可以制造一臺(tái)機(jī)器來模擬它。”①M(fèi)cCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27（4）,p.12.20世紀(jì)40―70年代的傳統(tǒng)AI只服務(wù)于特定的任務(wù)，通過邏輯和啟發(fā)式算法實(shí)現(xiàn)游戲、知識(shí)表達(dá)、推理和專家系統(tǒng)。此后的30年里，感知機(jī)模型的提出使研究界更加關(guān)注從觀察數(shù)據(jù)中自動(dòng)提取“規(guī)律”，并開始嘗試為能夠?qū)崿F(xiàn)指定任務(wù)的候選模型搭建一個(gè)統(tǒng)一架構(gòu)。進(jìn)入新世紀(jì)，“深度學(xué)習(xí)之父”杰弗里·辛頓（Geoffrey Hinton）解決了困擾神經(jīng)網(wǎng)絡(luò)用于表征學(xué)習(xí)的模型過擬合和梯度擴(kuò)散難題，并進(jìn)一步開發(fā)出更高精度的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNNs）模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.，基于多層次型人工神經(jīng)網(wǎng)絡(luò)（artificial neural network，ANN）的深度學(xué)習(xí)（deep learning，DL）因此成為AI 的新的潮流。作為ML技術(shù)的強(qiáng)大子集，DL更加適應(yīng)多層次結(jié)構(gòu)數(shù)據(jù)的表征學(xué)習(xí)③指將原始數(shù)據(jù)轉(zhuǎn)換成能被機(jī)器學(xué)習(xí)有效開發(fā)的表征，即允許機(jī)器通過簡(jiǎn)化復(fù)雜的原始數(shù)據(jù)，自動(dòng)發(fā)現(xiàn)并提取可用于檢測(cè)或分類的特征。，成為語音識(shí)別、計(jì)算機(jī)視覺、自然語言處理、知識(shí)圖譜和自動(dòng)駕駛的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521（7553）,pp.436-444.。

在AI發(fā)展的第一階段，著名的AI專家赫伯特·西蒙（Herbert Simon）就提出了用計(jì)算機(jī)模擬人的創(chuàng)造性思維的想法。為此，西蒙及其研究團(tuán)隊(duì)嘗試用機(jī)器再現(xiàn)歷史上的科學(xué)發(fā)現(xiàn)過程，他們研制了BACON系列程序，這些程序不僅重新發(fā)現(xiàn)了波義耳定律、開普勒行星運(yùn)動(dòng)第三定律、理想氣體定律等多種定律和函數(shù)關(guān)系，而且還涉及一些定性定律的再發(fā)現(xiàn)、結(jié)構(gòu)模型的再發(fā)現(xiàn)和過程模型的再發(fā)現(xiàn)、以及實(shí)驗(yàn)過程設(shè)計(jì)的再現(xiàn)等方面。他們還設(shè)計(jì)了GLAUBER 程序和DALTON程序等。GLAUBER程序能再發(fā)現(xiàn)酸和堿的概念以及有關(guān)的定性定律；DALTON程序能夠模擬多重化學(xué)反應(yīng)，甚至可以應(yīng)用于粒子物理學(xué)和經(jīng)典遺傳學(xué)，比如發(fā)現(xiàn)孟德爾（G.Mendel）遺傳學(xué)定律。另外一個(gè)科學(xué)再發(fā)現(xiàn)模型是列納特（D.B.Lenat）開發(fā)的AM程序。AM能在初等數(shù)學(xué)和集合論中重新發(fā)現(xiàn)概念和假設(shè)，比如發(fā)現(xiàn)加法、乘法、素?cái)?shù)等概念以及哥德巴赫猜想等等。“這些再發(fā)現(xiàn)程序使科學(xué)發(fā)現(xiàn)邏輯的研究重新興旺起來，為思考發(fā)現(xiàn)的邏輯是否存在，及其能否作為科學(xué)哲學(xué)合法研究主題問題的研討，提供了新的論域。”⑤樊陽程：《科學(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評(píng)》，《自然辯證法研究》2007年第11期，第40頁。

科學(xué)假說或理論的評(píng)價(jià)問題也是早期機(jī)器發(fā)現(xiàn)專家努力的目標(biāo)之一。著名認(rèn)知科學(xué)家薩伽德（P．Thagard）用聯(lián)結(jié)主義方法開發(fā)了ECHO 程序來評(píng)判相互競(jìng)爭(zhēng)的理論假設(shè)的優(yōu)劣問題。ECHO程序?qū)茖W(xué)中許多對(duì)立的理論進(jìn)行過對(duì)比分析，比如，ECHO對(duì)氧化理論和燃素說、進(jìn)化論和神創(chuàng)論、哥白尼天文學(xué)和托勒密天文學(xué)等學(xué)說的優(yōu)劣進(jìn)行了評(píng)判。

除了模擬或重建歷史上的科學(xué)發(fā)現(xiàn)過程和對(duì)理論假設(shè)進(jìn)行評(píng)價(jià)外，機(jī)器發(fā)現(xiàn)還嘗試進(jìn)行真正的科學(xué)發(fā)現(xiàn)。例如：“AUTOCLASS系統(tǒng)通過對(duì)紅外光譜的分析，擴(kuò)展了原先主要基于可見光譜分析的恒星分類學(xué)；RL系統(tǒng)能發(fā)現(xiàn)有經(jīng)濟(jì)價(jià)值的化學(xué)藥品的致癌性的定性規(guī)律；PRPGOL系統(tǒng)能應(yīng)用于基因變異中化學(xué)因素的發(fā)現(xiàn)；GRAFFITI系統(tǒng)在數(shù)論和其他離散數(shù)學(xué)領(lǐng)域中產(chǎn)生的猜想已經(jīng)引發(fā)了數(shù)學(xué)領(lǐng)域?qū)W者的研究興趣；MECHEM系統(tǒng)自動(dòng)發(fā)現(xiàn)了乙烷氫化裂解反應(yīng)的新機(jī)理；PAULI系統(tǒng)得到了能解釋產(chǎn)生守恒定律的歷史數(shù)據(jù)的新守恒定律；LAGRAMGE 系統(tǒng)發(fā)現(xiàn)了生態(tài)行為的時(shí)間定律等。”①樊陽程：《科學(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評(píng)》，《自然辯證法研究》2007年第11期，第41頁。早期的機(jī)器發(fā)現(xiàn)研究雖然取得了一系列成果，但由于數(shù)據(jù)、算法和算力的局限性，機(jī)器發(fā)現(xiàn)取得的成果非常有限，進(jìn)一步的發(fā)展需要等待計(jì)算機(jī)在數(shù)據(jù)、算法和算力方面取得突破性進(jìn)展。

（二）AI加速科學(xué)發(fā)現(xiàn)：AI for Science

隨著數(shù)字化時(shí)代到來，計(jì)算機(jī)和高通量實(shí)驗(yàn)儀器成為科學(xué)研究的基本工具。AI不僅模擬感知智能，而且還模擬認(rèn)知智能和決策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2（4）,p.2.。AI通過整合計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)和機(jī)械工程等學(xué)科的思想，具備科學(xué)與技術(shù)的雙重特性。AI帶來的“數(shù)據(jù)、算法、算力”三位一體的計(jì)算方式極大提升了應(yīng)對(duì)海量數(shù)據(jù)處理和復(fù)雜系統(tǒng)求解的能力。在數(shù)據(jù)驅(qū)動(dòng)與模型驅(qū)動(dòng)兩種方法的有效整合下，AI驅(qū)動(dòng)的科學(xué)研究——AI for Science模式——在設(shè)計(jì)科研框架、揭示科學(xué)定律和知識(shí)、提升數(shù)值模擬速度和準(zhǔn)確度方面取得了巨大的成績(jī)。以蛋白質(zhì)三維結(jié)構(gòu)解析為例，傳統(tǒng)的實(shí)驗(yàn)室方法復(fù)雜且難以得出有意義的結(jié)果，AI的應(yīng)用則迅速推進(jìn)了此類研究的進(jìn)展：2014年領(lǐng)域內(nèi)開始通過ML方法預(yù)測(cè)蛋白質(zhì)二維結(jié)構(gòu)，預(yù)測(cè)準(zhǔn)確率在一年間突破80%；2016年AlphaGo以4∶1戰(zhàn)勝頂尖棋手時(shí)，AI預(yù)測(cè)蛋白三維結(jié)構(gòu)的嘗試也悄然展開③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44（W1）,pp.430-435.，2017年就實(shí)現(xiàn)了以DL方法對(duì)蛋白質(zhì)結(jié)構(gòu)氨基酸間空間距離的預(yù)測(cè)，并被用以搭建AI預(yù)測(cè)系統(tǒng)Alpha Fold；2020年，Alpha Fold 2在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽（CASP14）中以絕對(duì)優(yōu)勢(shì)奪冠，引起世界關(guān)注。當(dāng)前，AI for Science的可行性和適應(yīng)性已在更廣泛的應(yīng)用場(chǎng)景中被證實(shí)，如藥物和材料設(shè)計(jì)、求解薛定諤方程和控制論方程、加速分子和空間模擬等等，AI正在幫助加快走完科學(xué)研究和技術(shù)創(chuàng)新之間的最后一公里。

（三）科學(xué)對(duì)AI的逆向賦能：Science for AI

值得一提的是，科學(xué)的進(jìn)步也在啟發(fā)機(jī)器學(xué)習(xí)理論（Science for AI），助力神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法的持續(xù)迭代。生物學(xué)和神經(jīng)科學(xué)一直是AI發(fā)展的靈感原型，上世紀(jì)中期受生物神經(jīng)細(xì)胞啟發(fā)而設(shè)計(jì)的感知機(jī)（perceptron），是神經(jīng)網(wǎng)絡(luò)模型和現(xiàn)代DL算法的重要基礎(chǔ)，前沿的CNNs中神經(jīng)計(jì)算的數(shù)個(gè)標(biāo)志也源自哺乳動(dòng)物視覺皮層單細(xì)胞對(duì)視覺輸入的獨(dú)特處理④Holzinger A., “Introduction to machine learning & knowledge extraction （make） ”, Machine learning and knowledge extraction,2019,1（1）,pp.1-20.。近年來，大型復(fù)雜系統(tǒng)的對(duì)稱性、大規(guī)模自由度、多尺度和多分辨率動(dòng)態(tài)等特征對(duì)科學(xué)仿真和ML技術(shù)提出更高的要求。例如，量子計(jì)算實(shí)現(xiàn)了更高性能的量子機(jī)器學(xué)習(xí)，量子增強(qiáng)、量子比特和連續(xù)變量（continuous variable）量子強(qiáng)化了生成模型（generative model）的表達(dá)⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81（7）:074001,pp.1-116.；統(tǒng)計(jì)力學(xué)的物理分析方法為深度學(xué)習(xí)的表達(dá)、信號(hào)傳播和泛化等理論原則提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外，用智能材料升級(jí)的計(jì)算機(jī)和智能機(jī)器的設(shè)備和芯片，必將大幅度促進(jìn)AI在所有領(lǐng)域的發(fā)展和應(yīng)用，AI研究正在致力于開發(fā)能夠從先前經(jīng)驗(yàn)中自主學(xué)習(xí)的軟件，如ChatGPT4，甚至嘗試實(shí)現(xiàn)全自動(dòng)的無人研究閉環(huán)②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104（1）,pp.148-175.，將會(huì)以智能化搜索和數(shù)字孿生助力科技創(chuàng)新與制造。

可見，兼具跨領(lǐng)域知識(shí)和人機(jī)合作創(chuàng)新的“AI+Science”（包含AI for Science和Science for AI）形成了AI和科學(xué)之間的雙向賦能，并將持續(xù)推動(dòng)二者間的循環(huán)加速發(fā)展。

二、AI驅(qū)動(dòng)下的傳統(tǒng)科研領(lǐng)域

（一）生命科學(xué)領(lǐng)域

生命世界具有高度的復(fù)雜性和多樣性，在后基因組時(shí)代，生物技術(shù)的數(shù)字化和數(shù)據(jù)驅(qū)動(dòng)的高性能計(jì)算平臺(tái)對(duì)生命科學(xué)研究越發(fā)重要。AI技術(shù)提高了探索生物過程及其相關(guān)機(jī)制的效率和精度，引領(lǐng)著生命科學(xué)研究“從顛覆性使能技術(shù)（enabling techonology）創(chuàng)新走向工程化平臺(tái)建設(shè)”③趙國(guó)屏：《合成生物學(xué)：開啟生命科學(xué)“會(huì)聚”研究新時(shí)代》，《中國(guó)科學(xué)院院刊》2018年第11期，第1141頁。。

1.組學(xué)研究

基因是人類生存的密碼，其表達(dá)水平與疾病的篩查、檢測(cè)和治療休戚相關(guān)。AI參與進(jìn)行的分子生物學(xué)研究范圍已經(jīng)覆蓋了從基因到表型的關(guān)鍵過程與機(jī)制，研究對(duì)象涉及DNA序列、DNA的化學(xué)修飾和開放程度、組蛋白的分布和化學(xué)修飾、RNA及RNA的轉(zhuǎn)錄后修飾、蛋白質(zhì)、代謝通路和代謝產(chǎn)物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在細(xì)胞核內(nèi)的組織方式和折疊狀態(tài)是調(diào)控基因表達(dá)水平的關(guān)鍵因素，通過AI理解基因調(diào)控過程的方法能夠高效全面地整合和解釋高通量測(cè)序獲得的組學(xué)信息。例如，基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17（11）,pp.1111-1117.僅依靠DNA序列就準(zhǔn)確預(yù)測(cè)出基因組的三維空間結(jié)構(gòu)，揭示DNA序列如何編碼一個(gè)特定基因座的折疊模式，解碼基因組功能。基于DL的Enformer⑥Avsec ?.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18（10）,pp.1196-1203.提高了對(duì)基因序列表達(dá)及其單個(gè)位點(diǎn)變體效應(yīng)的預(yù)測(cè)精度，并學(xué)會(huì)直接從DNA序列中預(yù)測(cè)增強(qiáng)子-啟動(dòng)子的相互作用，推進(jìn)了疾病-位點(diǎn)映射研究前沿。細(xì)胞對(duì)基因擾動(dòng)的反應(yīng)一直是基因藥物組學(xué)的重要問題，但可能的多基因擾動(dòng)組合數(shù)量巨大，傳統(tǒng)實(shí)驗(yàn)難以覆蓋，而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.實(shí)現(xiàn)了根據(jù)單細(xì)胞RNA測(cè)序數(shù)據(jù)預(yù)測(cè)細(xì)胞對(duì)單基因或多基因擾動(dòng)的轉(zhuǎn)錄反應(yīng)，并泛化到訓(xùn)練集尚未覆蓋的基因擾動(dòng)，其預(yù)測(cè)精度是先前方法的翻倍。

2.智慧醫(yī)療

自然語言處理、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘正在快速推動(dòng)智慧醫(yī)療的發(fā)展。自然語言處理的著名應(yīng)用案例是IBM Watson平臺(tái)開發(fā)的腫瘤專家系統(tǒng)“沃森醫(yī)生”（Doctor Watson），可利用病例、病史和文獻(xiàn)知識(shí)儲(chǔ)備提供治療建議，以提高不同病情的診斷率。計(jì)算機(jī)視覺中的許多模型可用于醫(yī)學(xué)圖像的分類、檢測(cè)和分割任務(wù)，幫助識(shí)別異常和診斷疾病。例如，算法對(duì)黑色素瘤可疑色素病變的自動(dòng)識(shí)別準(zhǔn)確率與專業(yè)醫(yī)師診斷間的一致性高達(dá)88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13（581）:eabb3652,p.1.；針對(duì)宮頸癌開發(fā)的AI醫(yī)療工具突破了組織病理學(xué)檢測(cè)水平和醫(yī)生個(gè)人經(jīng)驗(yàn)的限制，利用臨床數(shù)據(jù)庫(kù)提高了篩查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 （18）,pp.6896-6906.。醫(yī)療效率方面，基于ML的預(yù)測(cè)或預(yù)后模型利用覆蓋遺傳、臨床和人口特征的醫(yī)藥大數(shù)據(jù)平臺(tái)，準(zhǔn)確預(yù)測(cè)患者的藥物反應(yīng)以指定最佳處方，提高了重度抑郁等疑重癥的診治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 （1）,p.381.。精準(zhǔn)醫(yī)療是近年來迅速發(fā)展的新興概念，根據(jù)個(gè)體的基因組學(xué)信息、遺傳學(xué)和生活方式等因素，定制個(gè)體化的精確診斷、用藥及醫(yī)療方案。隨著對(duì)基因-疾病關(guān)系的深入了解，AI技術(shù)在精準(zhǔn)醫(yī)療中的應(yīng)用更加全面，主要涉及基于測(cè)序和醫(yī)學(xué)成像的疾病早篩④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence （AI） and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.，依據(jù)組學(xué)數(shù)據(jù)的靶向藥物選擇⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13（2）,p.743.，以及基于基因編輯技術(shù)⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16（8）,pp.722-730.和核酸藥物成藥性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23（1）,p.540.的基因治療。

3.藥物研發(fā)

傳統(tǒng)的藥物研發(fā)是一個(gè)投入成本高昂且產(chǎn)出高度不確定的復(fù)雜過程，經(jīng)歷信號(hào)通路研究，蛋白結(jié)構(gòu)解析，藥物作用位點(diǎn)探索，藥物分子設(shè)計(jì)和發(fā)現(xiàn)，以及藥物分子活性優(yōu)化后才能進(jìn)入臨床試驗(yàn)⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26（1）,p.80.。AI通過賦能藥物靶點(diǎn)、藥物分子和二者間親和力（相互作用力）這三個(gè)關(guān)鍵層面的研究，正在引領(lǐng)藥物研發(fā)，尤其是藥物設(shè)計(jì)、藥物篩選和藥理檢測(cè)，走上降本增效的高速路。藥物靶點(diǎn)解析方面，通過采用DL算法，Alpha Fold 2預(yù)測(cè)人類蛋白質(zhì)組三維結(jié)構(gòu)的范圍提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596（7873）,pp.590-596.，并實(shí)現(xiàn)了對(duì)RNA近天然態(tài)結(jié)構(gòu)的高精度優(yōu)化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12（1）:2777,pp.1-2.。藥物設(shè)計(jì)與合成方面，2018年提出使用深度神經(jīng)網(wǎng)絡(luò)和符號(hào)AI來發(fā)現(xiàn)逆向合成路線②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555（7698）,pp.604-610.，比傳統(tǒng)的計(jì)算機(jī)輔助搜索速度要快30倍，產(chǎn)生的分子數(shù)量幾乎是后者的兩倍。近期，深度圖像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12（41）,pp.13664-13675.推進(jìn)了基于結(jié)構(gòu)的新藥設(shè)計(jì)和線索優(yōu)化，通過從頭藥物設(shè)計(jì)策略實(shí)現(xiàn)了具有高度藥物親和力的類藥分子的三維構(gòu)象。基于DL模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通過識(shí)別藥物分子的靜態(tài)和動(dòng)態(tài)特性來預(yù)測(cè)分子毒性，在擴(kuò)展藥物篩選維度的同時(shí)提升藥物可用性檢測(cè)的效率。蛋白-蛋白親和力計(jì)算的主要難題在于蛋白間作用位點(diǎn)的采樣數(shù)量巨大，且蛋白動(dòng)態(tài)構(gòu)象變化難以用傳統(tǒng)方法描述。對(duì)此，AI能夠快速處理復(fù)雜的動(dòng)態(tài)數(shù)據(jù)，擅長(zhǎng)高維空間的搜索；神經(jīng)網(wǎng)絡(luò)的高維表示能力也為高效采樣提供了解決方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2（1）,pp.20-29.。關(guān)于蛋白動(dòng)態(tài)構(gòu)象研究，常用的分子動(dòng)力學(xué)模擬計(jì)算法受到力場(chǎng)精度和采樣效率的限制而成本過高，而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14（1）,p.774.實(shí)現(xiàn)了通過模擬數(shù)據(jù)進(jìn)行訓(xùn)練，直接生成物理上真實(shí)的蛋白質(zhì)構(gòu)象集合，還能泛化到訓(xùn)練集以外的構(gòu)象，使得計(jì)算成本可以忽略不計(jì)。

（二）物理科學(xué)領(lǐng)域

在物理學(xué)領(lǐng)域，ML憑借其自適應(yīng)配置和數(shù)據(jù)處理，特別是圖像重建與分析方面的優(yōu)勢(shì)，在相應(yīng)的粒子物理學(xué)、核物理學(xué)、凝聚態(tài)物理學(xué)和宇宙物理學(xué)中都發(fā)揮著重要作用。AI正在幫助加速粒子的模擬與識(shí)別。在超級(jí)計(jì)算機(jī)上使用馬爾可夫鏈蒙特卡洛模擬方法來研究夸克間強(qiáng)相互作用力的非擾動(dòng)特性時(shí)，難以避免拓?fù)鋬鼋Y(jié)和臨界減速，而DL通過提出和測(cè)試新算法克服了此類困難⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不僅如此，ML還可以縮減物理觀測(cè)數(shù)據(jù)的方差，通過區(qū)分信號(hào)和廣泛的背景事件來優(yōu)化數(shù)據(jù)信噪比和縮短生成數(shù)據(jù)的時(shí)間成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101（3）:034516,pp.1-19.。核探測(cè)方面，傳統(tǒng)探測(cè)法通過脈沖信號(hào)的不同波形（脈沖信息分布）來進(jìn)行分離與識(shí)別，但只能處理單脈沖波，ML通過對(duì)波形組合的分類實(shí)現(xiàn)了多脈沖波的特征分析，甚至能夠改進(jìn)和重建算法，使探測(cè)效率高且誤差小。凝聚態(tài)物理學(xué)方面，AI模型顯示出捕捉原子間力場(chǎng)（描述原子間的相互作用）的巨大優(yōu)勢(shì)，不斷推進(jìn)分子動(dòng)力學(xué)模擬方法的發(fā)展。一些AI原子間勢(shì)模型已經(jīng)被開發(fā)出來，DimeNet⑨Gasteiger J.,Gro? J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.構(gòu)建定向信息傳遞的神經(jīng)網(wǎng)絡(luò)時(shí)，能夠?qū)⒃娱g的鍵長(zhǎng)、鍵角、二面角和未連接原子間的相互作用通通加入模型中，以獲得良好的精確度。宇宙物理學(xué)方面，觀測(cè)和數(shù)據(jù)分析在天文研究中起著核心作用。除了長(zhǎng)期進(jìn)行的銀河數(shù)據(jù)溯源和星系分類，如今基于CNNs的引力波信號(hào)實(shí)時(shí)檢測(cè)和解碼，已經(jīng)能夠在2毫秒內(nèi)重建所有參數(shù)，而傳統(tǒng)算法需要幾天時(shí)間才能完成同樣的任務(wù)①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97（4）:044039,p.20.。此外，已經(jīng)開發(fā)出基于DL的自動(dòng)智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.，不僅在操作速度上有很大的優(yōu)勢(shì)，而且可以識(shí)別傳統(tǒng)軟件和視覺檢查無法檢測(cè)到的特殊形式的物體，促進(jìn)人類對(duì)宇宙的全面了解。

（三）材料科學(xué)領(lǐng)域

歷史上，新材料的發(fā)現(xiàn)和工業(yè)應(yīng)用往往需要相當(dāng)長(zhǎng)的時(shí)間。2011年，美國(guó)首次提出材料基因組計(jì)劃（Materials Genome Initiative，MGI），目標(biāo)至少兩倍速地提升了先進(jìn)材料的發(fā)現(xiàn)、開發(fā)、制造和部署的進(jìn)度。在MGI與大數(shù)據(jù)的不斷融合下，數(shù)據(jù)驅(qū)動(dòng)模型已被視為材料研究中最有前途的方法，AI技術(shù)是獲得成分-結(jié)構(gòu)-工藝-性能關(guān)系的關(guān)鍵③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54（4）,pp.849-860.，甚至有望徹底改變材料科學(xué)。

眾所周知，當(dāng)前形式的化學(xué)元素周期表是在一個(gè)世紀(jì)左右的時(shí)間里被構(gòu)建出來的，而ML技術(shù)的輔助使得科學(xué)家有可能在幾個(gè)小時(shí)內(nèi)重建周期表。一個(gè)名為Atom2Vec的無監(jiān)督機(jī)器從已知化合物和材料的廣泛數(shù)據(jù)庫(kù)中自主學(xué)習(xí)原子的基本屬性，然后在神經(jīng)網(wǎng)絡(luò)中運(yùn)用它們來預(yù)測(cè)新材料的詳細(xì)特征，并具有顯著的準(zhǔn)確性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115（28）,pp.6411-6417.。在新興的超材料領(lǐng)域，高分子復(fù)合材料的結(jié)構(gòu)幾何和基本成分決定了對(duì)合成設(shè)計(jì)至關(guān)重要的材料參數(shù)，二者的組合變化遠(yuǎn)超出傳統(tǒng)試錯(cuò)法的能力。AI仿真模型則能高效高精度地實(shí)現(xiàn)從分子單體到鏈結(jié)構(gòu)再到大分子團(tuán)聚結(jié)構(gòu)的多尺度建模，以探索聚合物材料的構(gòu)效關(guān)系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31（4）:1804680,p.1.。同時(shí)，借助ML不斷產(chǎn)生的新高分子聚合物數(shù)據(jù)，填補(bǔ)了目前數(shù)據(jù)缺乏的問題，最終實(shí)現(xiàn)更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64（9）,p.3553.。大規(guī)模的高質(zhì)量數(shù)據(jù)集是AI技術(shù)擴(kuò)展到材料科學(xué)研究領(lǐng)域的必要設(shè)施，“atomly.net”數(shù)據(jù)庫(kù)計(jì)算了超過18萬種無機(jī)化合物的特性，在此基礎(chǔ)上建立的ML模型，實(shí)現(xiàn)了快速預(yù)測(cè)幾乎任何給定化合物的形成能量，產(chǎn)生了相當(dāng)好的預(yù)測(cè)能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年，拓?fù)洌娮雍吐曌樱┎牧蠎{借奇特的物理特性成為熱電、光學(xué)、催化和能源相關(guān)領(lǐng)域的新寵，而利用高通量方法建立的相關(guān)數(shù)據(jù)庫(kù)為加速篩選和實(shí)驗(yàn)發(fā)現(xiàn)新型拓?fù)洳牧系墓δ軕?yīng)用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2（3）:100134,pp.1-3.。

（四）地球科學(xué)領(lǐng)域

地球演化史研究、氣候變化評(píng)估、災(zāi)害事件預(yù)測(cè)、自然資源計(jì)算和環(huán)境管理治理等重要地球科學(xué)問題緊密關(guān)聯(lián)著人類的生存生活與社會(huì)發(fā)展。然而，地球科學(xué)現(xiàn)象具有明顯的動(dòng)態(tài)時(shí)空結(jié)構(gòu)，其變量服從非線性關(guān)系，在不同程度上表現(xiàn)出不完整性、噪聲和不確定性，使得實(shí)驗(yàn)手段難以有效觀測(cè)地球系統(tǒng)實(shí)況并探究其子系統(tǒng)之間和內(nèi)部的聯(lián)系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31（8）,pp.1544-1554.。當(dāng)前，智能傳感器、圖像可視化和智能反演（intelligent inversion）等計(jì)算建模手段為解決上述難題提供了更多可能，ML算法和模式挖掘技術(shù)的整合正在幫助模擬地質(zhì)演化的極端條件、從觀測(cè)中估計(jì)地學(xué)變量并預(yù)測(cè)系統(tǒng)走勢(shì)、解析地學(xué)數(shù)據(jù)的潛在規(guī)律，以及因果發(fā)現(xiàn)與推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12（9）,pp.1-20.。惰性氣體同位素測(cè)年是地球早期物質(zhì)演化史研究的重要途徑，例如，檢測(cè)氦在典型地殼巖石中的流失時(shí)，主要的巖漿脫氣過程要求高溫低壓的極端反應(yīng)條件，已通過AI技術(shù)實(shí)現(xiàn)了傳統(tǒng)實(shí)驗(yàn)和計(jì)算手段均無法滿足的精度要求，并且通過仿真得到的數(shù)據(jù)與經(jīng)典分子動(dòng)力學(xué)計(jì)算結(jié)果及實(shí)驗(yàn)數(shù)據(jù)較為一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天氣預(yù)測(cè)方面，已有研究用深度生成模型取代大氣物理方程，實(shí)現(xiàn)了200萬平方公里的大氣層的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597（7878）,pp.672-677.。在基于雷達(dá)的風(fēng)速估算方法來確定大致的降雨范圍上，DL繞開物理?xiàng)l件的約束對(duì)未來降雨率進(jìn)行直接預(yù)測(cè)。此外，地質(zhì)資源管理方面，自適應(yīng)智能動(dòng)態(tài)資源規(guī)劃系統(tǒng)的設(shè)計(jì)和應(yīng)用是可持續(xù)自然資源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14（20）: 13384,pp.1-28.，AI技術(shù)發(fā)揮其在建模、靈活性、推理和預(yù)測(cè)資源需求量方面的顯著優(yōu)勢(shì)，在優(yōu)化資源配置的同時(shí)最小化運(yùn)營(yíng)成本，助力可持續(xù)性發(fā)展。

三、科研模式轉(zhuǎn)型及其挑戰(zhàn)

圖靈獎(jiǎng)得主吉姆·格雷（Jim Gary）將近代以來的科學(xué)研究劃分為：經(jīng)驗(yàn)范式、理論范式、計(jì)算范式和作為第四范式的數(shù)據(jù)密集型范式。通過引入大數(shù)據(jù)分析，“第四范式”反映了經(jīng)由信息技術(shù)和數(shù)字化技術(shù)賦能科學(xué)研究和發(fā)展的本質(zhì)，適用于各科學(xué)領(lǐng)域。作為當(dāng)下科學(xué)實(shí)踐中的一種革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13（5）,pp.420-421.，盡管AI的科學(xué)解釋能力尚不足以生成嚴(yán)格庫(kù)恩意義上的顛覆性理論⑦趙云波：《AI預(yù)測(cè)可以代替科學(xué)實(shí)驗(yàn)嗎？——以Alpha Fold破解蛋白質(zhì)折疊難題為中心》，《醫(yī)學(xué)與哲學(xué)》2021年第6期，第17—21頁。，但“大數(shù)據(jù)+智能算法”模式已被集中應(yīng)用于實(shí)現(xiàn)自動(dòng)化、建模、逆向問題和發(fā)現(xiàn)，引發(fā)了新一輪科技革命。在2022年首屆科學(xué)智能峰會(huì)上，有專家指出AI for Science是建基于應(yīng)用數(shù)學(xué)之上的機(jī)理和數(shù)據(jù)的融合計(jì)算，更將其稱作“科學(xué)研究的第五范式”①?gòu)垈ィ骸禔I賦能科研“第五范式”引變革》，《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》2022年8月15日，第13版。。對(duì)AI for Science新范式全景及其基礎(chǔ)的探討，仍需對(duì)更多具體研究領(lǐng)域的典型案例進(jìn)行基本原理和關(guān)鍵技術(shù)分析，但可以確認(rèn)的是，AI for Sci‐ence已然推進(jìn)了科學(xué)發(fā)現(xiàn)進(jìn)程、擴(kuò)展了科學(xué)理解途徑，并帶來了對(duì)科技倫理的挑戰(zhàn)。

（一）科學(xué)發(fā)現(xiàn)新手段

數(shù)據(jù)驅(qū)動(dòng)的科學(xué)仿真，也即AI模型，成為重要的科學(xué)發(fā)現(xiàn)手段。科學(xué)模型是一種具有重要科學(xué)意義的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104（12）,pp.639-659.，而AI技術(shù)為科學(xué)研究提供了一種以數(shù)據(jù)為中心的科學(xué)仿真和預(yù)測(cè)性分析方法。在樸素科學(xué)時(shí)代，解決科學(xué)問題的關(guān)鍵在于追問能否觀測(cè)并總結(jié)規(guī)律；計(jì)算機(jī)普及后，科學(xué)活動(dòng)依賴于實(shí)現(xiàn)有效近似的多項(xiàng)式和計(jì)算機(jī)模擬。如今，科學(xué)活動(dòng)的數(shù)字化使可用數(shù)據(jù)和計(jì)算資源迅速增加，將海量非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)化為形式化的知識(shí)成為基本科學(xué)任務(wù)。在算法和算力的強(qiáng)耦合下，AI技術(shù)更頻繁地輔助研究人員創(chuàng)建現(xiàn)實(shí)世界的“數(shù)字孿生”，從混亂數(shù)據(jù)中提取洞見、開發(fā)模型或測(cè)試假設(shè)。因此，科學(xué)解謎轉(zhuǎn)型為首先尋找問題背后的可用數(shù)據(jù)和原理。參考藥物研發(fā)領(lǐng)域的進(jìn)展，AI for Science正在走向一種融合物理模型與數(shù)據(jù)的系統(tǒng)處理模式，在實(shí)測(cè)數(shù)據(jù)不足的情況下，可以利用高精度物理模型生成的仿真數(shù)據(jù)反過來優(yōu)化和糾正AI模型。對(duì)此，ML算法已經(jīng)開發(fā)出基于領(lǐng)域知識(shí)和目標(biāo)參數(shù)來模擬復(fù)雜系統(tǒng)的替代模型，例如，通過設(shè)計(jì)蛋白質(zhì)折疊轉(zhuǎn)換網(wǎng)絡(luò)塑造了單體蛋白的多種突變途徑（不改變其四元結(jié)構(gòu)而切換折疊），幫助發(fā)現(xiàn)了更全面的蛋白質(zhì)進(jìn)化機(jī)制及其變體效應(yīng)③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14（1）,p.431.。以Alpha Fold 2的驚人表現(xiàn)為例，當(dāng)前生成式AI已經(jīng)能夠?qū)W習(xí)先驗(yàn)知識(shí)和科學(xué)原理，更將“知識(shí)”“數(shù)據(jù)”和“模型”有機(jī)結(jié)合起來，以推進(jìn)科學(xué)原理的進(jìn)步。從數(shù)據(jù)分析擴(kuò)展到預(yù)測(cè)性分析和規(guī)范性設(shè)計(jì)，AI的前景或許不再僅僅是一種高性能工具，AI模型甚至可能成為一種新的知識(shí)形式，與人類能夠理解的知識(shí)并駕齊驅(qū)，共同組成科學(xué)知識(shí)。

（二）科學(xué)理解新途徑

科學(xué)目的除了真理、解釋和預(yù)測(cè)外，也包括科學(xué)理解的重要一環(huán)④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 （5）,pp.921-932.。AI在科學(xué)理解中已經(jīng)扮演了兩種角色：首先，放大數(shù)據(jù)規(guī)律的“計(jì)算顯微鏡”。例如，用AI自動(dòng)提取以視頻形式記錄的實(shí)驗(yàn)數(shù)據(jù)中的隱藏變量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2（7）,pp.433-442.。其次，提供創(chuàng)新靈感的“人工繆斯”。這類啟發(fā)通常來自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4（12）,pp.761-769.：專家對(duì)數(shù)據(jù)異常的識(shí)別、對(duì)ML模型的重新審視（如，通過反事實(shí)解釋打開算法“黑箱”）和對(duì)人工自主體（artificial agent）行為及其內(nèi)在獎(jiǎng)勵(lì)策略的探測(cè)，AI對(duì)科學(xué)文獻(xiàn)特殊點(diǎn)的自動(dòng)抓取，以及算法提供的可解釋性解決方案（如，數(shù)學(xué)公式、圖論等）中的新概念。“學(xué)習(xí)”是這個(gè)時(shí)代AI研究的關(guān)鍵詞，ML本身是關(guān)于理解用來設(shè)計(jì)和開發(fā)算法的智能，其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35（8）,pp.1798-1828.：從原始數(shù)據(jù)中學(xué)習(xí)，提取知識(shí)，使其普遍化，對(duì)抗維度詛咒，以及破解數(shù)據(jù)背后的解釋要素，以達(dá)到在時(shí)間推移中優(yōu)化自身學(xué)習(xí)行為的目的。AI先驅(qū)唐納德·米奇（Donald Michie）曾將機(jī)器學(xué)習(xí)分類為弱機(jī)器學(xué)習(xí)、強(qiáng)機(jī)器學(xué)習(xí)和超機(jī)器學(xué)習(xí)。最后一類不再是輔助性角色，而是作為“理解主體”直接獲得新的科學(xué)見解，并傳授給人類專家。二十世紀(jì)八九十年代，科學(xué)知識(shí)社會(huì)學(xué)家和認(rèn)知科學(xué)哲學(xué)家就對(duì)“AI能否替代科學(xué)家獨(dú)立完成科學(xué)發(fā)現(xiàn)”問題展開過激烈論戰(zhàn)①曾點(diǎn)：《人工智能能替代科學(xué)家嗎？——再思STS的一場(chǎng)論戰(zhàn)》，《哲學(xué)分析》2023年第1期，第159—171頁。。現(xiàn)在，AI工具正在演化出能夠自主學(xué)習(xí)的“AI科學(xué)家”。例如，AI-笛卡爾（AI-Descartes）已然實(shí)現(xiàn)了開普勒行星運(yùn)動(dòng)第三定律的再發(fā)現(xiàn)②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14（1）:1777,pp.1-10.，通過利用符號(hào)回歸和邏輯推理尋找方程擬合數(shù)據(jù)，該系統(tǒng)得以確定哪些方程最符合背景科學(xué)理論，未來甚至可能自己構(gòu)建背景理論。然而，哲學(xué)家們質(zhì)疑先進(jìn)的計(jì)算方法和理想化模型是否在根本層面上幫助人們獲得新的科學(xué)理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此類爭(zhēng)議的一個(gè)潛在解決方案是開發(fā)可解釋AI（ex‐plainable AI，XAI）④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1（5）,pp.206-215.，也即解釋學(xué)習(xí)算法的內(nèi)在邏輯、由學(xué)習(xí)算法產(chǎn)生的模型或基于知識(shí)的推理方法的發(fā)展。此外，也有研究建議對(duì)人類決策的結(jié)構(gòu)因果模型進(jìn)行形式化處理，并將這些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9（4）:e1312,p.10.。

（三）科技倫理新挑戰(zhàn)

盡管AI for Science表現(xiàn)出蓬勃生機(jī)，但AI生成內(nèi)容（AI generated content）受到ML模型“黑箱”屬性的干擾仍然表現(xiàn)出半客觀性，在數(shù)據(jù)隱私性和決策嚴(yán)謹(jǐn)性方面存在隱患⑥鄧莎莎、李鎮(zhèn)宇、潘煜：《ChatGPT和AI生成內(nèi)容：科學(xué)研究應(yīng)該采用還是抵制》，《上海管理科學(xué)》2023年第2期，第15—20頁。，因而招致科技應(yīng)用在倫理、公平和信任方面的持續(xù)爭(zhēng)議。相關(guān)熱點(diǎn)議題包括但不限于：如何確保AI系統(tǒng)的設(shè)計(jì)和使用方式的道德和社會(huì)責(zé)任，并尊重基本的人權(quán)和價(jià)值觀⑦M(jìn)uller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54（07）,pp.119-123.？如何確保AI系統(tǒng)是公平的，不會(huì)延續(xù)或放大現(xiàn)有的偏見或歧視⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4（2）,pp.556-579.？如何確保AI系統(tǒng)的透明性和可解釋性，以建立用戶和利益相關(guān)者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 （112）,pp.42-43.？以及，面對(duì)上述倫理和社會(huì)影響，應(yīng)如何制定和實(shí)施有效的政策、法規(guī)和治理框架，并促進(jìn)各方利益相關(guān)者間的對(duì)話和合作？目前學(xué)界普遍認(rèn)為，確保研究對(duì)象在科研鏈上各環(huán)節(jié)的詳細(xì)記錄的可溯性和可驗(yàn)證性是提高AI模型可信度的重要思路之一。基于該路徑搭建的溯源模型（provenance model）能夠以機(jī)器可讀的方式留存研究歷史檔案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9（1）,p.503.，在分布式多機(jī)構(gòu)協(xié)作背景下實(shí)現(xiàn)了對(duì)數(shù)據(jù)質(zhì)量的程序化評(píng)估。另外，魯棒性和可解釋性是提升可靠性和確保AI系統(tǒng)時(shí)刻受控的重要因素。魯棒性的一個(gè)可能強(qiáng)化方法是將統(tǒng)計(jì)學(xué)習(xí)與知識(shí)表示相結(jié)合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1（5）,pp.206-215.，可解釋性則使人們得以理解和評(píng)估AI系統(tǒng)的決策過程，確保AI解決方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。醫(yī)藥等敏感領(lǐng)域已對(duì)可解釋性提出強(qiáng)制性要求，例如，歐洲體外診斷法規(guī)（IVDR）已有明確條例對(duì)軟件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.，針對(duì)遺傳資源獲取和共享的《名古屋議定書》（Nagoya Protocol）強(qiáng)調(diào)了數(shù)據(jù)的透明度、可追蹤性和可解讀性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8（2）,p.92.。在具體策略上，還可以考慮對(duì)AI模型的結(jié)構(gòu)和訓(xùn)練過程提供清晰的文件和說明，使用可解讀的（interpretable）模型或技術(shù)⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1（5）,pp.206-215.，以及將模型的輸出和決策過程可視化等。

四、AI for Science的困境與機(jī)遇

大數(shù)據(jù)時(shí)代，利用多源異構(gòu)的科學(xué)數(shù)據(jù)來推進(jìn)知識(shí)前沿的追求激發(fā)了AI技術(shù)與科學(xué)研究的深度融合，但數(shù)據(jù)、知識(shí)、模型、算法、算力共同建構(gòu)的AI for Science僅被挖出冰山一角，前路仍遠(yuǎn)。一方面，作為新興技術(shù)，ML盡管取得迅猛進(jìn)步，但算法難以解釋因果關(guān)系，相應(yīng)模型敏感于微小的輸入差異以至產(chǎn)生大幅輸出變化，且部分研究領(lǐng)域仍存在低質(zhì)量數(shù)據(jù)。要提高AI在科學(xué)研究中的可信度和可控性，尚需提高AI模型的魯棒性，并在保持準(zhǔn)確率的前提下，降低ML模型對(duì)計(jì)算資源的依賴。從可解釋性方面來看，作為科學(xué)理解的要素，前文提及的XAI盡管被視為有前景的技術(shù)出口，但“解釋”的定義和涵蓋解釋各種屬性和維度的結(jié)構(gòu)化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.，一些ML主導(dǎo)的閉環(huán)研究仍有賴于人類專家的領(lǐng)域知識(shí)進(jìn)行概念性理解和決策。

AI for Science已成為全球新前沿，AI協(xié)助的科技創(chuàng)新發(fā)展對(duì)國(guó)家經(jīng)濟(jì)實(shí)力和國(guó)際競(jìng)爭(zhēng)力具有重大意義。以新材料研發(fā)為例，對(duì)材料的利用能力是人類生產(chǎn)力和生產(chǎn)方式的標(biāo)志性體現(xiàn)，材料作為“工業(yè)骨骼”為各行業(yè)的技術(shù)進(jìn)步起到基礎(chǔ)性和先導(dǎo)性作用。2014年美國(guó)將“材料基因組計(jì)劃”提升為國(guó)家戰(zhàn)略，配套建設(shè)了45個(gè)材料基因組創(chuàng)新平臺(tái)，每個(gè)平臺(tái)政府投資0.7~1.2億美元，建設(shè)周期5~7年①宿彥京、付華棟、白洋、姜雪、謝建新：《中國(guó)材料基因工程研究進(jìn)展》，《金屬學(xué)報(bào)》2020 年第10 期，第1313—1323頁。。包括我國(guó)在內(nèi)的多個(gè)國(guó)家也迅速啟動(dòng)類似的研究計(jì)劃，爭(zhēng)取在新一輪材料革命中占得先機(jī)。事實(shí)上，針對(duì)我國(guó)高科技人才短缺和AI生態(tài)系統(tǒng)不成熟的問題，國(guó)內(nèi)已擁有良好的AI技術(shù)基礎(chǔ)和全球最龐大的人口市場(chǎng)，突破口在于針對(duì)未來發(fā)展趨勢(shì)展開前瞻性規(guī)劃和相應(yīng)的基礎(chǔ)研究②陸成寬：《中國(guó)科學(xué)院院士楊金龍：讓AI for Science更好服務(wù)國(guó)家戰(zhàn)略需求》，《科技日?qǐng)?bào)》2023年5月22日，第5版。。近期，為落實(shí)國(guó)家《新一代人工智能發(fā)展規(guī)劃》，科技部會(huì)同自然科學(xué)基金委啟動(dòng)了“人工智能驅(qū)動(dòng)的科學(xué)研究”專項(xiàng)部署工作，點(diǎn)名藥物研發(fā)、基因研究、生物育種、新材料研發(fā)等重點(diǎn)領(lǐng)域的科技研發(fā)體系布局。可見，我國(guó)AI for Science發(fā)展的當(dāng)務(wù)之急在于為重大科學(xué)問題研究建設(shè)專用平臺(tái)，鼓勵(lì)建設(shè)計(jì)算與智算融合的科研生態(tài)體系和更多的開放科學(xué)數(shù)據(jù)。從文章第二部分的案例中發(fā)現(xiàn)，AI方法在科學(xué)領(lǐng)域內(nèi)的發(fā)展和普及通常是由一個(gè)既定科學(xué)問題推動(dòng)的，而成功的最佳途徑是AI技術(shù)員在各個(gè)科研環(huán)節(jié)與科學(xué)家緊密合作。因此，跨領(lǐng)域融合的科研組織模式與跨學(xué)科重構(gòu)的綜合人才培養(yǎng)是拉動(dòng)創(chuàng)新平臺(tái)建設(shè)與專項(xiàng)研究的重要基礎(chǔ)，也是推進(jìn)資源整合和政策合力的重要一環(huán)。首先，需要鼓勵(lì)科研人員積極接納和學(xué)習(xí)AI工具和手段，在國(guó)家戰(zhàn)略性需求領(lǐng)域的科學(xué)難題上實(shí)現(xiàn)技術(shù)突破，推進(jìn)我國(guó)在基礎(chǔ)科研的國(guó)際競(jìng)爭(zhēng)中的主動(dòng)地位。其次，除了實(shí)現(xiàn)AI技術(shù)創(chuàng)新的人工智能人才，更需要高校建立跨學(xué)科的人才培養(yǎng)體系，通過設(shè)置交叉學(xué)科來培養(yǎng)能夠快速適應(yīng)智能手段，甚至快速將技術(shù)創(chuàng)新轉(zhuǎn)化為實(shí)用科研設(shè)計(jì)的高層次人才。最后，要建設(shè)開放創(chuàng)新的專項(xiàng)智研平臺(tái)與公共大數(shù)據(jù)平臺(tái)，并制定配套的AI治理原則、數(shù)據(jù)安全規(guī)范和跨學(xué)科交叉研究政策。只有實(shí)現(xiàn)“項(xiàng)目、平臺(tái)、人才”三方合力的可持續(xù)發(fā)展聯(lián)合體，才能全面提升我國(guó)AI驅(qū)動(dòng)的科學(xué)研究自主能力與范式變革。

五、結(jié) 語

加快新一代AI的發(fā)展是我國(guó)的一項(xiàng)關(guān)鍵戰(zhàn)略，旨在促進(jìn)科技發(fā)展，升級(jí)各工業(yè)領(lǐng)域，并提高整體生產(chǎn)力。最大限度地發(fā)揮AI在基礎(chǔ)科研領(lǐng)域的潛力，要求更健康的科研體系布局與多方協(xié)作，實(shí)現(xiàn)研究機(jī)構(gòu)、投資者、企業(yè)和市場(chǎng)之間的合作和知識(shí)轉(zhuǎn)移。可以設(shè)想，在“AI+物理模型+高性能計(jì)算+自動(dòng)化實(shí)驗(yàn)”的基礎(chǔ)上，以“搜索”為核心的精準(zhǔn)仿真建模和重新設(shè)計(jì)（de novo de‐sign）有望真正實(shí)現(xiàn)“以終為始”——從需求出發(fā)升級(jí)工業(yè)設(shè)計(jì)和智能制造，重塑相關(guān)行業(yè)的技術(shù)標(biāo)準(zhǔn)和商業(yè)模式，最終推動(dòng)我國(guó)的制造業(yè)轉(zhuǎn)型和實(shí)體經(jīng)濟(jì)發(fā)展。因此，為更好地利用AI for Sci‐ence帶來的科研范式革命的機(jī)遇，我們應(yīng)當(dāng)鼓勵(lì)科學(xué)工作者積極擁抱AI for Science，加快AI for Science的科學(xué)研究平臺(tái)建設(shè)，挖掘AI for Science在各類科學(xué)研究中的潛力，使AI for Science在科學(xué)研究中最大限度地發(fā)揮作用，更好地服務(wù)國(guó)家戰(zhàn)略需求，以增強(qiáng)我國(guó)的科學(xué)研究實(shí)力，確保這一領(lǐng)域在國(guó)際競(jìng)爭(zhēng)中處于世界前列。