999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI for Science:科學(xué)研究范式的新革命*

2023-05-13 00:14:42李建會(huì)
廣東社會(huì)科學(xué) 2023年6期
關(guān)鍵詞:科學(xué)模型

李建會(huì) 楊 寧

人工智能驅(qū)動(dòng)的科學(xué)研究(AI for Science)是大數(shù)據(jù)時(shí)代以機(jī)器學(xué)習(xí)(ML,machine learning)為代表的人工智能技術(shù)與科學(xué)研究深度融合(AI+Science)的產(chǎn)物。作為AI子領(lǐng)域,機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)以其在理解高維數(shù)據(jù)和解析復(fù)雜系統(tǒng)方面遠(yuǎn)勝人類的優(yōu)勢(shì),成為科學(xué)研究數(shù)字化和自動(dòng)化轉(zhuǎn)型的中堅(jiān)力量。當(dāng)前,AI for Science在物理學(xué)、生命科學(xué)、材料科學(xué)和地球科學(xué)等領(lǐng)域的知識(shí)發(fā)現(xiàn)與成果優(yōu)化方面表現(xiàn)驚人,基于多領(lǐng)域整合和人-機(jī)協(xié)作的數(shù)據(jù)驅(qū)動(dòng)型科學(xué)發(fā)現(xiàn)模式越來越得到科學(xué)家的認(rèn)可和應(yīng)用。AI for Science不僅加速科學(xué)的發(fā)展,而且反過來,加速發(fā)展的科學(xué)又推動(dòng)AI的加速發(fā)展。AI與科學(xué)之間的持續(xù)雙向賦能使得AI向著其技術(shù)奇點(diǎn)加速邁進(jìn)。在這個(gè)循環(huán)加速的發(fā)展中,數(shù)據(jù)隱私和AI模型可信度及可控性等重要科技倫理問題也引發(fā)社會(huì)擔(dān)憂,使得開發(fā)可解釋的AI模型成為焦點(diǎn)議題。在AI領(lǐng)跑科技創(chuàng)新的國(guó)際競(jìng)爭(zhēng)背景下,開展AI for Science的前瞻性規(guī)劃及其資源整合研究對(duì)推動(dòng)我國(guó)基礎(chǔ)科研實(shí)力具有非常重要的價(jià)值。

一、從AI到“AI+Science”

(一)人工智能與機(jī)器發(fā)現(xiàn)

科學(xué)研究的目的之一是做出科學(xué)發(fā)現(xiàn)。AI誕生初期,一些專家便開始嘗試開發(fā)程序以通過機(jī)器進(jìn)行科學(xué)發(fā)現(xiàn)。起初,他們雄心勃勃地認(rèn)為,“學(xué)習(xí)的每一個(gè)方面或智力的任何其他特征在原則上都可以被精確地描述,以至于可以制造一臺(tái)機(jī)器來模擬它。”①M(fèi)cCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27(4),p.12.20世紀(jì)40―70年代的傳統(tǒng)AI只服務(wù)于特定的任務(wù),通過邏輯和啟發(fā)式算法實(shí)現(xiàn)游戲、知識(shí)表達(dá)、推理和專家系統(tǒng)。此后的30年里,感知機(jī)模型的提出使研究界更加關(guān)注從觀察數(shù)據(jù)中自動(dòng)提取“規(guī)律”,并開始嘗試為能夠?qū)崿F(xiàn)指定任務(wù)的候選模型搭建一個(gè)統(tǒng)一架構(gòu)。進(jìn)入新世紀(jì),“深度學(xué)習(xí)之父”杰弗里·辛頓(Geoffrey Hinton)解決了困擾神經(jīng)網(wǎng)絡(luò)用于表征學(xué)習(xí)的模型過擬合和梯度擴(kuò)散難題,并進(jìn)一步開發(fā)出更高精度的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.,基于多層次型人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)的深度學(xué)習(xí)(deep learning,DL)因此成為AI 的新的潮流。作為ML技術(shù)的強(qiáng)大子集,DL更加適應(yīng)多層次結(jié)構(gòu)數(shù)據(jù)的表征學(xué)習(xí)③指將原始數(shù)據(jù)轉(zhuǎn)換成能被機(jī)器學(xué)習(xí)有效開發(fā)的表征,即允許機(jī)器通過簡(jiǎn)化復(fù)雜的原始數(shù)據(jù),自動(dòng)發(fā)現(xiàn)并提取可用于檢測(cè)或分類的特征。,成為語音識(shí)別、計(jì)算機(jī)視覺、自然語言處理、知識(shí)圖譜和自動(dòng)駕駛的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521(7553),pp.436-444.。

在AI發(fā)展的第一階段,著名的AI專家赫伯特·西蒙(Herbert Simon)就提出了用計(jì)算機(jī)模擬人的創(chuàng)造性思維的想法。為此,西蒙及其研究團(tuán)隊(duì)嘗試用機(jī)器再現(xiàn)歷史上的科學(xué)發(fā)現(xiàn)過程,他們研制了BACON系列程序,這些程序不僅重新發(fā)現(xiàn)了波義耳定律、開普勒行星運(yùn)動(dòng)第三定律、理想氣體定律等多種定律和函數(shù)關(guān)系,而且還涉及一些定性定律的再發(fā)現(xiàn)、結(jié)構(gòu)模型的再發(fā)現(xiàn)和過程模型的再發(fā)現(xiàn)、以及實(shí)驗(yàn)過程設(shè)計(jì)的再現(xiàn)等方面。他們還設(shè)計(jì)了GLAUBER 程序和DALTON程序等。GLAUBER程序能再發(fā)現(xiàn)酸和堿的概念以及有關(guān)的定性定律;DALTON程序能夠模擬多重化學(xué)反應(yīng),甚至可以應(yīng)用于粒子物理學(xué)和經(jīng)典遺傳學(xué),比如發(fā)現(xiàn)孟德爾(G.Mendel)遺傳學(xué)定律。另外一個(gè)科學(xué)再發(fā)現(xiàn)模型是列納特(D.B.Lenat)開發(fā)的AM程序。AM能在初等數(shù)學(xué)和集合論中重新發(fā)現(xiàn)概念和假設(shè),比如發(fā)現(xiàn)加法、乘法、素?cái)?shù)等概念以及哥德巴赫猜想等等。“這些再發(fā)現(xiàn)程序使科學(xué)發(fā)現(xiàn)邏輯的研究重新興旺起來,為思考發(fā)現(xiàn)的邏輯是否存在,及其能否作為科學(xué)哲學(xué)合法研究主題問題的研討,提供了新的論域。”⑤樊陽程:《科學(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評(píng)》,《自然辯證法研究》2007年第11期,第40頁。

科學(xué)假說或理論的評(píng)價(jià)問題也是早期機(jī)器發(fā)現(xiàn)專家努力的目標(biāo)之一。著名認(rèn)知科學(xué)家薩伽德(P.Thagard)用聯(lián)結(jié)主義方法開發(fā)了ECHO 程序來評(píng)判相互競(jìng)爭(zhēng)的理論假設(shè)的優(yōu)劣問題。ECHO程序?qū)茖W(xué)中許多對(duì)立的理論進(jìn)行過對(duì)比分析,比如,ECHO對(duì)氧化理論和燃素說、進(jìn)化論和神創(chuàng)論、哥白尼天文學(xué)和托勒密天文學(xué)等學(xué)說的優(yōu)劣進(jìn)行了評(píng)判。

除了模擬或重建歷史上的科學(xué)發(fā)現(xiàn)過程和對(duì)理論假設(shè)進(jìn)行評(píng)價(jià)外,機(jī)器發(fā)現(xiàn)還嘗試進(jìn)行真正的科學(xué)發(fā)現(xiàn)。例如:“AUTOCLASS系統(tǒng)通過對(duì)紅外光譜的分析,擴(kuò)展了原先主要基于可見光譜分析的恒星分類學(xué);RL系統(tǒng)能發(fā)現(xiàn)有經(jīng)濟(jì)價(jià)值的化學(xué)藥品的致癌性的定性規(guī)律;PRPGOL系統(tǒng)能應(yīng)用于基因變異中化學(xué)因素的發(fā)現(xiàn);GRAFFITI系統(tǒng)在數(shù)論和其他離散數(shù)學(xué)領(lǐng)域中產(chǎn)生的猜想已經(jīng)引發(fā)了數(shù)學(xué)領(lǐng)域?qū)W者的研究興趣;MECHEM系統(tǒng)自動(dòng)發(fā)現(xiàn)了乙烷氫化裂解反應(yīng)的新機(jī)理;PAULI系統(tǒng)得到了能解釋產(chǎn)生守恒定律的歷史數(shù)據(jù)的新守恒定律;LAGRAMGE 系統(tǒng)發(fā)現(xiàn)了生態(tài)行為的時(shí)間定律等。”①樊陽程:《科學(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評(píng)》,《自然辯證法研究》2007年第11期,第41頁。早期的機(jī)器發(fā)現(xiàn)研究雖然取得了一系列成果,但由于數(shù)據(jù)、算法和算力的局限性,機(jī)器發(fā)現(xiàn)取得的成果非常有限,進(jìn)一步的發(fā)展需要等待計(jì)算機(jī)在數(shù)據(jù)、算法和算力方面取得突破性進(jìn)展。

(二)AI加速科學(xué)發(fā)現(xiàn):AI for Science

隨著數(shù)字化時(shí)代到來,計(jì)算機(jī)和高通量實(shí)驗(yàn)儀器成為科學(xué)研究的基本工具。AI不僅模擬感知智能,而且還模擬認(rèn)知智能和決策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2(4),p.2.。AI通過整合計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)和機(jī)械工程等學(xué)科的思想,具備科學(xué)與技術(shù)的雙重特性。AI帶來的“數(shù)據(jù)、算法、算力”三位一體的計(jì)算方式極大提升了應(yīng)對(duì)海量數(shù)據(jù)處理和復(fù)雜系統(tǒng)求解的能力。在數(shù)據(jù)驅(qū)動(dòng)與模型驅(qū)動(dòng)兩種方法的有效整合下,AI驅(qū)動(dòng)的科學(xué)研究——AI for Science模式——在設(shè)計(jì)科研框架、揭示科學(xué)定律和知識(shí)、提升數(shù)值模擬速度和準(zhǔn)確度方面取得了巨大的成績(jī)。以蛋白質(zhì)三維結(jié)構(gòu)解析為例,傳統(tǒng)的實(shí)驗(yàn)室方法復(fù)雜且難以得出有意義的結(jié)果,AI的應(yīng)用則迅速推進(jìn)了此類研究的進(jìn)展:2014年領(lǐng)域內(nèi)開始通過ML方法預(yù)測(cè)蛋白質(zhì)二維結(jié)構(gòu),預(yù)測(cè)準(zhǔn)確率在一年間突破80%;2016年AlphaGo以4∶1戰(zhàn)勝頂尖棋手時(shí),AI預(yù)測(cè)蛋白三維結(jié)構(gòu)的嘗試也悄然展開③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44(W1),pp.430-435.,2017年就實(shí)現(xiàn)了以DL方法對(duì)蛋白質(zhì)結(jié)構(gòu)氨基酸間空間距離的預(yù)測(cè),并被用以搭建AI預(yù)測(cè)系統(tǒng)Alpha Fold;2020年,Alpha Fold 2在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)中以絕對(duì)優(yōu)勢(shì)奪冠,引起世界關(guān)注。當(dāng)前,AI for Science的可行性和適應(yīng)性已在更廣泛的應(yīng)用場(chǎng)景中被證實(shí),如藥物和材料設(shè)計(jì)、求解薛定諤方程和控制論方程、加速分子和空間模擬等等,AI正在幫助加快走完科學(xué)研究和技術(shù)創(chuàng)新之間的最后一公里。

(三)科學(xué)對(duì)AI的逆向賦能:Science for AI

值得一提的是,科學(xué)的進(jìn)步也在啟發(fā)機(jī)器學(xué)習(xí)理論(Science for AI),助力神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法的持續(xù)迭代。生物學(xué)和神經(jīng)科學(xué)一直是AI發(fā)展的靈感原型,上世紀(jì)中期受生物神經(jīng)細(xì)胞啟發(fā)而設(shè)計(jì)的感知機(jī)(perceptron),是神經(jīng)網(wǎng)絡(luò)模型和現(xiàn)代DL算法的重要基礎(chǔ),前沿的CNNs中神經(jīng)計(jì)算的數(shù)個(gè)標(biāo)志也源自哺乳動(dòng)物視覺皮層單細(xì)胞對(duì)視覺輸入的獨(dú)特處理④Holzinger A., “Introduction to machine learning & knowledge extraction (make) ”, Machine learning and knowledge extraction,2019,1(1),pp.1-20.。近年來,大型復(fù)雜系統(tǒng)的對(duì)稱性、大規(guī)模自由度、多尺度和多分辨率動(dòng)態(tài)等特征對(duì)科學(xué)仿真和ML技術(shù)提出更高的要求。例如,量子計(jì)算實(shí)現(xiàn)了更高性能的量子機(jī)器學(xué)習(xí),量子增強(qiáng)、量子比特和連續(xù)變量(continuous variable)量子強(qiáng)化了生成模型(generative model)的表達(dá)⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81(7):074001,pp.1-116.;統(tǒng)計(jì)力學(xué)的物理分析方法為深度學(xué)習(xí)的表達(dá)、信號(hào)傳播和泛化等理論原則提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外,用智能材料升級(jí)的計(jì)算機(jī)和智能機(jī)器的設(shè)備和芯片,必將大幅度促進(jìn)AI在所有領(lǐng)域的發(fā)展和應(yīng)用,AI研究正在致力于開發(fā)能夠從先前經(jīng)驗(yàn)中自主學(xué)習(xí)的軟件,如ChatGPT4,甚至嘗試實(shí)現(xiàn)全自動(dòng)的無人研究閉環(huán)②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104(1),pp.148-175.,將會(huì)以智能化搜索和數(shù)字孿生助力科技創(chuàng)新與制造。

可見,兼具跨領(lǐng)域知識(shí)和人機(jī)合作創(chuàng)新的“AI+Science”(包含AI for Science和Science for AI)形成了AI和科學(xué)之間的雙向賦能,并將持續(xù)推動(dòng)二者間的循環(huán)加速發(fā)展。

二、AI驅(qū)動(dòng)下的傳統(tǒng)科研領(lǐng)域

(一)生命科學(xué)領(lǐng)域

生命世界具有高度的復(fù)雜性和多樣性,在后基因組時(shí)代,生物技術(shù)的數(shù)字化和數(shù)據(jù)驅(qū)動(dòng)的高性能計(jì)算平臺(tái)對(duì)生命科學(xué)研究越發(fā)重要。AI技術(shù)提高了探索生物過程及其相關(guān)機(jī)制的效率和精度,引領(lǐng)著生命科學(xué)研究“從顛覆性使能技術(shù)(enabling techonology)創(chuàng)新走向工程化平臺(tái)建設(shè)”③趙國(guó)屏:《合成生物學(xué):開啟生命科學(xué)“會(huì)聚”研究新時(shí)代》,《中國(guó)科學(xué)院院刊》2018年第11期,第1141頁。。

1.組學(xué)研究

基因是人類生存的密碼,其表達(dá)水平與疾病的篩查、檢測(cè)和治療休戚相關(guān)。AI參與進(jìn)行的分子生物學(xué)研究范圍已經(jīng)覆蓋了從基因到表型的關(guān)鍵過程與機(jī)制,研究對(duì)象涉及DNA序列、DNA的化學(xué)修飾和開放程度、組蛋白的分布和化學(xué)修飾、RNA及RNA的轉(zhuǎn)錄后修飾、蛋白質(zhì)、代謝通路和代謝產(chǎn)物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在細(xì)胞核內(nèi)的組織方式和折疊狀態(tài)是調(diào)控基因表達(dá)水平的關(guān)鍵因素,通過AI理解基因調(diào)控過程的方法能夠高效全面地整合和解釋高通量測(cè)序獲得的組學(xué)信息。例如,基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17(11),pp.1111-1117.僅依靠DNA序列就準(zhǔn)確預(yù)測(cè)出基因組的三維空間結(jié)構(gòu),揭示DNA序列如何編碼一個(gè)特定基因座的折疊模式,解碼基因組功能。基于DL的Enformer⑥Avsec ?.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18(10),pp.1196-1203.提高了對(duì)基因序列表達(dá)及其單個(gè)位點(diǎn)變體效應(yīng)的預(yù)測(cè)精度,并學(xué)會(huì)直接從DNA序列中預(yù)測(cè)增強(qiáng)子-啟動(dòng)子的相互作用,推進(jìn)了疾病-位點(diǎn)映射研究前沿。細(xì)胞對(duì)基因擾動(dòng)的反應(yīng)一直是基因藥物組學(xué)的重要問題,但可能的多基因擾動(dòng)組合數(shù)量巨大,傳統(tǒng)實(shí)驗(yàn)難以覆蓋,而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.實(shí)現(xiàn)了根據(jù)單細(xì)胞RNA測(cè)序數(shù)據(jù)預(yù)測(cè)細(xì)胞對(duì)單基因或多基因擾動(dòng)的轉(zhuǎn)錄反應(yīng),并泛化到訓(xùn)練集尚未覆蓋的基因擾動(dòng),其預(yù)測(cè)精度是先前方法的翻倍。

2.智慧醫(yī)療

自然語言處理、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘正在快速推動(dòng)智慧醫(yī)療的發(fā)展。自然語言處理的著名應(yīng)用案例是IBM Watson平臺(tái)開發(fā)的腫瘤專家系統(tǒng)“沃森醫(yī)生”(Doctor Watson),可利用病例、病史和文獻(xiàn)知識(shí)儲(chǔ)備提供治療建議,以提高不同病情的診斷率。計(jì)算機(jī)視覺中的許多模型可用于醫(yī)學(xué)圖像的分類、檢測(cè)和分割任務(wù),幫助識(shí)別異常和診斷疾病。例如,算法對(duì)黑色素瘤可疑色素病變的自動(dòng)識(shí)別準(zhǔn)確率與專業(yè)醫(yī)師診斷間的一致性高達(dá)88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13(581):eabb3652,p.1.;針對(duì)宮頸癌開發(fā)的AI醫(yī)療工具突破了組織病理學(xué)檢測(cè)水平和醫(yī)生個(gè)人經(jīng)驗(yàn)的限制,利用臨床數(shù)據(jù)庫(kù)提高了篩查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 (18),pp.6896-6906.。醫(yī)療效率方面,基于ML的預(yù)測(cè)或預(yù)后模型利用覆蓋遺傳、臨床和人口特征的醫(yī)藥大數(shù)據(jù)平臺(tái),準(zhǔn)確預(yù)測(cè)患者的藥物反應(yīng)以指定最佳處方,提高了重度抑郁等疑重癥的診治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 (1),p.381.。精準(zhǔn)醫(yī)療是近年來迅速發(fā)展的新興概念,根據(jù)個(gè)體的基因組學(xué)信息、遺傳學(xué)和生活方式等因素,定制個(gè)體化的精確診斷、用藥及醫(yī)療方案。隨著對(duì)基因-疾病關(guān)系的深入了解,AI技術(shù)在精準(zhǔn)醫(yī)療中的應(yīng)用更加全面,主要涉及基于測(cè)序和醫(yī)學(xué)成像的疾病早篩④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence (AI) and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.,依據(jù)組學(xué)數(shù)據(jù)的靶向藥物選擇⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13(2),p.743.,以及基于基因編輯技術(shù)⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16(8),pp.722-730.和核酸藥物成藥性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23(1),p.540.的基因治療。

3.藥物研發(fā)

傳統(tǒng)的藥物研發(fā)是一個(gè)投入成本高昂且產(chǎn)出高度不確定的復(fù)雜過程,經(jīng)歷信號(hào)通路研究,蛋白結(jié)構(gòu)解析,藥物作用位點(diǎn)探索,藥物分子設(shè)計(jì)和發(fā)現(xiàn),以及藥物分子活性優(yōu)化后才能進(jìn)入臨床試驗(yàn)⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26(1),p.80.。AI通過賦能藥物靶點(diǎn)、藥物分子和二者間親和力(相互作用力)這三個(gè)關(guān)鍵層面的研究,正在引領(lǐng)藥物研發(fā),尤其是藥物設(shè)計(jì)、藥物篩選和藥理檢測(cè),走上降本增效的高速路。藥物靶點(diǎn)解析方面,通過采用DL算法,Alpha Fold 2預(yù)測(cè)人類蛋白質(zhì)組三維結(jié)構(gòu)的范圍提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596(7873),pp.590-596.,并實(shí)現(xiàn)了對(duì)RNA近天然態(tài)結(jié)構(gòu)的高精度優(yōu)化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12(1):2777,pp.1-2.。藥物設(shè)計(jì)與合成方面,2018年提出使用深度神經(jīng)網(wǎng)絡(luò)和符號(hào)AI來發(fā)現(xiàn)逆向合成路線②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555(7698),pp.604-610.,比傳統(tǒng)的計(jì)算機(jī)輔助搜索速度要快30倍,產(chǎn)生的分子數(shù)量幾乎是后者的兩倍。近期,深度圖像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12(41),pp.13664-13675.推進(jìn)了基于結(jié)構(gòu)的新藥設(shè)計(jì)和線索優(yōu)化,通過從頭藥物設(shè)計(jì)策略實(shí)現(xiàn)了具有高度藥物親和力的類藥分子的三維構(gòu)象。基于DL模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通過識(shí)別藥物分子的靜態(tài)和動(dòng)態(tài)特性來預(yù)測(cè)分子毒性,在擴(kuò)展藥物篩選維度的同時(shí)提升藥物可用性檢測(cè)的效率。蛋白-蛋白親和力計(jì)算的主要難題在于蛋白間作用位點(diǎn)的采樣數(shù)量巨大,且蛋白動(dòng)態(tài)構(gòu)象變化難以用傳統(tǒng)方法描述。對(duì)此,AI能夠快速處理復(fù)雜的動(dòng)態(tài)數(shù)據(jù),擅長(zhǎng)高維空間的搜索;神經(jīng)網(wǎng)絡(luò)的高維表示能力也為高效采樣提供了解決方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2(1),pp.20-29.。關(guān)于蛋白動(dòng)態(tài)構(gòu)象研究,常用的分子動(dòng)力學(xué)模擬計(jì)算法受到力場(chǎng)精度和采樣效率的限制而成本過高,而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14(1),p.774.實(shí)現(xiàn)了通過模擬數(shù)據(jù)進(jìn)行訓(xùn)練,直接生成物理上真實(shí)的蛋白質(zhì)構(gòu)象集合,還能泛化到訓(xùn)練集以外的構(gòu)象,使得計(jì)算成本可以忽略不計(jì)。

(二)物理科學(xué)領(lǐng)域

在物理學(xué)領(lǐng)域,ML憑借其自適應(yīng)配置和數(shù)據(jù)處理,特別是圖像重建與分析方面的優(yōu)勢(shì),在相應(yīng)的粒子物理學(xué)、核物理學(xué)、凝聚態(tài)物理學(xué)和宇宙物理學(xué)中都發(fā)揮著重要作用。AI正在幫助加速粒子的模擬與識(shí)別。在超級(jí)計(jì)算機(jī)上使用馬爾可夫鏈蒙特卡洛模擬方法來研究夸克間強(qiáng)相互作用力的非擾動(dòng)特性時(shí),難以避免拓?fù)鋬鼋Y(jié)和臨界減速,而DL通過提出和測(cè)試新算法克服了此類困難⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不僅如此,ML還可以縮減物理觀測(cè)數(shù)據(jù)的方差,通過區(qū)分信號(hào)和廣泛的背景事件來優(yōu)化數(shù)據(jù)信噪比和縮短生成數(shù)據(jù)的時(shí)間成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101(3):034516,pp.1-19.。核探測(cè)方面,傳統(tǒng)探測(cè)法通過脈沖信號(hào)的不同波形(脈沖信息分布)來進(jìn)行分離與識(shí)別,但只能處理單脈沖波,ML通過對(duì)波形組合的分類實(shí)現(xiàn)了多脈沖波的特征分析,甚至能夠改進(jìn)和重建算法,使探測(cè)效率高且誤差小。凝聚態(tài)物理學(xué)方面,AI模型顯示出捕捉原子間力場(chǎng)(描述原子間的相互作用)的巨大優(yōu)勢(shì),不斷推進(jìn)分子動(dòng)力學(xué)模擬方法的發(fā)展。一些AI原子間勢(shì)模型已經(jīng)被開發(fā)出來,DimeNet⑨Gasteiger J.,Gro? J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.構(gòu)建定向信息傳遞的神經(jīng)網(wǎng)絡(luò)時(shí),能夠?qū)⒃娱g的鍵長(zhǎng)、鍵角、二面角和未連接原子間的相互作用通通加入模型中,以獲得良好的精確度。宇宙物理學(xué)方面,觀測(cè)和數(shù)據(jù)分析在天文研究中起著核心作用。除了長(zhǎng)期進(jìn)行的銀河數(shù)據(jù)溯源和星系分類,如今基于CNNs的引力波信號(hào)實(shí)時(shí)檢測(cè)和解碼,已經(jīng)能夠在2毫秒內(nèi)重建所有參數(shù),而傳統(tǒng)算法需要幾天時(shí)間才能完成同樣的任務(wù)①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97(4):044039,p.20.。此外,已經(jīng)開發(fā)出基于DL的自動(dòng)智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.,不僅在操作速度上有很大的優(yōu)勢(shì),而且可以識(shí)別傳統(tǒng)軟件和視覺檢查無法檢測(cè)到的特殊形式的物體,促進(jìn)人類對(duì)宇宙的全面了解。

(三)材料科學(xué)領(lǐng)域

歷史上,新材料的發(fā)現(xiàn)和工業(yè)應(yīng)用往往需要相當(dāng)長(zhǎng)的時(shí)間。2011年,美國(guó)首次提出材料基因組計(jì)劃(Materials Genome Initiative,MGI),目標(biāo)至少兩倍速地提升了先進(jìn)材料的發(fā)現(xiàn)、開發(fā)、制造和部署的進(jìn)度。在MGI與大數(shù)據(jù)的不斷融合下,數(shù)據(jù)驅(qū)動(dòng)模型已被視為材料研究中最有前途的方法,AI技術(shù)是獲得成分-結(jié)構(gòu)-工藝-性能關(guān)系的關(guān)鍵③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54(4),pp.849-860.,甚至有望徹底改變材料科學(xué)。

眾所周知,當(dāng)前形式的化學(xué)元素周期表是在一個(gè)世紀(jì)左右的時(shí)間里被構(gòu)建出來的,而ML技術(shù)的輔助使得科學(xué)家有可能在幾個(gè)小時(shí)內(nèi)重建周期表。一個(gè)名為Atom2Vec的無監(jiān)督機(jī)器從已知化合物和材料的廣泛數(shù)據(jù)庫(kù)中自主學(xué)習(xí)原子的基本屬性,然后在神經(jīng)網(wǎng)絡(luò)中運(yùn)用它們來預(yù)測(cè)新材料的詳細(xì)特征,并具有顯著的準(zhǔn)確性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115(28),pp.6411-6417.。在新興的超材料領(lǐng)域,高分子復(fù)合材料的結(jié)構(gòu)幾何和基本成分決定了對(duì)合成設(shè)計(jì)至關(guān)重要的材料參數(shù),二者的組合變化遠(yuǎn)超出傳統(tǒng)試錯(cuò)法的能力。AI仿真模型則能高效高精度地實(shí)現(xiàn)從分子單體到鏈結(jié)構(gòu)再到大分子團(tuán)聚結(jié)構(gòu)的多尺度建模,以探索聚合物材料的構(gòu)效關(guān)系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31(4):1804680,p.1.。同時(shí),借助ML不斷產(chǎn)生的新高分子聚合物數(shù)據(jù),填補(bǔ)了目前數(shù)據(jù)缺乏的問題,最終實(shí)現(xiàn)更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64(9),p.3553.。大規(guī)模的高質(zhì)量數(shù)據(jù)集是AI技術(shù)擴(kuò)展到材料科學(xué)研究領(lǐng)域的必要設(shè)施,“atomly.net”數(shù)據(jù)庫(kù)計(jì)算了超過18萬種無機(jī)化合物的特性,在此基礎(chǔ)上建立的ML模型,實(shí)現(xiàn)了快速預(yù)測(cè)幾乎任何給定化合物的形成能量,產(chǎn)生了相當(dāng)好的預(yù)測(cè)能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年,拓?fù)洌娮雍吐曌樱┎牧蠎{借奇特的物理特性成為熱電、光學(xué)、催化和能源相關(guān)領(lǐng)域的新寵,而利用高通量方法建立的相關(guān)數(shù)據(jù)庫(kù)為加速篩選和實(shí)驗(yàn)發(fā)現(xiàn)新型拓?fù)洳牧系墓δ軕?yīng)用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2(3):100134,pp.1-3.。

(四)地球科學(xué)領(lǐng)域

地球演化史研究、氣候變化評(píng)估、災(zāi)害事件預(yù)測(cè)、自然資源計(jì)算和環(huán)境管理治理等重要地球科學(xué)問題緊密關(guān)聯(lián)著人類的生存生活與社會(huì)發(fā)展。然而,地球科學(xué)現(xiàn)象具有明顯的動(dòng)態(tài)時(shí)空結(jié)構(gòu),其變量服從非線性關(guān)系,在不同程度上表現(xiàn)出不完整性、噪聲和不確定性,使得實(shí)驗(yàn)手段難以有效觀測(cè)地球系統(tǒng)實(shí)況并探究其子系統(tǒng)之間和內(nèi)部的聯(lián)系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31(8),pp.1544-1554.。當(dāng)前,智能傳感器、圖像可視化和智能反演(intelligent inversion)等計(jì)算建模手段為解決上述難題提供了更多可能,ML算法和模式挖掘技術(shù)的整合正在幫助模擬地質(zhì)演化的極端條件、從觀測(cè)中估計(jì)地學(xué)變量并預(yù)測(cè)系統(tǒng)走勢(shì)、解析地學(xué)數(shù)據(jù)的潛在規(guī)律,以及因果發(fā)現(xiàn)與推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12(9),pp.1-20.。惰性氣體同位素測(cè)年是地球早期物質(zhì)演化史研究的重要途徑,例如,檢測(cè)氦在典型地殼巖石中的流失時(shí),主要的巖漿脫氣過程要求高溫低壓的極端反應(yīng)條件,已通過AI技術(shù)實(shí)現(xiàn)了傳統(tǒng)實(shí)驗(yàn)和計(jì)算手段均無法滿足的精度要求,并且通過仿真得到的數(shù)據(jù)與經(jīng)典分子動(dòng)力學(xué)計(jì)算結(jié)果及實(shí)驗(yàn)數(shù)據(jù)較為一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天氣預(yù)測(cè)方面,已有研究用深度生成模型取代大氣物理方程,實(shí)現(xiàn)了200萬平方公里的大氣層的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597(7878),pp.672-677.。在基于雷達(dá)的風(fēng)速估算方法來確定大致的降雨范圍上,DL繞開物理?xiàng)l件的約束對(duì)未來降雨率進(jìn)行直接預(yù)測(cè)。此外,地質(zhì)資源管理方面,自適應(yīng)智能動(dòng)態(tài)資源規(guī)劃系統(tǒng)的設(shè)計(jì)和應(yīng)用是可持續(xù)自然資源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14(20): 13384,pp.1-28.,AI技術(shù)發(fā)揮其在建模、靈活性、推理和預(yù)測(cè)資源需求量方面的顯著優(yōu)勢(shì),在優(yōu)化資源配置的同時(shí)最小化運(yùn)營(yíng)成本,助力可持續(xù)性發(fā)展。

三、科研模式轉(zhuǎn)型及其挑戰(zhàn)

圖靈獎(jiǎng)得主吉姆·格雷(Jim Gary)將近代以來的科學(xué)研究劃分為:經(jīng)驗(yàn)范式、理論范式、計(jì)算范式和作為第四范式的數(shù)據(jù)密集型范式。通過引入大數(shù)據(jù)分析,“第四范式”反映了經(jīng)由信息技術(shù)和數(shù)字化技術(shù)賦能科學(xué)研究和發(fā)展的本質(zhì),適用于各科學(xué)領(lǐng)域。作為當(dāng)下科學(xué)實(shí)踐中的一種革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13(5),pp.420-421.,盡管AI的科學(xué)解釋能力尚不足以生成嚴(yán)格庫(kù)恩意義上的顛覆性理論⑦趙云波:《AI預(yù)測(cè)可以代替科學(xué)實(shí)驗(yàn)嗎?——以Alpha Fold破解蛋白質(zhì)折疊難題為中心》,《醫(yī)學(xué)與哲學(xué)》2021年第6期,第17—21頁。,但“大數(shù)據(jù)+智能算法”模式已被集中應(yīng)用于實(shí)現(xiàn)自動(dòng)化、建模、逆向問題和發(fā)現(xiàn),引發(fā)了新一輪科技革命。在2022年首屆科學(xué)智能峰會(huì)上,有專家指出AI for Science是建基于應(yīng)用數(shù)學(xué)之上的機(jī)理和數(shù)據(jù)的融合計(jì)算,更將其稱作“科學(xué)研究的第五范式”①?gòu)垈ィ骸禔I賦能科研“第五范式”引變革》,《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》2022年8月15日,第13版。。對(duì)AI for Science新范式全景及其基礎(chǔ)的探討,仍需對(duì)更多具體研究領(lǐng)域的典型案例進(jìn)行基本原理和關(guān)鍵技術(shù)分析,但可以確認(rèn)的是,AI for Sci‐ence已然推進(jìn)了科學(xué)發(fā)現(xiàn)進(jìn)程、擴(kuò)展了科學(xué)理解途徑,并帶來了對(duì)科技倫理的挑戰(zhàn)。

(一)科學(xué)發(fā)現(xiàn)新手段

數(shù)據(jù)驅(qū)動(dòng)的科學(xué)仿真,也即AI模型,成為重要的科學(xué)發(fā)現(xiàn)手段。科學(xué)模型是一種具有重要科學(xué)意義的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104(12),pp.639-659.,而AI技術(shù)為科學(xué)研究提供了一種以數(shù)據(jù)為中心的科學(xué)仿真和預(yù)測(cè)性分析方法。在樸素科學(xué)時(shí)代,解決科學(xué)問題的關(guān)鍵在于追問能否觀測(cè)并總結(jié)規(guī)律;計(jì)算機(jī)普及后,科學(xué)活動(dòng)依賴于實(shí)現(xiàn)有效近似的多項(xiàng)式和計(jì)算機(jī)模擬。如今,科學(xué)活動(dòng)的數(shù)字化使可用數(shù)據(jù)和計(jì)算資源迅速增加,將海量非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)化為形式化的知識(shí)成為基本科學(xué)任務(wù)。在算法和算力的強(qiáng)耦合下,AI技術(shù)更頻繁地輔助研究人員創(chuàng)建現(xiàn)實(shí)世界的“數(shù)字孿生”,從混亂數(shù)據(jù)中提取洞見、開發(fā)模型或測(cè)試假設(shè)。因此,科學(xué)解謎轉(zhuǎn)型為首先尋找問題背后的可用數(shù)據(jù)和原理。參考藥物研發(fā)領(lǐng)域的進(jìn)展,AI for Science正在走向一種融合物理模型與數(shù)據(jù)的系統(tǒng)處理模式,在實(shí)測(cè)數(shù)據(jù)不足的情況下,可以利用高精度物理模型生成的仿真數(shù)據(jù)反過來優(yōu)化和糾正AI模型。對(duì)此,ML算法已經(jīng)開發(fā)出基于領(lǐng)域知識(shí)和目標(biāo)參數(shù)來模擬復(fù)雜系統(tǒng)的替代模型,例如,通過設(shè)計(jì)蛋白質(zhì)折疊轉(zhuǎn)換網(wǎng)絡(luò)塑造了單體蛋白的多種突變途徑(不改變其四元結(jié)構(gòu)而切換折疊),幫助發(fā)現(xiàn)了更全面的蛋白質(zhì)進(jìn)化機(jī)制及其變體效應(yīng)③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14(1),p.431.。以Alpha Fold 2的驚人表現(xiàn)為例,當(dāng)前生成式AI已經(jīng)能夠?qū)W習(xí)先驗(yàn)知識(shí)和科學(xué)原理,更將“知識(shí)”“數(shù)據(jù)”和“模型”有機(jī)結(jié)合起來,以推進(jìn)科學(xué)原理的進(jìn)步。從數(shù)據(jù)分析擴(kuò)展到預(yù)測(cè)性分析和規(guī)范性設(shè)計(jì),AI的前景或許不再僅僅是一種高性能工具,AI模型甚至可能成為一種新的知識(shí)形式,與人類能夠理解的知識(shí)并駕齊驅(qū),共同組成科學(xué)知識(shí)。

(二)科學(xué)理解新途徑

科學(xué)目的除了真理、解釋和預(yù)測(cè)外,也包括科學(xué)理解的重要一環(huán)④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 (5),pp.921-932.。AI在科學(xué)理解中已經(jīng)扮演了兩種角色:首先,放大數(shù)據(jù)規(guī)律的“計(jì)算顯微鏡”。例如,用AI自動(dòng)提取以視頻形式記錄的實(shí)驗(yàn)數(shù)據(jù)中的隱藏變量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2(7),pp.433-442.。其次,提供創(chuàng)新靈感的“人工繆斯”。這類啟發(fā)通常來自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4(12),pp.761-769.:專家對(duì)數(shù)據(jù)異常的識(shí)別、對(duì)ML模型的重新審視(如,通過反事實(shí)解釋打開算法“黑箱”)和對(duì)人工自主體(artificial agent)行為及其內(nèi)在獎(jiǎng)勵(lì)策略的探測(cè),AI對(duì)科學(xué)文獻(xiàn)特殊點(diǎn)的自動(dòng)抓取,以及算法提供的可解釋性解決方案(如,數(shù)學(xué)公式、圖論等)中的新概念。“學(xué)習(xí)”是這個(gè)時(shí)代AI研究的關(guān)鍵詞,ML本身是關(guān)于理解用來設(shè)計(jì)和開發(fā)算法的智能,其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35(8),pp.1798-1828.:從原始數(shù)據(jù)中學(xué)習(xí),提取知識(shí),使其普遍化,對(duì)抗維度詛咒,以及破解數(shù)據(jù)背后的解釋要素,以達(dá)到在時(shí)間推移中優(yōu)化自身學(xué)習(xí)行為的目的。AI先驅(qū)唐納德·米奇(Donald Michie)曾將機(jī)器學(xué)習(xí)分類為弱機(jī)器學(xué)習(xí)、強(qiáng)機(jī)器學(xué)習(xí)和超機(jī)器學(xué)習(xí)。最后一類不再是輔助性角色,而是作為“理解主體”直接獲得新的科學(xué)見解,并傳授給人類專家。二十世紀(jì)八九十年代,科學(xué)知識(shí)社會(huì)學(xué)家和認(rèn)知科學(xué)哲學(xué)家就對(duì)“AI能否替代科學(xué)家獨(dú)立完成科學(xué)發(fā)現(xiàn)”問題展開過激烈論戰(zhàn)①曾點(diǎn):《人工智能能替代科學(xué)家嗎?——再思STS的一場(chǎng)論戰(zhàn)》,《哲學(xué)分析》2023年第1期,第159—171頁。。現(xiàn)在,AI工具正在演化出能夠自主學(xué)習(xí)的“AI科學(xué)家”。例如,AI-笛卡爾(AI-Descartes)已然實(shí)現(xiàn)了開普勒行星運(yùn)動(dòng)第三定律的再發(fā)現(xiàn)②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14(1):1777,pp.1-10.,通過利用符號(hào)回歸和邏輯推理尋找方程擬合數(shù)據(jù),該系統(tǒng)得以確定哪些方程最符合背景科學(xué)理論,未來甚至可能自己構(gòu)建背景理論。然而,哲學(xué)家們質(zhì)疑先進(jìn)的計(jì)算方法和理想化模型是否在根本層面上幫助人們獲得新的科學(xué)理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此類爭(zhēng)議的一個(gè)潛在解決方案是開發(fā)可解釋AI(ex‐plainable AI,XAI)④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,也即解釋學(xué)習(xí)算法的內(nèi)在邏輯、由學(xué)習(xí)算法產(chǎn)生的模型或基于知識(shí)的推理方法的發(fā)展。此外,也有研究建議對(duì)人類決策的結(jié)構(gòu)因果模型進(jìn)行形式化處理,并將這些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9(4):e1312,p.10.。

(三)科技倫理新挑戰(zhàn)

盡管AI for Science表現(xiàn)出蓬勃生機(jī),但AI生成內(nèi)容(AI generated content)受到ML模型“黑箱”屬性的干擾仍然表現(xiàn)出半客觀性,在數(shù)據(jù)隱私性和決策嚴(yán)謹(jǐn)性方面存在隱患⑥鄧莎莎、李鎮(zhèn)宇、潘煜:《ChatGPT和AI生成內(nèi)容:科學(xué)研究應(yīng)該采用還是抵制》,《上海管理科學(xué)》2023年第2期,第15—20頁。,因而招致科技應(yīng)用在倫理、公平和信任方面的持續(xù)爭(zhēng)議。相關(guān)熱點(diǎn)議題包括但不限于:如何確保AI系統(tǒng)的設(shè)計(jì)和使用方式的道德和社會(huì)責(zé)任,并尊重基本的人權(quán)和價(jià)值觀⑦M(jìn)uller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54(07),pp.119-123.?如何確保AI系統(tǒng)是公平的,不會(huì)延續(xù)或放大現(xiàn)有的偏見或歧視⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4(2),pp.556-579.?如何確保AI系統(tǒng)的透明性和可解釋性,以建立用戶和利益相關(guān)者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 (112),pp.42-43.?以及,面對(duì)上述倫理和社會(huì)影響,應(yīng)如何制定和實(shí)施有效的政策、法規(guī)和治理框架,并促進(jìn)各方利益相關(guān)者間的對(duì)話和合作?目前學(xué)界普遍認(rèn)為,確保研究對(duì)象在科研鏈上各環(huán)節(jié)的詳細(xì)記錄的可溯性和可驗(yàn)證性是提高AI模型可信度的重要思路之一。基于該路徑搭建的溯源模型(provenance model)能夠以機(jī)器可讀的方式留存研究歷史檔案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9(1),p.503.,在分布式多機(jī)構(gòu)協(xié)作背景下實(shí)現(xiàn)了對(duì)數(shù)據(jù)質(zhì)量的程序化評(píng)估。另外,魯棒性和可解釋性是提升可靠性和確保AI系統(tǒng)時(shí)刻受控的重要因素。魯棒性的一個(gè)可能強(qiáng)化方法是將統(tǒng)計(jì)學(xué)習(xí)與知識(shí)表示相結(jié)合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,可解釋性則使人們得以理解和評(píng)估AI系統(tǒng)的決策過程,確保AI解決方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。醫(yī)藥等敏感領(lǐng)域已對(duì)可解釋性提出強(qiáng)制性要求,例如,歐洲體外診斷法規(guī)(IVDR)已有明確條例對(duì)軟件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.,針對(duì)遺傳資源獲取和共享的《名古屋議定書》(Nagoya Protocol)強(qiáng)調(diào)了數(shù)據(jù)的透明度、可追蹤性和可解讀性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8(2),p.92.。在具體策略上,還可以考慮對(duì)AI模型的結(jié)構(gòu)和訓(xùn)練過程提供清晰的文件和說明,使用可解讀的(interpretable)模型或技術(shù)⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,以及將模型的輸出和決策過程可視化等。

四、AI for Science的困境與機(jī)遇

大數(shù)據(jù)時(shí)代,利用多源異構(gòu)的科學(xué)數(shù)據(jù)來推進(jìn)知識(shí)前沿的追求激發(fā)了AI技術(shù)與科學(xué)研究的深度融合,但數(shù)據(jù)、知識(shí)、模型、算法、算力共同建構(gòu)的AI for Science僅被挖出冰山一角,前路仍遠(yuǎn)。一方面,作為新興技術(shù),ML盡管取得迅猛進(jìn)步,但算法難以解釋因果關(guān)系,相應(yīng)模型敏感于微小的輸入差異以至產(chǎn)生大幅輸出變化,且部分研究領(lǐng)域仍存在低質(zhì)量數(shù)據(jù)。要提高AI在科學(xué)研究中的可信度和可控性,尚需提高AI模型的魯棒性,并在保持準(zhǔn)確率的前提下,降低ML模型對(duì)計(jì)算資源的依賴。從可解釋性方面來看,作為科學(xué)理解的要素,前文提及的XAI盡管被視為有前景的技術(shù)出口,但“解釋”的定義和涵蓋解釋各種屬性和維度的結(jié)構(gòu)化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.,一些ML主導(dǎo)的閉環(huán)研究仍有賴于人類專家的領(lǐng)域知識(shí)進(jìn)行概念性理解和決策。

AI for Science已成為全球新前沿,AI協(xié)助的科技創(chuàng)新發(fā)展對(duì)國(guó)家經(jīng)濟(jì)實(shí)力和國(guó)際競(jìng)爭(zhēng)力具有重大意義。以新材料研發(fā)為例,對(duì)材料的利用能力是人類生產(chǎn)力和生產(chǎn)方式的標(biāo)志性體現(xiàn),材料作為“工業(yè)骨骼”為各行業(yè)的技術(shù)進(jìn)步起到基礎(chǔ)性和先導(dǎo)性作用。2014年美國(guó)將“材料基因組計(jì)劃”提升為國(guó)家戰(zhàn)略,配套建設(shè)了45個(gè)材料基因組創(chuàng)新平臺(tái),每個(gè)平臺(tái)政府投資0.7~1.2億美元,建設(shè)周期5~7年①宿彥京、付華棟、白洋、姜雪、謝建新:《中國(guó)材料基因工程研究進(jìn)展》,《金屬學(xué)報(bào)》2020 年第10 期,第1313—1323頁。。包括我國(guó)在內(nèi)的多個(gè)國(guó)家也迅速啟動(dòng)類似的研究計(jì)劃,爭(zhēng)取在新一輪材料革命中占得先機(jī)。事實(shí)上,針對(duì)我國(guó)高科技人才短缺和AI生態(tài)系統(tǒng)不成熟的問題,國(guó)內(nèi)已擁有良好的AI技術(shù)基礎(chǔ)和全球最龐大的人口市場(chǎng),突破口在于針對(duì)未來發(fā)展趨勢(shì)展開前瞻性規(guī)劃和相應(yīng)的基礎(chǔ)研究②陸成寬:《中國(guó)科學(xué)院院士楊金龍:讓AI for Science更好服務(wù)國(guó)家戰(zhàn)略需求》,《科技日?qǐng)?bào)》2023年5月22日,第5版。。近期,為落實(shí)國(guó)家《新一代人工智能發(fā)展規(guī)劃》,科技部會(huì)同自然科學(xué)基金委啟動(dòng)了“人工智能驅(qū)動(dòng)的科學(xué)研究”專項(xiàng)部署工作,點(diǎn)名藥物研發(fā)、基因研究、生物育種、新材料研發(fā)等重點(diǎn)領(lǐng)域的科技研發(fā)體系布局。可見,我國(guó)AI for Science發(fā)展的當(dāng)務(wù)之急在于為重大科學(xué)問題研究建設(shè)專用平臺(tái),鼓勵(lì)建設(shè)計(jì)算與智算融合的科研生態(tài)體系和更多的開放科學(xué)數(shù)據(jù)。從文章第二部分的案例中發(fā)現(xiàn),AI方法在科學(xué)領(lǐng)域內(nèi)的發(fā)展和普及通常是由一個(gè)既定科學(xué)問題推動(dòng)的,而成功的最佳途徑是AI技術(shù)員在各個(gè)科研環(huán)節(jié)與科學(xué)家緊密合作。因此,跨領(lǐng)域融合的科研組織模式與跨學(xué)科重構(gòu)的綜合人才培養(yǎng)是拉動(dòng)創(chuàng)新平臺(tái)建設(shè)與專項(xiàng)研究的重要基礎(chǔ),也是推進(jìn)資源整合和政策合力的重要一環(huán)。首先,需要鼓勵(lì)科研人員積極接納和學(xué)習(xí)AI工具和手段,在國(guó)家戰(zhàn)略性需求領(lǐng)域的科學(xué)難題上實(shí)現(xiàn)技術(shù)突破,推進(jìn)我國(guó)在基礎(chǔ)科研的國(guó)際競(jìng)爭(zhēng)中的主動(dòng)地位。其次,除了實(shí)現(xiàn)AI技術(shù)創(chuàng)新的人工智能人才,更需要高校建立跨學(xué)科的人才培養(yǎng)體系,通過設(shè)置交叉學(xué)科來培養(yǎng)能夠快速適應(yīng)智能手段,甚至快速將技術(shù)創(chuàng)新轉(zhuǎn)化為實(shí)用科研設(shè)計(jì)的高層次人才。最后,要建設(shè)開放創(chuàng)新的專項(xiàng)智研平臺(tái)與公共大數(shù)據(jù)平臺(tái),并制定配套的AI治理原則、數(shù)據(jù)安全規(guī)范和跨學(xué)科交叉研究政策。只有實(shí)現(xiàn)“項(xiàng)目、平臺(tái)、人才”三方合力的可持續(xù)發(fā)展聯(lián)合體,才能全面提升我國(guó)AI驅(qū)動(dòng)的科學(xué)研究自主能力與范式變革。

五、結(jié) 語

加快新一代AI的發(fā)展是我國(guó)的一項(xiàng)關(guān)鍵戰(zhàn)略,旨在促進(jìn)科技發(fā)展,升級(jí)各工業(yè)領(lǐng)域,并提高整體生產(chǎn)力。最大限度地發(fā)揮AI在基礎(chǔ)科研領(lǐng)域的潛力,要求更健康的科研體系布局與多方協(xié)作,實(shí)現(xiàn)研究機(jī)構(gòu)、投資者、企業(yè)和市場(chǎng)之間的合作和知識(shí)轉(zhuǎn)移。可以設(shè)想,在“AI+物理模型+高性能計(jì)算+自動(dòng)化實(shí)驗(yàn)”的基礎(chǔ)上,以“搜索”為核心的精準(zhǔn)仿真建模和重新設(shè)計(jì)(de novo de‐sign)有望真正實(shí)現(xiàn)“以終為始”——從需求出發(fā)升級(jí)工業(yè)設(shè)計(jì)和智能制造,重塑相關(guān)行業(yè)的技術(shù)標(biāo)準(zhǔn)和商業(yè)模式,最終推動(dòng)我國(guó)的制造業(yè)轉(zhuǎn)型和實(shí)體經(jīng)濟(jì)發(fā)展。因此,為更好地利用AI for Sci‐ence帶來的科研范式革命的機(jī)遇,我們應(yīng)當(dāng)鼓勵(lì)科學(xué)工作者積極擁抱AI for Science,加快AI for Science的科學(xué)研究平臺(tái)建設(shè),挖掘AI for Science在各類科學(xué)研究中的潛力,使AI for Science在科學(xué)研究中最大限度地發(fā)揮作用,更好地服務(wù)國(guó)家戰(zhàn)略需求,以增強(qiáng)我國(guó)的科學(xué)研究實(shí)力,確保這一領(lǐng)域在國(guó)際競(jìng)爭(zhēng)中處于世界前列。

猜你喜歡
科學(xué)模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
點(diǎn)擊科學(xué)
點(diǎn)擊科學(xué)
科學(xué)大爆炸
3D打印中的模型分割與打包
科學(xué)
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
科學(xué)拔牙
主站蜘蛛池模板: 久久久久亚洲精品无码网站| 欧美精品不卡| 777国产精品永久免费观看| 伊人天堂网| 亚洲欧美日本国产综合在线| 99久久这里只精品麻豆| 成人av手机在线观看| 亚洲IV视频免费在线光看| 真实国产乱子伦视频| 国产美女在线免费观看| 亚洲性一区| 国产极品美女在线观看| 午夜不卡福利| a级毛片免费网站| 亚洲午夜国产精品无卡| 中文字幕天无码久久精品视频免费 | 国产微拍一区| 天堂网亚洲综合在线| 在线视频精品一区| 亚洲女人在线| 欧美亚洲欧美区| 亚洲av无码久久无遮挡| 国产av剧情无码精品色午夜| 亚洲精品亚洲人成在线| 日韩黄色大片免费看| 亚洲无码电影| 天天综合色网| 亚洲综合二区| 美女毛片在线| 亚洲综合二区| 蜜芽一区二区国产精品| 九九香蕉视频| 久久精品欧美一区二区| 性视频一区| 毛片一区二区在线看| 久久精品66| 91精品国产91久久久久久三级| 亚洲综合激情另类专区| 亚洲资源站av无码网址| 欧美啪啪一区| 在线国产91| 四虎永久免费网站| 四虎成人免费毛片| 欧美啪啪一区| 欧美成人日韩| 国产99视频精品免费观看9e| 第一区免费在线观看| 国产精品无码AⅤ在线观看播放| 九九久久99精品| 毛片免费高清免费| 国产欧美日韩资源在线观看| 最新国产精品鲁鲁免费视频| 亚洲精品不卡午夜精品| 亚洲国产综合自在线另类| 超清无码一区二区三区| 亚洲AV免费一区二区三区| 国产区免费| 在线一级毛片| 国产美女主播一级成人毛片| 色综合成人| 婷婷色一二三区波多野衣| 青青草91视频| 天天综合网色| 四虎精品黑人视频| 91免费国产在线观看尤物| 亚洲国产欧美目韩成人综合| 98精品全国免费观看视频| a欧美在线| 综合亚洲色图| 幺女国产一级毛片| 激情网址在线观看| 亚洲视频免| 欧美成人看片一区二区三区| 青青久在线视频免费观看| 98超碰在线观看| 韩国v欧美v亚洲v日本v| 狠狠久久综合伊人不卡| 国产精品久久自在自线观看| 欧美中文字幕在线视频| 亚洲aaa视频| 夜夜操天天摸| 91无码网站|