何水兵：人工智能驅(qū)動科研范式變革

2025-08-14 00:00:00

信息化建設(shè) 2025年4期

從假設(shè)生成、數(shù)據(jù)挖掘，到實(shí)驗(yàn)?zāi)M和知識提取，AI正在每個環(huán)節(jié)釋放潛力，不僅能夠加速科學(xué)發(fā)現(xiàn)，還拓展了人類對復(fù)雜問題的認(rèn)知廣度和深度

AI按下科研范式變革“加速鍵”

今年諾貝爾物理獎頒發(fā)給神經(jīng)網(wǎng)絡(luò)之父Hinton、化學(xué)獎頒發(fā)給AlphaFold系列模型和RoseTTAFold系列模型開發(fā)者，而不是像以往一樣頒發(fā)給有重大發(fā)現(xiàn)的科學(xué)家。這一標(biāo)志性事件將AI推到科學(xué)舞臺的中央，按下科研范式變革的加速鍵，使全球認(rèn)識到人工智能對于科學(xué)的巨大價(jià)值，更預(yù)示著未來科學(xué)研究活動將更加側(cè)重于人工智能與科學(xué)數(shù)據(jù)融合。

今年春節(jié)期間DeepSeek橫空出世開啟了AI for Science的新階段。《Nature》《Science》連載6篇文章專題報(bào)道DeepSeek，強(qiáng)調(diào)其對于開啟各領(lǐng)域普遍智能的重大意義；同時(shí)，DeepSeek陸續(xù)發(fā)布MoE注意力機(jī)制等核心開源項(xiàng)目，推動科學(xué)界從傳統(tǒng)封閉競爭到開放共創(chuàng)轉(zhuǎn)變。DeepSeek具有的低成本、高性能、開源開放特性，為全球科學(xué)家開發(fā)科學(xué)模型、降低科研成本、推動AI普惠化提供支撐。

以DeepSeek等生成式大模型為代表的AI技術(shù)，憑借其高維復(fù)雜數(shù)據(jù)處理能力和深度推理優(yōu)勢，已融入科學(xué)研究與發(fā)現(xiàn)的各個階段。在假設(shè)生成與選擇階段，AI可從海量數(shù)據(jù)中快速提煉規(guī)律并生成可驗(yàn)證假設(shè)，如谷歌AI co-scientist獨(dú)立提出科學(xué)假設(shè)，加速科學(xué)發(fā)現(xiàn)。在數(shù)據(jù)處理與表征階段，AI能夠促進(jìn)科學(xué)數(shù)據(jù)高效處理和表征，挖掘深層價(jià)值，DeepSeek開源的輕量級數(shù)據(jù)處理工具Smallpond可實(shí)現(xiàn)PB級數(shù)據(jù)清洗與管理，同時(shí)避免高昂成本。在實(shí)驗(yàn)?zāi)M與預(yù)測階段，AI在模擬、優(yōu)化實(shí)驗(yàn)，提升資源利用效率方面表現(xiàn)突出，如DeepMind的AlphaMissense模型能夠分析7100萬種基因變異，指導(dǎo)優(yōu)化現(xiàn)實(shí)實(shí)驗(yàn)，助力疾病研究。最后，AI還能高效提取、整合跨學(xué)科知識，提升科研效率。之江實(shí)驗(yàn)室研發(fā)的GeoGPT可自動解析百萬篇地球科學(xué)論文，并構(gòu)建跨學(xué)科知識圖譜。從假設(shè)生成、數(shù)據(jù)挖掘，到實(shí)驗(yàn)?zāi)M和知識提取，AI正在每個環(huán)節(jié)釋放潛力，不僅能夠加速科學(xué)發(fā)現(xiàn)，還拓展了人類對復(fù)雜問題的認(rèn)知廣度和深度。

AI for Science之江探索

之江實(shí)驗(yàn)室聚焦“智能計(jì)算”一件事，致力于在算力、數(shù)據(jù)、模型上形成體系化創(chuàng)新。其中，“021”（這個名字的意思是從無到有）科學(xué)基礎(chǔ)模型是實(shí)驗(yàn)室今年的首位聯(lián)合攻關(guān)任務(wù)，并在021的基礎(chǔ)上持續(xù)迭代GeoGPT、AstroOne等科學(xué)領(lǐng)域模型，最終為模型研發(fā)、科學(xué)家工作空間和科學(xué)智能體的應(yīng)用提供技術(shù)支撐。

具體來看，之江研發(fā)的021科學(xué)基礎(chǔ)模型，其訓(xùn)練語料全面覆蓋Science-Metrix分類體系174個細(xì)分領(lǐng)域，通過MoE和推理能力訓(xùn)練，構(gòu)建一個萬億參數(shù)規(guī)模、具備科學(xué)知識和推理能力的“文理兼修”模型。該模型支持高可靠科學(xué)假設(shè)生成、強(qiáng)邏輯嚴(yán)謹(jǐn)推理科學(xué)分析、多模態(tài)多尺度科學(xué)規(guī)律揭示，同時(shí)將構(gòu)建科學(xué)基礎(chǔ)模型評價(jià)體系，服務(wù)全球科學(xué)家使用，推動科學(xué)研究范式變革，加速重大科研成果產(chǎn)出。

以基礎(chǔ)模型為底座，之江實(shí)驗(yàn)室不斷迭代開發(fā)科學(xué)領(lǐng)域模型。在地球科學(xué)領(lǐng)域，數(shù)據(jù)與成果共享難、知識體系構(gòu)建與更新難、分析工具與技術(shù)滯后等難題制約著地球科學(xué)發(fā)展，亟需形成新的科研范式、研發(fā)新的工具，來高效智能整合分析海量數(shù)據(jù)，支撐跨學(xué)科知識融合，服務(wù)重大地球科學(xué)發(fā)現(xiàn)。在此背景下，GeoGPT應(yīng)運(yùn)而生，GeoGPT是為地球科學(xué)家量身定制的科研助手，能夠?qū)崿F(xiàn)地學(xué)領(lǐng)域的專業(yè)問答、文獻(xiàn)解析、數(shù)據(jù)抽取和邏輯推理等功能，并支撐形成服務(wù)地學(xué)研究的多種智能體和工具。

截至目前，GeoGPT已經(jīng)在多個場景實(shí)現(xiàn)應(yīng)用。包括與DDE創(chuàng)始主席Mike Stephenson教授合作研發(fā)古生物分類鍵工具，更精細(xì)全面地構(gòu)建古生物分類體系，探究古生態(tài)環(huán)境演變、生物進(jìn)化歷程以及古生物間的親緣關(guān)系；與劉合院士合作構(gòu)建“油氣大腦”，研發(fā)頁巖油模型，實(shí)現(xiàn)頁巖油富集區(qū)的識別預(yù)測、水力壓裂及新技術(shù)出油方法的推理決策；與中國地質(zhì)科學(xué)院地質(zhì)研究所合作構(gòu)建GeoReferencing等智能化工具，通過可視化方式提供地質(zhì)圖的數(shù)字化和要素信息提取能力，提升成礦有利區(qū)帶預(yù)測準(zhǔn)確率；與中國地質(zhì)調(diào)查局合作構(gòu)建地質(zhì)圖文生圖工具Agent MapGenerator，通過利用GIS繪圖軟件和GeoGPT以簡化現(xiàn)有制圖過程，提升地質(zhì)圖生成質(zhì)效。之江實(shí)驗(yàn)室在上述場景的探索均取得了較好進(jìn)展，GeoGPT對地學(xué)領(lǐng)域科研的賦能成效獲得了多方認(rèn)可，并在歐洲地球科學(xué)學(xué)術(shù)會議、國際地質(zhì)大會等地學(xué)領(lǐng)域知名學(xué)術(shù)會議上得到積極評價(jià)。

在天文領(lǐng)域，之江實(shí)驗(yàn)室聯(lián)合中科院國家天文臺共同打造AstroOne模型，致力于解決太陽耀斑預(yù)測、銀河系起源演化等科學(xué)問題，具備700億參數(shù)規(guī)模，通過天文學(xué)評測數(shù)據(jù)集測試，AstroOne是當(dāng)前天文知識能力最強(qiáng)的大語言模型，為促進(jìn)學(xué)科交叉、加速天文發(fā)現(xiàn)做出重要貢獻(xiàn)。

最后，可以從以下三個角度來看AI在科學(xué)研究方面作出的貢獻(xiàn)：一是科學(xué)視角，當(dāng)必要的AI基礎(chǔ)設(shè)施到位，科學(xué)家研究能力將得到極大擴(kuò)展，使得新的科學(xué)“登月計(jì)劃”成為可能；二是生產(chǎn)視角，AI將全面提升科技創(chuàng)新效率，科研將轉(zhuǎn)變?yōu)榇笠?guī)模有組織的方式，并將深刻重塑生產(chǎn)關(guān)系；三是場景視角，AI將推動傳統(tǒng)模型由文科模型逐步變得更加智能、理性、擁有更強(qiáng)的邏輯推理能力，從而逐步向理科模型轉(zhuǎn)換，這意味著AI將顛覆千行百業(yè)。

（本文根據(jù)之江實(shí)驗(yàn)室副主任何水兵在“AI進(jìn)化論——如何推動DeepSeek賦能千行百業(yè)”圓桌會上現(xiàn)場發(fā)言整理摘編。）