從假設(shè)生成、數(shù)據(jù)挖掘,到實(shí)驗(yàn)?zāi)M和知識提取,AI正在每個環(huán)節(jié)釋放潛力,不僅能夠加速科學(xué)發(fā)現(xiàn),還拓展了人類對復(fù)雜問題的認(rèn)知廣度和深度
AI按下科研范式變革“加速鍵”
今年諾貝爾物理獎頒發(fā)給神經(jīng)網(wǎng)絡(luò)之父Hinton、化學(xué)獎頒發(fā)給AlphaFold系列模型和RoseTTAFold系列模型開發(fā)者,而不是像以往一樣頒發(fā)給有重大發(fā)現(xiàn)的科學(xué)家。這一標(biāo)志性事件將AI推到科學(xué)舞臺的中央,按下科研范式變革的加速鍵,使全球認(rèn)識到人工智能對于科學(xué)的巨大價(jià)值,更預(yù)示著未來科學(xué)研究活動將更加側(cè)重于人工智能與科學(xué)數(shù)據(jù)融合。
今年春節(jié)期間DeepSeek橫空出世開啟了AI for Science的新階段。《Nature》《Science》連載6篇文章專題報(bào)道DeepSeek,強(qiáng)調(diào)其對于開啟各領(lǐng)域普遍智能的重大意義;同時(shí),DeepSeek陸續(xù)發(fā)布MoE注意力機(jī)制等核心開源項(xiàng)目,推動科學(xué)界從傳統(tǒng)封閉競爭到開放共創(chuàng)轉(zhuǎn)變。DeepSeek具有的低成本、高性能、開源開放特性,為全球科學(xué)家開發(fā)科學(xué)模型、降低科研成本、推動AI普惠化提供支撐。
以DeepSeek等生成式大模型為代表的AI技術(shù),憑借其高維復(fù)雜數(shù)據(jù)處理能力和深度推理優(yōu)勢,已融入科學(xué)研究與發(fā)現(xiàn)的各個階段。在假設(shè)生成與選擇階段,AI可從海量數(shù)據(jù)中快速提煉規(guī)律并生成可驗(yàn)證假設(shè),如谷歌AI co-scientist獨(dú)立提出科學(xué)假設(shè),加速科學(xué)發(fā)現(xiàn)。在數(shù)據(jù)處理與表征階段,AI能夠促進(jìn)科學(xué)數(shù)據(jù)高效處理和表征,挖掘深層價(jià)值,DeepSeek開源的輕量級數(shù)據(jù)處理工具Smallpond可實(shí)現(xiàn)PB級數(shù)據(jù)清洗與管理,同時(shí)避免高昂成本。在實(shí)驗(yàn)?zāi)M與預(yù)測階段,AI在模擬、優(yōu)化實(shí)驗(yàn),提升資源利用效率方面表現(xiàn)突出,如DeepMind的AlphaMissense模型能夠分析7100萬種基因變異,指導(dǎo)優(yōu)化現(xiàn)實(shí)實(shí)驗(yàn),助力疾病研究。最后,AI還能高效提取、整合跨學(xué)科知識,提升科研效率。之江實(shí)驗(yàn)室研發(fā)的GeoGPT可自動解析百萬篇地球科學(xué)論文,并構(gòu)建跨學(xué)科知識圖譜。從假設(shè)生成、數(shù)據(jù)挖掘,到實(shí)驗(yàn)?zāi)M和知識提取,AI正在每個環(huán)節(jié)釋放潛力,不僅能夠加速科學(xué)發(fā)現(xiàn),還拓展了人類對復(fù)雜問題的認(rèn)知廣度和深度。
AI for Science之江探索
之江實(shí)驗(yàn)室聚焦“智能計(jì)算”一件事,致力于在算力、數(shù)據(jù)、模型上形成體系化創(chuàng)新。其中,“021”(這個名字的意思是從無到有)科學(xué)基礎(chǔ)模型是實(shí)驗(yàn)室今年的首位聯(lián)合攻關(guān)任務(wù),并在021的基礎(chǔ)上持續(xù)迭代GeoGPT、AstroOne等科學(xué)領(lǐng)域模型,最終為模型研發(fā)、科學(xué)家工作空間和科學(xué)智能體的應(yīng)用提供技術(shù)支撐。
具體來看,之江研發(fā)的021科學(xué)基礎(chǔ)模型,其訓(xùn)練語料全面覆蓋Science-Metrix分類體系174個細(xì)分領(lǐng)域,通過MoE和推理能力訓(xùn)練,構(gòu)建一個萬億參數(shù)規(guī)模、具備科學(xué)知識和推理能力的“文理兼修”模型。該模型支持高可靠科學(xué)假設(shè)生成、強(qiáng)邏輯嚴(yán)謹(jǐn)推理科學(xué)分析、多模態(tài)多尺度科學(xué)規(guī)律揭示,同時(shí)將構(gòu)建科學(xué)基礎(chǔ)模型評價(jià)體系,服務(wù)全球科學(xué)家使用,推動科學(xué)研究范式變革,加速重大科研成果產(chǎn)出。
以基礎(chǔ)模型為底座,之江實(shí)驗(yàn)室不斷迭代開發(fā)科學(xué)領(lǐng)域模型。在地球科學(xué)領(lǐng)域,數(shù)據(jù)與成果共享難、知識體系構(gòu)建與更新難、分析工具與技術(shù)滯后等難題制約著地球科學(xué)發(fā)展,亟需形成新的科研范式、研發(fā)新的工具,來高效智能整合分析海量數(shù)據(jù),支撐跨學(xué)科知識融合,服務(wù)重大地球科學(xué)發(fā)現(xiàn)。在此背景下,GeoGPT應(yīng)運(yùn)而生,GeoGPT是為地球科學(xué)家量身定制的科研助手,能夠?qū)崿F(xiàn)地學(xué)領(lǐng)域的專業(yè)問答、文獻(xiàn)解析、數(shù)據(jù)抽取和邏輯推理等功能,并支撐形成服務(wù)地學(xué)研究的多種智能體和工具。
截至目前,GeoGPT已經(jīng)在多個場景實(shí)現(xiàn)應(yīng)用。包括與DDE創(chuàng)始主席Mike Stephenson教授合作研發(fā)古生物分類鍵工具,更精細(xì)全面地構(gòu)建古生物分類體系,探究古生態(tài)環(huán)境演變、生物進(jìn)化歷程以及古生物間的親緣關(guān)系;與劉合院士合作構(gòu)建“油氣大腦”,研發(fā)頁巖油模型,實(shí)現(xiàn)頁巖油富集區(qū)的識別預(yù)測、水力壓裂及新技術(shù)出油方法的推理決策;與中國地質(zhì)科學(xué)院地質(zhì)研究所合作構(gòu)建GeoReferencing等智能化工具,通過可視化方式提供地質(zhì)圖的數(shù)字化和要素信息提取能力,提升成礦有利區(qū)帶預(yù)測準(zhǔn)確率;與中國地質(zhì)調(diào)查局合作構(gòu)建地質(zhì)圖文生圖工具Agent MapGenerator,通過利用GIS繪圖軟件和GeoGPT以簡化現(xiàn)有制圖過程,提升地質(zhì)圖生成質(zhì)效。之江實(shí)驗(yàn)室在上述場景的探索均取得了較好進(jìn)展,GeoGPT對地學(xué)領(lǐng)域科研的賦能成效獲得了多方認(rèn)可,并在歐洲地球科學(xué)學(xué)術(shù)會議、國際地質(zhì)大會等地學(xué)領(lǐng)域知名學(xué)術(shù)會議上得到積極評價(jià)。
在天文領(lǐng)域,之江實(shí)驗(yàn)室聯(lián)合中科院國家天文臺共同打造AstroOne模型,致力于解決太陽耀斑預(yù)測、銀河系起源演化等科學(xué)問題,具備700億參數(shù)規(guī)模,通過天文學(xué)評測數(shù)據(jù)集測試,AstroOne是當(dāng)前天文知識能力最強(qiáng)的大語言模型,為促進(jìn)學(xué)科交叉、加速天文發(fā)現(xiàn)做出重要貢獻(xiàn)。
最后,可以從以下三個角度來看AI在科學(xué)研究方面作出的貢獻(xiàn):一是科學(xué)視角,當(dāng)必要的AI基礎(chǔ)設(shè)施到位,科學(xué)家研究能力將得到極大擴(kuò)展,使得新的科學(xué)“登月計(jì)劃”成為可能;二是生產(chǎn)視角,AI將全面提升科技創(chuàng)新效率,科研將轉(zhuǎn)變?yōu)榇笠?guī)模有組織的方式,并將深刻重塑生產(chǎn)關(guān)系;三是場景視角,AI將推動傳統(tǒng)模型由文科模型逐步變得更加智能、理性、擁有更強(qiáng)的邏輯推理能力,從而逐步向理科模型轉(zhuǎn)換,這意味著AI將顛覆千行百業(yè)。
(本文根據(jù)之江實(shí)驗(yàn)室副主任何水兵在“AI進(jìn)化論——如何推動DeepSeek賦能千行百業(yè)”圓桌會上現(xiàn)場發(fā)言整理摘編。)