張漫子

中國(杭州)數字. 健康小鎮成果轉化區,嘉賓在了解染色體人工智能診斷系統(黃宗治/ 攝)
人類社會智能化革命正以不可阻擋之勢拉開序幕。
在人工智能的催化下,科技轉化為生產力的速度越來越快,滲透到生產生活的方方面面。但就目前嵌入人們日常的產業落地而言,絕大多數貢獻還只是“跬步”,遠談不上“顛覆”。
當肩負原始創新使命的科學突破成為新的支點,人工智能有了更為宏大的愿景——將科學發現推上新臺階。
自文藝復興以來,科學發現大致是沿兩條路徑展開的:一種是基于第一性原理、對物理世界基本理論的探索;另一種則是以數據為驅動、面向應用基本規律的歸納。
第一條路徑早已瀕臨瓶頸——20世紀初,量子力學建立。至此,除極端尺度的特殊情形(核物理與高能物理)外,基本原理的空白已被填滿。這意味著大多數工程與自然科學問題都能在理論上找到大致的物理模型進行求解。
2021 年,在開源AlphaFold2 僅一周,98.5% 的人類蛋白質結構即被AlphaFold2 預測出來,做成數據集并全部免費開放。這一爆炸新聞引爆了科研圈。此前,全球科學家耗時數十年努力,也只給出覆蓋人類蛋白質序列中17% 的氨基酸殘基,而且大多是易被破解的結構。
但當科學家想用定理來解決真實場景的實際問題時,卻發現力不從心。將物理模型置于復雜場景需要面對太多變量:多一個變量,計算量都會大大增加。
第二條路徑也不是坦途。小規模數據只能進行粗粒度的模擬與預測,但凡有高一點的精度需求,就要依賴更大規模的數據支撐。隨著數據量的增加,傳統數據處理方式同樣面臨顯著激增的計算代價和有效的數據分析方法。更何況,數據匱乏是常態。
因此,不管是模型驅動,還是數據驅動,這兩種傳統方法都指向一個精度與速度難以兩全的共同困境:維數災難——即當空間維度增加時,分析和組織高維空間將因體積指數增加而遇到各種更加復雜的問題場景。
“在低維情形下,一般的函數可以用分片多項式、傅利葉級數、小波這樣的傳統方式來表達。但在高維情形下,它們就不再是有效的工具?!敝袊茖W院院士、北京大學國際機器學習研究中心主任鄂維南說。
維數災難帶來的一個結果是計算量的指數級增加,另一個結果則是,高維空間的數據稀疏,會使算法的偏差顯著擴大——這就是為什么當人們考慮更高維空間的問題時,即使是科學家的幾何直覺也會嚴重失效。
很多年來,維數災難一直是籠罩在各國科學家頭頂上的“烏云”:可以想象,1928年狄拉克盯著薛定諤方程,試圖建立一個具有兩種可能自旋狀態的電子模型,他對第一性原理了然于胸卻不得不面對數學能力瓶頸的無奈;1957年的貝爾曼寫下控制論方程,為最優控制提出基本原理與方法,卻因變量太多不知如何有效求解;1964年,哈特馬尼與斯特恩斯在面對計算機“原則上可計算、實際上難計算”的一大類問題時,探索“計算復雜性理論”的緊迫感。
回溯近百年的科學史,一些聰慧且幸運的研究者,他們已經找到一把打開科學大門的鑰匙。然而遺憾的是,鎖舌已開,他們卻沒有“力氣”推開這扇門。
這個“力氣”,就是人類處理多尺度問題(多變量函數)的能力。這一局限,制約了科學發現的深度、精度和速度。
鄂維南列舉了科學家在研究過程中面臨的數種實際痛點:一是盡洪荒之力研究出來的基本原理,嚴謹、深刻卻難以致用;二是實驗手段以及收集、處理、分析數據的效率太低;三是搞科研還像“小農經濟”,從頭到尾都 “一人挑”,科研效率低下且進展緩慢;四是面對復雜的生物制藥、材料研發等問題,仍然深度依賴經驗與繁瑣的試錯。
“隨著研究體系越來越復雜,研究精度要求越來越高,第一性原理方法在材料發現和物性研究方面的代價越來越昂貴,無論在空間尺度還是時間尺度,已遇到了難以克服的瓶頸。如何突破這些瓶頸,是目前計算物質科學面臨的最大挑戰。”中國科學院院士、復旦大學物理學系教授龔新高說。
縱觀世界科學史,每一次危機的來臨,都是科學突破的前夜。
看過伽利略1604年研究自由落體運動問題手稿的人們,對此也許感觸更深:計算機誕生以前,科學家進行科學探索的工具是大腦、紙和筆:用頭腦來做假設,用紙筆來記錄、做推演。
全世界的科學家,都迫切需要一個開啟黎明的新工具。
“人工智能就是跨越維數災難、解決高維問題的高手?!倍蹙S南說。
人工智能誕生以來的半個多世紀,幫助科學家把復雜的科學問題轉化為算法問題,進行粗粒度建模,并在此基礎上開展了大量的實驗驗證。
這個新工具“高”在哪里?
一方面,它能高效、高精度地求解復雜物理系統,解決大量傳統科學計算方法無法解決的問題。從圖靈的系統思考開始,伴隨算法、算力、數據的融合前進,人工智能在計算機視覺、自然語言處理、自動駕駛等飽受維數困擾的領域大放異彩。隨機控制問題、求解非線性拋物方程等多變量函數,都是人工智能的用武之地。
另一方面,人工智能還能夠高效地處理海量數據。蛋白折疊問題的解決就是例證。
2021年,在開源AlphaFold2僅一周,98.5%的人類蛋白質結構即被AlphaFold2預測出來,做成數據集并全部免費開放。這一爆炸新聞引爆了科研圈。此前,全球科學家耗時數十年努力,也只給出覆蓋人類蛋白質序列中17%的氨基酸殘基,而且大多是易被破解的結構。
現在,我們可以重新提問:‘這個問題是否有原理、數據?哪怕只有其中一個,我們也有機會將問題推進到前人無法觸及的程度。
此次,除了人類蛋白質組,數據集還包含了果蠅、小鼠、大腸桿菌等20個科研常用生物的蛋白質組數據,總計超過35萬個蛋白質結構。
AlphaFold2的出現,徹底改變了蛋白折疊的技術路線,也使合成生物學在工程化和標準化等方面得到提高。
“我們需要一套新的思路來理解高維對象:高維的函數逼近、高維概率分布的處理、高維的動力系統、高維的微分方程等。從科學應用的角度,在化學、材料、工程等領域,只要涉及理論,或者在實驗中涉及數據和模型,就有人工智能一展身手之處?!倍蹙S南說。
面對復雜的物理系統,人工智能也讓科學家看到曙光。
過去,既精確又高效的分子動力學方法幾乎不存在。2020年,張林峰、賈偉樂等中國科學家首次把機器學習、物理建模和高性能計算結合在一起,通過深度學習方法將第一性原理的計算精度帶到更大尺度的分子模擬上來,實現了分子層面大規模、高效的模擬,從只能做1000個原子提升到了1億個原子,提高了微觀科學計算的尺度與精度。
“水的相圖是異常復雜的。過去很難模擬水的相圖,但采用機器學習的方法、用新的分子動力學的工具DeePMD,得到水的相圖就不再是不可能完成的任務?!倍蹙S南說,這一思路不僅應用于分子動力學,還可應用于整個物理模型的生態鏈:從微觀的薛定諤方程,到介觀的玻爾茲曼方程,再到宏觀的湍流模型……可以說,人工智能新算法將開啟科學計算的新時代。
從“刀耕火種”到“鐵犁牛耕”,生產工具的革新,帶來的直接改變就是生產力水平的提高。
翻開最新的國際頂刊的目錄,不難發現這一不可阻擋的趨勢:從人工智能驅動的蛋白質功能機理探索和理性設計,到基于人工智能的藥物發現和藥物優化,從酶改造與生物基化學品的生成,再到科學育種與氣象預測——不論是微觀世界的多尺度探索,還是宏觀、微觀尺度科學成果的應用,人工智能求解高維函數、解決復雜問題的優勢正在持續釋放。

6月25日,第五屆全球人工智能產品應用博覽會在蘇州工業園區開幕

天津梅江會展中心,觀眾在“AI+辦公”技術展臺前觀看演示視頻(李然/ 攝)
2021年,國際頂刊《自然》收錄了DeepMind的一項新成果。研究人員用深度生成模型取代了大氣物理方程,實現了200萬平方公里大氣層的物理仿真。
2022年,DeepMind與瑞士洛桑聯邦理工學院等離子體中心的物理學家共同完成的論文再登《自然》。一直以來,有效控制等離子體是通往核聚變的關鍵。數十年來,科學家不斷研究托卡馬克裝置,約束等離子體,從而達成可控核聚變的目的。這項研究中,他們對核聚變進行物理仿真,用一個大型神經網絡每秒對90種等離子體的形狀和位置完成一萬次訓練,不斷對磁場變化如何塑造等離子體進行長程預測。
2023年,就在不久前,《自然》發表了一篇由我國青年科學家參與完成的一項重磅成果:創新提出了首個mRNA序列設計算法“LinearDesign”。這一算法可將mRNA分子穩定性(mRNA分子半衰期)提升5倍以上,蛋白質表達水平提升3倍,抗體反應提升128倍,不僅有助于生物醫藥公司快速研發更有效的mRNA疫苗,降低研發成本,還可以應用于包括單克隆抗體、抗癌藥物在內的藥物研發。
從生命體的基本組成到世界工業的基本要素,人工智能不僅是解決具體問題的有力工具,更成為重新定義科學問題的系統性思路。
“以前,定義問題的方式是‘這個問題是否能進行觀測并總結規律。進入計算機時代,我們定義問題的方式是‘這個問題是否能被多項式有效近似并通過計算機模擬。而現在,我們可以重新提問:‘這個問題是否有原理、數據?哪怕只有其中一個,我們也有機會將問題推進到前人無法觸及的程度?!倍蹙S南說。
當科學家從人工智能的視角,重新審視埋藏在地下的科學問題,尤其是那些許久以來尚未解決、被稱作“不可能完成的任務”,新的答案、新的可能將加速涌現。
如果能更廣泛地應用這一思路,將科學這片土壤重新開墾一遍,許多貧瘠多年的領域或許也能繁花似錦。
“毋庸置疑,傳統的科學領域將成為人工智能的一個主戰場。同時,科學研究的范式也會發生改變:從‘小農作坊模式邁向‘安卓模式。不遠的將來,我們將看到平臺科研興起?!倍蹙S南說。
(實習生趙宇彤參與采寫)