李沫 付強 趙志囡
摘要:日本科學技術振興機構下屬的研究開發戰略中心(CRDS)以科研周期中的“假說”為視角,提出三個研究開發課題,旨在建立“AI自動化科研周期”體系,從而搶占未來科研競爭制高點。我國有關人工智能驅動科研周期自動化發展的研究較少,該文具體分析了日本研究開發戰略中心(CRDS)發布的戰略提案報告《人工智能與科學——以AI·數據驅動科學促進發現和理解》,闡述了日本對AI自動化科研周期體系建立的一些戰略方針,以期對我國未來科研周期的智能化發展提供參考。
關鍵詞:人工智能 ?科研周期 ?數據密集型科學 ?戰略提案
中圖分類號:TP18 ? 文獻標識碼:A ? 文章編號:1672-3791(2021)09(c)-0000-00
Research on Japanese Strategic Proposal from the Perspective of Artificial Intelligence Driven Scientific Research
LI Mo ?FU Qiang ?ZHAO Zhinan
(Jilin Institute of Science and Technology Information, Changchun,JilinProvince, 130033 China)
Abstract:The research and Development Strategy Center (CRDS) under Japan's science and technology promotion agency puts forward three research and development topics from the perspective of "hypothesis" in the scientific research cycle, in order to establish the "Ai automated scientific research cycle" system, so as to seize the commanding height of scientific research competition in the future. This paper specifically analyzes the strategic proposal report "artificial intelligence and science --Toward discovery and understanding by AI-driven science" issued by the Japanese research and Development Strategy Center (CRDS), This paper expounds some strategic policies for the establishment of AI automatic scientific research cycle system in Japan, in order to provide reference for the intelligent development of scientific research cycle in China in the future.
Key Words:AI; Research cycle data; Intensive science; Strategy proposal
2021年4月,中國信通院發布的《人工智能核心技術產業白皮書》指出,人工智能與科學研究的結合已開始改變基于傳統學術經驗的科學研究方式[1]。對此,日本研究開發戰略中心(CRDS)提出科研周期中“假說”階段的智能化驅動方案和具體推進方法[2]。科研周期的智能化不僅能夠強化科研能力,擴大知識發現的范圍,同時能夠加速新材料、醫藥化合物的發現,在成本削減和附加價值方面占據優勢。因此,研究分析日本在人工智能驅動科學研究上的戰略提案和推進措施,對我國未來科研的智能化發展能夠提供可行性參考。
1問題提出背景
1.1數據密集型科學范式
隨著數據的爆炸性增長,基于大數據提出的數據密集型科學(或電子科學)成為科學第四范式[3]。數據密集型科學采取了基于數據導出科學知識和社會有益知識的方法,數據和計算理論方法的融合能夠提高模擬的高度化和預測的高精度化,同時削減研發成本,也給科學知識發現模式帶來新變革。
1.2人類認知有限性和偏差
科學發現過程智能化引起重視的另一個背景是人類認知能力的界限。在很多科學領域,想要閱讀完研究相關的所有文獻本就不是易事,在新冠疫情反復襲來的情況下就愈加困難。有研究者指出只著眼于符合自己假設的數據,只對不符合設想的情況進行嚴格檢查會有認知偏差存在,科學發現的可能性也會減小。如果利用AI技術,則有望超越這種界限和偏差,帶來與以往不同的科學發現。
1.3機器學習的快速發展
2012年深度學習進入爆發期,隨著第三次AI熱潮的到來,AI不僅應用于產業,對各領域的科學研究也產生了很大影響。比如:在生命科學、醫學領域,最顯著的是使用卷積神經網絡(CNN:Convolutional Neural Network)的圖像識別。人工智能領域的機器學習可以幫助完成醫學圖像診斷的自動識別,數字化地輔助醫學診斷過程,同時降低醫務工作者的工作量[4]。
隨著數據密集型科學時代的到來,科研人員對知識的探索也要隨勢而動,充分利用人工智能和大數據的優勢,彌補人類認知有限性和認知偏差的不足。因此,科研探索的智能化進程也顯得尤為重要。
2.研究開發課題戰略提案
2.1大規模假說的生成與探索
人類在發現未知知識的時候,如果得到了用現有理論無法說明的觀測事實,大多會建立補充現有知識欠缺部分的假說。如果新的假說具備新穎性,并且實驗驗證的結果十分可靠的話,就被認為是新發現。因此,大規模假說的生成與探索,其目標就是合理利用計算機來完成從發現未知、建立假說到實驗驗證的過程。具體而言,基于AI系統從論文或實驗結果等數據中提取的知識,來生成大規模的假說,篩選有研究價值的假說轉到后續驗證過程中。
2.2假說驗證的高通量化
龐大的假說探索背后,意味著大量的驗證假說的實驗工作。在材料科學和藥物研發領域,多采用“虛擬篩選”的手法,因為即便是高精度量子化學計算、第一原理計算或者分子動力學模擬等方法,也會有無法計算體量龐大的化合物的情況。另外,實驗方法和順序所涉及的范圍廣、難度大,為保證高速正確實施實驗,機器人是必不可少的手段之一。自動化機器人的導入不僅提高了工作的速度,還確保了實驗的可再現性。
2.3以人為核心的架構設計
科研周期的智能化發展,需要有軟硬件兼有的綜合性平臺,整合各種技術要素,為科學發現提供自動化、連貫性、良性循環體系。同時,AI系統在未來應用中,也可用于科學家驗證自己提出的假說。從這個意義上來說,AI系統是離不開人類本身的,在整體架構設計上應向人類協調型方向發展,形成人機協同兼具科學研究的智能化系統。
3研究開發課題推進措施
3.1強化設備共享
自動化科學研究過程的AI系統是計算機、數據庫、實驗機器人、測量機器等通過網絡連接起來的網絡物理系統。實驗機器人的價格昂貴,集中于一個研究室運維整個系統十分困難。因此,強化大型設備共享是十分必要的。日本提出建立一個全新的外部化法人的民營性運營機構。例如:可以考慮由內閣府主導外部化法人制度,整合并靈活運用現有大學和民間團體力量來促進開放創新。在實際運行中,提出可從生命科學和材料科學領域入手,有了成功案例之后,再試點其他領域。
3.2任務導向項目和登月研發制度
如何實現AI自動化科研周期體系,日本提出任務導向創新項目作為國家的戰略目標,項目針對某個課題,不指定具體的方法,而是廣泛收集方案,根據課題達成度給予獎金。此外,日本內閣府提出登月(Moonshot)型研究開發制度,共設置了7個“登月目標”。日本科學技術振興機構(JST)負責登月目標3是“2050年前,通過AI和機器人的共進化,實現能夠自主學習、行動、與人共生的機器人”[5]。未來,在自然科學、人文社會科學的廣泛領域中,實現AI機器人能夠有計劃(Planning)實驗,自主地進行少數的試行(Trial)和實驗,到2030年為止實現AI機器人能夠對人類指令的特定問題(新藥開發、材料開發等),獲得科學原理和解法。
3.3跨領域教育普及
探索建立AI自動化科研周期體系需要各種技術領域和行業的儲備知識,需要培育具備多領域知識和技術并且能夠熟練掌握AI和大數據技術的綜合性人才。科學相關領域里,對科學的方法論進行廣泛的普及化教育是十分必要的。隨著科研方式方法的變化,數學、倫理學、統計等推論工具,論文、國際會議等合作方式,都需要打牢基礎教育底子。
4對我國科研發展的啟示
2020年我國人工智能產業保持平穩增長,產業規模不斷擴大。未來我國需要進一步構建人工智能基礎理論與應用技術相結合的學科體系,布局一批企業級人工智能研究院來引領技術落地,打造區域人工智能技術融合創新生態體系,連通企業、高校、研究院所和政府等創新主體形成共同體生態[6]。
結合日本對人工智能驅動科學發展的戰略方案,一是要明確我國人工智能驅動科學發展的技術路線,制定重點行業領域的目標,構建具有中國特色的人工智能科學體系;二是要集中關鍵要素,建立以政府為主導,產學研協同的人工智能創新系統,保障系統間關鍵要素的流通;三是要加強人才培養,夯實人工智能相關學科基礎教育,高校和企業共同賦能基礎型人才。
參考文獻
[1] 中國信通院.人工智能核心技術產業白皮書[R/OL].(2021-04-19).
http://www.caict.ac.cn/kxyj/qwfb/bps/202104/P020210420614092578238.pdf.
[2] 日本科學技術振興機構研究開発戦略センター. 人工知能と科學、AI·データ駆動科學による発見と理解[EB/OL].[2021-09-18].https://www.jst.go.jp/crds/report/CRDS-FY2021-SP-03.html.
[3] 金莎.數據密集型科學的運行機制研究[D].天津:天津大學,2018.
[4] 圣文順,孫艷文.卷積神經網絡在圖像識別中的應用[J].軟件工程,2019,22(2):13-16.
[5] 日本內閣府.ムーンショット型研究開発制度が目指すべき「ムーンショット目標」について[EB/OL].(2020-01-23).https://www8.cao.go.jp/cstp/moonshot/mokuhyou.pdf.
[6] 中國信通院,京東探索研究院.可信人工智能白皮書[R/OL].(2021-07-08).
http://www.caict.ac.cn/kxyj/qwfb/bps/202107/P020210709319866413974.pdf.