張統一
(上海大學材料基因組工程研究院,上海200444)
材料信息學是材料基因工程的核心,也是材料研發的新范式.它利用在材料集成計算、高通量實驗和大數據科學方面的最新技術,將材料科學與工程和人工智能、機器學習無縫集成.在國家重點研發計劃、上海市科委科研計劃、上海市Ⅳ類高峰學科、云南省材料基因重大科技專項、之江實驗室科技攻關項目等支持下,上海大學牽頭聯合國內高校、科研院所和企業,在材料高通量計算、高通量實驗、材料基因組工程專用數據庫、機器學習,以及材料信息學領域開展了深入而系統的研究.特別是錢權教授作為項目負責人的國家重點研發計劃——材料基因組工程專用數據庫項目,聚焦鋁基復合材料、陶瓷涂層、非調質特殊鋼等示范材料,全面地發展了利用數據科學方法對材料“成分-工藝-結構-性能”內在關系進行挖掘的材料信息學,取得了一系列成果.值此上海大學建校100周年之際,錢權教授領導項目組圍繞材料信息學和數據驅動材料研發,對科研成果進行梳理,形成了本專輯3個板塊內的系列文章.
數據采集、數據庫和數據處理組成了本專輯的第一板塊.材料信息學是數據驅動的材料科學和工程,數據是基礎.《基于Jaya優化標定的高精度數據采集方法》報道了從材料設備中采集高精度數據的方法和系統.材料領域的文獻包含了海量數據,《結合上下文詞匯匹配和圖卷積的材料數據命名實體識別》和《基于自然語言處理的材料領域知識圖譜構建方法》結合了自然語言處理和圖神經網絡、遞歸神經網絡、條件隨機場等多種深度學習算法,能夠從材料文獻中自動抽取材料實體、關系等領域知識構建知識圖譜.《材料基因組工程專用數據庫》和《基于區塊鏈的數據版權保護與組合競拍》發展了材料數據規范化表示、機器學習模型跨域部署、材料數據隱私保護和基于本體的材料數據語義集成等材料基因數據庫的關鍵技術,并結合區塊鏈、數字水印和組合競拍技術發展了材料數據版權保護的方法和系統.材料數據有3個特點:小樣本、高維度、大噪聲.《基于卡爾曼濾波的含噪聲小樣本數據處理方法》將經驗模型與實驗觀測數據相結合,采用了卡爾曼和擴展卡爾曼濾波對小樣本數據去噪;《聚丙烯復合材料老化數據集成學習》用高斯混合模型結合數據采樣方法進行數據增強;《小樣本分散數據的回歸建模和多目標優化》采用高斯過程和多目標優化對小樣本分散數據集進行回歸建模,通過預測結果的不確定性估計指導材料逆向設計.
機器學習是材料信息學的核心,組成了本專輯的第二板塊.特征和特征空間是機器學習兩個主要和基礎問題,《基于強化學習的特征選擇方法及材料學應用》研究了基于強化學習的包裝式特征選擇方法,將特征選擇抽象成智能體與環境交互的收益最大化問題;《基于特征工程和機器學習的鋁基高熵合金穩定性預測》采用特征工程和機器學習對高熵合金的相穩定性進行了預測.支持向量機是常用的一種機器學習算法,《支持向量回歸預測不銹鋼的點蝕電位》報道了支持向量機回歸預測不銹鋼的點蝕電位的研究.《陶瓷涂層材料多模態數據表征學習》融合結構化工藝數據和非結構化微結構圖像數據進行了多模態學習.《面向復合材料帶隙預測的兩段式集成學習模型構建》采用集成學習利用多個弱分類器的集成來提升模型預測精度.《數據驅動的鋁基復合材料性能預測和逆向設計》采用超參自動尋優來選擇模型,并利用虛擬樣本來進行逆向設計和實驗驗證.
第三板塊包含了材料微結構圖像識別與材料微結構分析.《基于數字圖像處理技術的熱障涂層形貌特征識別方法》和《基于輕量級網絡的防偽標簽檢測算法》采用了數字圖像處理中的形態學方法,結合協調注意力機制的卷積神經網絡進行了材料微結構形貌特征的識別和分析.《稀土摻雜熱障涂層材料分立成分樣品的高通量X射線表征》和《La1-xSrxTiO3薄膜的高通量X射線衍射》通過X射線源高精度x-y二維平面快速移動,研發了高通量的X射線表征系統并在兩種材料上進行測試驗證.《含碲非調質鋼38MnVS6水口結瘤成因分析》對非調質鋼的水口結瘤成因進行深入研究.
材料信息學是一門極熱的交叉研究領域,近來進展極快,已涌現出大批優秀的科研成果、研究機構和研究人員.希望本專輯能拋磚引玉,進一步推動材料數據庫、高通量制備與表征技術、高通量計算與模擬、材料數字孿生、挖掘與學習等研究的發展,早日把我國建設成材料基因工程、材料信息學和材料強國.