


摘? 要:材料信息學是實現新材料快速研發的重要手段,探明世界范圍內材料信息學研究態勢可為中國在該領域發展提供參考。以2014—2020年Web of Science核心合集庫收錄的材料信息學領域文獻為研究對象,借助CiteSpace軟件繪制知識圖譜,從論文數量、地域、合作和被引報告等角度,報告了材料信息學研究現狀、前沿熱點與演化趨勢,進行了材料信息學國際研究態勢調查。
關鍵詞:材料信息學;知識圖譜;文獻計量;研發態勢
中圖分類號:TP391? ? ? 文獻標識碼:A 文章編號:2096-4706(2021)01-0121-04
Research Progress and Trend in Material Informatics Based on
CiteSpace Visual Analysis
ZHAO Xiaohui
(Library of Xian University of Science and Technology,Xian? 710054,China)
Abstract:Material informatics is an important means to realize the rapid research and development of new materials. Exploring the research trend of materials informatics in the world can provide reference for the development of China in this field. Taking the literatures in material informatics field included by Web of Science core collection library from 2014 to 2020 as research object,using the CiteSpace software to map knowledge graph,it reports the research status,front hotspot,evolutionary trends of material informatics from the angle of the number of papers,region,cooperation and cited reports,etc,and carries out the investigation of international research trend in materials informatics.
Keywords:material informatics;knowledge graph;bibliometrics;research and development trend
0? 引? 言
材料在人類歷史發展中處于重要地位,它是社會進步的基石。尤其在近現代社會,材料科學研究已跨越了單純依靠經驗和直覺的模式,實現了工藝、成分、結構和性能間關系的模型化。隨著計算機技術在近幾十年里被引入材料科學研究中,以密度泛函理論(DFT)和分子動力學模擬(MD)為代表的計算方法產生了大量研究成果,但仍然受限于目前計算能力不足,時間成本較大等因素[1,2]。
當前,無論實驗方法還是理論計算方法開發新材料速度均跟不上人們對材料性能的需要。尤其在當前,研究方法在面對材料結構與性能間復雜的非線性關系時已趨于瓶頸,亟須開發材料研究的新模式。材料信息學正是在此背景下出現,它將信息學原理與材料科學研究有機結合在一起,通過對各種材料數據快速處理分析,來減少新材料在研發中所需時間和風險。
材料信息學這一概念于2006年首次被公開提出[3],在概念提出后近8年時間(2006—2014年)里該領域發展較慢。這一方面因為材料基礎數據庫是作為開展材料信息學研究的保障,其體量巨大且結構煩瑣,需要較長時間的積累和摸索。另一方面,材料信息學算法不夠成熟,難以對復雜的材料數據關系做出準確判斷。近年來,隨著信息技術在生物、醫學、化學等領域的成功應用,為材料信息學的發展提供了啟示,其發展正處于快速擴張階段,但缺乏對其研究概況的理性、全面分析[4]。本文作者長期從事圖書信息相關研究工作,致力于國內外新興研究領域的發展態勢研究。文中基于CiteSpace軟件[5,6],對材料信息學全球研究現狀、熱點和前沿進行可視化分析,旨在使我國科研界緊抓材料信息學研究熱潮,鞏固和壯大我國在該領域研究上的國際地位。
1? 資料與方法
本論文研究數據取自Web of Science核心合集數據庫,限定檢索年限為2014—2020年,檢索主題詞為“materials informatics”,共計獲得836篇該領域的相關文獻,選用其中的706篇“Article”作為進一步研究對象。文獻記錄內容選擇“全記錄與參考文獻”,選用“純文本”格式導出文獻,導出數據中包含標題、關鍵詞和參考文獻等相關信息。
使用CiteSpace v5.7.R5版本導入下載的文獻文件,對國家、機構、關鍵詞、共被引文獻以及突現詞進行分析。時間切片設置為1年,選擇閾值Top N=50,剪切方式為Prunning pathfinder功能(同時選擇Pruning sliced networks和Pruning the merged network)。利用模塊值(Q值>0.3)和平均輪廓值(S值>0.5)兩個指標來評估知識圖譜繪制效果[5]。圖譜中顏色深淺反映年代變化;節點圓圈大小與其頻次高低呈正相關;連線表示節點之間共現情況。
2? 結果與分析
2.1? 年發文量和發文國家、機構分析
材料信息學研究在近7年內共發表研究論文706篇,年發文量成線性上升趨勢,年均增長速度約22篇/年,如圖1所示。可以看到,材料信息學研究仍處于發展的初始階段。其中2017年發文量有微弱回落,結合突現詞分析,可以發現2017年是一個轉折年,實現了生物醫學應用中較成熟的數據信息技術應用于材料科學中,故2017年后材料信息學主題發文量迅速恢復線性上升趨勢。
將國家(地區)與機構合并制作知識圖譜,共計形成308個節點與1 094根連線,如圖2所示。發文量前三名國家分別為美國(401篇)、中國(80篇)與日本(76篇);中心度前三名國家分別為中國(0.65)、美國(0.38)與瑞典(0.38)。高產機構前三分別依次為日本國立材料研究所(28篇)、美國洛斯阿拉莫斯國家實驗室(24篇);佐治亞理工學院(各22篇)。中心度前三名為哈佛大學(0.65)、布列根和婦女醫院(0.44)和上海大學(0.43)。
綜合國家、機構的發文量和中心度進行分析,可以發現材料信息學的研究在地域上集中在中國、美國、日本和瑞典4個國家。尤其中國在材料信息學的研究上中心度居世界第1、發文量居世界第2,這其中上海大學的貢獻較為顯著,其于2012年初籌備成立了獨立的材料基因組工程研究院。應該看到,我國在該領域的研究仍落后于美國,美國在2014—2020年期間發文量是我國發文量的5倍,且有包括洛斯阿拉莫斯國家實驗室、佐治亞理工學院、哈佛大學和布列根和婦女醫院等多個機構表現突出,展現出雄厚實力。同時發文量排名第3位的日本與我國之間差距較小,故我國在該領域研究的國際地位并不穩固。
2.2? 被引文獻和關鍵詞分析
高被引文獻和高中介中心性文獻是知識基礎的核心構架,被認為相關研究領域發展的知識拐點。結合被引文獻分析發現,Jain A等[7]于2013年發表在APL Materials雜志上的論文被引用2 564次,標題為“The Materials Project:A materials genome approach to accelerating materials innovation”。Faber等[8]的研究中介中心性最強(0.39),標題為“Crystal structure representations for machine learning models of formation energies”。如圖3所示。
關鍵詞使用精煉表達來高度概括和凝練學術研究論文內容和作者觀點,它是文獻研究內容和核心價值的集中體現,故關鍵詞分析是文獻研究的重要組成。關鍵詞分析產生17個聚類,獲得252個節點和818條連線,如圖4所示。可視化分析結果顯示Q值為0.714 4(>0.3),S值為0.913 3(>0.5),表明聚類效果較好。排名前10位的聚類依次為:醫學信息學、醫學信息學應用、健康信息學、信息論、電子健康紀錄、材料信息學、設計、預測、近似、信息學。其中醫學信息學和醫學信息學應用屬于同一類可合并,同樣可合并的有健康信息學和電子健康紀錄,以及出現了兩個材料信息學(materials informatics和material informatics),故實際聚類應為11個。關鍵詞出現頻次前十名聚類依次為:材料信息學(109次)、信息學(104次)、設計(65次)、機器學習(60次)、系統(48次)、電子健康紀錄(37次)、護理(34次)、醫學信息學(41次)、預測(36次)、模型(31次)。
上述分析展示了目前材料信息學研究熱點。一是針對材料信息學的模型開發,即材料數據庫的構建和擴展。2011年美國加州伯克利大學勞倫斯實驗室聯合麻省理工學院提出了構建開源數據庫Material Project[7],其集合了各類材料的晶體結構和物性參數(能帶、彈性模量和壓電張量等),并一直處于動態擴充中。由于材料種類繁多且性能參數復雜,且不斷有新材料被開發出來,故該數據庫完善將會是一個長期且繁雜的工作,在擴充數據庫的同時優化數據庫結構將在較長一段時間內是本領域的研究熱點。
另一個熱點是材料信息學研究模型開發和應用。基于生物信息學發展經驗,將其移植到材料信息學研究上,這是本領域早期發展的思路。但考慮到材料科學研究的獨特性,如何將材料科學原理融入數據模型中,使模型參數具有物理、化學意義,這是當前模型開發的熱點。
2.3? 突現詞分析
突現詞是指關鍵詞出現頻率變化率高的詞,它在一定程度上能表明某個研究領域的前沿,根據突現詞的主題與時間跨度可劃分為兩個階段,如圖5所示。在2016年前,突現詞為本體論(ontology)、系統(system)、電子醫學記錄(electronic medical record)和未來(future),突現詞與材料科學間跨度較大;2017年至今,突現詞為回歸(regression)、合金(alloy)、數據庫等(database)等,可以看到材料與數據處理逐步結合起來。
基于突現詞結果分析,發現合金(alloy)作為一種具體材料出現在關鍵詞中,表明針對這類較為成熟的材料研究出現了新動向。這一方面可能因為合金材料的結構和物性數據庫的完善度較高,利于開展研究;另一方面,使用傳統手段研究合金材料難于創新,迫切需要新研究方法來實現突破,以滿足國防、生產等對合金材料高性能的要求。使用材料信息學方法研發非晶態金屬和高熵合金已獲得較多成果。
3? 結? 論
基于CiteSpace軟件對材料信息學相關主題文獻的可視化分析,從該領域的國際研究趨勢、熱點與前沿,給我國的材料信息學發展提供了一定啟發。可以看到,材料數據庫是發展材料信息學的基石,但當前最大、最全面的材料數據庫(Material Project)是由美國科研機構開發的,我國在這方面缺乏原創,基本還處于跟跑階段,這可能會導致發展后勁不足。另外,當代材料科學家需要拓展思維,有意識地將材料信息學引入其日常研究中,除了提升自身研究實力外,還可將研究結果貢獻到材料信息學數據庫中,為其發展貢獻力量。
盡管近年來材料信息學研究已取得令人矚目的研究成果,但其仍處于發展初期,其未來發展可能主要依賴于以下幾方面的進步。一是材料信息學預測材料的可靠性需進一步提高,這也是科學家們對其期待較高的原因之一。但在實際過程中往往需處理非正常數據,這對當前研究方法提出了更高挑戰。二是材料數據庫完善和共享,可以看到,材料數據庫異常龐大,需要全世界的科學家們長時間共同積累來實現。故其是全世界的財富,全面和未加限制的共享材料數據庫是材料信息學發展的重要保障。三是針對材料領域大數據的先進算法開發,這需要具有材料、計算機、通信等多學科專業背景的復合人才來實現。
本研究僅考慮Web of Science數據庫的相關論文,且未考慮材料學科與其他學科的交叉領域,如化學信息學、物理信息學等也會部分涉及材料學科。建議今后研究可增加國內數據庫進行更為全面的分析,將材料化學信息(如金屬有機骨架材料等)和材料物理信息(如基于自旋構型的磁性材料等)等結合到材料信息學的前沿和熱點研究分析上,獲得更加全面的研究結果。
參考文獻:
[1] 孫蘇陽,王曉哲.數據與理論共舞:計算材料學推動高效體系化新材料設計——計算材料學分論壇側記 [J].中國材料進展,2020,39(11):824-825.
[2] ZHENG B,MAURIN G. Mechanical Control of the Kinetic Propylene/Propane Separation by Zeolitic Imidazolate Framework-8 [J].Angewandte Chemie International Edition,2019,58:13734–13738.
[3] RODGERS J R,CEBON D. Materials Informatics [J].MRS Bulletin,2006,31(12):975-977.
[4] 牛程程,李少波,胡建軍,等.機器學習在材料信息學中的應用綜述 [J].材料導報,2020,34(23):23100-23108.
[5] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能 [J].科學學研究,2015,33(2):242-253.
[6] 胡志剛,陳超美,劉則淵,等.從基于引文到基于引用——一種統計引文總被引次數的新方法 [J].圖書情報工作,2013,57(21):5-10.
[7] JAIN A,ONG S P,HAUTIER G,et al. Commentary:The Materials Project:A materials genome approach to accelerating materials innovation [J].APL Materials,2013,1(1):[2020-11-05].https://aip.scitation.org/doi/10.1063/1.4812323.DOI:10.1063/1.4812323.
[8] FABER F,LINDMAA A H G,LILIENFELD A V,et al. Crystal structure representations for machine learning models of formation energies [J].International Journal of Quantum Chemistry,2015,115(16):1094-1101.
作者簡介:趙曉慧(1985—),女,漢族,遼寧海城人,圖書館員,研究方向:圖書情報學。