魏明坤,袁 偉
(中國科學技術信息研究所,北京 100038)
科研儀器在大科學時代的作用越來越凸顯,科研儀器技術水平成為衡量科研實力強弱的標志。科研儀器的高、精、尖發展是助推大數據科學的基礎,也是激活科研創新的內在動力。工欲善其事,必先利其器。在人類進化和社會發展的歷史中,通過創造、制作、使用工具改變生活環境和自身發展過程中,科研儀器為人類建立和發展科學研究、擴展生產規模創造了有利條件。科學研究領域也不例外,擁有科研輔助的“器”可事半功倍。尤其隨著大數據時代的發展,越來越多的自然現象、多元異質數據等已無法通過手工方式完成分析,科研儀器的使用成為科學發展的重要手段。通過科學研究發展階段分析,實驗科學階段對科研儀器的要求并不高,發展到計算科學階段,很多復雜現象和規律的描述很大程度上得益于科研儀器的使用。作為科學研究和技術革新的重要工具,尤其隨著數據密集型科學的發展,科研儀器在科學研究中的應用越來越普遍,科研儀器成為推動人類社會飛速發展的利器。科研儀器有利于相關研究者占據其研究領域的先發優勢,我國著名光學家王大珩等[1]指出,機器是改造世界的工具,儀器是認識世界的工具。可見,科研儀器在科研發展中發揮了重要作用。據不完全統計,在諾貝爾自然科學類獎項中,68.4%的物理學獎、74.6%的化學獎和90%的生理學或醫學成果獎都是借助各種科研儀器完成的,或直接與科研儀器技術或功能的發展相關[2]。隨著人類對自然的認識向更加微觀的時空尺度、更大的宇宙時空尺度和更加極端的物理條件方向發展,傳統的科研手段已經不能滿足科研發展的需要。特別是在以實驗性研究為主的學科領域,沒有高端科研儀器,要想作出重大原始創新科研成果已顯得力不從心。科研儀器成為科學研究的“利器”已毋庸置疑,現代科技的重大突破越來越依賴于先進的科研儀器。使用科研儀器進行研究,有利于提升科研效率,實現事半功倍的效果。科研儀器的研發不僅豐富了科學技術的發展,其使用效果對自身發展理念具有一定導向作用。因此,從某種意義上來說,科研儀器的使用是科研儀器發展革新的內在動力,是推動科學技術進步的重要手段。但目前對科研儀器研究的學術成果還很有限,因此本研究在文獻計量學基礎上探析科研儀器研究的知識結構,揭示科研儀器研究主題的分布、作者共現關系等,為相關研究提供借鑒。
科研儀器隨著信息技術的快速發展,面臨著新的發展機遇與挑戰。據《后漢書· 張衡傳》記載,早在公元132年,東漢時期的張衡發明了世界上第一臺科研儀器——地動儀。可見,科研儀器的研究早已有之,科研儀器的出現不僅開創了地震科學的新紀元,還為地震預測提供有利的工具——“器”。制造和使用工具,是區分人類和動物的根本標志[3]。人類通過制造和使用工具不斷發展來加快認識世界,改造世界的進展。著名科學家德米特里-伊萬諾維奇-門捷列夫門捷列夫(Mendeleev,Dmitri Ivanovich)指出“科學是從測量開始的,利用相關儀器進行測量已成為一門完整且十分重要的學科”[4]。科研儀器是當今社會人類對物質世界進行測量,并使人類能方便監控物質世界使之達到最佳目標的基本手段和技術,是人類認識世界和改造世界的重要工具。隨著科研活動不斷復雜化發展,通過人類直覺、思維和體能器官很難達到既定目標,借助專門的科研儀器使得人類具有更強的感知和操作能力來面對客觀物質世界,以最佳或接近最佳的方式發展生產力、推進科學研究及從事科研活動等[5]。
在2010年國家開始實施重大科研儀器研究專項,將科研儀器基礎研究納入國家自然科學基金資助范圍,據統計2011—2018年,國家自然科學基金委資助來自中央有關部門推薦、經費體量在1 000萬元以上的重大科研儀器項目53 項,批準資助金額38.14 億元;資助全國科研工作者自由申請、經費體量在1 000 萬元以下的重大科研儀器項目466 項,批準資助金額32.03 億元,最終資助科研儀器的經費合計超過70 億元,科研儀器數量不斷增多[6],覆蓋的學科領域不斷擴大[7]。相關學者對地方科研儀器發展進行分析,指出目前存在的問題并提出相應的解決對策[8]。通過對科研儀器資助項目分析,我國華北、東北地區科研儀器項目申請數量較多,資助力度強,華東地區活躍度較高[9]。為了突破我國科研儀器研發瓶頸,任孝平等[10]從“自下而上”角度分析和總結科研儀器項目管理的經驗,總結科研儀器專項發展的特點。科研儀器不僅視為科學研究的重要工具,也是一種戰略性資源,建設科研儀器共享平臺、建立跨區域服務點、開展高校科技創新活動提升科研儀器的使用效率[11]。不同部門對重大科研儀器概念界定不盡相同,教育部文件對單價或成套價值超過10 萬元的儀器稱為重大科研儀器[12],主要用于教學、科研活動、醫療等領域[13]。在《中央級新購大型科學儀器設備實行聯合評議工作管理辦法(試行)》中指出,大型科研儀器設備是在科學研究、技術開發及其他科技活動中使用的單臺或成套儀器的價格在200 萬元以上。劉賀等[14]對50 萬元以上大型科研儀器進行分析,發現科研儀器資源分布不均衡,技術支撐隊伍建設層次有待提高。西方國家把科研儀器作為重要的戰略資源,占據高端科研儀器大部分市場份額,我國在高精尖科研儀器方面的落后及對外依存度過高[15]。為實現市場均衡化,提升自主研發高端科研儀器成為我國科研儀器研發占據領先優勢的重要內容。
國家為增加科研儀器研發的支持力度,提出《國家中長期科學與技術發展規劃綱要(2006—2020年)》,推動科研儀器研究工作,中央財政撥專款設立國家重大科研儀器設備研制和開發專項。本文統計2000—2019年國家自然科學基金委對國家重大科研儀器研制項目資助數量及經費投入情況,如圖1 所示。通過繪制年份資助項目數量模擬趨勢線,發現國家自然科學基金重大科研儀器研制項目呈指數增長趨勢,擬合值R2為0.944 6,表明指數增長模型擬合效果較好。

圖1 2000—2019年我國國家自然科學基金重大科研儀器研制項目(自申請)分布
從圖1 中可觀察出,自2000年以來,國家在重大科研儀器上的資助總體呈增長趨勢。通過增長趨勢曲線,表明我國對科研儀器研發經費投入的不斷提升,對科研儀器研究的重視程度不斷提高。科研儀器作為實驗、分析的工具,是科研發展的重要組成部分。科研儀器是科學研究發展的增速器,成為推動科學水平提升的重要工具。我國越來越注重高精尖科研儀器經費的投入,在過去20年間,國家自然科學基金資助重大科研儀器項目共863 項,總投入42.24 億元,平均每項資助489 萬元。隨著科研儀器經費資助力度的不斷提升,合理的科研儀器經費管理處于重要戰略地位。科研儀器經費科學、有效地管理,才能與高質量科研成果同行。在2019年政府工作報告中,提出對科研經費實行包干制,推動科研領域的“放管服”改革,推動科研儀器經費管理的改革。其中早在1988年,國家自然科學基金委已明確科學基金資助要方便科研,激發科研人員的積極性、主動性。到2016年,頒布的《關于進一步完善中央財政科研項目資金管理等政策的若干意見》提出了簡化預算程序、下放預算調整權限,提高間接費用比重、加大績效獎勵力度等內容,不斷追求科學化、精細化,提高科研儀器經費管理的規范合理化。
本研究數據來源于涵蓋自然科學、人文社會科學、工程技術等領域的中國知網(CNKI)數據庫,以主題詞“科研儀器”進行檢索,檢索時間為2022年3月10日,檢索數據經過清洗,去除會議通知、征稿通知等與研究內容無關的記錄,最終得到有效記錄1 770 條。為了識別近年來科研儀器研究主題擴散、覆蓋領域以及作者共現關系,探析科研儀器的知識結構。本文在文獻信息計量學分析基礎上,采用知識圖譜軟件和文本挖掘對科研儀器研究的文獻進行統計分析,從定量角度揭示科研儀器研發過程的知識結構。知識圖譜分析方法不僅將數學、圖形學、信息可視化技術、信息計量學等復雜知識形象化呈現出來,還揭示知識發展的前沿領域和動態規律。為深入探析科研儀器研究的主題分布,我們利用自編寫的Python 程序構建文獻摘要的語料庫作為LDA 模型輸入,通過LDA 模型訓練識別具有語義關聯的主題結果,通過計算LDA 主題模型困惑度判別文檔語料庫隱藏的主題。其中,對主題模型困惑度(perplexity)計算,即對測試文本的語料集賦予較高的概率值,具體計算公式如下所示:

式(1)中:wn為第n篇文本的大小,n為文本的數量,pp(w)為w詞在所有主題分布值與w詞所在文本的主題分布乘積,p(wd)為文本的概率,在進行文本主題分類時,通過計算主題困惑度確定最佳主題分類,并借助知識圖譜分析工具,以關鍵詞聚類等分析方法探析科研儀器主題研究動態、從知識結構視角展示科研儀器研究主題的前沿與演變。
對科研儀器研究主題的文獻進行統計,有利于了解科研儀器的研究力量,呈現研究主題的發展速度。為了更清晰觀察文獻數量分布情況,對檢索的文獻按年份分布進行展示,如圖2 所示。通過文獻歷年分布統計情況,發現我國以科研儀器為主題的研究總體趨勢呈遞增發展。文獻的年份分布作為衡量研究主題的重要指標,通過科研儀器年份分布曲線預測科研儀器發展趨勢和動態。通過對科研儀器文獻的統計,發現最早關于科研儀器文獻的研究可追溯到1975年,受到“三大革命運動”的影響,科研儀器發展得到各領域的重視。中國科學院成立了科研儀器委員會,為科研需求建立了真空、生物、天文、顯微分析等科研儀器。在1978年全國科學大會上,方毅[16]指出擁有先進的科學實驗手段,是科學技術現代化的一個重要標志。到了2000年,我國在科研儀器發展上取得了長足進步,文獻增長速度逐漸加快,科研儀器在科學研究中的作用被越來越多研究者所重視,成為信息產業不可缺少的組成部分,在國民經濟、科學技術、科學研究等領域發揮巨大的作用。到2014年,關于科研儀器主題的文獻數量超過90 篇,表明科研儀器為主題的研究仍得到研究者的關注,發展到2017年,文獻數量超過120篇,對科研儀器為主題的研究持續上升。從文獻增長趨勢可得出,科研儀器得到了廣泛的關注和重視,其影響力也得到提升。

圖2 2000—2019年我國科研儀器文獻產出數量歷時分布
根據我國科研儀器文獻年度分布態勢,可將其發展階段大致分為3 個階段:起步階段(1975—1985年),該階段主要特點是以科研儀器為主題的文獻發展平穩,對科研儀器為主題的研究成果較少;低速發展階段(1986—19997年),該階段的主要特征是以科研儀器為主題的文獻呈緩慢增長階段,對科研儀器研究的關注呈上升趨勢,與起步階段相比,發文量有了明顯提升;快速發展階段(1998年至今),該階段發展的主要特征是文獻數量呈快速增長趨勢,1988年以后,我國學者越來越重視科研儀器的研究,與低速發展階段相比,文獻增長速度更快。為了進一步分析我國科研儀器文獻增長趨勢,通過繪制年份文獻數量模擬趨勢線,發現我國科研儀器研究文獻呈指數增長趨勢,擬合值R2為0.886 9,符合指數增長模型。
利用知識圖譜軟件進行作者時區分布[17],設置閾值為前50 的高頻作者,利用最小生成樹Prim(普里姆算法)。主要通過用prim 求最小生成樹,從圖的頂點開始,每次加入一條最小權的邊和對應的頂點,逐漸擴張生成的圖譜,如圖3 所示。可觀察不同時區節點作者的分布情況,圖中不同顏色的節點代表作者的發文情況,節點之間的連線表示作者之間的合作關系。觀察各時區節點分布情況,發現圖3 中具有較多連線關系的節點很少,體現作者之間的交流合作并不頻繁,作者之間的合作密度較低,尚未形成規模化的專業科研合作團隊。作者發文頻次較高的節點依次為張守著、倪培根、吳玨珩、陳省平等,這些作者在科研儀器研究領域較為活躍。為了分析作者貢獻情況,對作者的PageRank(在網絡結構中的重要性)值進行計算,如表1 所示,表1 中顯示了PageRank 值排前18 位作者,這些作者在科研儀器研究領域的影響力較突出。

表1 我國科研儀器研究作者PageRank 值(排名前18 位)

圖3 我國科研儀器文獻作者共現時區分布知識圖譜
其次,對作者之間的共現關系分析,可揭示科研儀器研究領域作者之間的聯系和結構,反映科研儀器研究領域的發展趨勢。在作者共現關系網中,中心節點較高的作者體現的影響力較為突出,反之,其影響力較弱。通過作者數量和網絡結構,反映出研究領域的興衰起伏、分化滲透等現狀。從1975—2021年,以科研儀器為主題研究的作者數量不斷增多,參與合作的作者數量逐漸增多,發文數量明顯增加,可見,以科研儀器為主題的研究力量不斷加強。
根據國家標準(GB 6447—86)對摘要的定義,“以提供文獻內容梗概為目的, 不加評論和補充解釋, 簡明、確切地記敘文獻重要內容的短文”。 摘要作為科技論文的重要組成部分,論文摘要體現了整篇文獻的核心思想,根據論文摘要的標準,摘要的基本要素包括研究目的、方法、結果和結論。通過python 自編程序抽取記錄的摘要,為文本挖掘研究提供基礎。我們通過利用Blei 等[18]提出的潛在狄利克雷分配模型(latent dirichlet allocation,LDA)主題模型識別科研儀器文獻主題分布。對主題的判斷多采用一致性、困惑度指標判斷最優主題數量,通過頻繁出現的詞語計算語義相似性進行一致性檢驗,基于訓練集與測試集的擬合程度進行困惑度判斷[19]。對文摘主題詞語出現的概率分布,進行主題聚類。LDA 模型不僅識別文本信息的主題,還能挖掘文本詞語間的語義關聯,彌補傳統關鍵詞分析、詞頻分析在文獻計量中的不足,能更好反映出文獻的主旨。
在一篇文章中每個詞是通過一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語來實現的。因此,一篇文檔中每個詞語出現的概率為:

式(2)中,詞語|文檔進行矩陣轉換,表示每個文檔中詞語出現的詞頻,即出現的概率。主題|詞語表示每個主題中詞語的出現概率,文檔|主題表示每個文檔中主題出現的概率。為了確定文檔主題的分類效果,通過LDA 主題模型困惑度計算,公式如下:

式(3)中,α和β為語料級別的參數,θ為文本級別的變量,每個文本對應一個θ,體現每個文本產生不同主題z 的概率。z和w表示文本中詞語級別的變量,z由θ生成、w由z和β共同生成,w對應主題z。通過公式計算得到當主題數為7 時,一致性得分最高,同時困惑度在7 進行拐點,因此確定最佳主題個數為7,如圖4 所示。

圖4 LDA 模型主題困惑度曲線
當λ=0.65 時,對每個主題取前50 個特征詞揭示每個主題的主要內容,具體7 個主題及特征詞統計如表2 所示。通過對科研儀器研究主題的分析,得到科研儀器的應用覆蓋領域較廣,不僅包括科研儀器基礎理論研究,還包括對科研儀器技術原理、技術能力、科研儀器應用的研究。從科研儀器的使用到多因素與環境交互影響科研行為,實現研究對象從宏觀到微觀、從現象到規律的揭示。

表2 科研儀器研究主題及特征詞分布

表2(續)
為了實現LDA模型挖掘的主題詞進行深入分析,對特征詞根據詞語的聯系進行編碼,確定4 個研究專題,分別為科研工作、科研基礎、科研設備及科研人才四個專題,具體如表3 所示。將所有特征詞形成了250 個參考點,60 個編碼節點,按響應次數由多到少依次是科研工作、科研基礎、科研設備、科研人員。根據觀測要點,科研工作專題包括主題1(topic 1)、主題3(topic3)、主題5(topic5)、主題7(topic7),主要涉及創新、建設管理、教學科研、科研成果、科研效率、問題研究分析、資源共享,其中教學科研、建設管理、問題研究分析成為科研工作關注的焦點;科研基礎專題包括主題2(topic 2)、主題3(topic3)、主題5(topic5)、主題6(topic6)、主題7(topic7),主要涉及服務、基礎條件、科研單位、科研經費、科研平臺、科研項目、現狀、政策建議,其中科研單位成為關注的焦點;科研設備專題包括主題3(topic3)、主題5(topic5),主要涉及基礎設施、儀器設備;科研人員專題包括主題4(topic4)、主題5(topic5)、主題7(topic7),主要涉及教師、領導、人才、學生及專家。

表3 科研儀器研究主題及特征詞類目體系

表3(續)
本文從文獻計量視角出發,利用知識圖譜工具與LDA 文本挖掘進行主題識別,探究我國科研儀器研究的知識結構,研究發現:
(1)科研工作推動科研儀器服務和創新發展。科研儀器開放共享發展的內在動因是科學研究的需要,作為科學研究領域解決復雜問題的工具之一,有利于促進知識產生和傳播,推動學科發展,發現新研究領域,提升我國科學研究原始創新力。從知識管理的角度來看,科研儀器的優化配置,有利于知識存儲、傳播對科學研究的需要。科研儀器的開放共享為科學研究提供了便利,同時也實現了科研儀器最大化利用。從科學發展規律來看,只有最大限度地開放共享科研儀器,才能符合實際的需求。我國高校與科研院所的科研儀器重復購置、閑置現象引起有關學者的關注并提出應加強制度設計,細化開放共享,建立獎懲機制,激勵科研儀器的開放共享。科研儀器開放共享符合開放科學的發展的內在要求,科研儀器的開放共享符合信息服務發展的需要。我國學者韓鳳芹[20]對科研儀器開放共享進行分析,并提出改變科研儀器利用率和共享率放在獎懲機制上,而應注重體制機制的創新提高科研儀器的利用率。尤其是進入大數據時代,科研成果不僅包括公眾演講、學術論文等,自然科學領域的實驗數據成為不可忽視的重要內容,通過科研儀器得出的實驗結果不僅可提高科學研究的顯示度,還能增強實驗結果的可信度和說服力。科研儀器普及受到經費投入的影響,開放共享無論從實現途徑、使用方式還是科研交流的效果,都表現出無可比擬的優勢[21]。尤其在科技部和國家自然科學基金委員會設立了支持重大科研儀器發展的專項,為科研儀器創新發展注入了新的活力。科研工作推動科研儀器的發展,進一步優化科研儀器的配置、管理和服務。科研儀器的開放共享成為科研儀器的發展趨勢,對科研成果創新發展具有巨大推動作用。
(2)科研儀器人才隊伍建設亟需加強。隨著科學技術的快速發展,靠單個研究者很難實現科研儀器上的突破。專業人才隊伍建設成為科研儀器發展的內在動力,專業人才隊伍建設有利于推動科研儀器的技術革新。構建結構合理的專業人才隊伍成為未來高端科研儀器革新的發展源動力。如何發揮科研儀器在科研中的功能和作用,主要取決于科研儀器專業人才隊伍建設。科研儀器作為一種高度知識密集型、綜合技術型產物,與專業人才隊伍相結合,不斷更新技術,有利于其向高、精、尖發展,推動科研儀器發展的長足進步。
(3)科研基礎發展為科研設備提供了保障。為了進一步加強科研儀器的原創新性發展,科研經費、科研項目等投入力度的增加成為科研設備發展內在動力。隨著科研儀器應用領域的不斷增加,科研活動對科研儀器的需求越來越大,不僅包括科研設備使用的需求,更加注重高水平科研設備的服務。對科研儀器知識結構分析,面上項目、科學基金項目、青年基金項目、資助強度等都成為科研儀器研究的基礎。提高科研設備研發資助強度,有利于激發科研人員的積極性,提升科研創新,保障科研人員的潛心探索,促進科研設備研究的健康發展。