劉自強 岳麗欣



關鍵詞: 基金項目; 科學產出; 主題識別; 評估模型; 預測模型; 美國國家科學基金; 可視化
DOI:10.3969 / j.issn.1008-0821.2024.07.012
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 07-0135-12
目前, 世界各國(地區)十分重視科技創新, 科技創新是國家推動經濟增長、提升國際競爭力和解決社會經濟發展問題的關鍵因素之一[1] 。為了加強科技創新, 世界各國(地區)紛紛增加對科技研究和發展的投入, 政府通過增加科研經費、建立科技創新基金等方式, 鼓勵科學家和研究機構進行前沿研究, 比如: 中國國家自然科學基金(National NaturalScience Foundation of China, NSFC)、美國國家科學基金會(National Science Foundation, NSF)、歐洲研究理事會(European Research Council, ERC)、德國研究基金會(Deutsche Forschungsgemeinschaft, DFG)和日本學術振興會(The Japan Society for the Promo?tion of Science, JSPS)等。
國家基金項目在科學技術發展過程中扮演著推動和引領的重要作用, 不僅為科學研究提供了支持和推動力, 資助產出了大量高質量論文, 也為學術交流與合作、科技創新與應用提供了幫助, 使得科學技術能夠不斷取得突破和進步, 為社會發展和經濟增長做出巨大的貢獻[2] 。近年來, 為了提高科學研究的質量、優化基金資助工作, 科學研究成果的評估和預測一直是政策制定者和科學界關注的焦點之一[3] 。2023 年6 月22 日, NSF 新成立的技術、創新和伙伴關系理事會(Directorate for Technology,Innovation and Partnerships, TIP), 啟動了評估和預測技術結果(Assessing and Predicting Technology Out?comes, APTO)計劃, 將資助研究項目以識別新興趨勢使國家贏得未來的關鍵研發方向, 為決策者提供模型和信息(模型將預測特定技術的未來成果,以及哪些投資將可靠地改變或加速這些成果)以優化NSF 資助工作, 以長期提高美國的競爭力, 該計劃資助總額為3000萬美元。
評估與預測科學、技術結果對于優化基金資助效果及提高科研質量都具有重要作用, 而科學和技術的評估與預測存在一定的差異, 所以相關研究還有待進一步深入??傮w來說, 目前基金資助的科學產出評估及預測方法研究相對不足, 主要以專家評估、定性分析為主, 基于定量方法的基金資助的科學產出評估及預測主要以數理統計為主(發文量層面)[4-5] 。通過NSF 的APTO 計劃可知, 基金資助的科學、技術產出的評估與預測方向存在著巨大的研究潛力, 值得眾多學科領域有關學者進行深入探索。
所以, 本研究旨在對基金科學產出的評估和預測問題進行探索, 從研究主題的角度切入, 評估和預測基金項目的科學產出(期刊論文), 具體擬從基金資助的科學產出主題投入和產出入手, 提出一種基于機器學習、數理統計和可視化技術的基金項目科學產出評估模型, 以全面地評估NSF 基金項目的科學創新和產出表現(投入產出比), 然后通過建立預測模型, 預測科學產出主題未來的內容,以期為基金項目機構進行科學產出評估和預測工作提供一定的參考、借鑒。
1相關研究
1.1基金資助的科學產出評估
目前, 世界各國(地區) 十分重視科技創新,而基金資助及其科學產出是反映一個國家(地區)、學科領域科技創新工作好壞的重要指標之一。所以, 眾多研究者針對基金資助的科學產出評估問題展開了大量探索, 旨在衡量和評估科研項目所產生的成果和影響力, 以期提高科技創新水平。
從評估指標來說, 基金資助的科學產出評估相關研究主要關注兩個重點指標: ①科學產出數量評估, 研究者主要通過計量基金項目資助所產生的科學論文數量來進行評估[6-7] ; ②科學產出質量評估,研究者主要通過計量基金項目資助所產生的科學論文被引次數、影響因子等進行評估[8] 。從學科領域來說, 基金資助的科學產出評估是眾多學科領域所共同關注的重要問題: ①合成生物學領域的研究表明, 基金資助對科學產出具有積極影響, 有助于推動該領域的發展[9] ; ②醫內科、血瘀證和風濕免疫等醫學領域的研究分析了國家自然科學基金在該領域的申請和資助情況, 并揭示了相關研究的趨勢和特點[10-12] ; ③智能電網[13] 、眼科學[14] 、創業教育[15] 、遙感科學[16] 等領域的研究也證明了基金資助科學產出評估的重要性。從基金項目類別來說,研究者對不同級別、不同類別基金資助的科學產出評估問題進行了有益探索: ①國家科學技術學術著作出版基金、國家出版基金等的研究分析了基金資助對出版業的影響和發展方向[17-19] ; ②中國博士后科學基金、杰青基金等的研究評估了不同科研資助項目的效益和影響因素[20-21] ; ③此外, 還有學者關注基金資助科學產出的國際比較, 對世界主要國家(地區)的基礎學科基金資助情況進行比較分析, 揭示了基金資助工作對國際合作影響的效果和趨勢[22-23] 。
總體而言, 現有研究對基金資助的科學產出評估問題進行了廣泛的探索, 但仍存在一些不足, 比如: ①目前的評估主要關注論文的外部數量特征(SCI 論文數量、H 指數等指標), 忽略了具體內容維度的評估; ②缺乏多維度評估, 目前的評估較為單一, 主要集中在數量和質量維度(論文、專利等的數量和被引用指標), 對于社會影響力方面的評估相對不足。為了應對以上不足, 應該建立多維度評估指標, 加強對具體內容維度評估(比如研究主題維度), 關注社會影響力、響應程度等(替代計量指標的使用)。
1.2 基金資助的科學產出預測
基金資助的科學產出預測方法, 旨在利用文獻計量、數據挖掘、數理統計和可視化方法, 基于基金項目及其資助的論文或者專利數據進行預測[24] ,以期通過對歷史數據的分析和建模, 預測科學產出的可能發展方向, 幫助基金資助機構做出更準確的決策和布局[25] ??偟膩碚f, 基金資助的科學產出預測和新興趨勢預測聯系較為緊密, 基金資助的科學產出預測可以看成是基于基金項目及其資助論文或者專利數據的新興趨勢預測問題。目前, 研究者利用基金項目、論文和專利數據進行新興趨勢預測研究產出了大量優秀成果[26-28] , 從數據源來看, 以單一論文或者專利數據為主, 部分研究者開始嘗試利用基金項目或者綜合利用基金項目、論文和專利等數據進行新興趨勢預測, 比如: 靜發沖等[29] 利用聚類方法對美國國家科學基金會資助的基金項目進行分析, 展示了各類主題的項目研究內容以及識別新興主題, Ye G 等[30] 利用基金項目數據進行研究前沿主題識別, 并利用演化可視化方法分析了研究前沿主題的發展趨勢; 從方法技術來看, 以關鍵詞、引文分析等文獻計量為主, 部分研究者開始嘗試利用機器學習(分類、回歸、主題模型等)[31-32] 、深度學習等(向量表示學習、神經網絡等)[33] 前沿技術進行新興趨勢預測, 比如: 梁繼文等[34] 基于LDA 主題模型和詞向量模型進行了知識單元重組視角下的科學主題預測; 魏明珠等[35] 結合知識圖譜和深度神經網絡模型提出了新興技術預測方法,通過訓練產業新興技術預測模型, 實現了產業新興技術精準預測。概括來說, 目前基金資助的科學產出預測相關研究仍存在一定的不足, 比如: 數據的局限(通常依賴于已發表、高被引的論文數據)、預測方法和指標的局限(需要將更多的因素指標考慮進科研預測模型中, 提高預測的準確性)。
綜上所述, 基金資助的科學產出評估與預測是一個復雜而多維度的任務, 單一的評價指標可能無法全面反映基金項目及其資助科學產出的價值, 而僅通過論文數量、被引量等外部數量特征也難以有效進行科學產出預測。因此, 本研究擬采用多種指標和方法相結合的綜合評估、預測方式, 旨在對基金資助的科學產出評估和預測問題進行探索, 具體從研究主題的角度切入, 基于基金項目及其資助論文數據(根據基金號, 獲取基金項目所資助的論文),評估基金資助的科學產出主題并預測其發展趨勢,具體從投入、產出兩個方面, 全面地評估NSF 基金項目的科學創新和產出表現, 然后通過建立預測模型預測論文主題未來的內容和影響力, 以期提高科學產出評估和預測模型的準確性與實用性, 為科研資助和管理提供支持。
2 方法框架
基金主題和資助的論文主題之間的關系可以被看作是一個相互反饋、相互影響的科學創新系統,通過這種相互反饋關系, 基金主題和資助的論文主題可以在系統中相互影響、相互作用, 在時間維度上關聯式演化, 解決不斷變化的科學問題。其中,基金項目對論文的發表起著重要引導、推動作用,并且論文發表的數量、被引次數、社交媒體轉發數和新聞媒體轉發數等也可以反映基金項目的科學產出質量, 此外, 基金資助通常會考慮到科學研究的新興趨勢、前沿熱點問題, 從而引導研究者在特定主題方向進行研究。
基于上述分析, 本研究設計了基金資助的科學產出主題評估和預測方法, 基本框架如圖1 所示,具體可以分為3 個主要步驟: 首先, 基于LDA 模型識別出基金項目及其資助論文中蘊含的研究主題; 然后, 根據主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力等指標, 構建基金資助的科學產出主題綜合評估模型; 最后, 基于深度學習方法從主題熱度和主題內容兩個維度對基金資助的科學產出主題進行預測。
2.1 基于LDA 模型的基金項目及其資助論文主題識別
本研究利用LDA 模型[36] 進行基金及其資助論文主題識別, 其中, 最優主題數量通過一致性分數、困惑度指標和人工判讀確定。LDA 模型中引入了隱變量來描述文檔的主題分布以及主題的詞分布, 從而將文檔的語料庫建模為一個概率模型, 聯合分布概率表示了LDA 模型中的概率分布關系,具體聯合分布概率如式(1) 所示。
P(θ,φ,w)= P(θ)P(φ)P(w |θ,φ) (1)
其中, P (θ) 是文檔—主題分布的先驗分布,通常假設為Dirichlet 分布; P(φ)是主題—詞分布的先驗分布, 也通常假設為Dirichlet 分布; P(w |θ,φ)是給定文檔—主題分布和主題—詞分布條件下, 生成文檔的詞分布的似然函數。
2.2 基金資助的科學產出主題評估指標
如何有效評估基金資助的科學產出主題是一個值得深入分析的問題。首先, 主題資助金額能夠反映該主題被認為具有的重要性和研究潛力, 以及為其提供足夠的資源和支持的程度; 其次, 主題資助期限可以體現不同主題的研究時間需求, 確保足夠時間進行深入研究和取得科研成果; 第三, 主題熱度作為一個衡量指標, 可以反映科研領域中的研究熱點和關注度, 為資源分配和科學研究的發展提供指導; 第四, 主題質量評估重點考慮研究的嚴謹性、數據可靠性和結果解讀的準確性, 以提高科學產出的質量和可信度; 最后, 主題影響力指標可幫助評估研究成果對學術界和社會的影響程度, 體現科研成果的實際應用和引領性。
基于以上深入分析, 通過對基金資助的科學產出主題評估的綜合考慮和基本指標選擇原則(目標相關性、真實性和可靠性、可操作性、多樣性和可衡量性), 本研究綜合基金項目及其資助的科學產出(論文)內部、外部特征, 并結合主題識別結果(主題—文檔矩陣), 提出了基金資助的科學產出主題評估指標體系(主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力5 個指標), 并以各個指標為基礎設計了基金資助的科學產出主題綜合評估模型。
基金資助的科學產出主題評估指標的理論依據主要有: ①生產函數理論[37] , 生產函數理論是經濟學中用來描述投入和產出關系的經典理論, 在基金資助和科學研究中, 可以將科學產出視為一種“生產”, 投入的是資源(如時間、資金、人力等),產出的則是期刊論文、專利等成果, 根據生產函數理論, 一定的資源投入可以帶來一定的產出, 因此可以通過對比資助金額和其他相關指標來評估資助的效果和產出; ②創新擴散理論[38] : 創新擴散理論是社會學中用來描述新事物在人群中傳播和接受過程的經典理論, 在科學研究中, 可以將科學產出的擴散視為一種“接受”, 通過分析科學產出的下載量、引用次數和影響力等指標, 可以評估科研論文的影響力和價值。
本文提出的基金資助的科學產出主題評估指標如下:
1) 科學產出主題資助金額指標
資助金額是指基金項目的研究經費數額, 通?;痦椖康馁Y助金額是由評審專家評估項目的科學價值和可行性, 并結合相關的經費預算和分配政策來決定的, 能在一定程度上反映基金項目的重要程度。
科學產出主題資助金額指標(Topic Funding In?dex, TFI), 旨在通過基金資助的科學產出主題相關資助金額來測度科學產出主題的資助力度(具體根據各個論文標注的基金號獲取相應的資助金額, 進而可以計算得到相應主題資助金額)。具體計算方法如式(2) 所示。
其中, TFIi 、TTIi 、THIi 、TQIi 和TIIi 分別表示科學產出主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力指標, i 表示主題序號,i∈{0,1,2,…,正整數}, j 表示任意主題相關論文的序號, j∈{1,2,3,…,正整數}。
2.3 基金資助的科學產出主題預測
在基金資助的科學產出評估基礎上, 根據科學產出主題綜合分數進行排序, 然后利用深度學習方法(LSTM 模型和詞向量模型)分別對其進行預測分析, 具體將從主題熱度時間序列和主題內容兩個維度進行預測。
主題熱度趨勢預測思路: 使用TensorFlow 和Keras 建立長短期記憶網絡(Long Short-Term Memo?ry, LSTM)模型來預測未來幾年的主題熱度趨勢,并使用Matplotlib 庫繪制了預測結果和實際數據的折線圖。其中, 為了評價預測結果的準確性, 通過均方根誤差(Root Mean Squared Error, RMSE)進行計算, 計算方法如式(8) 所示。
主題內容趨勢預測思路: 從系統論角度來看,基金主題和資助論文主題之間的關系可以被看作是一個相互反饋、相互影響的科學創新系統, 基金主題內容會影響到資助論文主題內容, 但現實世界中變化和響應之間必然存在時間延遲(滯后效應),通過基金及其資助論文主題內容上的滯后, 所以,在一定程度上可以根據基金主題內容預測科學產出主題內容。由于近期(近兩年)基金項目中相關知識(詞匯)會向論文主題傳遞、擴散, 本研究的目標是抽取出這部分詞匯作為科學產出主題內容預測結果。具體將基于淺層神經網絡模型(Word2Vec 模型)將近兩年的基金項目文本表示為語義向量, 然后通過計算語義距離遠近來篩選出科學產出主題未來可能的內容詞匯, 從而預測未來一定時間的科學產出主題內容。
3 實證研究
3.1 數據來源
本研究的數據源自美國國家科學基金會的社會和經濟科學部、Web of Science 數據庫和Altmetric數據庫。在數據收集過程中, 首先獲取了美國國家科學基金會官網中提供的歷年基金數據(XML 格式), 對這些數據進行了解析、合并和格式轉換,篩選出了2013 年1 月1 日—2022 年12 月31 日社會和經濟科學部資助的基金項目, 得到4 013個基金項目; 然后, 據社會和經濟科學部資助的基金號構建了簡單、重復的檢索式(FG=1401525 OR FG=1407691 OR FG = 1411204ORFG = 1414342 OR……), 登錄Web of Science數據庫進行高級檢索并導出相應基金資助的論文題錄數據(XLS 格式),得到8 400篇基金資助的論文題錄數據; 最后, 抽取出WOS 數據庫中導出的對應論文DOI號碼, 使用Python爬蟲根據論文DOI 號抓取每篇論文的Altmetric數據。
3.2主題識別結果
在大小寫轉換、過濾停住詞等數據預處理基礎上, 利用LDA 模型主題識別, 通過一致性分數、困惑度指標和人工判讀綜合判定基金及其資助論文主題的最優主題數量, 然后經過處理, 共得到22個主題, 其中有7 個基金主題(NSF Topic,FT),15 個論文主題(Paper Topic,PT), 例如: 資源管理、決策分析、教育與健康和市場與經濟等基金項目主題; 能源與環境、政策與環境、數據模型和社會與氣候等論文主題。部分結果如表1 所示。
3.3 基金資助的科學產出主題評估指標計算結果
在主題識別結果基礎上,結合主題—文檔矩陣,根據本研究設計的主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力5 個指標統計主題的數量、質量和影響力等特征,從而得到各個主題的特征值, 進而利用科學產出主題綜合評估模型TCEM 對各項主題特征值進行計算,得到基金資助的科學產出主題評估指標計算結果,如表2 所示。
分析表2 可知, 根據基金資助的科學產出主題綜合評估模型TCEM 計算, PT_1、PT_8、PT_11、PT_3、PT_10 和PT_13 等主題具有較高的投入產出比, 說明這些主題在投入同樣的經費和時間前提下能夠產出更多高質量、高影響力的論文成果, 所以將這些科學產出主題的綜合評估等級判定為等級1。
此外, 為了分析不同綜合評估等級的科學產出主題之間的相互關系, 本研究在各個指標特征基礎上, 利用t-SNE 降維算法結合可視化方法將科學產出主題的五維指標特征進行降維并映射到二維空間中, 結果如圖2 所示。
圖2 中, 圓點表示科學產出主題, 原點顏色由綜合評估等級確定, 原點大小由TCEM 值確定, 根據各個科學產出主題的綜合評估等級分布可以大致將整個二維空間分為優秀(Excellent)、良好(Good)、一般( Fair) 和合格( Pass) 4 個等級區域, 結合TCEM 結果可知, 具有相近TCEM 值的科學產出主題更傾向于分布在同一等級區域。其中, TCEM 等級為1 的科學產出主題中, 除了PT_10 都分布在優秀(Excellent)區域, 在一定程度上說明基金資助的科學產出主題評估指標降維結果具有一定的實踐價值。在實踐工作中, 對于投入產出比更高的科學產出主題進行預測具有更高的性價比, 所以, 本研究將以綜合評估等級為1 的科學產出主題為例進行預測分析。
3.4 科學產出主題熱度預測分析
按照方法框架所述步驟, 導入所需的Tensor?flow、Keras 和Matplotlib 等工具包, 構建了基于長短期記憶神經網絡LSTM 的時間序列預測模型, 對PT_1: 政策與環境、PT_8: 科研發展與實踐、PT_11: 健康與社會發展、PT_3: 氣候與資源、PT_10: 健康風險應對、PT_13: 決策行為等科學產出主題熱度趨勢進行了預測。具體調用train_model函數進行模型訓練并得到預測結果, 將預測結果和實際數據繪制成折線圖, 結果如圖3 所示。
圖3 展示了基于長短期記憶神經網絡LSTM 模型的預測結果和實際數據之間的比較。分析均方根誤差RMSE 結果可知, RMSE 值都位于0 和1 之間并接近于0, 最大值為0 0191, 表示模型效果較好; 并且通過觀察可知預測數據的趨勢和實際數據在趨勢和波動方面較為一致, 訓練得到的LSTM 模型可以較好地擬合科學產出主題熱度時間序列的變化趨勢。
從主題熱度趨勢預測結果來看, 綜合評估等級為1 的科學產出主題熱度普遍呈上升趨勢, 其中,PT_1: 政策與環境、PT_8: 科研發展與實踐、PT_3: 氣候與資源3 個主題的上升趨勢更加明顯, 說明這幾個科學產出主題發展趨勢良好并且投入產出比較高, 值得投入更多政策、經費支持進行優先布局和重點支持。本研究將在具體內容維度對綜合評估等級為1 的科學產出主題進行預測分析。
3.5 科學產出主題內容預測分析
在科學產出主題熱度預測分析結果基礎上, 本研究基于淺層神經網絡Word2Vec 模型將近兩年的基金項目文本表示為語義向量, 然后通過兩兩計算詞匯之間的語義距離遠近來篩選科學產出主題未來可能的內容詞匯(僅保留了語義距離Top3 的詞匯), 從而預測未來一定時間的科學產出主題內容,其中, 對PT_1: 政策與環境、PT_8: 科研發展與實踐、PT_11: 健康與社會發展、PT_3: 氣候與資源、PT_10: 健康風險應對、PT_13: 決策行為等科學產出主題熱度內容預測結果, 如圖4所示。
圖4 中, 各個科學產出主題內的10 個紅色詞匯為主題原始詞匯, 嵌套圓內的3 個黑色詞匯為計算得到的語義距離Top3 的基金項目詞匯, 為各個科學產出主題的內容預測結果。本研究將結合上一步科學產出主題熱度預測分析結果, 以PT_1: 政策與環境、PT_8: 科研發展與實踐、PT_11: 健康與社會發展3 個科學產出主題為例, 進行科學產出主題內容預測分析。
PT_1: 政策與環境: 從主題熱度預測趨勢來看, 該主題呈現明顯的上升趨勢, 具有較好的發展勢頭。從主題內容預測結果來看, 未來兩年可能重點關注政策測試(Policy Test) 和政策研究(PolicyStudy); 健康領域(Health)的政策也將成為研究的焦點; 政策制定過程中人權(Human Rights)的相關議題, 特別與政治(Political)和法律(Law)相關的議題將獲得更多關注; 在環境方面, 氣候變化(Climate Change)將持續成為重要議題, 相關詞匯可能包括氣候變化的相互作用( Climate Interac?tion)、氣候變化的多樣性(Climate Multiple)以及氣候變化的具體變化(Climate Changes)等; 環境相關的調查研究(Survey)也可能涉及經濟(Economic)和發展(Develop)等詞匯; 此外, 可持續發展和創新(Innovation)將在未來兩年內成為該主題的重點研究內容。
PT_8: 科研發展與實踐: 從主題熱度預測趨勢來看, 該主題同樣呈現明顯的上升趨勢, 具有較好的發展勢頭。從主題內容預測結果來看, 在未來兩年中, 凝聚力(Cohesion)、技術改進(Improve)、過程組織(Organization)、方法改進(Improve)和綜合發展(Include)將成為重要研究內容; 研究者對科研文章的邏輯結構和信息銜接的關注(Cohesion)將增加, 以提高文章的可讀性和科學價值; 探索新技術如何改進科學研究和實踐方法(Improve)將是熱門方向; 此外, 研究者還可能關注如何組織和優化科研工作流程(Organization)以提高效率和質量,以及改進研究方法和策略(Approach)以提高研究的可靠性和創新性。
PT_11: 健康與社會發展: 從主題熱度預測趨勢來看, 該主題呈現先下降再上升的明顯的趨勢,具有一定的發展潛力, 這可能和全球范圍健康衛生事件轉好相關(相關下降), 并隨著人們對健康問題的重視, 相關研究逐漸開始增多。從主題內容預測結果來看, 在未來兩年, 社會公眾參與(Socialpublic)可能受到研究者的重視, 比如: 通過社交媒體平臺傳播公益信息和促進社會責任感; 社會健康(Social-health)問題也會引發更多討論, 利用社交媒體傳播健康意識和鼓勵健康行為; 社會資本(Social-capital)的重要性也會引起關注, 包括發展社會網絡、社區組織和社交技能等; 此外, 數據分析(Analysis)和人工智能技術將在社會健康領域發揮重要作用, 通過識別(Identify)、檢查(Examine)和學習(Learn), 可以更好地了解社會健康問題并為決策提供指導, 這些趨勢的發展將推動社會的健康發展和社會的可持續發展。
3.6 討論
本研究提出了基金資助的科學產出評估和預測方法, 綜合運用了文獻計量、數理統計、機器學習和可視化方法, 建立了相關的評估指標和預測模型,通過美國國家科學基金會社會和經濟學部的基金項目及其資助論文的實證, 在一定程度上驗證了方法的可行性和有效性, 對于優化基金資助效果、提高科學研究質量, 以及科研管理部門優選布局方向、優化資源配置等具有一定的理論和實踐指導意義。
首先, 本研究提出了主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力5 個指標, 并以之為基礎設計了基金資助的科學產出主題綜合評估模型, 可以有效評估基金資助的科學產出主題的投入產出比; 其次, 本研究利用LSTM 和Word2Vec模型進行基金資助的科學產出主題時序和內容的預測是合理、有效的, LSTM 模型可以捕捉到主題演化的模式和規律, 并用于預測未來主題的發展走向, 這種方法在時間序列預測領域有較高的可靠性和效果。Word2Vec 模型能夠將單詞轉換為密集向量表示, 具有保留詞義和語義關系的能力,對于主題內容的預測, 可以使用Word2Vec 模型來學習主題詞匯之間的語義關聯, 并在新的主題中預測相關的關鍵詞或主題詞。這種方法能夠豐富情報分析人員對科學研究主題的理解, 并有助于發現主題之間的關聯和新興方向的隱含主題。
但是, 本研究也存在一定的不足。比如: 數據涉及基金項目、論文和替代計量數據, 在收集方面可能受到限制, 雖然本研究通過數據清洗、去重、排除異常值等方式, 提高了數據的可靠性和準確性,但數據丟失、空值等可能仍會對研究結果具有一定影響; 在科學產出主題預測部分, 分為主題熱度和主題內容兩個方面, 雖然可以增加分析的維度, 但是在具體解讀工作中做好兩者的整合對于情報工作者的情報分析能力具有一定的要求。
4結語
本研究提出了基金資助的科學產出評估和預測方法, 綜合主題資助金額、主題資助期限、主題熱度、主題質量和主題影響力5 個指標, 可以有效評估基金資助的科學產出主題的投入產出比, 并設計了基于神經網絡算法的主題熱度和主題內容預測方法, 可以實現基金資助的科學產出主題評估和預測。通過對美國國家科學基金會社會和經濟學部的基金項目及其資助論文的實證, 驗證了方法的可行性和有效性。該方法雖然可以有效評估和預測基金資助的科學產出, 但仍存在一定的局限, 一方面是對于數據源的要求較高; 另一方面對于情報人員的解讀能力也有一定的要求。在未來的研究中, 本研究將嘗試改進基于算法模型的評估和預測方法, 考慮采用更先進的機器學習算法或深度學習模型來提高預測的準確性和可靠性; 引入領域知識, 結合領域專家的知識, 將領域專家的解讀能力納入模型中, 以幫助更好地解析和理解科學產出數據。