










關鍵詞: 研究主題; 關系網絡結構; 科研合作者; 推薦; BERTopic 模型
DOI:10.3969 / j.issn.1008-0821.2024.08.012
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 08-0124-13
科研領域學者間的科研合作能夠有效推動科學研究問題的高效解決并顯著提高科研成果的質量[1] ,同時促進學者的科研產出量的提高[2] , 成為當前科研活動中的普遍現象。當代科學各分支學科在高度分化基礎上的跨學科屬性增強[3] , 高質量的合作能夠實現各學科領域資源共享與優勢互補, 有助于提升科研產出的學術影響力[4-5] 。因此, 面向尋求潛在科研合作對象的現實需求, 科研合作者推薦方法成為學界廣泛關注的研究熱點。當前科研合作者推薦方法多樣化、推薦視角多元化, 推薦目標多為發現潛在合作對象, 但是沒有充分考慮用戶科研合作需求的多樣性。例如, 跨領域學者希望合作者能夠彌補專業知識的不足, 科研領域新人更希望與領域內權威學者合作, 權威學者一般對新合作者的需求并不迫切等。合作需求的多樣性源于合作動機的多樣性, 覆蓋學者研究主題與學者合作關系網絡兩方面。為此, 本文在梳理科研合作動機的基礎上,以學者研究主題與關系網絡結構為支點設計指標,構建個性化合作者推薦方案, 為已有明確研究目標的科研工作者提供高自由度的個性化推薦服務, 以期為科研合作者個性化推薦方法的改進與完善提供可能的解決思路。
1 相關研究
1.1 科研合作動機
學者的科研合作動機復雜多樣, 受多種因素影響[6] : 一方面, 國家政策、機構體制、經濟文化發展水平、學科發展趨勢等外部因素在促使學者尋求合作共贏[7-8] ; 另一方面, 知識、技術、資源、目標等個人因素使學者尋求伙伴資源。例如, BeaverD D[9] 梳理了學者展開合作的18 個潛在動機, 包括獲取專業知識、接觸缺失的資源、提高聲望促進職業發展、提高生產力、建立或保持學術鏈接等。Me?lin G[10] 綜合半結構化訪談與問卷調查結果, 認為學者的合作動機有合作者具有特殊能力、數據、設備, 想要嘗試新方法以及出于社交關系、師生關系的需要。Birnholtz J P[11] 認為, 學者的合作傾向由兩部分決定: 一是合作能否提供專業的知識、儀器等研究所需的資源; 二是研究人員本身是否認為合作能夠幫助其提高個人聲譽、維護職業道路。Gar?cia A 等[12] 通過調研100 名拉丁美洲學者建立合作關系的動機, 得到學者合作動機來自尋求更重要的結果、提高生產力、提高成果知名度與認可度、獲得新方法或研究資源4 個目標。在國內, 馬鳳等[13]借鑒Melin G[10] 的結論構建問卷, 驗證了大部分學者的合作動機主要由兩方面構成, 一是合作者與其具有共同興趣或合作者可彌補自身知識儲備方面的不足。二是維持原有合作關系或為提高研究影響力尋求權威合作者。趙君等則將學者科研合作動機分為生產動機(提高效率)、經濟動機(降低科研成本)以及社會動機(提高學者聲譽)3 個部分[14] 。
此外, 全球化、科研跨學科屬性增強等發展趨勢下, 學者的跨國合作動機與跨學科合作動機也成為相關研究內容之一。1998 年, Georghiou L[15] 探究了國家層面的跨國合作動機, 認為對研究的直接利好與對參與者的間接利益是促成國家間合作的主要動機。Dusdal J 等[16] 對科研工作者的跨國合作動機進行研究, 認為除獲取資金、共享知識設備實驗室等資源、擴展關系網絡、提高知名度等外, 更多的個人原因在于維持與同行的友誼與提高科研產出。Maglaughlin K L 等[17] 通過半結構化訪談調研自然科學跨學科合作的影響因素, 并將其分為個人、資源、動機以及共同點4 類, 共20 個因素, 囊括擁有專業知識、擁有資金設備等資源、獲得發現并解決新問題的快樂等。
綜合上述研究, 合作者擁有更專業的知識, 合作以共享更多的設備、技術等資源, 維持原有關系,提升學者個人聲譽與學術地位等合作動機得到許多學者的認同。
1.2學者合作推薦方法
常見的學者合作推薦方法可分為3 類: 基于內容的推薦方法、基于結構的推薦方法以及結合前兩種推薦路徑的混合推薦方法。
基于內容的推薦方法通過對學者成果的內容進行分析以獲得學者的研究興趣, 進而比較學者研究興趣間的相似性, 為學者推薦與其興趣最相近的學者。常用的分析方法有文本挖掘、自然語言處理以及科學計量等, 多基于LDA 模型[18-19] 、Word2vec模型[20] 等主題模型進行分析。近年來, 部分學者進一步從動態視角深入探究學者研究興趣隨時間的變化情況[21-22] , 為學者個性化推薦模型提供了新視角。此外, 專家發現系統也被認為是一種重要的合作者推薦方法[23] 。
基于結構的推薦方法則是利用拓撲結構分析來挖掘學者間各種網絡關系, 通過比較節點相似性或預測節點鏈接的可能性以確定推薦與否, 多采用基于節點的推薦模型與基于路徑的推薦模型[24] 。基于節點的推薦模型常通過公共鄰居索引[25] 、隨機游走索引[26] 等方法計算節點間結構相似性, 為關系網絡中關系結構相近的學者推薦合作。例如, ChenY 等[27] 學者則改進隨機游走算法, 構建融合機構網絡和合著網絡的異構網絡, 通過“基于異構網絡的隨機游走” 獲得學者推薦結果。基于路徑的推薦模型則是通過鏈接預測的方法為可能產生直接路徑的學者推薦合作, 多采用相似性算法、最大似然法、概率模型[28]和堆疊模型等來實現。例如, Chi K 等[29]學者提出了一種基于節點間吸引力的動態網絡鏈路預測方法。
結合前兩種推薦路徑的混合推薦方法旨在通過更全面的考慮提供更準確的建議, 其結合方式較為多樣。部分學者將主題內容嵌入學者關系網絡, 基于對異構網絡的分析進行推薦, 例如, Chen J 等[30]構建包含協作關系和潛在語義關系的內容增強網絡嵌入模型, 為目標研究人員推薦相似合作者; LiuX Y 等[31] 將共同研究主題、學者間合著關系、引文關系以及現實地點關系嵌入異構網絡以實現科學合作者推薦。部分學者利用權重分配、投票得分等方式結合兩個方向的推薦結果, 例如, Xi X W 等[32]利用Word2Vec 模型基于上下文計算學者之間主題的相似性, 再利用Node2Vec 模型提取學者的網絡拓撲特征, 最后使用CombMNZ 方法融合兩個相似性度量的結果獲得潛在合作者推薦列表。還有部分學者借鑒其他領域知識與技術來實現推薦, 例如,Li P 等[33] 基于學者知識圖、用戶—學者交互網絡構建高級知識圖譜為學者推薦合作實體; 董文慧等[34] 構建用戶畫像, 綜合學者研究主題興趣與社會網絡為學者推薦合作者。
基于內容的推薦方法存在兩方面的問題: 一是相似性分析的準確性會受到不同主題分析方法對文本語義理解程度差異的影響。二是僅僅關注內容信息而忽視學者關系這一重要信息。基于結構推薦的方法存在以下問題: 其一, 與基于內容的推薦方法相反, 基于結構的方法常忽略學者節點的內容信息,如論文的語義、學者的學術課題等; 其二, 拓撲結構分析預測結果的解釋性較低。結合前兩種推薦路徑的混合推薦方法充分考慮了學者研究主題與關系網絡兩方面的內容, 但是其結合方法多樣, 援引理論繁多, 目前尚未形成一個被學界統一接受的理論框架。此外, 就當前已有推薦方法而言, 如何真正實現對合作者的個性化推薦仍是亟需突破的一大難題。
2 科研合作者推薦方案設計
2.1 推薦方案框架設計
鑒于數據的可獲取性以及指標的可量化性, 本文只考慮兩種代表性的合作動機, 并將其轉化為學者對合作者在研究興趣與專業知識儲備方面的需求, 以及學者維持原有合作關系或尋求權威合作者的需求。為此, 本文以學者研究主題內容與關系網絡結構為支點構建科研合作者個性化推薦方案, 所設計合作者推薦方案屬于混合推薦方法, 總體框架如圖1 所示。
首先, 將學者對合作者的需求分解為研究主題、權威影響兩個方面, 再對學科領域內學者的研究主題與學者合著關系網絡進行分析與利用。在研究主題方面, 本文針對主題相似、主題互補以及主題指定3 種主題合作類型分別設定一項推薦指標, 并給出計算方案。在關系網絡結構方面, 本文設定學者社會資本強度、備選學者與需求學者的合作可能兩項推薦指標, 并給出計算方案。最終, 綜合前述指標得出推薦得分最高的前k 名推薦合作者與各指標得分靠前的學者列表, 以供學者充分了解備選合作者信息并自主抉擇對結果的采納程度。
2.2基于學者研究主題的推薦指標設計
學者在尋找合作者時, 為彌補自身知識儲備的不足, 多對合作者擅長的主題有特定的要求。本文以主題相似、主題指定、主題互補3 種需求情境設計基于學者研究主題的并列合作者推薦指標。由于指標依托具體的研究主題, 需選用合適方法挖掘領域內科研主題。
Bert 是2018 年Google 提出的語言模型, 與LDA(Latent Dirichlet Allocation)主題模型相比, Bert 模型單獨對文檔進行嵌入式編碼, 克服LDA 主題模型忽略詞順序與深層語義的缺點, 所得詞向量泛化能力更強, 對文本中語義關系捕捉更充分[35] 。基于共同的詞向量, BERTopic 模型改進Top2Vec 主題模型的主題獲取方式, 相較其能夠更準確表達主題信息[36] 。同時, BERTopic 模型能夠給出在新文本中發現不同主題的概率, 幫助推薦方案進行針對性的主題分析, 更好地滿足其主題指定、主題互補的合作動機。因此, 本文選用Bert 的衍生主題模型BERTopic 模型挖掘領域內研究主題。
3實驗與結果分析
本文基于國內情報學領域對科研合作者推薦方案進行實證, 由于方案給出的綜合推薦得分依賴需求學者對方案進行個性化處理; 同時, 方案試圖展示學者全部推薦指標得分為學者提供決策支持, 無法獲得推薦成功與否、推薦方案被學者采納程度的直接結果。因而, 本文選擇以案例實驗的方式展示推薦過程與結果分析, 以展示推薦方案可被利用的角度與方案的可行性。
3.1數據來源及預處理
本文選擇中國知網作為國內情報學領域期刊文獻的來源數據庫。首先, 檢索中國知網中2007—2023 年刊登在中文社會科學引文索引(CSSCI)來源期刊上且中圖分類號為G35(情報學、情報工作)的期刊文獻, 并導出其題錄數據, 共獲得17030條題錄數據, 形成“總文獻數據集合”, 檢索時間截至2023年4月25日。其次, 為所有文獻與學者給定特定編號, 并以隸屬單位區分重名學者, 得學者17594名, 形成“總學者記錄集合”。學者的隸屬單位將由題錄中單位字段與學者字段獲得, 無法從字段記錄中獲得明確隸屬單位的學者, 則手動檢索、補充。進而, 篩選成果數量大于3 的學者并依據文獻題錄作者字段記錄符合條件的學者間的合作關系,用以構建學者合作關系網絡。得符合條件的學者1 943名, 其總產出文獻10 727條, 彼此間合作產出文獻4706條。篩選的目的在于減少向科研工作者們推薦碩士生、未畢業博士生以及偶然跨學科學者的情況, 同時減輕基于關系網絡結構的推薦指標運算負擔。最后, 將“總文獻數據集合” 中所有文獻題錄的標題字段與摘要字段作為研究文檔, 并對其進行分詞、去標點符號以及去停用詞等預處理。上述過程所得數據集與數據量如表1所示。
3.2情報學領域主題模型框架建立
本次實驗選擇來自國內哈工大與科大訊飛研究聯合實驗室的Bert 中文預訓練模型“chinese-Ro?BERTa-wwm-ext”, 該預訓練模型繼承原RoBERTa預訓練模型魯棒性強的優勢, 同時能夠更好地適應中文語境[48] 。在Python 中將已處理好的研究文檔嵌入Bert 中文預訓練模型“chinese-RoBERTa-wwmext”,并對所得文檔向量進行降維與聚類, 調節兩環節參數, 解決初始聚類結果粒度過細、情報學信息蘊含不清晰等問題, 最終獲得主題94 個。模型對情報學有關主題的挖掘較為準確, 非情報學相關主題較少, 94 個主題覆蓋情報學理論與方法、情報學教育、競爭情報、技術創新與識別、學科知識流動、政治政務公開與治理、國家安全、圖書館領域相關、文獻計量與替代計量學、學者或期刊評價、輿情評論監控、智庫相關、知識抽取、本體語言、信息檢索與檢索系統等多個方面, 每個方面由多個主題進一步細分, 主題粒度適中, 不同主題間區分明確。
3.3學者合作關系網絡構建
選擇“產出超3 的學者間合作記錄集合” 作為學者關系網絡超圖的數據來源, 以學者為節點、學者間合作記錄為邊, 構建學者合作關系網絡超圖,得學者節點1 766個, 超邊4 706條。產出超3 的學者有1943名, 然而有177 名學者的所有合作對象符合要求的產出都不足3,故其不在“產出超3 的學者間合作記錄集合” 中, 將其以孤立點加入學者合作關系網絡超圖。由于學者節點過多, 僅展示學者鄧三鴻與其他學者的部分合作記錄, 如圖2 所示。
依據基于關系網絡結構的推薦指標, 計算關系網絡超圖中學者的結構維度社會資本強度。
3.4案例分析與推薦結果
選擇《科技情報研究》于2023年10月刊登的文獻“多源異構數據視角下的學術評價: 內涵、進展與展望” 為實證案例[49], 其由學者鄧三鴻、楊杰、王昊以及沈健威共同產出, 本文以該文獻第一作者鄧三鴻為需求學者, 學者王昊為備選學者, 由于楊杰為在讀博士、沈健威為專業技術人員, 不在備選學者數據庫內, 不將其作為備選學者。在本次實驗案例中, 將圍繞兩部分得分進行推薦結果分析,在實際應用中, 應由尋求合作者的學者提供研究主題與關系結構兩部分推薦得分相結合的權重α 值。
首先, 獲得所有備選學者在研究主題方面推薦指標。將所選用文獻的標題與摘要作為學者鄧三鴻提出的研究描述, 具體描述如下:
“多源異構數據視角下的學術評價: 內涵、進展與展望。綜合多源異構數據的學術評價與科學計量方法逐漸發展成為領域熱點, 目前對于多源異構數據視角下的學術評價缺乏系統的理論探討。針對多源異構數據利用不充分、研究方法不妥當、研究目標不明確等問題, 文章梳理多源異構數據視角下的學術評價發展狀況、厘清領域內涵及外延、分析領域前沿和熱點。研究發現, 在多源異構數據視角下, 學術評價領域呈現出數據維度增加、數據粒度細化、評價指標復雜化等趨勢。多源異構數據視角下的學術評價內涵界定、現狀分析與未來展望, 對于澄清領域認知、辨析相關概念、明確研究路徑與方法論基礎, 以及構建中國特色的學術評價體系有著重大意義”。
基于已構建好的BERTopic模型, 獲得上述研究描述所涉及的主題類別及其可能概率, 如圖3所示。
按主題類別從小到大的順序, 將對應的可能概率排序并形成向量, 即為研究描述主題文檔概率→p =( 0.01509406, 0.01513423, 0.0193932, 0.01968422,0. 01786734, 0.03460608, 0.01712272, 0.0165137,0.02054663, 0.0176196, 0.01595388, 0.01742257,0.01765436,0.02613466,0.01946489,0.01602702,0.01887774)。按照基于研究主題的推薦指標計算方案, 計算3 個指標下前15 名距離最短的備選學者, 學者列表如表2所示。
學者王昊在主題相似型指標中排名較前, 同時在主題指定型、主題互補型指標中距離為1.057787、1.048493,分別排在第28、32 名。在主題指定的要求下, 按主題指定型推薦指標的計算方法, 學者鄧三鴻與研究描述的距離為0.798533,說明在案例研究所涉及的主題中, 學者鄧三鴻屬于權威學者,不選擇在主題指定型指標、主題互補型指標中排名靠前的學者是可以被接受的。
發現學者邱均平在主題指定的要求下, 與研究描述的距離為0.608052543, 其與學者鄧三鴻在假設合作的情況下, 團隊與研究描述的距離為0.563794142,可知當學者鄧三鴻與邱均平達成合作后, 團隊與研究描述的距離都有較大的縮短, 同理還有學者馬海群、蘇新寧。因此, 從主題擅長、知識儲備的角度來看, 學者可以將邱均平作為可考慮的合作對象。
在關系網絡結構方面, 基于學者合作關系網絡超圖, 計算學者鄧三鴻與備選學者的合作可能與備選學者的, 前15名推薦學者結果列表如表3所示。
在關系網絡方面, 學者王昊的推薦得分較高,位于第4名。結合學者王昊與學者鄧三鴻曾有過多次合作的情況, 推測學者王昊與鄧三鴻研究領域、主題重合較高, 關系較為密切, 彼此間已形成穩定的合作關系。學者可從以下角度利用本方案所提供信息: 從主題角度出發判斷原有合作者與研究目標是否契合、是否有更契合的新合作者、新合作者對團隊的增益是否值得打破原有合作關系; 再從關系網絡結構的角度, 判斷與該學者合作的可能與否。例如, 學者邱均平、馬海群、蘇新寧在主題上都能夠使團隊更接近研究目標, 在關系與權威方面, 學者邱均平與蘇新寧的優勢大于其他學者。從主題與關系網絡兩方面綜合來看, 學者可以將邱均平、蘇新寧視作可嘗試的合作對象。
4總結與展望
與以往合作者推薦方法向學者推薦潛在合作者、可能合作者或過往合作中最具價值的合作者的情況不同[50] , 本文所構建的科研合作者推薦方案以學者合作動機為切入點, 支持學者為具體研究主題與需求尋找合作者, 同時推薦結果中既有曾經的合作者, 也有新的推薦合作者。學者既可以了解新的、尚未合作過的合作者, 拓展合作范圍, 又可以橫向對比曾經的合作者, 以決定是否仍需維持原有合作。
在研究主題方面, 本文應用最新主題模型BER?Topic 識別領域內的學者的研究主題, 該方法對文本語義理解程度更加深入, 對主題信息表示更加準確。在關系網絡結構方面, 基于充分反映學者實際合作情況的超圖結構構建學者合作關系網絡超圖,并從學術關系網絡的結構維度社會資本視角對其進行挖掘。方案創新性地將前兩部分內容以學者按需提供的權重線性結合, 使得方案能夠為學者提供高度個性化的推薦服務, 同時過程清晰且可解釋性較強。實驗結果表明, BERTopic 模型能夠較為準確地識別領域內情報學相關主題, 同時關系網絡部分準確挖掘出學者關系網絡可達范圍內社會資本強度更高的備選合作者, 證實本文所構建的模型具有一定的可實踐性。
從跨領域學者到權威學者, 本文所提推薦方案都可以提供個性化推薦服務。通過自主選指標、定權重等環節個性化推薦方案框架的設計, 過程簡潔、可操作性強, 一定程度上實現了為已有明確研究目標的科研工作者提供高自由度的推薦服務的目標,為科研合作者推薦方法的個性化探索提供可能的解決思路。與此同時, 本文尚存在一定不足。本文僅針對情報學領域展開實踐, 事實上情報學領域與圖書館學領域的期刊重合度較高, 分類號G25 與G35在內容上有一定重合, 并且部分學者更傾向于發表外刊, 僅基于中國知網中的中文社會科學引文索引(CSSCI)來源期刊使得實驗的數據來源不夠全面,這可能對學者結構維度社會資本的測量準確性造成一定影響。但是, 對能夠獲取全來源數據的數據服務商而言, 可對本文所提推薦方案進行一定嘗試。