熊回香,李曉敏,杜 瑾
(華中師范大學信息管理學院,武漢 430079)
近年來,大數據時代已經滲透到學術界,使得學術界產生了大量的學術數據[1]。學術數據如學術論文、學位論文、會議論文、基金項目、專利以及學者信息等,均成為相關研究如學術合作[2]、學者推薦[3]、論文推薦[4]等重要數據來源。學術數據的實體主要是學者和論文,學者數據有學者的基本屬性,如所屬機構、聯系方式、研究方向等;論文數據有關鍵詞、摘要、題名、全文等文獻元數據以及論文反映出的合作、引用關系等,通過對這些學術數據進行分析挖掘展開學術研究。而且學術數據也為科研用戶查詢和了解自己感興趣的學者提供了便利。然而,隨著科研用戶和科研成果數量的增加,不可避免地出現了學術數據信息過載的現象,這無疑增加了科研用戶的負擔,而科研用戶由于諸多條件(如時間、空間等)的限制,難以在有限的條件下方便、快捷地找到與自己興趣相同的科研用戶,以便從中獲取感興趣的資源或尋求潛在合作者。因此,對挖掘學者需求、為學者推薦研究領域相似的學者的研究越來越成受到情報學領域的關注。
目前,關于學者推薦的研究,主要集中在基于研究內容的推薦和基于關系網絡的推薦。在基于研究內容的推薦中,主要是運用LDA(latent Dirichlet allocation)主題模型以及其改進模型、向量模型、概率模型等對學者的學術文本進行挖掘,找到研究內容相似的學者。文獻[5]對作者-關鍵詞耦合網絡進行社區劃分,在同一個社區內,利用LDA模型計算作者相似度,完成科研合作推薦;文獻[6]利用在LDA模型基礎上改進的AT(author-topic model)模型分析專家知識結構,并與學術影響力結合,實現專家推薦;文獻[7]提出了LDA模型改進后的跨領域主題學習模型CTL(cross-domain topic learning)實現學者推薦;文獻[8]對作者論文進行稀疏分布式表征,根據相似性排序進行推薦;文獻[9]借助概率模型實現專家推薦,并且在實驗數據集上進行了有效性驗證。在基于關系網絡的推薦中,包括基于合著網絡、引文網絡、關鍵詞網絡或者多種網絡結合的推薦。文獻[10]利用網絡表示學習在合著網絡中對研究者進行向量表示,計算相似度從而實現推薦;文獻[11]針對大規模的科研合作網絡,提出了一種融合節點位置信息和網絡結構信息的科研合作推薦模型;文獻[12]利用論文間的引用與被引用關系構建學者推薦模型;文獻[13]構建共引網絡,基于共引頻次越高的作者研究內容越相似的思想生成推薦;文獻[14-15]利用作者與關鍵詞之間的共現關系計算作者的相似度,生成學者推薦;文獻[16]構建了作者-關鍵詞二分網絡上,基于路徑組合的合著關系預測;文獻[17]利用表示學習和歐幾里得距離對多種共現網絡進行向量表示和關聯強度計算,挖掘潛在合作對象。目前,相關研究在利用關鍵詞進行學者推薦時,主要利用關鍵詞的關系網絡進行推薦,單純使用絕對共現關系,未考慮關鍵詞之間的語義關聯,會導致使用不同關鍵詞但研究內容相似的學者計算出的相似度較低,推薦結果不夠準確。在利用共被引或者共引關系計算學者相似度推薦學者時,未考慮引用或被引用的相對位置,單純地使用頻次表示引用強度,會弱化研究方向極其相似的學者間的相似度,提升研究方向相關性較弱的學者間的相似度。因此,本文在利用關鍵詞進行學者推薦時,考慮了關鍵詞之間的語義關聯,并將被引量和署名次序兩個計量指標引入學者特征詞的篩選中,將共被引關系按照共被引的相對位置劃分不同的層次。兩種方式計算的相似度進行整合,實現學者推薦。
本文構建的推薦模型包括數據收集、數據預處理、基于學者特征詞的相似度計算、基于學者共被引關系的相似度計算和學者推薦共五個部分。具體的模型框架如圖1所示。

圖1 學者推薦模型框架
本文構建的推薦模型核心是學者相似度的計算,學者相似度計算包括兩部分,分別是基于學者特征詞的相似度計算和基于學者共被引關系的相似度計算。在基于學者特征詞的推薦中,學者特征詞是通過對學者關鍵詞篩選得到的,將被引量和署名次序這兩個計量指標與TF-IDF(term frequency-in‐verse document frequency)算法結合,對學者關鍵詞進行篩選,選擇權重值靠前的關鍵詞作為學者特征詞;利用word2vec詞向量模型將特征詞向量化形成特征詞向量;再利用余弦相似度計算學者間基于特征詞的相似度,形成學者間相似度集合A。在基于共被引關系的推薦中,考慮學者共被引的相對位置關系,將共被引分為四個層次,不同層次賦予不同的權重,構建學者共被引矩陣;再計算學者間Spearman相關系數作為學者基于共被引關系的相似度,形成學者間相似度集合B。將學者相似度集合A與學者相似度集合B按照一定的權重整合,形成組合相似度,最后選擇組合相似度靠前的n位學者實現學者推薦。
學者發表的論文最能反映其研究興趣和專長,而學術論文的關鍵詞是對論文內容的高度概括,因此,學者的研究興趣可通過其發表論文的關鍵詞集合進行表征。在利用關鍵詞進行學者興趣表征時,需要對關鍵詞進行篩選,選擇權重較大的關鍵詞。本文在計算關鍵詞權重時,首先,將被引量與署名次序這兩個計量特征以及TF-IDF算法識別的內容特征結合進行權重計算,得到學者特征詞;其次,利用word2vec模型向量化表示;最后,利用余弦相似度計算學者特征向量的相似度,生成相似度集合A。
3.2.1 學者特征詞選擇
1)基于計量指標的關鍵詞權重計算
論文被引量和署名次序通常被用來評估學者的影響力,被引量反映的是學者學術成果的質量以及被同行認可的程度;署名次序反映的是作者對論文的貢獻程度,一般認為作者排名越靠前,貢獻度就越大。論文關鍵詞側重于對論文內容的高度凝練,在利用關鍵詞對學者進行表征時,融入被引量和署名次序兩個計量指標。某篇論文被引量越大,作者在該篇論文反映的研究方向上越有影響力。融入被引量能夠更好地識別學者擅長的特征詞。署名次序能夠削弱位置靠后的作者對論文的貢獻度。同樣地,融入署名次序減弱了“掛名現象”給學者特征詞識別帶來的影響,能夠更準確地識別學者特征詞。計算方式為

其中,i表示學者的論文序號;Wtij表示第i篇論文的第j個關鍵詞計量權重;n表示學者的發文量;fi表示第i篇論文的被引量;ki表示學者在第i篇論文的署名次序。計算得到每篇論文的每個關鍵詞權重之后,可能會出現同一關鍵詞出現在同一學者的不同論文中的情況,此時,將相同關鍵詞權值進行累加求和,得到各個關鍵詞的計量權值。
2)基于內容的學者特征詞
TF-IDF算法是一種較為常見的權值計算方法,從學者關鍵詞集合的內容特征上識別學者特征詞。TF表示詞頻,IDF表示逆文檔頻率,TF-IDF用來計算學者關鍵詞集合中某個關鍵詞的權值。計算方法為

其中,i表示學者關鍵詞序號;Wt i表示關鍵詞ti內容權重;tf(ti,d)表示關鍵詞ti在學者關鍵詞集合d中出現的頻次;|D|表示學者論文數;df(ti)表示學者論文數中包含關鍵詞ti的論文數。
3)學者特征詞篩選
將基于計量指標計算得到的關鍵詞權重和利用TF-IDF算法計算得到的關鍵詞權重按照

進行整合,得到最終的關鍵詞權重。將關鍵詞按照整合后的權重值進行排序,取排名靠前的20個關鍵詞作為學者特征詞。
3.2.2 學者特征詞表征及相似度計算
在得到學者特征詞之后,需要將特征詞轉換成向量。傳統的獨熱表示(one-hot representation)僅僅將詞符號化,不包含任何語義信息,構建的詞向量矩陣比較稀疏;而基于神經網絡的分布式表示可以根據上下文與目標詞之間的關系進行建模,具有代表性的是word2vec模型[18]。word2vec通過神經網絡訓練語言模型,將每個詞映射為低維度的實數向量。word2vec模型包括skip-gram模型和CBOW(contin‐uous bag-of-words model)模型。skip-gram根據目標詞推斷上下文,適合處理較大規模的語料;而CBOW則與之相反,已知上下文預測當前詞,適合處理較小規模的語料。由于本文語料規模較小,因此,選擇CBOW模型進行訓練。模型訓練好之后,將學者特征詞轉換成詞向量,對詞向量相加取平均,即可得到學者的特征向量。在得到學者特征向量之后,利用余弦相似度公式計算學者間的相似度,得到學者間基于特征詞的相似度,形成相似度集合A。
當兩位作者的學術論文同時被同一篇論文引用時,稱這兩位作者間存在共被引關系。能夠形成共被引關系,說明兩位作者在某個研究主題的概念、理論和方法上是相關的。因此,通過挖掘作者間的共被引關系,能夠幫助作者找到研究方向相似的作者,從而形成學者相似度集合B。
共被引研究的是兩位學者共同被引用的情況。傳統的學者共被引分析構建的學者共被引矩陣是0-1矩陣,即如果兩位學者同時被一篇文獻引用,那么共被引矩陣中填寫1;反之,則為0。傳統的學者共被引分析未考慮共被引的相對位置距離。本文借鑒文獻[19]提出的基于位置的共被引分析,將共被引的位置分為句子層、段落層、章節層和文章層四個層次,依次賦值為4、3、2、1。若同一作者的同一篇文獻在同一篇文章中多次出現,則取相對位置最近的賦值;若同一作者的多篇文獻在同一文章中出現,則仍取相對位置最近的賦值;若兩位及兩位以上作者的多篇文獻在同一文章中出現,則仍取相對位置最近的賦值。三種情況下各自的權值均不進行累加。得到學者共被引矩陣之后,利用Python代碼計算學者間的Spearman相關系數。
上文中得到學者間基于特征詞的相似度集合A和基于共被引關系的相似度集合B,將兩種相似度以一定的比重相加,得到最終的學者相似度,選擇最終相似度靠前的15位學者進行推薦。整合方式為

其中,Sim表示整合后的相似度;Simitem表示基于特征詞的相似度;Simcit表示基于共被引關系的相似度。
由于本文需要用到的數據包括論文篇名、作者、機構、關鍵詞、摘要以及參考文獻,因此,以CSSCI(Chinese Social Sciences Citation Index,中文社會科學索引)數據庫和CNKI(China National Knowledge Infrastructure,中國知網)為數據源進行數據收集。對比CSSCI來源期刊目錄(2014—2016)、(2017—2018)及(2019—2020)可知,情報學領域中的《現代情報》和《信息資源管理學報》在CSSCI來源期刊目錄(2014—2016)中均不是核心期刊,而本文期刊數據來源的時間周期為2014—2018年,《現代情報》和《信息資源管理學報》從CSSCI數據庫中導出的數據不完整,因此,從CSSCI來源期刊目錄(2019—2020)情報學領域12種核心期刊中,除去《現代情報》和《信息資源管理學報》,選取其余10種核心期刊《中國圖書館學報》《情報學報》《圖書情報工作》《數據分析與知識發現》(2016年改名)、《情報理論與實踐》《情報資料工作》《情報科學》《情報雜志》《圖書與情報》和《圖書情報知識》在2014—2018年5年間刊載的論文,CSSCI數據庫自動導出論文篇名、作者、機構、關鍵詞以及參考文獻,CNKI自動導出論文的摘要。
從上述數據庫導出的數據會包含一些沒有參考文獻的文章,如專題引言、專題序、卷首語等,故將其進行刪除。對導出的其余數據需要進行如下處理:首先,對導出的摘要利用Python中jieba分詞包進行分詞,分詞過程中,加入哈工大停用詞表,過濾掉無實際意義的詞,且為保證能夠正確切分,將涉及的專有名詞加入用戶自定義詞典;其次,對導出的關鍵詞進行規范化處理,包括錯別字糾正、中英文及大小寫轉換、同義異形詞統一形式,如《知網》轉換為Hownet,folksonomy轉換為Folksonomy,主成分分析方法、主成分分析法統一為主成分分析。再次,對同名作者進行消歧。主要工作是針對同名不同機構的作者,根據作者簡介中的ORCID、E-mail、出生日期、研究方向等信息來判斷是否為同一人;最后,將5年間發表論文數大于等于15篇的作者確定為核心作者,共確定169名核心作者,對169名核心作者需要獲取的數據有發表論文數量、篇名、署名次序、被引量,被引量需要人工手動獲取。經處理后得到的論文數據為:11046篇論文及其關鍵詞、摘要、參考文獻,具體如表1~表3所示。

表1 核心作者及其論文

表3 論文及其參考文獻
4.3.1 學者特征詞選擇
1)基于計量指標的關鍵詞權重計算
融入論文被引量和作者署名次序兩個計量指標對學者關鍵詞計算權重,利用公式(1)進行計算,得到核心作者基于計量指標的關鍵詞權重。
2)基于內容的關鍵詞權重計算
TF-IDF算法從內容上對學者關鍵詞進行權值計算,利用公式(2)進行計算得到核心作者基于內容的關鍵詞權重。
3)學者特征詞篩選
將利用公式(1)和公式(2)分別計算得到的關鍵詞權重,按照公式(3)進行整合,得到最終的關鍵詞權重。
將每位學者的關鍵詞按照整合后的權重值進行排序,取排名靠前的20個關鍵詞作為學者特征詞,如表4所示。
4.3.2 學者特征詞向量表示
以表2中得到的經過規范化處理的關鍵詞和分詞后的摘要作為語料,詞向量維數size設為100,window設為5,最低頻率min_count設為1,進行模型訓練。模型訓練好之后,將表4中的學者特征詞轉換成詞向量,對詞向量相加取平均,則得到學者的特征向量。

表2 論文及其關鍵詞、摘要

表4 學者特征詞
利用余弦相似度公式計算學者間的相似度,得到學者間基于特征詞的相似度,形成相似度集合A,如表5所示。

表5 學者間特征詞相似度
基于第2.3節中的計算方法,首先構建學者共被引矩陣,然后計算學者間的Spearman相關系數作為學者間共被引相似度,如表6所示。

表6 學者間共被引相似度
為確定公式(4)中α和β的值,α取值范圍設為0~1,β取值范圍設為1~0。α=0、β=1表示的是僅基于學者共被引關系的推薦;α=1、β=0表示僅基于學者特征詞的推薦。在推薦總數為15的前提下,設置精確率、召回率和F值,對不同取值的結果進行評價,確定α和β的最佳值。在本文研究的數據范圍內,有42位核心作者的合作者不在本文所確定的169位核心作者中,因此,在計算精確率、召回率和F值時,僅用剩余127位核心作者對本文的推薦模型進行評價。精確率(precision,P)計算方式為:首先,在推薦的15位學者中,是否返回學者曾經合作過的學者,若返回,則為1;反之,則為0。其次,把返回值為1的學者個數占總學者個數的比值作為精確率。召回率(recall,R)的計算方式為:在推薦的15位學者中,學者曾經合作過的學者數量與學者全部合作過的學者數量的比值作為召回率,將每位學者的召回率求和取平均作為某個α和β取值下的召回率。不同α和β的精確率、召回率和F值如表7所示。

表7 不同α和β取值下的精確率、召回率和F值
由表7可知,當α=0.9、β=0.1時,精確率、召回率和F值均是最高,推薦效果最佳。因此,本文確定α值為0.9,β值為0.1。
在基于學者特征詞計算相似度時,本文利用被引量、署名次序兩個計量指標與TF-IDF進行特征詞篩選,再利用word2vec得到特征詞向量進行學者間相似度計算。為了驗證該算法的優勢,將本文所提算法與基于TF-IDF算法計算的學者相似度結果進行對比。利用TF-IDF算法計算學者相似度,選擇相似度靠前的15位學者,和本文所提算法的計算結果進行對比。在不同算法生成的結果中,若目標學者曾經合作過的學者數目占比過高,則說明模型的有用性較低。因此,設置指標C進行對比評價。C的計算方法為

其中,C表示不同計算方法下的已合作學者平均占比;N表示核心作者數;ni'表示第i位學者曾經合作過的學者總數;ni表示相似度靠前的15位學者中第i位學者曾經合作過的學者數。
利用公式(5)計算可得,基于本文所提算法計算出的指標C的值為54.10%;只基于TF-IDF算法計算出的指標C的值為91.67%。后者曾經合作過的學者占比過高,不利于為目標學者尋找潛在的學者。單獨基于TF-IDF計算學者間相似度時,曾經合作過的學者的占比變高,這是因為共同合作過的論文的關鍵詞沒有根據署名次序和被引量分配不同的權重,論文的關鍵詞對每位作者都是等同的,從而造成由于合作而導致合作過的學者的相似度排名靠前的現象。因此,融入被引量和署名次序可以較為準確地表征學者的研究方向以及削弱合作帶來的影響,幫助目標學者找到更多研究方向相同或相似的學者,更好地開展科學研究。
分別統計為每位學者推薦的15位學者中已產生合作的學者的比例和未產生合作的學者的比例,最后計算平均比例以評價模型的有用性。計算結果如表8所示。

表8 已合作和未合作比例
根據表8計算可得,為目標學者推薦的學者中,已合作的平均比例為8.98%,未合作的平均比例為91.02%。已合作的學者所占比例遠遠低于未合作學者比例,這說明本文所提出模型有用性較高。
以學者趙蓉英為例,在α=0.9、β=0.1的條件下,本文提出的推薦模型為學者趙蓉英推薦的15位學者如表9所示。

表9 學者推薦結果
從表9中可以看出,在為學者趙蓉英推薦的15位學者中,已產生合作的共有3位,占比20%;其余未產生合作的共有12位,占比80%。這說明本文所提出的推薦模型可以實現為學者推薦未合作過,且研究方向相似的學者的目標。除去推薦結果中與目標學者趙蓉英已合作的3位學者,在其余的12位學者中,學者譚宗穎的研究方向涉及文獻計量、影響力評價、共現分析、科研合作等;學者張志強的研究方向涉及科技評價、文獻計量、學術影響力等;學者魏瑞斌的研究方向涉及共詞分析、文獻計量、共被引分析、知識圖譜等;學者余厚強的研究方向涉及替代計量學、引文分析、科學交流等;學者劉志輝的研究方向涉及文獻計量、科學計量、競爭情報、知識圖譜等。這表明推薦模型所推薦的學者均在計量學、共詞分析、引文分析、可視化、知識圖譜、學術評價等方向發表過高質量的論文,與目標學者趙蓉英的研究方向相同或相似,目標學者可以從推薦學者的研究方向中得到啟發,方便、快捷地找到與自己研究方向相近的研究主題,與自身現有的學科背景知識結合,產生新的科研思路,順利開展科學研究。
本文提出了一種融合學者研究內容和關系網絡的學者推薦模型,研究內容是指將被引量和署名次序與TF-IDF算法結合對學者發表文獻的關鍵詞進行篩選,再進行向量化表示,并計算相似度;關系網絡是指學者間基于相對位置的共被引關系,以此構建學者共被引矩陣,并計算相似度。將兩種相似度以一定的權重融合,實現學者推薦。利用精確率、召回率和F值確定融合權重,以及對比單獨基于學者特征詞的推薦和單獨基于共被引關系的推薦。研究結果表明,本文提出的融合模型效果較好,可以實現為學者推薦研究興趣相似的學者,幫助學者更好、更快地找到同方向的學者,促進學術溝通和成果發表,提供科研幫助。本文的不足之處在于未進行全文本分析,對關鍵詞的處理僅停留在統計特征,且關系網絡僅用到共被引網絡,其余合著網絡或異質網絡均未涉及,未來將考慮運用全文本深層次挖掘關鍵詞之間的關系,對本方法進行改進,達到更佳的效果。