王梓森,梁 英,劉政君,謝小杰,張 偉,史紅周
(1.中國科學院計算技術研究所,北京 100190;2.中國科學院大學計算機科學與技術學院,北京 100049)
近年來,我國資助立項的科研項目數量和規模逐年增大,日益增加的項目審核工作給科研管理過程帶來極大的挑戰。據國家統計局數據(http://data.stats.gov.cn)顯示,2019年我國研究與實驗發展(Research and Development,R&D)人員全時當量461萬人年,研發人力規模居全球首位,科研學者數量的增多,為推薦科研項目評審專家增加了難度。
現有項目評審專家推薦的過程,依賴人工參與和篩選,即待評審材料(項目申請書等)由工作人員根據項目指南所屬學科方向,通過關鍵字匹配搜索的方式分配給專家庫中的指定專家,并結合專家回避和專家反饋意見進行調整,以此遴選評審專家。由于項目所屬學科與專家研究興趣屬于不同的學科分類體系,分別具有不同的學科劃分標準,關鍵字詞匹配不能捕捉項目學科和研究興趣之間的語義聯系,導致推薦的專家學術專長不能精準匹配項目申報內容。隨著學術大數據的迅速發展,細分學科不斷增多,人工篩選過程在效率和精準性上不夠,影響選拔合適的小同行專家和跨學科專家參與項目評審,甚至會導致項目評審結果缺乏公平公正性。
針對上述缺陷,本文提出一種科研項目同行評議專家學術專長匹配方法。根據學術實體(包括學科、專家、研究興趣等)與實體間關系構建異質學術網絡,設計元路徑捕捉學術實體間語義聯系;使用學術實體共現序列訓練網絡表示學習模型,獲得項目學科與研究興趣語義向量;按照項目學科樹結構計算向量化結果語義相似度,實現多粒度的同行評議專家學術專長匹配。在爬取的知網和萬方論文數據集,某專家評審數據集,以及百度百科詞向量數據集上進行了實驗驗證和實例分析,結果表明本文方法提升了項目學科與專家研究興趣間語義關聯,并能有效應用于項目評審專家學術專長匹配。
本文主要工作包括:
1)給出科研項目同行評議學術網絡定義。構建異質學術網絡建立學術實體聯系,根據網絡關系結構設計元路徑溝通不同類型節點,捕捉學科與專家之間的語義關聯。
2)提出一種項目所屬學科和專家研究興趣語義關聯的向量表示方法。設計元路徑指導隨機游走過程獲取學術實體共現序列,使用共現序列訓練網絡表示學習模型,得到包含語義信息的學術實體低維稠密向量,并通過衡量向量間相似度,表示項目學科與專家研究興趣之間的語義關聯。
3)提出一種多粒度項目評審專家學術專長匹配方法。使用專家研究興趣低維向量刻畫專家學術專長,按照項目學科樹層次結構逐層計算專家學術專長與項目學科間語義相似度,實現多粒度的同行評議專家學術專長匹配。
傳統衡量實體間關聯程度的方法通過關鍵字匹配[1]實現,然而一般情況下,完全不同的關鍵字卻常常蘊含相同的語義,僅依靠關鍵字無法對實體間的內在語義關聯進行捕捉。
三元組知識圖譜與人工語義詞典常用于語義關聯計算,以捕捉實體間的語義關聯。張曄等[2]提出Acemap知識圖譜(Acemap Knowledge Graph,AceKG),對學術實體間語義關聯進行建模;基于語義詞典WordNet[3]、HowNet[4]的算法通過計算語義詞典中節點語義距離獲得節點間的關聯度。然而,知識圖譜與語義詞典在構建時所需工作量較大,并且此類方法隨著節點數量增多,數據維度增大,計算復雜度逐漸提高。
基于語料庫的算法通過分析大規模文本,構建詞匯與文檔之間的語義共現關系矩陣,從而獲得實體間語義關聯度。Deerwester等[5]通過對共現矩陣進行奇異值分解,提出了著名的隱語義分析(Latent Semantic Analysis,LSA)。隨著學者對LSA技術的不斷改進[6-7],彭云等[8]在此基礎上提出語義關系約束的潛在狄利克雷分配(Semantic Relation Constrained Latent Dirichlet Allocation,SRC-LDA)擁有更牢固的統計基礎,并且在下游情感分析任務中擁有更高的準確性。何云等[9]引入詞性過濾對語料庫進行預處理,降低語料中噪聲對計算結果的影響,提升語義計算性能。王偉等[10]提出了一種基于滑動語義串匹配的漢語詞義消歧方法,通過建立N元語義模板庫并從待消歧句子中提取N元語義碼來確定歧義詞的最終詞義。Wang等[11]提出了一種融入文本信息的深度協同排序方法,使用語料庫中降噪后的文本數據對用戶非線性偏好建模,實現用戶偏好與推薦物品間的潛在語義關聯。然而,此類算法的核心在于分析語料庫中的共現詞匯,算法效果高度依賴于訓練語料的規模與品質,導致文本預處理工作十分龐大。
網絡表示學習方法將實體以網絡形式建模,并通過網絡結構將實體語義信息映射至低維度向量空間,從而實現實體間的關聯匹配。Schlichtkrull等[12]利用傅里葉變換將實體網絡映射到譜域,通過深度學習獲得實體語義的低維向量表示。Ji等[13]提出了基于注意力機制的異質網絡深度表示學習方法,基于元路徑聚合約減異質網絡,實現了異質網絡節點的低維向量表示。深度網絡表示學習具有很強的高維特征組合能力,但其參數眾多,在應用于不同下游任務時存在一定的局限性。Mikolov等[14]通過滑動窗口捕捉詞語共現序列,以詞向量的方法刻畫詞語間的語義關聯。DeepWalk[15]模型的作者將詞向量的思想遷移至網絡表示學習,使用隨機游走策略在網絡中獲得實體語義的低維向量表示。Grover等[16]對DeepWalk算法進行了擴展,通過結合深度和廣度優先的隨機游走,更加細致地捕捉實體網絡語義信息。Dong等[17]將隨機游走的思想通過元路徑的限制擴展到了異質網絡,并基于學術網絡驗證了元路徑限制的游走序列能夠充分捕捉到異質網絡中更豐富的信息。王文濤等[18]對隨機游走過程進行改進,使得節點序列能夠更好地反映網絡結構,進而提升了鏈路預測任務中節點間的語義關聯效果。基于隨機游走的網絡表示學習方法泛化能力強,更易于應用到各種下游任務中,并且考慮到學術網絡數據規模龐大,本文擬采用擴展性強的基于隨機游走的網絡表示學習方法,獲得具備語義關聯的項目學科和專家研究興趣的低維向量表示。
項目申請時需要根據項目指南撰寫項目申請書,本文所討論的項目指南隸屬于以專題節點為根節點的項目學科分類樹中的某一學科節點。在遴選評審專家時,首先要選出學術專長和項目隸屬學科相符的專家,即根據專家的所有研究興趣節點來匹配項目學科樹下項目節點的上級學科節點,參見圖1。

圖1 專家研究興趣與項目學科匹配示例Fig.1 Matching example of research interest of expert and subject of project
現有方法通過判斷字詞重疊度的方式,并結合人工判別詞匯相似度,實現項目學科與研究興趣的關聯程度判斷。隨著學術數據量的增大,細分項目學科增多,這種方法難以捕捉研究興趣與學科之間的語義關聯,例如“大氣污染”和“環境保護”沒有字詞重疊,但都與環保主題相關。
本文利用學術大數據構建異質學術網絡,設計元路徑捕捉學術實體間語義關聯,并基于網絡表示學習方法獲得學術實體語義向量,按照項目學科樹層次結構逐層計算向量間語義相似度,實現多粒度的同行評議專家學術專長匹配。
1)專家:記作E,存在于專家庫內的高水平學者被稱為專家。一般根據專家遴選管理規定,從學術影響力較大的學者中遴選產生專家庫專家。
2)研究興趣:記作RI,研究興趣是專家從事科研活動的態度和傾向。本文特指專家庫內專家填報的研究興趣與專家科研成果提取的研究方向。
3)項目:記作P,項目是在特定的時間、預算、資源限定內,依據規范完成的科學研究活動??蒲许椖堪▏腋骷壵闪⒒鹬蔚目v向科研項目、來自企事業單位的橫向科研合作開發項目和自籌科研項目。
4)專題:記作SS,專題用于概括一類學科研究的主方向,一個專題下設多層級多學科。
5)學科:記作S,學科是專題下的多層級學術分類,按照不同所屬層級可分為一級學科、二級學科、三級學科等,下級學科從屬上級學科。其中,將連接了專題與項目的不同層級學科統稱為項目學科。
本文中每個項目都隸屬于某個專題下的某個學科,被不同專家評審。
定義1 學術網絡(Academic Network/Graph)。學術網絡是一個異質網絡,可以表示為Gacademic={V,Edge,T,R,?,δ},其中:
1)V={vi|i=1,2,…,N}表示節點的集合,其中N表示節點的數量。
2)Edge={ei,j| 1≤i,j≤N}表示邊的集合,其中ei,j表示學術網絡中兩個節點vi和vj之間的連邊,使用|Edge|表示邊的數量。
3)T={tk|k=1,2,…,|T|}表示節點類型的集合,其中tk表示節點vi的節點類型,tk∈{TE,TRI,TP,TSS,TS},TE表示專家類型,TRI表示研究興趣類型,TP表示項目類型,TSS表示專題類型,TS表示學科類型,|T|表示節點類型數量。
4)R={rl|l=1,2,…,|R|}表示關系類型集合,其中rl可以表示學術網絡中一個關系類型,rl∈{RSS?S,RS?P,RE?P,RE?RI,RS?S},RE?RI表示“具有”和“屬于”關系類型,即專家具有研究興趣,研究興趣屬于專家;RE?P表示“評審”和“被評審”關系類型,即專家評審項目,項目被專家評審;RSS?S表示“下設”和“從屬”關系類型,即專題下設一級學科,一級學科從屬專題,RS?S表示學科間“下設”和“從屬”關系類型,即n-1級學科下設n級學科,n級學科從屬n-1級學科;RS?P表示“包含”和“隸屬”關系類型,即n級學科包含項目,項目隸屬n級學科。
5)?表示節點類型映射函數。?(vi)∈T表示節點vi∈V屬于一個節點類型。
6)δ表 示 關 系 類 型 映 射 函 數。δ(ei,j)∈R表 示 邊ei,j∈Edge屬于一個關系類型。
定義1的學術網絡圖的網絡模式如圖2所示,包含了五種類型對象:專題、學科、項目、專家和研究興趣,可以看出學科之間的下設關系對應的是內部關系,專題與學科之間的下設關系、學科與項目之間的包含關系、專家與項目之間的評審關系、研究興趣與專家之間的屬于關系對應的是相關關系。同時,專題、學科、項目構成項目學科樹,專題是項目學科樹的根節點,學科是中間節點,項目是葉子節點。

圖2 項目評審場景學術網絡的網絡模式Fig.2 Network modeof academic network in project review scenario
定義2 類型節點集合(Type Node Set)。TYPEv表示類型為tk的節點集合,可表示為:

其中:vi∈V表示學術網絡中的節點,1≤i≤N,?表示節點類型映射函數,tk表示節點類型,1≤k≤|Tv|。通過類型節點集合能夠描述學術網絡中一個節點類型的節點集合。當tk=TS,即節點類型為學科時,類型節點集合表示為Sv;當tk=TRI,即節點類型為研究興趣時,類型節點集合表示為RIv。
為了便于描述類型節點集合TYPEv中任意一個節點,將該類型節點記為vTYPE。當tk=TS,即節點類型為學科時,節點被記為vS;當tk=TRI,即節點類型為研究興趣時,節點被記為vRI。
圖3為一個學術網絡示例,圖中共有10個節點,不同節點之間存在連邊。有5種節點類型,通過節點類型映射函數能夠獲得節點對應的節點類型,v1和v2是專家類型,v3是專題類型,v4、v5和v6是學科類型,v7是項目類型,v8、v9和v10是研究興趣類型;有5種關系類型,通過關系類型映射函數能夠獲得邊對應的關系類型,e7,1是“評審”和“被評審”關系,e3,4是專題學科間“下設”和“從屬”關系,e4,7是“包含”和“隸屬”關系,e5,6是學科間“下設”和“從屬”關系,e1,8是“具有”和“屬于”關系。所有學科類型節點v4、v5和v6可以表示為Sv,所有專家類型節點v1和v2可以表示為Ev,所有研究興趣類型節點v8、v9和v10可以表示為RIv。
定義3 元路徑(Meta-path)。元路徑ρ定義為學術網絡Gacademic中,連接兩類節點的路徑,可以用式(2)表示:

其中:tk表示Gacademic中的節點類型,rk表示Gacademic中的關系類型,參數1 圖3 項目評審場景學術網絡示例Fig.3 Exampleof academic network in project review scenario 本文方法首先設計隨機游走所使用的元路徑,通過元路徑指導隨機游走得到項目學科和專家研究興趣共現節點序列,使用節點序列訓練網絡表示模型獲得項目學科與專家研究興趣語義向量,根據研究興趣與項目學科語義向量計算專家學術專長與項目學科間的語義相似度,最終根據相似度獲得推薦專家列表實現評審專家學術專長匹配。 圖4描述了從設計元路徑到輸出專家推薦列表的全部過程,具體步驟如下: 圖4 評審專家與項目學科匹配以及專家推薦流程Fig.4 Process of expert and project subject matchingand expert recommendation 步驟1 定義正向項目路徑FPP與反向項目路徑RPP,根據FPP與RPP設計元路徑; 步驟2 根據設計的元路徑在學術網絡中隨機游走,獲取包含項目學科和研究興趣的節點序列; 步驟3 將獲取的序列輸入Skip-Gram模型,進行模型訓練; 步驟4 Skip-Gram模型輸出訓練結果,獲得包含語義信息的項目學科和研究興趣表示向量; 步驟5 使用專家所有的研究興趣向量刻畫專家學術專長,并計算專家學術專長與項目學科間相似度; 步驟6 根據相似度計算結果推薦專家,獲得推薦專家列表。 本節總結出正向項目路徑與反向項目路徑,并設計了隨機游走使用的元路徑建立學科與專家之間的關聯,為基于隨機游走的網絡表示學習提供支撐。下面給出正/反向項目路徑的概念。 正向項目路徑(Forward Project Path)是從專題類型出發,到項目類型結束的元路徑,如式(3)所示: 其中:TSS表示專題類型,TS表示學科類型,TP表示項目類型;RSS?S表示“下設”和“從屬”的關系類型,RS?S表示學科間“下設”和“從屬”的關系類型,RS?P表示“包含”和“隸屬”的關系類型。正向項目路徑建立了專題與項目的聯系。 反向項目路徑(Reversed Project Path)是從項目類型出發,到專題類型結束的元路徑,如式(4)所示: 其中:TP表示項目類型,TS表示學科類型,TSS表示專題類型;RSS?S表示“下設”和“從屬”的關系類型,RS?S表示學科間“下設”和“從屬”的關系類型,RS?P表示“包含”和“隸屬”的關系類型。反向項目路徑與正向項目路徑所經過的節點類型相同,順序不同,互為逆路徑。 圖5 項目學科示例Fig.5 Exampleof subjects that projects belonging to 根據正向項目路徑與反向項目路徑設計元路徑,建立學科與專家之間的關聯。隨機游走的元路徑設計如式(5)所示: 其中:FPP表示正向項目路徑(式(3)),TE表示專家類型,RPP表示反向項目路徑(式(4)),RE?P表示專家評審項目的關系類型。專家類型節點將正向項目路徑和反向項目路徑連接起來,構成了一條對稱的元路徑。 元路徑將不同類型節點進行組合,用于指導隨機游走算法過程。 本節介紹如何利用式(5)的元路徑進行隨機游走,捕捉項目學科與專家研究興趣間語義聯系,并在學術網絡中獲取一系列節點序列,作為3.3節Skip-Gram模型的輸入。 由于元路徑的設計是對稱的,隨機游走可以從專題節點出發游走到另一個專題。隨機游走相當于一種在學術網絡上的深度優先遍歷,設當前節點為vt,下一步游走到的節點為vt+1的轉移概率如式(6)所示: 圖6 學術網絡元路徑示例Fig.6 Exampleof academic network meta-path 為了取得項目學科和研究興趣的語義關系,在隨機游走完成后,使用專家研究興趣替換專家節點[19],每次替換專家節點時,將專家研究興趣對應的詞匯和短語隨機排序,使不同研究興趣在節點序列中能夠與學科節點具備相同的共現關系,以提升后續表示學習階段算法的穩定性。替換過程如圖7所示,替換前,通過隨機游走獲得的節點序列保留了完整的元路徑信息;替換后,通過將專家節點替換為研究興趣節點,并刪除項目節點,使序列中只包含研究興趣、學科、專題類型的節點。節點替換后的序列中,研究興趣與項目學科直接相鄰,其間存在的語義聯系得以體現。 圖7 研究興趣替換示例Fig.7 Example of research interest substitution 本節介紹基于Skip-Gram[14]的表示學習方法。使用3.2節獲得的項目學科與研究興趣序列建立節點共現關系,通過Skip-Gram模型得到項目學科和研究興趣的語義關聯低維向量化表示。 表示學習需要捕捉節點之間的共現關系,共現關系可簡化為一系列二元組,如式(7)所示: 其中:vi和vj表示項目學科類型節點Sv和研究興趣類型節點RIv組成集合中的任意兩個節點,|Sv|表示學科類型節點的數量,|RIv|表示研究興趣類型節點的數量,1≤i,j≤|Sv|+|RIv|。二元組表示節點vi和節點vj存在語義關聯,通過二元組能夠描述項目學科與研究興趣之間的語義關聯。 使用滑動窗口在節點序列上獲得二元組,并將二元組中節點分為中心節點和上下文節點。圖8展示了一個節點序列上滑動窗口為5采樣的示例,中心節點為v4,上下文節點為v2,v3,v5,v6,中心節點與上下文節點構成的二元組集合可以表示為{v4,v2,v4,v3,v4,v5,v4,v6}。 Skip-Gram模型使用二元組集合作為模型的輸入和輸出,結合表示學習網絡捕捉節點共現關系。Skip-Gram模型(見圖9)最大化使用中心節點預測上下文節點的概率,繼續以圖8為例,即p(v2|v4)+p(v3|v4)+p(v5|v4)+p(v6|v4),表示通過中心節點v4分別預測v2,v3,v5,v6節點。 圖8 節點序列上滑動窗口采樣示例Fig.8 Slidingwindow samplingexampleon node sequence 圖9 Skip-Gram模型結構Fig.9 Skip-Gram model structure 將Skip-Gram模型應用到項目學科和研究興趣的節點序列上,其最大化概率的形式如式(8)所示: 模型經過訓練后,選取網絡輸入層到隱藏層的全連接權重系數,即可獲得項目學科和研究興趣的向量化結果。項目學科和研究興趣均以低維稠密向量的形式表示,具有相同維度,能夠互相計算相似度。 本節使用3.3節專家研究興趣與項目學科的表示學習向量化結果,計算專家與項目學科間相似度,并根據相似度完成專家學術專長匹配。 首先對專家所有的研究興趣向量化結果取平均,獲得表示專家語義信息的低維稠密向量,用以刻畫專家學術專長。隨后,對專家與項目學科低維稠密向量相似度進行計算,相似度計算方式如式(9)所示: 其中:vE表示評審專家節點,?(vE)=TE,vec(vE)表示專家低維稠密向量,vS表示學科節點,?(vS)=TS,vec(vS)表示學科低維稠密向量。相似度越大,表示專家越適合該學科下項目的評審。 專家學術專長匹配流程按照項目學科樹層次結構由上向下逐層進行相似度計算,如圖10所示。首先,計算一級學科與專家學術專長間相似度,并將專家按相似度排序,取Top-K名專家輸入到下一層,然后,將二級學科與輸入到本層的專家列表進行相似度計算,并按同樣流程將排序后的結果繼續向下輸入,最終,不斷重復此過程直至完成葉子學科與專家列表間的相似度計算。 圖10 專家與學科匹配示例Fig.10 Exampleof expert and subject matching 在每一層的相似度計算中,不同級別的項目學科匹配的專家排序不同,數量不同。因此,對于科研“大同行”和“小同行”,所提方法可以得到不同方案的推薦專家列表,從而實現多粒度的專家推薦策略,為不同層級學科提供不同的備選評審專家團隊。 實驗數據為本文爬取的某專家庫數據集,知網和萬方論文數據集,以及百度百科公開詞向量數據集,通過算法對比與實例分析對所提方法有效性進行了驗證。使用某專家庫數據集與百度百科公開詞向量數據集開展了語義關聯方法對比實驗及分析。使用某專家庫數據集開展了專家學術專長匹配實驗,通過人工標注的方法,驗證了專家學術專長匹配方法的有效性。 1)某專家評審數據集。 根據網上的公開信息,創建了5萬左右的專家數據。包括專家的基本信息、科研信息、研究興趣、個人業績、工作經歷信息等,選取部分數據域描述如圖11所示。基于該數據集內部實體間關聯關系,構成專家評審學術網絡,以展開專家研究興趣和項目學科語義關聯實驗。 圖11 某專家評審數據集描述Fig.11 Review expert dataset description 2)知網和萬方論文數據集。 由于專家庫內專家研究興趣存在一定滯后性,本文使用從知網和萬方網站抓取的論文數據對專家研究興趣數據進行補充。根據專家庫中專家的姓名和所屬機構,從網站抓取2018年7月之前專家所發表過的論文。論文數據經過清洗和去重之后,專家所參與發表的論文共計3 948 047篇,論文信息包括論文標題、作者、關鍵字,不包含論文全文信息。 3)百度百科詞向量數據集。 為了與本文所提的實體語義關聯方法相比較,選取由百度百科訓練得到的公開詞向量數據[21],該數據包含百度百科2018年4月之前公開的文本數據,經過數據清洗后語料大小4.1 GB,包含總詞匯數7.45億,獨立詞匯數量542萬,使用基于Skip-Gram的表示學習方法對其進行訓練,滑動窗口大小設置為5,負采樣數量為5。此數據源的訓練結果將用于語義關聯方法對比實驗中。 4.2.1 實驗參數設置 表1列出項目學科和研究興趣語義關聯實驗中涉及的多個超參數。 表1 項目學科和研究興趣語義關聯實驗參數設置Tab.1 Parameter settingof semantic association experiment on project subject and research interest Walk_num為500和Walk_len為5 000表示需要從專題開始基于元路徑游走500次,每次游走5 000步,Embedding_size為128表示獲得專家研究興趣和項目學科的向量維度為128。在基于Skip-Gram的表示學習過程中,滑動窗口大小設置為9表示觀察9個上下文節點,Neg_num為5表示負采樣5個節點。按照上述參數設置進行訓練,獲得的向量化結果有項目學科低維稠密向量和研究興趣低維稠密向量,這2類向量存在語義關聯。 4.2.2 評價指標 向量化后的項目學科和研究興趣之間的語義關聯可以通過計算其間相似度加以衡量,定義項目學科與研究興趣之間的向量余弦相似度為語義評分,如式(10)所示: 其中:節點vi和vj表示項目學科和研究興趣,?∈Gacademic,?(vi)≠?(vj)表示不同類型節點的相似度比較,約束條件?(vi),?(vj)∈{TS,TRI}表示比較的節點限于項目學科和研究興趣類型節點。 4.2.3 實驗分析 實驗對比了LSA、LDA、詞向量3種常見語義關聯方法,通過計算語義關聯結果的語義評分,比較不同方法在項目學科和研究興趣語義關聯中的效果。 首先選擇“創新診療裝備產品評價”學科作為語義評分計算時用到的項目學科,從某專家庫數據集中選出參與過此學科評審工作的全部評審專家,并將這些專家的所有研究興趣作為語義評分計算時用到的研究興趣。通過使用不同方法對上述項目學科與研究興趣語義評分進行計算,來衡量不同算法的語義關聯效果,其中,評分越高表明算法捕捉了更多的語義關聯。 實驗結果如圖12所示,本文方法在項目學科和研究興趣語義關聯上相比其他方法均具備優勢。圖12(a)是所有研究興趣的平均語義評分,圖12(b)是選取5個高頻研究興趣的語義評分。由于LSA方法依賴于共現矩陣,不能識別未出現在語料庫中的共現關系,因此在不同研究興趣上語義評分波動較大;LDA在LSA的基礎上引入主題概率,相當于加入平滑操作,結果相對穩定,但這兩種方法都基于共現矩陣,整體效果較差;詞向量方法通過引入外部訓練語料,提升了語義關聯度,但是由于外部語料對評審專家推薦過程缺乏知識覆蓋度,導致效果依然有限;本文方法利用元路徑溝通了項目學科和研究興趣之間的語義聯系,使語義關聯效果得到提高。 圖12 不同方法語義關聯比較Fig.12 Semantic association comparison of different methods 下面以具體實例對本文語義關聯方法效果進行分析。隨機選取5個項目學科(突發污染事故應基于經評估技術、混合動力發動機開發、手術機器人、小分子調控細胞命運轉變、新型果蔬汁加工關鍵技術及裝備研發),對其計算語義評分最高的5個專家研究興趣。從表2可以看出,得到的研究興趣與項目學科相關,說明向量化后的項目學科和興趣互相關聯。 表2 項目學科與研究興趣語義關聯分析Tab.2 Analysisof semantic association between project subject and research interest 4.3.1 實驗參數設置 在計算專家與項目學科間相似度時,隨著專家學術專長匹配的進行,適合評審的專家數量應當不斷減少,從而逐層完成細分學科方向專家推薦。本文項目評審數據中學科分類最高涉及四級學科節點,一級、二級、三級、四級學科推薦專家列表大小設置分別為1 000、500、200、100。學科匹配推薦專家數量與葉子節點所在層級有關,學科細分程度越高推薦匹配的專家越少。 4.3.2 評價指標 設計專長匹配評分用于評價學術專長匹配方法效果。首先采取人工驗證的方式,對推薦專家列表中的所有專家逐一進行匹配程度判定,匹配程度包括非常匹配(2分)、一般匹配(1分)、不匹配(0分),依次表示專家的研究興趣和項目學科相關、部分相關、不相關。 判定后,使用獲得的匹配程度計算專長匹配評分,專長匹配評分計算方法如式(11)所示: 4.3.3 實驗分析 實驗對大氣自由基及納米顆粒物化學組分在線測量技術、細胞運動中的蛋白質機器、高比功率長壽命動力電池技術、高耐磨高強韌重載鋼軌用鋼、高精度原子磁強計(基礎前沿類)五個項目進行了專家學術專長匹配,并選擇項目所對應二級學科的專長匹配結果,結合人工標注的方式驗證了學術專長匹配方法的有效性。 為了保證驗證過程的普適性,從匹配結果共500名的推薦專家列表中隨機抽取20名專家(即Nk=20),并重復隨機抽取5次進行驗證。使用專長匹配評分進行評價,統計專長匹配度評分平均值、最小值、最大值,如圖13所示。從圖13中可以看出專長匹配評分平均值在0.8左右,說明專家推薦結果的學術專長匹配程度較高,驗證了專家學術專長匹配方法的有效性。 圖13 不同學科下的專家學術專長匹配度Fig.13 Matching degreeof expert academic expertise in different subjects 針對現有評審專家推薦流程中項目學科與研究興趣缺乏語義關聯的問題,提出了一種科研項目同行評議專家學術專長匹配方法,設計元路徑捕捉項目學科與研究興趣間語義關聯,使用基于隨機游走的網絡表示學習模型訓練,獲得項目學科與專家研究興趣向量化結果,根據項目學科樹結構計算表示向量相似度,實現多粒度的專家學術專長匹配。在爬取的知網和萬方論文數據集,某專家評審數據集,以及百度百科詞向量數據集上進行了實驗驗證和實例分析,結果表明本文方法能提升項目學科與專家研究興趣間語義關聯,并有效應用于項目評審專家學術專長匹配。在未來的工作中,將進一步研究實時推薦、冷啟動等問題,并應用于專家的精準推薦上。

2.3 整體流程

3 專家研究興趣與項目所屬學科匹配方法
3.1 元路徑設計





3.2 基于元路徑的隨機游走



3.3 基于Skip-Gram的表示學習方法





3.4 評審專家與項目學科間的相似度計算


4 實驗與效果評估
4.1 實驗數據

4.2 項目學科和研究興趣語義關聯




4.3 專家學術專長匹配



5 結語