鄭新宇 徐建良


摘 ?要:在科研項目申報過程中,當前多采用人工方式進行評審專家遴選,由于人工對領域知識的理解有限,且具有一定的主觀性傾向,隨著項目申報數量的增加,人工選擇的效率和準確率逐漸降低。為解決此問題,該文提出一種基于文本相似度的評審專家推薦方法。通過對項目論文信息進行數據挖掘,利用編輯距離模糊匹配和Wordnet語義擴展方法改進文本相似度計算,設計對比實驗分別說明方法的可行性,并對推薦結果給出解釋。實驗結果表明,該文方法能夠有效解決評審專家遴選問題。
關鍵詞:專家推薦 ?數據挖掘 ?文本相似度 ?語義擴展
中圖分類號:TP391.1 ? 文獻標識碼:A 文章編號:1672-3791(2019)06(b)-0173-04
Abstract:In the process of applying for scientific research projects, the selection of review experts is often carried out manually. Due to the limited understanding of domain knowledge and the subjective tendency of manual selection, the efficiency and accuracy of manual selection gradually decrease with the increase of the number of project declarations. To solve this problem, this paper proposes a method of expert recommendation based on text similarity. Through data mining of project paper information, the text similarity calculation is improved by using editing distance fuzzy matching and Wordnet semantic extension methods. The validity of the method is illustrated by designing comparative experiments, and the recommendation results are explained. The experimental results show that this method can effectively solve the problem of selecting evaluation experts.
Key Words:Expert recommendation; Data mining; Text similarity; Semantic extension
隨著計算機應用技術的迅猛發展,越來越多的科研單位選擇使用線上信息管理的方式,來進行科研項目的申報工作。在科研項目申報的過程中,有一個極為重要的流程就是評審專家推薦過程[1-3]。評審專家推薦是指根據項目的一些文本信息,選擇出幾個相關領域的專家成為評審專家。評審專家對項目進行評估審查工作,來確認項目是否具有研究的價值[4]。但由于項目申請數量多、類型多樣,并且專家的科研信息比較復雜,管理人員很難恰當地評估某個專家在一定時間內的研究偏重方向,所以使用人工來選擇評審專家的工作方式效率不夠高,不能滿足工作需要。因此,需要借助計算機技術,為人工選擇評審專家提供自動化的幫助。因此,如何選擇出合適的評審專家則成為該文研究的關鍵問題[5-7]。
評審專家推薦系統本質上是屬于個性化推薦技術范疇,目的是滿足系統用戶對專家這一特殊實體的推薦需求[8]。2005年Reichling、Schubert等學者第一次對專家推薦進行準確的定義,指明專家推薦是一種檢索技術,根據一定的信息輸入,檢索出能解決具體問題的相關專家,幫助用戶提高檢索效率和精確率[9]。專家推薦系統一般應用于專業領域性較強的工作,如學術論文的審查工作、工程建設的評估工作、項目招標的評審工作。在科研項目申報立項的過程中,對專家推薦的專業性要求標準更高,對推薦技術也有著更高的要求。胡斌等使用概念層次模型挖掘科技項目與專家相似性,解決科技項目專家推薦問題[10]。劉一星等使用經過改進的ATSVM算法用于論文投稿的評審專家推薦研究[7]。李瑩等使用主題信息完成企業需求的專家推薦工作[11]。蒲珊珊等建立知識互補的科研合作專家推薦模型來完成專家推薦工作[12]。
該文設計的基于數據挖掘的評審專家推薦方法,抽取項目中論文關鍵字和知識庫中論文關鍵字,對關鍵字集合進行數據規整、語義擴展,得到擴展后的關鍵字集合[13]。計算項目論文與知識庫論文的余弦相似度,得到知識庫中相似度排序前K個論文集合。根據論文集合,得到候選專家集合。對候選專家集合中的每個專家的論文進行檢索,檢索出的論文與項目進行余弦相似度計算,得出的相似度值取平均值作為專家的權威性衡量,候選專家集合中按專家權威性排序,得到權威性排名前N個專家,系統將把這些專家作為推薦結果推薦給用戶[14]。
1 ?評審專家推薦方法設計
1.1 方法思路分析
評審專家推薦的關鍵問題是根據項目中給出的文本信息,與知識庫中的專家進行分析對比,選擇出研究相關的人作為評審專家。
該文中專家推薦分為兩個階段:首先,根據項目文本信息在知識庫中找到相關論文;其次,根據相關論文,得到候選專家推薦列表,對列表中專家進行分析,分析后得到推薦結果。流程圖如圖1、圖2所示。
1.2 文本數據處理
(1)實驗中所用數據集來自微軟學術圖譜MAG的子數據集。目前MAG主要用于量化學者影響力研究[15]、異構學術網絡中學者位置的影響力研究[16]、學術社交網絡的提取與挖掘[17-18]等。
對于MAG中的論文信息,每篇論文都是一個JSON對象的字符串,經過數據格式整理后,數據格式見表1。
(2)文本向量化。19世紀70年代杰拉德·索爾頓提出了一種來源于信息檢索的向量空間模型(Vector Space Model,VSM)技術[19]。該模型認為文本特征之間是相互獨立的,因此可以忽略文本特征之間的依賴關系,將文本信息轉化為向量表示,減少數據量的同時保留文本的語義。
1.3 基于模糊匹配的文本相似度計算方法
1.4 基于語義擴展的文本相似度計算方法
在進行相似度計算時,關鍵字集合從文本信息中抽取,關鍵字的語義粒度不能直接獲得,但在實際處理中,關鍵字的語義范圍相互交叉的情況十分常見。為提高語義粒度,采用基于語義擴展的相似度計算方法[20-21]。
對于論文Pi的關鍵字集合KWi={k1,k2,…kn}中每個關鍵字ki,利用NLTK工具庫中Wordnet資源,擴展關鍵字的上下位詞及近義詞。
2 ?實驗設計及評估
實驗數據選取MAG子數據集中計算機科學領域中8103篇論文,將計算機科學領域280319篇論文作為知識庫存入數據庫中。方法設計如表2所示。
選擇實驗數據集中30篇論文用于數據展示,實驗數據集與知識庫中的論文進行匹配后,計算得出余弦距離并排序。
由圖3、4可知,管是關鍵字集合在擴展前還是擴展后,基于編輯距離的相似度都要高于完全匹配的相似度,說明在完全匹配中檢索不出來的關鍵字,在基于編輯距離相似度計算方法中被檢索出來,且每一篇的數值模糊匹配要高于完全匹配,說明在進行相似度計算時,選擇模糊匹配的方法是有效的。
由圖5可知,經過關鍵字擴展后,完全匹配的相似度升高。由此可證明,完全匹配失敗的關鍵字,在關鍵字擴展后,擁有相同的上下位詞或者近義詞,經過字符串完全匹配后,余弦相似度增加。
根據圖6余弦距離結果可知,關鍵字在擴展前后經過模糊匹配后,相似度整體表現差別不是特別大。原因在于關鍵字經過語義擴展后關鍵字集合維度增加,根據式(1),造成余弦距離結果相差較小。從另一方面來說,關鍵字集合經過擴展后,相似度變化不大說明關鍵字集合攜帶的信息量增加,但對整體的語義偏向沒有太大的影響。
3 ?結語
該文設計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決人工遴選評審專家中效率較低、主觀選擇專家等問題。由于方法是基于文本內容相似度進行專家推薦,因此該方法對所有文本推薦具有一定的普適性。
目前對于評審專家的推薦方法,大多從語義概念模型方向解決推薦問題。但在研究領域中存在專業內專有名詞,因此需要人工建立領域詞典,建立語義之間的聯系,未來的進一步工作是在Wordnet基礎上,加入專有名詞語義關系,進一步提高語義擴展的相似度。
參考文獻
[1] 張勇勤.科技計劃項目經費預算評審評估制度研究[J].天津科技,2008(3):77-79.
[2] 陳月英,穆仕華.科研項目在線評審體系的研究與應用[J].中國新通信,2015,17(9):69-70.
[3] 沈才俊,徐暑芬,常云志.科技項目評審過程中項目分組與專家推薦流程的設計[J].江蘇科技信息,2016(6):29-31.
[4] 梁保磊.政府科技項目評審主體、過程及應用系統開發研究[D].東南大學,2009.
[5] 萬猛.關于科技評審專家的選擇及其評審行為的判斷方法[J].研究與發展管理,2007(3):119-122,129.
[6] 靳健,楊海慈,李凝,等.基于主題契合度的專家推薦模型研究[J].數字圖書館論壇,2017(4):47-55.
[7] 劉一星.論文投稿系統評審專家自動推薦模型研究[D].重慶大學,2009.
[8] 李有超.基于項目屬性與偏愛比較的協同過濾推薦算法研究[D].燕山大學,2010.
[9] Reichling T,Schubert K,Wulf V.Matching human actors basedon their textsdesign and evaluation of an instance of the Expert Finding framework[A].Proceedings of the2005 international ACMSIGGROUP conference on Supporting group work[C].ACM,2005:61-70.
[10] 胡斌,徐小良.科技項目評審專家推薦系統模型[J].電子科技,2012,25(7):1-5.
[11] 李瑩.面向企業需求的專家推薦算法研究[D].北京交通大學,2018.
[12] 蒲姍姍.基于知識互補的科研合作專家推薦模型研究[J].情報理論與實踐,2018,41(8):96-101.
[13] 滕巖,李玉忱.基于《知網》的語義信息檢索[A].第二屆全國web信息系統及其應用會議[C].2005.
[14] 朱昆磊,黃佳進.基于信念網絡的協同過濾圖模型的推薦算法[J].模式識別與人工智能,2016,29(2):171-176.
[15] 周金夢.基于學術異構網絡的學者影響力評估算法[D].大連理工大學,2016.
[16] 張君.基于異構學術網絡的學者影響力評估與預測[D].大連理工大學,2018.
[17] Tang J, Zhang J, Yao L, et al. Arnetminer: extraction and mining of academic social networks[A].Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining[C].ACM,2008:990-998.
[18] Sinha A, Shen Z, Song Y, et al. An overview of microsoft academic service (mas) and applications[A].Proceedings of the 24th international conference on world wide web[C].ACM,2015:243-246.
[19] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M].Communications of the ACM,1975.
[20] 王良芳.文本挖掘關鍵詞提取算法的研究[D].浙江工業大學,2013.
[21] 王進,陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識別與人工智能,2006,19(6):696-701.