999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的評審專家推薦方法研究

2019-09-17 10:47:04鄭新宇徐建良
科技資訊 2019年17期
關鍵詞:數據挖掘

鄭新宇 徐建良

摘 ?要:在科研項目申報過程中,當前多采用人工方式進行評審專家遴選,由于人工對領域知識的理解有限,且具有一定的主觀性傾向,隨著項目申報數量的增加,人工選擇的效率和準確率逐漸降低。為解決此問題,該文提出一種基于文本相似度的評審專家推薦方法。通過對項目論文信息進行數據挖掘,利用編輯距離模糊匹配和Wordnet語義擴展方法改進文本相似度計算,設計對比實驗分別說明方法的可行性,并對推薦結果給出解釋。實驗結果表明,該文方法能夠有效解決評審專家遴選問題。

關鍵詞:專家推薦 ?數據挖掘 ?文本相似度 ?語義擴展

中圖分類號:TP391.1 ? 文獻標識碼:A 文章編號:1672-3791(2019)06(b)-0173-04

Abstract:In the process of applying for scientific research projects, the selection of review experts is often carried out manually. Due to the limited understanding of domain knowledge and the subjective tendency of manual selection, the efficiency and accuracy of manual selection gradually decrease with the increase of the number of project declarations. To solve this problem, this paper proposes a method of expert recommendation based on text similarity. Through data mining of project paper information, the text similarity calculation is improved by using editing distance fuzzy matching and Wordnet semantic extension methods. The validity of the method is illustrated by designing comparative experiments, and the recommendation results are explained. The experimental results show that this method can effectively solve the problem of selecting evaluation experts.

Key Words:Expert recommendation; Data mining; Text similarity; Semantic extension

隨著計算機應用技術的迅猛發展,越來越多的科研單位選擇使用線上信息管理的方式,來進行科研項目的申報工作。在科研項目申報的過程中,有一個極為重要的流程就是評審專家推薦過程[1-3]。評審專家推薦是指根據項目的一些文本信息,選擇出幾個相關領域的專家成為評審專家。評審專家對項目進行評估審查工作,來確認項目是否具有研究的價值[4]。但由于項目申請數量多、類型多樣,并且專家的科研信息比較復雜,管理人員很難恰當地評估某個專家在一定時間內的研究偏重方向,所以使用人工來選擇評審專家的工作方式效率不夠高,不能滿足工作需要。因此,需要借助計算機技術,為人工選擇評審專家提供自動化的幫助。因此,如何選擇出合適的評審專家則成為該文研究的關鍵問題[5-7]。

評審專家推薦系統本質上是屬于個性化推薦技術范疇,目的是滿足系統用戶對專家這一特殊實體的推薦需求[8]。2005年Reichling、Schubert等學者第一次對專家推薦進行準確的定義,指明專家推薦是一種檢索技術,根據一定的信息輸入,檢索出能解決具體問題的相關專家,幫助用戶提高檢索效率和精確率[9]。專家推薦系統一般應用于專業領域性較強的工作,如學術論文的審查工作、工程建設的評估工作、項目招標的評審工作。在科研項目申報立項的過程中,對專家推薦的專業性要求標準更高,對推薦技術也有著更高的要求。胡斌等使用概念層次模型挖掘科技項目與專家相似性,解決科技項目專家推薦問題[10]。劉一星等使用經過改進的ATSVM算法用于論文投稿的評審專家推薦研究[7]。李瑩等使用主題信息完成企業需求的專家推薦工作[11]。蒲珊珊等建立知識互補的科研合作專家推薦模型來完成專家推薦工作[12]。

該文設計的基于數據挖掘的評審專家推薦方法,抽取項目中論文關鍵字和知識庫中論文關鍵字,對關鍵字集合進行數據規整、語義擴展,得到擴展后的關鍵字集合[13]。計算項目論文與知識庫論文的余弦相似度,得到知識庫中相似度排序前K個論文集合。根據論文集合,得到候選專家集合。對候選專家集合中的每個專家的論文進行檢索,檢索出的論文與項目進行余弦相似度計算,得出的相似度值取平均值作為專家的權威性衡量,候選專家集合中按專家權威性排序,得到權威性排名前N個專家,系統將把這些專家作為推薦結果推薦給用戶[14]。

1 ?評審專家推薦方法設計

1.1 方法思路分析

評審專家推薦的關鍵問題是根據項目中給出的文本信息,與知識庫中的專家進行分析對比,選擇出研究相關的人作為評審專家。

該文中專家推薦分為兩個階段:首先,根據項目文本信息在知識庫中找到相關論文;其次,根據相關論文,得到候選專家推薦列表,對列表中專家進行分析,分析后得到推薦結果。流程圖如圖1、圖2所示。

1.2 文本數據處理

(1)實驗中所用數據集來自微軟學術圖譜MAG的子數據集。目前MAG主要用于量化學者影響力研究[15]、異構學術網絡中學者位置的影響力研究[16]、學術社交網絡的提取與挖掘[17-18]等。

對于MAG中的論文信息,每篇論文都是一個JSON對象的字符串,經過數據格式整理后,數據格式見表1。

(2)文本向量化。19世紀70年代杰拉德·索爾頓提出了一種來源于信息檢索的向量空間模型(Vector Space Model,VSM)技術[19]。該模型認為文本特征之間是相互獨立的,因此可以忽略文本特征之間的依賴關系,將文本信息轉化為向量表示,減少數據量的同時保留文本的語義。

1.3 基于模糊匹配的文本相似度計算方法

1.4 基于語義擴展的文本相似度計算方法

在進行相似度計算時,關鍵字集合從文本信息中抽取,關鍵字的語義粒度不能直接獲得,但在實際處理中,關鍵字的語義范圍相互交叉的情況十分常見。為提高語義粒度,采用基于語義擴展的相似度計算方法[20-21]。

對于論文Pi的關鍵字集合KWi={k1,k2,…kn}中每個關鍵字ki,利用NLTK工具庫中Wordnet資源,擴展關鍵字的上下位詞及近義詞。

2 ?實驗設計及評估

實驗數據選取MAG子數據集中計算機科學領域中8103篇論文,將計算機科學領域280319篇論文作為知識庫存入數據庫中。方法設計如表2所示。

選擇實驗數據集中30篇論文用于數據展示,實驗數據集與知識庫中的論文進行匹配后,計算得出余弦距離并排序。

由圖3、4可知,管是關鍵字集合在擴展前還是擴展后,基于編輯距離的相似度都要高于完全匹配的相似度,說明在完全匹配中檢索不出來的關鍵字,在基于編輯距離相似度計算方法中被檢索出來,且每一篇的數值模糊匹配要高于完全匹配,說明在進行相似度計算時,選擇模糊匹配的方法是有效的。

由圖5可知,經過關鍵字擴展后,完全匹配的相似度升高。由此可證明,完全匹配失敗的關鍵字,在關鍵字擴展后,擁有相同的上下位詞或者近義詞,經過字符串完全匹配后,余弦相似度增加。

根據圖6余弦距離結果可知,關鍵字在擴展前后經過模糊匹配后,相似度整體表現差別不是特別大。原因在于關鍵字經過語義擴展后關鍵字集合維度增加,根據式(1),造成余弦距離結果相差較小。從另一方面來說,關鍵字集合經過擴展后,相似度變化不大說明關鍵字集合攜帶的信息量增加,但對整體的語義偏向沒有太大的影響。

3 ?結語

該文設計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決人工遴選評審專家中效率較低、主觀選擇專家等問題。由于方法是基于文本內容相似度進行專家推薦,因此該方法對所有文本推薦具有一定的普適性。

目前對于評審專家的推薦方法,大多從語義概念模型方向解決推薦問題。但在研究領域中存在專業內專有名詞,因此需要人工建立領域詞典,建立語義之間的聯系,未來的進一步工作是在Wordnet基礎上,加入專有名詞語義關系,進一步提高語義擴展的相似度。

參考文獻

[1] 張勇勤.科技計劃項目經費預算評審評估制度研究[J].天津科技,2008(3):77-79.

[2] 陳月英,穆仕華.科研項目在線評審體系的研究與應用[J].中國新通信,2015,17(9):69-70.

[3] 沈才俊,徐暑芬,常云志.科技項目評審過程中項目分組與專家推薦流程的設計[J].江蘇科技信息,2016(6):29-31.

[4] 梁保磊.政府科技項目評審主體、過程及應用系統開發研究[D].東南大學,2009.

[5] 萬猛.關于科技評審專家的選擇及其評審行為的判斷方法[J].研究與發展管理,2007(3):119-122,129.

[6] 靳健,楊海慈,李凝,等.基于主題契合度的專家推薦模型研究[J].數字圖書館論壇,2017(4):47-55.

[7] 劉一星.論文投稿系統評審專家自動推薦模型研究[D].重慶大學,2009.

[8] 李有超.基于項目屬性與偏愛比較的協同過濾推薦算法研究[D].燕山大學,2010.

[9] Reichling T,Schubert K,Wulf V.Matching human actors basedon their textsdesign and evaluation of an instance of the Expert Finding framework[A].Proceedings of the2005 international ACMSIGGROUP conference on Supporting group work[C].ACM,2005:61-70.

[10] 胡斌,徐小良.科技項目評審專家推薦系統模型[J].電子科技,2012,25(7):1-5.

[11] 李瑩.面向企業需求的專家推薦算法研究[D].北京交通大學,2018.

[12] 蒲姍姍.基于知識互補的科研合作專家推薦模型研究[J].情報理論與實踐,2018,41(8):96-101.

[13] 滕巖,李玉忱.基于《知網》的語義信息檢索[A].第二屆全國web信息系統及其應用會議[C].2005.

[14] 朱昆磊,黃佳進.基于信念網絡的協同過濾圖模型的推薦算法[J].模式識別與人工智能,2016,29(2):171-176.

[15] 周金夢.基于學術異構網絡的學者影響力評估算法[D].大連理工大學,2016.

[16] 張君.基于異構學術網絡的學者影響力評估與預測[D].大連理工大學,2018.

[17] Tang J, Zhang J, Yao L, et al. Arnetminer: extraction and mining of academic social networks[A].Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining[C].ACM,2008:990-998.

[18] Sinha A, Shen Z, Song Y, et al. An overview of microsoft academic service (mas) and applications[A].Proceedings of the 24th international conference on world wide web[C].ACM,2015:243-246.

[19] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M].Communications of the ACM,1975.

[20] 王良芳.文本挖掘關鍵詞提取算法的研究[D].浙江工業大學,2013.

[21] 王進,陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識別與人工智能,2006,19(6):696-701.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产一级精品毛片基地| 亚洲中文字幕23页在线| 久久亚洲天堂| 欧美一级在线看| 日本国产在线| 操操操综合网| 国产传媒一区二区三区四区五区| 精品视频第一页| 婷婷综合在线观看丁香| 亚洲国产看片基地久久1024| 亚洲视频在线青青| 国产精品无码AⅤ在线观看播放| 亚洲精品在线91| 婷婷99视频精品全部在线观看 | 97久久精品人人| 亚洲精品高清视频| 国产福利在线观看精品| 中文字幕av一区二区三区欲色| 亚洲香蕉伊综合在人在线| 波多野结衣一区二区三视频| 精品久久久无码专区中文字幕| 国产女人在线观看| 欧美一区二区三区国产精品| 奇米精品一区二区三区在线观看| 亚洲视频免费播放| 久久亚洲AⅤ无码精品午夜麻豆| 91蜜芽尤物福利在线观看| 国产在线第二页| 亚洲啪啪网| 在线国产你懂的| 成人综合网址| av性天堂网| 美臀人妻中出中文字幕在线| 欧美乱妇高清无乱码免费| 91视频99| 国产丝袜无码精品| 久久国产精品国产自线拍| 国产特级毛片aaaaaa| 日本精品中文字幕在线不卡 | 久久一日本道色综合久久| 久久综合伊人 六十路| 亚洲va欧美ⅴa国产va影院| 亚洲电影天堂在线国语对白| 亚洲日产2021三区在线| 亚洲日韩久久综合中文字幕| 99re经典视频在线| 毛片基地视频| 91啪在线| 伊人无码视屏| 欧美在线一级片| 免费不卡视频| 亚洲三级色| 国产呦精品一区二区三区网站| 欧美日韩精品一区二区在线线 | 在线播放91| 深夜福利视频一区二区| 成人午夜视频网站| 伊人精品视频免费在线| 色偷偷综合网| 婷婷亚洲视频| 久久精品亚洲热综合一区二区| 亚洲一级毛片免费看| 在线观看无码a∨| 国产成在线观看免费视频| 一本大道东京热无码av| 欧美成人精品在线| 亚洲最黄视频| 成人无码区免费视频网站蜜臀| 国产精品林美惠子在线观看| 国产区免费| 免费毛片全部不收费的| 一级看片免费视频| 欧美不卡视频在线观看| jizz在线观看| 欧美自拍另类欧美综合图区| 亚洲熟女偷拍| 国产亚洲视频播放9000| 二级特黄绝大片免费视频大片| 毛片基地视频| 国产精品一区在线观看你懂的| 青青青视频蜜桃一区二区| 亚洲三级色|