科技項目評審專家推薦系統(tǒng)模型

2012-12-17 10:41:56徐小良

電子科技 2012年7期

關(guān)鍵詞：信息模型

胡斌，徐小良

(杭州電子科技大學軟件與智能技術(shù)研究所，浙江杭州 310018)

隨著互聯(lián)網(wǎng)信息資源的不斷增長，使用關(guān)鍵字的檢索手段，難以滿足用戶高效獲取所需信息。在這種背景下，個性化推薦系統(tǒng)應運而生，并在電子商務(wù)、影視、文章推薦等多領(lǐng)域得到應用。但在科技項目評審領(lǐng)域，鮮有項目評審專家自動推薦系統(tǒng)的研究及應用。基于豐富的專家?guī)煨畔ⅲ鶕?jù)科技項目信息自動推薦合適的評審專家，是科技項目評審質(zhì)量和效果的保證。文中根據(jù)科技項目評審標準、專家信息庫和待評審科技項目信息研究科技項目評審專家推薦系統(tǒng)，以實現(xiàn)科技項目評審專家的高效準確的遴選。

1 科技項目評審專家推薦系統(tǒng)模型

通用的推薦系統(tǒng)一般適用于電子商務(wù)、視頻、音樂等有著大量用戶的互聯(lián)網(wǎng)網(wǎng)站，對向量空間數(shù)據(jù)的獲取多是通過挖掘用戶在網(wǎng)上的瀏覽或購買的歷史記錄。而科技項目評審專家推薦中的數(shù)據(jù)多源于數(shù)據(jù)庫中的文本信息，其來源差別較大，并且通用的推薦系統(tǒng)模型一般只考慮用戶－對象二維度量空間，不能夠考慮到評審專家推薦中篩選評審專家的原則等多維因素［1］。因此，運用通用的推薦系統(tǒng)模型會導致推薦結(jié)果準確率較低，推薦產(chǎn)生結(jié)果不能作為遴選參考。為解決這一問題，提出了一種在基于內(nèi)容推薦的基礎(chǔ)上融合協(xié)同過濾算法的組合推薦策略。為了使推薦的結(jié)果能夠符合篩選評審專家的原則，在此基礎(chǔ)上加入了專家評分加權(quán)因子，對推薦結(jié)果進一步調(diào)整。

推薦系統(tǒng)模型具體實現(xiàn)步驟如下:

(1)根據(jù)專家信息庫中的專家信息，按評審專家選擇標準(科研課題、文獻、人才培養(yǎng)、獲獎情況)對每位專家評分，建立專家評分數(shù)學模型庫。

(2)按數(shù)據(jù)庫中專家的文本信息，對每位專家信息進行文本分詞，再用TF－IDF算法篩選關(guān)鍵詞，建立專家信息向量空間模型庫。

(3)讀取新項目文本信息，對其分詞、篩選關(guān)鍵詞，建立項目向量空間模型。

(4)根據(jù)新項目的文本信息，找出已評審過的類似項目列表，取出相似項目列表中已選的評審專家，建立類似項目評審專家列表。

(5)將步驟(2)與步驟(3)中產(chǎn)生的專家向量空間模型與項目向量空間模型進行相似性匹配，產(chǎn)生推薦，得到匹配度最高的前N個推薦專家列表。

(6)運用新的混合推薦算法，將步驟(1)、(4)和(5)中得到的推薦專家信息進行處理，從而得到最終的推薦專家列表，設(shè)計流程如圖1所示。

圖1 系統(tǒng)推薦實現(xiàn)流程

2 關(guān)鍵技術(shù)

2.1 向量空間模型的創(chuàng)建

科技項目和評審專家信息的向量空間模型的創(chuàng)建過程［2］類似，具體的實現(xiàn)步驟如下:

(1)將文檔先進行分詞處理。

(2)運用TF－IDF算法計算每個特征詞的權(quán)值［3］，并篩選關(guān)鍵詞。

(3)將關(guān)鍵詞與關(guān)鍵詞在整個文本信息中的權(quán)重，映射成為一個特征向量 V(d)={〈t1，w1(d)〉，〈t2，w2(d)〉，…，〈tn，wn(d)〉}，用這樣的形式表示向量空間模型。其中，ti，i=1，2，…，n 為特征詞條項;wi(d)為ti在d中的權(quán)重;wi(d)權(quán)重是運用TF－IDF算法根據(jù)特征項的頻率信息TF和反文檔頻率IDF來計算出文檔d中每一個特征項的權(quán)值，再代入特征向量V(d)，便得到該文檔的向量空間模型。

基于TF－IDF特征權(quán)重閾值的向量空間模型建立流程，如圖2所示。

圖2 向量空間模型實現(xiàn)流程

2.2 專家評分數(shù)學模型的建立

專家評分數(shù)學模型庫的建立，是為了通過專家的專業(yè)評分作為加權(quán)因子，調(diào)整推薦產(chǎn)生的結(jié)果列表，從而提高評審專家推薦的準確性。根據(jù)評審專家的評價指標和遴選實施細則，在獲取專家基本信息的基礎(chǔ)上，對信息進行提取建立專家信息的評分數(shù)學模型，計算得到專家的專業(yè)評分，再將結(jié)果存入庫中［4］。具體實現(xiàn)方法:

(1)讀取專家?guī)熘械膶＜倚畔ⅲ瑢π枰\用的字段信息進行提取。

(2)根據(jù)專家信息建立科研課題指標數(shù)學模型，計算得到科研課題指標的專業(yè)評分，其中計算方法為

式中，Pi，S1，S2為相應的權(quán)重;Aαi1，Aαi2分別為已鑒定的項目數(shù)和在研究的項目數(shù);i分別為國家級項目和省部級項目。

(3)根據(jù)專家信息建立文獻指標數(shù)學模型，計算得到文獻指標的專業(yè)評分，其中計算方法為

式中，Di，Wi，Wj'，Wk″為相應權(quán)重;Aβi1為論文量;Aβi2為著作量;Aβi3為印證量;i分別為4大檢索系統(tǒng)收錄，發(fā)表于國際、國內(nèi)核心期刊，國內(nèi)二級期刊;j分別為著書，編著書，編書;k分別為國外引證量，國內(nèi)引證量，自引率。

(4)根據(jù)專家信息建立人才培養(yǎng)指標數(shù)學模型，計算得到人才培養(yǎng)指標的專業(yè)評分，其中計算方法為

式中，Ri，C1，C2為相應權(quán)重;Aγi1，Aγi2分別為所培養(yǎng)研究生人數(shù)和擔任研究生導師的年限;i分別為博士生導師和碩士生導師。

(5)根據(jù)專家信息建立獲獎情況指標數(shù)學模型，計算得到獲獎情況指標的專業(yè)評分，其中計算方法為

式中，Qi，Ej為相應權(quán)重;Nj為發(fā)表論文數(shù);i分別為國家級獲獎和省部級獲獎;j分別為一等獎、二等獎、三等獎。

(6)根據(jù)上述4個評價指標值建立專家評分數(shù)學模型，計算得到專家的最終的專業(yè)評分，其中計算公式為

式中，Mi分別表示為科研課題指標、文獻指標、人才培養(yǎng)指標、獲獎情況指標的相應權(quán)重。

(7)根據(jù)前6步的方法計算專家?guī)熘忻课粚＜业膶I(yè)評分，然后存入數(shù)據(jù)庫中，完成專家評分數(shù)學模型庫的建立。

專家評分數(shù)學模型庫的建立實現(xiàn)流程如圖3所示。

圖3 專家評分數(shù)學模型庫的建立流程圖

2.3 混合推薦算法

該混合推薦算法的基本思想:首先構(gòu)建科技項目向量空間模型和評審專家向量空間模型，運用基于內(nèi)容的推薦算法對向量空間模型進行相似性匹配，從而產(chǎn)生初步推薦專家列表;然后根據(jù)已評審相似項目的評審專家列表運用協(xié)同過濾推薦算法對得到的推薦專家列表進行調(diào)整;最后在前兩步的基礎(chǔ)上運用專家評分數(shù)學模型庫中相應的專家評分作為加權(quán)因子產(chǎn)生最終推薦列表。具體實現(xiàn)步驟如下:

(1)運用本課題在基于內(nèi)容的推薦算法［5］基礎(chǔ)上提出的基于內(nèi)容的分層次推薦算法，計算得到相似值最高的前N位或大于閾值的專家。

(2)融合協(xié)同過濾算法的思想［6］，查找出與該項目相似的已評審項目的評審專家列表，如果第一步中推薦產(chǎn)生的專家在相似的已評審項目專家列表中，則將項目相似值乘以相應權(quán)重加到第一步的相似值上，如果不在專家列表中則加0。

(3)從專家評分數(shù)學模型庫中，找出推薦專家列表中每位專家的專業(yè)評分，除以100再乘以相應權(quán)重加入到上述得到的相似值上。

(4)計算得到最終的綜合分值，再對其重新排序，取最靠前的N/2為評審專家作為推薦返回。混合推薦算法的實現(xiàn)流程如圖4所示。

其中項目向量空間模型與專家向量空間模型的匹配實現(xiàn)步驟如下:

(1)在基于內(nèi)容的推薦算法下，得到項目的向量空間模型。

(2)根據(jù)項目模型中的特征詞和權(quán)值與專家信息向量模型庫中的每一位專家進行匹配。

圖4 混合推薦算法實現(xiàn)框圖

(3)運用余弦系數(shù)相似度計算方案［7］計算出項目與每位專家相似系數(shù)Pi，通過兩個向量的相似系數(shù)Pi來表示項目與專家的匹配程度。

(4)取前N個值最大的Pi，所對應的專家為最適合評審該新項目的推薦專家列表N。

3 實驗及結(jié)果分析

3.1 評價指標

推薦產(chǎn)生的專家與人工選擇結(jié)果越接近則說明越準確，一般運用覆蓋率(Coverage)和準確率(Precision)兩者綜合產(chǎn)生的匹配率(Matching)來度量推薦的準確性［8］。假設(shè)RS為推薦專家集，ES為人工選擇的專家集，則

其中實驗中用到的匹配率代表人工推薦的和推薦系統(tǒng)推薦的結(jié)果集的交集除以推薦的總?cè)藬?shù)，排列次序匹配率代表人工推薦和推薦系統(tǒng)推薦的結(jié)果集交集中次序依次對應的人數(shù)除以推薦的總?cè)藬?shù)。

3.2 實驗結(jié)果分析

該系統(tǒng)的實驗數(shù)據(jù)來源于浙江省科技項目管理系統(tǒng)，系統(tǒng)中含有已審批的科技項目為33 288項，評審專家為16 118位。測試數(shù)據(jù)中專家信息是從16 118位專家中篩選出計算機相關(guān)方面的專家，然后再隨即抽取其中300位作為專家樣本庫，待評審的項目是從系統(tǒng)中隨機抽取40個與計算機相關(guān)的已評審項目，每個項目計算獲取3組數(shù)據(jù):(1)嚴格按照評審專家遴選標準人工選取10位評審專家并且按照符合程度依次排序。(2)用基于內(nèi)容的推薦算法推薦產(chǎn)生10位評審專家并且按余弦相似值的符合程度依次排序。(3)用提出的混合推薦算法推薦產(chǎn)生10位專家并按照混合推薦值的符合程度依次排序。然后，運用推薦系統(tǒng)的評價指標中匹配率的計算方法分別計算出以上每項(1)與(2)，(1)與(3)的匹配率和排列次序匹配率。實驗得到的數(shù)據(jù)如表1所示。

表1 匹配率與排列次序匹配率實驗數(shù)據(jù)

續(xù)表1

根據(jù)表1中的40個項目數(shù)據(jù)進行統(tǒng)計，實驗結(jié)果如圖5，圖6所示。

如圖5所示，混合推薦算法產(chǎn)生的推薦匹配率，在多數(shù)情況下都高于基于內(nèi)容推薦產(chǎn)生的推薦，且混合推薦的匹配率平均值高于基于內(nèi)容推薦所產(chǎn)生的推薦。由圖6可知，混合推薦算法產(chǎn)生的推薦次序匹配率，在多數(shù)情況下都高于基于內(nèi)容推薦所產(chǎn)生的推薦，且混合推薦的推薦次序匹配率平均值高于基于內(nèi)容推薦產(chǎn)生的推薦。綜上所述，文中提出的科技項目評審專家推薦模型有較好的可行性，且基于混合推薦的方案具有更高的準確性。

4 結(jié)束語

針對科技項目評審專家遴選問題，提出了一個新的推薦系統(tǒng)框架模型和兩種推薦策略，并通過實驗驗證了其可行性和推薦準確度，在一定程度上能幫助在評審專家選擇時提供參考，具有較好的應用價值。但由于文本信息分詞后取得的關(guān)鍵詞權(quán)重準確度偏低，

致使項目與專家匹配時未能完全按照真實的情況產(chǎn)生推薦，這中間還需要加入人工干預，為進一步提高推薦準確度，下一步的研究工作是提出更優(yōu)的分詞算法和建立針對性強的分詞詞庫。

［1］許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究［J］.軟件學報，2009，20(2):350－362.

［2］PENG Xinyuan.Automated chinese essay scoring using vector space models［C］.Universal Communication Symposium，2010:149－153.

［3］KONGMANEE T，VANICHAYOBON S，WETTAYAPRASIT W.The TF－IDF and neural networks approach for translation initiation site prediction［J］.Computer Science and Information Technology，2009，4(3):318 －322.

［4］王憑慧.科技項目評價方法［M］.北京:科學出版社，2003.

［5］CHUANG Huanming.A study on the comparison between content－based and preference－based recommendation systems［C］.Fourth International Conference on Semantics，Knowledge and Grid，2008:477 －480.

［6］ZHENG Zibin.WSRec:a collaborative filtering based web service recommender system ［C］.IEEE 6th International Conference on Semantics，2009:437 －444.

［7］張振亞.基于余弦相似度的文本空間索引方法研究［J］.計算機科學，2005，32(9):160 －163.

［8］劉建國.個性化推薦系統(tǒng)評價方法綜述［J］.復雜系統(tǒng)與復雜性科學，2009，6(3):1 －10.