基于學術合作關系的學科專家導航實現算法研究

2015-04-29 00:00:00卜玉敏侯聰聰高國帥高阿坤

科技創新與應用 2015年22期

摘要：一個科學高效的學科專家導航系統對學科研究有極大的推動作用，然而目前我國對此類系統的設計開發和利用程度仍有待提高。文章僅對該系統的專家檢索和基于合作關系的專家導航進行算法設計。文中介紹了該系統的五大模塊及其功能。運用向量空間模型、相關性傳播模型計算某一領域的專家專長得分，得到該領域的專家排名列表；基于專家合作關系網絡，設計了在非限定領域和限定領域檢索中的專家合作強度算法。

關鍵詞：專家檢索；專家導航；合作網絡

引言

科研是推動學科發展的強大力量。我國對科研項目的投入不斷增加，產生了一些優秀的科研成果。但不可否認，我國科研領域仍存在一些問題。據2012年山東省審計，在該省四所高等院校2008年立項的縱向課題項目中，平均預算執行率為27.66%，未按期結題率為33.98%[1]。說明現階段我國科研存在項目資金利用率低，結題率低的弊端。原因之一在于部分項目申報者自身科研能力不足，學術資源在空間上分配不均，因此尋找并溝通學科科研人員之間的關系就尤為重要。學科專家導航系統的核心功能是把專家基于學術合作經歷進行聯系，并以可視化的方式向用戶展示。系統提供以下幾種方式的查詢：以專家姓名為檢索詞，查詢某一專家的基本信息、科研作品和與其他專家之間的合作關系；以學科領域為檢索詞，查詢該領域的專家排序列表。此外還對專家及作品進行分類：按組織、關鍵詞、會議等幾大類進行整理，列出最前沿的前20類，供用戶進行檢索查找。主要包含專家信息錄入、專家信息更新、用戶操作、專家檢索、管理與維護五個功能模塊。

1 實現算法

本章將對專家檢索進行算法設計。幾種檢索方式分別是：基于學科領域的專家導航，即用戶輸入學科領域詞作為檢索詞，系統返回該領域的專家排名列表；另一種是基于專家姓名的專家導航，即用戶輸入專家姓名作為檢索詞，系統返回該專家的工作單位、聯系方式等基本信息和科研成果，并以合作網絡的可視化方式展示與其他專家之間的合作關系。按類別分類便于用戶按專家所在組織、文獻的關鍵詞、文獻來源等對專家和文獻進行分類查詢或瀏覽。

為便于后續設計，現將文章約束表述如下：第一，文章對專家關系界定為基于其學術研究的論文合作關系和研究領域的相似關系；第二，對有關專家學術成果的算法設計僅圍繞文字形式的成果信息（主要指學術論文）進行。

1.1 學科領域檢索的專家檢索算法

專家得分來源于兩方面：一是從專家參與所著論文中獲得，包括論文與查詢詞的相似度得分和論文的學術價值得分，此為專家初始得分；二是基于專家在相關論文中的合作關系，運用信息檢索中的相關性傳播模型，參照文獻[3]，把初始得分根據專家之間的相關度權值進行傳播提升。

基本思路：（1）為每篇文獻建立索引文檔，文檔中包括關鍵詞出現的位置（標題、正文等），這一工作在系統建立后已經完成；（2）運用向量空間模型計算文獻與查詢詞的相似度，并篩選出相似度大于閾值的文獻；（3）根據文獻與查詢詞的相似度、文獻期刊的影響因子計算（2）中篩選出的每篇文獻的得分；（4）把每篇文獻的得分分配到作者，計算每位相關作者基于所著文獻的總得分，作為每位相關作者的初始得分；（5）根據（2）所得文獻集，計算作者之間的相關度權值；（6）把作者的初始得分進行傳播提升，經過多輪迭代，得到每位相關專家的總得分；（7）按得分高低把專家姓名排序輸出。

1.1.1 基于文獻的作者初始得分算法

文獻得分依據兩方面：一是依據文獻與搜索領域的相關度；二是依據文獻在該領域的學術價值。相關度和學術價值越高，得分越高，反之則越低。利用向量空間模型（VSM）稍加改變，進行相關度的計算；用文獻所在期刊的復合影響因子衡量其學術價值。

根據文獻[4]，文檔di可表示為（wi，1，wi，2，…，wi，m），其中wi，1，wi，2，…，wi，m分別代表文檔di特征項t1，t2，…，t3的特征項權重。類似地，查詢也可以在同一空間里表示為一個查詢向量。用夾角θ的余弦來衡量二者相關程度的大小，即

Sim（d，q）=cosθ=■ （1）

將這個結果與設定的閾值比較，如果大于或等于閾值則視為相關，小于該閾值的視為不相關。

語詞加權方案為wi，j=f'i，j*log（N/nj）（2）

nj表示含有標引詞kj的文檔數目；f i，j表示語詞kj結合其位置變形后的加權標準化頻率。

f'i，j=■ （3）

分子表示語詞kj在文檔di中的加權頻率；r1，r2，r3，r4分別表示題目、摘要、關鍵詞、正文中的語詞權重；freq'i，j，freq\"i，j，freq\"'i，j，freq\"\"i，j分別表示語詞在題目、摘要、關鍵詞、正文中的初始頻率；freq'i，l表示語詞kl在文檔di中的加權頻率，最大值是通過計算文檔di中出現的所有語詞來獲得的。

對查詢詞的權值，在Salton和Buckley提出可以采用如下方法，即

wq，j=（0.5+0.5■）*log（N/nj）（4）

至此，可得出文檔di的相關度得分。把相關度小于閾值的文檔剔除。

Pi=β*Sim（di，q）+（1-β）*Vali （5）

Pi表示文獻di的總得分；Vali表示文檔di的學術價值，即期刊影響因子；β∈（0，1）。至此已得文獻di的綜合得分。把文獻得分分配到作者，即

De，i=Pi/m （6）

De，i表示文檔di帶給作者e的得分；m表示文獻di的作者人數。

De=∑t i=1De，i （7）

De表示專家e在當前查詢下基于所著文獻的得分總值，為該專家的初始得分；t表示專家e在該學科領域共參與合作的論文篇數。

1.1.2 基于相關性傳播的模型初始得分傳播提升算法

按照文檔-專家關系數據計算專家之間的相關度權值vi，j（表示專家i到專家j的相關度權值），該權值不具有對稱性，即vi，j≠vj，i。

表1 文檔-專家關系表

該模型基于以下假設：（1）如果一對專家在不同文檔中合作的次數越多，則其相關度權值越大；（2）一篇文檔的合作者越多，則兩位專家之間的相關度權值越小。

基于以上假設，如果專家i、j都在文檔dk中，則i、j基于文檔dk的逆向頻率為

gi，j，k=1/（f（dk）-1）（8）

f（dk）表示文檔dk的專家數量。

對于文檔集D，專家i和j在所有文檔中的逆向頻率為ci，j=∑m k=1gi，j，k，歸一化后有vi，j=ci，j/∑n k=1ci，k

m表示專家i、j合著的文獻總量，n表示在相相似度大于閾值的文獻中與專家i有合作關系的專家總量。

專家e的最終得分為：

（9）

（9）式是一個迭代的過程，經多輪迭代后，S■■收斂，最終可得到專家的排序得分。其中S■■是指專家e的總得分，vi，j指專家i到專家j的相關度權值；D■■表示專家e的初始得分；表示專家e經多輪迭代

后得到的提升分值，表征專家在查詢領域的權威性，n表示該領域與專家e有合作關系的專家數量，ve，j表示專家e到專家j的相關度權值；α是衰減系數，且α∈（0，1）。

至此得到相關專家在當前查詢下各自得分總值，按分數由高到低排序輸出記得到專家列表。

1.2 專家姓名檢索的合作網絡專家檢索算法

合作網絡以專家為節點，以節點之間連線的長度表示合作關系的強度，且連線長度與關系強度成負相關。此算法按涉及的學科范圍分為兩種：一種是包含全部學科，即某位專家和在其所有論文中與之有合作關系的所有其他專家構成的合作網絡，稱為非限定領域合作網絡；另一種是在用戶指定查詢領域，即某位專家和在其發表的與該領域相關的論文中與之有合作關系的所有其他專家構成的合作網絡，稱為限定領域合作網絡。

1.2.1 非限定領域合作網絡的算法

基本思路：（1）為文獻建立著者倒排文檔（通常在系統建立后已經完成）；（2）根據被查詢著者（記為e）找到其所有文獻的記錄存取號，記為集合A；（3）對專家-論文表中的記錄一一掃描，對包含集合A中文獻的記錄，計算出其對應著者（非e）與著者e之間基于該文獻的合作強度；（4）根據著者是否相同把合作強度進行合并，根據合作強度的大小返回合作網絡。

合作強度計算方法如下，基于一篇文獻兩位專家之間的合作強度[5]

si=y/C2 n （10）

si表示兩位專家關于文獻di的合作強度；n表示文獻di的合作專家總人數；y表示文章所在期刊的影響因子（取期刊的復合影響因子）。

S=∑M i=1si （11）

S表示兩位專家的非限定領域合作強度；M表示兩位專家合作的論文總量。

1.2.2 限定領域合作網絡的算法

基本思路：（1）為文獻建立著者倒排文檔；（2）根據被查詢著者（e）找到其所有文獻的記錄存取號，記為集合A；（3）計算集合A中的文獻與查詢領域的相似度，保留相似度大于閾值的文獻，記為集合B；（4）對專家-論文表中的記錄一一掃描，對包含集合A中文獻的記錄，計算出其對應著者（非e）與著者e之間基于該文獻的合作強度；（5）根據著者是否相同把合作強度進行合并，根據合作強度的大小返回合作網絡。其文獻與查詢的相似度和專家之間基于每篇論文的合作強度計算方法同上。

2 結束語

一個方便高效的學科專家導航系統對專家的科研活動有很大的幫助作用。文章對該系統的專家檢索算法進行了詳細設計。主要包括：聯系關鍵詞在文獻中的位置加權，運用向量空間模型和相關性傳播模型設計了某一檢索領域的專家排名算法；在非限定領域和限定領域檢索中的專家合作強度算法。

相比較專家庫而言，不斷更新的網絡信息中藏有更多的專家數據。相信隨著大數據處理技術研究進展，專家系統將會實現網絡中相關信息的有效抓取、處理和利用，快速地為用戶提供更豐富的有用信息。

參考文獻

[1]魏海政.山東審計顯示部分高校科研項目進展遲緩結題率低[N].中國教育報，2012-7-31.

[2]嚴俊哲.項目評審專家庫的建設及專家管理研究[D].武漢：武漢理工大學，2013.

[3]鄭義平，王勇，等.基于查詢詞相關性傳播的專家檢索方法[J].計算機工設計，2014，35（6）：2165-2169.

[4]王知津.信息存儲與檢索[M].北京：機械工業出版社，2009：31+33.

[5]王志亮.社會網絡分析方法在科研協作網中的應用研究[D].大連理工大學，2005.

作者簡介：卜玉敏（1993，7-），女，籍貫：河北省定州市，本科學歷，研究方向：信息管理與信息系統。

科技創新與應用2015年22期

科技創新與應用的其它文章: 淺談如何進行建筑造價的有效管控; 全地形適應系統控制邏輯設計; 我國環境中的土壤污染檢測手段分析; 燃氣發生裝置柔性監測和控制系統設計*; 關于海洋環境監測技術集成研究; 現代設計理論在園林設計中的作用