韓旭 李寒 張麗敏 梁英



摘要:針對用戶行為分析在學術領域應用不足的情況,以學術行為的主體學者為研究對象,設計并實現了一種基于學術行為的學者排名技術。基于用戶畫像技術挖掘學者特征及學者之間的關系,設計包括基礎標簽、能力標簽和關系標簽的學術行為標簽體系,提供了學者能力指數及學者排名方法。使用圖形數據庫存儲、呈現和分析學者之間的關聯度。從方法的可行性和有效性角度出發,基于學術行為的學者排名技術利用實際數據得到了實驗驗證,為研究成果推薦、評審專家推薦等學術應用提供數據參考和解決方案。
關鍵詞:學術行為;學者排名;用戶畫像;行為標簽
中圖分類號:TP391.1? ?文獻標識碼:A
文章編號:1009-3044(2019)26-0001-03
開放科學(資源服務)標識碼(OSID):
Abstract: Since user behavior analysis is not fully utilized in the academic field, scholars which are the subject of academic behavior are considered as the research object, and techniques of scholar ranking based on academic behavior are designed and implemented in this paper. At first, the user portrait technique is applied to obtained the characteristics of and the relations between scholars. In details, a label system including basic label, ability label and relation label is designed, and a capability index and a scholar ranking method are given. Then, graph database is used to store, visualize and analyze the degree of scholar relations. In the perspective of feasibility and effectiveness, the proposed techniques are verified on real data, and the results shows the techniques are able to provide reference and solution for research achievement recommendation and review expert recommendation.
Key words: academic behavior; scholar ranking; user profile; behavior label
1 引言
用戶行為分析指對用戶有關的數據進行統計、分析,從中發現用戶的行為規律,并將這些規律與實際應用相結合,從而輔助領域應用的過程。用戶行為分析主要有兩種途徑,一種是以用戶調研的方式對用戶行為對象進行研究;另一種是基于大規模日志,利用數據挖掘和統計分析等方法進行研究。目前,由于日志包含真實網絡環境下的大規模用戶行為數據,網絡數據已經漸漸成為用戶行為分析的常用方法[1],已被應用于交通領域的交通流量預測、生物學中挖掘基因與疾病之間的關系、金融行業中稅務稽查等方面。學術領域同樣存在著大量的用戶行為數據,可基于數據挖掘和統計分析等方法開展學術行為的分析,發現學術行為對象的潛在特征和相互關系。學術相關的排名一直是科研領域關注的重點和熱點問題,排名不僅是評估學術行為對象的依據,還對引導學術方向、輔助學術相關的業務活動有著重要的價值。
美國加利福尼亞大學圣地亞哥分校的物理學家喬治·赫希(Jorge Hirsch) [2]在2005年提出一種定量評價科研人員學術水平的方法H指數,通過論文的引用指標量化評價學者作為獨立個體的研究成果,體現了論文高被引用數量和高被引用強度。然而,學者的研究成果不僅僅局限于論文發表,還涉及承擔的科研項目、學術任職和學術獎勵等多個方面,評估某位學者的學術產出以及學術貢獻時應該同時綜合考慮多種因素。
以學術行為主體的排名為目標,設計并實現了一種基于學術行為的學者排名技術。以互聯網公開的學術數據為數據源,以學術行為主體作為研究對象,綜合用戶畫像、關系圖譜等多種技術,發現學術行為數據中隱含的學術主體的特征和相關關系,實現學術行為主體的排名技術,以輔助成果推薦、學術評審等科學研究服務。
2 基于學術行為標簽的學者畫像與排名
用戶畫像是為了方便人們的理解和計算機對信息的處理,將用戶的相關信息標簽化,用這些標簽描述用戶的特點,因此用戶畫像的核心工作是給用戶打標簽。在學術領域內,同樣需要設計能夠描述學術行為主體特征和關聯關系的標簽體系,并生成標簽值,以評估學術行為主體的學術能力,輔助學者排名。
2.1 學術行為標簽的設計
為了更全面的描述學術行為主體的特征及相關關聯,以學者為中心來設計三類學術行為標簽,分別是基礎標簽、能力標簽和關系標簽,如表1所示。
基礎標簽被定義為能夠直接反應學術行為主體特征的標簽,由學者的基本描述信息構成,主要包括單位、研究領域、導師等。基礎標簽可直接由數據表提取,是基于用戶畫像的學術行為分析的基礎數據。
能力標簽被定義為能夠體現學術行為主體的專業能力水平的標簽,由學者所獲的各類基金及數量、各類學術論文及數量以及國家級基金數量、高水平論文數量等構成。能力標簽可通過對數據表的檢索和統計獲取,是評估學者的專業能力的依據。
關系標簽被定義為能夠描述學術行為主體之間的關系的標簽,由師生關系、同事關系、同門關系、合作關系四類構成。關系標簽可通過數據表的關聯查詢獲得,是開展可視化分析的基礎。
2.2 學者的學術行為畫像
學者的學術行為畫像通過學者的學術行為標簽提取實現,圖1所示為學者的學術行為畫像的流程,即各類學術行為標簽的提取過程[3]。
如圖1所示,學術行為畫像的流程分為三個步驟,分別提取基礎標簽、能力標簽和關系標簽,具體如下:
步驟1:提取基礎標簽。基礎標簽是從數據表直接檢索獲取。
步驟2:提取能力標簽。基于數據庫的查詢和統計功能提取能力標簽。針對數值型標簽,如論文總數,將通過關聯查詢論文信息表與學者信息表,統計每位學者發表的論文總數。針對字符串型標簽,利用數據庫函數,將各類基金信息以“;”為分隔符進行拆分,再通過關鍵字檢索區分基金類型,最后根據基金類型統計數量。
步驟3:提取關系標簽。利用關系型數據庫的查詢功能實現。師生關系和合作關系可以直接從學者表獲取,同事和同門關系基于復雜查詢實現。以查詢同事關系為例,查詢學者表中所有與當前學者具有相同單位信息的學者,將所有查詢到的學者的編號以“;”作為分隔符連接為字符串形成標簽值。
2.3 基于能力指數的學者排名
為了使學者之間更具可比性,需要將學者按照領域劃分,再進行排序。基于學者的能力標簽設計了一種分析學者專業能力的方法,采用能力指數衡量學者的專業能力。能力指數的計算步驟如下:
步驟1:為各個能力標簽賦予權值,并進行歸一化。
步驟2:對每個能力標簽,將能力標簽值與能力標簽權值相乘。
步驟3:將所有能力標簽與權值的乘積進行加和,并以該值作為學者的能力指數。能力指數的計算公式如公式(1)所示。
式(1)中,a表示能力指數,wi表示能力標簽權值,vi表示能力標簽值。
以學者“楊天宇”為例,該學者所獲基金總數、國家級基金數、省級基金數、論文總數和高水平論文數分別為3、1、0、5、1,令這五類能力標簽對應的權重分別為0.33、0.2、0.07、0.27、0.13,根據公式(1),能力指數的計算結果為2.67。
通過爬取 “北方工業大學”計算機領域的學者互聯網公開學術數據,共獲得1181學者數據和202篇論文數據。包括學者的姓名、單位、主要研究領域、導師、合作作者、所獲基金、論文題目、論文發表時間、論文刊源、論文被引量、論文下載量、論文發表單位、論文關鍵詞、論文相關的基金、論文分類號等,同時對數據進行了數據清洗和去重。利用公式(1)計算各學者的能力指數,表2是能力指數排名前五的學者名單。
為了驗證排名的有效性,基于知網中的學術行為數據,統計學者“馬禮”和“劉高軍”的學術成果,對比結果表明,前者確實相對于后者負責更多的科研項目,擁有更多的論文,符合排名結果。
3 行為數據可視化分析
可視化分析由數據的可視化和基于關系圖譜的數據分析兩部分內容構成。前者負責學術行為主體之間關系的可視化呈現,后者基于關系圖譜分析學術行為主體之間的關聯度,目標是輔助相關研究成果推薦、評審專家推薦等應用。
3.1 數據的可視化
關系圖譜是一種基于圖的數據結構,是由節點和邊組成。它利用可視化的圖譜展示實體之間的核心結構或整體結構,實現多種信息的融合,能夠利用可視化信息為領域提供有價值的參考[4]。
學者之間具有的四類典型關系統一采用NoSQL圖形數據庫Neo4j存儲并進行可視化的呈現,形成學術行為主體之間相互關系的關系圖譜。構建學者的關系圖譜的步驟如下:
步驟1:將學者之間的四類關系數據導入NoSQL圖形數據庫Neo4j。
步驟2:遍歷所有學者,將其創建為中心節點,并根據學者之間的關系建立實體之間相應的連接關系。
步驟3:對節點和關系進行去重處理。首先,查詢是否存在重復節點,當存在時去掉其中一個節點,并將該節點上的關系轉移到另一節點上。然后,查詢圖中任意兩點之間是否存在相同的關系,如果存在則刪掉多余的,只保留一個該類型的連接關系。
以單位為“北方工業大學”的學者的學術行為數據作為輸入,部分數據的可視化呈現效果如圖2所示,圓圈代表學者,圓圈之間的有向邊代表學者之間的關系,關系的類型標記于邊上,有向邊的起點和終點分別對應關系的起點和終點。以師生關系為例,有向邊的起點代表學生,終點代表導師。
3.2 基于關系圖譜的數據分析
關系圖譜的目標在于描述現實世界中存在的各種實體或概念,以及實體與實體之間存在關聯關系[5]。由于學術行為主體之間具有多種明確的關系[6],這些關系及其對應的學術行為主體則可以采用關系圖譜來進行描述。此外,由于關系圖譜可用于數據分析[7],則可以基于學術行為主體的關系圖譜來提取學者之間關聯度,為學術領域的各類推薦應用提供依據。
基于圖形數據庫提供的查詢功能,可以在已建立的學者為實體的關系圖譜上開展進一步數據分析。具體的,將對學者之間的關聯程度(即關聯度)進行分析,分析步驟如下:
第一,選取待分析的實體,即學者。
第二,確定關聯級別,關聯級別在關系圖譜中體現為實體之間的路徑長度。
第三,基于圖形數據庫的查詢功能,檢索與待分析學者具有相應關聯級別的學者列表,生成學者列表的方法如下:
由關系圖譜分析得到的學者之間的關聯級別可用于多種實際應用。通常,關聯度較高的學者之間的研究成果具有更高的相似性,可用于相關研究成果的推薦。若再結合學者的領域排名,可以將具有較高關聯度并排名靠前的學者的研究成果作為推薦內容,將具有更高的學術價值[8]。在論文或項目評審專家推薦的應用中,具有較高關聯度的學者之間是要相互回避的。因此,在評審專家推薦的應用中,需要推薦具有一定關聯度,不能具有過高關聯度的學者作為評審專家。
以“北方工業大學”的學者“馬禮”為例,采用基于關系圖譜的關聯度分析方法,圖3(a)為關系度在一級到三級之間的學者排名,圖3(b)為關系度為五級的學者排名。
基于知網數據集,對圖3所示結果進行驗證與分析,“馬禮”與關聯度在一到三級之間的學者的平均合作論文數量為3篇,與這些學者同時具有同事關系,且部分屬于同一學院。而與“馬禮”與關聯度為五級的學者的平均合作論文數量僅為1篇,且較少具有其他類型的關系。實驗結果表明基于關系圖譜的關聯度分析是可行且有效的,能夠為研究成果推薦和評審專家推薦等應用提供依據。
4 結束語
本文設計并實現了一種基于學術行為的學者排名技術,主要由基于學術行為標簽的學者畫像與排名、行為數據可視化分析兩部分構成。基于學術行為標簽的學者畫像與排名主要基于用戶畫像技術,設計了用于描述學者特征和學者之間關系的用戶行為標簽體系,給出標簽值的提取方法,并基于提出的學者學術能力指數實現了學者排名。行為數據可視化分析主要基于關系圖譜技術,學者之間的關聯關系采用圖形數據庫技術
存儲并進行可視化的呈現,并基于學者的關系圖譜分析學者關聯關系的程度。最終,實驗驗證了基于學術行為的學者排名技術的可行性和有效性,方法能夠實現領域學者的排名和學術能力評估,結果可以作為學術領域的研究成果推薦、評審專家推薦等學術應用的參考依據。
致謝:本文得到北京高等學校高水平人才交叉培養“實培計劃”2018年度項目“學術行為數據挖掘與分析”的資助,特此感謝。
參考文獻:
[1] 姚婷,張敏,劉奕群,馬少平,茹立云.低頻查詢的用戶行為分析和類別研究[J].計算機研究與發展,2012,49(11):2368-2375.
[2] Hirsch, Jorge E. An index to quantify an individual's scientific research output[J].PNAS,2005,102(46):16569-16572.
[3] 袁莎,唐杰,顧曉韜. 開放互聯網中的學者畫像技術綜述[J]. 計算機研究與發展,2018,55(09):1903-1919.
[4] 官賽萍,靳小龍,賈巖濤,王元卓,程學旗. 面向知識圖譜的知識推理研究進展[J]. 軟件學報,2018,29(10):2966-2994.
[5] 孫小兵,王璐,王經緯,李斌,李宇.基于知識圖譜的bug問題探索性搜索方法[J].電子學報,2018,46(07):1578-1583.
[6] 肖丁,王乾宇,蔡銘,李秀.智能家居場景聯動中基于知識圖譜的隱式沖突檢測方法研究[J/OL].計算機學報,2019:1-15[2019-06-05].http://kns.cnki.net/kcms/detail/11.1826.TP.20190318.1112.002.html.
[7] 劉紅軍,胡曉峰,鄧文平,盧錫城.基于首選路由的AS重要性評估方法[J].軟件學報,2012,23(09):2388-2400.
[8] 楊玉基,許斌,胡家威,仝美涵,張鵬,鄭莉. 一種準確而高效的領域知識圖譜構建方法[J]. 軟件學報,2018,29(10):2931-2947.
【通聯編輯:梁書】