基于引文圖模型的科研論文智能推薦算法研究

2019-03-25 08:01:52肖詩伯付圣

電腦知識(shí)與技術(shù) 2019年3期

肖詩伯付圣

摘要：科研工作者在搜索文獻(xiàn)時(shí)，即使通過關(guān)鍵詞檢索也常因結(jié)果中的大量文獻(xiàn)而造成篩選困難。本文為幫助用戶過濾文獻(xiàn)，更好的發(fā)現(xiàn)適合自身的文獻(xiàn)，考慮到文獻(xiàn)的引文具有文獻(xiàn)的研究傳承、解釋，拓展等內(nèi)涵。所以本研究以文獻(xiàn)的引文為研究對(duì)象，運(yùn)用圖模型算法，分析各文獻(xiàn)間的親疏關(guān)系，來為用戶篩選、推薦文獻(xiàn)。經(jīng)評(píng)價(jià)算法計(jì)算，本研究算法的準(zhǔn)確率為38.57%，召回率為27.32%，覆蓋率為26.83%。可滿足對(duì)文獻(xiàn)親疏關(guān)系的預(yù)測，為用戶提供文獻(xiàn)推薦服務(wù)，幫助用戶發(fā)現(xiàn)適合其自身的文獻(xiàn)。

關(guān)鍵詞：推薦系統(tǒng);圖模型;隨機(jī)游走;引文;科研文獻(xiàn)

中圖分類號(hào)：G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ? ? 文章編號(hào)：1009-3044（2019）03-0190-03

Abstract： When research workers search the literature， it is often difficult to screen a large number of literature in the result， even if use keyword search. This paper is to help users filter the literature， to find the appropriate literature for themselves， taking into the literature citations has connotation of literature research， inheritance， interpretation， expansion and so on. Therefore， this study is based on the citation of literature， use graph model algorithm， analysis of the relationship between literatures， help users filter and recommend literature. After evaluation algorithm analysis， the accuracy rate is 38.57%， recall rate is 27.32% and the coverage rate is 26.83.%. Can predict the relationship between the literatures， providing recommendation services with literature for users， help users find suitable for theirs literature.

Key words： Recommendation System; Graph Model; PersonalRank; Citation; Research Literature

1研究思路

學(xué)術(shù)數(shù)據(jù)庫中海量文獻(xiàn)不斷激增，科研工作者在搜索論文時(shí)，一方面通過關(guān)鍵詞搜索因大量的搜索結(jié)果而不能快速地找到自己需要的論文的情況，另一方面有不能較好使用關(guān)鍵詞準(zhǔn)確描述需求的情況，最終造成科研工作者將浪費(fèi)大量時(shí)間排除不相關(guān)論文[1，2]。這也使得論文提供者對(duì)用戶的文獻(xiàn)服務(wù)不夠完善。

科研論文的引文代表了論文內(nèi)容中相關(guān)知識(shí)的傳遞，可揭示論文中相關(guān)知識(shí)結(jié)構(gòu)的特征，也呈現(xiàn)了某一系列研究的層次和邏輯。本文以科研論文的引文為研究對(duì)象，通過識(shí)別論文到引文之間、一級(jí)引文到下一級(jí)引文之間、論文互引等的知識(shí)聯(lián)系，為找出各論文之間的相關(guān)性，以幫助科研工作者快速篩選論文、發(fā)現(xiàn)自己的需求。

隨著機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)相關(guān)技術(shù)的不斷更新和成熟，為解決這類問題提供了技術(shù)支撐。對(duì)于論文引文這種數(shù)據(jù)類型，本文使用機(jī)器學(xué)習(xí)中的圖模型算法來的分析“論文-引文”“引文-引文”的親疏性[3]。論文和引文在集合中均用頂點(diǎn)Un來表示，論文的引用行為用邊En來表示。通過度量各定點(diǎn)之間的路徑數(shù)量和長度來判斷某一論文與其他論文的相關(guān)性高低。如圖1示例：

對(duì)于相關(guān)性偏高的論文之間一般具有的特征為：兩個(gè)頂點(diǎn)之間的連接路徑較短、兩個(gè)頂點(diǎn)之間有多條路徑相連、兩個(gè)頂點(diǎn)之間有互引路徑、兩個(gè)頂點(diǎn)之間的路徑?jīng)]有通過出度較高的頂點(diǎn)。

2推薦算法模型

通過在某一“頂點(diǎn)”開始在有向圖的相應(yīng)“邊”和“頂點(diǎn)”之間隨機(jī)游走。游走到任一頂點(diǎn)Un時(shí)，通過設(shè)計(jì)概率α來判斷是繼續(xù)游走，還是終止游走并返回原頂點(diǎn)重新進(jìn)行游走。若α判斷為繼續(xù)游走，就對(duì)當(dāng)前頂點(diǎn)的全部“邊”采取隨機(jī)方式任選一“邊”進(jìn)行游走到下一“頂點(diǎn)”，然后又返回到概率α來判斷是繼續(xù)游走，還是返回重新游走。通過多次隨機(jī)游走后，各定點(diǎn)被游走到的概率將收斂為一個(gè)數(shù)，從而發(fā)現(xiàn)某一論文對(duì)各論文的相關(guān)親疏，形成推薦列表，進(jìn)而實(shí)現(xiàn)對(duì)科研工作者的論文推薦。基于科研工作者發(fā)表論文的數(shù)量和日期的頻繁度相對(duì)不會(huì)太高，先為數(shù)據(jù)集中的作者離線計(jì)算一個(gè)初始的推薦列表，待作者及推薦列表中論文作者有新論文發(fā)表后，再采取離線計(jì)算的方式重新計(jì)算推薦列表，為其提供推薦。

2.1數(shù)據(jù)準(zhǔn)備

把“論文-引文”數(shù)據(jù)集按論文發(fā)布時(shí)間順序分為10份。前9份為訓(xùn)練集：度量各論文之間的相關(guān)性，然后以論文作者為標(biāo)識(shí)，排列出對(duì)論文作者相關(guān)性高的論文。將最后1份作為測試集：以論文作者為標(biāo)識(shí)導(dǎo)出其引用的論文，與訓(xùn)練集排列出的論文列表相比較，來評(píng)價(jià)算法模型的準(zhǔn)確指數(shù)。具體使用Python語言、Numpy計(jì)算包、科學(xué)計(jì)算包來實(shí)現(xiàn)。

2.2算法實(shí)施

首先，設(shè)置論文頂點(diǎn)的初始概率值：論文Un的頂點(diǎn)初始游走概率α為1，其對(duì)應(yīng)引文的初始訪問概率β為0，定義“邊”的權(quán)重為1，然后運(yùn)用迭代公式處理。

然后，使用隨機(jī)的方式選擇引文。以論文Un的開始，在有向圖中根據(jù)引用論文的行為，生成概率α，通過“邊”En走到其引用的論文Un+s。又以論文Un+s為頂點(diǎn)，計(jì)算α=1-f決定是否繼續(xù)游走。若為繼續(xù)游走，則以相同的方式計(jì)算隨機(jī)選擇論文Un+s的引文繼續(xù)重復(fù);若為停止游走，則返回論文Un頂點(diǎn)進(jìn)行下一輪游走循環(huán)，具體如式（1）。

其中Su代表某起始論文頂點(diǎn)，每篇論文均獨(dú)立進(jìn)行迭代分析，獲取各自對(duì)集合S中其他論文頂點(diǎn)的經(jīng)過概率。

相關(guān)核心代碼是：

對(duì)于某論文Un進(jìn)行大量隨機(jī)游走循環(huán)后，取被游走到的文獻(xiàn)，把每篇論文頂點(diǎn)被經(jīng)過的概率迭代合并，取得相對(duì)穩(wěn)定的收斂值。

最后，對(duì)論文經(jīng)過概率進(jìn)行排序。選擇值排名前50的論文，剔除作者已引用過的論文，作為對(duì)作者的某篇初始論文的初始推薦列表。再以該作者為索引，依次計(jì)算其發(fā)表的全部論文的初始推薦列表。然后將這些初始推薦表中的論文，剔除重復(fù)后再按權(quán)重排序，形成最終推薦列表。

2.3算法優(yōu)化

雖然本算法的理論在圖模型中有比較充足的支撐，但計(jì)算任一篇論文，算法要對(duì)整個(gè)論文集U中的每篇論文進(jìn)行遍歷，造成時(shí)間成本高。若新加入一篇論文產(chǎn)生了新的引用關(guān)系，又需要再對(duì)全部有向圖中的論文進(jìn)行迭代。因此在對(duì)結(jié)果影響不高的前提下，為減少時(shí)間成本和硬件計(jì)算量，使用矩陣論方法優(yōu)化算法。

3結(jié)果與分析

3.1分析標(biāo)準(zhǔn)

本算法模型采取推薦系統(tǒng)領(lǐng)域常用的準(zhǔn)確率、召回率和覆蓋率三種指標(biāo)來評(píng)價(jià)算法的綜合性能[4]。具體方式為：

準(zhǔn)確率（Precision）：把訓(xùn)練集中綜合排名前47的論文與測試集中科研工作者引用的論文進(jìn)行比較，評(píng)估對(duì)訓(xùn)練集預(yù)測出論文的比例，具體如式（4）。

其中ep表示訓(xùn)練集與測試集對(duì)比后相同論文的數(shù)量，bp為訓(xùn)練集與測試集對(duì)比后差異論文的數(shù)量。

召回率（Recall）：把測試集中作者實(shí)際引用的論文與訓(xùn)練中預(yù)測出的論文進(jìn)行比較，評(píng)估算法預(yù)測的查全率，具體如式（5）。

其中bn表示算法模型中未預(yù)測出的論文數(shù)量。

覆蓋率（Coverage）：把訓(xùn)練集中綜合排名前47的論文的流行度和論文集U的整體流行度進(jìn)行比較，來評(píng)估算法對(duì)非熱門論文的發(fā)現(xiàn)能力。采用Information-entropy的公式來評(píng)估，具體如式（6）。

其中d（u）表示用論文d的流行度除論文集U的流行度的和。

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)使用ANN提供的1965到2012年間發(fā)表的論文數(shù)據(jù)集，經(jīng)篩選不完整數(shù)據(jù)和過于稀疏的數(shù)據(jù)，最后使用的數(shù)據(jù)信息為論文23354篇，作者2603個(gè)，引文數(shù)量15729篇，引用關(guān)系93572個(gè)。將算法模型中的α通過預(yù)先調(diào)試和比較，選擇0.79為合適參數(shù)。將數(shù)據(jù)集導(dǎo)入算法模型中計(jì)算，再把結(jié)果導(dǎo)入評(píng)價(jià)公式計(jì)算，最后實(shí)驗(yàn)結(jié)果如表1：

將本模型結(jié)果與理想狀態(tài)的樸素貝葉斯模型和K近鄰模型相比，本模型的準(zhǔn)確率與召回率雖然與理想狀態(tài)下的模型有一定差距，但考慮到數(shù)據(jù)集的特殊性和不完整性，38.57%的準(zhǔn)確率和27.32%的召回率是較成功的，可較為準(zhǔn)確地為科研工作者在論文搜索過程中提供論文推薦。26.83%的覆蓋率表示本模型在發(fā)現(xiàn)非熱門論文方面有一定能力，可為科研工作者推薦一些與其科研內(nèi)容相關(guān)且其可能不容易發(fā)現(xiàn)的論文。

4總結(jié)

本文采用有向圖模型算法在論文和引文中進(jìn)行隨機(jī)游走和迭代，找出與作者論文有較多關(guān)聯(lián)的其他作者的論文，幫助其篩選海量文獻(xiàn)。本算法模型的適合運(yùn)用場景為：作者在數(shù)據(jù)庫中還未產(chǎn)生文獻(xiàn)使用行為或作者在數(shù)據(jù)庫中還未輸入關(guān)鍵詞等情況。本算法模型通過準(zhǔn)確率、召回率和覆蓋率3個(gè)指標(biāo)的評(píng)價(jià)，其結(jié)果表示本算法具有一定的預(yù)測能力，能幫助用戶發(fā)現(xiàn)適合其自身需求的文獻(xiàn)。在后續(xù)的研究中，可運(yùn)用學(xué)科邏輯分類來縮小算法的迭代遍歷范圍，提高計(jì)算速度并降低計(jì)算資源的消耗;還可結(jié)合作者在數(shù)據(jù)庫中檢索行為特征來提高預(yù)測的準(zhǔn)確性;還可運(yùn)用閃存系統(tǒng)提高算法對(duì)數(shù)據(jù)的讀取速度[5，6]。

參考文獻(xiàn)：

[1] 劉凱，王偉軍，黃英輝，等.個(gè)性化推薦系統(tǒng)理論探索：從系統(tǒng)向用戶為中心的演進(jìn)[J].情報(bào)理論與實(shí)踐，2016，39（03）：52-56.

[2] 安維，劉啟華，張李義.個(gè)性化推薦系統(tǒng)的多樣性研究進(jìn)展[J].圖書情報(bào)工作，2013，57（20）：127-135.

[3] 黃波，嚴(yán)宣輝，林建輝.基于有向圖分割的推薦算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2015，24（12）：196-203.

[4] 吳海霞，何苑，路璐.個(gè)性化推薦系統(tǒng)評(píng)測指標(biāo)與實(shí)驗(yàn)方法研究[J].晉中學(xué)院學(xué)報(bào)，2015，32（3）：77-81.

[5] 肖詩伯，郭秀英.基于用戶特征的文獻(xiàn)個(gè)性化推薦系統(tǒng)研究[J].網(wǎng)絡(luò)新媒體技術(shù)，2018，7（4）：24-33.

[6] 肖詩伯，郭秀英.閃存部署方案在高校圖書館存儲(chǔ)場景中的研究[J].微型電腦應(yīng)用，2018，34（9）：47-48+50-51.

【通聯(lián)編輯：王力】

電腦知識(shí)與技術(shù)2019年3期

電腦知識(shí)與技術(shù)的其它文章: 云平臺(tái)+服務(wù)的計(jì)算機(jī)實(shí)踐教學(xué)模式探索; 基于翻轉(zhuǎn)課堂的《計(jì)算機(jī)應(yīng)用基礎(chǔ)》教學(xué)設(shè)計(jì)與實(shí)踐; 試論如何利用實(shí)例教學(xué)法強(qiáng)化AutoCAD教學(xué)質(zhì)量; 大班幼兒同伴合作行為的現(xiàn)狀和培養(yǎng)研究; 五年制高職軟件技術(shù)專業(yè)“三位一體”人才培養(yǎng)模式的研究; 中高職銜接背景下《程序設(shè)計(jì)基礎(chǔ)》課程教學(xué)研究