999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考察文獻活躍度特性的個性化引文推薦研究

2021-10-05 12:51:12崔志慧彭蘭一香王名揚
智能計算機與應用 2021年5期
關鍵詞:分類特征用戶

崔志慧,彭蘭一香,熊 曦,王名揚

(東北林業大學 信息與計算機工程學院,哈爾濱150040)

0 引 言

隨著互聯網的高速發展,每年發表的科技文獻總數呈指數增長。據統計,僅2018年中國科研人員發表在國際、國內的優秀文獻總量就達到31.59萬篇[1]。對研究者來說,從如此海量的數據中定位滿足科研需要的文獻是非常困難的。引文推薦能針對某一具體的研究主題和學術文獻,自動地為研究者推薦合適的相關成果和文獻。借助于引文推薦,研究者可快速獲取到與其研究相關的文獻資料,從而在一定程度上提高撰寫學術文獻的效率。

2001年,Basu C等首次提出文獻推薦的概念,給出文獻推薦的過程是如何找到與用戶興趣相匹配的文獻的過程,其核心問題在于如何表達用戶興趣和目標文獻[2]。在之后的研究中,研究者們也將關注點更多放在對用戶興趣的建模和文獻間相似度的計算上。2007年,Strohma等提出引文推薦的概念,并結合文本相似性和圖模型方法對引文推薦問題進行了初步探索[3]。Bethard S等結合用戶的歷史引用信息和引用偏好來為目標文獻推薦參考文獻列表[4];2010年,He Q等人將詞頻信息和文獻的主題分布作為主要特征,實施引文推薦[5];Pohl等基于用戶下載文獻的行為記錄進行引文推薦[6]。2013年,劉盛博等以全文數據為基礎,構建基于引用內容的引文檢索與推薦系統[7];Liu Yaning實現了基于翻譯模型和用戶過濾算法的混合推薦模型[8];2014年,蔡阿妮等結合文獻的內容信息和引用關系來對引文進行推薦[9];王萌星等基于主題社區和雙層引用網絡的學術推薦方案,向用戶推薦作者和論文[10];劉亞寧等在考察用戶的興趣和其知識水平的基礎上實施引文推薦[11];Guo LT等運用深度學習技術獲取用戶的興趣模型,并改進個性化重排序算法實施推薦[12];Ali Z等從6個角度對基于深度學習的引文推薦模型進行綜述[13];劉洋利用文獻間的語義關聯度和作者間的關系構造網絡模型實施推薦[14];Wang J等將作者信息和引文關系整合到用分布式矢量表示的引文上下文和論文中,提出了基于端到端記憶網絡的上下文感知引文推薦模型[15]。

綜上,為了實現更精準快捷的推薦,研究者從用戶和文獻兩個角度對引文推薦問題進行了深入的研究,但是這些已有成果的推薦效果仍然差強人意。在這些研究中,學者們均未討論文獻的活躍度特征在引文推薦中的作用。實際上,文獻的活躍度體現了文獻在科學社區的可見度,活躍度較高的文獻將具有更高的被研究者關注的機會,而這種機會將在一定程度上促使文獻被研究者引用,成為研究者文獻中的參考文獻。

在評價引文推薦效果時,往往將被推薦文獻是否真正成為目標文獻參考文獻中的一員來作為評價的依據。這實際上已經將引文的推薦問題轉化成了文獻是否被引用的二元分類問題。為此,本文將引文推薦問題轉換為文獻是否被引的二元分類問題,提取表征文獻活躍度的特征,結合研究者的個性化引用偏好和常用的文獻計量學特征,構建二元分類問題的特征庫。利用機器學習方法從特征庫中提取有利于文獻被引用的關鍵特征,并基于這些特征實現引文推薦。

1 相關研究

2010年,He Q等利用引文上下文的差異性將引文推薦任務細分為局部引文推薦和全局引文推薦[5]。局部引文推薦,是指為目標文獻的局部上下文推薦合適的引文列表;而全局引文推薦,是根據目標文獻的標題內容和摘要內容為其從整體上推薦引文列表。本文主要對全局引文推薦問題進行研究,僅對全局引文推薦相關的工作進行分析。由于推薦技術主要用于實現用戶興趣與待推薦對象之間的匹配,因此推薦算法是推薦問題的核心,引文推薦問題也不例外。在全局引文推薦領域,研究者主要用到的推薦算法主要包括協同過濾推薦和基于圖的引文推薦。

協同過濾推薦根據作者的引用偏好和文獻間的相關性來預測作者與文獻間的引用關系。McNee等將作者視為用戶,文獻視為商品,利用文獻之間的引用關系建立評分矩陣,從而將引文推薦問題轉化為普通的商品推薦問題[16];Pohl等把用戶下載文獻的行為作為用戶的活動記錄,并將訪問量較高的文獻推薦給用戶[6];Tang等綜合引用關系和文獻文本內容間的相關性來實施推薦[17];Choochaiwattana提出一種基于標簽的引文推薦機制,通過用戶創建的標簽來為用戶推薦引文[18];倪衛杰構建用戶興趣模型和文獻興趣模型,為特定用戶推薦引文[19]。Wang等根據用戶的歷史行為構建用戶偏好模型來實施推薦[20];Gipp等在引文推薦中使用了基于內容的協同過濾方法[21];陳將引文推薦問題視為分類問題,使用文獻的內容信息預測文獻可能的參考文獻列表[22]。Pan等用標簽對用戶進行個人配置,計算文獻標簽向量與個人配置向量間的相似度來實施文獻推薦[23];Khadka等結合引文位置和引文上下文特征,使用主題建模來實現引文推薦[24];Zhang等引入結構上下文的概念來提升引文推薦的效果[25]。

由于異種類型對象和其之間的關系可以簡單的用一個圖來表示,所以基于圖的方法可以很容易地被應用到包含多種類型數據的數據集上來實施推薦。Gori等構建文獻間的同構網絡,使用PageRank算法計算權重來實施推薦[26];Meng等構建四層多元圖,利用重啟隨機游走的方法計算目標文獻與候選文獻間的相似性來實施推薦[27];Jardine等在引文網絡圖中加入主題分布信息,來改進PageRank算法的轉移概率以實施推薦[28];Cai等構造三層圖模型,包括作者層、文獻層和出版商層,在此基礎上進行推薦[29];Pan等提出了一種包含多元信息異構圖的引文推薦方法[30];Gupta等綜合文獻內容和文獻的結構關系來表示文獻,在網絡圖中計算文獻間的相似度進行推薦[31];李飛構建基于作者和引文的異構圖,利用Deepwalk算法進行推薦[32];陳潔等將多粒度屬性網絡表示學習應用于引文推薦工作中來解決在異質網絡中的引文推薦問題[33]。

雖然這些工作實施推薦的角度不同,但其核心問題仍然離不開如何對用戶興趣和目標文獻建模,以及如何度量目標文獻和待推薦文獻的相似性。盡管這些工作已盡可能廣泛地提出了解決以上核心問題的思路,但引文推薦的精度仍不太理想,且有些推薦算法過于復雜,并不能很好地進行推廣應用。本文致力于在這些已有工作的基礎上,發掘盡可能簡潔的特征來實施推薦,取得較為可觀的推薦效果。

在當前的推薦工作中,還鮮有研究者考察待推薦文獻的活躍程度相關的指標。如果一篇文獻在近年來獲得了較高的被引頻次,說明該文獻在科學社區具有較高的認可度,同時也具有較高的可見度。這種較高的可見度能帶給文獻更高的被研究者關注的機會,從而提升其被研究者引用的可能性。基于這種考慮,本文將文獻的活躍度指標引入推薦過程,并探討這種加入是否能顯著提升引文推薦的效果。

2 問題定義

本文構建的考察文獻活躍度的引文推薦系統的輸入和輸出信息如下:

(1)輸入

①目標文獻:需要被推薦引文的文獻集合P;

②待推薦文獻:待推薦文獻集合R,由目標文獻P的參考文獻列表中實際出現的參考文獻集合B,和未被目標文獻P引用的文獻集合N構成。其中,未被目標文獻引用的文獻集合N中的文獻來自于與B中文獻在同一期刊、同一年份發表的其他文獻。

(2)特征集合X。由用戶的個性化引用偏好特征、常用的文獻計量學特征和文獻的活躍度特征構成。

(3)輸出。根據篩選出的特征,取3個分類器推薦結果的并集,為每篇目標文獻生成一個按照被推薦概率排好序的推薦文獻列表L。

3 考察文獻活躍度特性的引文推薦

本文將引文推薦問題看成待推薦文獻R是否被目標文獻P引用的二分類問題。為此,需要首先構造用于分類的特征庫X。 在已有的推薦工作中,研究者利用不同算法證實了用戶的興趣和文獻對間的相似性在引文推薦中的重要作用。本文也將這些特征考慮進來,同時構造表征文獻活躍程度的指標,共同生成分類問題的特征庫X。 在此特征庫基礎上,運用Relief-F、RFE和LR3種特征選擇方法,對特征庫X中的各特征x進行重要性排序;利用樸素貝葉斯、SVM和Bagging3種分類器驗證特征組合的分類性能,提取對文獻是否被引用具有重要影響的特征。依據這些關鍵特征,生成針對目標文獻的待推薦文獻列表。本文提出的考察文獻活躍度特性的引文推薦算法的示意圖如圖1所示。

圖1 基于文獻活躍度特征的引文推薦實驗流程示意圖Fig.1 Schematic diagram of citation recommendation experiment based on paper activity characteristics

3.1 構建引用分類問題的特征庫

3.1.1 用戶的個性化引用偏好特征

用戶的個性化引用偏好特征主要用來反映用戶在撰寫科研成果時的引用習慣。本文主要從用戶是否偏向于引用其之前發表的文獻,是否偏向于引用其之前引用過的文獻,是否偏向于引用合作者的文獻,以及是否偏向于引用之前引用過的作者所寫的文獻,4個角度來表征用戶的個性化引用偏好,見表1。

表1 用戶的個性化引用偏好特征Tab.1 Personalized reference preference characteristics of users

為獲取這些特征,需要為每篇目標文獻采集如下信息:

(1)目標文獻的所有作者發表的文獻構成的集合;

(2)目標文獻的所有作者曾經引用過的文獻構成的集合;

(3)所有曾經同目標文獻的作者合作過的其他作者構成的集合;

(4)目標文獻的所有作者曾經引用過的其他作者構成的集合。

3.1.2 常用的文獻計量學特征

在引文推薦工作中常被研究者用到的文獻計量學特征見表2,符號p代指目標文獻,符號r代指待推薦文獻。這些特征涵蓋了待推薦文獻的作者、所在期刊、基金資助情況,以及待推薦文獻與目標文獻間的相似度等指標。

表2 常用的文獻計量特征Tab.2 Commonly used bibliometric characteristics

其中,特征x6作者關鍵字是對文獻作者的國籍、所屬單位和研究領域等的概括性介紹。本文采用Jaccard系數計算目標文獻p和待推薦文獻r在作者關鍵字上的相似度。x6的值越大,說明目標文獻p和待推薦文獻r的作者越相似。對于目標文獻p和待推薦文獻r的作者關鍵字集合,Jaccard系數為p與r交集的大小與p與r并集的大小的比值,定義如式(1):

利用余弦相似度計算特征x8,x9,x10的值。利用Python中的jieba算法分別對目標文獻p和待推薦文獻r的標題、主題和摘要進行分詞,去掉停用詞,主題是Scopus數據庫中對文獻研究內容的高度概括。之后結合剩下的詞的詞頻構建標題、主題和摘要的向量,最后利用余弦相似度計算目標文獻p和待推薦文獻r在3個方面的相似度。余弦相似度的計算公式(2)如下:

收集處理完上述特征后,利用線性函數歸一化方法將上述特征歸一化到[0.01,0.99]范圍內,消除不同特征的取值范圍對分類的影響。

3.1.3 文獻的活躍度特征

本文用待推薦文獻在近兩年內的引用情況來度量文獻的活躍程度。在本實驗中,選取的目標文獻均發表在2018年,則對待推薦文獻而言,表征其活躍程度的引用指標均來自于其在2016和2017年的引用情況。

本文采集了待推薦文獻在近2年內的總被引頻次、近2年內的引證國家數量、近2年內的引證期刊數量、近2年內的引證機構數量和近2年內的引證學科數量,來構造文獻的活躍度特征。這些指標反映了在近2年內待推薦文獻在科學社區內的影響可見度。對一篇待推薦文獻r而言,如果在近2年內得到了來自更多的國家、機構、期刊和學科的引用,則意味著該文獻受到了更多學術同行的認可,在科學社區內產生了較為廣泛的影響。而這種影響將推動其繼續被學者關注,并持續轉化為學者研究成果的參考文獻。

為結合以上5個引用指標生成綜合的文獻活躍度特征,本文利用熵權法為每個特征賦權重,求得5個特征值的加權和以代表本文的文獻活躍度特征。根據待推薦文獻在近2年內的總被引頻次、以及其被不同國家、期刊、機構和學科的引證數量的值構成這5項子特征的數據矩陣A,式(3),其中Xij為第i個文獻的第j個特征的數值。

計算xij占特征xj的比重,式(4):

計算第j個特征的熵值,式(5):

根據ej計算第j個特征的熵冗余度,式(6):

根據gj求特征的權數,式(7):

將求得的每個特征的權重和其值求加權和,得出本文的文獻活躍度特征x19,式(8):

3.2 特征選擇過程

為提取對引文推薦具有重要價值的特征,本文采用Relief-F、Recursive Feature Eimination(RFE)和Logistic Regression(LR)3種特征選擇方法對特征進行重要性排序,并結合不同特征組合的分類精度得到影響推薦效果的核心特征子集。

3.2.1 Relief-F

Relief-F算法通過計算不同特征,區分不同類型樣本的能力來為特征賦予權重。其隨機從待推薦數據集R中選取一個樣本ri,從ri同類的樣本集C中找到k臨近的臨近樣本{hj},從與ri不同類的樣本集S中找到k臨近的隨機樣本{mj},計算特征x區分臨近樣本{hj}和隨機樣本{mj}的能力。如果樣本ri和臨近樣本{hj}在特征x上的距離小于樣本ri和隨機樣本{mj}上的距離,則說明該特征對區分同類和不同類的數據是有益的,則增加該特征的權重W。根據W對特征進行排序,獲得根據重要程度排序的特征。

求權重W的具體算法見公式(9):

其中,p(C)為類別C在所有類別中所占比例,p(S)為類別S在所有類別中所占比例。diff定義見公式(10),其表示樣本r1和r2在特征x上的差:Diff(x,ri,rj)=

3.2.2 RFE

遞歸特征消除法是通過遞歸的方式,不斷剔除作用最小的特征,減少特征集的規模來選擇需要的特征,RFE的底層模型很大程度會影響其穩定性。本模型底層采用SVM,SVM作為一種基于統計理論的分類方法,將低維線性不可分割的數據在核函數的作用下映射到較高維度而實現線性分割。每個特征對應特定維度,維度的權重由分類器的精度確定,而權重即可視作該特征的重要性。

REF首先給每個特征賦一初始權重w0,然后采用預測模型在這些原始的數據上進行訓練,訓練后獲取特征的最終權重值w1,取這些權重值的絕對值,把絕對值最小的特征剔除掉。按照以上步驟,不斷循環遞歸,直至剩余的特征數量達到所需的數量。將剩余特征按照w1排序即得到特征選擇的最終結果。

3.2.3 LR

LR是統計學中一種經典的分類算法,對回歸或分類問題建立代價函數并迭代優化,求解出最優參數,該參數即特征的權值。具體步驟如下:

將線性回歸函數帶入Sigmoid函數,得到的h函數,若hθ(x)>0.5,則Y∈A;若hθ(x)<0.5,則Y∈B。

線性回歸函數,式(11):Sigmoid函數,式(12):

h函數,式(13):

然后構造代價函數C(θ),C(θ)能夠描述模型預測值h(θ)和真實值y之間的差異。若有多個樣本,則取所有代價函數的均值,計作J(θ)。 該均值J(θ)可用于評價該模型的好壞。J(θ)越小,則當前模型的參數與訓練樣本越相符。于是基于最大似然估計可得J(θ),式(14):

基礎梯度下降法求J(θ)最小值,更新參數,得到最符合當前數據的模型,式(15):

特征對應的系數θj越大代表對期望的貢獻越大,該系數也就是特征的權值。將系數θj從大到小排序,獲得根據重要程度排序的特征。

3.3 篩選關鍵特征

在通過特征選擇方法獲得特征排序結果的基礎上,本文利用樸素貝葉斯,SVM和基于決策樹的Bagging 3種分類器來檢驗不同特征組合的分類效果,得到影響文獻是否被引用的關鍵特征。

樸素貝葉斯是一種基于概率的分類器算法,其假設每個輸入變量是獨立的,根據訓練集中每個特征的取值是否被引的先驗概率,推算出測試集中特征給定時被引的后驗概率,決定該元組是否被引。本實驗中使用的是高斯樸素貝葉斯模型,假定數據符合高斯分布。

SVM是一種二分類算法,可以支持線性和非線性的分類,其把劃分數據的決策平面統稱為超平面。離這個超平面最近的點叫支持向量,點到平面的距離叫間隔,通過在特征空間中尋找最佳的分離超平面,從而使訓練集中正樣本和負樣本的間隔最大。利用該最優超平面,將文獻集輸入模型后即可得到合適的引文集并推薦給目標文獻。本實驗使用線性核函數的SVM并進行概率估計。

Bagging是一種基于決策樹的分類器,它是一種并行的集成學習方法,使用多棵樹進行訓練和預測,并結合訓練結果輸出預測值。本實驗中使用決策樹分類器,考慮到該分類問題為二分問題,構建9棵決策樹進行投票,在避免過擬合的情況下盡可能收縮,使最終結果趨于均值。

4 實驗過程和結果分析

4.1 數據集

本實驗的原始數據均來自Scopus數據庫。Scopus收錄了來自于全球4 000家出版社的19 000種來源期刊,是全球最大的文摘和引文數據庫,為科研人員提供一站式獲取科技文獻的平臺。本文以科學計量學領域下的國際頂級期刊Scientometrics為文獻樣本來源,來獲取目標文獻集合。

數據的獲取為利用爬蟲算法在Python3.7環境下,爬取Scopus數據庫中期刊Scientometrics中發表時間為2018年且被引頻次排名前100的文獻作為目標文獻集合P。收集100篇目標文獻P的參考文獻共4 250篇,將標題、作者、摘要和DOI為空的文獻刪除,剩余的3 555篇文獻作為被引文獻B。按照1:4的比例收取與被引文獻B在同一期刊、同一年份發表的且未被目標文獻P引用的文獻N。被引文獻B和未被引文獻N共同構成待推薦的文獻集R。

數據的處理分為對目標文獻集P的處理,以及對待推薦的文獻集R的處理,處理步驟如下:

(1)目標文獻

①從Scopus數據庫上直接導出文獻的標題、作者、作者ID、摘要、來源出版物、發表時間、施引文獻數量、作者關鍵字以及在Scopus上的鏈接、文獻的EID號和DOI號;

②在Scopus數據庫上手工收集每篇目標文獻p的每個作者之前寫過的所有文獻、每個作者的之前的合著者、每個作者引用過的文獻以及每個作者引用過的作者;

③利用爬蟲爬取每篇目標文獻p的主題、學科和國家。

(2)推薦的文獻

①從Scopus數據庫上直接導出文獻的標題、作者、作者ID、摘要、來源出版物、發表時間、施引文獻數量、作者關鍵字、出資詳情以及在Scopus上的鏈接、文獻的EID號和DOI號;

②利用爬蟲爬取待推薦文獻r的常用的科學計量學特征和文獻活躍度特征,利用程序判斷待推薦文獻r和對應目標文獻p的關系,獲取作者偏好特征。

4.2 實驗過程

首先,利用Relief-F、RFE、LR 3個特征選擇算法分別對實驗收集的19個特征進行特征排序;其次,選取每個方法排名前10的特征完成進一步實驗。對于某一種特征組合{xi},(i=1,2,…,10),取一篇種子文獻pi,pi作為目標文獻,pi的待推薦文獻集RA作為測試集,其余99篇種子文獻的待推薦文獻集RB作為訓練集。將訓練集RB放入分類器進行訓練后,輸入測試集RA,通過比較分類器對測試集RA的預測結果和目標文獻pi實際引用情況的吻合程度,衡量分類效果。求取3個分類器分別輸出的F1的均值作為該特征組合{x i}對該篇目標文獻pi的分類效果值。對100篇種子文獻都重復以上步驟后,將獲得的100個F1值求取均值,來代表該特征組合{x i}對本實驗數據集的分類效果值。

按照上述實驗思路,逐個去掉每個特征選擇中得分最低的特征,輸入到3個不同的分類器模型中,得出新的子特征組合對應的F1均值。提取F1均值最高時對應的特征子集為最終的約簡子集。將在3種分類器下得到的約簡子集取交集運算,即可得最終篩選出的特征。

4.3 評價指標

為評價本文提出的算法在引文推薦任務中的有效性,本文采用準確率P,召回率R和F1值來衡量推薦列表的質量。公式中符號的具體說明見表3。

表3 評價指標Tab.3 Evaluation indexes

準確率是指分類正確的文獻在文獻總數中的占比,是對推薦系統查準率的衡量。在本文中,即被正確分類的待推薦文獻與總的待推薦文獻的比值,式(16):

召回率指的是正確推薦給目標文獻p的引文與其實際引用的比率,是對推薦系統查全率的衡量,式(17):

由于準確率與召回率有時候會出現相矛盾的情況,故引入衡量指標F1值對二者進行綜合考慮,式(18):

4.4 推薦結果及分析

4.4.1 重要特征的選擇

表4列出了3種特征選擇算法下選出的前10個特征,可以看出由近期引用狀況特征所確定的文獻的活躍度特征,在3種方法中的排名均比較靠前,說明文獻活躍度的特征有助于提升推薦效果;在常用的科學計量學特征中,主題和標題的相似度具有更大的優勢;作者偏好特征中,大部分的特征排名都靠前,說明作者的興趣對推薦具有較大的影響。

表4 特征選擇的結果Tab.4 Result of feature selection

為了得到對文獻是否被引具有重要影響的特征,在由每個特征選擇方法得到的特征排序結果中,本文依次去掉權重得分最低的特征,將剩下的特征集合放入分類器中,記錄分類的精度,循環進行,直到分類器的精度下降,取此時在特征集中剩余的特征為選出的特征約簡子集。在分類器Relief-F、RFE和LR下分類精度的變化趨勢如圖2~4所示,按照此過程選出的特征約簡子集的結果見表5。

圖2 Relief-F方法下F1值變化趨勢圖Fig.2 Change trend diagram of F1 index under Relief-F method

圖3 RFE方法下F1值化趨勢圖Fig.3 Change trend diagram of F1 index under RFE method

圖4 LR方法下F1值變化趨勢圖Fig.4 Change trend diagram of F1 index under LR method

表5 特征選擇結果Tab.5 Results of feature selection

不同的特征選擇算法側重點各異,單個特征選擇方法選出的特征具有局限性,因此,對3個特征選擇算法所得到的約簡子集取交集運算,以得到在不同的特征選擇算法下都比較重要的特征。這些特征,將是影響文獻是否被引用的最核心的指標,得到的結果見表6。

表6 最終選擇的特征結果Tab.6 The final selection of feature results

4.4.2 利用分類器實現推薦

將選出來的7個特征放入分類器,驗證基于這些特征的引文推薦效果。本文將推薦問題轉化為二元分類問題,對每篇目標文獻p,生成一個按照被推薦概率排序的推薦文獻列表l,將推薦結果l與每篇目標文獻p的實際引用進行比較,算出相應的得分。同時與僅考慮文本相似度,利用標題相似度和主題相似度進行推薦的結果作對比見表7。可以看出,相對于基線方法,利用本文提取出的7個核心特征進行是否被引用的識別,其準確率、召回率和F1值分別提升了6%、29%和26%,由此證明了這些特征是影響文獻是否被引,實際上也是文獻是否應該被推薦的關鍵指標。

表7 分類器實現推薦的結果Tab.7 Results of classifier implementation recommendations

相對于之前的研究工作而言,本文用較少的非常容易獲取的特征較好地實現了引文推薦的工作,這對研究者開展實際的引文推薦研究具有重要的價值。在這些特征中,本文引入的文獻的活躍度特征在引文推薦過程中起到了非常重要的作用,這實際上反映了引用過程中的“優先鏈接”的思想,說明那些在近期內得到較高引用的文章將具有更高的被再次引用的可能性。

5 結束語

本文將引文推薦問題轉換為文獻是否被引的二元分類問題,提取表征文獻活躍度的特征,結合研究者的個性化引用偏好和常用的文獻計量學特征,構建用以二元分類問題的特征庫。利用Relief-F、RFE和LR特征選擇方法從特征庫中提取有利于文獻被引用的關鍵特征,并基于這些特征利用樸素貝葉斯、SVM和Bagging分類器實現引文推薦。本文的實驗結果表明,文獻的近期活躍度特性、作者的個性化引用偏好和文獻對間的主題相似性是影響文獻是否被推薦的核心因素。本文通過較為精簡的特征實現了較好的引文推薦工作,這將對研究者開展實際的引文推薦研究提供有價值的參考。

猜你喜歡
分類特征用戶
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 精品一區二區久久久久久久網站| 国模私拍一区二区| 天天综合天天综合| 黑色丝袜高跟国产在线91| 国产成人精品视频一区视频二区| 亚洲天堂福利视频| 热思思久久免费视频| 日韩精品无码一级毛片免费| 欧美一区日韩一区中文字幕页| 亚洲国产日韩欧美在线| 欧美无专区| 三级国产在线观看| 免费在线播放毛片| 好吊色国产欧美日韩免费观看| 97在线公开视频| 色综合久久久久8天国| 91久久偷偷做嫩草影院| 91免费观看视频| 天堂中文在线资源| 中国精品自拍| 四虎亚洲精品| 毛片免费在线| 中文字幕久久精品波多野结| 欧美a在线看| 国产精品嫩草影院视频| 无码视频国产精品一区二区| 18黑白丝水手服自慰喷水网站| 国产成人综合亚洲网址| 国产无码精品在线播放| 国产欧美成人不卡视频| 国产精品思思热在线| 国产精品久久久久鬼色| 92精品国产自产在线观看| 久久精品丝袜高跟鞋| 男女精品视频| 无码乱人伦一区二区亚洲一| 日韩av资源在线| 三级视频中文字幕| 色一情一乱一伦一区二区三区小说| 欧美、日韩、国产综合一区| 久久频这里精品99香蕉久网址| 久久亚洲国产最新网站| 夜夜爽免费视频| 国产成人精品高清不卡在线| 尤物精品国产福利网站| 少妇精品网站| 第一区免费在线观看| 啪啪啪亚洲无码| www.国产福利| 日韩国产欧美精品在线| 久久不卡精品| 97影院午夜在线观看视频| 亚洲日韩精品欧美中文字幕| 99久久精品免费看国产免费软件| 99久久国产综合精品2020| 99在线国产| 一本色道久久88综合日韩精品| 国产成人精品一区二区三区| 特黄日韩免费一区二区三区| 国产人人乐人人爱| 亚洲无码精彩视频在线观看| 国产成人精品男人的天堂下载| 欧美国产菊爆免费观看| 91亚洲精品国产自在现线| a级毛片一区二区免费视频| 国产欧美日韩综合在线第一| 欧美精品H在线播放| 成人av手机在线观看| 98精品全国免费观看视频| 成年人国产网站| 欧美成人手机在线观看网址| 波多野结衣一区二区三区四区| 一级不卡毛片| 日韩高清无码免费| 国产一在线| 欧美五月婷婷| 精品亚洲麻豆1区2区3区| 亚洲水蜜桃久久综合网站 | 国产一区免费在线观看| 污网站免费在线观看| 粉嫩国产白浆在线观看| 国产丝袜啪啪|