999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異質信息網絡表示學習的引文推薦方法

2021-08-24 06:53:16張燕平
小型微型計算機系統 2021年8期
關鍵詞:信息方法

段 震,余 豪,趙 姝,陳 潔,張燕平

(安徽大學 計算智能與信號處理教育部重點實驗室,合肥 230601)

(安徽大學 計算機科學與技術學院,合肥 230601)

1 引 言

引文推薦是指根據查詢者提供的信息,推薦與之相關的文獻,如論文、專利等.引文推薦在領域調研、論文撰寫、專利分析等科研學術活動中具有重要的應用價值.例如,當研究人員進入一個新的研究領域時,需要閱讀大量與之相關的文獻 資料,從中了解該領域的主要研究方法和最新進展.專利審查人員可以借助引文推薦的手段鑒定專利的新穎性和創造性.但通過人工從浩如煙海的文獻資料中快速找到相關的文獻,是一個艱巨的任務.如何使用機器學習方法,自動高效準確的查詢相關領域的出版物并智能化地推薦一組文獻集合,節約查找時間,是一個值得研究的課題.

近年來,引文推薦的研究主要可分為兩類方法,即基于內容的引文推薦[1-3]和基于圖的引文推薦[4-7].在基于內容的引文推薦方法中,主要依據文獻的文本屬性進行推薦,如標題、關鍵字、摘要、主題等.但是在學術研究領域,一種普遍的現象是新的名詞被不斷創造出來,從而會面臨一些語義混淆的問題[6],使得僅依賴內容進行引文推薦的方法準確率相對較低.

很多研究學者認為,可以將引文推薦任務視作鏈路預測的問題來解決.引文網絡包含了多種類型的節點,如論文、作者、關鍵字、期刊等.不同類型的節點構成一個異質信息網絡,使用異質信息網絡表示學習方法可以更好地獲得引文網絡中的節點信息.對于異質信息網絡中節點特征的獲取,目前主要采用元路徑(metapath)和隨機游走(random walk)兩類方法.元路徑可以捕獲特定的網絡結構特征,但是會忽略節點周圍的部分鄰居信息;隨機游走可以對網絡中的節點進行采樣,但是不能有效地反應節點之間存在的關系.如果能有效地將文獻節點的屬性內容和網絡結構相結合,對節點進行采樣時可以更好的獲取節點的特征.

為了解決上述問題,本文提出一種基于異質信息網絡表示學習的引文推薦算法(A Citation Recommendation Method based on Heterogeneous Information Network Representation Learn,CRM-HIN),通過利用網絡中的結構信息以及文本信息,構建一個包含語義鏈接的異質信息網絡.為了獲得每個節點之間的網絡結構特征,使用混合元路徑的方式對每個節點進行采樣.如圖1所示,定義元路徑PAP(Paper-Author-Paper),在對節點進行采樣游走的時候,首先按照元路徑PAP進行游走,當元路徑采樣結束之后再使用隨機游走,通過兩種不同的游走方式相結合,獲得每個節點的游走序列.對游走序列使用skip-gram模型進行訓練,獲得每個節點的向量表示,通過計算網絡中每個節點的相似性,獲得推薦的論文列表.本文提出的算法可以更好地學習節點的特征表示,有效地捕獲論文之間的語義關系.在兩個真實的數據集上的實驗結果表明,本文提出的算法與其它引文推薦方法在效果上有顯著提升.

圖1 混合隨機游走采樣

本文的主要貢獻如下:

1)提出一種新的引文推薦框架,通過構建一個包含語義鏈接的異質信息網絡,更好地融合節點屬性信息及網絡結構信息.

2)給出一種新的混合元路徑采樣算法,該算法所生成的節點序列,能更好的表示網絡中的節點特征.

3)將算法應用于兩個真實引文網絡數據集,與其他方法相比,獲得了更好的準確率.

2 相關工作

本節首先介紹基于內容的引文推薦算法研究現狀,然后介紹基于圖的引文推薦算法研究現狀.

2.1 基于內容的引文推薦算法

基于內容的引文推薦方法通常結合文本語義[8,9]和潛在的主題來比較論文之間的相似性.此類方法可以使用單詞或者主題特征,利用數據挖掘技術對其進行建模.作為文本的高維度表示,可以將主題分布作為論文之間相似度的一個衡量標準,很多研究工作通過集成文本信息來擴展主題模型.例如,Tang等人提出了一種基于主題的方法[2],該方法可以基于引文關系和論文文本內容的相關性,通過訓練兩層受限的玻爾茲曼機來學習主題分布.Dai等人不僅利用文本內容的相似性,還利用作者之間的社交關系來進行有效的引文推薦[10].近期一些基于內容的引文推薦方法,通過利用引文中的局部或者全局上下文信息對論文進行推薦排名[11,12].但是基于內容的引文推薦方法還是存在傳統信息檢索的一些缺陷,如語義歧義等問題.

2.2 基于圖的引文推薦方法

基于圖的引文推薦算法主要分為兩種,一種是基于同構圖的引文推薦算法,另一種是基于異構信息網絡[13]的引文推薦算法.

在基于同構圖的引文推薦算法中,Ren等人提出一種基于聚類的引文推薦框架[4],按照將同一種類型的論文聚成一個興趣群的原則,獲得多個聚類,根據相關的興趣組預測每篇待查詢的引文.

為了更加有效的進行引文推薦,很多基于圖的方法都考慮將多種關系建模為異構圖,然后將該任務看作為鏈路預測問題[12,14],使用圖的方法生成相應的引文推薦列表.為了更好的利用網絡的結構特征以及節點的屬性信息,很多學者提出了如何將網絡中的結構特征和文本信息融合在一起的方法[1,3,15-18].Chen等人提出一種包含語義鏈接的加權異質信息網絡,通過多模式相似性之間的線性組合來推薦相關論文[19].Deng等人構建一種新的基于異構圖的推薦方法[20],其中既包括引文又包括內容,使用圖的相似性學習算法進行引文推薦.

3 算法描述

3.1 相關定義

本小節首先給引文推薦設計的符號進行了定義,然后給出了問題的形式化描述.

3.1.1 符號定義

表1給出本文所涉及的符號及其含義.

表1 符號含義

3.1.2 問題定義

引文推薦問題:給定一個論文的集合P,P=CP∩TP,CP是候選論文的集合,CP=(cp1,cp2,…,cpm);TP是目標論文的集合,TP=(tp1,tp2,…,tpn)引文推薦問題可以被描述為:輸入帶有屬性信息的目標論文集合TP,從候選論文集合CP中返回一個論文的推薦列表Pr.

異質信息網絡:給定一個有向網絡G=(V,E),其中V代表所有實體節點的集合,E代表所有關系邊的集合.存在一個節點類型的映射函數φ:V→A和一個邊類型的映射函數ψ:E→R,每個對象v∈V都屬于一個特定的對象類型,每個鏈接e∈E都屬于一種特定的關系類型,這種網絡稱為信息網絡.當對象類型數量|A|>1或關系類型數量|R|>1時,這樣的信息網絡被稱為異質信息網絡,反之為同質信息網絡[18].圖1給出的是一個異質信息引文網絡,其中包含論文、作者、期刊、關鍵字等4種類型的節點.

在一個異質信息引文網絡中,兩個對象之間會存在多種不同路徑的連接.例如,引文網絡中的兩篇論文可以通過“論文—作者—論文”進行連接,也可以通過“論文—作者—作者—論文”進行連接.不同路徑下的語義意味著不同的相似性,這些路徑在形式上被稱為元路徑.

本文定義元路徑PAP(Paper-Author-Paper),在引文網絡中論文和作者的關系比較大,同一個作者,所發表的論文,研究方向較為接近,對于同類型的論文,引用的可能性也更高,因此將元路徑設置為PAP.對節點進行采樣游走時,首先按照元路徑PAP進行游走,元路徑采樣結束之后再使用隨機游走,通過兩個不同的游走方式相結合,獲得每個節點的游走序列.此時,混合隨機游走的一條路徑P可以表示為p=p+,其中p為元路徑,為隨機游走產生的路徑.具體的混合隨機游走的實例如圖1所示,元路徑p=PAP,隨機游走的路徑為=KPVPAP,所以混合隨機游走的路徑為P=PAPKPVPAP.

3.2 基于異質信息網絡表示學習的引文推薦算法

算法框架如圖2所示,整體算法框架分為3個模塊.第1個模塊主要是通過BERT和Word2vec獲得關鍵詞和摘要的向量,從而重新建立包含語義鏈接的異質信息網絡;第2個模塊使用元路徑和隨機游走獲得節點的游走序列;第3個模塊對模型進行訓練,從而獲得推薦的結果.

圖2 基于異質信息網絡表示學習的引文推薦算法框架

3.2.1 包含語義鏈接的異質信息網絡的構建

(1)

最終選擇top-ka個最相似的論文構建語義鏈接.

(2)

最后選擇最相似的top-kk個最相似的關鍵詞構建語義鏈接.

將論文中的一些語義信息(摘要,關鍵詞等)融合到網絡結構中,對原始的異質信息網絡G進行重構,獲得一個新的異質信息網絡G′,重構之后的網絡包含了節點的語義信息.

3.2.2 混合隨機游走

節點采樣序列的好壞,決定了表示學習之后節點的特征好壞,本文使用混合隨機游走對網絡中的節點進行采樣,具體的采樣過程如下.

對于網絡G′中的每一個節點vi,需要對其進行采樣,捕獲每個節點的網絡結構特征.定義游走長度l,設定元路徑P的長度為lp,其中l>lp,以根節點vi進行隨機游走的一個游走序列為Wvi,混合隨機游走的過程可以描述為:從節點vi開始,按照元路徑P進行元路徑游走,從節點vi的鄰居節點開始,選擇一條元路徑進行游走,當游走的長度等于lp時,從當前停止的節點開始進行隨機游走,直到游走序列的長度為l時,停止節點vi的隨機游走;依次遍歷網絡G′中的所有節點.

3.2.3 模型訓練

網絡表示學習可以從網絡中學習節點的特征,并且可以獲得節點的低維向量表示,在分類、鏈路預測、聚類等下游任務中用于特征表示.給定一個低維空間Rd,d?|N|,網絡表示學習的目的就是學習一個映射函數f:N→Rd,Θ=(θ1,θ2,…,θ|N|)表示學習得到的低維空間向量,Θ應該盡可能的保留原始網絡的拓撲信息.

(3)

算法的詳細描述如下:

算法1.基于異質信息網絡表示學習的引文推薦算法

輸入:Heterogeneous citation network

G=(V,E),metapath:Ppath,walk lengthl,walk numberr.

1.Pre-processing:Use word2vec to get a vector of abstracts ?p;Use BERT to get a vector of keywords ?k

2.Use ?p、?kto Reconstructing heterogeneous information citation networkG′=(V,E)

3.Initializewalksto Empty

4.fori=0 to r do:

5.O=shuffle(v)

6.foreachvi∈Odo:

7.walk=mixRandomWalk(G′,vi,l)

《意見》明確要求,各級財政部門要始終把解決好“三農”問題作為工作重中之重,堅持優先發展、壓實責任,堅持綜合施策、系統推進,堅持改革創新、激發活力,把農業農村作為財政支出的優先保障領域,公共財政更大力度向“三農”傾斜,確保投入力度不斷增強、總量持續增加,確保財政投入與鄉村振興目標任務相適應,堅持績效導向、加強管理,將財政資金的分配和使用管理與支持鄉村振興工作的實際成效緊密結合起來,加快推進鄉村治理體系和治理能力現代化,加快推進農業農村現代化,堅持走中國特色鄉村振興之路。

8. Appendwalktowalks

9.endfor

10.endfor

11.fv=skipgram(walks)

12.forvi∈Gpdo

13.forvj∈Gcdo

14. calculate CosSim(fvi,fvj)by Equation(3)

15.endfor

16.Ktop-k most similar paper forvi

17.endfor

1.mixRandomWalkG′=(V,E)start nodevi,walk lengthl

2.walk=[u]

3.forwalk_iter=1 toldo

4. curr=walk[-1]

5.iflength(curr)

6.lmetapath=metpath(curr)

7. else

8.lrandom=randomwalk(curr)

9.walk=lmetapath+lrandom

10.endfor

11.returnwalk

4 實驗與結果分析

4.1 數據集

為了評估算法性能,選取了兩個常用于驗證引文推薦方法性能的數據集:DBLP(1)https://www.aminer.cn/citation和PubMed(2)https://pubmed.ncbi.nlm.nih.gov/.數據集描述如表2所示.

表2 實驗所用的數據集

DBLP是一個著名的在線數字圖書館,包含了計算機科學和相關學科領域的文章和書籍的書目條目.本文從中DBLP v9版本中抽取了一個子集,里面有50227篇文章,26593名作者,11個期刊,按照年份劃分數據集,其中2010年以前的論文作為訓練集,2010年-2013年的論文作為測試集,平均每篇論文的引文數量為4個.

PubMed 數據集包含了47347篇醫學領域的科學文獻,共有42441名作者,11個期刊,平均每篇文獻有17個引用關系,數據集中包含了標題、摘要、地點(文獻發布的期刊或者會議)、作者、引文(文獻中引用其他的文獻)和關鍵詞.2010年以前的論文作為訓練集,2010年-2013年的論文作為測試集.

4.2 評估方法

本文使用Precision、Recall和MRR來評估算法效果,k表示給目標論文推薦k個候選文章:

(4)

(5)

Q是目標論文的數量,k是推薦的論文數量,Rp是基于目標論文p推薦的前k個引文論文列表,Tp是論文p真實引用的集合.

MRR(Mean Reciprocal Rank):對于信息檢索系統(如問答系統或推薦系統),只關心第一個標準答案返回的位置(Rank),越靠前越好,這個位置的倒數稱為RR,對問題集合求平均,則得到MRR.

(6)

F1分數(F1-score)是分類問題的一個衡量指標.一些多分類問題的機器學習競賽,常常將F1-score作為最終測評的指標.它是精確率和召回率的調和平均數,最大為1,最小為0.

(7)

4.3 對比算法

ClusCite[4]:ClusCite將異構圖中的論文、作者、期刊的相似節點聚集在一起,用來查找應該被引用的論文.

BM25[25]:BM25是一種基于文本的方法,可以計算僅使用文字信息的相似度得分.

NNSelect[16]:是一種基于內容推薦引文的方法.將給定的查詢文檔嵌入到向量空間中,然后使用其最近的鄰居作為候選對象,使用判別模型對候選論文進行排序.

Doc2vec[21]:是一種非監督式算法,可以獲得句子/段落/文檔的向量表達,是 word2vec算法的拓展.

DeepWalk[23]:DeepWalk是一種學習網絡中節點表示的方法,將語言模型中的方法應用在社會網絡分析中,從而可以應用深度學習的方法,不僅能表示節點特征,還能表示出節點之間的拓撲關系.

Metapath2vec[26]:是對異構信息網絡進行特征表示學習的一種方法,具體的做法是基于元路徑的隨機游走來獲得節點游走序列,之后使用異構的skip-gram模型來獲得節點的向量表示.

4.4 實驗結果及分析

在本節中,首先將本文提出的CRM-HIN算法與其他6種基于內容的引文推薦算法以及基于圖的引文推薦算法相比較;然后分析不同參數對實驗結果的影響.

實驗環境操作系統為Windows10 64位,語言為python3.6;本文算法設置的元路徑為PAP,每個節點的隱維數(representation_size)為256,游走次數為80;ClusCite算法中參數的設置為:K=200,cp=10-6,cw=10-7;NNSelect、BM25參數和算法原文保持一致,Doc2vec的實現方法參考gensim(3)https://radimrehurek.com/gensim/庫,deepwalk算法的實現采用了清華大學OpenNE(4)https://github.com/thunlp/OpenNE的工具包;metapaht2vec算法中,元路徑參數設置為PAP.

表3、表4分別顯示了本文算法和其他對比算法在DBLP和PubMed數據集上的推薦結果.通過分析實驗數據可知,CRM-HIN算法在recall、precision、NDCG上面有很好的推薦結果.對于只使用文本相似度進行推薦的算法(BM25、Doc2vec),效果沒有基于圖的推薦算法效果好,主要是因為對于引文網絡,由于引文中不僅存在文本信息,更重要的是還存在作者、出版社、文獻之間的引用等關系,而BM25和Doc2vec只使用文本信息,沒有將網絡中的結構信息考慮進去.本文提出的基于異質信息網絡表示學習的引文推薦算法,使用了網絡中的結構以及文本信息,通過節點序列,獲得不同類型節點之間的關系,從而可以獲得更好的推薦效果.

表3 DBLP上的實驗結果對比

表4 PubMed上的實驗結果對比

DeepWalk使用隨機游走獲取節點序列;Metapath2vec使用元路徑獲取節點序列,圖3和圖4分別對比了在兩個數據集上使用混合游走、元路徑和隨機游走3種方式對節點進行采樣時的效果.可以發現,基于元路徑獲得節點序列,只對路徑上的各種節點進行了游走,忽略了節點周圍的其他類型節點.CRM-HIN對于節點序列的采樣,首先按照元路徑獲得節點序列,從而獲得與該節點最相關的結構信息;隨后使用隨機游走,獲得高階鄰居節點的信息;為了使文本信息可以融合到網絡結構中,在獲取節點序列的時候,考慮了節點本身的文本相似性.從實驗結果可以發現,CRM-HIN要比其他算法推薦效果好.因此,結合網絡中的文本信息和異構網絡的結構信息可以獲得更好的結果.

圖3 使用不同節點采樣方法在DBLP上的實驗效果

圖4 使用不同節點采樣方法在PubMed上的實驗效果

本節分析超參數采樣長度的敏感性對實驗結果的影響.對節點進行采樣時,選擇不同的采樣長度,結果如圖5所示,我們使其游走長度依次遞增,觀察實驗結果的變化,從實驗結果中我們可以分析出,當游走長度為6的時候,效果最好.由于本文設置的元路徑為PAP,獲取節點序列的時候,里面包含了元路徑,兩篇論文有共同的作者,這兩篇論文很可能是同一個作者研究的內容,兩篇論文有一定的相關性.元路徑之后的隨機游走,可以獲得與論文相關的一些信息,比如論文和出版社之間的關系,論文之間的引用關系.適當長度的游走,可以有效的提升推薦的效果,但是當游走長度過長的時候,游走序列后半部分的節點序列,與前半部分的節點序列,相關性減輕,對這些節點序列進行訓練,會對實驗結果產生一定的影響.因此,選擇合適的游走長度,可以有效地提升推薦的效果.

圖5 不同游走長度對實驗結果的影響

5 總 結

本文提出一種基于異質信息網絡的引文推薦算法,通過將論文的文本內容融合到網絡的結構中,使用元路徑和隨機游走相結合的方式來提取節點的特征,從而訓練獲取更好的推薦效果.獲取真實論文推薦列表的實驗結果表明,和基準方法相比,本文提出的引文推薦算法可以有效地結合網絡中的結構信息和文本信息,從而獲得更好的推薦結果.

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 日韩精品一区二区深田咏美| 亚洲三级色| 无码高潮喷水在线观看| 国产精品亚洲精品爽爽| 综合五月天网| 日韩小视频在线观看| 午夜免费小视频| 国产一在线| 欧美亚洲第一页| 2021国产精品自产拍在线观看| www.91在线播放| 国产精品第一区在线观看| 亚洲成人精品| 久久永久视频| 在线无码私拍| 久久精品女人天堂aaa| 久久免费看片| а∨天堂一区中文字幕| 亚洲午夜福利在线| 亚洲日韩精品无码专区97| 中文字幕在线看| 四虎永久在线精品影院| 国产人前露出系列视频| 狠狠色丁婷婷综合久久| 国产丰满成熟女性性满足视频| 青青草欧美| 久久精品这里只有精99品| 日韩AV无码免费一二三区| 尤物视频一区| 91国语视频| 色婷婷视频在线| 欧美午夜在线观看| 亚洲精品天堂自在久久77| 色悠久久久| 在线欧美日韩国产| 欧美自拍另类欧美综合图区| 日韩一区精品视频一区二区| 国产真实二区一区在线亚洲| 久久精品66| 久久国产V一级毛多内射| 欧美精品亚洲精品日韩专区va| 亚洲国产天堂久久综合| 四虎在线观看视频高清无码| 久久超级碰| 日韩精品一区二区三区swag| 色老二精品视频在线观看| 欧美一区中文字幕| 亚洲精品va| 无码精油按摩潮喷在线播放| 亚洲国产精品一区二区第一页免| 先锋资源久久| 亚洲AV无码一区二区三区牲色| 强乱中文字幕在线播放不卡| 91午夜福利在线观看| 亚洲伦理一区二区| 在线观看亚洲人成网站| 99这里只有精品在线| 国产一级毛片yw| 国产精品亚洲日韩AⅤ在线观看| www.国产福利| 日韩成人在线一区二区| 国产成人精品一区二区不卡 | 国产人成午夜免费看| 国产精品浪潮Av| 3344在线观看无码| 国产欧美日韩资源在线观看| 欧美亚洲国产一区| 成人午夜久久| 久久久久亚洲精品成人网| 就去色综合| 色欲综合久久中文字幕网| 人妻中文久热无码丝袜| 欧美成人免费一区在线播放| 欧美亚洲日韩中文| 国产主播一区二区三区| 熟妇人妻无乱码中文字幕真矢织江| 亚洲精品你懂的| 欧美性猛交xxxx乱大交极品| 久久综合丝袜日本网| 国产在线观看高清不卡| 在线观看免费人成视频色快速| 激情综合图区|