999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT和GCN的引文推薦模型

2021-01-15 08:31:30查云杰
關(guān)鍵詞:實(shí)驗(yàn)信息模型

查云杰 汪 洋

1(南京烽火天地通信科技有限公司 江蘇 南京 210000) 2(武漢郵電科學(xué)研究院 湖北 武漢 430074) 3(南京烽火星空通信發(fā)展有限公司 江蘇 南京 210000)

0 引 言

隨著科學(xué)論文發(fā)表數(shù)量的巨大增長(zhǎng),在撰寫(xiě)科學(xué)論文的同時(shí)尋找參考文獻(xiàn)并標(biāo)注是一個(gè)繁瑣的過(guò)程,研究根據(jù)上下文在句中適當(dāng)位置添加引用的技術(shù)是很有實(shí)用價(jià)值的。上下文感知引文推薦的研究已有近20年,許多研究者利用圍繞引文標(biāo)簽的文本數(shù)據(jù),即上下文句子,以及目標(biāo)論文的元數(shù)據(jù)來(lái)尋找合適的被引文獻(xiàn)。然而,由于缺乏良好的基準(zhǔn)數(shù)據(jù)集和高性能的模型,使得該技術(shù)的研究進(jìn)展緩慢。

He等[2]在第19屆萬(wàn)維網(wǎng)國(guó)際會(huì)議上提出一種解決方案,通過(guò)占位符自動(dòng)找到被引用的信息,即引文周?chē)奈谋究梢杂米髡嘉环Q(chēng)為“上下文感知的引用推薦”,占位符兩邊的句子稱(chēng)為“上下文”。上下文感知的引文推薦任務(wù)是一種監(jiān)督分類(lèi),可根據(jù)內(nèi)容選擇合適的論文作為占位符。除了上下文,它還考慮了科學(xué)文獻(xiàn)的特征,使用了作者、標(biāo)題、引文和期刊(或會(huì)議名稱(chēng))等,這些都是科學(xué)論文的元數(shù)據(jù)或文獻(xiàn)計(jì)量學(xué)[2-6]。近年來(lái),使用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決此類(lèi)問(wèn)題的嘗試越來(lái)越多[7-9]。

解決該問(wèn)題最棘手的一個(gè)方面是沒(méi)有可以用來(lái)衡量適當(dāng)性能的基準(zhǔn)數(shù)據(jù)集。通常,該任務(wù)需要使用元數(shù)據(jù)以及圍繞所引用論文的上下文。在常用數(shù)據(jù)中,ACL Anthology Network(AAN)數(shù)據(jù)集不提供預(yù)處理后的論文句子和元數(shù)據(jù),DBLP數(shù)據(jù)集只提供書(shū)目信息。在文獻(xiàn)[7]中,CiteseerX數(shù)據(jù)集只提供上下文和引文信息,沒(méi)有同時(shí)提供元信息。因此,相關(guān)研究未能使用相同的基準(zhǔn)數(shù)據(jù)集。

本文研究目的是提供一種適合上下文感知的論文推薦任務(wù)研究的數(shù)據(jù)集和現(xiàn)狀模型,進(jìn)而為研究者提供一個(gè)改進(jìn)的論文寫(xiě)作環(huán)境。主要工作如下:首先,為該任務(wù)構(gòu)建可重復(fù)的基準(zhǔn)數(shù)據(jù)集,并對(duì)現(xiàn)有的AAN數(shù)據(jù)集進(jìn)行預(yù)處理[10-11],為了適應(yīng)這一任務(wù),修改PeerRead[12]構(gòu)建新的數(shù)據(jù)集PeerReadPlus。其次,使用BERT[1]和圖卷積網(wǎng)絡(luò)(Graph Convolution Networks,GCN)[13]構(gòu)建任務(wù)模型。由于科學(xué)論文包含文本內(nèi)容數(shù)據(jù)和可以表示為圖形的元數(shù)據(jù),因此使用BERT進(jìn)行自然語(yǔ)言處理。最后,通過(guò)實(shí)驗(yàn)分析了影響任務(wù)效率的各種因素。

1 建立數(shù)據(jù)集

1.1 數(shù)據(jù)集概述

本文通過(guò)修改現(xiàn)有數(shù)據(jù)集為上下文感知的引文推薦任務(wù)構(gòu)造了新的數(shù)據(jù)集AAN[10]和PeerReadPlus,這是PeerRead數(shù)據(jù)集[12]的擴(kuò)展。AAN和PeerRead數(shù)據(jù)集具有組織良好的書(shū)目計(jì)量信息,PeerRead數(shù)據(jù)集主要提供頂級(jí)會(huì)議論文的同行評(píng)審,以及文獻(xiàn)計(jì)量信息。由于這兩個(gè)數(shù)據(jù)集都缺少引用上下文中的信息,所以這里的重點(diǎn)是使用元數(shù)據(jù)收集上下文信息,因此,需要重新處理AAN和PeerRead數(shù)據(jù)集來(lái)創(chuàng)建數(shù)據(jù)集。

1.2 數(shù)據(jù)采集

本文使用arXiv Vanity創(chuàng)建新的數(shù)據(jù)集。arXiv Vanity是一個(gè)可將基于LaTeX的PDF文件轉(zhuǎn)換為HTML文檔的站點(diǎn)。我們的目標(biāo)是提取引文符號(hào)兩側(cè)的上下文信息,以及參考文獻(xiàn)信息。為此,通過(guò)arXiv Vanity將LaTeX解析為HTML,并使用正則表達(dá)式來(lái)匹配識(shí)別文檔中的引用符號(hào),然后將引文符號(hào)兩側(cè)的句子存儲(chǔ)在一個(gè)包含參考文獻(xiàn)信息的數(shù)據(jù)庫(kù)中,把收集到的信息與現(xiàn)有元數(shù)據(jù)一起存儲(chǔ),并將其構(gòu)建到新的數(shù)據(jù)庫(kù)中。

由于LaTeX文檔的格式不一致,實(shí)際收集的數(shù)據(jù)是有噪聲的。在自動(dòng)收集了必要的數(shù)據(jù)后,手動(dòng)刪除噪聲數(shù)據(jù)。例如CiteSeerX庫(kù)中的文獻(xiàn),與占位符對(duì)應(yīng)的引用符號(hào)將留在上下文中,同時(shí)提供數(shù)據(jù)。占位符文本本身用于過(guò)度擬合學(xué)習(xí),因此可以用來(lái)告訴正確的答案,即占位符可以作為預(yù)測(cè)的重要因素。

1.3 靜態(tài)數(shù)據(jù)集

構(gòu)建的數(shù)據(jù)集的靜態(tài)數(shù)據(jù)如表1所示。所提取的數(shù)據(jù)集比原始的AAN或PeerRead數(shù)據(jù)集的數(shù)量要少,因?yàn)樾枰コ皇褂肔aTeX或使用arXiv Vanity處理時(shí)噪聲很大的.pdf文件。表1中,總論文指的是不包括重復(fù)論文在內(nèi)的基礎(chǔ)論文和被引論文的總數(shù),基礎(chǔ)論文是引用了其他研究的論文,論文的元數(shù)據(jù)信息作為分類(lèi)任務(wù)的輸入。另外,提取了引文符號(hào)兩側(cè)的段落單位,引用上下文是指提取的段落中句子數(shù)量的總和。

表1 數(shù)據(jù)集內(nèi)容

2 BERT-GCN模型

2.1 模型概述

這里使用BERT[1]和GCN[14]構(gòu)建上下文感知的引文推薦模型。BERT是NLP學(xué)習(xí)表示中性能最好的預(yù)訓(xùn)練模型之一,本文通過(guò)預(yù)先訓(xùn)練的BERT 來(lái)實(shí)現(xiàn)上下文句子的學(xué)習(xí)呈現(xiàn)。除了文本數(shù)據(jù)之外,論文還包含各種元數(shù)據(jù)。本文使用GCN模型來(lái)表示論文之間的引用關(guān)系,并提取論文的學(xué)習(xí)表示。

如圖1所示,本文構(gòu)造了一個(gè)上下文編碼器來(lái)提取文本嵌入,使用BERT以及一個(gè)引文編碼器來(lái)從GCN提取圖形嵌入。利用上下文數(shù)據(jù)對(duì)每個(gè)編碼器進(jìn)行預(yù)訓(xùn)練,并從文中提取引文圖數(shù)據(jù)。然后將數(shù)據(jù)插入預(yù)訓(xùn)練的模型中,并由每個(gè)編碼器計(jì)算連接的嵌入。最后,將連接后的向量傳遞給前饋神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)FFNN),生成Softmax輸出層,并采用交叉熵作為損失函數(shù)進(jìn)行訓(xùn)練。

圖1 BERT+GCN模型架構(gòu)

該模型的結(jié)構(gòu)與基準(zhǔn)CACR[9]相關(guān)。CACR同時(shí)具有論文編碼器和引文上下文編碼器,使用AAN數(shù)據(jù)集和LSTM模型演示了SOTA作為最新的上下文感知引文推薦模型的性能,它通過(guò)作者、地點(diǎn)和論文的抽象信息構(gòu)造了一個(gè)論文文本編碼器,本文模型僅利用引文信息構(gòu)建了基于GCN的引文編碼器。

2.2 引文編碼器

引文編碼器對(duì)引文進(jìn)行無(wú)監(jiān)督學(xué)習(xí),將預(yù)測(cè)與基于GCN的變分圖自動(dòng)編碼器(VGAE)模型[13]相連接,利用論文之間的引文關(guān)系作為輸入值。當(dāng)將論文信息作為預(yù)處理的GCN的輸入時(shí),該模型將關(guān)系學(xué)習(xí)表示作為嵌入向量返回。VGAE可以捕獲圖形數(shù)據(jù)的潛在學(xué)習(xí)表示。

在現(xiàn)有的研究中,如何表達(dá)一篇論文的引文關(guān)系一直是個(gè)難題,因?yàn)镈oc2Vec[15]在嵌入了對(duì)單個(gè)元信息的學(xué)習(xí)之后,被用來(lái)對(duì)論文信息進(jìn)行編碼和總結(jié)。本文的引文編碼器通過(guò)使用引文鏈接預(yù)測(cè)信息作為引文預(yù)測(cè)功能來(lái)解決這個(gè)問(wèn)題。

2.3 圖卷積網(wǎng)絡(luò)層

本模型中,GCN層的作用是通過(guò)卷積網(wǎng)絡(luò)抽象引文網(wǎng)絡(luò)圖信息。將GCN層作為VGAE的推理模型。VGAE的GCN層計(jì)算式為:

(1)

該模型由兩個(gè)GCN層組成。GCN層使用兩個(gè)矩陣作為輸入:單位矩陣X和鄰接矩陣A,矩陣大小為N×N,N是輸入論文的數(shù)量。通過(guò)第一個(gè)GCN層的學(xué)習(xí),使用層參數(shù)W0作為第二層的權(quán)值矩陣,每一層都分層傳播擴(kuò)展。

(2)

2.4 變分圖自編碼器

如圖2所示,VGAE是將變分自編碼器[16]的無(wú)監(jiān)督學(xué)習(xí)方法應(yīng)用于圖卷積神經(jīng)網(wǎng)絡(luò)模型。它通過(guò)最小化推理模型和生成模型之間的成本來(lái)學(xué)習(xí)潛在表示。損失函數(shù)L包括生成圖和原始圖之間的距離度量,以及節(jié)點(diǎn)表示向量分布和正態(tài)分布的KL散度兩部分,其計(jì)算式為:

L=E|q(Z|X,A)[ logp(A|Z)]-KL[q(Z|X,A)‖p(Z)]

(3)

式中:E|q(Z|X,A)表示交叉熵函數(shù)。

圖2 變分圖自編碼器的結(jié)構(gòu)

VGAE推理層通過(guò)減少來(lái)自GCN層結(jié)果的正態(tài)分布與高斯正態(tài)分布之間的KL-散度損失來(lái)對(duì)表示矩陣Z進(jìn)行學(xué)習(xí),計(jì)算式為:

(4)

式中:μ=GCNμ(X,A)是特征向量的均值;logσ=GCNσ(X,A)是節(jié)點(diǎn)向量的方差。

然后,生成層根據(jù)干涉層的表示矩陣Z學(xué)習(xí)鄰接矩陣。潛在變量zi和zj為i與j的內(nèi)積值,通過(guò)論文向量之間的內(nèi)積,根據(jù)潛在變量生成鄰接矩陣,如式(5)所示。生成模型通過(guò)減小其鄰接矩陣A與實(shí)際鄰接矩陣之間的差來(lái)定義表示矩陣Z。

(5)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)概述

本文將提出的模型與現(xiàn)有SOTA模型之一的CACR[9]進(jìn)行比較,重點(diǎn)放在性能上。實(shí)驗(yàn)中使用了AAN和PeerReadPlus(PRP)數(shù)據(jù)集,并使用平均精度均值、倒數(shù)排序法(MRR)和Recall@K作為評(píng)估指標(biāo)。實(shí)驗(yàn)?zāi)康氖强疾炷P偷目傮w性能以及以下方面:

(1) 將提出的模型與現(xiàn)有的SOTA(CACR模型)進(jìn)行性能比較,以衡量BERT和GCN的性能優(yōu)于傳統(tǒng)模型。

(2) 研究使用BERT和GCN模型之間的性能差異,用BERT表示文本數(shù)據(jù),用GCN表示圖形數(shù)據(jù),并分析每個(gè)模型對(duì)總體性能的影響。

(3) 根據(jù)文本數(shù)據(jù)的長(zhǎng)度來(lái)檢查模型的性能。當(dāng)使用BERT時(shí),檢查那些離引文符號(hào)較遠(yuǎn)的句子是噪音還是有用的信息。

(4) 根據(jù)聚合數(shù)據(jù)集中的論文出現(xiàn)量來(lái)度量性能的好壞。當(dāng)特定論文很少被引用時(shí),去觀察這個(gè)模型是怎樣執(zhí)行的。

3.2 實(shí)驗(yàn)設(shè)置

(1) 實(shí)驗(yàn)數(shù)據(jù)集。在實(shí)驗(yàn)中,AAN數(shù)據(jù)集使用了2014年之前發(fā)布的數(shù)據(jù),而新建的PeerReadPlus數(shù)據(jù)集包含了2018年之前發(fā)布的論文數(shù)據(jù)。數(shù)據(jù)集分為兩部分:AAN數(shù)據(jù)集使用5 806篇2013年以前的論文作為訓(xùn)練集,973篇2013年以前的論文作為測(cè)試集。PeerReadPlus數(shù)據(jù)集使用3 411篇2017年以前的論文作為訓(xùn)練集,2 559篇2017年以后的論文作為測(cè)試集。然后,為了測(cè)試各種情況下的模型性能,進(jìn)行了不同頻率、不同上下文長(zhǎng)度的對(duì)比實(shí)驗(yàn)。

(2) 評(píng)價(jià)指標(biāo)。對(duì)于實(shí)驗(yàn)評(píng)估,本文使用MAP、MRR和Recall Top@K指標(biāo),這些是用于信息檢索的常用度量標(biāo)準(zhǔn)。MAP測(cè)量反映檢索列表的排名位置的平均精度,這個(gè)指標(biāo)是基于K推薦列表對(duì)應(yīng)的標(biāo)簽值的位置,這里測(cè)量K=30的指標(biāo)。MRR指示器的定義是識(shí)別推薦列表中實(shí)際標(biāo)簽第一次出現(xiàn)的位置。最后,將Recall Top@K定義為T(mén)op@K推薦列表中實(shí)際標(biāo)簽命中率的指示器。實(shí)驗(yàn)通過(guò)K=5,10,30,50,80,100來(lái)評(píng)估召回率。

(3) 參數(shù)設(shè)置。在獨(dú)立的學(xué)習(xí)過(guò)程中,從BERT層和GCN層中提取了嵌入的上下文向量和文檔向量。在BERT,多頭注意數(shù)為12,編碼器棧數(shù)為12,學(xué)習(xí)的epoch(訓(xùn)練模型的迭代次數(shù))總數(shù)為30,批量大小為16,使用Adam優(yōu)化器。學(xué)習(xí)率為2e- 5,epsilon為1e- 6,beta1為0.9,beta2為0.999,權(quán)值衰減率為0.01。實(shí)驗(yàn)將序列長(zhǎng)度的最大值設(shè)置為128,如果長(zhǎng)度小于128,則填充0,并且隱藏的大小為768。

對(duì)于GCN,epoch的數(shù)量為200,第一個(gè)隱藏維度與文檔大小相同,第二個(gè)隱藏維度為768,批大小與總文檔大小相同(全批梯度下降),優(yōu)化器為Adam優(yōu)化器[17],學(xué)習(xí)率為0.01。

3.3 實(shí)驗(yàn)結(jié)果

(1) 基準(zhǔn)比較。如表2所示,與現(xiàn)有CACR相比,本文模型提供了顯著的性能改進(jìn)。與SOTA模型相比,本文模型在MAP、MRR和Recall@K索引方面的性能大約提高了3倍。特別是Recall@5,即只有5篇檢索引文時(shí),有顯著的改進(jìn)。

表2 上下文長(zhǎng)度為50引文頻率大于5的性能測(cè)試結(jié)果

實(shí)驗(yàn)中,本文模型和CACR都只用于被引次數(shù)最少為5次的論文,學(xué)習(xí)方法是在引文符號(hào)兩邊同時(shí)考慮50個(gè)單詞。

通過(guò)獨(dú)立地復(fù)制CACR論文中與Python相關(guān)的代碼來(lái)比較性能。在實(shí)際的論文中沒(méi)有詳細(xì)的實(shí)驗(yàn)信息,如頻率等。由于沒(méi)有提到頻率,這里假設(shè)CACR論文中描述的性能是基于頻率為1得到的,將本文模型性能與CACR論文中所描述的性能進(jìn)行比較,如表3所示。對(duì)于MAP、MRR和Recal@10,本文模型表現(xiàn)更好,但是當(dāng)分類(lèi)標(biāo)簽值隨被引論文頻率變高時(shí)表現(xiàn)出在Recall@10之后性能不如CACR模型。

表3 頻率為1時(shí)與CACR性能的比較

(2) BERT和GNC的影響。當(dāng)添加GCN后,模型的性能得到了提高,如圖3所示,實(shí)驗(yàn)所使用數(shù)據(jù)集為ANN,文本長(zhǎng)度100,頻率為5。

圖3 BERT和GCN的效果

(3) 上下文序列長(zhǎng)度的影響。頻率為1時(shí),各模型性能隨句子上下文長(zhǎng)度的變化情況如圖4所示。當(dāng)上下文長(zhǎng)度達(dá)到或超過(guò)100時(shí),上下文長(zhǎng)度對(duì)模型性能的影響較小,說(shuō)明性能與上下文句子的長(zhǎng)度是相關(guān)的,但是超過(guò)一定的長(zhǎng)度后,上下文長(zhǎng)度對(duì)性能的影響就減小了。

圖4 頻率為1時(shí),性能隨句子上下文長(zhǎng)度的變化

(4) 論文被引頻次的影響。如表4所示引文頻率1、頻率3和頻率5的實(shí)驗(yàn)結(jié)果表明,引文頻率越高,性能越好。一般而言,未被引用的論文不用于訓(xùn)練,即使在測(cè)試時(shí)也可以作為稀疏數(shù)據(jù)處理。因此訓(xùn)練數(shù)據(jù)應(yīng)根據(jù)引文頻率進(jìn)行細(xì)化,即用均勻包含不同頻率的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,以獲得更優(yōu)性能。

表4 基于引用論文頻率的性能變化比較

4 結(jié) 語(yǔ)

對(duì)于上下文感知的引文推薦研究,現(xiàn)有的數(shù)據(jù)集都不是最新的,也沒(méi)有明確的上下文檢測(cè)。為了解決這個(gè)問(wèn)題,本文采用了PeerReadPlus數(shù)據(jù)集。該數(shù)據(jù)集包含了2017年以前的最新論文,提供了一種方便、準(zhǔn)確的提取上下文元數(shù)據(jù)的方法,并且具有良好的組織視角。

本文提出的上下文感知引文推薦任務(wù)模型在MAP、MRR和Recall@K方面相比現(xiàn)有模型有顯著改進(jìn)。性能改進(jìn)的基礎(chǔ)是采用了BERT模型,它在最近的NLP任務(wù)中各方面表現(xiàn)良好,適用于本文的上下文感知框架。通過(guò)BERT實(shí)現(xiàn)上下文編碼,改進(jìn)了上下文側(cè)的表示學(xué)習(xí)。此外,本文還采用了VGAE,根據(jù)圖數(shù)據(jù)包含一個(gè)GCN層,以減輕BERT單獨(dú)應(yīng)用時(shí)對(duì)本地上下文的過(guò)度擬合。它應(yīng)用于框架引文編碼器,將論文的引文網(wǎng)絡(luò)圖數(shù)據(jù)處理成論文的潛在表示形式。編碼后的論文網(wǎng)絡(luò)和上下文的組合是正則化的,從而在基于BERT的模型上提高了性能。

猜你喜歡
實(shí)驗(yàn)信息模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
展會(huì)信息
主站蜘蛛池模板: 久久大香伊蕉在人线观看热2| 国产91成人| 不卡网亚洲无码| 国产剧情国内精品原创| 欧美色图久久| 在线播放真实国产乱子伦| 亚卅精品无码久久毛片乌克兰| 国产小视频a在线观看| а∨天堂一区中文字幕| 韩国v欧美v亚洲v日本v| 一本一道波多野结衣一区二区| 国产精品无码一二三视频| 夜夜操天天摸| 午夜国产大片免费观看| 成人国产精品网站在线看| 亚洲视频四区| 亚洲天堂日韩在线| 99久久精品国产麻豆婷婷| 国产中文在线亚洲精品官网| 韩国福利一区| 亚洲无码熟妇人妻AV在线| 久久黄色一级视频| 精品视频91| 91亚洲精品第一| 久久亚洲黄色视频| 四虎国产永久在线观看| 亚洲IV视频免费在线光看| 久草热视频在线| 色综合综合网| 亚洲成年人网| 成人福利在线观看| 在线a网站| 国产精品天干天干在线观看| 999国产精品| 国产精品福利导航| 四虎永久在线视频| 欧美国产日韩另类| 久久99国产综合精品女同| 欧美 亚洲 日韩 国产| 亚洲精品国产首次亮相| 国产午夜无码专区喷水| 久久精品国产精品青草app| 国产欧美精品午夜在线播放| 天堂网亚洲综合在线| 极品av一区二区| 欧美色视频在线| 亚洲AⅤ综合在线欧美一区| 国产超碰在线观看| 操美女免费网站| 日本午夜三级| 亚欧乱色视频网站大全| 免费无码网站| 日韩午夜伦| 91在线中文| 亚洲国产日韩一区| 国产麻豆另类AV| 青青草原国产一区二区| 亚洲日韩第九十九页| 日日碰狠狠添天天爽| 无码AV动漫| 一区二区三区成人| 欧美97欧美综合色伦图| 国产产在线精品亚洲aavv| 欧美一道本| 欧洲高清无码在线| 91小视频在线观看免费版高清| 国产高清色视频免费看的网址| 国产精品开放后亚洲| 国产精品蜜芽在线观看| 一区二区影院| 色网在线视频| 91亚洲影院| 日韩欧美高清视频| 午夜三级在线| 亚洲嫩模喷白浆| 国产91丝袜在线播放动漫 | 园内精品自拍视频在线播放| 毛片免费高清免费| 91伊人国产| 日韩精品一区二区三区视频免费看| 国产人成在线视频| 日本a∨在线观看|