999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自注意力時(shí)序點(diǎn)過(guò)程生成模型的 Wasserstein學(xué)習(xí)方法

2022-01-01 00:00:00蘆佳明李晨龍魏毅強(qiáng)

摘 要: ""目前學(xué)界普遍通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)建模強(qiáng)度函數(shù)來(lái)刻畫(huà)時(shí)序點(diǎn)過(guò)程,然而此類(lèi)模型不能捕捉到事件序列之間的長(zhǎng)程依賴(lài)關(guān)系,并且強(qiáng)度函數(shù)具體的參數(shù)形式會(huì)限制模型的泛化能力。針對(duì)上述問(wèn)題,提出一種無(wú)強(qiáng)度函數(shù)的注意力機(jī)制的時(shí)序點(diǎn)過(guò)程生成模型。該模型使用Wasserstein距離構(gòu)建損失函數(shù),便于衡量模型分布與真實(shí)分布之間的偏差,利用自注意力機(jī)制描述歷史事件對(duì)當(dāng)前事件的影響程度,使得模型具有可解釋性且泛化能力更強(qiáng)。對(duì)比實(shí)驗(yàn)表明,在缺失強(qiáng)度函數(shù)先驗(yàn)信息的情況下,該方法比RNN類(lèi)的生成模型和極大似然模型在QQ圖斜率的偏差和經(jīng)驗(yàn)強(qiáng)度偏差這兩個(gè)指標(biāo)總體上分別減少35.125%和24.200%,證實(shí)了所提模型的有效性。

關(guān)鍵詞: "事件序列; 時(shí)序點(diǎn)過(guò)程; Wasserstein距離; 多頭自注意力

中圖分類(lèi)號(hào): "TP391 """文獻(xiàn)標(biāo)志碼: A

文章編號(hào): "1001-3695(2022)02-022-0456-05

doi:10.19734/j.issn.1001-3695.2021.08.0298

Wasserstein learning method for self-attention temporal "point process generation model

Lu Jiaming, Li Chenlong, Wei Yiqiang

(College of Mathematics, Taiyuan University of Technology, Jinzhong Shanxi 030600, China)

Abstract: "At present,the academic circles generally describe the temporal point process by modeling the intensity function using recurrent neural network(RNN).However,this kind of model can’t capture the long-range dependence between event sequences,and the specific parameter form of the intensity function will limit the generalization ability of the model.In order to solve these problems,this paper proposed a temporal point process self-attention generation model without intensity function.The model used Wasserstein distance to construct the objective function,which was convenient to measure the deviation between the model distribution and the real distribution,and used the self-attention mechanism to describe the impact of historical events on current events,so that the model was interpretable and had stronger robustness.Comparative experiments show that,in the absence of prior knowledge of intensity function,the deviation of QQ graph slope and empirical intensity deviation of this method reduce 35.125% and 24.200% respectively compared with RNN generation model and maximum likelihood mo-del,which proves the effectiveness of the proposed model.

Key words: "event sequence; temporal point process; Wasserstein distance; multi-head self-attention

0 引言

社交平臺(tái)上的用戶(hù)行為、金融交易信息[1,2]、 醫(yī)療健康信息[3]等人類(lèi)活動(dòng)和地震等自然現(xiàn)象都會(huì)產(chǎn)生大量的異步事件序列。異步事件序列具有時(shí)間次序,其時(shí)間戳能夠反映事件發(fā)生的潛在動(dòng)態(tài)規(guī)律[4];同時(shí),異步事件序列中事件的發(fā)生時(shí)間是隨機(jī)的,這意味著相繼發(fā)生的事件之間的時(shí)間間隔是不相等的。因此,有關(guān)異步事件序列的研究具有實(shí)際價(jià)值并存在挑戰(zhàn)。

時(shí)序點(diǎn)過(guò)程是一種有效建模異步事件序列的數(shù)學(xué)工具[5],它將事件之間的時(shí)間間隔當(dāng)做隨機(jī)變量,并借助參數(shù)化的強(qiáng)度函數(shù)對(duì)異步事件序列的發(fā)生時(shí)間進(jìn)行精確建模。通常,強(qiáng)度函數(shù)的參數(shù)形式根據(jù)研究對(duì)象的不同而有不同的設(shè)計(jì),如泊松過(guò)程、霍克斯過(guò)程、自校正過(guò)程和更新過(guò)程[6]等。然而,不同時(shí)序點(diǎn)過(guò)程強(qiáng)度函數(shù)的參數(shù)形式往往結(jié)構(gòu)單一,不能廣泛用于解決實(shí)際問(wèn)題;另外,參數(shù)形式的錯(cuò)誤指定會(huì)造成模型性能的顯著降低[7]。

近年來(lái),研究者將時(shí)序點(diǎn)過(guò)程和神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),提出了參數(shù)化強(qiáng)度函數(shù)的深度學(xué)習(xí)方法, 并將其稱(chēng)為深度時(shí)序點(diǎn)過(guò)程[8]。一般而言,深度時(shí)序點(diǎn)過(guò)程將強(qiáng)度函數(shù)視為歷史過(guò)程的非線(xiàn)性函數(shù),使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)其進(jìn)行參數(shù)化[9]。基于RNN的深度時(shí)序點(diǎn)過(guò)程大都采用對(duì)數(shù)似然構(gòu)建損失函數(shù),最小化這一損失函數(shù)漸近等價(jià)于最小化真實(shí)分布和模型分布之間的KL散度,但這常常會(huì)導(dǎo)致模式下降等問(wèn)題[10]。為此,文獻(xiàn)[7]以基于RNN和Wasserstein距離(W距離)的生成對(duì)抗網(wǎng)絡(luò)(WGAN[11])為基礎(chǔ),提出了一種不需要似然函數(shù)的時(shí)序點(diǎn)過(guò)程估計(jì)方法(WGANTPP[7])。然而,RNN類(lèi)模型存在兩個(gè)固有的缺點(diǎn):a)只能緩解而不能根本解決序列數(shù)據(jù)的長(zhǎng)程依賴(lài)問(wèn)題;b)遞歸運(yùn)算方式使得RNN只能接收前面的輸出作為輸入,限制了模型的計(jì)算效率。盡管研究者提出了RNN的多種變體,如長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[12]和門(mén)限回歸單元(GRU)[13]等,但仍然不能根本解決使用循環(huán)結(jié)構(gòu)所導(dǎo)致的問(wèn)題。

為解決上述問(wèn)題,本文提出了一種基于多頭自注意力機(jī)制和W距離的時(shí)序點(diǎn)過(guò)程生成學(xué)習(xí)方法(self-attention WGAN for temporal point process,SGT)。SGT使用添加梯度懲罰項(xiàng)的W距離來(lái)衡量模型分布與真實(shí)數(shù)據(jù)分布之間的偏差,以避免WGAN類(lèi)模型因權(quán)重裁剪而造成的梯度爆炸等問(wèn)題[11,14~16]。與RNN類(lèi)模型相比, SGT通過(guò)多頭自注意力機(jī)制建立歷史事件之間的聯(lián)系,同時(shí)處理批量化的序列數(shù)據(jù),克服了RNN遞歸結(jié)構(gòu)導(dǎo)致的缺陷,不僅可以捕捉到異步事件序列之間的長(zhǎng)程依賴(lài)關(guān)系,而且能夠提高運(yùn)行效率[17~20]。此外,學(xué)習(xí)到的自注意力權(quán)重能夠描述歷史事件發(fā)生對(duì)當(dāng)前事件的影響程度。因此,SGT比RNN類(lèi)深度時(shí)序點(diǎn)過(guò)程模型的可解釋性更強(qiáng),本文SGT在仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上均取得了穩(wěn)定優(yōu)異的表現(xiàn)。

1 相關(guān)知識(shí)

1.1 時(shí)序點(diǎn)過(guò)程

時(shí)序點(diǎn)過(guò)程是由事件發(fā)生時(shí)刻 T={t 1,…,t N,…} "所組成的隨機(jī)過(guò)程,其條件強(qiáng)度函數(shù)為 λ*(t)=λ(t|H t) ,其中符號(hào)*表示強(qiáng)度函數(shù)依賴(lài)于歷史 H t={t j∈T:t jlt;t} 。在時(shí)間窗 [t,t+dt) 內(nèi), λ*(t)dt=Ρ{#[t,t+dt)|H t} ,其中,記號(hào) #[t,t+dt) 表示在時(shí)間窗口 [t,t+dt) 內(nèi)發(fā)生的事件數(shù); λ*(t)dt 可視為在給定歷史條件下事件發(fā)生的概率。常見(jiàn)的時(shí)序點(diǎn)過(guò)程有以下幾類(lèi):

a)非齊次泊松過(guò)程(inhomogeneous Poisson process)[21]。 "λ(t) 是與 H t 獨(dú)立的非負(fù)函數(shù),例如由 k 個(gè)高斯核函數(shù)組成的多模函數(shù) λ(t)=∑k i=1α i(2 π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,其中 t∈[0,T),c i和σ i 分別是均值和標(biāo)準(zhǔn)差, α i 是核函數(shù)的權(quán)重。

b)霍克斯過(guò)程(Hawkes process)[22]。該過(guò)程中歷史事件的發(fā)生會(huì)增加未來(lái)事件發(fā)生的概率,強(qiáng)度函數(shù)常用參數(shù)形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,其中, 0lt;βlt;1,μgt;0,g(·) 是非負(fù)核函數(shù),一般是指數(shù)函數(shù) g(t)= exp (-ωt) , ωgt;0 。

c)自校正過(guò)程(self-correcting process)[23]。該過(guò)程中歷史事件的發(fā)生會(huì)減小未來(lái)事件發(fā)生的概率。 λ(t) 的參數(shù)形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,其中 η和γ 分別代表外生強(qiáng)度和內(nèi)生強(qiáng)度,指數(shù)形式確保強(qiáng)度函數(shù)非負(fù)。

1.2 W距離

兩個(gè)分布之間的W距離定義為

W(P r,P g)= inf "ψ∈Ψ(Ρ r,Ρ g) Ε (X,Y)[|X-Y|] ""(1)

其中: Ψ(Ρ r,Ρ g) 定義為聯(lián)合分布 ψ(X,Y) 的集合, Ρ r 和 Ρ g 是聯(lián)合分布的邊際密度。但 W(Ρ r,Ρ g) 的計(jì)算過(guò)程十分復(fù)雜,故考慮其對(duì)偶形式[24]sup "‖f‖ L≤1 (Ε X~Ρ r[f(X)]-Ε Y~Ρ g[f(Y)]) ,其中 ‖f‖ L sup "X≠Y "|f(X)-f(Y)| |X-Y| ",且 W(Ρ r,Ρ g) 的上限對(duì)于所有的1-Lipschitz函數(shù) f 都滿(mǎn)足。然而為獲得此上界而枚舉所有的1-Lipschitz函數(shù)是不可能的[7]。因此,可以使用一個(gè)神經(jīng)網(wǎng)絡(luò) f w 去近似 f,w∈W 是網(wǎng)絡(luò)參數(shù)。此時(shí),對(duì)偶問(wèn)題轉(zhuǎn)換為

W(Ρ r,Ρ g)= max "w∈W,‖f w‖ L≤1 Ε X~Ρ r[f w(Y)]-Ε Y~Ρ g[f w(X)] ""(2)

1.3 自注意力和多頭自注意力

自注意力機(jī)制通過(guò)一一對(duì)應(yīng)的相似度函數(shù)來(lái)刻畫(huà)輸入數(shù)據(jù)之間的相互依賴(lài)關(guān)系。本文采用查詢(xún)—鍵—值模式的自注意力,具體計(jì)算過(guò)程如下:

a)對(duì)于每個(gè)輸入 e "n∈E=[e 1,…,e N]∈"Euclid Math TwoRAp

L×N ,將其線(xiàn)性映射到三個(gè)不同的空間,得到查詢(xún)向量 q "i∈"Euclid Math TwoRAp

D 、鍵向量 k "i∈"Euclid Math TwoRAp

D 和值向量 v "i∈"Euclid Math TwoRAp

D 。對(duì)于整個(gè)輸入序列 E ,其線(xiàn)性映射過(guò)程為 Q =E W "q=[ q "1,…, q "D]∈"Euclid Math TwoRAp

L×D, K =E W "k=[ k "1,…, k "D]∈"Euclid Math TwoRAp

L×D, V =E W "v=[ v "1,…, v "D]∈"Euclid Math TwoRAp

L×D,其中 W "q∈"Euclid Math TwoRAp

N×D, W "k∈"Euclid Math TwoRAp

N×D, W "v∈"Euclid Math TwoRAp

N×D 分別為線(xiàn)性映射的參數(shù)矩陣[25]。

b)對(duì)于每一個(gè)查詢(xún)向量 q "n∈ Q 、鍵向量 k "j∈ K 和值向量 v "j∈ V ,自注意力機(jī)制對(duì)應(yīng)的輸出向量為 h "n=∑N j=1α nj v "j=∑N j=1 softmax (s(q n, k "j)) v "j,其中n,j∈[1,N]為輸入向量序列的位置,α nj表示第n個(gè)輸入關(guān)注到第j個(gè)輸入的權(quán)重,s(·) 為相似度函數(shù),softmax(·)為歸一化函數(shù)[25]。

自注意力機(jī)制可視為在一個(gè)線(xiàn)性投影空間中建立輸出序列為 H=[h 1,…,h "D]∈"Euclid Math TwoRAp

L×D 中不同向量之間的交互關(guān)系。而多頭自注意力則是在 M 個(gè)投影空間中應(yīng)用自注意力以捕捉到多個(gè)的投影空間中不同的交互信息: "εm∈{1,…,M}有 Q "m=E W m q, K "m=E W m k, V "m=E W m v,H=[ h 1;…;h "M] W "O,其中 W "O∈"Euclid Math TwoRAp

D×N, W m q∈"Euclid Math TwoRAp

N× D M , W m k∈"Euclid Math TwoRAp

N× D M , W m v∈"Euclid Math TwoRAp

N× D M "為投影矩陣[25]。

1.4 位置編碼

對(duì)于輸入數(shù)據(jù)的特征向量 Z ={z 1,z 2,…,z L}∈"Euclid Math TwoRAp

L×1 來(lái)說(shuō),其位置編碼向量 p (z l)∈"Euclid Math TwoRAp

L×N 常通過(guò)式(3)進(jìn)行預(yù)定義[15]:

[ p (z j)] i= ""sin (pe(z j)/10000 i-1 M ) i為偶數(shù)

cos (pe(z j)/10000 i-1 M ) i為奇數(shù) """"(3)

其中: pe(z j) 表示 z j 在噪聲序列中的次序。該編碼方式無(wú)須引入額外的參數(shù)就可以對(duì)位置信息進(jìn)行豐富編碼。

2 SGT模型

2.1 SGT的模型結(jié)構(gòu)

為捕捉事件序列的長(zhǎng)程依賴(lài)關(guān)系,使生成序列的分布盡可能接近真實(shí)序列分布,提高時(shí)序點(diǎn)過(guò)程生成方法的學(xué)習(xí)效果,本文提出一種基于多頭自注意力機(jī)制和W距離的時(shí)序點(diǎn)過(guò)程生成學(xué)習(xí)方法SGT。該模型由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分構(gòu)成,含有位置編碼、多頭自注意力、殘差連接、層標(biāo)準(zhǔn)化、全連接層和softmax(·)層等組件,其模型結(jié)構(gòu)如圖1所示。

SGT模型具體構(gòu)成介紹如下:

a)生成網(wǎng)絡(luò)。設(shè)生成網(wǎng)絡(luò)的輸入噪聲序列和輸出序列分別是 Z={z 1,z 2,…,z L}和X={x 1,x 2,…,x L} ,生成網(wǎng)絡(luò)的目標(biāo)是將噪聲序列轉(zhuǎn)換為判別網(wǎng)絡(luò)無(wú)法區(qū)分來(lái)源的事件序列 g θ(Z)=X 。由于在時(shí)序點(diǎn)過(guò)程中齊次泊松過(guò)程扮演著非信息性和類(lèi)似均勻分布的角色,所以SGT的生成網(wǎng)絡(luò)在此輸入的噪聲序列采樣于齊次泊松過(guò)程。

因?yàn)樯删W(wǎng)絡(luò)的主要結(jié)構(gòu)是自注意力機(jī)制,而其計(jì)算得到的權(quán)重缺少輸入序列中每個(gè)時(shí)間戳的位置信息,所以要對(duì)噪聲序列加入位置編碼進(jìn)行修正。對(duì)于輸入的噪聲序列 Z={z 1,…,z L}∈"Euclid Math TwoRAp

L×1,令E=[e(z 1)+p(z 1),…,e(z L)+p(z L)],E∈"Euclid Math TwoRAp

L×N 由嵌入編碼 e(·)∈"Euclid Math TwoRAp

L×N和位置編碼p(·)∈"Euclid Math TwoRAp

L×N 組成。然后,將編碼后的噪聲序列輸入到多頭自注意力機(jī)制中,并使用放縮點(diǎn)積作為多頭自注意力的相似度函數(shù),得到輸出 H=[ h 1,h 2,…,h "M] W O∈"Euclid Math TwoRAp

L×N,其中 h "m =softmax( "Q "m K T "m "D k ") V "m 。 為避免當(dāng)前事件受到未來(lái)事件的影響,在自注意力機(jī)制中添加了掩碼機(jī)制:在計(jì)算 Q "m K T "m(j,:)(矩陣 Q "m K T "m的第j 行)時(shí),將 Q "m K T "m(j,j+1)、 Q "m K T "m(j,j+2)、 Q "m K T "m(j,L) 的值設(shè)為負(fù)無(wú)窮,則經(jīng)過(guò)softmax(·) 函數(shù)后,未來(lái)事件對(duì)當(dāng)前事件的影響將變?yōu)?,使得每個(gè)事件僅受歷史事件的影響。進(jìn)一步地,為了緩解由于模型深度增加而帶來(lái)的模型退化問(wèn)題,在多頭自注意力的輸出中加入殘差連接。接下來(lái),加入層標(biāo)準(zhǔn)化可以有效避免梯度消失和梯度爆炸問(wèn)題;最后將多頭自注意力模型的輸出 H 輸入到全連接層,得到生成序列 X ={x 1,x 2,…,x n}=σ( HW f+ b f),其中σ(·) 是激活函數(shù)ELU(·), X ∈"Euclid Math TwoRAp

L×1, W f∈"Euclid Math TwoRAp

N×1, b f∈"Euclid Math TwoRAp

L×1 。

b)判別網(wǎng)絡(luò)。該網(wǎng)絡(luò)的目標(biāo)是判斷其輸入序列是真實(shí)序列還是由生成網(wǎng)絡(luò)產(chǎn)生。除最后一層網(wǎng)絡(luò)外,SGT的判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)完全相同。判別網(wǎng)絡(luò)的最后一層為softmax(·),其輸出結(jié)果用來(lái)構(gòu)建整個(gè)網(wǎng)絡(luò)的損失函數(shù),以反映真實(shí)序列和生成序列的差異程度。

2.2 SGT的訓(xùn)練過(guò)程

與WGAN一樣,SGT需使生成的時(shí)序點(diǎn)過(guò)程的分布盡可能接近真實(shí)時(shí)序點(diǎn)過(guò)程數(shù)據(jù)的分布。SGT的訓(xùn)練過(guò)程如下:

a)生成 [0,T) 內(nèi)服從分布 Ρ z 的泊松噪聲序列 Z ,其中, Ρ z 的強(qiáng)度函數(shù)為 λ zgt;0 [7]。

b)將噪聲序列 Z 的生成序列 X 和真實(shí)序列 Y 代入式(2)。為使參數(shù)化模型族 g θ 滿(mǎn)足1-Lipschitz條件的同時(shí)避免梯度爆炸,在判別網(wǎng)絡(luò)訓(xùn)練目標(biāo)中加入梯度懲罰項(xiàng) A ,則SGT的損失函數(shù)為

L =min "θ W(Ρ r,Ρ z)=

min "θ "max "w∈W,‖f w‖ L≤1 (Ε X~P r[f w(X)]-Ε Z~P z[f w(g θ(Z))]-A) ""(4)

其中: A=υ‖ |f w(X)-f w(g θ(Z))| |X-g θ(Z)| -1‖;υ 為梯度懲罰項(xiàng)的調(diào)節(jié)系數(shù)。生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)目標(biāo)相反,生成網(wǎng)絡(luò)的目標(biāo)函數(shù)為

min "θ "max "w∈W,‖f w‖ L≤1 Ε Z~P z[f w(g θ(Z))] ""(5)

c)用Adam優(yōu)化方法對(duì)損失函數(shù)訓(xùn)練,最后進(jìn)行模型評(píng)價(jià)。

2.3 實(shí)驗(yàn)設(shè)置和算法流程

SGT模型使用批量大小 m =256的Adam優(yōu)化方法進(jìn)行訓(xùn)練,優(yōu)化方法的學(xué)習(xí)率 α =1E-4,一階和二階矩估計(jì)的指數(shù)衰減率分別為 β 1=0.5,β 2 =0.9。模型訓(xùn)練15 000次并應(yīng)用早停法。SGT算法流程如下:

輸入:Lipschitz約束的正則系數(shù) υ=0.3 ;批量大小 m ;判別器迭代次數(shù) n d=5 ;判別網(wǎng)絡(luò)初始化參數(shù) w 0 ;生成網(wǎng)絡(luò)初始化參數(shù) θ 0 ;Adam優(yōu)化器的超參數(shù) α,β 1,β 2 。

輸出:生成器的生成序列。

while "θ "has not converged do

for "n =0,…, n d "do

{x(i)}m i=1~Ρ r ; //采樣得到真實(shí)序列

{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列

L←[ 1 m ∑m i=1f w(g θ(z(i)))- 1 m ∑m i=1f w(x(i))]+ υ∑m i,j=1‖ |f w(x i)-f w(g θ(z j))| |x i-g θ(z j)| -1‖; "http://判別損失

w←Adam( ""wL,w 0,α,β 1,β 2) ; //更新判別器參數(shù)

end for

{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列

θ ←Adam(- """w 1 m ∑m i=1f w(g θ(z(i))),θ 0,α,β 1,β 2 ); /*更新生成器參數(shù)*/

end while

3 實(shí)驗(yàn)過(guò)程及結(jié)果分析

3.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)共使用五個(gè)數(shù)據(jù)集,其中三個(gè)仿真數(shù)據(jù)集和兩個(gè)真實(shí)數(shù)據(jù)集,均是以.txt文本格式存儲(chǔ)的數(shù)值型數(shù)據(jù)。在時(shí)間窗[0,15)內(nèi),分別由非齊次泊松過(guò)程[21]、霍克斯過(guò)程[22]和自校正過(guò)程[23]產(chǎn)生三個(gè)仿真數(shù)據(jù)集,每個(gè)數(shù)據(jù)集均含有20 000條序列。三個(gè)用于產(chǎn)生仿真數(shù)據(jù)集的時(shí)序點(diǎn)過(guò)程參數(shù)設(shè)置如下:

a)非齊次泊松過(guò)程。其強(qiáng)度函數(shù)的形式為 λ(t)=∑k i=1α i (2π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,參數(shù)設(shè)置為 k=3 , α=[4,8,11] , σ=[1,1,1] , c=[1,2,3] 。

b)霍克斯過(guò)程。其條件強(qiáng)度函數(shù)的形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,參數(shù)設(shè)置為 μ=1.0 , β=0.8 ,衰減核 g(t-t i)= e -(t-t i) 。

c)自校正過(guò)程。其條件強(qiáng)度函數(shù)的形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,參數(shù)設(shè)置為 η=1.0 , γ=3.0 。

真實(shí)數(shù)據(jù)采用重癥監(jiān)護(hù)醫(yī)學(xué)數(shù)據(jù)集MIMIC-Ⅱ和社交網(wǎng)絡(luò)數(shù)據(jù)集meme,每個(gè)序列中事件發(fā)生的時(shí)間戳均被裁剪到[0,15)。真實(shí)數(shù)據(jù)集細(xì)節(jié)介紹如下:

a)MIMIC-Ⅱ(medical information mart for intensive care-Ⅱ)是一個(gè)免費(fèi)開(kāi)放的、公共資源的重癥監(jiān)護(hù)室研究數(shù)據(jù)集,該數(shù)據(jù)集是貝斯以色列迪康醫(yī)學(xué)中心(BIDMC)重癥監(jiān)護(hù)室中病人的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)記錄了病人從發(fā)病、入診、檢查、治療到出院的時(shí)間點(diǎn),共有650條序列。

b)meme數(shù)據(jù)集是描述社交網(wǎng)絡(luò)行為傳播的公開(kāi)數(shù)據(jù)集,共包括超過(guò)1 720萬(wàn)條新聞或博客的傳播時(shí)間點(diǎn)。本文對(duì)該數(shù)據(jù)集進(jìn)行篩取,選取數(shù)據(jù)集中長(zhǎng)度大于3的序列作為可使用數(shù)據(jù),共得到23 020條序列。

3.2 對(duì)比實(shí)驗(yàn)和模型評(píng)價(jià)指標(biāo)

選擇WGANTPP[7]和RMTPP[8]兩個(gè)模型與SGT作對(duì)比,其中,WGANTPP是文獻(xiàn)[7]提出的時(shí)序點(diǎn)過(guò)程生成方法,其模型采用RNN的變體LSTM[12]來(lái)構(gòu)建模型的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),使用帶梯度懲罰項(xiàng)的W距離構(gòu)建損失函數(shù), 可以從RNN生成模型角度與SGT在時(shí)序點(diǎn)過(guò)程方面進(jìn)行比較;RMTPP是文獻(xiàn)[8]首次將RNN應(yīng)用到時(shí)序點(diǎn)過(guò)程的理論模型,其開(kāi)創(chuàng)性的成果使其成為學(xué)界在對(duì)深度時(shí)序點(diǎn)過(guò)程進(jìn)行研究時(shí)重要的對(duì)比模型,該模型將時(shí)序點(diǎn)過(guò)程的強(qiáng)度函數(shù)表示為歷史的非線(xiàn)性函數(shù),使用極大似然構(gòu)建損失函數(shù),可以從RNN極大似然估計(jì)角度與SGT進(jìn)行對(duì)比。與WGANTPP和RMTPP兩個(gè)模型進(jìn)行對(duì)比,可以對(duì)SGT的有效性作出衡量。模型的評(píng)價(jià)指標(biāo)選用QQ圖斜率和經(jīng)驗(yàn)強(qiáng)度的平均絕對(duì)偏差。QQ圖能夠反映事件序列間的微觀(guān)依賴(lài)關(guān)系,經(jīng)驗(yàn)強(qiáng)度反映序列的宏觀(guān)動(dòng)態(tài)信息,它們的平均絕對(duì)偏差越小,表明學(xué)習(xí)方法越優(yōu)秀[7]。具體原理如下:

a)強(qiáng)度函數(shù) λ(t) 的積分 Λ=∫t i+1 t iλ(s) d s 與參數(shù)為1的指數(shù)分布的QQ圖應(yīng)該落在45°參考線(xiàn)附近[7]。 因此取序列QQ圖斜率與參考線(xiàn)斜率的平均絕對(duì)偏差作為模型效果的評(píng)價(jià)指標(biāo)。

b)雖然SGT是一個(gè)無(wú)強(qiáng)度函數(shù)的模型,但可以通過(guò)比較生成序列與真實(shí)數(shù)據(jù)經(jīng)驗(yàn)強(qiáng)度的平均絕對(duì)偏差來(lái)評(píng)估模型的優(yōu)劣[7]。經(jīng)驗(yàn)強(qiáng)度 λ′(t)=E(N(t+δt)-N(t))/δt表示[t,t+δt] 發(fā)生事件的平均數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 仿真數(shù)據(jù)集結(jié)果分析

三個(gè)仿真數(shù)據(jù)集下SGT及其對(duì)比模型的生成樣本案例如圖2所示,其中紅色曲線(xiàn)為真實(shí)樣本,黃色、綠色和藍(lán)色曲線(xiàn)分別是SGAN、WGANTPP和RMTPP模型的生成樣本(見(jiàn)電子版), t 表示時(shí)間窗口內(nèi)事件發(fā)生的時(shí)間, N(t) 表示時(shí)間窗口內(nèi)發(fā)生的事件數(shù)。觀(guān)察圖2可知,SGT模型生成的樣本案例與真實(shí)樣本案例的最為接近。在仿真數(shù)據(jù)集上SGT、WGANTPP和RMTPP模型生成樣本與真實(shí)樣本的均方根誤差(RMSE)分別為1.236、2.324和2.333,其中SGT生成樣本與真實(shí)樣本的RMSE最小。不同模型在不同時(shí)序點(diǎn)過(guò)程上的生成序列和仿真數(shù)據(jù)的QQ圖如圖3所示,其中紅點(diǎn)是仿真序列數(shù)據(jù)的QQ圖(見(jiàn)電子版)。觀(guān)察圖3得知,除霍克斯數(shù)據(jù)集外,SGT的生成序列與仿真序列數(shù)據(jù)的QQ圖差異最小。表1匯總了五次實(shí)驗(yàn)得到的QQ圖斜率偏差的均值和標(biāo)準(zhǔn)差。在缺失強(qiáng)度函數(shù)先驗(yàn)知識(shí)的情況下,除了在霍克斯數(shù)據(jù)集上是次優(yōu)的外,由SGT得出的QQ圖斜率偏差要明顯小于另外兩個(gè)模型,總體上比基于RNN的生成模型WGANTPP的結(jié)果減少49.2%,比基于RNN的極大似然模型RMTPP的結(jié)果減少21.05%。

圖4是不同模型在不同時(shí)序點(diǎn)過(guò)程中的經(jīng)驗(yàn)強(qiáng)度比較,直觀(guān)地展現(xiàn)了不同模型在三個(gè)仿真數(shù)據(jù)集上學(xué)習(xí)到的經(jīng)驗(yàn)強(qiáng)度,紅線(xiàn)是仿真序列的經(jīng)驗(yàn)強(qiáng)度(見(jiàn)電子版)。觀(guān)察圖4得知,除霍克斯數(shù)據(jù)集外,SGT的生成序列和仿真序列的經(jīng)驗(yàn)強(qiáng)度最為接近。表2匯總了五次實(shí)驗(yàn)得到的經(jīng)驗(yàn)強(qiáng)度偏差的均值和標(biāo)準(zhǔn)差。從表2可以看出,在缺失強(qiáng)度函數(shù)先驗(yàn)知識(shí)的情況下,除了在霍克斯數(shù)據(jù)集上是次優(yōu)的外,SGT生成序列和仿真序列的經(jīng)驗(yàn)強(qiáng)度偏差最小,SGT經(jīng)驗(yàn)強(qiáng)度的偏差比WGANTPP減少41.56%,比RMTPP減少6.84%。

3.3.2 真實(shí)數(shù)據(jù)集結(jié)果分析

圖5是兩個(gè)真實(shí)數(shù)據(jù)集下SGT及其對(duì)比模型的生成樣本案例,不同的真實(shí)數(shù)據(jù)擁有不同的發(fā)生方式。由圖5可知,SGT模型生成的樣本與真實(shí)樣本最接近。計(jì)算SGT、WGANTPP和RMTPP模型生成樣本與真實(shí)樣本的均方根誤差(RMSE)分別為1.243、3.331和3.096,其中SGT生成樣本的RMSE最小。由于真實(shí)數(shù)據(jù)的潛在生成過(guò)程未知,通常被看做是從特定領(lǐng)域產(chǎn)生的某種類(lèi)型的時(shí)序點(diǎn)過(guò)程,不是由已知強(qiáng)度函數(shù)參數(shù)的時(shí)序點(diǎn)過(guò)程生成的,故不能對(duì)真實(shí)數(shù)據(jù)進(jìn)行QQ圖比較。因此,在真實(shí)數(shù)據(jù)集上僅選用經(jīng)驗(yàn)強(qiáng)度的平均絕對(duì)偏差作為模型的評(píng)價(jià)指標(biāo)。圖6是醫(yī)療數(shù)據(jù)集MIMIC

-Ⅱ和社交網(wǎng)絡(luò)數(shù)據(jù)集meme的經(jīng)驗(yàn)強(qiáng)度圖,可以直觀(guān)看出SGT生成的序列數(shù)據(jù)更加符合真實(shí)數(shù)據(jù)的分布。

隨機(jī)初始化生成網(wǎng)絡(luò)的參數(shù),運(yùn)行五輪得到經(jīng)驗(yàn)強(qiáng)度偏差的均值和標(biāo)準(zhǔn)差,結(jié)果如表3所示。與基于RNN的生成模型WGANTPP和極大似然模型RMTPP相比,SGT模型的經(jīng)驗(yàn)強(qiáng)度偏差最小。

3.4 損失收斂曲線(xiàn)

SGT模型在非齊次泊松數(shù)據(jù)集上的損失函數(shù)的收斂曲線(xiàn)如圖7所示,在其他數(shù)據(jù)集上的收斂曲線(xiàn)與其類(lèi)似。觀(guān)察圖7可知,由于生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的目標(biāo)相反,模型的損失在對(duì)抗變化,即在迭代次數(shù)小于1 700時(shí),隨著模型訓(xùn)練的進(jìn)行生成網(wǎng)絡(luò)的生成能力逐漸增強(qiáng),開(kāi)始生成高質(zhì)量的時(shí)序點(diǎn)過(guò)程序列,而此時(shí)判別網(wǎng)絡(luò)的鑒別能力相對(duì)較弱,難以有效分辨出生成序列的真假;當(dāng)?shù)螖?shù)處于[1700,3000]時(shí),判別網(wǎng)絡(luò)的鑒別能力開(kāi)始逐步提升,逐漸能夠分辨出生成序列的真假;當(dāng)?shù)螖?shù)在[3000,5000]時(shí),損失開(kāi)始振蕩變化;當(dāng)?shù)螖?shù)大于10 000時(shí),損失的振蕩趨于平穩(wěn),并于迭代完成時(shí),損失在-5附近動(dòng)態(tài)波動(dòng)。

3.5 模型可解釋性

SGT與RMTPP和WGANTPP相比,除了在時(shí)序點(diǎn)過(guò)程的生成學(xué)習(xí)方面有更優(yōu)的表現(xiàn)外,還具有更好的模型可解釋性。將SGT模型在不同數(shù)據(jù)集上的自注意力權(quán)重進(jìn)行可視化,如圖8所示,圖中的每一行表示歷史事件對(duì)當(dāng)前事件的影響程度,顏色越深表示影響程度越大(見(jiàn)電子版)。

從圖8可以看出,若序列采樣自非齊次泊松過(guò)程,則歷史事件對(duì)序列的影響程度相似且較弱;若序列采樣自霍克斯過(guò)程,則事件受歷史事件影響明顯,并且歷史事件中存在對(duì)未來(lái)事件影響程度很大的特殊事件;若序列采樣于自校正過(guò)程,則歷史事件對(duì)未來(lái)事件的發(fā)生存在影響。就真實(shí)數(shù)據(jù)meme和MIMIC-Ⅱ而言,事件易受相鄰較近的歷史事件影響,但隨著歷史序列長(zhǎng)度的增加,歷史事件的影響程度趨于平均,不存在對(duì)事件影響程度很大的特殊事件。因此,在進(jìn)行精確建模時(shí)可以首先考慮非齊次泊松過(guò)程。

4 結(jié)束語(yǔ)

本文提出了一種基于多頭自注意力機(jī)制和W距離的深度時(shí)序點(diǎn)過(guò)程生成學(xué)習(xí)方法。該方法在強(qiáng)度函數(shù)先驗(yàn)信息未知情況下可以直接探究時(shí)序點(diǎn)過(guò)程的生成過(guò)程,能夠生成與真實(shí)事件序列分布相同的序列數(shù)據(jù),且模型泛化能力較強(qiáng)。與RNN類(lèi)深度時(shí)序點(diǎn)過(guò)程模型相比,SGT中的多頭自注意力機(jī)制可以有效克服遞歸結(jié)構(gòu)所引起的長(zhǎng)程依賴(lài)問(wèn)題,提升模型運(yùn)行效率且更具可解釋性。在仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,SGT比RNN類(lèi)的生成模型和極大似然模型在QQ圖斜率的偏差和經(jīng)驗(yàn)強(qiáng)度偏差這兩個(gè)指標(biāo)總體上分別減少了35.125%和24.200%,證實(shí)了所提模型的有效性,表明SGT比RNN類(lèi)模型在時(shí)序點(diǎn)過(guò)程研究方面具有更優(yōu)的表現(xiàn)。未來(lái)希望將網(wǎng)絡(luò)中的所有參數(shù)進(jìn)行譜歸一化處理,提高SGT在霍克斯過(guò)程上的表現(xiàn)能力,并且不再限制研究模型的時(shí)間窗口,在更長(zhǎng)的真實(shí)事件序列上驗(yàn)證所提SGT的有效性。

參考文獻(xiàn):

[1] "Ding Xiao,Shi Jihao,Duan Junwen, et al .Quantifying the effects of long-term news on stock markets on the basis of the multikernel Hawkes process[J]. Science China Information Sciences ,2021, 64 (9):article No.192102.

[2] Bacry E,Mastromatteo I,Muzy J F.Hawkes processes in finance[J]. Market Microstructure and Liquidity ,2015, 1 (1):1550005.

[3] Wang Yichen,Xie Bo,Du Nan, et al. "Isotonic Hawkes processes[C]//Proc of the 33rd International Conference on Machine Lear-ning.2016:2226-2234.

[4] 江海洋,王莉.一種建模社交化點(diǎn)過(guò)程序列預(yù)測(cè)算法[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2019, 49 (2):149-158. (Jiang Haiyang,Wang Li.A modeling socialization point process sequence prediction algorithm[J]. Journal of University of Science amp; Technology of China ,2019, 49 (2):149-158.)

[5] Daley D J,Vere-Jones D.An introduction to the theory of point processes[M].New York:Springer,2008:76-88.

[6] Aalen O O,Borgan O,Gjessing H K.Survival and event history analysis:a process point of view[J]. International Statistical Review ,2009, 77 (3):463-464.

[7] Xiao Shuai,F(xiàn)arajtabar M,Ye Xiaojing, "et al .Wasserstein learning of deep generative point process models[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:3247-3257.

[8] Du Nan,Dai Hanjun,Trinedi R, et al .Recurrent marked temporal point processes:embedding event history to vector[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:1555-1564.

[9] Xiao Shuai,Yan Junchi,Yang Xiaokang, et al .Modeling the intensity function of point process via recurrent neural networks[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1597-1603.

[10] 劉鑫.基于時(shí)間點(diǎn)過(guò)程對(duì)科技文獻(xiàn)引用行為的建模與預(yù)測(cè)[D].上海:華東師范大學(xué),2018. (Liu Xin.Modeling and predicting scientific literature’s citation via temporal point process[D].Shanghai:East China Normal University,2018.)

[11] Gulrajani I,Ahmed F,Arjovsky M, et al .Improved training of Wasserstein GANs[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5769-5779.

[12] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.

[13] Chung J,Gulcehre C,Cho K, et al .Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].(2014-12-11).https://arxiv.org/pdf/1412.3555.pdf.

[14] 馮永,張春平,強(qiáng)保華,等.GP-WIRGAN:梯度懲罰優(yōu)化的Wasserstein圖像循環(huán)生成對(duì)抗網(wǎng)絡(luò)模型[J].計(jì)算機(jī)學(xué)報(bào),2020, 43 (2):190-205. (Feng Yong,Zhang Chunping,Qiang Baohua, et al .GP-WIRGAN:a novel image recurrent generative adversarial network model based on Wasserstein and gradient penalty[J]. Chinese Journal of Computers ,2020, 43 (2):109-205.)

[15] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5998-6008.

[16] Hu Mingxuan,He Min,Su Wei, et al .A TextCNN and WGAN-GP based deep learning frame for unpaired text style transfer in multimedia services[J]. Multimedia Systems ,2021, 27 (8):723-732.

[17] 段超,張婧,何彬,等.融合注意力機(jī)制的深度混合推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2021, 38 (9):2624-2627,2634. (Duan Chao,Zhang Jing,He Bin, et al .Deep hybrid recommendation algorithm incorporating attention mechanism[J]. Application Research of Computers ,2021, 38 (9):2624-2627,2634.)

[18] "Leng Xueliang,Miao Xiaoai,Liu Tao.Using recurrent neural network structure with enhanced multi-head self-attention for sentiment analysis[J]. Multimedia Tools and Applications ,2021, 80 (3):12581-12600.

[19] Xiao Xi,Xiao Wentao,Zhang Dianyan , et al .Phishing websites detection via CNN and multi-head self-attention on imbalanced datasets[J]. Computers amp; Security ,2021, 108 (9):102372.

[20] Zhang Qiang,Lipani A,Kirnap O, et al .Self-attentive Hawkes process[EB/OL].(2020-02-14).https://export.arxiv.org/pdf/1907.07561.

[21] Kingman J F C.Poisson processes[M].Oxford:Clarendon Press,1993:20-55.

[22] Du Haizhou,Zhou Yan,Ma Yunpu, et al .Astrologer:exploiting graph neural Hawkes process for event propagation prediction with spatio-temporal characteristics[J]. Knowledge-Based Systems ,2021, 228 (9):107247.

[23] Isham V,Westcott M.A self-correcting point process[J]. Stochastic Processes and Their Applications ,1979, 8 (3):335-341.

[24] Arjovsky M,Chintala S,Bottou L.Wasserstein GAN[EB/OL].(2017-03-09).https://arxiv.org/pdf/1701.07875v2.pdf.

[25] 邱錫鵬.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2020:194-200. (Qiu Xipeng.Neural network and deep learning[M].Beijing:China Machine Press,2020:194-200.)

主站蜘蛛池模板: 亚洲中文精品人人永久免费| 又爽又黄又无遮挡网站| 9999在线视频| 国产福利在线观看精品| 中文字幕在线永久在线视频2020| 亚洲中文精品久久久久久不卡| 黄色网址免费在线| 国产精品视频久| 婷婷激情亚洲| 精品久久久无码专区中文字幕| 亚洲欧美在线综合图区| 中文字幕无码av专区久久| 国产理论一区| 国产精欧美一区二区三区| 夜夜爽免费视频| 日韩中文无码av超清 | 欧美精品伊人久久| 日本高清有码人妻| 91国内视频在线观看| 在线看国产精品| 午夜三级在线| 久久亚洲综合伊人| 狠狠色香婷婷久久亚洲精品| 国产尤物视频网址导航| 尤物午夜福利视频| 91日本在线观看亚洲精品| 久久99热66这里只有精品一| 国产亚洲精久久久久久无码AV| 国产色婷婷视频在线观看| 青草91视频免费观看| 免费在线一区| 亚洲一级毛片| 亚洲精品777| 97se亚洲| 精品久久777| 亚洲国产精品无码久久一线| 成年人视频一区二区| 亚洲大尺度在线| 久久亚洲日本不卡一区二区| 国产高清不卡| 国产欧美高清| 亚洲av色吊丝无码| 午夜无码一区二区三区在线app| 国产一区二区三区精品久久呦| 国产AV无码专区亚洲A∨毛片| 最新日本中文字幕| 国产91精品调教在线播放| 国产永久无码观看在线| 国产成人8x视频一区二区| 亚洲综合极品香蕉久久网| 999福利激情视频| 农村乱人伦一区二区| 日韩精品欧美国产在线| 全部免费毛片免费播放| 99国产精品免费观看视频| 中国美女**毛片录像在线| а∨天堂一区中文字幕| 免费看美女毛片| 欧美性色综合网| 国产在线观看99| 精品综合久久久久久97超人| 嫩草在线视频| 亚洲欧美激情另类| 国产丝袜91| 欧美一区二区丝袜高跟鞋| 一本二本三本不卡无码| 波多野结衣无码视频在线观看| 欧美中文字幕一区二区三区| 亚洲天堂精品在线| 看国产一级毛片| 波多野结衣一区二区三区四区视频| 久久国产亚洲偷自| 97se亚洲| 无套av在线| 国产人人乐人人爱| 人与鲁专区| 波多野结衣的av一区二区三区| 亚洲制服丝袜第一页| 亚洲人成网线在线播放va| 99热免费在线| 香蕉国产精品视频| 日韩中文精品亚洲第三区|