999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

最小窺視孔長短時(shí)記憶模型

2020-02-08 06:55:54包志強(qiáng)胡嘯天趙媛媛黃瓊丹
關(guān)鍵詞:數(shù)據(jù)庫模型

包志強(qiáng),趙 研,胡嘯天,趙媛媛,黃瓊丹

(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)

0 引 言

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行反向傳播時(shí),鏈?zhǔn)角髮?dǎo)會(huì)導(dǎo)致梯度消失或者梯度爆炸問題,對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層進(jìn)行變形的長短時(shí)記憶(long short-term memory,LSTM)模型利用細(xì)胞單元狀態(tài)避免了梯度問題,因此得到了廣泛應(yīng)用[1-6]。

自從LSTM模型提出后,很多學(xué)者對(duì)LSTM模型進(jìn)行了簡單的變形,文獻(xiàn)[7]提出了一種增加了遺忘門門控單元的LSTM模型,可以對(duì)細(xì)胞單元狀態(tài)進(jìn)行控制,避免出現(xiàn)狀態(tài)值一直增大的狀況,文獻(xiàn)[8]提出一種添加“窺視孔”(peephole)的LSTM模型,使得當(dāng)前細(xì)胞單元狀態(tài)能夠影響遺忘門以及輸入門的輸出。

針對(duì)上述具有高度復(fù)雜的結(jié)構(gòu)和相對(duì)較多的參數(shù)的LSTM模型,本文提出了一種最小窺視孔長短時(shí)記憶模型(minimal peephole long short-term memory,MP-LSTM)。該模型既保留著LSTM模型避免梯度消失以及梯度爆炸的優(yōu)點(diǎn),具有魯棒性,又擁有最少的門控單元,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),減少了參數(shù)數(shù)目,并且在不同領(lǐng)域具有廣泛的適用性。最后,分別在The Adding Problem序列回歸問題、MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫、IMDB電影評(píng)論數(shù)據(jù)庫上展開實(shí)驗(yàn)[9],并與經(jīng)典LSTM模型、文獻(xiàn)[10]提出的門循環(huán)單元模型(gated recurrent unit,GRU)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果顯示本文所提出的MP-LSTM模型相比于LSTM模型以及GRU模型具有更好的模型性能以及較少的參數(shù)。

1 LSTM模型結(jié)構(gòu)

RNN神經(jīng)網(wǎng)絡(luò)模型由于其隱藏層之間的特殊設(shè)計(jì),使得每一時(shí)刻不僅會(huì)接收當(dāng)前時(shí)刻的輸入,還會(huì)接收前一時(shí)刻隱藏層的輸出,因此可有效解決時(shí)間序列數(shù)據(jù)問題。

對(duì)于給定的一個(gè)序列,使用索引t表示不同時(shí)間位置,隱藏層ht表示t時(shí)刻的隱藏狀態(tài)。當(dāng)RNN模型接收來自t時(shí)刻的輸入xt時(shí),在輸入xt以及前一時(shí)刻的隱藏層ht-1的共同作用下,通過一個(gè)非線性映射f更新當(dāng)前t時(shí)刻的隱藏層狀態(tài),整個(gè)過程可用公式表示為

ht=f(ht-1,xt)

(1)

通常非線性映射f是由線性變換以及非線性激活函數(shù)組成,標(biāo)準(zhǔn)RNN模型中,從輸入層到隱藏層的公式為

ht=tanh(W[ht-1,xt]+b)

(2)

其中,tanh是常見的雙曲正切激活函數(shù),表達(dá)式為

(3)

權(quán)值矩陣W用來連接前一時(shí)刻的隱藏層ht-1以及當(dāng)前時(shí)刻的xt和當(dāng)前時(shí)刻的隱藏層ht,[ht-1,xt] 表示將向量連接成一個(gè)更大維度的向量,b是偏移系數(shù)。實(shí)際上,RNN模型的訓(xùn)練就是不斷地學(xué)習(xí)得到權(quán)值矩陣W以及偏移系數(shù)b。

由于梯度消失以及梯度爆炸而無法解決長時(shí)依賴問題,RNN模型在實(shí)際中無法做到出色的應(yīng)用。因此,LSTM模型應(yīng)運(yùn)而生。LSTM模型通過獨(dú)特的門控單元學(xué)習(xí)到對(duì)于信息流的保存或者丟棄處理,從而避免RNN模型中無法解決的梯度問題。LSTM模型可以看作是標(biāo)準(zhǔn)RNN模型的一種改良。

最初提出的LSTM模型只有兩個(gè)門控單元,但這樣的模型有一個(gè)明顯的缺陷,其細(xì)胞單元狀態(tài)值可能會(huì)一直增大至飽和,因此有學(xué)者提出了增加了遺忘門門控單元的LSTM模型,通過實(shí)驗(yàn)驗(yàn)證,遺忘門在LSTM模型中有必不可少的作用[11]。這就是經(jīng)典的LSTM模型,其前向計(jì)算公式表示為

ft=σ(Wf[ht-1,xt]+bf)

(4)

it=σ(Wi[ht-1,xt]+bi)

(5)

ot=σ(Wo[ht-1,xt]+bo)

(6)

(7)

(8)

ht=ot⊙tanh(ct)

(9)

(10)

經(jīng)典的LSTM模型的結(jié)構(gòu)如圖1所示。

圖1 經(jīng)典LSTM模型

Gers和Schmidhube等提出一種添加“窺視孔”(Peephole)的LSTM模型,模型實(shí)際上是在門控單元的輸入中加入細(xì)胞單元狀態(tài),如在遺忘門ft和輸入門it的輸入添加上一時(shí)刻的細(xì)胞單元狀態(tài)ct-1,在輸出門ot的輸入添加t時(shí)刻的細(xì)胞單元狀態(tài)ct。 并且可以選擇性的添加Peephole。用公式表示為

ft=σ(Wf[ht-1,xt,ct-1]+bf)

(11)

it=σ(Wi[ht-1,xt,ct-1]+bi)

(12)

ot=σ(Wo[ht-1,xt,ct]+bo)

(13)

(14)

(15)

ht=ot⊙tanh(ct)

(16)

在經(jīng)典LSTM模型中,細(xì)胞單元狀態(tài)不能對(duì)門控單元起任何作用,為了更好控制信息,Peephole-LSTM模型在門控單元的輸入中加入細(xì)胞單元狀態(tài),相對(duì)于經(jīng)典LSTM模型,該模型增強(qiáng)了神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)序信息的學(xué)習(xí)。

2 最小窺視孔長短時(shí)記憶模型

本文提出了一種最小窺視孔長短時(shí)記憶模型(MP-LSTM),該模型只有兩個(gè)神經(jīng)網(wǎng)絡(luò)層,分別是一個(gè)sigmoid層以及一個(gè)tanh層,以及一個(gè)門控單元,稱為唯一門。

MP-LSTM模型在門控單元的輸入中加入細(xì)胞單元狀態(tài),同時(shí),耦合LSTM模型中的遺忘門控和輸入門控單元[12],將原來分開決定的對(duì)哪些信息進(jìn)行保存和丟棄的操作同時(shí)決定,即僅僅在那些有新信息添加進(jìn)入的信息中進(jìn)行遺忘選擇。并且運(yùn)用遺忘門在LSTM模型中必不可少的作用,只保留遺忘門,在此模型中稱為唯一門,也就是說,該模型利用唯一門巧妙代替經(jīng)典LSTM模型中的輸入門以及輸出門,用公式表示為

it=1-ft,?t.

(17)

ot=ft,?t.

(18)

此外,MP-LSTM模型的前向計(jì)算公式為

ut=σ(Wu[ht-1,xt,ct-1]+bu)

(19)

(20)

(21)

ht=ut⊙tanh(ct)

(22)

MP-LSTM模型的結(jié)構(gòu)如圖2所示,該模型既保留著LSTM模型避免梯度消失以及梯度爆炸的優(yōu)點(diǎn),具有魯棒性,又擁有最少的門控單元以及強(qiáng)學(xué)習(xí)能力。

圖2 MP-LSTM模型

3 實(shí)驗(yàn)結(jié)果與分析

3.1 The Adding Problem

The Adding Problem序列回歸問題是為了驗(yàn)證LSTM模型、GRU模型以及本文提出的MP-LSTM模型能夠解決長時(shí)依賴問題,The Adding Problem序列回歸問題有兩個(gè)輸入,一個(gè)來自[0,1]的隨機(jī)分布,另一個(gè)是在 {0,1} 中任意取值,且在一個(gè)完整的序列中,只有兩個(gè)數(shù)字取值為1,剩余數(shù)字均取值為0。最終的輸出就是這兩個(gè)取值為1的數(shù)字對(duì)應(yīng)的來自[0,1]的隨機(jī)分布的值之和。

本文隨機(jī)生成10 000個(gè)訓(xùn)練數(shù)據(jù)以及1000個(gè)測(cè)試數(shù)據(jù)。時(shí)間步設(shè)為50,隱藏層每層設(shè)為100個(gè)全連接神經(jīng)元,批大小設(shè)為100,學(xué)習(xí)率設(shè)為0.001,損失函數(shù)設(shè)為均方誤差損失函數(shù)(mean squared error,MSE),均方誤差損失函數(shù)的公式如下

(23)

LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回歸問題測(cè)試集上MSE值對(duì)比見表1。

表1 LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回歸問題測(cè)試集上各類指標(biāo)對(duì)比

實(shí)驗(yàn)結(jié)果表明,隨著迭代的增加,所有的模型的MSE值逐漸減少,并且經(jīng)過200次迭代后,MP-LSTM模型的MSE值最低,運(yùn)行時(shí)間最短,參數(shù)個(gè)數(shù)最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在The Adding Problem序列回歸問題實(shí)驗(yàn)上,MP-LSTM模型的模型性能較好一些。

3.2 MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫

MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫來自250個(gè)不同人手寫的數(shù)字構(gòu)成,擁有70 000張手寫數(shù)字圖片,其中,訓(xùn)練數(shù)據(jù)有 60 000 張,測(cè)試數(shù)據(jù)有10 000張,并且每張圖片的像素都為28×28,數(shù)據(jù)集標(biāo)簽是介于0到9的數(shù)字,用來描述給定圖片里表示的數(shù)字,是目前最流行的深度學(xué)習(xí)分類數(shù)據(jù)庫之一。

本文將MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫通過每行28個(gè)像素點(diǎn)作為輸入,因此,在這種方式下,相應(yīng)地,時(shí)間步設(shè)為28,代表每列28個(gè)像素點(diǎn),隱藏層每層設(shè)為128個(gè)全連接神經(jīng)元,批大小設(shè)為128,學(xué)習(xí)率設(shè)為0.001,損失函數(shù)設(shè)為交叉熵代價(jià)函數(shù),交叉熵代價(jià)函數(shù)的公式如下

(24)

其中,p表示數(shù)據(jù)真實(shí)分布,q表示數(shù)據(jù)預(yù)測(cè)分布。

LSTM模型、GRU模型以及MP-LSTM模型在MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫測(cè)試集上分類準(zhǔn)確率對(duì)比見表2。

表2 LSTM模型、GRU模型以及MP-LSTM模型在MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫測(cè)試集上各類指標(biāo)對(duì)比

實(shí)驗(yàn)結(jié)果表明,在最開始的迭代中,LSTM模型的準(zhǔn)確率較高,但隨著迭代的增加,所有的模型的準(zhǔn)確度逐漸提高,經(jīng)過200次迭代后,MP-LSTM模型的準(zhǔn)確率最高,運(yùn)行時(shí)間最短,參數(shù)個(gè)數(shù)最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫實(shí)驗(yàn)上,MP-LSTM模型的模型性能較好一些。

3.3 IMDB電影評(píng)論數(shù)據(jù)庫

IMDB電影評(píng)論數(shù)據(jù)庫是最常用于情感分類的數(shù)據(jù)庫之一,它擁有50 000個(gè)標(biāo)注數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)有25 000個(gè),測(cè)試數(shù)據(jù)有25 000個(gè),并且已經(jīng)完成預(yù)處理的過程,每個(gè)數(shù)據(jù)都有一個(gè)評(píng)分,范圍是1到10的整數(shù),IMDB電影評(píng)論數(shù)據(jù)庫只有兩類評(píng)論,一類為正面評(píng)論,即評(píng)分為6到10的整數(shù);一類為負(fù)面評(píng)論,即評(píng)分為1到5的整數(shù)。

本文在IMDB電影評(píng)論數(shù)據(jù)庫上使用雙向神經(jīng)網(wǎng)絡(luò)去進(jìn)行情感分類,序列長度設(shè)為250,隱藏層每層設(shè)為150個(gè)全連接神經(jīng)元,批大小設(shè)為256,學(xué)習(xí)率設(shè)為0.001,損失函數(shù)設(shè)為交叉熵代價(jià)函數(shù)。

LSTM模型、GRU模型以及MP-LSTM模型在IMDB電影評(píng)論數(shù)據(jù)庫中的各類指標(biāo)對(duì)比見表3。

表3 LSTM模型、GRU模型以及MP-LSTM模型在IMDB電影評(píng)論數(shù)據(jù)庫測(cè)試集上各類指標(biāo)對(duì)比

實(shí)驗(yàn)結(jié)果表明,在最開始的迭代中,MP-LSTM模型的準(zhǔn)確率較高,隨著迭代的增加,所有的模型的準(zhǔn)確度逐漸提高,經(jīng)過200次迭代后,可以看到MP-LSTM模型的準(zhǔn)確率最高,運(yùn)行時(shí)間最短,參數(shù)個(gè)數(shù)最少。因此,LSTM模型、GRU模型以及MP-LSTM模型在IMDB電影評(píng)論數(shù)據(jù)庫測(cè)試集上,MP-LSTM模型的模型性能較好一些。

4 結(jié)束語

本文提出了一種最小窺視孔長短時(shí)記憶模型(MP-LSTM),該模型在經(jīng)典LSTM模型的基礎(chǔ)上,引入獨(dú)特的最小門控和窺視孔,既保留著LSTM模型避免梯度消失以及梯度爆炸的優(yōu)點(diǎn),具有魯棒性,又擁有最少的門控單元,減少了參數(shù)數(shù)目,并且通過在The Adding Problem序列回歸問題、MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫、IMDB電影評(píng)論數(shù)據(jù)庫分別進(jìn)行實(shí)驗(yàn)的結(jié)果也表明該模型參數(shù)少,運(yùn)行時(shí)間短,模型性能在一定程度上相比于LSTM模型、GRU模型,有小幅度的提升,同時(shí),不管在回歸問題還是預(yù)測(cè)問題上,都有著廣泛的適用性。

猜你喜歡
數(shù)據(jù)庫模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
數(shù)據(jù)庫
數(shù)據(jù)庫
3D打印中的模型分割與打包
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 四虎永久在线精品国产免费| 精品成人一区二区三区电影| 欧美成人看片一区二区三区| 天堂av高清一区二区三区| 国产成人欧美| 免费国产福利| 欧美色视频网站| 国产精品性| 欧美第二区| 国产91丝袜| 国产精品亚欧美一区二区| 欧美日韩国产一级| 久久精品一卡日本电影| 国产特级毛片aaaaaa| 欧类av怡春院| 91免费观看视频| 欧美日韩免费在线视频| 日本91在线| 97精品伊人久久大香线蕉| 国产嫖妓91东北老熟女久久一| 亚洲国产欧美国产综合久久 | 欧美在线黄| 天天色综网| 亚洲国产日韩在线成人蜜芽| 456亚洲人成高清在线| 一本大道香蕉久中文在线播放| 国产一级毛片高清完整视频版| 亚洲动漫h| 日韩av无码精品专区| 奇米精品一区二区三区在线观看| 曰AV在线无码| 91丨九色丨首页在线播放| 日本精品视频| 国产理论精品| 亚洲美女操| 欧美一区日韩一区中文字幕页| 亚洲成a∧人片在线观看无码| 亚洲国产欧美中日韩成人综合视频| 欧美精品亚洲精品日韩专| 色偷偷综合网| 亚洲视频影院| 在线免费亚洲无码视频| 伊人成人在线视频| 日本欧美视频在线观看| 国产精品成人久久| 亚洲一区国色天香| 毛片网站免费在线观看| 四虎永久在线| 久久99热66这里只有精品一| 国产黑人在线| 日韩美毛片| 秋霞午夜国产精品成人片| 欧美日韩国产综合视频在线观看| 99久久精品久久久久久婷婷| 国产成人综合亚洲网址| 成人中文字幕在线| 久久免费成人| 欧美激情第一欧美在线| 亚洲国产成人在线| 十八禁美女裸体网站| 久久国产精品无码hdav| 国产亚洲高清视频| 99re在线视频观看| 国产特级毛片| 国产精品无码久久久久AV| 国产精品网曝门免费视频| 国产成人精品亚洲日本对白优播| AV网站中文| 国产毛片不卡| 国产女人爽到高潮的免费视频| 97av视频在线观看| 色婷婷电影网| 亚洲福利一区二区三区| 亚洲精品无码抽插日韩| 久久精品这里只有国产中文精品| 久青草网站| 久久综合婷婷| 精品国产成人国产在线| 国产精品3p视频| 久久综合婷婷| 精品国产成人a在线观看| 国产乱码精品一区二区三区中文|