999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間誤差的循環神經網絡參數壓縮

2020-02-19 14:08:42王龍鋼劉世杰馮珊珊李宏偉
計算機工程與應用 2020年3期
關鍵詞:懲罰模型

王龍鋼,劉世杰,馮珊珊,李宏偉

中國地質大學(武漢)數學與物理學院,武漢430074

1 引言

序列數據處理是機器學習中一個極具挑戰性的問題,而循環神經網絡(Recurrent Neural Networks,RNN)對序列數據的處理是強有力的,它廣泛應用于機器翻譯[1-2]、語音識別[3]、圖像標注[4]等自然語言處理和計算機視覺領域。

基于循環神經網絡的語言模型通常包含詞嵌入層、循環網絡層和全連接層等。這些網絡層次通常包含大量的參數。例如,在機器翻譯模型中,參數可能會有數百萬乃至上千萬個[1-2]。如此龐大的參數規模將消耗較多的存儲資源。在這種情形下,將這種參數規模龐大的模型應用于移動電話或嵌入式設備是一個比較困難的任務[5-7]。

為了減小模型參數規模與內存成本之間的矛盾,模型的參數通常需要被有效的壓縮。壓縮深度神經網絡參數需要在網絡參數規模和網絡性能之間的保持平衡,即在盡可能保持網絡性能的基礎上壓縮參數規模。

深度神經網絡參數的壓縮目前已有多種思路。文獻[8]用二進制數代替神經網絡參數來減小參數規模。文獻[9]通過訓練軟目標來代替硬目標,實現將較大的參數規模壓縮成較小的參數規模。由于張量分解可以用較少的參數表示張量而只損失較少的信息,不少文獻將張量分解用于壓縮深度神經網絡。文獻[5,10]分別將張量列(Tensor Train,TT)分解用于循環神經網絡和卷積神經網絡(Convolutional Neural Networks,CNN)的壓縮。文獻[11]提出了神經網絡壓縮的新思路。它將卷積神經網絡壓縮分為3個過程,首先對網絡進行裁剪,保留重要的連接,使權矩陣變得稀疏;然后對權矩陣進行聚類,屬于同一類的共用一套權值;最后再用Huffman Coding進行壓縮。該方法可以將網絡壓縮數倍且基本保持網絡的性能。低秩方法也是網絡參數壓縮的方法之一。文獻[6,12]采用低秩的權矩陣代替原始權矩陣,用較少的參數表示網絡且不使網絡性能下降明顯。

與卷積神經網絡相比,循環神經網絡處理的數據通常含有時序特性。因此,壓縮循環神經網絡時考慮數據的時序特性,將有可能提高壓縮效果。受文獻[6-7]的啟發,本文在低秩壓縮方法的基礎上,通過構建基于時間誤差的重構函數來進行壓縮。該誤差重構函數在低秩誤差重構的基礎上,增加了時間誤差重構項,并引入了長短時記憶(Long Short-Term Memory,LSTM)網絡[13]中的門限激活機制。最小化該誤差重構函數,可以提升模型壓縮后的性能。該方法在多個數據集上取得了較好的實驗結果。

2 低秩重構壓縮

設W∈Rm×n,rank(W)=r,則存在一個分解使得:

其中U∈Rm×r、V∈Rn×r是正交矩陣,Σ=diag{σ1,σ2,…,σr}∈Rr×r是對角矩陣,且σ1,σ2,…,σr為矩陣W的奇異值,σ1≥σ2≥…≥σr≥0。

其中P=US∈Rm×r,Q=VS∈Rn×r。

式(2)中,P和Q一共有( )m+n r個參數,W有mn個參數。當r較小時,將有( )m+n r<mn,式(2)說明可用較少參數的矩陣P和Q來表示一個參數較多的矩陣W,從而實現對矩陣W的壓縮。

步驟1對矩陣W進行奇異值分解,得到U,S,V。

步驟2令S~表示矩陣S的前k列(k<r,(m+n)k<mn)

步驟3將和作為式(4)的初值,最小化式(4),保留優化后的P~和Q~。

步驟4,用來近似W,即用來表示W。

3 基于時間誤差的RNN參數壓縮

基于循環神經網絡的語言模型是一個概率模型,它可表示為[14-16]:

對語言模型的壓縮即是對LSTM網絡參數的壓縮。LSTM網絡的定義如下[13]:

其中,xt和ht表示時刻t網絡的輸入和狀態。it、ft、ot分別表示時刻t網絡的三個門限:輸入門、遺忘門、輸出門。jt表示時刻t網絡的輸入信息。ct表示時刻t網絡的內部狀態。W和b分別表示權重矩陣和偏置向量。σ為sigmoid激活函數,tanh表示雙曲正切激活函數, 表示矩陣或向量按元素相乘。輸入門it決定網絡可以輸入的信息,遺忘門ft決定網絡可以保留的信息,內部狀態jt表示網絡內部存儲的信息,輸出門ot決定網絡可以輸出的信息,ht表示網絡的最終輸出(網絡的狀態)。

LSTM模型的參數包含輸入門、輸入信息、遺忘門、輸出門對應的權重矩陣W1、W2、W3、W4,且Wi∈R(embed_size+hidden_size)×hidden_size,i=1,2,3,4

其中embed_size(用es表示)為詞向量的維度,hidden_size(用hs表示)為隱層節點個數。

這四個矩陣低秩重構函數如下:

選取滿足條件的k,將式(12)按照式(4)的形式表示為:

循環神經網絡通常和數據時序性有關,隨著網絡在時間軸上的不斷循環傳遞,長序列信息會隨權重的擾動而被破壞[6]。而LSTM的權矩陣通常是滿秩的,因此k的選取會小于矩陣Wi的秩,這也會使得Wi和W~i有一定的誤差。并且,誤差會在時間軸上不斷的累計,從而使得模型壓縮的性能大幅下降。在對循環神經網絡使用低秩重構壓縮壓縮時,若能考慮時間軸上的誤差,則可能會提升壓縮后模型的性能。因此,本文提出新的誤差重構函數,即在低秩誤差重構函數的基礎上增加時間項,考慮時間誤差來解決這一問題。

誤差重構函數為:

其中,‖‖·2表示向量的2-范數,λ為一個懲罰參數;f是一個非線性函數:i=1,3,4時,f為sigmoid函數;i=2時,f為tanh函數。T為序列數據的長度。xt,ht-1分別表示LSTM網絡在時刻t的輸入和狀態。

式(14)的誤差重構函數分為兩部分。第一部分與LRRC一樣,使矩陣Wi和它的低秩近似W~i之間盡可能接近。第二部分則減小時間軸上的誤差。它采用LSTM中的輸入激活機制,模擬LSTM網絡中的激活功能,使得壓縮后的權矩陣盡可能接近。

與低秩重構壓縮相比,該誤差重構函數以添加時間誤差項的形式來減少時間誤差,從而提升模型壓縮后的性能。

用P~和Q~來表示矩陣W,式(14)又可表示為:

對于滿足條件的k,當k越小時,模型壓縮的程度越深,模型所需的參數越少。

基于時間誤差的低秩重構壓縮(Low Rank Reconstruction Compression based on Time-Error,LRRC-TE)算法如下:

輸入:訓練數據X,整數k,迭代次數N,學習率η;

初始化:n=0;使用X訓練好LSTM網絡,保留訓練好的參數W1、W2、W3、W4和

1.對Wi進行奇異值分解,取Si的前k列得到初始值,i=1,2,3,4;

3.n=n+1;

4.當n>N時迭代中止。

4 數值實驗

為了驗證LRRC-TE算法的壓縮性能,在IMDB情感分析數據集和Penn Treebank(PTB)數據集進行了對比實驗,并探究了懲罰參數對壓縮效果的影響。

首先介紹數值實驗中用到的相關指標。壓縮比(Compression Ratio,CR)的定義如下:

其中,N表示需壓縮部分在壓縮前的參數個數,N0表示需壓縮部分在壓縮后的參數個數。壓縮比大于1為有效壓縮,壓縮比越大表示模型待壓縮部分的壓縮程度越大。

分類模型中準確率(Accuracy)的定義為:

其中,right_num表示分類準確的樣本個數,all_num表示所有的樣本個數。在同一壓縮比下,準確率越高,實驗效果越好。

復雜度(Perplexity,PPL)是用來衡量一個語言模型性能高低的一個標準。復雜度越低,代表模型的預測性能越好。它的定義如下:

其中X表示文本序列{ }x1,x2,…,xN。實際計算時,采用的公式如下:

4.1 IMDB數據集文本分類的壓縮效果

IMDB情感分析數據集是一個包含5萬條電影評論的二分類數據集,正負影評各占一半。本文選取3萬條影評(正負影評各占一半)作為訓練集,其余作為測試集,在單詞級水平上訓練LSTM語言模型進行分類。LSTM語言模型的隱層節點設置為128,學習率0.001,詞嵌入的維數設置為300,進行多輪訓練,選取測試集精度最高的一組實驗結果進行模型壓縮。測試集分類準確率達0.861。

在使用LSTM對IMDB數據集進行分類時,LSTM網絡中的權重矩陣W1、W2、W3、W4,Wi∈R428×128i=1,2,3,4。在對其進行LRRC-TE時,采用Adam算法進行優化,懲罰參數λ=0.5。本實驗中壓縮比為:

CR=428×128 k(428+128 )

取有效壓縮比k≤98,從98逐步遞減,比較LRRC-TE和LRRC在不同壓縮比下的分類準確率。

實驗結果如圖1所示。圖1中橫軸表示壓縮比,縱軸表示分類準確率。圖中實線和虛線分別表示LRRC和LRRC-TE(懲罰參數λ=0.5)分類準確率隨壓縮比的變化情況。LRRC-TE分類準確率在不同壓縮比下均高于LRRC,特別是在高壓縮比的情形下分類準確率遠遠高于LRRC的結果。當壓縮比為50時,LRRC分類的準確率為0.736,而LRRC-TE分類的準確率有0.846,遠遠高于LRRC,也很接近未壓縮時的準確率0.861。從實驗結果可得,在IMDB數據集中,即使在高壓縮比的情形下,有時間誤差的LRRC-TE,保持模型性能的能力優于LRRC。

圖1 LRRC-TE和LRRC在IMDB數據集上的壓縮效果

4.2 PTB數據集文本生成的壓縮效果

PTB是一個常用于語言模型的數據集。整個數據集由10 000個不同的單詞組成,數據集約包含百萬個單詞,包含訓練集、驗證集、測試集。本文建立基于PTB數據集的LSTM單詞級語言生成模型。LSTM語言模型的隱層節點設置為128,詞嵌入的維數設置為160,進行多輪訓練,選取測試集復雜度最低的一組實驗結果進行模型壓縮,測試集的復雜度為110.263。

對訓練好的LSTM語言模型分別進行LRRC和LRRC-TE。在對其進行LRRC-TE時,采用Adam算法進行優化,懲罰參數λ=0.7。本實驗中壓縮比為:CR=288×128 k(288+128)

其中k的有效范圍為k≤88。

實驗結果如圖2所示。圖2中橫軸表示壓縮比,縱軸表示復雜度。圖中實線和虛線分別表示LRRC和LRRC-TE(懲罰參數λ=0.7)復雜度隨壓縮比的變化情況。從圖2可以看到,在同一壓縮比下,LRRC-TE的復雜度要低于LRRC,并且隨著壓縮比的增大,LRRC-TE與LRRC之間復雜度的差距逐漸增大。在PTB數據集上,添加了時間誤差的LRRC-TE的壓縮效果優于未添加時間誤差的LRRC。

圖2 LRRC-TE和LRRC模型在PTB數據集上的壓縮效果

4.3 懲罰參數對壓縮效果的影響

為了研究懲罰參數對壓縮效果的影響,在實驗2基礎上,對LRRC-TE選取多種懲罰參數進行對比實驗。懲罰參數分別選取{0,0.7,1,5},比較在不同壓縮比下的壓縮效果。實驗結果如圖3所示。

圖3 不同懲罰參數在PTB數據集上的壓縮效果

圖3橫軸表示壓縮比,縱軸表示復雜度。實線表示LRRC在壓縮比逐步增大時的復雜度。虛線表示LRRCTE選取不同懲罰參數,復雜度隨壓縮比的變化情況。

從圖3中可得,當λ=0時,即忽略式(15)中的第一項,只保留時間誤差重構項。隨著壓縮比的增大,它的復雜度逐漸地大于其他懲罰參數的情形,甚至大于LRRC。即λ=0時的壓縮效果是比較差的。這說明了LRRC-TE中保留第一項(LRRC)的必要性。

此外,從圖3中可以看到,隨著壓縮比的逐步增大,取值較大懲罰參數的壓縮效果差于取值較小的懲罰參數。即實際壓縮時懲罰參數不宜取值較大。

5 結束語

本文提出了一種新的應用于LSTM的低秩壓縮算法,LRRC-TE。LRRC-TE在LRRC的基礎上增加時間誤差來進行誤差重構,減小壓縮LSTM引起的在時間軸上的誤差。與LRRC相比,在添加了時間誤差項后,該壓縮算法在IMDB數據集和PTB數據集上表現出更好的壓縮性能。下一步考慮將LRRC-TE用于深層LSTM和其他循環神經網絡的壓縮。

猜你喜歡
懲罰模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
懲罰
趣味(語文)(2018年1期)2018-05-25 03:09:58
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
真正的懲罰等
如此懲罰
英語學習(2007年8期)2007-12-31 00:00:00
懲罰
時文博覽(2007年9期)2007-12-31 00:00:00
主站蜘蛛池模板: 强奷白丝美女在线观看| 国产69精品久久久久孕妇大杂乱| 超碰aⅴ人人做人人爽欧美| 国产99精品久久| 亚洲国产日韩视频观看| 任我操在线视频| 福利视频一区| 国产99视频精品免费视频7| 午夜高清国产拍精品| 日本精品影院| 制服丝袜亚洲| 婷婷激情五月网| 午夜啪啪网| 国产午夜一级毛片| av午夜福利一片免费看| 欧美三級片黃色三級片黃色1| 欧美不卡二区| 成人午夜在线播放| 三上悠亚精品二区在线观看| 99精品这里只有精品高清视频| 国产素人在线| 波多野结衣久久精品| 国产成人区在线观看视频| 婷婷综合亚洲| 最新国产午夜精品视频成人| 国产精品亚洲欧美日韩久久| 国产午夜在线观看视频| 国产精品无码制服丝袜| 国产精品v欧美| 美女视频黄又黄又免费高清| 亚洲精品国产成人7777| 久草国产在线观看| 四虎影视库国产精品一区| 精品久久高清| 久久国产精品夜色| 伊人蕉久影院| 国产成人AV综合久久| 中文字幕久久波多野结衣| 国产无套粉嫩白浆| 国产在线无码av完整版在线观看| 中文字幕 日韩 欧美| 亚洲天堂网站在线| 免费a级毛片视频| 国产精品.com| 亚洲精品中文字幕午夜| 亚洲欧美精品日韩欧美| 成人福利在线看| 偷拍久久网| 亚洲第一页在线观看| 成人免费黄色小视频| 亚洲青涩在线| 中文字幕亚洲综久久2021| 秋霞午夜国产精品成人片| 亚洲av成人无码网站在线观看| 国产精品hd在线播放| 凹凸国产熟女精品视频| 日韩欧美成人高清在线观看| 亚洲91在线精品| 亚洲人成网站色7777| a毛片免费在线观看| 日本三区视频| 老色鬼欧美精品| 欧美三级视频在线播放| 久久人搡人人玩人妻精品| 亚洲精品va| 亚洲天堂视频在线观看| 麻豆精品久久久久久久99蜜桃| 91精品免费高清在线| 亚洲三级影院| 欧美天堂在线| 亚洲成a∧人片在线观看无码| 狠狠色香婷婷久久亚洲精品| 国产成人欧美| 久久一级电影| 99性视频| 亚洲无码四虎黄色网站| 国产福利2021最新在线观看| 国产成人福利在线| 成年片色大黄全免费网站久久| 免费人欧美成又黄又爽的视频| 国产成人福利在线| 丝袜无码一区二区三区|