999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于憶阻循環神經網絡的層次化狀態正則變分自編碼器

2023-03-01 08:19:38胡小方
電子與信息學報 2023年2期
關鍵詞:模型

胡小方 楊 濤

(西南大學人工智能學院 重慶 400715)

(類腦計算與智能控制重慶市重點實驗室 重慶 400715)

1 引言

變分自編碼器(Variational AutoEncoder,VAE[1])和其他深度生成模型,如生成對抗網絡[2]和自回歸模型[3]等,都可以從復雜且高維的未標記數據中學習到相應的信息。其中VAE廣泛應用于圖像處理[4,5]和自然語言處理任務[6–9]。

然而,VAE在優化過程中常常會出現后驗崩潰,又稱為KL散度(Kullback–Leibler Divergence,KLD)消失[10],即在生成過程中,模型忽略變分自編碼器的潛在變量信息,退化為一個自編碼模型。由于循環神經網絡(Recurrent Neural Network,RNN)自身的強自回歸性,使得基于循環神經網絡的變分自編碼器更容易出現這種現象。針對這一問題,研究人員陸續提出多種解決方案[10–12]。在最近的研究中,Shen等人[13]利用多層卷積神經網絡替代編碼器并用循環網絡作為解碼器;Hao等人[14]使用循環模擬退火方法來緩解KL散度消失;He等人[15]提出一個滯后推理網絡,在解碼器更新之前多次更新編碼器,從動力學的角度避免該問題;Zhu等人[16]將批量歸一化(Batch Normalization, BN)正則應用于VAE的近似后驗概率的參數中,確保KL值為正值;Li等人[17]對編碼器中的隱變量施加KL正則,緩解后驗崩潰的問題;Pang等人[18]提出一種新的推理方法,在VAE模型的后驗分布的指導下運行一定次數的朗之萬動力學(Langevin dynamics)算法,從而有效避免模型崩潰的問題。然而,這些模型大多集中于緩解VAE后驗崩潰的問題,而忽略了模型預測性能。

RNN是一種廣泛研究的具有信息反饋的神經網絡模型,與前饋神經網絡相比,RNN融合了時間序列的概念,保持了對時間序列的長期依賴性,并且對時間序列場景具有良好的建模能力,然而,在文本生成過程中,當文本序列過長時,RNN模型會發生梯度消失的現象。為解決這個問題,提出長短期記憶神經網絡(Long Short-Term Memory,LSTM),LSTM通過控制模型內部的遺忘門在一定程度上抑制RNN模型的梯度消失的問題,并在較長時間內保持了信息依賴性。隨著LSTM模型的發展,其顯著增加的復雜度和不斷增長的參數量,使得基于互補金屬氧化物半導體(Complementary Metal Oxide Semiconductor, CMOS)器件實現的LSTM網絡,在計算方面表現出一些不足之處。

憶阻器是一種二端口“記憶電阻”,能夠在存儲信息的地方進行計算,這種存算一體化的特點減少了存儲和計算之間傳輸數據的需求。與傳統的基于CMOS器件的實現方案相比,基于憶阻器的人工神經網絡具有體積小、功耗低、集成度高等特點。憶阻器已經被應用于許多人工神經網絡硬件部署,包括單層或多層神經網絡[19]、卷積神經網絡(Convolutional Neural Networks, CNN)[20]和LSTM[21]等。其中,Adam等人[22]提出了一種用于時間序列預測的憶阻LSTM;Gokmen等人[23]將LSTM功能模塊映射到憶阻交叉陣列中,并探索了器件缺陷對模型性能的影響;Li等人[24]展示了LSTM網絡核心模塊的憶阻器硬件實現,并采用兩個1T1M的方式來表示正負權值;Liu等人[25]在LSTM的硬件實現上提出一種新的權值更新方案,實現在線訓練,并對憶阻器的電導值實現并行更新。

本文針對VAE后驗崩潰的問題,提出一種新的變分自編碼器模型,稱為層次化狀態正則變分自編碼器(Hierarchical Status Regularisation Variational AutoEncoder, HSR-VAE)。HSR-VAE不但可以有效緩解后驗崩潰的問題,且較于基線模型,擁有更好的文本生成質量。與現有的變分自編碼器僅在最后的時間步狀態下施加KL正則[17],或者僅僅是通過分層的思想對隱藏狀態矩陣進行細化處理[26]不同,HSR-VAE在層次化狀態方法的基礎上引入時間步狀態正則的方法,通過層次化方法對隱藏狀態矩陣進行細化處理,并且對各個時間步的隱藏細化狀態值施加KL正則,兩種方法的結合可以有效緩解VAE的后驗崩潰問題,明顯提升模型預測能力。同時,為提高HSR-VAE模型的計算效率,本文在憶阻循環網絡的基礎上,將HSR-VAE部署在憶阻交叉陣列中,提出HSR-VAE的硬件加速方案,即層次化變分自編碼憶阻神經網絡(Hierarchical Variational AutoEncoder Memristor Neural Networks, HVAE-MNN)。通過憶阻器存算一體的特性,明顯提升HSR-VAE模型的計算效率。

為了證明本文方法的有效性,本文加入一些強基線模型進行對比,并基于4個公共數據集,分別在語言模型和對話響應生成任務上進行實驗對比。語言模型任務中, HSR-VAE可有效緩解后驗崩潰,且在定量分析負對數似然(Negative Log Likelihood, NLL)和困惑度(PerPlexity Loss, PPL)的平均實驗結果表明,較于基線模型,NLL值降低6,PPL值降低5.9,KL值提高5.6;對話響應生成任務中,多樣性評估指標Intra-dist1和Inter-dist1分別提升5.6%和20.4%。

綜上所述,本文貢獻如下:

(1) 提出一種新的變分自編碼器模型HSR-VAE,有效緩解變分自編碼器后驗崩潰的問題。

(2) 提出一種層次化狀態正則的方法。在層次化狀態的基礎之上引入時間步狀態正則的方法,明顯提升模型預測性能。

(3) 設計一種基于憶阻循環神經網絡的變分自編碼器硬件實現方案HVAE-MNN,為變分自編碼器的硬件加速提供一種新的思考。

2 層次化狀態正則變分自編碼器

2.1 變分自編碼器

2.2 結合層次化和時間步正則的變分自編碼器

針對VAE后驗崩潰, 時間步正則變分自編碼器(Time step-Wise Regularisation Variational AutoEncoder, TWR-VAE)[17]對編碼器的所有時間步的隱藏狀態值施加標準正態分布K L 正則。TWR-VAE雖然有效緩解后驗崩潰,但與批量歸一化變分自編碼器(Batch Normalization Variational AutoEncoder, BN-VAE)[16]相比,KL值相對較低,針對這一問題,本文提出層次化狀態正則變分自編碼器HSR-VAE。HSR-VAE通過層次化方法編碼隱藏狀態矩陣,并且對編碼后的隱藏狀態矩陣各個時間步的狀態值施加KL正則。

圖1 HSR-VAE模型結構圖

3 基于憶阻神經網絡的層次化變分自編碼器

3.1 憶阻器

1971年,文獻[27]在研究電荷、電流、電壓和磁通量之間的關系時,定義了磁通量和電荷之間的關系,提出憶阻器的概念。憶阻器是一種有記憶功能的非線性電阻,通電時可以通過改變流過它的電荷數量或磁通量來改變阻值,斷電時保持當前阻值不變。2008年,惠普實驗室設計出一個能工作的憶阻器物理模型,一個典型的惠普Pt/TiO2/Pt憶阻器數學模型[28]如式(8)所示

其中,R(t)表 示憶阻器的阻值,Ron和Roff分別表示憶阻器的最小和最大的阻值。w(t)表示摻雜層厚度,x(t)表 示內部狀態變量,D表示為憶阻器的厚度。

本文采用Ag/AgInSbTe/Ta(AIST)憶阻器模型,其內部狀態變量描述為

3.2 HSR-VAE硬件部署設計

本文模型HSR-VAE的硬件部署設計方案HVAEM N N 通過憶阻交叉陣列實現。本模型由3 層LSTM網絡組成,所以重點介紹基于憶阻LSTM的HSR-VAE硬件實現方案。

LSTM網絡的關鍵組成為3個門控單元,即輸入門、輸出門和遺忘門。LSTM利用獨特的門控單元對序列數據進行學習和選擇性記憶,保持長距離的時間序列信息相關性,實現高精度預測。其中,輸入門主要處理輸入數據,遺忘門決定當前神經元對歷史信息的記憶程度,輸出門代表神經元的輸出結果。輸入文本序列(x1,x2,...,xT), 則t時刻,LSTM網絡迭代公式為

其中,it,ft和ot分別表示t時刻的輸入門、輸出門和遺忘門的輸入;xt表示t時刻LSTM的輸入序列,ht?1表 示t?1時 刻的隱藏層輸出狀態,bi,bf和bo分別是對應的偏移向量,wi,wf和wo表示對應的權重矩陣,ct表示t時刻LSTM網絡記憶信息。S表示sigmoid激活函數。

對公式分析可知,在LSTM網絡中,其核心計算模塊為矩陣的乘累加計算。憶阻器具有可變電阻和記憶電阻狀態的能力,是權值矩陣計算的理想器件。因此,在具體應用過程中,將LSTM網絡中的權值計算過程映射到憶阻交叉陣列中,通過改變加載幅值相同的電壓時間長短的方式完成輸入向量與權值向量的乘累加計算,實現LSTM網絡的硬件加速,提升計算效率。

其中,Ik為憶阻交叉陣列中第k列總的輸出電流,(1/Rs ?Gj,k)表示模型映射到交叉陣列中的權值的大小。 1 /Rs表 示固定電阻的電導,Gj,k代表第j個輸入數據在第K列上憶阻器的電導值。Vin,j表示第j個輸入電壓,in表示輸入類型是X,H或b,其對應的j 的取值范圍是 (0,T) , (T,T+M) ,(T+M,T+M+1), T和M分別是文本序列的長度和隱藏層的維度。

本文模型在憶阻交叉陣列的基礎上,提出HSRVAE硬件加速方案HVAE-MNN。HVAE-MNN憶阻電路由3層憶阻LSTM所組成,其中,兩個憶阻LSTM組成模型編碼器,單個憶阻LSTM組成模型解碼器,每個LSTM硬件電路網絡基于圖2(a)所示的憶阻交叉陣列。在實際應用場景中,硬件加速計算流程包括:將訓練好的模型權值矩陣映射到憶阻交叉陣列中,其輸入數據轉換為對應的電壓信號,經過圖2(a)所示的LSTM電路計算隱藏狀態矩陣值,將該隱藏狀態矩陣使用ADC信號轉化器轉換為數字信號;在軟件層面上,計算該隱藏狀態矩陣的均值和方差,重參數化構建zt隱變量矩陣,再將該隱變量矩陣通過DAC信號轉換器轉化為模擬信號,輸入到解碼器LSTM網絡中,進行LSTM網絡硬件加速計算,最后將輸出轉換為數字信號傳給軟件,計算預測值,并構建預測文本序列信息,最終,該文模型實現HSR-VAE模型的硬件加速。

圖2 憶阻LSTM

4 實驗結果分析

本文采用4個公共數據集來評估HSR-VAE,包括PTB, Yelp, Yahoo和Dailydialog。表1總結了相應的數據集信息。其中,PTB,Yelp和Yahoo數據集應用于語言模型任務,Dailydialog數據集應用于對話響應生成任務。本文模型詞向量的大小為512維,隱藏層的大小均為256維。

表1 數據集

4.1 語言模型

神經網絡語言模型是在給定一個文本序列的前提下,預測下一個詞出現的概率。本文采用兩個評估指標,包括NLL和PPL來評價模型的預測性能,NLL和PPL值越低說明預測文本越合理;KL值來評估模型是否出現后驗崩潰。通過實驗,本文模型與強基線模型進行了對比分析。(1)VAE-LSTM[10]:基于LSTM網絡的VAE模型,采用KL-annealing方法緩解后驗崩潰;(2)半攤銷變分自動編碼器(Semi-Amortized Variational AutoEncoders, SA-VAE)[29]:采用隨機變分推理初始化變分參數;(3)循環變分自動編碼器(Cyclical Variational AutoEncoder,Cyc-VAE)[14]:采用周期性模擬退火方法緩解KL散度消失;(4)滯后變分自動編碼器(Lagging Variational AutoEncoder, Lag-VAE)[15]:采用多次更新編碼器而較少更新解碼器;(5)批量歸一化變分自動編碼器(Batch Normalization Variational AutoEncoder, BN-VAE)[16]:在KL分布中采用BN正則避免后驗崩潰;(6)TWR-VAE[17]:對每個時間步的隱藏狀態值進行KL正則;(7)短程推理變分自動編碼器(Short Run Inference Variational AutoEncoder, Sri-VAE)[18]:將VAE與Langevin Dynamics算法結合避免后驗崩潰。

語言模型實驗結果如表2所示,HSR-VAE的預測性能(NLL, PPL)優于所有基線模型。對兩個數據集的評估結果進行平均,與基線模型TWR-VAE相比,本文模型在NLL值降低6,PPL值降低5.9,KL值提高5.6;與強基線模型BN-VAE相比,KL值提升1.1;與最新模型Sri-VAE相比,NLL和PPL分別降低29.2和42.6。實驗結果表明HSR-VAE在語言建模任務中優異的性能。語言模型生成文本如表3所示,原始文本序列與生成文本序列越相似,說明模型的預測性能越好。

表2 語言模型實驗對比

表3 語言模型生成文本示例

消融研究測試TWR-VAE與HSR-VAE模型在RNN, LSTM和GRU等不同循環結構的實驗結果。同時,為測量隱變量zt采樣輸入數據信息量,即測量輸入數據與隱變量之間的互信息,增加一個互信息評估(Mutual Information, MI)。其中,MI的計算方法如式(13)所示

消融實驗結果如表4所示,與TWR-VAE相比,HSR-VAE的評估指標NLL和PPL值有明顯降低,表明HSR-VAE預測文本更加合理。同時,本文還探究不同循環網絡結構組合的實驗效果,HSR-VAE的KL值表明,相比于單層循環網絡結構,雙層循環網絡結構可更加有效地避免VAE后驗崩潰;互信息MI值表明,雙層循環網絡架構會減少解碼器獲得的信息量。低MI值和高KL值表明,弱化編碼器采樣性能有助于避免VAE后驗崩潰。

表4 消融研究實驗對比

4.2 對話響應生成

對話響應生成的任務目標是根據用戶的話語生成有意義的響應,然而,建立在序列對序列模型基礎上的對話響應生成往往會產生例如“好”“嗯”“謝謝”等一般性的回答。針對該問題,一種有效的解決方案是采用條件變分自編碼器(Conditional Variational AutoEncoder, CVAE)[30],該模型采樣編碼器中的句子級別多樣性,通過隱變量來學習潛在會話意圖的分布,有效改善響應的多樣性問題。本文以CVAE的結構基礎對HSR-VAE進行擴展,進一步評估模型在對話響應生成任務中的效果。擴展模型損失計算如式(14)所示

其中,c表示上下文內容編碼,J表示對話窗口的大小,j表示第幾個對話窗口。Pθ(xi|zJ,c)表示重構損失,DKL(Q?(zj|xi,c)||Pθ(zj|c))表示KL散度,即通過Q?(zj|xi,c)來 擬合真實后驗分布Pθ(zj|c)。

對話響應生成任務中,本文基于Dailydialog[31]數據集進行對比實驗。訓練過程中,對話窗口的大小J設置為10,最大對話長度為40,采用貪婪解碼來抽樣響應,使得對話隨機性完全取決于隱變量。所有基線模型采用的超參數相同,編碼器和解碼器都采用GRU模型,模型的隱藏狀態值維度設置為300,隱變量維度大小為200。

在對比實驗中,本文模型除了與基線模型TWRVAE[17]、 Wasserstein自動編碼器(Wasserstein AutoEncoder, WAE)[8]、CVAE、獨立變分自動編碼器(Independent Variational AutoEncoder,IVAE)[32]進行對比,還與層次化基線模型RNN(Variational Hierarchical Conversation RNNs,VHCR)[26]、可變分層循環編碼器(Variable Hierarchical Recurrent Encoder-Decoder, VHRED)[33]、基于強化學習方法的Seq2Seq生成性對抗網絡(Seq2Seq Generative Adversarial Networks, SeqGAN)[34]進行對比。對話響應生成任務評估指標采用先前已有工作所采用的評價方法。(1)雙語評估替補(BiLingual Evaluation Understudy, BLEU)。該評估指標展示了生成對話與參考序列的匹配程度。對于每個測試情境,計算每個響應的BLEU分數,并將n元語法查準率和n元語法召回率分別定義為平均分和最高分;(2)BOW。該評估展示了模型生成的回答和參考序列之間的詞袋嵌入余弦相似度。本文采用3種度量方式計算單詞嵌入的相似度:BOW-G(BOWGreedy)是通過貪婪匹配的兩個對話單詞之間的平均余弦相似度,BOW-A(BOW-Average)是單詞嵌入之間的平均余弦相似度,BOW-E(BOW-Extreme)是兩個對話的單詞嵌入的最大極值之間的余弦相似度。(3)Distinct。該方法通過計算生成的對話響應中的唯一n元語法(n=1,2)與所有n元語法的比率來衡量生成的對話響應的多樣性。Intra-dist表示單次情境中單個響應內部的多樣性;Inter-dist表示單次情境中多個響應之間的多樣性。

對話響應生成實驗結果如表5所示。HSR-VAE在各個評估指標均優于層次化基線模型VHRED和VHCR,表明在層次化的基礎上進行時間步狀態正則可提升生成對話的質量;與基線模型TWR-VAE相比,HSR-VAE在一些評估指標上有一定的優化,特別是在多樣性評估指標Intra-dist和Inter-dist,表明層次化優化方法可有效提升對話響應生成任務的多樣性。表6展示了對話響應生成任務中生成的可能的響應文本。

表5 對話響應生成任務實驗對比

表6 對話響應生成文本示例

5 結束語

本文提出層次化狀態正則變分自編碼器HSRVAE,本文模型通過層次化方法編碼隱藏狀態矩陣,并且對編碼后的隱藏狀態矩陣各個時間步的狀態值施加KL正則。同時,基于憶阻交叉陣列完成LSTM網絡核心模塊的權值矩陣計算,通過線上線下混合訓練及實時推理,實現HSR-VAE模型的硬件加速。計算機仿真結果實驗表明,在語言建模任務中,HSR-VAE不僅可以有效避免后驗崩潰,且擁有比所有強基線模型更好的性能;消融實驗研究表明,層次化編碼和時間步狀態正則的有效結合可應用于不同循環結構的VAE,并有效提升模型性能;在對話響應生成任務中,HSR-VAE可有效提升對話響應生成序列的多樣性。上述實驗結果都表現出本文模型的有效性,進一步研究可以將HSRVAE應用在其他任務,如機器翻譯等。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 白浆视频在线观看| 2021国产精品自产拍在线观看 | 激情综合图区| 92午夜福利影院一区二区三区| 日韩国产精品无码一区二区三区| 亚洲制服中文字幕一区二区| 亚洲综合色婷婷中文字幕| 国产在线精品人成导航| 亚洲aaa视频| 日韩不卡免费视频| 国产在线视频导航| 国产一级裸网站| 尤物午夜福利视频| 不卡无码网| 国产高清在线精品一区二区三区 | 欧美三级不卡在线观看视频| 成人韩免费网站| 亚洲av无码成人专区| 五月婷婷亚洲综合| 国产美女精品在线| 午夜少妇精品视频小电影| 欧美日韩北条麻妃一区二区| 色妺妺在线视频喷水| 国产女人在线| 国产男人的天堂| 国产尤物jk自慰制服喷水| 好久久免费视频高清| 亚洲成在人线av品善网好看| 99激情网| 伊人久久大香线蕉aⅴ色| 99er这里只有精品| 欧洲在线免费视频| 国产高清无码麻豆精品| 91啦中文字幕| 国产第八页| 无码啪啪精品天堂浪潮av| 野花国产精品入口| 亚洲国产成人超福利久久精品| 黄色网页在线播放| 亚洲欧洲天堂色AV| 国产h视频在线观看视频| 国产精品免费电影| 国产亚洲精| 日韩精品一区二区三区swag| 伊人久久久大香线蕉综合直播| 波多野结衣视频一区二区 | 免费国产小视频在线观看| 天天摸天天操免费播放小视频| 国产欧美日韩免费| 婷婷午夜影院| 久久精品人人做人人| 午夜精品区| 精品国产免费第一区二区三区日韩| 国产精品成人啪精品视频| 5555国产在线观看| 国产成人一区在线播放| 久草网视频在线| 在线观看视频99| 玖玖免费视频在线观看| 99精品视频九九精品| 高清视频一区| 综合色天天| 国产欧美高清| 亚洲国产成人在线| 欧美日韩中文国产| 久久综合伊人77777| 欧洲av毛片| 免费女人18毛片a级毛片视频| 国产激情无码一区二区免费| 国产视频你懂得| 国产麻豆aⅴ精品无码| 亚洲无码视频一区二区三区| 91精品国产综合久久不国产大片| 少妇精品网站| 一本二本三本不卡无码| 国产偷国产偷在线高清| 亚洲日韩国产精品综合在线观看| 中文字幕伦视频| 亚洲天堂高清| 亚洲欧美不卡中文字幕| 亚洲中文字幕久久精品无码一区| 日本少妇又色又爽又高潮|