999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合一維擴(kuò)展卷積與Attention機(jī)制的NLP模型

2021-02-22 12:00:04廖文雄徐雅蕓
計算機(jī)工程與應(yīng)用 2021年4期
關(guān)鍵詞:分類機(jī)制特征

廖文雄,曾 碧,徐雅蕓

廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣州 510006

自然語言處理(Natural Language Processing,NLP)是信息技術(shù)最重要的研究方向之一[1]。自然語言處理是利用計算機(jī)技術(shù)研究和處理語言的一門學(xué)科,把計算機(jī)作為語言研究的工具,對語言或文字信息進(jìn)行定量化的研究,并提供人與計算機(jī)之間能夠共同使用的語言描寫[2]。隨著現(xiàn)代信息規(guī)模的急劇增大,大部分的自然語言處理任務(wù)(如文本分類、情感分析、中文分詞、機(jī)器翻譯)都很難通過淺層學(xué)習(xí)[3]的算法完成。

目前在自然語言領(lǐng)域最常用的深度學(xué)習(xí)模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。但是循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體LSTM(Long Short-Term Memory)[4]、GRU(Gated Recurrent Unit)[5]結(jié)構(gòu)較復(fù)雜,并且存在時序依賴問題,難以實(shí)現(xiàn)并行化計算[6]。雖然CNN 能夠容易地實(shí)現(xiàn)并行化計算,但是CNN 只能關(guān)聯(lián)卷積窗口內(nèi)的特征信息,而不能像循環(huán)神經(jīng)網(wǎng)絡(luò)那樣聯(lián)系全文[7]。

為了提升CNN 聯(lián)系上下文的能力,本文提出一種結(jié)合一維擴(kuò)展卷積和Attention 機(jī)制的自然語言處理模型,與LSTM 相比,本模型能夠更好更快地完成自然語言處理的任務(wù)。

1 相關(guān)工作

自然語言處理算法大致分為以下兩類:(1)淺層學(xué)習(xí)方法;(2)深度學(xué)習(xí)方法。

1.1 淺層學(xué)習(xí)方法

經(jīng)典的自然語言處理算法主要有樸素貝葉斯算法、K近鄰算法、支持向量機(jī)以及最大熵模型等算法,這些都稱為淺層學(xué)習(xí)方法。Pang等人[8]使用樸素貝葉斯、支持向量機(jī)、最大熵等模型在電影評價的情感分析任務(wù)中取得較好的效果。這些淺層模型最多擁有1~2 個非線性特征轉(zhuǎn)換層,計算量小且容易實(shí)現(xiàn),在解決簡單問題上能取得較好的效果,但是由于對復(fù)雜問題的表達(dá)能力有限,難以完成現(xiàn)代復(fù)雜的自然語言處理任務(wù)。

1.2 深度學(xué)習(xí)方法

隨著深度學(xué)習(xí)在圖像領(lǐng)域取得的巨大進(jìn)展,研究者們紛紛嘗試用深度學(xué)習(xí)的方法解決自然語言處理問題。其中最常見的是循環(huán)神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)能夠聯(lián)系上下文信息,在解決序列化的問題上有突出的效果,因此在自然語言處理領(lǐng)域廣泛應(yīng)用。隨著循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體LSTM、GRU 的不斷發(fā)展,自然語言處理技術(shù)有了較大的進(jìn)步,因此現(xiàn)在大部分的自然語言處理任務(wù)都把LSTM和GRU作為首選算法。Liu等人[9]基于循環(huán)神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行分類,取得了不錯的效果。王偉等人[10]基于雙向GRU和Attention機(jī)制對文本進(jìn)行情感分析。張子睿等人[11]通過雙向LSTM 和CRF 結(jié)合的網(wǎng)絡(luò)模型對中文進(jìn)行分詞。但是循環(huán)神經(jīng)結(jié)構(gòu)較復(fù)雜,并且在反向傳播時多個門(Gate)和記憶單元都依賴上一個時間步,導(dǎo)致訓(xùn)練速度較慢。

Attention機(jī)制方面,Bahdanau等人[12]提出自然語言的Attention機(jī)制并首次應(yīng)用于翻譯領(lǐng)域,取得了相當(dāng)不錯的效果。Luong等人[13]提出了Global Attention和Local Attention 兩種 Attention 方式。Attention 機(jī)制在翻譯領(lǐng)域取得的成功,使得其廣泛應(yīng)用到基于深度學(xué)習(xí)的自然語言處理各個任務(wù)中。

與此同時,CNN 對自然語言處理的能力一直被低估。近年來隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)逐漸暴露出來,研究者們紛紛嘗試采用比循環(huán)神經(jīng)網(wǎng)絡(luò)更加簡單的CNN。Kim[14]2014 年將 CNN 應(yīng)用到句子分類中;Zhang 等人[15]2015 年提出字符級的CNN 文本分類方法;Gehring 等人[16]將CNN的結(jié)構(gòu)應(yīng)用到機(jī)器翻譯;王盛玉等人[17]提出通過在詞嵌入層后增加Attention機(jī)制,給予每個情感詞不同的權(quán)重以提升CNN的情感分析性能。

但是CNN 只能獲取卷積窗口內(nèi)的局部特征信息,會導(dǎo)致模型無法像RNN那樣聯(lián)系文本上下文信息。為了增強(qiáng)CNN 在處理自然語言任務(wù)時的上下文關(guān)聯(lián)性,本文提出一種結(jié)合一維擴(kuò)展卷積和Attention 機(jī)制(One-Dimensional Dilated Convolution and Attention Mechanism,1DDilaConv_Att)的自然語言處理模型。1DDilaConv_Att 模型能夠在較短的時間內(nèi)實(shí)現(xiàn)與循環(huán)神經(jīng)網(wǎng)絡(luò)相近的性能。

2 1DDilaConv_Att模型

圖1 為1DDilaConv_Att 模型結(jié)構(gòu)圖解。首先將所有的文字都經(jīng)過Embedding 層把每個詞轉(zhuǎn)化成向量的形式,并輸進(jìn)1DDilaConv 層;通過1DDilaConv 層提取文字信息的深層特征;隨后通過Attention 機(jī)制整合由1DDilaConv 層提取得到的特征;最后通過全連接層實(shí)現(xiàn)分類或者回歸任務(wù)。

圖1 1DDilaConv_Att模型結(jié)構(gòu)

2.1 Embedding層

Embedding 層即詞嵌入層。由于CNN 最早是應(yīng)用于圖像處理和識別領(lǐng)域,而圖像由像素點(diǎn)矩陣組成,因此需要將文本信息轉(zhuǎn)成二維矩陣的形式。詞向量是基于語料庫利用算法學(xué)習(xí)得到的詞語低維表示形式,能充分體現(xiàn)上下文的相關(guān)特征和詞語之間的相似性。目前常 用的詞嵌入方法有 word2vec[18]、GloVe[19]、ELMo[20]。假設(shè)文本中含有n個詞,且嵌入層的輸出為k維特征,則1DDilaConv的輸入為n×k的二維矩陣。

2.2 1DDilaConv

本文提出的1DDilaConv以一維卷積(One-Dimensional Convolution,1DConv)為基礎(chǔ)。1DConv 主要通過模仿N-gram獲得上下文信息,設(shè)卷積的窗口大小為l,那么l即為N-gram 中的n,每個卷積窗口產(chǎn)生的信息可以認(rèn)為是一個時序信號。

2.2.1 1DConv

本文所提及的1DConv與文獻(xiàn)[14]所提到的卷積層類似。設(shè)Xi∈Rk,其中k代表嵌入層輸出維度,而i代表該詞在文檔或者句子中的位置。經(jīng)過Embedding 層后一個包含n個詞的文檔或句子可以用以下形式表示:

這里符號⊕表示連接操作。通常用向量Xi:i+j表示一系列詞向量Xi,Xi+1,…,Xi+j。每個卷積操作都包含一個卷積核w∈Rl×k,它可以通過一個包含l個詞的窗口來產(chǎn)生一個新的特征。例如:一個特征ci可由窗口Xi:i+l-1產(chǎn)生:

這里b∈R 是一個偏置項,f是一個類似雙曲正切的非線性函數(shù)。最后文檔或句子可以表示為:

如圖2所示為卷積窗口大小為2且包含3個卷積核的卷積層,經(jīng)過特征提取后形成一個大小8×3 的特征圖,其中8=n-l+1=9-2+1,3 為卷積核數(shù)量。

圖2 1DConv操作示意圖

2.2.2 1DDilaConv原理

為了增大卷積的感受野,增強(qiáng)網(wǎng)絡(luò)模型對上下文的聯(lián)系能力,本文在文獻(xiàn)[21]的基礎(chǔ)上,提出一維的擴(kuò)展卷積(One-Dimensional Dilated Convolution,1DDilaConv),對文本進(jìn)行特征提取。

與1DConv相比,1DDilaConv引入一個名為擴(kuò)展率(Dilation Rate)的超參數(shù),以控制卷積核中空值0 的數(shù)量。擴(kuò)展率定義了卷積核處理文本數(shù)據(jù)時各詞之間的間距,圖2中原始1DConv的擴(kuò)展率為1。經(jīng)過擴(kuò)展后的卷積窗口大小可以由式(4)計算得到:

其中,l為原始卷積窗口大小,d為擴(kuò)展率。通過擴(kuò)展卷積操作后,可以捕獲到距離較遠(yuǎn)詞語的相關(guān)性,并且有利于特征降維。

原始卷積窗口大小為3,擴(kuò)展率為3且包含2個卷積核的1DDilaConv 操作如圖3 所示。在圖3 中不同顏色代表不同的卷積核,在卷積核中,圓點(diǎn)標(biāo)記的位置同正常卷積核,無圓點(diǎn)標(biāo)記的位置為0。

從圖3并且結(jié)合式(4)可知:經(jīng)過擴(kuò)展率為3的擴(kuò)展后,原來大小為3的卷積窗口,擴(kuò)大至7。經(jīng)過特征提取后形成一個大小6×2 的特征圖,其中6=n-l′+1=12-7+1,2 為卷積核數(shù)量。

圖3 1DDilaConv示意圖

2.3 Attention機(jī)制

Attention 機(jī)制的優(yōu)勢是其隨著時間推移而整合信息的能力,可以用來表示文本或句子中的詞與輸出結(jié)果之間的相關(guān)性。本文所用到的Attention 機(jī)制參考文獻(xiàn)[22]。假設(shè)ht是由第t個時序窗口產(chǎn)生的特征,那么Attention機(jī)制的過程可以用以下式子表示:

其中,Ww與bw為Attention的權(quán)重和偏置項。式(6)為對所有的結(jié)果計算softmax 值。式(7)將計算出的αt作為各個卷積窗口的輸出權(quán)值,對其加權(quán)求和表示為一個向量。對于圖3 所產(chǎn)生的6×2 特征圖,則有ht∈R3,1 ≤t≤6 ,而經(jīng)過Attention 機(jī)制后,輸出結(jié)果為

Attention機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 Attention機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗與分析

3.1 實(shí)驗環(huán)境

本文驗證實(shí)驗的運(yùn)行環(huán)境是一臺具有16 GB 內(nèi)存 且 配 有 型 號 為 Intel?CoreTMi7-7770HQ 的 CPU 和GTX1060 顯卡的個人計算機(jī),該計算機(jī)操作系統(tǒng)為Windows 10家庭中文版。

3.2 對比實(shí)驗

本實(shí)驗實(shí)現(xiàn)了以下四種模型的對比:

(1)Native Bayes 模型,該模型參考文獻(xiàn)[23]的方法,先對文本計算TF-IDF值,再通過樸素貝葉斯對文本進(jìn)行處理;

(2)LSTM模型,該模型參考文獻(xiàn)[9]的方法,將經(jīng)過嵌入層的文本輸進(jìn)兩層堆疊LSTM后,根據(jù)LSTM的輸出值做相應(yīng)的處理;

(3)LSTM_Att 模型,該模型參考文獻(xiàn)[24]的方法,將經(jīng)過嵌入層的文本輸進(jìn)兩層堆疊LSTM,并且LSTM后接Attention層,根據(jù)Attention層的輸出值做相應(yīng)的處理;

(4)1DConv_Att模型,該模型參考文獻(xiàn)[14],將經(jīng)過嵌入層的文本輸入兩層堆疊的卷積層,并在卷積層后添加Attention層;

(5)本文提出的1DDilaConv_Att模型,為了與LSTM模型、LSTM_Att模型做對比,該模型也含有兩層堆疊的擴(kuò)展卷積層。

除了實(shí)驗設(shè)置中有特別說明外,其他的數(shù)據(jù)預(yù)處理過程,模型超參數(shù)等設(shè)置,所有模型保持一致。

3.3 評價指標(biāo)

本文采用accuracy、F1、訓(xùn)練時間作為評價指標(biāo)。對于多分類問題,本文采用宏平均值。accuracy、F1的計算公式如下:

式中的TP、FN、FP、TN如表1所示。

表1 二分類結(jié)果混淆矩陣

3.4 imdb數(shù)據(jù)集情感分析

3.4.1 數(shù)據(jù)集介紹

本文采用來源于keras的imdb數(shù)據(jù)集,其包含50 000條電影評論(英文),以情緒(正面/負(fù)面)標(biāo)記。該數(shù)據(jù)集被劃分為用于訓(xùn)練的25 000 條評論和用于測試的25 000條評論,訓(xùn)練集和測試集都包含50%的正面評價和50%的負(fù)面評價。樣本分布情況如表2所示。

表2 imdb數(shù)據(jù)集樣本分布

3.4.2 實(shí)驗設(shè)置

Native Bayes 模型通過sklearn 實(shí)現(xiàn),其他模型通過keras 實(shí)現(xiàn)。本實(shí)驗的Embedding 層使用imdb 數(shù)據(jù)集作為語料庫通過word2vec 方法訓(xùn)練詞向量。在1DDilaConv_Att 模型中第一層擴(kuò)展卷積的原始卷積核大小設(shè)為3,擴(kuò)展率設(shè)為1;第二層擴(kuò)展卷積的原始卷積核大小設(shè)為3,擴(kuò)展率設(shè)為3。

3.4.3 結(jié)果

各模型的imdb數(shù)據(jù)集情感分析結(jié)果如表3和圖5所示。從accuracy來看,Native Bayes最低,只有0.834 7,最高的是LSTM_Att,為0.879 8;從F1來看,1DDilaConv_Att最高,為0.884 1;從每輪訓(xùn)練時間來看,Native Bayes耗時最短,僅需要0.023 5 s,其次1DConv_Att為17.046 7 s,1DDilaConv_Att為18.807 8 s,而LSTM_Att每輪耗時最長,達(dá)到49.447 8 s。

表3 各模型情感分析性能對比

3.5 THUCNew新聞主題分類

3.5.1 數(shù)據(jù)集介紹

THUCNew 是根據(jù)新浪新聞RSS 訂閱頻道2005—2011 年的歷史數(shù)據(jù)篩選過濾獲得的,一共包含74 萬篇新聞,約為2.19 GB。本文從該數(shù)據(jù)集中提取出10個主題,每個主題隨機(jī)抽取5 000篇新聞作為訓(xùn)練集,500篇新聞作為驗證集,1 000 篇新聞作為測試集。樣本分布如表4所示。

3.5.2 實(shí)驗設(shè)置

圖5 各模型情感分析性能對比

表4 新聞主題分類數(shù)據(jù)集樣本分布

Native Bayes模型通過sklearn實(shí)現(xiàn),其他模型通過keras實(shí)現(xiàn)。與情感分析實(shí)驗不同的是本實(shí)驗的Embedding 層使用約4.1 GB 的百度百科外部語料庫通過GloVe 訓(xùn)練字符級嵌入。在1DDilaConv_Att 模型中第一層擴(kuò)展卷積的原始卷積核大小設(shè)為6,擴(kuò)展率設(shè)為1;第二層擴(kuò)展卷積的原始卷積核大小設(shè)為5,擴(kuò)展率設(shè)為2。

3.5.3 結(jié)果

各模型新聞主題分類結(jié)果如表5 和圖6 所示。從accuracy和F1來看,1DDilaConv_Att 均為最優(yōu)模型,其中accuracy達(dá)到0.962 1,F(xiàn)1達(dá)到0.961 84;從每輪耗時來看Native Bayes 耗時最短,僅需要0.169 3 s,其次為1DConv_Att,每輪耗時 84.901 2 s,1DDilaConv_At 為86.715 9 s,而耗時最長的為LSTM_Att,達(dá)到221.163 6 s。

表5 各模型主題分類性能對比

圖6 各模型主題分類性能對比

3.6 實(shí)驗分析與總結(jié)

以上實(shí)驗中,Native Bayes只是通過簡單的統(tǒng)計方法進(jìn)行訓(xùn)練,因此訓(xùn)練速度較快,但是由于其表達(dá)能力不足,導(dǎo)致性能遜色于其他模型。LSTM模型通過循環(huán)神經(jīng)網(wǎng)絡(luò)聯(lián)系上下文信息,而LSTM_Att 通過Attention機(jī)制整合各個時序的信號,因此LSTM_Att 比LSTM 性能更好,可是LSTM和LSTM_Att由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,導(dǎo)致訓(xùn)練時間急劇增加。本文提出的1DDilaConv_Att 模型比1DConv_Att 能夠更好地聯(lián)系上下文并且結(jié)構(gòu)比LSTM模型更加簡單,同時借助一維擴(kuò)展卷積強(qiáng)大的特征提取能力和通過Attention機(jī)制整合深層特征,因此性能較好并且耗時比LSTM和LSTM_Att都要少。

通過在公開的數(shù)據(jù)集中進(jìn)行實(shí)驗驗證可知,本文提出的1DDilaConv_Att與現(xiàn)在主流的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,速度提升明顯,能夠更好更快地處理自然語言處理任務(wù)。

4 結(jié)束語

本文提出一種基于一維擴(kuò)展卷積和Attention 機(jī)制的自然語言處理模型1DDilaConv_Att,詳細(xì)描述了1DDilaConv_Att的工作原理,并且通過實(shí)驗驗證了本文模型能夠在較短的時間內(nèi)獲得和循環(huán)神經(jīng)網(wǎng)絡(luò)相近甚至超過循環(huán)神經(jīng)網(wǎng)絡(luò)的性能。

盡管本文提出的1DDilaConv_Att 比LSTM 性能有所提升,但是本文使用的Attention機(jī)制較為簡單。未來的工作需要結(jié)合多頭Attention 機(jī)制(Multi-head Attention)更好地融合由一維擴(kuò)展卷積產(chǎn)生的特征信息,從而實(shí)現(xiàn)性能的進(jìn)一步提升。另外,本文只在情感分析和主題分類任務(wù)上進(jìn)行模型驗證,未來工作需要在更多任務(wù)上(命名實(shí)體識別、詞性標(biāo)注、關(guān)系抽取等)進(jìn)一步驗證本文模型的有效性。

猜你喜歡
分類機(jī)制特征
分類算一算
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: 免费播放毛片| 77777亚洲午夜久久多人| 在线色国产| 狼友视频一区二区三区| 亚洲狼网站狼狼鲁亚洲下载| 91最新精品视频发布页| AV无码无在线观看免费| 91探花国产综合在线精品| 中日无码在线观看| 欧美啪啪视频免码| 亚洲精品视频免费| 亚洲AV无码一二区三区在线播放| 丁香婷婷激情网| 久久免费视频播放| 亚洲成年人网| 免费无码AV片在线观看国产| 国产成人精品亚洲77美色| 国产激爽大片高清在线观看| 九九精品在线观看| 久久精品无码专区免费| 亚洲欧美另类中文字幕| 国产aⅴ无码专区亚洲av综合网| 国产清纯在线一区二区WWW| 亚洲欧美国产五月天综合| 国产成人精品日本亚洲77美色| 午夜人性色福利无码视频在线观看| 国产成人综合久久| 国产青榴视频| 国产一级无码不卡视频| 99在线国产| 国产成人亚洲精品色欲AV | 国产麻豆另类AV| 97se综合| 欧美天堂久久| 久久久久久久久18禁秘| 国产成人资源| 内射人妻无套中出无码| 美女啪啪无遮挡| 日本伊人色综合网| 国产精品爽爽va在线无码观看| 欧美激情视频一区| 毛片视频网址| 秘书高跟黑色丝袜国产91在线| 99精品视频播放| 国产色婷婷| 精品少妇人妻一区二区| 在线观看国产网址你懂的| 午夜福利视频一区| 99热这里只有精品在线播放| 99尹人香蕉国产免费天天拍| 亚洲三级成人| 动漫精品中文字幕无码| 亚洲精品va| 成人精品午夜福利在线播放| 国产在线日本| 日本三级黄在线观看| 国产精品片在线观看手机版 | www欧美在线观看| 中日韩欧亚无码视频| 日韩资源站| 69综合网| 国产亚洲一区二区三区在线| hezyo加勒比一区二区三区| 国产成人亚洲综合A∨在线播放| 中文字幕亚洲另类天堂| 又大又硬又爽免费视频| 亚洲天堂久久新| 丰满少妇αⅴ无码区| 精品国产污污免费网站| 在线中文字幕日韩| 无码高潮喷水专区久久| 国产成人一区在线播放| 少妇精品在线| 黄网站欧美内射| 亚洲天堂伊人| 国产又色又刺激高潮免费看| 一级毛片免费的| 在线不卡免费视频| 亚洲一道AV无码午夜福利| 亚洲熟女中文字幕男人总站| 久久黄色小视频| 一区二区三区四区日韩|