999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合多頭注意力機(jī)制的旅游問句分類研究

2022-02-24 12:34:04姜麗婷王路路吐爾根依布拉音艾山吾買爾早克熱卡德爾新疆大學(xué)軟件學(xué)院烏魯木齊830046
關(guān)鍵詞:語義分類文本

吳 迪,姜麗婷,王路路,吐爾根·依布拉音,艾山·吾買爾,早克熱·卡德爾 .新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046

2.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

隨著人們生活水平的日益提高,越來越多的人在節(jié)假日選擇外出游玩的方式來釋放日常工作學(xué)習(xí)的壓力。然而由于對(duì)周圍環(huán)境的不熟悉,外出旅行的人們?cè)诜蔷幼〉赜瓮娴倪^程中會(huì)面臨各式各樣的問題,與此同時(shí)當(dāng)?shù)卣搽y以充分利用旅游業(yè)的巨大潛力以提高就業(yè)率和經(jīng)濟(jì)發(fā)展水平[1]。若依賴人工解決上述困難則需消耗巨大的財(cái)力、物力,而且不能及時(shí)解決游客在游玩時(shí)面臨的個(gè)性化問題。如今迅猛發(fā)展的人工智能技術(shù)使得為游客提供自動(dòng)化、個(gè)性化的服務(wù)成為了可能,若開發(fā)旅游的自動(dòng)問答系統(tǒng)能有效解決上述問題。問句分類作為自動(dòng)問答系統(tǒng)的第一步,其精度直接制約著問答系統(tǒng)的效果[2]。旅游問句文本長(zhǎng)度有限且其表達(dá)方式口語化現(xiàn)象比較普遍,使得機(jī)器難以準(zhǔn)確理解其意圖完成分類。針對(duì)上述難點(diǎn),本文首先通過雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU)[3]對(duì)問句語義信息進(jìn)行學(xué)習(xí),緩解其因長(zhǎng)度有限而造成的語義匱乏問題,而后應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的卷積層(convolution layer)[4]學(xué)習(xí)其局部依賴,通過不同大小的卷積核(filter-size)對(duì)不同詞組的語義信息進(jìn)行卷積,后用多頭注意力機(jī)制(Multi-Head-Attention)[5]對(duì)卷積后的語義信息分配權(quán)重,從不同的語義空間減少歧義詞組對(duì)結(jié)果的負(fù)面影響。最后利用Softmax輸出預(yù)測(cè)概率最大的類別作為結(jié)果。通過上述方式提高問句語義信息及關(guān)鍵特征的利用率,完成旅游領(lǐng)問句分類。本文做出如下貢獻(xiàn):(1)構(gòu)建了一個(gè)旅游問句的數(shù)據(jù)集,為以后繼續(xù)研究提供了基礎(chǔ)。(2)本文提出了一種旅游問句的分類模型,在表述不規(guī)范且長(zhǎng)度較短的旅游問句分類任務(wù)中取得的較高的精度,優(yōu)于現(xiàn)有的主流機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。

1 相關(guān)工作

問句分類是一個(gè)經(jīng)典的自然語言處理任務(wù)。很多學(xué)者對(duì)此進(jìn)行研究并提出了諸多解決辦法。以往的分類包括兩大類方法:傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

傳統(tǒng)的問句分類方法多基于機(jī)器學(xué)習(xí)的方法,如:支持向量機(jī)(support vector machine,SVM)[6]、樸素貝葉斯(Naive Bayesian model,NBM)[7]和K最近鄰(K-nearest neighbor,KNN)[8]等。也有學(xué)者對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行改進(jìn)以完成問句分類,如:Bae等[9]提出了一種基于詞權(quán)重加權(quán)和相關(guān)反饋的自動(dòng)擴(kuò)展詞生成技術(shù)組合的方法應(yīng)用到問句分類中,在多個(gè)語種中取得了優(yōu)于TFIDF的成果。

得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力,目前許多學(xué)者采用深度學(xué)習(xí)的方法。楊志明等[10]應(yīng)用字詞向量結(jié)合的文本表示方法通過CNN完成問句分類,有效地規(guī)避了現(xiàn)有分詞方法可能造成的分詞不準(zhǔn)確的問題,但沒有考慮問句的時(shí)序信息。Xia等[11]在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)隱藏狀態(tài)中應(yīng)用注意力機(jī)制(attention mechanism)分配權(quán)重完成問句分類,加深了模型對(duì)局部重要信息的理解,但該文僅考慮了文本單個(gè)方向的語義,沒有采用雙向的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)問句依賴進(jìn)行捕捉。姚苗等[12]通過堆疊雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(stack bidirectional long short term memory,Stack-LSTM)獲取文本語義依賴關(guān)系,結(jié)合自注意力機(jī)制(self-attention mechanism)加深模型對(duì)局部重要信息的學(xué)習(xí),提高了分類的準(zhǔn)確率。Liu等[13]利用注意力機(jī)制對(duì)Bi-GRU獲得的語義信息進(jìn)行權(quán)重分配,再通過CNN完成其局部語義信息的學(xué)習(xí),取得了很好的問句分類效果。但上述方法都僅使用注意力機(jī)制對(duì)文本的加強(qiáng)模型對(duì)文本重要信息的理解,沒有從不同語義空間學(xué)習(xí)文本局部語義信息。Banerjee等[14]結(jié)合了多種深度模型,采用投票等融合方法,完成問句分類,其效果雖然相比與單一分類器,提高約4%,但投票結(jié)果的準(zhǔn)確率依賴于不同模型本身對(duì)問句數(shù)據(jù)集的擬合程度及模型間的獨(dú)立程度,其解釋能力較差。也有學(xué)者在深度學(xué)習(xí)的基礎(chǔ)上引入了機(jī)器學(xué)習(xí)的方法,如:梁志劍等[15]用TF-IDF對(duì)Bi-GRU提取到的特征進(jìn)行權(quán)重賦值完成分類。Mohammed等[16]結(jié)合了改進(jìn)TF-IDF和word2vec方法對(duì)問題進(jìn)行分類取得了很好的效果,但相比于注意力機(jī)制,TF-IDF僅能根據(jù)詞頻選取較為重要的語義信息,有很大的局限性。Somnath等[17]在深度學(xué)習(xí)的模型中加入了特征工程,在數(shù)據(jù)集MSIR16上將問句分類的結(jié)果提高了近4%,但特征工程的引入很大程度上降低了模型的泛化能力。

2 模型設(shè)計(jì)

問句分類任務(wù)定義:給定一個(gè)旅游問句T將其進(jìn)行向量化表示為(w1,w2,…,wn)作為模型輸入,問句分類就是對(duì)該短文本進(jìn)行語義理解,判定其所屬類別,從而達(dá)到分類的目的。

以“新疆八日游哪里有有什么好的路線景點(diǎn)規(guī)劃?”這一問句為例,該問句預(yù)處理、分詞結(jié)果為“新疆八日游哪里有有什么好的路線景點(diǎn)規(guī)劃”,應(yīng)歸屬到“地點(diǎn)”類別,但是該問句的表述并不完全按照語法規(guī)范,且文本長(zhǎng)度較短。針對(duì)旅游問句特殊性,本文首先通過兩層Bi-GRU獲取的語義信息和詞向量拼接的方式來捕獲問句長(zhǎng)距離語義依賴,優(yōu)化文本向量化表示,緩解問句文本長(zhǎng)度短而造成的數(shù)據(jù)稀疏的問題。然后使用CNN的卷積層通過不同的卷積核大小對(duì)得到的語義信息進(jìn)行不同詞組的卷積,加強(qiáng)模型對(duì)局部信息的認(rèn)知,對(duì)“新疆”和“八日游”進(jìn)行卷積,對(duì)“好”“的”和“路線”進(jìn)行卷積,通過Multi-Head-Attention對(duì)卷積后的語義信息進(jìn)行篩選,放大正確卷積對(duì)文本語義理解的作用,減少錯(cuò)誤卷積的負(fù)面影響,如“有”“有”和“什么”的卷積等。通過上述方式有效緩解了文本表述不規(guī)范的問題,并增強(qiáng)了模型的可解釋性。最后通過Softmax完成問句分類。

以下簡(jiǎn)稱BGCMA模型,其結(jié)構(gòu)圖如圖1所示。

圖1 BGCMA模型Fig.1 BGCMA model

2.1 文本特征表示

自然語言處理的第一項(xiàng)任務(wù)就是提取文本的語義特征,進(jìn)而完成后續(xù)的下游任務(wù)。早期學(xué)者多采用One-hot向量進(jìn)行詞表示,這種表示方法的結(jié)果導(dǎo)致詞與詞之間沒有聯(lián)系也容易產(chǎn)生維數(shù)災(zāi)難。Google于2013年提出并開源了Word2Vec,相比于One-hot向量它更加高效,能有效體現(xiàn)詞語之間的聯(lián)系。Word2Vec的基本思想是將不同詞語a、b進(jìn)行,判定組合(a,b)是否符合自然語言的語法規(guī)則。它有兩種訓(xùn)練方式:CBOW(根據(jù)附近詞來預(yù)測(cè)中心詞)、Skip-gram(根據(jù)中心詞來預(yù)測(cè)附近詞)[18]。

2.2 問句依賴關(guān)系學(xué)習(xí)

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[19]被很多學(xué)者證明適用于文本處理的深度學(xué)習(xí)任務(wù)中,但面對(duì)長(zhǎng)文本時(shí),靠后序列的梯度很難反向傳播到靠前的語義信息。門循環(huán)單元網(wǎng)絡(luò)(gated recurrent neural networks,GRU)作為RNN的變體,使用了重置門、更新門來決定如何舍棄、更新信息,成功解決了長(zhǎng)期依賴的問題。相比于另一種解決該問題的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[20],GRU的參數(shù)量更少、易于計(jì)算。其單元在t時(shí)刻更新過程如圖2所示,公式如式(1)~(4)所示:

圖2 GRU模型Fig.2 GRU model

其中,r t為重置門,z t為更新門,x t為t時(shí)刻的輸入數(shù)據(jù),σ為激活函數(shù),b r、b z、b h為偏置,W r、U r、W z、U z、W h、U h為權(quán)重矩陣,⊙表示點(diǎn)乘運(yùn)算,h t為t時(shí)刻GRU的輸出。

本文利用Bi-GRU對(duì)問句的語義信息進(jìn)行初步的理解,Bi-GRU是前向h tl和后向h tr融合的GRU,它得到的語義信息更加充分、準(zhǔn)確。通過該結(jié)構(gòu)捕獲上下文隱含語義關(guān)系,公式如所示(5)、(6)所示:

Bi-GRU當(dāng)前的隱層狀態(tài)由上述前向h tl、后向h tr和詞向量W三部分共同決定。本文將Bi-GRU獲取的語義信息和詞向量進(jìn)行拼接,如公式(7)所示:

本文采用兩層Bi-GRU,以突出深層次隱含強(qiáng)依賴關(guān)系的捕獲,通過詞向量和Bi-GRU獲取的語義信息拼接的方式,獲取詞匯本身和上下文的依賴關(guān)系以得到更豐富的文本表示向量,有效緩解了問句因長(zhǎng)度較短而造成的語義稀疏的問題。

2.3 局部關(guān)鍵信息學(xué)習(xí)

卷積神經(jīng)網(wǎng)絡(luò)CNN最初被用于解決圖像處理的問題,后被應(yīng)用到自然語言處理中,現(xiàn)已成為最流行的深度學(xué)習(xí)模型之一。它由卷積層(convolution layer)、池化層(pooling layer)和全連接層(fully connected layer)組成。其中卷積層的作用是提取局部文本語義信息,這樣的操作會(huì)產(chǎn)生巨大的計(jì)算量,為了防止過擬合,進(jìn)一步降低網(wǎng)絡(luò)參數(shù)過擬合程度,對(duì)卷積后的信息采取池化操作,一般有兩種方式,平均池化(mean pooling)和最大池化(max pooling),前者計(jì)算列向量的平均值而后者直接取出列向量的最大值。但是這兩種池化操作都存在不同程度的信息丟失現(xiàn)象,且會(huì)丟失文本的位置信息。所以本文擯棄池化層,僅使用卷積操作提取問句局部關(guān)系依賴。

獲得Bi-GRU層提取的全局語義信息后,本文使用CNN的卷積操作捕捉局部語義信息相關(guān)性,采用k=2、k=3和k=4作為不同大小的卷積核對(duì)問句語義信息的局部特征進(jìn)行感知,即用k維大小的卷積核在問句的語義信息上滑動(dòng)提取特征。公式如(8)、(9)所示:

其中,b表示偏置,W k表示不同卷積核所對(duì)應(yīng)的權(quán)值矩陣,i為第i個(gè)特征值,k為卷積操作中卷積核的大小,f為激活函數(shù),y i表示卷積后的輸出結(jié)果,操作⊕為向量拼接操作,Y為得到的最終特征。

自Mnih等[21]用RNN和Attention機(jī)制對(duì)圖像進(jìn)行分類,Attention機(jī)制被廣泛應(yīng)用于圖像、自然語言處理的任務(wù)中。其本質(zhì)是通過Query和Key計(jì)算對(duì)應(yīng)Value的權(quán)重系數(shù),之后進(jìn)行加權(quán)求和。Multi-Head-Attention是將Query、Key、Value首先進(jìn)過一個(gè)線性變換,然后輸入到放縮點(diǎn)積Attention,該操作進(jìn)行h次(即多頭),而且每次Q、K、V進(jìn)行線性變換的參數(shù)W是不一樣的,及參數(shù)間互不共享。最后將多次計(jì)算的結(jié)果進(jìn)行拼接和線性變換得到最終結(jié)果,相比于單頭的注意力機(jī)制,多頭的計(jì)算方式能夠從不同的語義表示子空間里學(xué)到更多有價(jià)值的信息,該結(jié)構(gòu)如圖3所示。

圖3 多頭注意力機(jī)制模型Fig.3 Multi-Head-Attention model

將上述獲得的語義信息由Multi-Head-Attention對(duì)語義信息進(jìn)行處理,而非簡(jiǎn)單的最大池化或者平均池化運(yùn)算。公式如(10)、(11)所示:

其中,Q、K、V分別表示Y經(jīng)過線性變換后的得到的Query、Key、Value,d k為輸入維度,操作⊕為向量拼接操作,W o為拼接后做線性變換需要的矩陣,h為模型的頭數(shù)。

基于CNN和Multi-Head-Attention結(jié)合的方法優(yōu)勢(shì)有三點(diǎn),第一,有效避免了信息的流失;第二,通過不同filter相鄰詞卷積弱化了口語的表達(dá)方式對(duì)結(jié)果的不良影響;第三;通過Multi-Head-Attention機(jī)制完成對(duì)各個(gè)語義信息的權(quán)重分配,可以更加準(zhǔn)確的問句實(shí)際要表達(dá)的意圖。

2.4 Softmax分類

自通過上述對(duì)文本的語義信息表示及處理操作后,利用Softmax分類器進(jìn)行問句分類。將輸入值轉(zhuǎn)換成概率值。模型在最后輸出概率最大的類別。公式如式(12)所示:

其中,i為分類的標(biāo)記,本文實(shí)驗(yàn)用到了6個(gè)標(biāo)記類別,所以i∈{1,2,3,4,5,6},D為輸入問句,θ表示模型訓(xùn)練學(xué)習(xí)到的參數(shù),模型最后輸出p(k i|D,θ)概率值最大的類別。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 實(shí)驗(yàn)環(huán)境說明

為驗(yàn)證方法可行性,本文設(shè)計(jì)了以下實(shí)驗(yàn)。硬件配置:GPU為RTX-2080Ti,CPU為i7-9700。軟件環(huán)境:操作系統(tǒng)為Ubuntu18.04,編程語言為Python3.6,框架為

PyTorch1.1.0。

3.1.2 數(shù)據(jù)集

由于沒有公開的旅游問句數(shù)據(jù)集,本文在攜程、去哪兒等各大旅游網(wǎng)站爬取問句并對(duì)其進(jìn)行了篩選、清洗、標(biāo)注等預(yù)處理操作,共計(jì)9 536條。人工標(biāo)注了六個(gè)類別,分別是:時(shí)間(1 970條)、描述(2 383條)、地點(diǎn)(1 732條)、具體金額(1 714條)、人物事跡(201條)、綜合(1 536條)。具體示例見表1。

表1 數(shù)據(jù)集示例Table 1 Examples of data sets

按照7∶2∶1切分?jǐn)?shù)據(jù)為訓(xùn)練集(6 656條)、驗(yàn)證集(1 920條)、測(cè)試集(960條)。數(shù)據(jù)集類別及分布如表2所示。

表2 數(shù)據(jù)集分布Table 2 Distribution of data set

3.1.3 對(duì)比模型介紹

為了驗(yàn)證BGCMA模型在旅游問句任務(wù)中的性能,本文選取了若干主流的文本分類模型進(jìn)行對(duì)比實(shí)驗(yàn)。

(1)NBM:以貝葉斯原理為基礎(chǔ),用概率統(tǒng)計(jì)的方法完成問句的分類任務(wù)。

(2)SVM:本文在該任務(wù)中分類效果最好的Linear作為核函數(shù)。

(3)KNN:通過聚類的方式完成問句分類任務(wù)。

(4)CNN:CNN模型通過卷積、池化、全連接對(duì)問句進(jìn)行分類。

(5)GRU:通過單向的GRU網(wǎng)絡(luò)捕捉旅游問句語義依賴,進(jìn)行問句分類。

(6)Bi-GRU:由前向GRU和后向GRU組合而成,雙向的GRU可以更好地捕捉其語義信息。

(7)Bi-GRU+CNN:在Bi-GRU后面接CNN,在捕獲全句的語義依賴的基礎(chǔ)上通過CNN加強(qiáng)對(duì)局部信息的理解。

(8)Bi-GRU+Attention:在Bi-GRU的基礎(chǔ)上增加Attention機(jī)制,對(duì)Bi-GRU學(xué)習(xí)到的語義信息進(jìn)行權(quán)重分配,完成問句分類。

(9)Transformer:通過以Multi-Head-Attention為基礎(chǔ)的Encoder部分,對(duì)語義信息進(jìn)行學(xué)習(xí)完成分類任務(wù)。

3.1.4 評(píng)價(jià)標(biāo)準(zhǔn)

在本文的實(shí)驗(yàn)中,采用三個(gè)精度評(píng)價(jià)指標(biāo)來評(píng)估模型,分別是精準(zhǔn)率(Pre)、召回率(Rec)、F1值(F1-score),計(jì)算公式如(13)~(15)所示:

其中TP、FP、FN、TN的含義如表3所示。

表3 混淆矩陣Table 3 Confusion matrix

為進(jìn)一步驗(yàn)證模型的時(shí)間效率,本文引入了時(shí)間指標(biāo)用于評(píng)估不同模型在同一任務(wù)下的訓(xùn)練時(shí)間和測(cè)試時(shí)間,單位為s。

3.2 實(shí)驗(yàn)結(jié)果與分析

在旅游問句數(shù)據(jù)集上,將本文提出的BGCMA模型與NBM、SVM、KNN、CNN、GRU、Bi-GRU、Bi-GRUCNN、Bi-GRU-Attention、Transformer多種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

表4 實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results

由表4可知,在旅游問句分類的任務(wù)上,NBM、SVM和KNN這一類機(jī)器學(xué)習(xí)的算法精度要明顯低于深度學(xué)習(xí)模型,但是這類模型的訓(xùn)練時(shí)間相對(duì)較短。其中,NBM的訓(xùn)練時(shí)間和測(cè)試時(shí)間均為最短,這是因?yàn)樵撃P偷暮诵乃枷胧菞l件概率的計(jì)算,它假設(shè)所有特征的出現(xiàn)相互獨(dú)立互不影響,每一特征同等重要,但在實(shí)際語義表達(dá)中并非如此,所以該模型只取得了82.26%的F1值。KNN的計(jì)算量較大,是時(shí)間消耗最長(zhǎng)的機(jī)器學(xué)習(xí)模型,然而本文實(shí)驗(yàn)的數(shù)據(jù)集較小,導(dǎo)致了該模型在旅游問句的分類任務(wù)上的精度表現(xiàn)最差,僅取得了78.50%的F1值。相比于KNN,SVM對(duì)小樣本數(shù)據(jù)集的適應(yīng)性較好,在三種機(jī)器學(xué)習(xí)模型中,該模型的精度最高,在Pre、Rec和F1-score三個(gè)指標(biāo)中分別取得了84.60%、84.68%和84.15%的性能。

由表4可知,在旅游問句分類的任務(wù)上,深度學(xué)習(xí)模型的精度要明顯高于機(jī)器學(xué)習(xí)。CNN和GRU模型相比,GRU取得了90.07%的F1值,比CNN模型高0.35個(gè)百分點(diǎn),這是由于GRU模型考慮了問句的時(shí)序信息,而CNN模型對(duì)文本的時(shí)序信息不夠敏感所導(dǎo)致的,但CNN不需要像GRU一樣逐詞地完成運(yùn)算,其訓(xùn)練時(shí)間為所有深度學(xué)習(xí)模型中最短。GRU和Bi-GRU模型相比,Bi-GRU模型在問句分類任務(wù)的性能優(yōu)于GRU模型,原因在于Bi-GRU模型在GRU模型的基礎(chǔ)上增加了一個(gè)反向的GRU,前后向信息融合,更好地獲取了問句上下文的語義信息,但是Bi-GRU需要完成前向和后向兩次運(yùn)算,需要的時(shí)間較GRU長(zhǎng)。Bi-GRU+CNN模型和Bi-GRU+Attention模型性能均比Bi-GRU模型好,這是因?yàn)锽i-GRU+CNN模型在Bi-GRU模型基礎(chǔ)上增加了CNN,利用了CNN局部卷積思想,加強(qiáng)了局部語義信息的理解和學(xué)習(xí),而Bi-GRU+Attention模型在Bi-GRU模型基礎(chǔ)上增加了Attention機(jī)制,對(duì)獲取的語義信息賦予權(quán)重,能夠有效甄別更重要的信息。由于在實(shí)驗(yàn)中設(shè)置了早停,所以Bi-GRU+Attention的收斂速度較快,完成訓(xùn)練的時(shí)間較快。而以多頭注意力機(jī)制為基礎(chǔ)的Transformer,利用位置信息編碼,有效考慮了問句的時(shí)序性特征,通過不同子語義空間的Attention機(jī)制,在Pre、Rec和F1-score三項(xiàng)指標(biāo)中取得了91.14%、91.04%和90.97%的結(jié)果,多頭注意力機(jī)制的效果較Bi-GRU+Attention的單頭注意力機(jī)制的性能更好,但是Transformer的時(shí)間復(fù)雜度為O(n2),訓(xùn)練時(shí)間和測(cè)試時(shí)間均比較長(zhǎng)。但Bi-GRU+CNN的在旅游問句數(shù)據(jù)集的表現(xiàn)稍優(yōu)于Bi-GRU+Attention和Transformer,這是因?yàn)槁糜螁柧鋽?shù)據(jù)集的長(zhǎng)度較短,無用的信息相對(duì)較少,所以采用CNN進(jìn)行局部特征的學(xué)習(xí)要強(qiáng)于Attention機(jī)制。

BGCMA模型首先通過兩層Bi-GRU學(xué)習(xí)問句的上下文信息,捕獲其長(zhǎng)距離語義依賴,和預(yù)先訓(xùn)練好的詞向量拼接充分學(xué)習(xí)問句語義信息,緩解旅游問句語義稀疏的難點(diǎn)。然后通過CNN的卷積層對(duì)不同詞組進(jìn)行卷積,學(xué)習(xí)其局部關(guān)系依賴,最后利用Multi-Head-Attention替代傳統(tǒng)的池化層對(duì)卷積后的結(jié)果進(jìn)行進(jìn)一步的學(xué)習(xí)和感知,通過注意力的方式篩選正確的正確詞組的卷積,提高了分類精度。BGCMA結(jié)合了Bi-GRU、CNN、Multi-Head-Attention的優(yōu)點(diǎn),在Pre、Rec、F1-score三個(gè)指標(biāo)中分別取得了92.14%、92.19%和92.11%的結(jié)果,在精度指標(biāo)中全面優(yōu)于現(xiàn)有主流的深度學(xué)習(xí)模型和機(jī)器學(xué)習(xí)模型。但為了解決模型對(duì)不規(guī)則表達(dá)的問句的學(xué)習(xí),該模型的訓(xùn)練時(shí)間為最長(zhǎng),但是其測(cè)試時(shí)間較SVM和KNN短,能夠?yàn)樽詣?dòng)問答系統(tǒng)的后續(xù)工作提供高效的支持。

3.3 消融實(shí)驗(yàn)

模型實(shí)驗(yàn)參數(shù)取值如表5所示。為評(píng)估BGCMA模型中關(guān)鍵因素的貢獻(xiàn),本文進(jìn)行了消融實(shí)驗(yàn)。

表5 實(shí)驗(yàn)參數(shù)設(shè)置Table 5 Experimental parameter settings

3.3.1 Learning-rate對(duì)實(shí)驗(yàn)性能的影響

學(xué)習(xí)率(Learning-rate)的作用是控制模型的學(xué)習(xí)進(jìn)度,會(huì)影響模型的最終實(shí)驗(yàn)效果。在旅游問句分類任務(wù)中,Learning-rate分別選取0.01、0.003、0.001、0.000 3、0.000 1進(jìn)行實(shí)驗(yàn),結(jié)果見表6。

表6 學(xué)習(xí)率對(duì)模型性能的影響Table 6 Effect of learning-rate on model performance

由表6可知,Learning-rate的取值為0.001時(shí),模型的結(jié)果最優(yōu)。但當(dāng)學(xué)習(xí)率增大到0.01時(shí),模型的性能在Pre、Rec、F1-score分別下降了23.76、24.17、25.66個(gè)百分點(diǎn),這是因?yàn)閷W(xué)習(xí)率過大,在訓(xùn)練過程中跨過最優(yōu)值,長(zhǎng)時(shí)間無法收斂,模型無法取得最好的訓(xùn)練效果。當(dāng)學(xué)習(xí)率降低至0.000 1時(shí),模型的性能在Pre、Rec、F1-score分別下降了1.83、1.98、1.86個(gè)百分點(diǎn),這是因?yàn)閷W(xué)習(xí)率過小,模型容易陷入局部最優(yōu)點(diǎn)。

3.3.2 Bi-GRU的層數(shù)對(duì)實(shí)驗(yàn)性能的影響

神經(jīng)網(wǎng)絡(luò)的層數(shù)與模型的復(fù)雜度直接相關(guān),會(huì)影響模型與實(shí)驗(yàn)數(shù)據(jù)的擬合程度。對(duì)Bi-GRU的層數(shù)取1層、2層、3層進(jìn)行實(shí)驗(yàn),結(jié)果見表7。

表7 層數(shù)對(duì)模型性能的影響Table 7 Effect of number of layers on model performance

由表7可知,Bi-GRU的層數(shù)取2時(shí),模型取得了最好的效果。當(dāng)層數(shù)增加至3層時(shí),Pre、Rec、F1-score分別下降了1.14、1.67、2.13個(gè)百分點(diǎn),這是因?yàn)閷訑?shù)過大使得模型在測(cè)試集上的泛化能力下降,出現(xiàn)了過擬合的現(xiàn)象。而層數(shù)取1層時(shí),Pre、Rec、F1-score分別下降了2.48、2.61、3.87個(gè)百分點(diǎn),這是因?yàn)閷訑?shù)過小適合模型出現(xiàn)了欠擬合的現(xiàn)象,模型無法很好的擬合數(shù)據(jù)集。

3.3.3 Filter-size對(duì)實(shí)驗(yàn)性能的影響

CNN卷積核大小的選取,會(huì)影響到文本詞語表征的提取,進(jìn)而影響模型與實(shí)驗(yàn)數(shù)據(jù)的擬合程度。對(duì)CNN的filter-size取(2,3,5)、(2,3,4)、(3,4,5)進(jìn)行實(shí)驗(yàn),結(jié)果見表8。

表8 卷積核對(duì)模型性能的影響Table 8 Effect of filter-size on model performance

由表8可知,CNN的卷積核取(2,3,4)時(shí),模型的性能最好。當(dāng)卷積核大小取(2,3,5)或者(3,4,5)模型的性能在Pre、Rec、F1-score的值上都有不同程度的下降。這是因?yàn)榫矸e核選取的偏大時(shí),模型會(huì)引入過多的噪聲,從而導(dǎo)致模型性能有所下降。

3.3.4 Number-heads取值對(duì)實(shí)驗(yàn)性能的影響

多頭注意力機(jī)制可以在不同的空間對(duì)語義信息進(jìn)行理解,其Number-heads會(huì)影響注意力的效果進(jìn)而影響模型的最終結(jié)果。對(duì)多頭注意力Number-heads取4、8、12進(jìn)行實(shí)驗(yàn),結(jié)果見表9。

表9 頭數(shù)對(duì)模型性能的影響Table 9 Effect of number-heads on model performance

由表9可知,Multi-Head-Attention的頭數(shù)取8的時(shí)候,模型性能最好。當(dāng)頭數(shù)增加到12時(shí),Pre、Rec、F1-score分別下降了2.04、2.09、2.06個(gè)百分點(diǎn),這是因?yàn)轭^數(shù)過大會(huì)導(dǎo)致模型的結(jié)構(gòu)更加復(fù)雜,過多的注意力會(huì)引入噪聲使得模型性能下降。而當(dāng)頭數(shù)減少到4時(shí),Pre、Rec、F1-score分別下降了1.43、1.57、1.47個(gè)百分點(diǎn),這是因?yàn)轭^數(shù)過小會(huì)導(dǎo)致模型無法捕捉到多方面的信息。

4 結(jié)束語

針對(duì)旅游問句的文本長(zhǎng)短較短和口語化的特點(diǎn),本文提出了BGCMA模型,實(shí)驗(yàn)結(jié)果表明,該模型在旅游問句任務(wù)中取得了較高的精度,優(yōu)于主流的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,驗(yàn)證了其優(yōu)越性,為解決旅游問句分類提供了參考。在未來的工作中,將繼續(xù)擴(kuò)展數(shù)據(jù)集,考慮引入知識(shí)庫,在保持高精度的同時(shí)降低模型的訓(xùn)練耗時(shí),期望取得更快更好的問句分類效果。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 最新国语自产精品视频在| 欧美一区二区丝袜高跟鞋| 538国产在线| 久久美女精品| 福利小视频在线播放| 免费一级大毛片a一观看不卡| 538精品在线观看| 992tv国产人成在线观看| 在线五月婷婷| 国产97视频在线| 色婷婷色丁香| 又黄又湿又爽的视频| 99精品在线视频观看| 日韩欧美国产中文| 国产精品亚洲精品爽爽| 中文字幕无码av专区久久| 自拍亚洲欧美精品| 欧美国产视频| 亚洲男人的天堂在线观看| 午夜福利在线观看成人| 亚洲清纯自偷自拍另类专区| 97av视频在线观看| 99re在线观看视频| 97av视频在线观看| 色播五月婷婷| 热99re99首页精品亚洲五月天| 福利视频一区| 永久免费无码成人网站| 这里只有精品在线播放| 亚洲欧美精品一中文字幕| 久久美女精品| 香蕉精品在线| 中文字幕在线视频免费| 免费观看精品视频999| 人人看人人鲁狠狠高清| 欧美特黄一级大黄录像| 欧美日韩国产精品综合 | 亚洲国产欧洲精品路线久久| 色135综合网| 毛片在线播放网址| 成人亚洲天堂| 国产白浆视频| 九九香蕉视频| 久久性视频| 亚洲精品制服丝袜二区| 人妖无码第一页| 久久人人妻人人爽人人卡片av| 91小视频在线观看| 91福利一区二区三区| 欧美日韩高清在线| 国产系列在线| 亚洲男人的天堂久久香蕉网| 婷婷色婷婷| 一级黄色片网| 伊人AV天堂| 九色在线视频导航91| 亚洲国产第一区二区香蕉| 最新国产网站| 国产乱子伦一区二区=| 51国产偷自视频区视频手机观看| 亚洲午夜天堂| 欧美一级99在线观看国产| 色噜噜狠狠色综合网图区| 久久精品中文无码资源站| 亚洲欧洲自拍拍偷午夜色| 国产自在线播放| 色婷婷成人网| 极品国产在线| 尤物亚洲最大AV无码网站| 伊人激情综合| 国产啪在线| 尤物亚洲最大AV无码网站| 亚洲精品动漫| 97在线碰| 3344在线观看无码| 操国产美女| 午夜毛片免费观看视频 | 国产精品色婷婷在线观看| 操国产美女| 日韩精品一区二区三区免费在线观看| 超清人妻系列无码专区| 亚洲欧美精品在线|