融合主題信息和Transformer模型的健康問(wèn)句意圖分類(lèi)

2021-12-08 07:05:02遲海洋徐廣義

小型微型計(jì)算機(jī)系統(tǒng) 2021年12期

遲海洋,嚴(yán) 馨,徐廣義,陳瑋,周楓

1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500) 2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500) 3(云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650040) E-mail:kg_yanxin@sina.com

1 引言

信息技術(shù)的發(fā)展和智能設(shè)備的普及極大地改善和提高了人們的生活質(zhì)量.在醫(yī)療方面,用戶(hù)可以利用在線(xiàn)問(wèn)答社區(qū)、網(wǎng)站等方式來(lái)咨詢(xún)、獲取健康服務(wù)和信息,如通過(guò)各種在線(xiàn)問(wèn)診平臺(tái)或網(wǎng)站查找和咨詢(xún)健康問(wèn)題已逐漸成為人們到醫(yī)院就診前的首先步驟.基于醫(yī)療問(wèn)答社區(qū)產(chǎn)生的大量健康問(wèn)句數(shù)據(jù)、記錄具有豐富的醫(yī)療、研究和實(shí)用價(jià)值.通過(guò)對(duì)用戶(hù)提出的健康問(wèn)句分類(lèi)和分析,一方面可以提高已回答問(wèn)題的檢索效率、提升用戶(hù)體驗(yàn);另一方面還可以創(chuàng)造更多的價(jià)值,如向用戶(hù)推薦相關(guān)的醫(yī)師和科室等.

問(wèn)答系統(tǒng)的關(guān)鍵是要準(zhǔn)確理解和識(shí)別用戶(hù)問(wèn)題的意圖[1],并能準(zhǔn)確地返回給用戶(hù)預(yù)期的答案.而對(duì)用戶(hù)的健康問(wèn)句意圖識(shí)別可以看作分類(lèi)問(wèn)題[2,3],即事先在該領(lǐng)域范圍內(nèi)定義可能的意圖類(lèi)別,再用分類(lèi)方法將問(wèn)句劃分到合適的類(lèi)中.目前在用戶(hù)意圖分類(lèi)研究中,對(duì)已有的方法進(jìn)行總結(jié),大致劃分為3類(lèi):

1)基于規(guī)則的方法:該方法需要通過(guò)領(lǐng)域?qū)＜胰斯ぬ崛♂槍?duì)特定問(wèn)題類(lèi)型的特征規(guī)則,進(jìn)而構(gòu)建一個(gè)基于規(guī)則的分類(lèi)器對(duì)問(wèn)句進(jìn)行分類(lèi).Ramanand等[4]提出基于規(guī)則和圖的方法來(lái)獲取意圖模板進(jìn)而實(shí)現(xiàn)用戶(hù)的消費(fèi)意圖.Campillos等[5]通過(guò)預(yù)先構(gòu)建的規(guī)則與問(wèn)句中相關(guān)字詞、句子匹配,實(shí)現(xiàn)了對(duì)醫(yī)療健康問(wèn)題的分類(lèi).該方法雖然對(duì)數(shù)據(jù)依賴(lài)性小,但需要定義大量的規(guī)則、費(fèi)時(shí)費(fèi)力且泛化能力較弱,很難構(gòu)建一個(gè)通用的規(guī)則架構(gòu).

2)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法:該方法基于特征工程,不需要人工定義大量的規(guī)則.陳浩辰[6]分別使用SVM和Na?ve Bayes分類(lèi)器實(shí)現(xiàn)了對(duì)微博語(yǔ)料的消費(fèi)意圖分類(lèi).Roberts等[7]使用k近鄰算法幫助對(duì)醫(yī)學(xué)問(wèn)題的資源類(lèi)型進(jìn)行分類(lèi);Guo等[8]采用SVM對(duì)中文醫(yī)療健康問(wèn)句進(jìn)行分類(lèi).雖然該方法取得了不錯(cuò)的效果,但仍然存在諸多問(wèn)題:一方面,傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要人工構(gòu)建分類(lèi)特征,成本較高;當(dāng)數(shù)據(jù)集變化時(shí),會(huì)演變成特征設(shè)計(jì)、特征選取問(wèn)題.另一方面,選取的分類(lèi)特征難以獲取句子中詞與詞之間的深層語(yǔ)義信息,最終無(wú)法準(zhǔn)確理解用戶(hù)問(wèn)句的語(yǔ)義信息.

3)基于深度學(xué)習(xí)的方法:該方法不需要人工顯式地給定分類(lèi)特征,極大降低了獲取文本特征的難度.目前深度學(xué)習(xí)技術(shù)快速發(fā)展、已成為研究熱點(diǎn),在NLP領(lǐng)域得到廣泛的應(yīng)用.Ravuri等[9]提出將LSTM與RNN兩種模型應(yīng)用于意圖分類(lèi)問(wèn)題.Hughes等[10]使用CNN對(duì)臨床文本進(jìn)行分類(lèi).錢(qián)岳等[11]構(gòu)建了一種基于卷積的長(zhǎng)短期記憶網(wǎng)絡(luò)(Convolutional-LSTM)模型對(duì)用戶(hù)的出行消費(fèi)意圖識(shí)別,相較于傳統(tǒng)機(jī)器學(xué)習(xí)和單獨(dú)使用CNN或LSTM的深度學(xué)習(xí)方法,F值有較為不錯(cuò)的提升.唐曉波等[12]提出了一種基于關(guān)鍵詞詞向量特征擴(kuò)展的健康問(wèn)句分類(lèi)模型,使用LDA提取問(wèn)句關(guān)鍵字并對(duì)其進(jìn)行詞向量特征擴(kuò)展,最后由CNN實(shí)現(xiàn)分類(lèi),有效提升了健康問(wèn)句的分類(lèi)效果.余慧等[13]構(gòu)建了基于BTM(Biterm Topic Model)-BiGRU的意圖識(shí)別模型,利用BTM主題建模對(duì)短文本進(jìn)行主題特征挖掘并結(jié)合深度學(xué)習(xí)的方法采用雙向GRU網(wǎng)絡(luò)捕獲上下文信息,在用戶(hù)就醫(yī)意圖識(shí)別上獲得理想的效果.張志昌等[14]使用卷積和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò),構(gòu)建了一種融合局部語(yǔ)義信息和全局結(jié)構(gòu)信息的中文醫(yī)療健康問(wèn)題分類(lèi)方法,在中文醫(yī)療健康數(shù)據(jù)集上取得了非常好的效果.現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體結(jié)構(gòu)獲取整個(gè)句子序列信息有限,且中文醫(yī)療健康問(wèn)句文本長(zhǎng)度較短、字符數(shù)少、特征稀疏,不宜看作為一般的文本分類(lèi)任務(wù)[15],分類(lèi)性能尚有提升空間.

針對(duì)上述問(wèn)題,本文提出一種融合主題信息和Transformer模型的健康問(wèn)句意圖分類(lèi)方法,主要貢獻(xiàn)如下:

1)針對(duì)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的不足,構(gòu)建完全基于多頭自注意力機(jī)制的Transformer意圖分類(lèi)模型,充分提取句子內(nèi)的語(yǔ)義信息.

2)針對(duì)中文醫(yī)療健康問(wèn)句數(shù)據(jù)量龐大且文本字符數(shù)少、特征稀疏的特點(diǎn),引入BTM主題模型對(duì)用戶(hù)問(wèn)句隱含主題建模,可以更好地對(duì)問(wèn)句進(jìn)行特征挖掘.

2 背景知識(shí)

2.1 主題模型

主題模型作為語(yǔ)義挖掘的利器,是一種對(duì)文字隱含主題進(jìn)行建模的方法.主題是一個(gè)概念、一個(gè)方面,表現(xiàn)為一系列相關(guān)的詞語(yǔ),用數(shù)學(xué)語(yǔ)言描述,主題就是詞匯表上詞語(yǔ)的條件概率分布,與主題關(guān)系越密切的詞語(yǔ),它的條件概率越大,反之則越小.例如一個(gè)文本若是涉及“癥狀”這個(gè)主題,那么“癥狀”“表現(xiàn)”等詞語(yǔ)便會(huì)以較高的頻率出現(xiàn).

傳統(tǒng)的主題模型主要是通過(guò)計(jì)算詞項(xiàng)在文本中的重要性來(lái)建模,若文本內(nèi)容較短、數(shù)據(jù)稀疏則難以計(jì)算詞項(xiàng)的重要性.針對(duì)LDA對(duì)短文本建模的缺陷,BTM主題模型應(yīng)運(yùn)而生[16-18].BTM模型的思想是對(duì)數(shù)據(jù)集中的同一上下文共同出現(xiàn)的一對(duì)無(wú)序詞項(xiàng)進(jìn)行建模,通過(guò)分析建模的結(jié)果,兩個(gè)詞項(xiàng)是否屬于同一類(lèi)別取決于它們的共現(xiàn)次數(shù).

2.2 Transformer

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)如RNN、LSTM在編碼句子時(shí)無(wú)法進(jìn)行并行計(jì)算,若層數(shù)較深時(shí)計(jì)算速度更是嚴(yán)重下降.雖然CNN能夠?qū)崿F(xiàn)并行計(jì)算,但不能直接處理過(guò)長(zhǎng)的序列樣本.針對(duì)以上提到的CNN、RNN、LSTM的不足,2017年Vaswani等[19]提出了一種基于自注意力機(jī)制的Seq2Seq模型Transformer,該模型可以將序列中所有單詞并行處理,同時(shí)將上下文與較遠(yuǎn)的單詞結(jié)合起來(lái),在每個(gè)步驟中,每一個(gè)符號(hào)的信息都可以借助自注意力機(jī)制與其他所有的符號(hào)進(jìn)行溝通.Transformer模型包含編碼器和解碼器兩個(gè)部分,編碼器由N個(gè)網(wǎng)絡(luò)塊組成,每一個(gè)塊中包含一個(gè)自注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層,同時(shí)每個(gè)子層中還加入了殘差網(wǎng)絡(luò)和歸一化;解碼器的網(wǎng)絡(luò)塊一般與編碼器網(wǎng)絡(luò)塊相同,也是由N(一般為6)個(gè)網(wǎng)絡(luò)塊組成,不過(guò)解碼器的網(wǎng)絡(luò)中多了一個(gè)Masked 多頭注意力層.

3 模型構(gòu)建

本文通過(guò)Transformer模型學(xué)習(xí)句子序列信息,可以使模型更加專(zhuān)注詞的不同位置,進(jìn)而理解句子中詞之間的順序和距離信息,同時(shí)考慮到中文醫(yī)療健康問(wèn)句的特點(diǎn)以及BTM主題模型處理中文短文本語(yǔ)料的優(yōu)勢(shì),利用BTM對(duì)主題建模和使用主題詞向量模型[20]TWE(Topical Word Embedding)進(jìn)行主題嵌入從而獲得詞級(jí)主題特征向量作為額外的特征信息,可以使模型充分利用句子的各種特征信息,進(jìn)而有效的識(shí)別出句子的意圖類(lèi)別.融合主題信息和Transformer模型的問(wèn)句意圖分類(lèi)模型框架如圖1所示.

圖1 模型框架圖Fig.1 Model frame diagram

3.1 BTM建模

針對(duì)中文醫(yī)療健康問(wèn)句的特點(diǎn),若使用傳統(tǒng)的詞共現(xiàn)方式進(jìn)行主題挖掘,效果不夠理想,因此本文采用Cheng等[21]提出的利用詞對(duì)共現(xiàn)代替詞共現(xiàn)的方法來(lái)進(jìn)行主題建模.Bi-term表示出現(xiàn)在同一文本中的兩個(gè)無(wú)序詞構(gòu)成的詞對(duì),BTM通過(guò)對(duì)可以表達(dá)潛在主題的Bi-term的生成過(guò)程進(jìn)行建模,以潛在的方式反映語(yǔ)料庫(kù)中的語(yǔ)義結(jié)構(gòu),解決了短文本數(shù)據(jù)稀疏的問(wèn)題.

Step 1.構(gòu)建語(yǔ)料主題分布θ～Dirichlet(α).

Step 2.對(duì)于每個(gè)主題k,k ∈[1,K],K為整個(gè)語(yǔ)料庫(kù)中的主題數(shù)目,從參數(shù)為β的Dirichlet先驗(yàn)中生成主題-詞匯分布φk～Dirichlet(β).

Step 3.對(duì)于每一個(gè)詞對(duì)bi∈B:

Step 3.1.從整個(gè)語(yǔ)料庫(kù)的主題分布θ中抽取一個(gè)zi來(lái)生成詞對(duì)的主題分配,記為zi～Multinational(θ).

Step 3.2.從抽取的主題z中獲取詞對(duì)b的兩個(gè)不同詞wi,1,wi,2,且wi,1,wi,2～Multitional(φk).

BTM生成過(guò)程如圖2所示.

圖2 BTM的圖解模型Fig.2 Graphical model of BTM

3.2 詞-主題向量

給定數(shù)據(jù)集,通過(guò)BTM主題建模最終可以推斷語(yǔ)料中主題-詞概率分布p(wi|zi)及文檔-主題概率分布p(zi|s),由主題-詞概率分布和文檔-主題概率分布可以得到詞在各個(gè)主題下的對(duì)應(yīng)概率分布pwi,基于開(kāi)源的TWE模型訓(xùn)練后可以生成主題向量矩陣Wt.設(shè)給定文本序列S=(w1,w2,…,wn),第i個(gè)詞wi對(duì)應(yīng)主題zj的概率可由公式(1)計(jì)算所得:

p(zj|wi,s)=p(wi|zj)×p(zj|s)

(1)

對(duì)于每一個(gè)主題計(jì)算wi對(duì)應(yīng)的主題概率分布并進(jìn)行歸一化操作,可以得到wi在不同主題下的概率分布pwi,計(jì)算方法見(jiàn)公式(2):

pwi=[p(z1|wi,s),p(z2|wi,s),…,p(zK|wi,s)]

(2)

其中,pwi可以反映wi在不同主題下的權(quán)重.

基于wi的主題概率分布pwi與主題向量矩陣Wt相乘可以獲得詞wi所對(duì)應(yīng)的主題詞向量,計(jì)算方法見(jiàn)公式(3):

(3)

將詞wi的主題詞向量twi作為附加特征與其相對(duì)應(yīng)的詞向量W[wi]進(jìn)行拼接,生成詞的最終表示,見(jiàn)公式(4):

xi=W[wi]?twi

(4)

3.3 Transformer編碼器模型

為了學(xué)習(xí)輸入序列的句子表示,本文將融合了詞主題信息的詞向量集合X={x1,x2,…,xn}輸入到Transformer編碼器網(wǎng)絡(luò)中,進(jìn)行特征提取,如圖3所示.本文只使用Transformer的編碼器部分,Transformer編碼器由兩個(gè)子層組成,結(jié)構(gòu)如圖4所示.

圖3 基于Transformer編碼器模型Fig.3 Encoder model based on Transformer

圖4 Transformer編碼器結(jié)構(gòu)Fig.4 Transformer encoder structure

Transformer獲取句子序列特征過(guò)程如下:

1)將融合了主題詞向量的序列X輸入到編碼器中.

2)由于Transformer模型缺少對(duì)輸入序列中詞語(yǔ)順序的表示,所以在編碼器層的輸入添加一個(gè)位置編碼向量Positional Encoding,該向量決定當(dāng)前詞在序列中的位置,計(jì)算方法見(jiàn)公式(5)、公式(6):

PE(pos,2i)=sin(pos/100002i/dmodel)

(5)

PE(pos,2i+1)=cos(pos/100002i/dmodel)

(6)

其中,pos表示當(dāng)前詞在句子中的位置,i表示向量中每個(gè)值的索引,dmodel表示詞向量的維度.

3)多頭自注意力的輸出計(jì)算見(jiàn)公式(7)-公式(9):

(7)

(8)

Z=MultiHead(Q,K,V)=Concat(head1…h(huán)eadh)WO

(9)

4)利用殘差連接和層歸一化調(diào)整特征信息,可以有效避免梯度消失、加快收斂速度和提高模型的性能,計(jì)算見(jiàn)公式(10):

L=LayerNorm(X+Z)

(10)

其中,LayerNorm為歸一化函數(shù).

5)通過(guò)前饋神經(jīng)網(wǎng)絡(luò)對(duì)經(jīng)過(guò)殘差連接和歸一化處理的輸出L做兩次線(xiàn)性變換,并使用ReLU激活函數(shù)激活,計(jì)算見(jiàn)公式(11):

FFN(L)=max(0,LW1+b1)W2+b2

(11)

其中,W1,W2為權(quán)重矩陣,b1,b2為偏置矩陣.

6)最后再通過(guò)一次殘差網(wǎng)絡(luò)和層歸一化調(diào)整特征信息作為T(mén)ransformer編碼器的最后輸出,見(jiàn)公式(12):

S=LayerNorm(L+FFN(L))

(12)

3.4 分類(lèi)層

本文使用Softmax分類(lèi)器計(jì)算問(wèn)句被分到每個(gè)類(lèi)別標(biāo)簽的概率,從而實(shí)現(xiàn)問(wèn)句的意圖分類(lèi);通過(guò)反向傳播機(jī)制對(duì)模型中的參數(shù)不斷進(jìn)行訓(xùn)練,利用最小化交叉熵對(duì)模型進(jìn)行優(yōu)化,見(jiàn)公式(13)、公式(14)所示.

y=softmax(WfS+bf)

(13)

其中,Wf為全連接層的權(quán)重矩陣,bf為偏置.

(14)

4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

4.1 數(shù)據(jù)集

本文采用的實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于兩部分:

1)網(wǎng)絡(luò)(1)https://github.com/zhangsheng93/cMedQA2中整理的中文醫(yī)學(xué)QA數(shù)據(jù)集questions.csv文件中提供的用戶(hù)問(wèn)句,該數(shù)據(jù)集所含用戶(hù)問(wèn)句豐富,累計(jì)數(shù)量擁有12萬(wàn)條.本文從中隨機(jī)抽取20%的樣本,為了提高樣本的質(zhì)量,先對(duì)抽取的樣本進(jìn)行篩選,剔除多意圖或意圖不明確的樣本,確保每個(gè)問(wèn)句只含有單一意圖,再將其分成四部分交由四組人員獨(dú)立對(duì)其進(jìn)行人工標(biāo)注,通過(guò)匹配每組人員的語(yǔ)料標(biāo)注結(jié)果,去掉標(biāo)注不一致部分從而確定每個(gè)樣本的分類(lèi)標(biāo)簽.

2)爬取國(guó)內(nèi)知名健康網(wǎng)站:尋醫(yī)問(wèn)藥網(wǎng)(2)http://z.xywy.com/、好大夫在線(xiàn)(3)https://www.haodf.com/,近一年用戶(hù)提出的健康問(wèn)句[22].考慮到隨機(jī)抽取的樣本中存在數(shù)據(jù)不平衡的現(xiàn)象,其中病因和治療類(lèi)的數(shù)據(jù)偏多,所以通過(guò)爬取在線(xiàn)健康網(wǎng)站的部分語(yǔ)料作為擴(kuò)充.

目前分類(lèi)體系尚無(wú)統(tǒng)一的標(biāo)準(zhǔn),具體到健康醫(yī)療領(lǐng)域,若使用開(kāi)放領(lǐng)域的問(wèn)句分類(lèi)方式難以滿(mǎn)足其分類(lèi)需求,還需面向領(lǐng)域知識(shí)的主題分類(lèi)[22],本文在基于健康問(wèn)答社區(qū)的主題分析、中文健康問(wèn)句分類(lèi)[23-25]以及綜合分析語(yǔ)料中所涉及的用戶(hù)的問(wèn)題基礎(chǔ)上,根據(jù)期望查詢(xún)目標(biāo)將用戶(hù)問(wèn)句大致歸類(lèi)并在此基礎(chǔ)上開(kāi)展實(shí)驗(yàn).對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理后得到20000條樣本,每種類(lèi)別的樣本數(shù)量、類(lèi)別標(biāo)簽及示例如表1所示.

表1 意圖分類(lèi)及示例Table 1 Intent classification and examples

4.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)基于Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),使用Adam優(yōu)化器,學(xué)習(xí)率為0.001,模型具體參數(shù)設(shè)置如表2所示.

表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameter setting

4.3 評(píng)價(jià)指標(biāo)

本文采用精確率P(Precision)、召回率R(Recall)及F1值來(lái)對(duì)問(wèn)句意圖分類(lèi)效果進(jìn)行評(píng)價(jià),計(jì)算見(jiàn)公式(15)-公式(17):

(15)

(16)

(17)

其中TP表示將正類(lèi)預(yù)測(cè)為正類(lèi)的問(wèn)題數(shù);FP表示將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的問(wèn)題數(shù);FN表示將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的問(wèn)題數(shù).

4.4 對(duì)比實(shí)驗(yàn)與結(jié)果

本文實(shí)驗(yàn)中,將原始語(yǔ)料經(jīng)過(guò)預(yù)處理后按9∶1比例分為訓(xùn)練集和測(cè)試集,并在谷歌提供的BERT預(yù)訓(xùn)練模型基礎(chǔ)上對(duì)數(shù)據(jù)集進(jìn)行fine-tune,生成詞向量.

為驗(yàn)證模型的有效性,本文使用同一個(gè)數(shù)據(jù)集,選取經(jīng)典的機(jī)器學(xué)習(xí)方法(SVM)和深度學(xué)習(xí)方法(CNN[26]、LSTM[27])作為基線(xiàn)并與本文采用的Transformer編碼器網(wǎng)絡(luò)作對(duì)比實(shí)驗(yàn);同時(shí),將本文提出的融合了詞主題信息的BTM-Transformer模型與LDA-CNN[12]、BTM-BiGRU[13]模型作對(duì)比實(shí)驗(yàn).不同方法在測(cè)試語(yǔ)料上整體分類(lèi)性能對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表3,不同方法在其各個(gè)意圖分類(lèi)中F1值比較見(jiàn)表4.

表3 不同方法對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparative results of different experimental methods

4.5 實(shí)驗(yàn)分析

由表3、表4可以看出,本文提出的融合詞主題信息和Transformer模型的問(wèn)句意圖分類(lèi)方法在本文構(gòu)建的語(yǔ)料中取得了最好的效果.

表4 不同方法在其各個(gè)意圖分類(lèi)中F1值比較Table 4 Comparison of F1 values in each intention classification in different methods %

相較于傳統(tǒng)的SVM機(jī)器學(xué)習(xí)方法,基于深度學(xué)習(xí)的方法在意圖識(shí)別效果上均有較大的提高.

對(duì)比CNN、LSTM、Transformer這3種深度學(xué)習(xí)網(wǎng)絡(luò)模型,Transformer表現(xiàn)出了更強(qiáng)的特征獲取和表達(dá)能力.雖然CNN獲取句子局部特征能力較強(qiáng),但缺乏對(duì)整個(gè)句子的語(yǔ)義表達(dá)和上下文時(shí)序關(guān)系的建模.基于LSTM的分類(lèi)方法較SVM和CNN均有所提高,但存在捕捉特征不全、長(zhǎng)程依賴(lài)、無(wú)法挖掘句子深層次信息以及梯度消失和爆炸的問(wèn)題.由表4可以看出基于LSTM的分類(lèi)方法在某些類(lèi)別上提升并不明顯.基于Transformer的模型比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)可以提取到句子中更豐富的特征信息,語(yǔ)義編碼能力更強(qiáng).使用Transformer編碼器提取句子特征,可以很好地捕捉到句子的長(zhǎng)依賴(lài)特征以及充分提取句子內(nèi)的語(yǔ)義信息,實(shí)現(xiàn)對(duì)句子的深層次語(yǔ)義編碼,提升模型性能.

對(duì)比LDA-CNN、BTM-BiGRU、BTM-Transformer這3種方法,本文提出的BTM-Transformer模型效果最佳.針對(duì)中文醫(yī)療健康問(wèn)句文本字符數(shù)少、特征稀疏的特點(diǎn),引入BTM主題模型可以更好地對(duì)問(wèn)句進(jìn)行特征挖掘,說(shuō)明融合了詞主題信息的詞向量能夠豐富問(wèn)句語(yǔ)義信息、緩解數(shù)據(jù)特征稀疏的問(wèn)題,融入主題信息有助于提升模型整體分類(lèi)性能.

5 結(jié)束語(yǔ)

本文提出了一種融合主題信息和Transformer模型的健康問(wèn)句意圖分類(lèi)方法,將詞向量和詞的主題向量拼接融合在一起,考慮了詞級(jí)別和主題級(jí)別兩個(gè)粒度的語(yǔ)義抽象表示,緩解了中文醫(yī)療健康問(wèn)句文本字符數(shù)少、特征稀疏的問(wèn)題;利用Transformer編碼器對(duì)句子進(jìn)行充分的特征提取,增強(qiáng)了問(wèn)句表示,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型相比效果提升顯著.在健康問(wèn)句數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的方法能有效提升意圖分類(lèi)效果,驗(yàn)證了該模型的有效性.

在下一步研究工作中,可以進(jìn)一步考慮將句子層面上的主題特征加入到模型中,增強(qiáng)問(wèn)句的語(yǔ)義表示;同時(shí)嘗試結(jié)合知識(shí)圖譜來(lái)豐富短文本的語(yǔ)義信息,更好地解決數(shù)據(jù)稀疏問(wèn)題,提升短文本分類(lèi)性能.