基于多特征融合的意圖識(shí)別算法研究

2020-08-21 17:21:37周權(quán)陳永生郭玉臣

電腦知識(shí)與技術(shù) 2020年21期

周權(quán) 陳永生郭玉臣

摘要：針對(duì)中文口語(yǔ)短文本缺少上下文信息、語(yǔ)法不規(guī)范和噪聲較大等特征造成語(yǔ)義模糊，進(jìn)而導(dǎo)致用戶意圖識(shí)別準(zhǔn)確率不高的問(wèn)題，提出了一種基于多特征融合的意圖識(shí)別算法。算法對(duì)傳統(tǒng)Bi-LSTM（Bi-directional Long Shot-Term Memory）文本分類(lèi)算法進(jìn)行改進(jìn)，將原始文本的字向量、詞向量、詞性向量和實(shí)體知識(shí)庫(kù)向量進(jìn)行融合，結(jié)合字級(jí)別的意圖識(shí)別模型，在人工標(biāo)注的實(shí)際場(chǎng)景下的用戶意圖數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的用戶意圖識(shí)別算法在實(shí)際場(chǎng)景中準(zhǔn)確率等評(píng)價(jià)指標(biāo)有明顯提高。

關(guān)鍵詞：意圖識(shí)別;短文本分類(lèi);多特征融合;詞嵌入;深度學(xué)習(xí);Bi-LSTM

中圖分類(lèi)號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）21-0028-04

開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

1 引言

近年來(lái)，隨著“AI賦能”“智能+”等概念的不斷提出，人工智能技術(shù)推動(dòng)傳統(tǒng)產(chǎn)業(yè)向數(shù)字化、智能化方向升級(jí)，使人們的生活方式發(fā)生了翻天覆地的變化。即時(shí)通訊、智能客服、語(yǔ)音助理等應(yīng)用應(yīng)運(yùn)而生，極大地方便了人們的生活，在這些人機(jī)交互系統(tǒng)中，能夠正確識(shí)別用戶意圖是做出合理回應(yīng)的基礎(chǔ)，一旦用戶意圖判斷錯(cuò)誤，那么機(jī)器回應(yīng)就會(huì)出現(xiàn)答非所問(wèn)的情況，十分影響用戶體驗(yàn)。針對(duì)中文字符缺少空格來(lái)分割語(yǔ)義，口語(yǔ)語(yǔ)法靈活多變等特點(diǎn)，本文提出了一種基于多特征融合的意圖識(shí)別算法。該算法主要針對(duì)文本向量化表示和意圖分類(lèi)模型兩方面進(jìn)行改進(jìn)，實(shí)現(xiàn)更高精度的短文本分類(lèi)算法，從而準(zhǔn)確識(shí)別用戶意圖。

2 相關(guān)工作

意圖識(shí)別的一般流程是將輸入的文本轉(zhuǎn)換成結(jié)構(gòu)化的向量表示，再通過(guò)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)等算法給出句子X(jué)對(duì)應(yīng)的最佳意圖Z，通常作為標(biāo)準(zhǔn)的多分類(lèi)問(wèn)題進(jìn)行處理。如對(duì)問(wèn)句“東方衛(wèi)視這周天有什么節(jié)目”進(jìn)行分類(lèi)，得到意圖識(shí)別結(jié)果“影視領(lǐng)域一節(jié)目單意圖”。

2.1 文本表示

文本表示是自然語(yǔ)言處理領(lǐng)域中一個(gè)很基礎(chǔ)的研究工作。只有先將文本表示成計(jì)算機(jī)可以理解的形式，才能使用機(jī)器學(xué)習(xí)等方法進(jìn)行后續(xù)的處理。常見(jiàn)的文本表示方法分為離散表示和分布式表示兩種。從分詞粒度角度來(lái)看，又可以分為詞向量和字向量?jī)煞N類(lèi)型。

NLP中最常用、最傳統(tǒng)的此特征表示方式是采用One-Hot編碼[1]，即每一個(gè)特征詞都被表示成一個(gè)很長(zhǎng)的向量，其長(zhǎng)度等于詞表大小，當(dāng)前詞對(duì)應(yīng)位置為1，其他位置為0。當(dāng)時(shí)One-Hot編碼這種表示方式會(huì)導(dǎo)致不同次之間總是正交的，無(wú)法衡量不同詞之間的相似關(guān)系，而且只能反映每個(gè)詞是否出現(xiàn)，無(wú)法突出詞之間重要性的區(qū)別，丟失了很多語(yǔ)義上的信息。

分布式表示也被稱為詞嵌入（Word Embedding），1986年由Hinton提出[2]。分布式表示把信息分布式的存儲(chǔ)在指定維度的向量的各個(gè)維度中，區(qū)別于傳統(tǒng)的離散表示方法，由于在模型訓(xùn)練過(guò)程中考慮了單詞的上下文語(yǔ)義信息和語(yǔ)義環(huán)境等，因此生成的詞向量包含豐富的潛在語(yǔ)義信息。常用的模型有2013年Google開(kāi)源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook開(kāi)源的FastText[5]等。

2.2 意圖識(shí)別

用戶意圖識(shí)別是人機(jī)交互系統(tǒng)中關(guān)鍵性技術(shù)之一[6]，意圖識(shí)別的結(jié)果直接影響到交互系統(tǒng)做出回復(fù)的合理性[7]。意圖識(shí)別本身也是一個(gè)文本分類(lèi)問(wèn)題，其方法和模型與文本分類(lèi)大同小異，常用的有基于詞典模板的規(guī)則分類(lèi)、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的文本分類(lèi)。

傳統(tǒng)的意圖識(shí)別方法，一般通過(guò)樸素貝葉斯、支持向量機(jī)（SVM）、隱馬爾科夫（HMM）和決策樹(shù)（DT）等機(jī)器學(xué)習(xí)方法，在有標(biāo)簽的意圖文本上訓(xùn)練分類(lèi)模型，進(jìn)行意圖識(shí)別。在簡(jiǎn)單的意圖識(shí)別任務(wù)中取得了一定的效果，但隨著意圖類(lèi)別的增加，這類(lèi)基于人工特征的分類(lèi)模型并不能有效提取文本的深層語(yǔ)義信息，尤其是在口語(yǔ)短文本這類(lèi)意圖識(shí)別問(wèn)題上，數(shù)據(jù)表示更為稀疏，使得算法準(zhǔn)確率難以提高。

近年來(lái)，深度學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別中取得了顯著的成果。在自然語(yǔ)言處理中，使用CNN、LSTM、RCNN等深度學(xué)習(xí)算法來(lái)學(xué)習(xí)單詞向量表示，進(jìn)行文本特征提取，在意圖識(shí)別任務(wù)中取得了不錯(cuò)的效果。2014年Yoom Kim提出TextCNN[8]，使用預(yù)先訓(xùn)練好的詞向量作為Embedding Layer，通過(guò)不同尺寸的卷積核提取文本的局部相關(guān)性信息，在進(jìn)行分類(lèi)。TextCNN對(duì)文本的淺層特征抽取能力強(qiáng)，且速度很快，但由于主要依靠Filter窗口來(lái)抽取特征，在長(zhǎng)距離建模方面能力受限，且對(duì)語(yǔ)序不敏感。同年，Chung J等人提出TextRNN[9]，RNN模型由于具有短期記憶功能，因此天然就比較適合處理自然語(yǔ)言的序列問(wèn)題，尤其是引入門(mén)控制機(jī)制后的LSTM，能夠解決長(zhǎng)期依賴問(wèn)題，捕獲輸入樣本之間的長(zhǎng)距離聯(lián)系，但在狀態(tài)轉(zhuǎn)移過(guò)程中，容易遺忘位置相對(duì)靠前的詞。2015年Tex-tRCNN[10]，將CNN的卷積層替換為雙向RNN，結(jié)合了CNN對(duì)重要特征的提取能力和RNN對(duì)句子上下文信息的捕獲能力，在文本分類(lèi)任務(wù)上取得了不錯(cuò)的效果。

近兩年Attention Model在自然語(yǔ)言處理領(lǐng)域大放異彩，Peng Zhou等人在Bi-LSTM的模型上加入Attention層[11]，先計(jì)算每個(gè)時(shí)序的權(quán)重，然后將所有時(shí)序的向量的加權(quán)和作為特征向量，再進(jìn)行softmax分類(lèi)，實(shí)驗(yàn)的評(píng)測(cè)結(jié)果表明，Attention能夠提高模型的性能表現(xiàn)。

綜上所述，國(guó)內(nèi)外學(xué)者在文本表示與意圖識(shí)別方面已經(jīng)做了大量的研究工作，并取得了一些進(jìn)展。但是對(duì)于用戶意圖識(shí)別這類(lèi)中文短文本分類(lèi)任務(wù)，由于中文不同于英文，缺少顯式的單詞分割和專有名詞標(biāo)識(shí);而且口語(yǔ)化的文本一般長(zhǎng)度較短，噪聲較大，不完全符合語(yǔ)法規(guī)范等，這些特點(diǎn)導(dǎo)致在某些領(lǐng)域上使用傳統(tǒng)短文本分類(lèi)算法的用戶意圖識(shí)別效果較差。因此，本文在傳統(tǒng)Bi-LSTM短文本分類(lèi)算法的基礎(chǔ)上，從豐富文本特征信息和增強(qiáng)分類(lèi)模型魯棒性兩個(gè)角度，提出了一種基于多特征融合的意圖識(shí)別算法，使用戶意圖分類(lèi)算法更具有判別性。

3 基于多特征融合的意圖識(shí)別模型

在本部分中，我們將介紹本文提出的針對(duì)中文短文本意圖分類(lèi)問(wèn)題的深度學(xué)習(xí)模型，以及多特征融合的具體方式。整個(gè)模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分組成，下圖1展示了模型的整體結(jié)構(gòu)。

3.1 Word Embedding多特征融合

對(duì)于基于深度學(xué)習(xí)的自然語(yǔ)言處理任務(wù)，Word Embedding是最基本的輸入組成之一。針對(duì)字向量和詞向量的局限性，將字向量、詞向量和詞性向量進(jìn)行拼接，組成字一詞向量，在不丟失詞特征的同時(shí)，降低由分詞錯(cuò)誤對(duì)意圖識(shí)別帶來(lái)的嚴(yán)重影響。在字一詞向量的基礎(chǔ)上，再拼接實(shí)體知識(shí)庫(kù)向量，組成多特征融合向量，作為Word Embedding輸入模型，為模型提供了一定的先驗(yàn)知識(shí)。各向量的拼接方式如下圖2所示：

其中實(shí)體知識(shí)庫(kù)部分，我們維護(hù)了一個(gè)包括影視劇名、地名和人名等信息的實(shí)體字典，采用5 -gram的方式構(gòu)造實(shí)體知識(shí)庫(kù)向量。以“播放澳門(mén)風(fēng)云”這個(gè)句子為例，分別判斷每一個(gè)字符、字符所在詞及左右5-Gram的字符串是否在實(shí)體知識(shí)庫(kù)中，若存在，則在向量對(duì)應(yīng)位置上給予標(biāo)記，最終生成一個(gè)長(zhǎng)度為10的實(shí)體知識(shí)庫(kù)向量，下圖3具體展示了“澳”字的實(shí)體知識(shí)庫(kù)向量構(gòu)成。

3.2 意圖識(shí)別

在Bi-LSTM模型的每一個(gè)隱層狀態(tài)中都融合了整個(gè)句子的信息，我們不僅將最后一個(gè)隱層狀態(tài)作為模型輸出向量進(jìn)行分類(lèi)，而是綜合利用每一個(gè)隱層狀態(tài)的輸出，對(duì)每個(gè)單詞分類(lèi)，得到每個(gè)單詞的意圖分類(lèi)結(jié)果。

對(duì)一個(gè)含有m個(gè)字符的句子，給定其編碼表示E，經(jīng)過(guò)雙向LSTM進(jìn)行編碼，得到隱層狀態(tài)：

4 實(shí)驗(yàn)及結(jié)果分析

4.1實(shí)驗(yàn)環(huán)境

硬件環(huán)境，如下表1所示：主要軟件環(huán)境，如下表2所示：

4.2 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某影視公司語(yǔ)音助手業(yè)務(wù)非公開(kāi)數(shù)據(jù)，共計(jì)62438條記錄，包括影視搜索、節(jié)目單查詢、控制指令、影視信息查詢、明星關(guān)系查詢、生活技能等20個(gè)意圖。

4.3 實(shí)驗(yàn)過(guò)程與結(jié)果分析

本項(xiàng)目訓(xùn)練集、驗(yàn)證集和測(cè)試集按照7：2：1比例進(jìn)行劃分，采用十折交叉驗(yàn)證的方式選擇合適的超參數(shù)。本實(shí)驗(yàn)測(cè)試結(jié)果如下表4所示：

最終結(jié)果表明，我們提出的模型在宏平均準(zhǔn)確率，宏平均召回率和準(zhǔn)確率上相比Bi-LSTM和Char-CNN等基準(zhǔn)模型有明顯的提高，充分證明了模型的有效性。

5 總結(jié)

針對(duì)用戶意圖識(shí)別任務(wù)，本文提出了一種基于多特征融合的意圖分類(lèi)模型。該模型通過(guò)融合字向量、詞向量、詞性向量和實(shí)體知識(shí)庫(kù)向量等豐富了Word Embedding的語(yǔ)義信息。同時(shí)對(duì)每一個(gè)字符均進(jìn)行意圖識(shí)別，最后使用投票機(jī)制確定整個(gè)句子的最終意圖，增強(qiáng)了模型的泛化能力。但從算法的推理時(shí)間來(lái)看，還需進(jìn)一步優(yōu)化，以應(yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景。

參考文獻(xiàn)：

[1] Turian J，Ratinov L，Bengio Y.Word representations：a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics， Uppsala， Sweden， Association for Compu-tational Linguistics： Uppsala， Sweden. 2010：384 394.

[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society， Amherst， Mass： 1986：1-12.

[3] Mikolov T，Chen K，Corrado G，et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013： arXiv：1301.3781[cs.CL].

https ：//arxiv.org/abs/ 1301.3 7 81

[4] Pennington J，Socher R，Manning C D. Glove： Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing （EMNLP），2014; pp 1532-1543.

[5] Joulin A，Grave E，Bojanowski P，et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016： arXiv： 1607.01759[cs. CL].https：//arxiv.org/ab s/ 1607.0175 9

[6] Liu， B.; Lane， l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv：1609.01454 2016.

[7]靳小波.文本分類(lèi)綜述[J].自動(dòng)化博覽，2006，23（z1）：24-29.

[8] Sarikaya R，Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics， speech and signal processing （lCASSP），lEEE： 2011：5680-5683.

[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence （AAAI-18）， 2018：6053-6060.

[10] Lai S，Xu L，Liu K，et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence， 2015：2267-2273.

[11] Zhou P， Shi W， Tian J， et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics （volume 2： Short papers）， 2016：207-212.

作者簡(jiǎn)介：周權(quán)（1995-），男，山東濱州人，學(xué)生，研究生，主要研究方向?yàn)樽匀徽Z(yǔ)言處理。