999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的意圖識(shí)別算法研究

2020-08-21 17:21:37周權(quán)陳永生郭玉臣
電腦知識(shí)與技術(shù) 2020年21期
關(guān)鍵詞:深度學(xué)習(xí)

周權(quán) 陳永生 郭玉臣

摘要:針對(duì)中文口語短文本缺少上下文信息、語法不規(guī)范和噪聲較大等特征造成語義模糊,進(jìn)而導(dǎo)致用戶意圖識(shí)別準(zhǔn)確率不高的問題,提出了一種基于多特征融合的意圖識(shí)別算法。算法對(duì)傳統(tǒng)Bi-LSTM(Bi-directional Long Shot-Term Memory)文本分類算法進(jìn)行改進(jìn),將原始文本的字向量、詞向量、詞性向量和實(shí)體知識(shí)庫向量進(jìn)行融合,結(jié)合字級(jí)別的意圖識(shí)別模型,在人工標(biāo)注的實(shí)際場景下的用戶意圖數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的用戶意圖識(shí)別算法在實(shí)際場景中準(zhǔn)確率等評(píng)價(jià)指標(biāo)有明顯提高。

關(guān)鍵詞:意圖識(shí)別;短文本分類;多特征融合;詞嵌入;深度學(xué)習(xí);Bi-LSTM

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)21-0028-04

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

1 引言

近年來,隨著“AI賦能”“智能+”等概念的不斷提出,人工智能技術(shù)推動(dòng)傳統(tǒng)產(chǎn)業(yè)向數(shù)字化、智能化方向升級(jí),使人們的生活方式發(fā)生了翻天覆地的變化。即時(shí)通訊、智能客服、語音助理等應(yīng)用應(yīng)運(yùn)而生,極大地方便了人們的生活,在這些人機(jī)交互系統(tǒng)中,能夠正確識(shí)別用戶意圖是做出合理回應(yīng)的基礎(chǔ),一旦用戶意圖判斷錯(cuò)誤,那么機(jī)器回應(yīng)就會(huì)出現(xiàn)答非所問的情況,十分影響用戶體驗(yàn)。針對(duì)中文字符缺少空格來分割語義,口語語法靈活多變等特點(diǎn),本文提出了一種基于多特征融合的意圖識(shí)別算法。該算法主要針對(duì)文本向量化表示和意圖分類模型兩方面進(jìn)行改進(jìn),實(shí)現(xiàn)更高精度的短文本分類算法,從而準(zhǔn)確識(shí)別用戶意圖。

2 相關(guān)工作

意圖識(shí)別的一般流程是將輸入的文本轉(zhuǎn)換成結(jié)構(gòu)化的向量表示,再通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)等算法給出句子X對(duì)應(yīng)的最佳意圖Z,通常作為標(biāo)準(zhǔn)的多分類問題進(jìn)行處理。如對(duì)問句“東方衛(wèi)視這周天有什么節(jié)目”進(jìn)行分類,得到意圖識(shí)別結(jié)果“影視領(lǐng)域一節(jié)目單意圖”。

2.1 文本表示

文本表示是自然語言處理領(lǐng)域中一個(gè)很基礎(chǔ)的研究工作。只有先將文本表示成計(jì)算機(jī)可以理解的形式,才能使用機(jī)器學(xué)習(xí)等方法進(jìn)行后續(xù)的處理。常見的文本表示方法分為離散表示和分布式表示兩種。從分詞粒度角度來看,又可以分為詞向量和字向量兩種類型。

NLP中最常用、最傳統(tǒng)的此特征表示方式是采用One-Hot編碼[1],即每一個(gè)特征詞都被表示成一個(gè)很長的向量,其長度等于詞表大小,當(dāng)前詞對(duì)應(yīng)位置為1,其他位置為0。當(dāng)時(shí)One-Hot編碼這種表示方式會(huì)導(dǎo)致不同次之間總是正交的,無法衡量不同詞之間的相似關(guān)系,而且只能反映每個(gè)詞是否出現(xiàn),無法突出詞之間重要性的區(qū)別,丟失了很多語義上的信息。

分布式表示也被稱為詞嵌入(Word Embedding),1986年由Hinton提出[2]。分布式表示把信息分布式的存儲(chǔ)在指定維度的向量的各個(gè)維度中,區(qū)別于傳統(tǒng)的離散表示方法,由于在模型訓(xùn)練過程中考慮了單詞的上下文語義信息和語義環(huán)境等,因此生成的詞向量包含豐富的潛在語義信息。常用的模型有2013年Google開源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook開源的FastText[5]等。

2.2 意圖識(shí)別

用戶意圖識(shí)別是人機(jī)交互系統(tǒng)中關(guān)鍵性技術(shù)之一[6],意圖識(shí)別的結(jié)果直接影響到交互系統(tǒng)做出回復(fù)的合理性[7]。意圖識(shí)別本身也是一個(gè)文本分類問題,其方法和模型與文本分類大同小異,常用的有基于詞典模板的規(guī)則分類、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的文本分類。

傳統(tǒng)的意圖識(shí)別方法,一般通過樸素貝葉斯、支持向量機(jī)(SVM)、隱馬爾科夫(HMM)和決策樹(DT)等機(jī)器學(xué)習(xí)方法,在有標(biāo)簽的意圖文本上訓(xùn)練分類模型,進(jìn)行意圖識(shí)別。在簡單的意圖識(shí)別任務(wù)中取得了一定的效果,但隨著意圖類別的增加,這類基于人工特征的分類模型并不能有效提取文本的深層語義信息,尤其是在口語短文本這類意圖識(shí)別問題上,數(shù)據(jù)表示更為稀疏,使得算法準(zhǔn)確率難以提高。

近年來,深度學(xué)習(xí)模型在計(jì)算機(jī)視覺和語音識(shí)別中取得了顯著的成果。在自然語言處理中,使用CNN、LSTM、RCNN等深度學(xué)習(xí)算法來學(xué)習(xí)單詞向量表示,進(jìn)行文本特征提取,在意圖識(shí)別任務(wù)中取得了不錯(cuò)的效果。2014年Yoom Kim提出TextCNN[8],使用預(yù)先訓(xùn)練好的詞向量作為Embedding Layer,通過不同尺寸的卷積核提取文本的局部相關(guān)性信息,在進(jìn)行分類。TextCNN對(duì)文本的淺層特征抽取能力強(qiáng),且速度很快,但由于主要依靠Filter窗口來抽取特征,在長距離建模方面能力受限,且對(duì)語序不敏感。同年,Chung J等人提出TextRNN[9],RNN模型由于具有短期記憶功能,因此天然就比較適合處理自然語言的序列問題,尤其是引入門控制機(jī)制后的LSTM,能夠解決長期依賴問題,捕獲輸入樣本之間的長距離聯(lián)系,但在狀態(tài)轉(zhuǎn)移過程中,容易遺忘位置相對(duì)靠前的詞。2015年Tex-tRCNN[10],將CNN的卷積層替換為雙向RNN,結(jié)合了CNN對(duì)重要特征的提取能力和RNN對(duì)句子上下文信息的捕獲能力,在文本分類任務(wù)上取得了不錯(cuò)的效果。

近兩年Attention Model在自然語言處理領(lǐng)域大放異彩,Peng Zhou等人在Bi-LSTM的模型上加入Attention層[11],先計(jì)算每個(gè)時(shí)序的權(quán)重,然后將所有時(shí)序的向量的加權(quán)和作為特征向量,再進(jìn)行softmax分類,實(shí)驗(yàn)的評(píng)測結(jié)果表明,Attention能夠提高模型的性能表現(xiàn)。

綜上所述,國內(nèi)外學(xué)者在文本表示與意圖識(shí)別方面已經(jīng)做了大量的研究工作,并取得了一些進(jìn)展。但是對(duì)于用戶意圖識(shí)別這類中文短文本分類任務(wù),由于中文不同于英文,缺少顯式的單詞分割和專有名詞標(biāo)識(shí);而且口語化的文本一般長度較短,噪聲較大,不完全符合語法規(guī)范等,這些特點(diǎn)導(dǎo)致在某些領(lǐng)域上使用傳統(tǒng)短文本分類算法的用戶意圖識(shí)別效果較差。因此,本文在傳統(tǒng)Bi-LSTM短文本分類算法的基礎(chǔ)上,從豐富文本特征信息和增強(qiáng)分類模型魯棒性兩個(gè)角度,提出了一種基于多特征融合的意圖識(shí)別算法,使用戶意圖分類算法更具有判別性。

3 基于多特征融合的意圖識(shí)別模型

在本部分中,我們將介紹本文提出的針對(duì)中文短文本意圖分類問題的深度學(xué)習(xí)模型,以及多特征融合的具體方式。整個(gè)模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分組成,下圖1展示了模型的整體結(jié)構(gòu)。

3.1 Word Embedding多特征融合

對(duì)于基于深度學(xué)習(xí)的自然語言處理任務(wù),Word Embedding是最基本的輸入組成之一。針對(duì)字向量和詞向量的局限性,將字向量、詞向量和詞性向量進(jìn)行拼接,組成字一詞向量,在不丟失詞特征的同時(shí),降低由分詞錯(cuò)誤對(duì)意圖識(shí)別帶來的嚴(yán)重影響。在字一詞向量的基礎(chǔ)上,再拼接實(shí)體知識(shí)庫向量,組成多特征融合向量,作為Word Embedding輸入模型,為模型提供了一定的先驗(yàn)知識(shí)。各向量的拼接方式如下圖2所示:

其中實(shí)體知識(shí)庫部分,我們維護(hù)了一個(gè)包括影視劇名、地名和人名等信息的實(shí)體字典,采用5 -gram的方式構(gòu)造實(shí)體知識(shí)庫向量。以“播放澳門風(fēng)云”這個(gè)句子為例,分別判斷每一個(gè)字符、字符所在詞及左右5-Gram的字符串是否在實(shí)體知識(shí)庫中,若存在,則在向量對(duì)應(yīng)位置上給予標(biāo)記,最終生成一個(gè)長度為10的實(shí)體知識(shí)庫向量,下圖3具體展示了“澳”字的實(shí)體知識(shí)庫向量構(gòu)成。

3.2 意圖識(shí)別

在Bi-LSTM模型的每一個(gè)隱層狀態(tài)中都融合了整個(gè)句子的信息,我們不僅將最后一個(gè)隱層狀態(tài)作為模型輸出向量進(jìn)行分類,而是綜合利用每一個(gè)隱層狀態(tài)的輸出,對(duì)每個(gè)單詞分類,得到每個(gè)單詞的意圖分類結(jié)果。

對(duì)一個(gè)含有m個(gè)字符的句子,給定其編碼表示E,經(jīng)過雙向LSTM進(jìn)行編碼,得到隱層狀態(tài):

4 實(shí)驗(yàn)及結(jié)果分析

4.1實(shí)驗(yàn)環(huán)境

硬件環(huán)境,如下表1所示:主要軟件環(huán)境,如下表2所示:

4.2 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)數(shù)據(jù)來源于某影視公司語音助手業(yè)務(wù)非公開數(shù)據(jù),共計(jì)62438條記錄,包括影視搜索、節(jié)目單查詢、控制指令、影視信息查詢、明星關(guān)系查詢、生活技能等20個(gè)意圖。

4.3 實(shí)驗(yàn)過程與結(jié)果分析

本項(xiàng)目訓(xùn)練集、驗(yàn)證集和測試集按照7:2:1比例進(jìn)行劃分,采用十折交叉驗(yàn)證的方式選擇合適的超參數(shù)。本實(shí)驗(yàn)測試結(jié)果如下表4所示:

最終結(jié)果表明,我們提出的模型在宏平均準(zhǔn)確率,宏平均召回率和準(zhǔn)確率上相比Bi-LSTM和Char-CNN等基準(zhǔn)模型有明顯的提高,充分證明了模型的有效性。

5 總結(jié)

針對(duì)用戶意圖識(shí)別任務(wù),本文提出了一種基于多特征融合的意圖分類模型。該模型通過融合字向量、詞向量、詞性向量和實(shí)體知識(shí)庫向量等豐富了Word Embedding的語義信息。同時(shí)對(duì)每一個(gè)字符均進(jìn)行意圖識(shí)別,最后使用投票機(jī)制確定整個(gè)句子的最終意圖,增強(qiáng)了模型的泛化能力。但從算法的推理時(shí)間來看,還需進(jìn)一步優(yōu)化,以應(yīng)用于實(shí)際業(yè)務(wù)場景。

參考文獻(xiàn):

[1] Turian J,Ratinov L,Bengio Y.Word representations:a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics, Uppsala, Sweden, Association for Compu-tational Linguistics: Uppsala, Sweden. 2010:384 394.

[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society, Amherst, Mass: 1986:1-12.

[3] Mikolov T,Chen K,Corrado G,et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013: arXiv:1301.3781[cs.CL].

https ://arxiv.org/abs/ 1301.3 7 81

[4] Pennington J,Socher R,Manning C D. Glove: Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing (EMNLP),2014; pp 1532-1543.

[5] Joulin A,Grave E,Bojanowski P,et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016: arXiv: 1607.01759[cs. CL].https://arxiv.org/ab s/ 1607.0175 9

[6] Liu, B.; Lane, l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv:1609.01454 2016.

[7]靳小波.文本分類綜述[J].自動(dòng)化博覽,2006,23(z1):24-29.

[8] Sarikaya R,Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics, speech and signal processing (lCASSP),lEEE: 2011:5680-5683.

[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence (AAAI-18), 2018:6053-6060.

[10] Lai S,Xu L,Liu K,et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence, 2015:2267-2273.

[11] Zhou P, Shi W, Tian J, et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics (volume 2: Short papers), 2016:207-212.

作者簡介:周權(quán)(1995-),男,山東濱州人,學(xué)生,研究生,主要研究方向?yàn)樽匀徽Z言處理。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 人妻夜夜爽天天爽| 国产精品久久自在自2021| 超级碰免费视频91| 亚洲欧州色色免费AV| 最新国产麻豆aⅴ精品无| 欧美在线网| 伊人成人在线视频| 美女无遮挡被啪啪到高潮免费| 日韩午夜福利在线观看| 久久精品嫩草研究院| 国产亚洲视频在线观看| 丰满人妻中出白浆| 欧美精品xx| 中文字幕永久在线观看| 青青久久91| 热久久国产| 亚洲色图欧美视频| 欧美一区国产| 中美日韩在线网免费毛片视频| 丁香婷婷激情网| 人妻丰满熟妇av五码区| 日韩成人在线网站| 免费观看欧美性一级| 欧美午夜在线视频| 久久男人资源站| 国产成人亚洲精品无码电影| 国产香蕉在线| 91亚洲视频下载| 国产不卡在线看| 久久久亚洲国产美女国产盗摄| 国产福利免费观看| 国产理论最新国产精品视频| 国产成人精品日本亚洲77美色| 免费a级毛片视频| 国产超碰在线观看| 四虎精品国产永久在线观看| 久久国产精品国产自线拍| av在线无码浏览| 亚洲天堂精品在线| 91精品日韩人妻无码久久| 另类重口100页在线播放| 国产欧美日韩视频怡春院| 超清无码一区二区三区| 色婷婷色丁香| 久久香蕉国产线看观| 999精品视频在线| 亚洲精品麻豆| 欧美爱爱网| 精品少妇人妻无码久久| 欧美a级在线| 91在线无码精品秘九色APP| AV天堂资源福利在线观看| 亚洲综合精品第一页| 奇米影视狠狠精品7777| 真人免费一级毛片一区二区| 久久久久久尹人网香蕉| 一本综合久久| 国产激情影院| 在线视频97| 欧美在线三级| 亚洲AV无码乱码在线观看裸奔 | 在线免费亚洲无码视频| 亚洲精品图区| 一本大道香蕉高清久久| 99re精彩视频| 国模沟沟一区二区三区| 试看120秒男女啪啪免费| 欧美日韩资源| 久久久久国产精品熟女影院| 国产精品亚洲综合久久小说| 天堂av综合网| 国产乱子伦视频在线播放| 手机在线免费不卡一区二| 欧美啪啪精品| 国产91特黄特色A级毛片| 欧美一级高清片久久99| 乱人伦中文视频在线观看免费| 国产亚洲精品无码专| 国产乱子伦精品视频| 四虎永久免费地址在线网站| 毛片在线区| 国产乱论视频|