999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec詞嵌入和雙向LSTM模型對用戶回答文本進行分類

2021-09-23 01:54:02張良君
電子技術與軟件工程 2021年14期
關鍵詞:分類文本用戶

張良君

(人保金服智能數字營銷項目組 北京市 100031)

1 引言

為了節省人力成本,越來越多行業的簡單服務場景,選擇用智能客服機器人與用戶交互。比如通知用戶快遞將要達到,做好取件準備;提醒家長孩子的課程即將開始等等。隨著時代的發展,各行各業使用智能客服機器人進行服務的場景不斷增加,交互難度也在增加,需要跟用戶有一定的互動,根據用戶回答的內容,迅速做出判斷,決定后面的問答要不要繼續。這種場景一般是提前規范好了提問話術,根據用戶回答的情況,一步一步按照話術文本進行提問。

本文利用車險續期提醒場景舉例,在用戶車險將要到期的時候,用智能客服機器人提醒用戶續期,流程如圖1所示。

這類服務場景需要對用戶回答的內容進行歸類。用戶回答的內容文本一般都比較短,偏口語化,用詞范圍開放,有時語序顛倒。對用戶回答內容文本進行歸類對判斷用戶狀態、及時調整對話內容、提升用戶體驗有重要的作用。

文本分類是指按照預先定義的類別,為文檔集合中的每個文本確定一個類別,是有監督的學習過程。實現過程分為兩步,第一步,把文本進行向量化,第二步利用監督學習進行歸類[1]。

傳統的向量空間模型對長文本表現出很好的效果,但是對于短文本卻存在特征稀疏和維度災難問題。各種研究表明,基于神經網絡的詞向量生成模型Word2Vec,用深度學習網絡對語料數據的詞語及上下文的語義關系進行建模,即降低了詞向量的維度,又能引入傳統模型不具有的語義特征,能很好的解決短文本向量化的問題[2]。

文本是一種序列,后面的詞語跟前面的詞語是有關聯的,后面的詞語依賴前面的詞語才能表達完整的意思。循環神經網絡(RNN)能夠通過在神經網絡基礎上,增加記憶單元,對歷史有記憶功能,比較適合文本分類。但是由于梯度消失問題,簡單的循環神經網絡無法記憶時間跨度大的信息,RNN的變體LSTM增加了攜帶信息跨越多個時間步的方法,可以有效解決此問題,LSTM保存信息以便后面使用,從而防止較早的信息在處理過程中逐漸消失。所以對于文本分類,LSTM是比較有效的方法[3]。

圖1:車險到期提醒流程圖

用戶回答問題的文本比較口語化,常常會出現倒敘的現象。雙向LSTM(BiLSTM)會把文本特征按照正序和逆序都學習一遍,然后把它們的表示合并在一起,沿著這兩個方向處理文本序列,雙向LSTM能捕捉到可能被單向LSTM忽略的信息[3]。

綜上所述,利用Word2Vec把用戶回答的短文本進行向量化,然后利用雙向LSTM(BiLSTM)對文本進行分類,是解決用戶回答問題文本分類的最佳選擇。

本文將利用Word2Vec+雙向LSTM對用戶回答的短文本進行分類,同時跟Word2Vec+單向LSTM的效果進行對比,以驗證雙向LSTM和單向LSTM方法的優劣。

2 研究方法介紹

2.1 Word2Vec模型

Word2Vec是Google在2013年推出的一款用于訓練詞向量的工具。傳統的詞向量的方法是One-Hot representation方式,此方法把每個詞表示成只包含0和1的長向量,向量的維度就是詞典的大小,1的位置對應詞在詞典中的位置。這種方式存在以下問題:

(1)詞典的大小決定了向量的維度,通常詞典較大易造成向量的維度災難;

(2)向量大部分為0,非常稀疏,不利于處理任務;

(3)沒有考慮詞語之間的語義/語法關系。Word2Vec模型是利用詞的上下文信息環境,將一個詞從One-Hot representation方式映射為一個低維、稠密的K維實數向量(K為模型中超參量),Word2Vec詞向量表達來源于上下文的詞預測模型。既能解決One-Hot representation高維稀疏問題,還能引入語義特征。

Word2Vec主要有Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram Model(Skip-gram)兩種模型,CBOW模型是已知上下文Context(t)的情況下預測當前詞t,而Skip-gram模型則是在已知當前詞t的情況下預測其上下文詞Context(t),這兩個模型都包含輸入層、投影層和輸出層[4],如圖2所示。

圖2:Word2Vec模型

圖3:LSTM的出發點:SimpleRNN層

圖4:從SimpleRNN到LSTM:添加一個攜帶軌道

以CBOW模型為例,其原理為:首先w(t)為輸出層詞語,Context(t)為其上下文,單側個數為c,總長度為2c。利用One-Hot編碼生成輸入層和輸出層詞語向量:v(Context(wt-c))、v(Context(wt-c+1))…v(Context(wt+c)),在投影層將2c個輸入層向量求和(或取均值、直接拼接起來),即輸出層通過HierarchicalSoftmax或Negative Sampling降低訓練復雜度,HierarchicalSoftmax采用一顆Huあman樹,以語料中出現的詞為葉子節點,以詞頻為權重構成,其中葉子節點共N(即語料詞典的長度)個。Negative Sampling摒棄了Huあman樹,采用了負采樣和二元邏輯回歸的方法求解模型參數[4]。

本文Word2Vec模型采用的是CBOW,輸出層采用的是Negative Sampling。先利用一年內用戶回答文本預訓練了一個Word2Vec模型,這樣能最大限度的學習用戶回答文本的特征,然后利用Embedding層,把標注好的訓練集和驗證集文本進行詞嵌入,表達成雙向LSTM能夠識別的數據形式。

2.2 雙向LSTM模型(BiLSTM)

密集連接網絡和卷積神經網絡都有一個共同的特點,就是它們都沒有記憶。它們單獨處理每個輸入,在輸入和輸入之間沒有保存任何狀態,它們不適合處理序列數據,因為序列數據是依賴前面的數據的,所有的數據累積才能表示完整的序列。循環神經網絡(RNN)可以遍歷所有序列元素,并保存一個狀態,此狀態包含已查看內容相關信息,是根據過去的信息構建的,并隨著新信息的進入而不斷更新,所以循環神經網絡(RNN)更適合處理序列數據。但是簡單循環神經網絡(SimpleRNN)最大的問題是梯度消失問題:隨著層數的增加,網絡最終變的無法訓練。在此基礎上,Hochreiter、Schmidhuber和Bengio在20世紀90年代初設計了LSTM層和GRU層,有效解決了簡單循環神經網絡梯度消失問題。LSTM(long short-term memory)是SimpleRNN的一種變體,它增加了一種攜帶信息跨越多個時間步的方法。這些攜帶信息產生的影響:它將與輸入連接和循環連接進行運算,從而影響傳遞到下一個時間步的狀態,攜帶數據流是一種調節下一個輸出和下一個狀態的方法[3],LSTM流程原理詳見圖3和圖4。

表1:訓練集和驗證集在各分類上的數量分布

表2:各分類標簽上精確率和召回率

LSTM特別依賴順序或者時間,LSTM按順序處理輸入序列的時間步,而打亂時間步或者反轉時間步會改變LSTM從序列中提取的表示。雙向LSTM利用了LSTM順序敏感性:它包含了兩個普通LSTM,每個LSTM分別沿著一個方向對輸入序列進行處理(文本正序和文本逆序),然后將它們的表示合并在一起。通過沿這兩個方向處理序列,雙向LSTM能夠捕捉到可能被單向LSTM忽略的模式[3]。

3 實驗驗證與結果分析

本文數據來源是某公司車險到期續期場景中,客戶服務機器人與用戶電話對話文本。機器人提問的流程圖如圖1所示,需要根據用戶的回答決定后續話術。

用于Word2Vec預訓練的數據是實際服務的對話文本共2000萬條,這樣能盡可能全的學習到用戶對話文本的特征。用于雙向LSTM訓練的文本量為3387條,用于驗證的文本量為2338條,訓練集和驗證集都提前標注好了分類,屬于單標簽多分類情況。樣本在各分類上的分布如表1所示。

雙向LSTM和單向LSTM建模流程相同,如下所示:

第一步:分詞,利用結巴分詞工具,對用戶回答文本進行分詞;

第二步:去除停用詞、標點符號、特殊符號、空值;

第三步:利用2020年全年對話文本訓練Word2Vec模型,窗口設為5,向量維度為300,采用CBOW算法,輸出層采用的是Negative Sampling;

第四步:利用Embedding層,用第三步訓練好的Word2Vec模型,對訓練集數據進行詞嵌入映射。并把訓練集按照80%-20%比例拆分成訓練集和測試集。

第五步:構建深度學習網絡:

第一層:詞嵌入層(Embedding層),權重是預訓練的Word2Vec模型詞向量的系數,詞長度設為300,并把trainable(是否在訓練過程中更新詞向量)設為False;

第二層:分別構建雙向LSTM層(Bidirectional LSTM)和單向LSTM層,兩個獨立的模型分別運行;

第三層:密度鏈接層,因為是多分類問題,所以激活函數選擇softmax.

第六步:模型訓練,利用sgd調節學習率,損失函數選擇categorical_crossentropy(適用于多分類的損失函數),迭代30次,因為實驗表明30次之后,測試集的acc基本趨于平穩。

模型最終acc為95%,在各分類上的精確率和召回率如表2所示,最高的精確率能達到98.1%,最低的有91.7%,分類效果比較好。

從表2可以看出,和單向LSTM算法相比,雙向LATM在文本分類準確率和召回率上都有提升,說明對于用戶回答的短文本分類,預訓練的Word2Vec詞嵌入+雙向LSTM是比較適合的方法。

4 結論

在一些智能客服交互場景中,用戶的回答具有文本短、偏口語化、用詞范圍開放、有時語序顛倒的特點,實驗表明用預訓練的Word2Vec模型進行詞向量的嵌入,然后訓練雙向LSTM模型,比較適合此類文本的分類,以后遇到類似特征的文本,可以嘗試使用此方法。本實驗有待改進的地方是,人工標注的樣本量相對較少,后期可以增加人工標注量,再進行模型訓練和驗證。

猜你喜歡
分類文本用戶
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久成人国产精品免费软件| 中文字幕有乳无码| 久久一色本道亚洲| 激情無極限的亚洲一区免费| a级毛片免费网站| 国产一级在线观看www色| 国产丰满大乳无码免费播放| 亚洲av日韩综合一区尤物| 亚洲性影院| 国产91导航| 免费在线视频a| 亚洲欧洲日产国产无码AV| 日韩毛片免费观看| 婷婷综合色| 伊人久久大香线蕉成人综合网| 美女潮喷出白浆在线观看视频| 国产亚洲欧美在线专区| 97视频精品全国在线观看| 日韩亚洲高清一区二区| 凹凸精品免费精品视频| 亚洲国产欧洲精品路线久久| 五月六月伊人狠狠丁香网| 午夜欧美理论2019理论| 欧美日本在线观看| 中文字幕乱码二三区免费| 不卡国产视频第一页| 激情视频综合网| 久久这里只有精品免费| 欧美亚洲网| 国产9191精品免费观看| 亚洲综合精品第一页| 国产福利影院在线观看| 精品国产电影久久九九| 四虎国产精品永久在线网址| 成人一级免费视频| 亚洲精品va| 女高中生自慰污污网站| 久久免费看片| 无码人中文字幕| 亚洲天堂777| 伊人久久综在合线亚洲2019| 亚洲人成网7777777国产| 色综合久久无码网| 国产国模一区二区三区四区| 特级毛片8级毛片免费观看| 亚洲AⅤ综合在线欧美一区| 国产性生大片免费观看性欧美| 日本午夜精品一本在线观看| 色135综合网| 欧美国产精品不卡在线观看| 精久久久久无码区中文字幕| 国产精品hd在线播放| 国产91精选在线观看| 在线播放国产99re| 久久亚洲日本不卡一区二区| 久久一本日韩精品中文字幕屁孩| 亚洲伊人天堂| 免费啪啪网址| a网站在线观看| 欧美一区精品| 福利国产在线| 色综合天天综合中文网| 日本欧美在线观看| 免费看黄片一区二区三区| 国产成人一区| 国产尤物jk自慰制服喷水| 在线免费观看AV| 91青青草视频在线观看的| 欧美中出一区二区| 在线亚洲精品自拍| AV不卡无码免费一区二区三区| 亚卅精品无码久久毛片乌克兰| 在线观看av永久| 亚洲欧美日韩动漫| 亚洲欧洲日本在线| 波多野结衣无码视频在线观看| 狠狠色婷婷丁香综合久久韩国| 久久久久青草大香线综合精品 | 美女一级毛片无遮挡内谢| 国产福利2021最新在线观看| 国产亚洲美日韩AV中文字幕无码成人| 欧美国产在线看|