基于網(wǎng)格LSTM混合算法的地質(zhì)領(lǐng)域用戶意圖識別①

2020-11-13 07:11:44賀金龍付立軍呂鵬飛黃徐勝

計算機系統(tǒng)應(yīng)用 2020年10期

關(guān)鍵詞：分類文本用戶

賀金龍,付立軍,姚鄭,呂鵬飛,黃徐勝

1(中國科學(xué)院大學(xué),北京 100049)

2(中國科學(xué)院網(wǎng)絡(luò)信息中心,北京 100049)

3(中國科學(xué)院沈陽計算技術(shù)研究所,沈陽 110168)

4(中國地質(zhì)圖書館,北京 100083)

1 引言

近年來,隨著人工智能的蓬勃發(fā)展,不同行業(yè)服務(wù)質(zhì)量逐步提升,其中最為耀眼的問答機器人得到了行業(yè)領(lǐng)域的充分應(yīng)用,例如微軟小娜、阿里小蜜、京東JIMI 等.本文研究的主要內(nèi)容是在地質(zhì)領(lǐng)域問答服務(wù)中的用戶意圖識別,用戶意圖是指用戶為滿足地質(zhì)知識探索關(guān)聯(lián)發(fā)現(xiàn)的需要,通過文本表達出對相關(guān)知識的探索意愿.在問答服務(wù)過程中,用戶會產(chǎn)生大量數(shù)據(jù),如何利用這些數(shù)據(jù)本身的特性去判別用戶傾向、增強用戶體驗、使得問答機器人更加智能是當(dāng)下研究的重要難點之一[1].

對于知識檢索探求、結(jié)構(gòu)化推薦、表示學(xué)習(xí)推理以及專家建議與決策,準(zhǔn)確識別響應(yīng)用戶意圖尤為重要[2].在互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展過程中,關(guān)于用戶詢問理解識別的研究如下:基于Luence、Elasticsearch 的樹狀分類方法來識別用戶搜索內(nèi)容的歸屬類別[3]、基于人工構(gòu)建類別的正則匹配規(guī)則與圖的方法來抽取和泛化用戶意圖[4]及考慮到用戶意圖語料匱乏的跨領(lǐng)域遷移學(xué)習(xí)方法[5]等.這些基于人工構(gòu)建匹配規(guī)則查詢和引入路徑優(yōu)化探索的方法在應(yīng)用中都存在一定的局限性,前者是通過挖掘用戶詢問語句是否與預(yù)先設(shè)定的方式模板相匹配,得到匹配度滿足閾值的知識,后者是通過文本的二元、三元、及多元特征作為分類特征,使用集成學(xué)習(xí)的方式在多個特征分類器中訓(xùn)練得到最佳的意圖判斷.上述方法都存在限定的泛化能力,沒有很好地理解文本的深層語義信息的問題,從而導(dǎo)致識別用戶的真實意圖方面較弱.

針對以上問題,本文采用地質(zhì)領(lǐng)域文獻數(shù)據(jù)知識關(guān)聯(lián)特征與文本語義信息相結(jié)合的方式將用戶意圖識別看作文本分類問題,使用了基于網(wǎng)格記憶網(wǎng)絡(luò)(LSTM+CRF+Lattice)與基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)融合的模型,不僅很好的捕捉文本深層語義信息,而且在文本問答過程中能快速識別用戶意圖.該混合模型首先使用網(wǎng)格記憶網(wǎng)絡(luò)進行用戶文本信息的命名實體識別及關(guān)系抽取,然后使用卷積神經(jīng)網(wǎng)絡(luò)將用戶輸入的除實體外其他文本信息進行屬性分類,再將分類結(jié)果轉(zhuǎn)化為滿足知識圖譜查詢的結(jié)構(gòu)化方式,最終將知識圖譜的節(jié)點關(guān)聯(lián)性通過結(jié)構(gòu)化語言Cypher 實現(xiàn)屬性映射的用戶意圖識別.

實驗結(jié)果表明,在地質(zhì)領(lǐng)域問答的用戶意圖識別任務(wù)中,本文采用的網(wǎng)格LSTM 與CNN 的混合模型較傳統(tǒng)的人工規(guī)則匹配與機器學(xué)習(xí)方法,可以有效地識別用戶問答過程中的意圖.

2 相關(guān)工作

本文主要研究在地質(zhì)領(lǐng)域中的用戶檢索意圖識別.針對地質(zhì)文獻中構(gòu)建的關(guān)聯(lián)知識,用戶以簡潔的自然句進行詢問,具體的用戶詢問形式如表1所示.

表1 用戶檢索問題描述

這里針對用戶提出的知識詢問,我們的意圖識別處理如圖1所示,首先根據(jù)用戶的自然語句進行語義解析,其中包括兩部分:一部分對于語句中的命名實體識別,一部分是對于語句信息的屬性分類,然后將分類結(jié)果映射到相應(yīng)的用戶意圖類型中,通過轉(zhuǎn)化的結(jié)構(gòu)化查詢得到用戶意圖結(jié)果.

圖1 用戶意圖識別流程圖

2.1 命名實體識別

命名實體識別(Named Entity Recognition,NER)是Web 2.0 向3.0 轉(zhuǎn)化的一種深度學(xué)習(xí)技術(shù)工具,是文本挖掘過程中基于句法分析理解的重要手段,在大數(shù)據(jù)量的人工智能發(fā)展中,基于數(shù)據(jù)的處理能力尤為最要[6].

英文文本詞與詞之間以空格分隔,方便計算機識別,但是中文以字為單位,句子所有字連起來才能表達一個完整的意思.如英文“China geological library builds big data intelligent platform”,詞與詞之間有空格進行隔開,而對應(yīng)的中文“中國地質(zhì)圖書館建設(shè)大數(shù)據(jù)智能化平臺”,句子中的詞由多個獨立的漢字組成并且字與字之間沒有任何分割標(biāo)記符,同時還可能存在交集歧義、組合歧義、未登錄詞等特征,所以中文的命名實體識別比英文的實體識別復(fù)雜的多.目前,隨著技術(shù)的不斷革新,中文命名實體識別也經(jīng)歷了3 個階段的研究.第1 階段基于人工詞典的規(guī)則匹配方法[7],主要采用專家手工構(gòu)建檢索規(guī)則、模板,以字符串相匹配為主要手段,這也導(dǎo)致一定的局限性.第2 階段基于二元、多元統(tǒng)計的方法,利用人工標(biāo)注數(shù)據(jù)作為訓(xùn)練基礎(chǔ)學(xué)習(xí)文本特征,對于機器學(xué)習(xí)不需要人工設(shè)定規(guī)則且線上識別可擴展性強.這也是目前應(yīng)用方式最多的技術(shù),如在滿足已知約束的條件集合的概率學(xué)習(xí)時,選擇熵最大的模型[8]、在判斷線性可分與否的感知器模型[9]、對于時序隨機序列的狀態(tài)轉(zhuǎn)移概率計算的隱馬爾可夫模型[10]、以及用于預(yù)測與輸入標(biāo)注序列相對應(yīng)的模型等.條件隨機場(Conditional Random Fields,CRF)解決了句子特征參數(shù)選擇優(yōu)化與標(biāo)記偏置問題,是統(tǒng)計模型中應(yīng)用最為廣泛的一種模型[11].文獻[12]提出基于CRF 與地理詞典規(guī)則結(jié)合的識別方法.隨著深度學(xué)習(xí)的興起,研究者不斷注重對于時序數(shù)據(jù)上下文信息的捕捉,提出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),利用當(dāng)前數(shù)據(jù)的輸出作為到下一個神經(jīng)元的輸入捕捉隱藏層特征信息[13].但當(dāng)進行長距離特征信息捕捉時會出現(xiàn)梯度消失或者爆炸的問題,基于此問題,提出了通過“門”結(jié)構(gòu)的網(wǎng)絡(luò)細胞單元進行控制信息流轉(zhuǎn)的輸入、更新與刪除的長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM).另外,文獻[14]提出使用4 種類型特征的LSTM-CRF 模型,分別是拼寫特征,內(nèi)容特征,詞語向量和詞典特征,其實驗表明這些額外的特征可以提高標(biāo)簽的準(zhǔn)確率.考慮LSTM 與CRF 在實體識別中存在模型互補的優(yōu)勢,將二者相結(jié)合的訓(xùn)練模型不斷出現(xiàn)[15,16].

在以上研究的基礎(chǔ)上,本文嘗試使用序列標(biāo)注中BIOES 標(biāo)簽與改進的基于網(wǎng)格的雙向LSTM 相結(jié)合的方式進行地質(zhì)領(lǐng)域中命名實體識別,包括以下14 種類型,也是我們的創(chuàng)新點應(yīng)用,如圖表2所示.

2.2 文本信息分類

自20世紀(jì)80年代初起,文本分類在經(jīng)歷基于詞匹配研究、基于知識工程研究后,由于大量數(shù)字電子化數(shù)據(jù)驅(qū)使,使得分類向機器自動學(xué)習(xí)靠攏,使得分類技術(shù)成為數(shù)據(jù)處理的重要分支[17].它是按照預(yù)先定義的規(guī)則和體系,將文本實現(xiàn)自動歸類的過程[18],其結(jié)構(gòu)化形式定義如下:

表2 特定領(lǐng)域數(shù)據(jù)標(biāo)簽類型

在梳理時首先對文本進行去停用詞、無效符號,接著使用分詞工具對其進行文本切分,然后使用TextRank等技術(shù)進行關(guān)鍵特征提取,最后使用分類器等集成學(xué)習(xí)方式歸類.

在數(shù)據(jù)挖掘中,可以分為兩種:二分類器和多分類器.本文根據(jù)地質(zhì)領(lǐng)域數(shù)據(jù)特征及問答環(huán)節(jié)涉及的用戶知識將數(shù)據(jù)劃分為9 種類型進行驗證,采用了基于字符的深度學(xué)習(xí)的知識表示進行多分類.如表3所示.

表3 領(lǐng)域數(shù)據(jù)問答知識分類

3 基于網(wǎng)格LSTM 混合算法的意圖識別模型

算法模型主要依據(jù)LSTM 模型長期記憶特性與基于字符向量的融合構(gòu)建.在模型構(gòu)建方面,本文主要在實體識別和屬性分類上引入了自定義地質(zhì)知識的改進,同時將二者聯(lián)合進行研究實現(xiàn).

3.1 基于網(wǎng)格LSTM+CRF 命名實體識別

1)數(shù)據(jù)標(biāo)注策略

為了數(shù)據(jù)標(biāo)注任務(wù)的便利性和統(tǒng)一標(biāo)準(zhǔn),本文采用中文字符作為token,采用最常用的BIOES 標(biāo)注規(guī)范[19]結(jié)合類別進行字符序列標(biāo)注.

2)網(wǎng)格模型

在實體檢測中先使用n-gram 問題詞搜索與問題具有公共子字符串的實體[20],后使用神經(jīng)網(wǎng)絡(luò)與句法指標(biāo)進行捕捉問題和實體名稱之間的相似匹配.例如,文獻[21]使用字符級別的LSTM 來編碼問題和實體名稱;文獻[22]使用字符級別CNN 來編碼問題和實體;文獻[23]同時使用單詞級別和字符級別來編碼問題.

使用的LSTM 基本模型結(jié)構(gòu)如圖2所示,其中包含遺忘門、輸入更新門、輸出門3 個門結(jié)構(gòu).

圖2 長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)圖

xt為t時刻輸入,ht?1為t?1 時刻的輸出,Ct?1為t?1 時刻的細胞輸出,Ct為t時刻的細胞輸出,ft為輸入到Ct?1的值,it為輸入門向量、為新的候選值向量,ot為輸出向量.

遺忘門負責(zé)決定剔除多少信息.主要考慮t時刻的輸入、t?1 刻的輸出,其中輸出值為1 表示“完全保留該部分信息”,輸出值為0 表示“刪除這部分信息”,計算公式如下:

其中,ft是輸出到Ct?1的值,Wf,bf分別為遺忘門的權(quán)值與偏置.

輸入與更新門決定哪些信息被存儲到細胞狀態(tài)中.主要考慮兩部分,首先是針對t?1 刻的輸出與t時刻的輸入信息中的哪些信息被更新,然后再對其轉(zhuǎn)換作為更新輸入,再加入到cell 中,如下:

其中,Wi,bt,WC,bC分別為輸入門與更新門的權(quán)值與偏置.

經(jīng)過遺忘門、輸入與更新門之后,需要將t?1 刻的細胞狀態(tài)更新到t時刻的Ct上,主要將Ct?1細胞狀態(tài)剔除遺忘信息,再加上輸入門與更新門的更新信息,其計算公式如下:

輸出門決定當(dāng)前t時刻細胞的輸出.首先需要經(jīng)過Sigmoid 層決定t?1 刻輸出與t時刻輸入的信息哪些被輸出;然后將當(dāng)前的細胞狀態(tài)Ct送入tanh 激活函數(shù),將數(shù)值范圍變?yōu)?1 到1 之間;最后將以上兩步的輸出相乘得到最終的輸出,計算公式如下:

其中,Wo,bo為輸出門的權(quán)值與偏置.

在此基礎(chǔ)上,本文提出的基于字符的網(wǎng)格模型與基于詞的模型相比能夠很好地避免分詞錯誤帶來的影響,受啟發(fā)于LSTM+CRF 模型改進[24],主要原因之一是采用基于字向量的模型,其二是將領(lǐng)域詞加入到模型中充分利用顯性的詞和詞序信息(比如“青藏高原”這個詞如果拆成字向量就成了“青”、“藏”、“高”、“原”,這4 個詞的單獨含義明顯與其組合的詞的含義大相徑庭).

首先,定義一個輸入句子s,以字為基本單位:

其中,cj為s的第j個字,s表示為:

其中,wi為s的第i個詞,設(shè)t(i,k)為句子的第i個詞的第k個字在句子中的位置,比如“青藏高原,火山機構(gòu)”這句話中的“山”字,我們就有t(2,2)=7.

如圖3所示,是一個基于字序列c1,c2,···,cm的模型,其中每一個字被表示為:

其中,ec為權(quán)重矩陣,輸入x1,x2,···,xm都會有一個隱含狀態(tài),即和那么隱藏層的總輸出可以表示為:

圖3 基于字符BIOES 的序列標(biāo)注圖

從基于字符的模型可以看出單個字組成正確的一句話需要考慮所有路徑的組合,而路徑的個數(shù)隨字符個數(shù)的增長呈指數(shù)增長,為解決這個問題,我們引入了構(gòu)建詞典中的詞語信息,如圖4中黑色圓形陰影部分,這樣就可以控制信息的始終導(dǎo)向,進而提升模型效率.

圖4 基于LSTM 與領(lǐng)域知識融合圖

模型的主干部分采用基于字符的雙向LSTM-CRF,與普通LSTM 不一樣的地方在于,模型中具有一些句子中潛在詞匯的細胞信息,同主干LSTM 的cell 細胞狀態(tài)信息連接起來就構(gòu)成了基于詞的網(wǎng)格模型,例如“青藏”、“高原”、“青藏高原”這三者之間的考慮.如圖5所示.

圖5 基于網(wǎng)格模型序列選擇策略圖

主干部分LSTM 的記憶細胞內(nèi)部算法如下:

對于詞匯的語義信息算法如下:

其中,ew為embedding 矩陣,中b,e表示為詞匯的首尾字符索引.

有了詞格后,并不是所有的詞匯信息都需要傳入當(dāng)前詞匯細胞,要利用邏輯門單元cell 來計算當(dāng)前字符與歷史信息的權(quán)重,進而選取最有用的詞匯.

最終結(jié)合主干部分,通過當(dāng)前字符狀態(tài)得到中間層的輸出,再通過CRF 做標(biāo)簽序列的實體識別:

通過以上方法最終找到概率最大的序列,即得到最終的實體識別輸出.

3.2 基于字符編碼的CNN 問句屬性分類

1)數(shù)據(jù)集構(gòu)建

通過網(wǎng)格模型正確提出用戶語句中的地質(zhì)實體之后,還需要理解用戶的意圖,其具體表現(xiàn)為地質(zhì)實體具備的知識屬性,即需要將用戶詢問意圖與知識圖譜屬性進行映射,為滿足用戶的詢問需求,標(biāo)注了圍繞地質(zhì)知識自身特性及關(guān)聯(lián)的結(jié)構(gòu)化特征具備一般性原則的語句描述方式標(biāo)簽,標(biāo)簽一共包括定義型、別名型、海拔型、大小型、種類型、區(qū)域范圍型、地質(zhì)構(gòu)造型、基本組成型、關(guān)系型等9 大類別.

2)分類算法

針對用戶詢問的短文本特征,以及n-gram 語言模型可知,CNN 模型[25]對于自然語言的局部語義特征提取存在優(yōu)勢,因此常被用于表示句子級別的信息和短文本分類.本文使用基于字符的CNN 模型對用戶詢問的除命名實體識別外的語句進行語義表示并進行屬性分類,映射為知識圖譜中的屬性關(guān)系標(biāo)簽,進而實現(xiàn)用戶詢問意圖.結(jié)構(gòu)圖如圖6.屬性分類具體方法如算法1.

圖6 基于字符的CNN 分類模型結(jié)構(gòu)圖

算法1.基于字符CNN 的語句屬性分類算法Q=[q1,q2,···,qn] L=[l1,l2,···,ln]1)用戶輸入問句q,問句訓(xùn)練集,;2)加載配置初始化CNN 網(wǎng)絡(luò);3)將問句訓(xùn)練集構(gòu)建詞匯表,使用char 的表示,進而將詞匯表轉(zhuǎn)化為{詞:id}的表示;4)將分類目錄固定,轉(zhuǎn)化為類別{類別:id}表示;5)將訓(xùn)練集、驗證集數(shù)據(jù)劃分Epoch 批次數(shù)據(jù);vq 6)將輸入的語句轉(zhuǎn)化為句子向量 ;7)采用CNN 網(wǎng)絡(luò)的不同大小卷積核對問句進行特征提取;vq 8)計算輸入語句向量的卷積結(jié)果;9)采用梯度下降方法更新CNN 網(wǎng)絡(luò)模型參數(shù);10)將所有的卷積特征結(jié)果使用最大池化處理后拼接成一個向量;11)經(jīng)過全連接層,使用Softmax 對最大池化輸出做分類計算,得到用戶語句對應(yīng)知識類別 ;lx lx 12)輸出用戶輸入語句q 相近的類別標(biāo)簽.

3.3 用戶意圖映射檢索

當(dāng)問句信息中的實體識別與屬性映射分類完成后將二者相結(jié)合,使用集束搜索轉(zhuǎn)化為滿足知識圖譜查詢的結(jié)構(gòu)化語言Cypher 進行問答機器人檢索.如“青藏高原與火山機構(gòu)具有怎樣的關(guān)系”,通過實體識別模塊將“青藏高原”“火山機構(gòu)”進行識別出,歸類為地質(zhì)實體geoEntity,然后通過問句屬性分類,將“具備怎樣的關(guān)系”歸屬為relation 類,接著將二者結(jié)合轉(zhuǎn)化為Neo4j圖形數(shù)據(jù)庫的結(jié)構(gòu)化語句,如:

“Match p=(n1:entity1)-[r:rel]->(n2:entity2)where n1.name=‘{0}’ and n2.name=‘{1}’ return distinct r.rel”.

其中name1、name2 為實體名稱,rel 相當(dāng)于兩個實體之間的關(guān)系.

4 實驗過程與結(jié)果評估

4.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)

本文進行了實驗來研究網(wǎng)格LSTM-CC 優(yōu)化算法在不同領(lǐng)域的有效性.首先使用SimpleQuestion 數(shù)據(jù)集與地質(zhì)領(lǐng)域300 篇文獻標(biāo)注數(shù)據(jù)進行對基于字符的神經(jīng)網(wǎng)絡(luò)漢語NER 進行實驗識別.同時我們使用兩類數(shù)據(jù)集進行分類器驗證訓(xùn)練,一類是使用THUCNews數(shù)據(jù),每類6500 條數(shù)據(jù);一類是使用實驗室對于地質(zhì)問答中用戶常問問題及問答類型對應(yīng)通用語句進行標(biāo)注的數(shù)據(jù),每類平均大約400 條,共計6500 條數(shù)據(jù),按照固定比例劃分訓(xùn)練集、測試集、驗證集.

實驗中使用精確度、召回率和F1 作為驗證評價指標(biāo),對于整體多分類結(jié)果使用混淆矩陣.

混淆矩陣:

4.2 實驗過程

實驗過程中,使用CPU 對實體識別與屬性分類進行了訓(xùn)練.實體識別部分針對雙向神經(jīng)網(wǎng)絡(luò)使用字符嵌入大小為100,單詞批量大小為60,LSTM 單元為100,剪枝大小為5.0,訓(xùn)練學(xué)習(xí)速率為0.001,與防止過擬合的dropout 大小為0.5,訓(xùn)練內(nèi)容包括97 萬帶BIOES標(biāo)簽標(biāo)注的文本信息,迭代次數(shù)循環(huán)64 次,直至損失變化幅度穩(wěn)定結(jié)束.屬性分類過程中采用卷積核分別為3、4、5、256 個卷積核,詞向量維度為64,序列長度為600,全連接層為128 個神經(jīng)元,詞匯表大小為500,迭代總輪次為10 輪,每批訓(xùn)練大小64,學(xué)習(xí)率為0.001,及dropout 大小0.5.實驗結(jié)果采用精確率、召回率、F1 值求算數(shù)平均值,作為最后結(jié)果.

4.3 結(jié)果分析

在實體識別中,使用地質(zhì)標(biāo)注數(shù)據(jù)集與進行驗證,使用基于模板匹配和基于網(wǎng)格的LSTM+CRF 的神經(jīng)網(wǎng)絡(luò)驗證得到結(jié)果如表4.

表4 基于網(wǎng)格LSTM+CRF 命名實體識別結(jié)果

在用戶屬性分類中,使用THUCNews 數(shù)據(jù)集對其10個類別,每類6500 條數(shù)據(jù)采用基于字符的CNN、RNN模型實驗結(jié)果如表5、表6所示,通過訓(xùn)練可以發(fā)現(xiàn)基于CNN 的模型較基于RNN 模型用時較短,如表7所示.

表6 基于THUCNews 數(shù)據(jù)集的字符CNN分類模型訓(xùn)練結(jié)果

表7 基于THUCNews 數(shù)據(jù)集的字符CNN 與RNN 模型對比

在THUCNews 的基礎(chǔ)上我們可以知基于字符的CNN 模型不僅運行時間為基于字符的RNN 模型的1/13,且在數(shù)據(jù)集上得到96.3%的精確率,由此我們使用基于字符的CNN 模型在我們針對用戶一般詢問語句人工標(biāo)注的地質(zhì)問答數(shù)據(jù)得到如表8所示,平均精確率達到96.9%,使得應(yīng)用效果超過基線模型.

表8 基于地質(zhì)標(biāo)注數(shù)據(jù)集的字符CNN 分類模型結(jié)果

5 結(jié)論與展望

本文在地質(zhì)領(lǐng)域用戶意圖識別中通過構(gòu)建地質(zhì)領(lǐng)域的實體字典,來源包括地質(zhì)百科大辭典、搜狗語料等,在基于字符的網(wǎng)格神經(jīng)網(wǎng)絡(luò)上進行專家及用戶的詢問語句實體識別訓(xùn)練,采用的是地質(zhì)文獻數(shù)據(jù),在驗證集上驗證,采用Adam 隨機梯度下降時,準(zhǔn)確率達到84.57%、召回率達到87.12%,F1 值更是達到86.18%,超過了基于模板匹配與基于RNN 的現(xiàn)有模型,可有效地識別特定領(lǐng)域的實體及關(guān)系.同時在短文本信息分類過程中借鑒卷積網(wǎng)絡(luò)考慮語義信息的優(yōu)勢,采用基于字符的分類模型達到96.9%的精確率,對于分類結(jié)果使用知識圖譜分類屬性映射得到匹配的知識描述返回用戶,整體實現(xiàn)了在基于地質(zhì)領(lǐng)域的問答過程中意圖識別.

在此基礎(chǔ)上,將來的工作更多的是將用戶熱點問題及知識意圖推理進行深入探索,通過接下來的實驗,將知識圖譜中知識的構(gòu)建環(huán)節(jié)引入知識階層路徑,實現(xiàn)用戶復(fù)雜文本信息意圖的識別.