史夢(mèng)飛,楊 燕,賀 樑,陳成才
1(華東師范大學(xué) 計(jì)算機(jī)科學(xué)與軟件工程學(xué)院,上海 200062)
2(上海智臻智能網(wǎng)絡(luò)科技股份有限公司,上海 201803)
社區(qū)問(wèn)答系統(tǒng)(Community Question Answering,CQA)通過(guò)提供問(wèn)題和答案的形式將需要獲取有效信息的用戶(hù)和熱心分享知識(shí)信息的用戶(hù)聯(lián)系起來(lái),用戶(hù)既能提出新的問(wèn)題,也能回答問(wèn)題或者豐富已有的問(wèn)答信息,這是一種高效便捷的信息獲取的方式.目前比較有名的CQA,像百度知道、360問(wèn)答、Yahoo Answers等,都有著非常龐大的用戶(hù)基數(shù).CQA以其靈活獨(dú)特的用戶(hù)交互特性滿(mǎn)足了用戶(hù)獲取和分享知識(shí)信息的訴求,從而受到越來(lái)越多的關(guān)注.問(wèn)句分類(lèi)是其中的一個(gè)重要步驟,可以輔助系統(tǒng)理解用戶(hù)的詢(xún)問(wèn)意圖.例如,對(duì)于問(wèn)句“梅西效力于哪個(gè)俱樂(lè)部?”應(yīng)該被分到“體育運(yùn)動(dòng)”這個(gè)類(lèi)別.問(wèn)句的類(lèi)別信息可以極大的縮小答案搜索空間.除了在問(wèn)答的過(guò)程中,問(wèn)句分類(lèi)在構(gòu)建社區(qū)問(wèn)答語(yǔ)料庫(kù)時(shí)也發(fā)揮著比較重要的作用.準(zhǔn)確高效的對(duì)問(wèn)句進(jìn)行分類(lèi)將極大提高社區(qū)問(wèn)答語(yǔ)料庫(kù)的構(gòu)建速度和質(zhì)量.
在對(duì)問(wèn)句分類(lèi)之前,首先要確定問(wèn)句有哪幾種類(lèi)型,具體的類(lèi)別將由問(wèn)句分類(lèi)體系決定.目前的問(wèn)句分類(lèi)體系還沒(méi)有完全統(tǒng)一的標(biāo)準(zhǔn),在國(guó)際上比較權(quán)威的是UIUC問(wèn)句分類(lèi)體系[1],這是基于答案類(lèi)型的層次分類(lèi)體系.UIUC分類(lèi)體系是針對(duì)英文分類(lèi)的,哈工大在該分類(lèi)體系基礎(chǔ)上根據(jù)漢語(yǔ)的固有特點(diǎn)定義了一套中文分類(lèi)體系,主要包含 7 個(gè)大類(lèi)(人物,地點(diǎn),數(shù)字,時(shí)間,實(shí)體,描述,未知),每個(gè)大類(lèi)下又細(xì)分了一些小類(lèi),總共60個(gè)小類(lèi)[2].在一些具體的應(yīng)用場(chǎng)景會(huì)有更有針對(duì)性的細(xì)致分類(lèi),比如說(shuō)在社區(qū)問(wèn)答系統(tǒng)“百度知道”中,問(wèn)題就被分為“電腦網(wǎng)絡(luò)”,“體育運(yùn)動(dòng)”,“經(jīng)濟(jì)金融”等多個(gè)類(lèi)別.
問(wèn)句分類(lèi)屬于文本分類(lèi)人任務(wù)中的一種,但與一般的文本分類(lèi)有很大的不同,主要原因是問(wèn)句都是由用戶(hù)隨機(jī)提出的自然語(yǔ)言問(wèn)題,而不是傳統(tǒng)的規(guī)范性文本.該任務(wù)主要面臨兩大挑戰(zhàn).第一個(gè)挑戰(zhàn)是用戶(hù)提出的問(wèn)句通常比較簡(jiǎn)短,包含的詞匯量有限,存在信息量缺乏的問(wèn)題[3,4].例如,對(duì)于問(wèn)句“007 是什么?”應(yīng)該被分到實(shí)體這個(gè)類(lèi)別,但是如何判斷“007” 是代表的一個(gè)電影系列還是一串?dāng)?shù)字是一個(gè)難點(diǎn).第二個(gè)挑戰(zhàn)是有些問(wèn)句比較冗長(zhǎng),很難捕捉最關(guān)鍵有效的信息.例如對(duì)于問(wèn)句“用西班牙內(nèi)戰(zhàn)作為訓(xùn)練的6500名德國(guó)空軍士兵的名字是什么?”,包含了一系列的實(shí)體名詞,給問(wèn)句的正確分類(lèi)造成干擾.所以,無(wú)論問(wèn)句包含的信息是多是少,都存在各自分類(lèi)的困難因素.因此,如何更好的利用已有信息或補(bǔ)充信息來(lái)理解問(wèn)句,找出問(wèn)句中最有效的信息是問(wèn)句分類(lèi)任務(wù)急需解決的重要問(wèn)題.
針對(duì)以上的問(wèn)題,本文提出了一種基于深度學(xué)習(xí)的分類(lèi)方法,該方法融合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)并帶有注意力機(jī)制.
一方面,本文提出的方法引入了深度學(xué)習(xí)模型,并結(jié)合了Bi-LSTM和CNN兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),充分利用其各自的優(yōu)勢(shì),通過(guò)學(xué)習(xí)分布式詞向量來(lái)表示每個(gè)詞的特征,在保留問(wèn)句時(shí)序信息的同時(shí)捕捉最主要的信息特征.通過(guò)這樣的方式有效的緩解了傳統(tǒng)詞袋模型存在的數(shù)據(jù)稀疏性和語(yǔ)義敏感性問(wèn)題.同時(shí),緩解了傳統(tǒng)的基于CNN的分類(lèi)方法只是對(duì)由連接詞向量組成的n-gram向量進(jìn)行了簡(jiǎn)單的線(xiàn)性計(jì)算,然而與連接一起的線(xiàn)性操作不能很好的對(duì)n-grams中的非連續(xù)性依賴(lài)和交互性進(jìn)行建模的問(wèn)題.例如,在一個(gè)問(wèn)句中包含“not a total loss”這個(gè)短語(yǔ),顯然,非連續(xù)性的依賴(lài)“not loss”在這句話(huà)中是非常關(guān)鍵的信息,但是通過(guò)簡(jiǎn)單連接的線(xiàn)性操作很難精確的定位這些信息.在社區(qū)問(wèn)答的問(wèn)句分類(lèi)任務(wù)中,由于問(wèn)句的內(nèi)容和類(lèi)型都十分的多樣和廣泛,因此結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)更能精確捕捉問(wèn)句特征,為準(zhǔn)確分類(lèi)提供重要信息.
另一方面,本文提出的方法考慮到在問(wèn)句分類(lèi)時(shí)結(jié)合問(wèn)句已有的答案信息,較好的解決了簡(jiǎn)短問(wèn)句信息量少的難點(diǎn).如表一所示,在沒(méi)有利用答案文本的情況下,僅利用問(wèn)題文本學(xué)習(xí)到的詞向量作為特征表示,“007是什么?”很難判斷其屬于哪個(gè)類(lèi)別.顯然這個(gè)問(wèn)句實(shí)在太短,沒(méi)有包含特別明顯的可作為主題判斷的信息詞,最關(guān)鍵的詞“007”,機(jī)器更可能理解為單純的數(shù)字.然而加入了答案文本后,由于答案文本中出現(xiàn)“電影”這類(lèi)詞,這樣問(wèn)題特征所學(xué)得的詞向量中也就包含“電影”等信息.因此上述問(wèn)題就可以被準(zhǔn)確的識(shí)別為“實(shí)體類(lèi)”問(wèn)題.
具體來(lái)說(shuō),本文提出的基于深度學(xué)習(xí)的問(wèn)句分類(lèi)方法使用Bi-LSTM和CNN結(jié)合的方式來(lái)更好的加強(qiáng)問(wèn)句特征的表示,很好的利用了Bi-LSTM能夠捕捉時(shí)序信息的特點(diǎn)及CNN捕捉局部特征的優(yōu)勢(shì),并利用注意力機(jī)制,引入問(wèn)句的答案內(nèi)容來(lái)增強(qiáng)問(wèn)句信息量.實(shí)驗(yàn)表明,本文提出的問(wèn)句分類(lèi)方法有助于提升問(wèn)句分類(lèi)的準(zhǔn)確度.
本文的其他部分組織如下:第1節(jié)介紹問(wèn)題分類(lèi)的一些相關(guān)研究工作;第2節(jié)描述本文提出的基于深度學(xué)習(xí)的問(wèn)題分類(lèi)方法;第3節(jié)介紹本文的數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置與結(jié)果;第4節(jié)簡(jiǎn)述結(jié)論及未來(lái)工作展望.
目前,問(wèn)題分類(lèi)研究主要分為兩個(gè)大的方向.第一個(gè)大方向是基于特征統(tǒng)計(jì)的機(jī)器學(xué)習(xí)分類(lèi)方法,也是目前用的相對(duì)較多的方法.第二種是基于深度學(xué)習(xí)的方法,主要用到各種神經(jīng)網(wǎng)絡(luò)模型.
Hui等人[5]在進(jìn)行問(wèn)句分類(lèi)時(shí)考慮到問(wèn)題文本中詞序和詞間距的因素,提出了一種擴(kuò)展類(lèi)規(guī)則模型;Mishra等人[6]根據(jù)從問(wèn)題文本中抽取的詞特征、語(yǔ)義特征和句法特征來(lái)訓(xùn)練不同的分類(lèi)器(樸素貝葉斯、最近鄰、支持向量機(jī))進(jìn)行問(wèn)題的分類(lèi);Aikawa等人[7]根據(jù)用戶(hù)的主觀和客觀臆想,將問(wèn)題分為主客觀兩類(lèi)并利用平滑的樸素貝葉斯方法進(jìn)行問(wèn)題分類(lèi).Liu等人[8]在SVM的基礎(chǔ)上提出了一種依賴(lài)句法關(guān)系和詞性特征的核函數(shù)方法.楊思春等人[9]為了解決問(wèn)句分類(lèi)研究中特征提取開(kāi)銷(xiāo)過(guò)大的問(wèn)題,提出了一種包含基本特征和詞袋綁定特征的問(wèn)句特征模型,以此來(lái)獲取更加有效的問(wèn)句特征集.
目前,深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域已經(jīng)得到廣泛應(yīng)用[10–12],在圖像處理、語(yǔ)音識(shí)別和文本分類(lèi)等任務(wù)上都取得了不錯(cuò)的效果.在文本分類(lèi)領(lǐng)域中,Kim[13]提出的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型,該方法使用了由word2vec預(yù)先訓(xùn)練好的一批詞向量,并適當(dāng)調(diào)整了CNN的一些超參,在包含問(wèn)句集在內(nèi)的多個(gè)英文文本分類(lèi)數(shù)據(jù)集上都取得了不錯(cuò)的效果.Shi等人[14]提出了基于深度長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的非線(xiàn)形不連續(xù)特征映射分類(lèi)模型.
與上述研究?jī)?nèi)容有所區(qū)別的是,本文使用了Bi-LSTM和CNN結(jié)合的深度學(xué)習(xí)模型,并考慮到利用問(wèn)句的答案信息來(lái)增強(qiáng)問(wèn)句表示,以此提高問(wèn)句分類(lèi)的效果.
圖1為本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的問(wèn)句分類(lèi)方法的架構(gòu)圖.首先,所有的問(wèn)句都將以詞向量來(lái)表示并輸入網(wǎng)絡(luò);接下來(lái)將進(jìn)入卷積層和記憶層,充分發(fā)揮CNN和Bi-LSTM各自的優(yōu)勢(shì),保持問(wèn)句信息并提取特征;隨后利用注意力機(jī)制來(lái)識(shí)別問(wèn)句最主要的特征;最后經(jīng)過(guò)分類(lèi)器得出分類(lèi)結(jié)果.
首先,對(duì)輸入層輸入的問(wèn)句進(jìn)行分詞,并通過(guò)Word2Vec得到問(wèn)句中每個(gè)詞所對(duì)應(yīng)的詞向量表示.這些詞向量表示保持了問(wèn)句最原始的信息,對(duì)接下來(lái)的步驟影響重大.假設(shè)問(wèn)句Q包含n個(gè)單詞Q={x1,x2,…,xn},xi代表問(wèn)句中第i個(gè)詞.如果問(wèn)句帶有答案信息,則加入答案詞向量.例如,對(duì)于問(wèn)題Q“科比曾經(jīng)效力哪只球隊(duì)?”,對(duì)應(yīng)答案 A“洛杉磯湖人隊(duì).”,則用 Q 和A一起表示該問(wèn)題.如圖一所示,首先利用詞向量矩陣Ew來(lái)獲得詞向量.在這里d代表向量的維度,vw表示詞匯大小.通過(guò)如下公式所示操作,可以將一個(gè)詞xi轉(zhuǎn)變?yōu)樵~向量ei:

其中,vi是向量vw的大小.本文采用隨機(jī)初始化詞向量的方法,并在訓(xùn)練的過(guò)程中不斷更新.經(jīng)過(guò)這個(gè)步驟,問(wèn)句將以詞向量embeddingsq={e1,e2,…,en}的形式進(jìn)入下一層網(wǎng)絡(luò).

圖1 基于深度神經(jīng)網(wǎng)絡(luò)的問(wèn)句分類(lèi)方法架構(gòu)圖
在經(jīng)過(guò)詞向量層后,一個(gè)包含n個(gè)詞的問(wèn)句可以表示成如下形式:

這里符號(hào) ⊕是兩個(gè)相鄰詞之間的連接符.通常,向量hi:i+j表示一系列詞向量hi,hi+1,…,hi+j.每一次卷積操作都包含一個(gè)過(guò)濾器w∈Rmd,它可以通過(guò)一個(gè)包含m個(gè)詞的窗口來(lái)產(chǎn)生一個(gè)新的特征.例如,一個(gè)特征ci可以由窗口hi:i+m–1產(chǎn)生:

這里的b∈R是一個(gè)偏置項(xiàng),f是一個(gè)類(lèi)似雙曲正切的非線(xiàn)性函數(shù).問(wèn)句最后可以被表示為:

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)最初被用來(lái)解決梯度消失問(wèn)題,隨后許多基于長(zhǎng)短時(shí)記憶的變體網(wǎng)絡(luò)結(jié)構(gòu)被提出.本文采用了由Graves[15]提出的一種變體結(jié)構(gòu),其能夠在相同的記憶模塊上增加窺視孔連接的權(quán)重.
特別地,基于長(zhǎng)短時(shí)記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)有4個(gè)主要組成部分:一個(gè)帶有權(quán)重矩陣 Wxi,Whi,Wci,bi的輸入門(mén)it;一個(gè)帶有權(quán)重矩陣 Wxf,Whf,Wcf,bf的遺忘門(mén)ft;一個(gè)帶有權(quán)重矩陣 Wxo,Who,Wco,bo的輸出門(mén)ot;所有的這些門(mén)都將產(chǎn)生一定的影響,使用當(dāng)前的輸入xi,狀態(tài)hi–1在前一步就已經(jīng)生成,單元ci–1的當(dāng)前的狀態(tài)決定是否使用這個(gè)輸入,遺忘之前存儲(chǔ)的記憶,最后輸出生成的狀態(tài).這些部分由以下這些公式來(lái)證明:

因此,當(dāng)前單元狀態(tài)ct的生成是由通過(guò)計(jì)算之前單元狀態(tài)的權(quán)重和由這個(gè)單元所生成的當(dāng)前信息決定.
對(duì)于很多句子級(jí)的處理任務(wù),考慮上下文信息是十分有必要的.然而標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)在對(duì)句子進(jìn)行建模的時(shí)候只是考慮了時(shí)序信息而忽略了下文信息.Bi-LSTM網(wǎng)絡(luò)通過(guò)引入第二層網(wǎng)絡(luò)結(jié)構(gòu)來(lái)擴(kuò)展單向的LSTM網(wǎng)絡(luò),而隱藏的連接在相反的時(shí)間順序流動(dòng).所以,Bi-LSTM可以利用前后文的信息,保證了在時(shí)間序列上過(guò)去和未來(lái)的信息都能考慮到.
本文提出的方法就使用了Bi-LSTM對(duì)問(wèn)句進(jìn)行建模.如圖一所示,這個(gè)網(wǎng)絡(luò)包含兩個(gè)子網(wǎng)絡(luò)分別對(duì)問(wèn)句進(jìn)行前后建模.輸出的第i個(gè)詞如下面的式子所示:

向前向后的輸出最后是一個(gè)融合的結(jié)果.
為了更好的捕捉問(wèn)句中的有效信息,抓住語(yǔ)義重點(diǎn),本文在分類(lèi)方法中加入了注意力機(jī)制[16].H表示由上層Bi-LSTM網(wǎng)絡(luò)輸出向量所組成的矩陣,n表示句子的長(zhǎng)度.問(wèn)句的表示r就由這些向量的加權(quán)和構(gòu)成,如下公式所示:

其中,H∈Rdn,d代表詞向量的維度,w是一個(gè)訓(xùn)練的參數(shù)向量,wn是一個(gè)轉(zhuǎn)置.維度w,α,r與d,n,d分別對(duì)應(yīng).所以最后用于分類(lèi)的問(wèn)句表示如下:

在這一層網(wǎng)絡(luò)結(jié)構(gòu)中,我們使用一個(gè)softmax分類(lèi)器從一組離散的類(lèi)別Y來(lái)預(yù)測(cè)問(wèn)句Q的標(biāo)簽y.分類(lèi)器利用隱藏狀態(tài)c*作為輸入:

損失函數(shù)如下:

其中,t∈Rm是one-hot表示,y∈Rm代表估計(jì)每個(gè)類(lèi)別的概率(m是目標(biāo)類(lèi)別的數(shù)目),表示一個(gè)L2正則化參數(shù).
本文在詞向量層、Bi-LSTM層和倒數(shù)第二層引入dropout.使用L2范式來(lái)約束權(quán)重向量,通過(guò)重新調(diào)節(jié)w,使得 ||w||=s,每當(dāng)梯度下降的時(shí)候||w||>s,如公式(18)所示.
本實(shí)驗(yàn)主要使用了3個(gè)數(shù)據(jù)集,包括:TREC、YahooAns、CQA dataset.其中 TREC 和 YahooAns是公共英文問(wèn)句數(shù)據(jù)集,但前者不包含答案集,后者包含答案集.CQA dataset是從兩大中文社區(qū)問(wèn)答社區(qū):百度知道和360問(wèn)答中抓取的問(wèn)句構(gòu)成.關(guān)于3個(gè)數(shù)據(jù)集的一些簡(jiǎn)要數(shù)據(jù)統(tǒng)計(jì)如表1所示,對(duì)于每個(gè)數(shù)據(jù)集的詳細(xì)介紹如下:
(1)TREC:TREC問(wèn)句集包含一系列事實(shí)類(lèi)問(wèn)句,遵循廣泛應(yīng)用的UIUC英文問(wèn)句分類(lèi)體系,問(wèn)句分為6 個(gè)大類(lèi)(ABBR,DESC,ENTY,HUM,LOC,NUM)[1],50個(gè)小類(lèi),每個(gè)大類(lèi)會(huì)包含不同的小類(lèi).選擇這個(gè)數(shù)據(jù)集是因?yàn)樵摂?shù)據(jù)集比較經(jīng)典,適用廣泛,能較好的證明方法的性能.
(2)YahooAns:YahooAns 數(shù)據(jù)集是從雅虎問(wèn)答社區(qū)上搜集下來(lái)的一批問(wèn)句集并帶有答案信息,并且通過(guò)人工審核校驗(yàn).該數(shù)據(jù)集主要包含如下4個(gè)類(lèi)別:“information”、“advice”、“opinion”和“polling”.
(3)CQA dataset:CQA dataset是從百度知道和360問(wèn)答中抓取的問(wèn)句組成的數(shù)據(jù)集并帶有答案信息.所有選取的問(wèn)句被分為3類(lèi),分別為:電腦網(wǎng)絡(luò)、體育運(yùn)動(dòng)、地區(qū).
3.2.1 參數(shù)設(shè)置
在所有的3個(gè)數(shù)據(jù)集上,算法模型所使用的參數(shù)都是一樣的.為了能夠與Kim[13]之前的工作進(jìn)行對(duì)比,所以采用了其實(shí)驗(yàn)中的一些基本參數(shù)設(shè)置.窗口值的大小為 3,droupout rate 設(shè)置為 0.5,l2constraint(s)設(shè)置為3.在訓(xùn)練的時(shí)候,我們采用小批量隨機(jī)梯度下降法,以減小訓(xùn)練損失.本文把mini-batch size的大小設(shè)置為50.
現(xiàn)在許多研究實(shí)驗(yàn)習(xí)慣利用由無(wú)監(jiān)督的神經(jīng)語(yǔ)言模型預(yù)先訓(xùn)練好的詞向量,因?yàn)檫@可以彌補(bǔ)大型監(jiān)督訓(xùn)練集的一些缺陷,從而提高實(shí)驗(yàn)效果[15,16].本文在數(shù)據(jù)集TREC和YahooAns上使用的詞向量是由Word2Vec預(yù)先訓(xùn)練好的包含1000億詞匯量的谷歌新聞?wù)Z料,在CQA dataset上使用的是由百度新聞上爬取的10億詞匯量新聞?wù)Z料訓(xùn)練的詞向量.
3.2.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Accuracy,Acc),均方根誤差(Root Mean Squared Error,RMSE),具體計(jì)算公式如下所示:

其中,AccNum表示分類(lèi)正確的測(cè)試集問(wèn)句數(shù)目,TNum表示所有測(cè)試集的問(wèn)句數(shù)目,RMSE是用來(lái)消除預(yù)測(cè)類(lèi)別pi和真實(shí)類(lèi)別gi之間的差異.
表2列出了在3個(gè)數(shù)據(jù)集上的分類(lèi)準(zhǔn)確度值和均方根誤差值.考慮到我們的方法是基于經(jīng)典的CNN分類(lèi)模型的改進(jìn),所以本文的對(duì)比標(biāo)準(zhǔn)就是Kim提出的CNN文本分類(lèi)模型,并將該模型實(shí)驗(yàn)結(jié)果作為基準(zhǔn)值.
從實(shí)驗(yàn)結(jié)果可以看出,總體上在數(shù)據(jù)集CQA dataset和YahooAns上的實(shí)驗(yàn)結(jié)果沒(méi)有在數(shù)據(jù)集TREC上好,主要因?yàn)榍皟蓚€(gè)數(shù)據(jù)集的問(wèn)句復(fù)雜度明顯要高于后者,尤其是 CQA dataset.
模型LSTM+CNNs在TREC數(shù)據(jù)集上準(zhǔn)確度提升的效果不明顯,但在YahooAns和CQA dataset上的準(zhǔn)確度有較大提升,分別提升了 2.5% 和 3.1%,同時(shí),在3個(gè)數(shù)據(jù)集上的均方根誤差都有明顯降低,在3個(gè)數(shù)據(jù)集上分別降低 0.7%,1.2%,1.4%.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出模型的有效性,融合LSTM和CNN能更有效的表示問(wèn)句.
模型Att+LSTM+CNNs取得了預(yù)期效果,在每個(gè)數(shù)據(jù)集上都是取得最優(yōu)結(jié)果,這也說(shuō)明考慮問(wèn)句的答案信息是非常有必要的,同時(shí)顯示出注意力機(jī)制的有效性,其確實(shí)能夠更好的捕捉所要表示的文本特征.特別在 CQA dataset上,取得了 16.1% 的準(zhǔn)確度提高,同時(shí)均方根誤差下降了3.6%.無(wú)論是在英文數(shù)據(jù)集還是中文數(shù)據(jù)集,本文提出的方法都取得了明顯的效果提升,不僅驗(yàn)證了該方法的有效性,也從側(cè)面體現(xiàn)出該方法的泛化能力.
在實(shí)驗(yàn)過(guò)程中,除了使用了上文所提的三個(gè)問(wèn)句數(shù)據(jù)集,同時(shí)測(cè)試了兩個(gè)情感分類(lèi)的短文本數(shù)據(jù)集,對(duì)比單一的模型,本文提出的融合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)并包含注意力機(jī)制的模型也取得了一些準(zhǔn)確率的提升.因此,本文提出的模型具有一定的通用性,在作適當(dāng)修改后應(yīng)該能應(yīng)用到其他文本分類(lèi)任務(wù)中去.另外,在實(shí)驗(yàn)運(yùn)行的過(guò)程中發(fā)現(xiàn),本文提出的融合模型雖然取得了精度上的提高,但同時(shí)會(huì)帶來(lái)一些運(yùn)算復(fù)雜度的提升,會(huì)稍微增加些運(yùn)算時(shí)間,但不會(huì)造成特別嚴(yán)重的性能下降.

表2 在各個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比
本文提出了一種基于深度學(xué)習(xí)的分類(lèi)方法,該方法融合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)并帶有注意力機(jī)制.其特色在于:一方面利用Bi-LSTM和CNN結(jié)合的方式來(lái)同時(shí)獲取問(wèn)句的時(shí)序特征和本質(zhì)特征,以此來(lái)最大化提取待分類(lèi)問(wèn)句中的有效信息.另一方面,在模型中加入注意力機(jī)制,充分利用問(wèn)句的答案信息來(lái)增強(qiáng)問(wèn)句表示.實(shí)驗(yàn)結(jié)果表明本文提出的問(wèn)句分類(lèi)方法與傳統(tǒng)的機(jī)器學(xué)習(xí)方法和單一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比具有更高的準(zhǔn)確率,在多個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果.
在接下來(lái)的工作中,將考慮對(duì)待分問(wèn)句進(jìn)行更好的預(yù)處理操作,減少噪聲數(shù)據(jù).同時(shí),嘗試優(yōu)化不同的神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行有效的融合,看能否更好的對(duì)問(wèn)句進(jìn)行向量化表示,獲取問(wèn)句中最有效的信息.