榮光輝,黃震華
(同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱huangzhenhua@tongji.edu.cn)
基于深度學(xué)習(xí)的問答匹配方法
榮光輝,黃震華*
(同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱huangzhenhua@tongji.edu.cn)
面向中文問答匹配任務(wù),提出基于深度學(xué)習(xí)的問答匹配方法,以解決機(jī)器學(xué)習(xí)模型因人工構(gòu)造特征而導(dǎo)致的特征不足和準(zhǔn)確率偏低的問題。在該方法中,主要有三種不同的模型。首先應(yīng)用組合式的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型去學(xué)習(xí)句子中的深層語義特征,并計(jì)算特征向量的相似度距離。在此模型的基礎(chǔ)上,加入兩種不同的注意力機(jī)制,根據(jù)問題構(gòu)造答案的特征表示去學(xué)習(xí)問答對中細(xì)致的語義匹配關(guān)系。實(shí)驗(yàn)結(jié)果表明,基于組合式的深度神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)效果要明顯優(yōu)于基于特征構(gòu)造的機(jī)器學(xué)習(xí)方法,而基于注意力機(jī)制的混合模型可以進(jìn)一步提高匹配準(zhǔn)確率,其結(jié)果最高在平均倒數(shù)排序(MRR)和Top-1 accuray評測指標(biāo)上分別可以達(dá)到80.05%和68.73%。
問答匹配;深度學(xué)習(xí);循環(huán)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;機(jī)器學(xué)習(xí)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大量的文本數(shù)據(jù)不斷產(chǎn)生,人們能夠通過搜索引擎檢索到豐富的信息。然而傳統(tǒng)的搜索引擎僅僅返回與結(jié)果相關(guān)的網(wǎng)頁,導(dǎo)致難以讓用戶獲取準(zhǔn)確的關(guān)鍵信息。相比之下,智能問答系統(tǒng)能夠以一問一答的自然語言形式,通過與用戶進(jìn)行交互,精確定位用戶意圖,從而能夠高質(zhì)量地快速滿足用戶的信息需求,降低網(wǎng)站運(yùn)行成本。目前,智能問答系統(tǒng)已經(jīng)是自然語言處理領(lǐng)域中一個(gè)非常重要的研究熱點(diǎn)[1-2],具有重大的應(yīng)用價(jià)值。
對于問答匹配任務(wù),早期的方法主要是基于機(jī)器學(xué)習(xí)模型,其需要依賴人工構(gòu)造的規(guī)則特征。這些基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的模型通常會定義包括詞法、句法、語法等相關(guān)特征(例如BM25、Edit Distance、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TFIDF)等),并借助機(jī)器學(xué)習(xí)分類器(例如K近鄰(K-Nearest Neighbor,KNN)、貝葉斯分類、支持向量機(jī)(Support Vector Machine, SVM)等)來得到問答對之間的匹配關(guān)系。這種基于特征構(gòu)造的方法是一種淺層學(xué)習(xí)模型,其結(jié)果往往依賴特征提取的質(zhì)量高低,對于不同領(lǐng)域的數(shù)據(jù)泛化能力較差,缺乏對數(shù)據(jù)深層語義信息的學(xué)習(xí)能力。
近年來,深度學(xué)習(xí)模型在圖像處理、語音識別等領(lǐng)域的相關(guān)任務(wù)上取得了優(yōu)異的表現(xiàn),并逐漸在自然語言處理任務(wù)上取得了一些不錯(cuò)的研究成果。深度學(xué)習(xí)主要是以深度神經(jīng)網(wǎng)絡(luò)為主,主要包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。在2014年,Johnson等[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型,將文本分類的準(zhǔn)確率提高到了新的層次。Zhang等[4]應(yīng)用卷積深度信念網(wǎng)絡(luò)來學(xué)習(xí)詞匯和句子兩個(gè)層面的潛在特征。在機(jī)器翻譯上,Sutskever等[5]利用兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別作為編碼器和解碼器,構(gòu)造出從序列到序列(sequence to sequence, seq2seq)的語言翻譯框架,提升了機(jī)器翻譯模型的質(zhì)量。因此,應(yīng)用深度學(xué)習(xí)模型可以對問答對中細(xì)粒度的深層語義匹配關(guān)系進(jìn)行有效的表示學(xué)習(xí)建模。
由于深度學(xué)習(xí)模型在自然語言任務(wù)中具有強(qiáng)大的表示學(xué)習(xí)能力[6],為了能夠?qū)W習(xí)到問答對中細(xì)致的語義匹配關(guān)系,在不依賴人工構(gòu)造特征的情況下,本文改進(jìn)了一般的深度神經(jīng)網(wǎng)絡(luò)模型,提出了3種不同的實(shí)驗(yàn)?zāi)P?使其更加適合于問答匹配任務(wù)。通過基于深度神經(jīng)網(wǎng)絡(luò)的模型,并結(jié)合注意力機(jī)制的方法,將文本信息向量化,可以學(xué)習(xí)到句子中更加抽象的語義特征以及問答對之間關(guān)鍵的語義匹配信息,從而選擇出正確的候選答案。
問答匹配任務(wù)的目標(biāo)是給定一個(gè)問題和候選答案集,從中選擇出語義關(guān)系最為匹配的答案,其關(guān)鍵在于讓相關(guān)模型能夠?qū)W習(xí)到文本中深層的語義特征和細(xì)粒度的匹配關(guān)系。以前的相關(guān)模型多是基于機(jī)器學(xué)習(xí)的淺層模型,例如IBM Waston部門的Gondek等[7]使用了答案融合和特征排序的方法,Wang等[8]提出了基于關(guān)系主題空間特征的多核SVM分類模型。為了得到更豐富的特征,這些相關(guān)模型中會引入如語義知識庫(Freebase)和語義詞典(WordNet)等外部資源信息[9-10],以此來提高問答句之間的語義匹配精度。然而這些模型都缺少強(qiáng)大的表示學(xué)習(xí)能力,且往往需要依賴大量的特征工程。
近年來,深度學(xué)習(xí)模型逐漸開始應(yīng)用到問答匹配任務(wù)中,Wang等[11]提出了基于多層長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)模型訓(xùn)練問答對的聯(lián)合特征向量,把問答匹配問題轉(zhuǎn)換為分類或排序?qū)W習(xí)問題。Feng等[12]提出了基于共享卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練問答對,并在此基礎(chǔ)上進(jìn)行語義相似度計(jì)算,該模型在InsuranceQA英文數(shù)據(jù)集上取得了突破性的實(shí)驗(yàn)效果。另外,基于注意力機(jī)制的模型方法在一系列自然語言處理相關(guān)任務(wù)中也取得了顯著的效果提升,其主要是仿照人腦的注意思維,通過自動加權(quán)的方式對整體信息進(jìn)行局部重點(diǎn)關(guān)注。因此在問答匹配任務(wù)上可以嘗試使問題更加關(guān)注到答案中某些語義特性與其更加相關(guān)的詞語,重點(diǎn)將這些關(guān)鍵的詞語參與到答案的特征表示計(jì)算。例如在文本蘊(yùn)含領(lǐng)域上,Rocktaschel等[13]使用一種word-by-word attention方法,根據(jù)假設(shè)自適應(yīng)地學(xué)習(xí)前提的表示,能夠更好地判斷假設(shè)與前提的蘊(yùn)含關(guān)系。Yin等[14]提出一種基于注意力機(jī)制的多層卷積神經(jīng)網(wǎng)絡(luò)模型來對兩個(gè)文本語義表示建模,并在答案匹配、釋義識別和文本蘊(yùn)含任務(wù)上都達(dá)到了很好的實(shí)驗(yàn)效果。注意力機(jī)制主要分為Soft Attention與Hard Attention兩種形式。其中Soft Attention是指對每一個(gè)特征都分配一個(gè)注意力權(quán)值,認(rèn)為是個(gè)概率分布;而Hard Attention在選取特征組合時(shí),并不是對所有的特征都生成權(quán)值,可能只選取一個(gè)或者多個(gè)。本文所提出的注意力模型是將門限循環(huán)單元(Gated Recurrent Unit, GRU)[15]與Soft Attention機(jī)制相結(jié)合的混合學(xué)習(xí)模型。
循環(huán)神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于處理可變長的文本序列輸入,因?yàn)榭梢詫W(xué)習(xí)到句子的詞序特征,其關(guān)鍵的結(jié)構(gòu)是一個(gè)記憶單元(Memory Unit)。記憶單元可以記憶某時(shí)間段的信息,對于一個(gè)句子則可以選擇性記住前一時(shí)刻詞語的信息。列如一個(gè)問句:“騰訊在線教育由哪幾個(gè)部分組成?”,其中“在線教育”這個(gè)詞所對應(yīng)的隱藏單元輸入可以更多地保留來自詞語“騰訊”所傳遞的上文信息。當(dāng)前循環(huán)神經(jīng)網(wǎng)絡(luò)主要有兩種不同的變體LSTM和GRU,它們都能解決傳統(tǒng)RNN存在的長期距離依賴與梯度消失問題。相對于LSTM的網(wǎng)絡(luò)結(jié)構(gòu),GRU內(nèi)部的隱藏單元少一個(gè)控制門,參數(shù)少,收斂較快,在保證模型效果的同時(shí),模型的結(jié)構(gòu)也得到了有效簡化,所以本文使用GRU深度層次神經(jīng)網(wǎng)絡(luò)來代替LSTM。給定句子輸入x={x1,x2,…,xT},其中:xt∈Rd表示t時(shí)刻句子的預(yù)訓(xùn)練的詞向量,前一個(gè)時(shí)刻的隱藏層輸出表示為ht-1,則t時(shí)刻的GRU內(nèi)部記憶單元狀態(tài)如下。
遺忘門:
ft=σ(Wxfxt+Uhfht-1)
更新門:
zt=σ(Wxzxt+Uhzht-1)
t時(shí)刻內(nèi)部狀態(tài):
t時(shí)刻輸出:
其中:σ是sigmoid激活函數(shù);⊙代表逐元素(element-wise)相乘;W與U為參數(shù)矩陣。由于單向GRU在t時(shí)刻無法學(xué)習(xí)到在它之前和之后的上下文語義信息,所以本文模型中使用雙向門限循環(huán)層次單元(Bidirectional Gated Recurrent Unit, BGRU),即將輸入序列從正向和反向兩個(gè)GRU層分別輸入,把兩個(gè)方向在t時(shí)刻的隱層輸出串接為一個(gè)新向量ht∈R2H,其中每一個(gè)隱藏單元的維度為H。相對于單向的GRU層,BGRU模型能夠使一個(gè)詞向量表示包含更豐富的信息,從而構(gòu)造出更好的句子特征表示,其模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 雙向門限循環(huán)單元神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為了能夠?qū)W習(xí)到句子中更深層次的潛在局部特征,本文將BGRU層的輸出接入到一個(gè)卷積層。卷積層的操作就是將句子中連續(xù)的詞向量串接為一個(gè)向量,再把這個(gè)向量通過某種函數(shù)映射為一個(gè)新的特征向量。模型中設(shè)置卷積窗口大小為k,拼接相鄰的k個(gè)向量得到矩陣S∈R|k*2H|×L,卷積核filter的數(shù)目為c,整個(gè)卷積操作計(jì)算過程如式(1)所示:
G=f(WgcS+b)
(1)
其中:f是relu激活函數(shù),可以加速模型的收斂,更易于優(yōu)化;權(quán)重Wgc和偏差b隨機(jī)初始化為均勻分布U(-0.05,+0.05)。不同于傳統(tǒng)單一粒度的卷積核,在實(shí)驗(yàn)中本文使用多粒度的卷積核,即有不同大小的卷積核,每一種粒度的卷積核都可以學(xué)習(xí)到句子的一種n-gram特征。卷積操作后經(jīng)max-pooling得到固定大小的句子特征向量,串接所有的向量得到句子的最終表示。另外為了防止模型出現(xiàn)過擬合現(xiàn)象,訓(xùn)練過程中使用了Dropout[16],整個(gè)BGRU-CNN模型結(jié)構(gòu)如圖2所示。

圖2 基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型的問答匹配
在BGRU-CNN模型中,對于答案的每個(gè)詞向量其實(shí)都是同等對待。問題和答案在特征學(xué)習(xí)的過程中并沒有任何語義上的交互影響,也沒有考慮到一些具有關(guān)鍵特征的詞語在答案構(gòu)造表示中對句子語義匹配的重要性。另外一般句子中都存在很多無關(guān)的干擾詞,它們對語義匹配的貢獻(xiàn)度很小,甚至?xí)档推ヅ涞臏?zhǔn)確度。而基于注意力機(jī)制的混合深度學(xué)習(xí)模型能夠使問題關(guān)注到答案語句中更為重要的特征詞語,讓這些關(guān)鍵詞語更多地參與答案的特征表示計(jì)算中。
Soft Attention機(jī)制就是對句子的局部重要特征進(jìn)行重點(diǎn)關(guān)注,在模型中為每個(gè)詞向量特征設(shè)置不同大小的注意力權(quán)值系數(shù),不同的權(quán)值反映出語義重要性的大小,如以下的一個(gè)問答匹配對。
Q:你知道在上海,有哪些非常好玩的著名景點(diǎn)?
A:上海是中國最大的經(jīng)濟(jì)城市,這里交通發(fā)達(dá),是國際化的大城市,旅游景點(diǎn)也很發(fā)達(dá),主要有東方明珠、外灘、南京路步行街等游玩景點(diǎn)。
根據(jù)這個(gè)問題去匹配候選答案時(shí),則“東方明珠”“外灘”“南京路步行街”這些詞語的語義與問題表述更為相關(guān),所以在模型中應(yīng)當(dāng)增強(qiáng)這些詞語的特征表示作用。為了能夠重點(diǎn)關(guān)注到答案句子中與問題語義最相關(guān)的有效詞語,本文提出的第一個(gè)基于注意力機(jī)制的問答匹配混合模型叫作AR-BGRU,其主要借鑒Hermann等[17]在閱讀理解相關(guān)任務(wù)中所提出的一種注意力機(jī)制方法稱為AR(Attentive Reader),相對于Tan等[18]提出的Attention-LSTM模型,本文基于BGRU網(wǎng)絡(luò)的注意力模型在復(fù)雜度上和訓(xùn)練代價(jià)上都更有優(yōu)勢,AR-BGRU模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
答案中每一個(gè)詞向量的所對應(yīng)的注意力權(quán)值根據(jù)問題決定。從BGRU層輸出的問題詞向量矩陣經(jīng)max-pooling得到問題特征向量rq,答案句子t時(shí)刻的輸出ht所對應(yīng)的權(quán)值計(jì)算方式如式(2)所示:
(2)
其中:Pa,(t)就是h(t)對應(yīng)的注意力權(quán)值,通過rq對h(t)加入注意力使其更新為新的特征向量ha,(t)。h(t)與rq在語義層面越匹配,Pa,(t)所表示的重要性程度系數(shù)也就越大。這種方式可以突出答案中那些與問題相關(guān)的詞語,使具有關(guān)鍵特征的詞語在答案表示中發(fā)揮著更大的作用。

圖3 基于AR-BGRU注意力模型的問答匹配
AR-BGRU模型訓(xùn)練注意力重要性系數(shù)的方式存在著參數(shù)多、結(jié)構(gòu)復(fù)雜的問題,導(dǎo)致模型訓(xùn)練的代價(jià)大;而且max-pooling往往只選取最重要的特征,從而會丟失一些其他較為重要的信息。因此本文提出另外一種基于注意力機(jī)制的混合模型,稱作AP-BGRU,不是簡單使用max-pooling去得到最終的答案表示,而是依據(jù)不同的注意力權(quán)值系數(shù)通過加權(quán)求和的方式去表示答案。與AR-BGRU相比,模型的結(jié)構(gòu)得到簡化,實(shí)驗(yàn)的效果也有所提升,可以更好地在語義層面上匹配到正確的候選答案。AP-BGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 基于AP-BGRU注意力模型的問答匹配
從BGRU隱藏層輸出得到答案詞向量矩陣A=(a1,a2,…,aT),根據(jù)問題向量rq計(jì)算t時(shí)刻答案詞向量at的注意力權(quán)值系數(shù)?t,其計(jì)算方式如式(3)所示:

(3)
其中Pt表示at對問題rq的重要性程度函數(shù),其計(jì)算公式為:
(4)
其中:W是參數(shù)矩陣。所以答案的特征向量表示為ra每個(gè)更新后的詞向量做加權(quán)求和運(yùn)算。ra的計(jì)算公式為:
(5)
通過為不同的詞語設(shè)置不同的權(quán)值系數(shù),使得與問題無關(guān)的詞向量at在最終的答案特征表示中發(fā)揮較小的作用。
深度學(xué)習(xí)在自然語言處理任務(wù)中普遍應(yīng)用基于分布式的K維稠密實(shí)數(shù)向量來表示詞語的特征,通過詞語在向量空間上的距離來判斷它們之間的語義相似度。相對于One-hot語言模型,這種方法不會出現(xiàn)維數(shù)災(zāi)難。Google在2013年發(fā)布強(qiáng)大開源工具Word2Vec[19]就是一種分布式的詞表征方式。本文使用Word2Vec來預(yù)訓(xùn)練詞向量,訓(xùn)練語料主要來自爬取的百度百科相關(guān)網(wǎng)頁數(shù)據(jù),去除特殊字符和標(biāo)點(diǎn)符號后,語料庫大小大約有22 GB,所訓(xùn)練的詞向量維數(shù)d設(shè)置為300,句子最大的長度設(shè)置為50。
模型的目標(biāo)函數(shù)定義為:
L=max{0,m-cos(q,a+)+cos(q,a-)}
其中:a+為正確答案向量;a-為隨機(jī)選取的負(fù)向答案向量;m是為了優(yōu)化目標(biāo)函數(shù)而設(shè)置的閾值參數(shù)。目標(biāo)函數(shù)的意義就是讓正確答案和問題之間的cos值要大于負(fù)向答案和問題的cos值。模型的優(yōu)化器設(shè)置為Adam[20]來更新神經(jīng)網(wǎng)絡(luò)模型中的參數(shù),Dropout rate設(shè)置為0.2,卷積核數(shù)c設(shè)置為200。實(shí)驗(yàn)環(huán)境是基于Spark 集群的CentOS 6.5服務(wù)器,每個(gè)CPU有16個(gè)核,4塊型號為TITAN X的顯卡,每個(gè)顯存大小為12 GB,支持Nvidia Cuda深度學(xué)習(xí)運(yùn)算平臺。
數(shù)據(jù)集為NLPCC-ICCPOL 2016 評測任務(wù)DBQA所提供的開放域問答數(shù)據(jù)集,數(shù)據(jù)集分為訓(xùn)練集與測試集。訓(xùn)練集有8 772個(gè)問題,共181 882問答對;測試集有5 997個(gè)問題,共122 530個(gè)問答對。本文在預(yù)處理階段去除了一些常見無意義的停用詞,如“啊”“吧”“的”等。
本文實(shí)驗(yàn)采用了兩種評測指標(biāo):準(zhǔn)確率(Top-1 accuracy)和平均倒數(shù)排序(Mean Reciprocal Rank, MRR)。實(shí)驗(yàn)結(jié)果如表1所示。

表1 多個(gè)模型的實(shí)驗(yàn)評測結(jié)果 %
實(shí)驗(yàn)數(shù)據(jù)集主要是NLPCC-ICCPOL 2016 DBQA Task所提供的中文開放域問答數(shù)據(jù),為了驗(yàn)證本文模型的有效性,在相同數(shù)據(jù)集下將其他模型的實(shí)驗(yàn)對比結(jié)果如表2所示。
從表2中的實(shí)驗(yàn)結(jié)果對比可以看出,就Wu等[21]基于傳統(tǒng)的人工構(gòu)造特征(如:TF、Edit distance等)模型而言,基于深度學(xué)習(xí)的雙向長短期記憶網(wǎng)絡(luò)(BLSTM)模型在問答匹配上的實(shí)驗(yàn)效果要明顯優(yōu)于基于機(jī)器學(xué)習(xí)的SVM分類排序方法。而本文BGRU-CNN模型與BLSTM相比,MRR指標(biāo)提高了將近9個(gè)百分點(diǎn),可以推斷出在雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)加卷積層能夠進(jìn)一步學(xué)習(xí)到句子中更深層次的語義特征,從而可以提高語義匹配的準(zhǔn)確率。在與Wang等模型[22]的實(shí)驗(yàn)對比結(jié)果中可以看出,BGRU-CNN實(shí)驗(yàn)效果要比基于Word overlap和Average word embedding特征構(gòu)造的模型要好很多。這兩個(gè)方法存在的共同點(diǎn)就是無法像深度神經(jīng)網(wǎng)絡(luò)那樣可以學(xué)習(xí)到句子中抽象的語義信息。相對于Embedding-based feature方法,BGRU-CNN模型的效果也有一定的提升,MRR指標(biāo)大約提高了0.7個(gè)百分點(diǎn)。從表1~2可以看出,引入注意力機(jī)制的AR-BGRU與AP-BGRU模型的實(shí)驗(yàn)效果都要優(yōu)于BGRU-CNN模型,MRR指標(biāo)分別提高了2.35個(gè)百分點(diǎn)和4.73個(gè)百分點(diǎn),從而可以說明基于注意力機(jī)制的深度學(xué)習(xí)混合模型在問答匹配任務(wù)上的有效性,它們都可以增強(qiáng)答案特征中與問題最相關(guān)的表示部分。另外可以發(fā)現(xiàn)AP-BGRU比AR-BGRU的匹配效果提高了約2.4個(gè)百分點(diǎn),間接地說明基于注意力機(jī)制的加權(quán)特征構(gòu)造方式與max-pooling池化方式相比,可以更好地表示答案特征。與Wang等組合多種構(gòu)造特征(All feature)并通過回歸或者排序?qū)W習(xí)模型去選取候選答案的方法相比,本文AP-BGRU的效果要稍微差一點(diǎn),推測這是整個(gè)訓(xùn)練樣本受限的原因。

表2 與其他相關(guān)模型的MRR比較
針對問答匹配任務(wù),本文提出了三種基于深度學(xué)習(xí)的模型去改善機(jī)器學(xué)習(xí)方法中存在的不足,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型在中文開放域問答數(shù)據(jù)集上的有效性。在不依賴人工構(gòu)造復(fù)雜特征的情況下,本文的模型取得了良好的實(shí)驗(yàn)效果,尤其是在引入注意力機(jī)制后,模型的準(zhǔn)確率能夠得到進(jìn)一步的提升。目前中文問答系統(tǒng)的語料相對來說還是欠缺,除了收集和標(biāo)記更多的語料之外,還可以嘗試如何在深度學(xué)習(xí)模型中有效地融合傳統(tǒng)的特征提取方法。另外目前基于注意力機(jī)制的模型大多數(shù)都是在詞匯級別(word-level)上,而短語級別(phrase-level)的文本可能包含更豐富的語義信息,如何將注意力機(jī)制應(yīng)用到短語級別,更加有效地學(xué)習(xí)句子的潛在抽象特征,將是未來的重點(diǎn)研究方向。
References)
[1] 王元卓, 賈巖濤, 劉大偉, 等. 基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(2): 456-474. (WANG Y Z, JIA Y T, LIU D W, et al. Open Web knowledge aided information search and data mining[J]. Journal of Computer Research and Development, 2015, 52(2): 456-474.)
[2] ZHOU T C, LYU M R, KING I. A classification-based approach to question routing in community question answering[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 783-790.
[3] JOHNSON R, ZHANG T. Effective use of word order for text categorization with convolutional neural networks[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.1058.pdf.
[4] ZHANG D, WANG D. Relation classification via recurrent neural network[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1508.01006.pdf.
[5] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 3104-3112.
[6] HU B, LU Z, LI H, et al. Convolutional neural network architectures for matching natural language sentences[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 2042-2050.
[7] GONDEK D C, LALLY A, KALYANPUR A, et al. A framework for merging and ranking of answers in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 399-410.
[8] WANG C, KALYANPUR A, FAN J, et al. Relation extraction and scoring in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 339-350.
[9] KASNECI G, SUCHANEK F M, IFRIM G, et al. NAGA: harvesting, searching and ranking knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1285-1288.
[10] YIH W T, CHANG M W, MEEK C, et al. Question answering using enhanced lexical semantic models[EB/OL]. [2017- 01- 10]. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/QA-SentSel-Updated-PostACL.pdf.
[11] WANG D, NYBERG E. A long short-term memory model for answer sentence selection in question answering[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 707-712.
[12] FENG M, XIANG B, GLASS M R, et al. Applying deep learning to answer selection: a study and an open task[C]// Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2015: 813-820.
[13] ROCKTASCHEL T, GREFENSTETTE E, HERMANN K M, et al. Reasoning about entailment with neural attention [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1509.06664.pdf.
[14] YIN W, SCHUTZE H, XIANG B, et al. ABCNN: attention-based convolutional neural network for modeling sentence pairs [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1512.05193.pdf.
[15] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.3555.pdf.
[16] SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[17] HERMANN K M, KOCISKY T, GREFENSTETTE E, et al. Teaching machines to read and comprehend [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1506.03340.pdf.
[18] TAN M, SANTOS C, XIANG B, et al. LSTM-based deep learning models for non-factoid answer selection [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1511.04108.pdf.
[19] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1301.3781.pdf.
[20] KINGMA D, BA J. Adam: a method for stochastic optimization [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.6980.pdf.
[21] WU F, YANG M, ZHAO T, et al. A hybrid approach to DBQA[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 926-933.
[22] WANG B, NIU J, MA L, et al. A Chinese question answering approach integrating count-based and embedding-based features[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 934-941.
Questionanswermatchingmethodbasedondeeplearning
RONG Guanghui, HUANG Zhenhua*
(DepartmentofComputerScienceandTechnology,TongjiUniversity,Shanghai201800,China)
For Chinese question answer matching tasks, a question answer matching method based on deep learning was proposed to solve the problem of lack of features and low accuracy due to artificial structural feature in machine learning. This method mainly includes 3 different models. The first model is the combination of Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN), which is used to learn the deep semantic features in the sentence and calculate the similarity distance of feature vectors. Moreover, adding two different attention mechanism into this model, the feature representation of answer was constructed according to the question to learn the detailed semantic matching relation of them. Experimental results show that the combined deep nerual network model is superior to the method of feature construction based on machine learning, and the hybrid model based on attention mechanism can further improve the matching accuracy where the best results can reach 80.05% and 68.73% in the standard evaluation of Mean Reciprocal Rank (MRR) and Top-1 accuracy respectively.
question answer matching; deep learning; Recurrent Neural Network (RNN); Convolution Neural Network (CNN); attention mechanism; machine learning
2017- 05- 03;
2017- 07- 09。
中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(1600219256);上海市青年科技啟明星計(jì)劃項(xiàng)目(15QA1403900);上海市自然科學(xué)基金資助項(xiàng)目(17ZR1445900);霍英東教育基金會高等院校青年教師基金資助項(xiàng)目(142002)。
榮光輝(1992—),男,安徽六安人,碩士研究生,主要研究方向:深度學(xué)習(xí)、自然語言處理; 黃震華(1980—),男,福建泉州人,教授,博士,CCF會員,主要研究方向:數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。
1001- 9081(2017)10- 2861- 05
10.11772/j.issn.1001- 9081.2017.10.2861
TP183
A
This work is partially supported by the Fundamental Research Funds for the Central Universities (1600219256), the Sponsored by Shanghai Rising-Star Program (15QA1403900), the Shanghai Natural Science Foundation (17ZR1445900), the Fok Ying-Tong Education Foundation for Young Teachers in the Higher Education Institutions of China (142002).
RONGGuanghui, born in 1992, M. S. candidate. His research interests include deep learning, natural language processing.
HUANGZhenhua, born in 1980, Ph. D., professor. His research interests include data analysis, data mining, machine learning.