999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多語(yǔ)義特征的農(nóng)業(yè)短文本匹配技術(shù)

2022-06-21 08:22:00趙春江吳華瑞繆祎晟王海琛楊寶祝
關(guān)鍵詞:語(yǔ)義特征文本

金 寧 趙春江 吳華瑞 繆祎晟 王海琛 楊寶祝

(1.沈陽(yáng)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 沈陽(yáng) 110866; 2.沈陽(yáng)建筑大學(xué)研究生院, 沈陽(yáng) 110168;3.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097; 4.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097;5.沈陽(yáng)建筑大學(xué)信息與控制工程學(xué)院, 沈陽(yáng) 110168)

0 引言

農(nóng)業(yè)信息咨詢服務(wù)是農(nóng)業(yè)技術(shù)推廣的途徑之一。“中國(guó)農(nóng)技推廣APP”搭建了高效、便捷的手機(jī)移動(dòng)端農(nóng)業(yè)信息咨詢服務(wù)平臺(tái),至今已完成農(nóng)業(yè)技術(shù)問(wèn)答超過(guò)了千萬(wàn)次,涵蓋了蔬菜、糧食作物、牲畜等10個(gè)品種,涉及病蟲(chóng)草害、栽培管理、動(dòng)物疫病等18個(gè)種植、養(yǎng)殖方面問(wèn)題[1]。面對(duì)平臺(tái)問(wèn)答社區(qū)飛速增長(zhǎng)的提問(wèn)數(shù)量和大量重復(fù)、相似提問(wèn)的存在,僅依靠農(nóng)業(yè)專家及農(nóng)業(yè)技術(shù)人員的人工回答已無(wú)法滿足農(nóng)戶快速、準(zhǔn)確獲得答案的需求。利用大數(shù)據(jù)和文本挖掘技術(shù)的文本匹配計(jì)算可有效解決上述問(wèn)題。文本匹配作為文本挖掘技術(shù)的重要組成部分,是實(shí)現(xiàn)智能問(wèn)答最關(guān)鍵、最基礎(chǔ)的技術(shù)之一[2],是農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的重點(diǎn)研究方向。

文本匹配即構(gòu)建一個(gè)模型來(lái)學(xué)習(xí)和計(jì)算2個(gè)文本的相似度,判定2個(gè)句子是否相似[3]。文本匹配方法包括基于字面相似匹配、基于語(yǔ)法結(jié)構(gòu)相似匹配和基于語(yǔ)義相似匹配等方法[4]。基于字面相似匹配一般利用重復(fù)詞、同義詞、公共字符串等詞型表面特征,采用N-gram[5]和Jaccard[6]算法進(jìn)行相似度判斷。此方法僅提取了文本相同詞型或詞數(shù)量等淺層特征,忽視了文本語(yǔ)言結(jié)構(gòu)、語(yǔ)義等深層特征的提取。基于語(yǔ)法結(jié)構(gòu)相似匹配通常利用標(biāo)注的詞語(yǔ)屬性計(jì)算文本間相似性[7],但是由于在特定領(lǐng)域內(nèi)缺少帶有詞語(yǔ)屬性標(biāo)注的文本,并且專業(yè)領(lǐng)域內(nèi)涵蓋的專屬詞語(yǔ)較多,影響了此方法相似度計(jì)算的準(zhǔn)確性。近年來(lái)基于語(yǔ)義相似匹配方法在文本匹配研究中應(yīng)用廣泛[8-10]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,將文本轉(zhuǎn)換為Word2vec[11-12]、GloVe[13]等由神經(jīng)網(wǎng)絡(luò)生成的詞向量,運(yùn)用深度學(xué)習(xí)文本匹配模型[14-16]計(jì)算文本相似度已成為當(dāng)前主要研究方法。深度學(xué)習(xí)方法能夠從文本中自動(dòng)學(xué)習(xí)、抽取特征,可有效解決人工設(shè)計(jì)特征泛化能力差,提取特征數(shù)量少的問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)是常用的深度學(xué)習(xí)方法,其卷積核結(jié)構(gòu)能夠有效提取文本局部的信息,通過(guò)堆疊卷積層的方法提取文本不同粒度的特征[17-19],但在文本序列化特征提取,特別是長(zhǎng)距離依存關(guān)系提取表現(xiàn)不佳。相比卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)更適用于文本序列化建模[20-22]。循環(huán)神經(jīng)網(wǎng)絡(luò)可將歷史信息保存并作用于后續(xù)的計(jì)算進(jìn)而提高匹配的精確度。但此方法也存在對(duì)關(guān)鍵信息不敏感,訓(xùn)練時(shí)間長(zhǎng),內(nèi)存消耗大等問(wèn)題。注意力機(jī)制[23]可有效解決上述問(wèn)題,其通過(guò)賦予關(guān)鍵詞語(yǔ)更高的權(quán)重,幫助模型快速獲得最有效的信息,從而節(jié)省計(jì)算資源。在農(nóng)業(yè)領(lǐng)域,深度學(xué)習(xí)方法在文本分類[24-26]、文本信息提取[27-28]、命名實(shí)體識(shí)別[29-31]、實(shí)體關(guān)系抽取等方面取得了一定研究成果。但現(xiàn)有研究仍存在文本特征提取模型結(jié)構(gòu)簡(jiǎn)單,短文本特征提取不豐富、不全面等不足,對(duì)于農(nóng)業(yè)領(lǐng)域中大量存在的專有名詞、詞語(yǔ)搭配方面的短文本挖掘仍不夠深入。

本文針對(duì)農(nóng)業(yè)問(wèn)答社區(qū)產(chǎn)生的提問(wèn)文本詞匯總量少、專有名詞多,語(yǔ)句規(guī)范性差,特征稀疏性強(qiáng)的特點(diǎn),從深度語(yǔ)義、詞語(yǔ)共現(xiàn)、最大匹配度3個(gè)層面提取短文本特征。根據(jù)不同層面文本特征的特點(diǎn),利用孿生長(zhǎng)短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接神經(jīng)網(wǎng)絡(luò),搭建基于多語(yǔ)義的農(nóng)業(yè)短文本匹配模型Co_BiLSTM_CNN,以實(shí)現(xiàn)提問(wèn)文本相似性判斷。

1 多語(yǔ)義特征文本匹配模型

本文提出的基于多語(yǔ)義特征文本Co_BiLSTM_CNN模型如圖1所示。該模型主要由文本預(yù)處理層和文本匹配層2部分組成。與一般文本匹配模型相比,本文提出的模型在文本預(yù)處理層構(gòu)建了詞語(yǔ)共現(xiàn)關(guān)系網(wǎng),可計(jì)算每個(gè)詞語(yǔ)共現(xiàn)對(duì)的權(quán)重,進(jìn)一步豐富了短文本特征;再根據(jù)不同文本特征的特點(diǎn),利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)搭建文本匹配模型,可實(shí)現(xiàn)文本特征的多角度提取。

圖1 Co_BiLSTM_CNN模型結(jié)構(gòu)圖Fig.1 Schematic of Co_BiLSTM_CNN

1.1 文本預(yù)處理

(1)文本分詞及詞性標(biāo)注

為了進(jìn)一步提高文本特征提取的精確度,提升文本處理效率,更加全面、完整地保留文本語(yǔ)義,首先運(yùn)用加載停用詞表方法,刪除文本包含的停用詞、特殊字符、標(biāo)點(diǎn)符號(hào)等冗余信息,減少噪聲對(duì)文本語(yǔ)義的干擾;然后利用jieba中文分詞庫(kù)對(duì)文本進(jìn)行分詞,針對(duì)文本中農(nóng)業(yè)領(lǐng)域?qū)S性~語(yǔ)識(shí)別難的問(wèn)題,加載搜狗農(nóng)業(yè)詞匯字典作為分詞字典,以提高專有名詞的識(shí)別度;為了更加深入地提取文本特征,將分詞結(jié)果的詞性作為文本特征,按照北京大學(xué)詞性標(biāo)注規(guī)范[32],對(duì)分詞結(jié)果的詞性逐一進(jìn)行標(biāo)注,利于提取更能體現(xiàn)文本語(yǔ)義的名詞、動(dòng)詞。對(duì)于具有語(yǔ)義代表性的農(nóng)業(yè)領(lǐng)域?qū)S性~語(yǔ),在詞性標(biāo)注時(shí)專門(mén)自定義了詞性,更加方便模型學(xué)習(xí)、提取文本特征。

(2)詞向量轉(zhuǎn)換

由于文本分詞結(jié)果無(wú)法被模型直接讀取,需將中文分詞結(jié)果轉(zhuǎn)換為數(shù)字向量形式表示。Word2vec[33]是近年來(lái)常用的基于神經(jīng)網(wǎng)絡(luò)的文本向量化表示方法,包括根據(jù)上下文預(yù)測(cè)當(dāng)前單詞和根據(jù)目標(biāo)詞語(yǔ)預(yù)測(cè)上下文信息2種模式,通過(guò)文本數(shù)據(jù)特征可學(xué)習(xí)得到連續(xù)、低維詞向量,有效解決了傳統(tǒng)詞向量模型帶來(lái)的語(yǔ)義孤立和維度爆炸問(wèn)題。

(3)文本特征增強(qiáng)

文本詞語(yǔ)共現(xiàn)關(guān)系是指在同一文本內(nèi),幾個(gè)詞語(yǔ)頻繁共同出現(xiàn)構(gòu)成的關(guān)系,是一種基于統(tǒng)計(jì)學(xué)的重要文本特征。在一個(gè)問(wèn)句內(nèi),幾個(gè)詞語(yǔ)在固定窗口范圍內(nèi)多次共同出現(xiàn),寓意其很可能表述相同的主題,在語(yǔ)義上具有一定的關(guān)聯(lián)性。對(duì)于2個(gè)不同的問(wèn)句,相同詞語(yǔ)共現(xiàn)關(guān)系的數(shù)量越多,代表著兩者之間語(yǔ)義相似度越高。問(wèn)句一般屬于短文本,具有詞語(yǔ)數(shù)量少、語(yǔ)義特征不明顯的特點(diǎn),利用文本詞語(yǔ)共現(xiàn)關(guān)系可有效增強(qiáng)文本語(yǔ)義特征。為了進(jìn)一步突出文本核心語(yǔ)義,減少噪聲干擾,在構(gòu)建詞語(yǔ)的共現(xiàn)關(guān)系時(shí),先對(duì)詞語(yǔ)的詞性進(jìn)行初步篩選,僅統(tǒng)計(jì)更能代表文本語(yǔ)義的名詞、動(dòng)詞以及農(nóng)業(yè)字典中包含的專有名詞;再對(duì)詞頻進(jìn)行限定,僅統(tǒng)計(jì)高于3次的詞語(yǔ),在保留了原有問(wèn)句核心詞語(yǔ)的基礎(chǔ)上,使文本語(yǔ)義特征更加豐富。

1.2 多特征文本匹配模型

(1)孿生網(wǎng)絡(luò)模型

孿生網(wǎng)絡(luò)(Siamese network)是一種雙邊的網(wǎng)絡(luò)模型架構(gòu),多用于判斷2個(gè)輸入的相似性,具體結(jié)構(gòu)如圖2所示。左右2個(gè)輸入首先經(jīng)過(guò)LSTM或者CNN等神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練而映射到新的空間,形成輸入在新空間中的表示;其次通過(guò)距離度量的方式可計(jì)算左右2個(gè)神經(jīng)網(wǎng)絡(luò)輸出的距離。訓(xùn)練參數(shù)包括左右參數(shù)共享及左右參數(shù)不等2種模式,在判斷2個(gè)問(wèn)句相似性問(wèn)題上,由于2個(gè)問(wèn)句結(jié)構(gòu)基本相同,因此選擇左右參數(shù)共享模式,即利用相同的參數(shù)提取2個(gè)問(wèn)句的特征,該模式具有訓(xùn)練參數(shù)少,訓(xùn)練效率高,避免過(guò)擬合等優(yōu)勢(shì)。本文在構(gòu)建文本匹配模型時(shí)均使用左右參數(shù)共享的孿生網(wǎng)絡(luò)模型。

圖2 孿生網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.2 Schematic of siamese network

(2)BiLSTM模型文本特征提取

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)在標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)結(jié)構(gòu)基礎(chǔ)上,增加了遺忘門(mén)、輸入門(mén)、輸出門(mén)和細(xì)胞狀態(tài),能夠在有效保存長(zhǎng)序列的歷史信息同時(shí),規(guī)避了標(biāo)準(zhǔn)RNN梯度消失和梯度爆炸等問(wèn)題,具體結(jié)構(gòu)見(jiàn)圖3。

圖3 LSTM結(jié)構(gòu)圖Fig.3 Schematic of LSTM

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

式中σ——Sigmod函數(shù)

tanh——雙曲正切函數(shù)

Wf、Wi、WC、Wo——遺忘門(mén)、輸入門(mén)、細(xì)胞狀態(tài)及輸出門(mén)權(quán)重矩陣

bf、bi、bC、bo——遺忘門(mén)、輸入門(mén)、細(xì)胞狀態(tài)及輸出門(mén)偏置

在中文文本中,詞語(yǔ)的前后組合順序會(huì)直接影響文本語(yǔ)義。為了更全面地提取文本特征,深入挖掘詞語(yǔ)相關(guān)聯(lián)的上下文信息,利用BiLSTM模型提取文本的特征,解決了LSTM單向傳輸問(wèn)題。BiLSTM由前向LSTML和后向LSTMR組成,雙向LSTM共享權(quán)值,所有神經(jīng)元內(nèi)的權(quán)重參數(shù)均相同,具體結(jié)構(gòu)如圖4所示。

圖4 BiLSTM結(jié)構(gòu)圖Fig.4 Schematic of BiLSTM

當(dāng)輸入文本詞向量為{x0,x1,x2,x3}時(shí),LSTML訓(xùn)練得到向量{hL0,hL1,hL2,hL3},LSTMR訓(xùn)練得到向量{hR0,hR1,hR2,hR3},最后將生成的向量拼接得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。在計(jì)算文本相似度任務(wù)中,由于[hL3,hR3]包括了前向與后向的所有特征信息,一般將其作為文本的特征表示。

(3)CNN模型文本特征提取

由于在文本預(yù)處理階段選擇了文本詞語(yǔ)共現(xiàn)關(guān)系作為文本的特征,原文本已由分詞結(jié)果表示更改為詞語(yǔ)共現(xiàn)對(duì)表示,改變了原來(lái)的文本語(yǔ)序特征,因此CNN模型更適合提取以詞語(yǔ)共現(xiàn)對(duì)表示文本的語(yǔ)義特征。CNN模型主要由卷積層和池化層組成,卷積層按照設(shè)定尺寸的卷積核對(duì)文本向量進(jìn)行卷積計(jì)算得到更高級(jí)的特征表示。

池化層包括平均池化和最大池化兩類,可將卷積層得到的高階特征進(jìn)行稀疏處理以及下采樣,在降低維度的同時(shí),保留了關(guān)鍵的特征信息,舍棄了不顯著的信息,有效減少了模型參數(shù)及數(shù)據(jù)計(jì)算量,降低了模型過(guò)擬合。為了遴選辨識(shí)度更高的特征,本文選擇最大池化方法,即在每個(gè)池化窗口內(nèi),取每一維的最大特征。

(4)DNN模型文本特征提取

根據(jù)統(tǒng)計(jì)的文本詞語(yǔ)共現(xiàn)情況,本文構(gòu)建了詞語(yǔ)共現(xiàn)網(wǎng)絡(luò),網(wǎng)絡(luò)中的點(diǎn)是數(shù)據(jù)集中詞頻數(shù)大于3的詞語(yǔ),網(wǎng)絡(luò)中的邊是詞語(yǔ)和詞語(yǔ)之間的共現(xiàn)關(guān)系,邊的權(quán)重計(jì)算公式為

(7)

式中fi,j——詞語(yǔ)共現(xiàn)對(duì)〈i,j〉邊的權(quán)重

ni,j——詞語(yǔ)共現(xiàn)對(duì)〈i,j〉的詞頻

k——與詞語(yǔ)i組成詞語(yǔ)共現(xiàn)對(duì)的詞語(yǔ)數(shù)量

ni,k——詞語(yǔ)共現(xiàn)對(duì)〈i,k〉的詞頻

為了進(jìn)一步豐富文本特征,使模型更好地適應(yīng)小規(guī)模數(shù)據(jù)集,本文將2個(gè)問(wèn)句詞語(yǔ)共現(xiàn)對(duì)的最大匹配度和權(quán)重作為文本特征。文本特征表示為{l1,l2,g,w},其中l(wèi)1和l2表示2個(gè)問(wèn)句包含的詞語(yǔ)共現(xiàn)對(duì)數(shù)量,g表示2個(gè)問(wèn)句的詞語(yǔ)共現(xiàn)對(duì)最大匹配度,w表示詞語(yǔ)共現(xiàn)對(duì)的權(quán)重之和。將文本特征輸入到DNN網(wǎng)絡(luò)模型中,映射成新空間向量。

2 試驗(yàn)與結(jié)果分析

2.1 試驗(yàn)數(shù)據(jù)

試驗(yàn)數(shù)據(jù)來(lái)源于“中國(guó)農(nóng)技推廣APP”中的問(wèn)答社區(qū),共有20 000對(duì)問(wèn)題組合,并通過(guò)人工標(biāo)記的方法,標(biāo)注了問(wèn)題組合對(duì)中2個(gè)問(wèn)句是否相似。表1中為部分樣例試驗(yàn)數(shù)據(jù),語(yǔ)義相同的2個(gè)問(wèn)句,其標(biāo)簽值為1,共有9 233個(gè),占46.2%;語(yǔ)義不同的,標(biāo)簽值為0,共10 767個(gè),占53.8%。

表1 試驗(yàn)數(shù)據(jù)樣例Tab.1 Sample of test data

試驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)3部分,其中訓(xùn)練數(shù)據(jù)占試驗(yàn)數(shù)據(jù)量的80%,用于學(xué)習(xí)文本特征;驗(yàn)證數(shù)據(jù)占10%,用于調(diào)整模型的超參數(shù),用于對(duì)模型的能力進(jìn)行初步評(píng)估;測(cè)試數(shù)據(jù)占10%,用于評(píng)估最終模型的泛化能力。

2.2 評(píng)價(jià)指標(biāo)

試驗(yàn)選擇精確率、召回率、F1值、正確率以及時(shí)間復(fù)雜度作為評(píng)價(jià)指標(biāo),全面衡量模型性能。精確率、召回率、F1值以及正確率是統(tǒng)計(jì)學(xué)以及信息檢索相似性判斷領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)。精確率計(jì)算的是模型判斷相似且實(shí)際也相似的句子數(shù)量,即正樣本與數(shù)據(jù)集中全部句子數(shù)量的比值,代表著模型對(duì)正樣本結(jié)果的查準(zhǔn)程度。召回率計(jì)算的是正樣本與數(shù)據(jù)集中全部相似句子總數(shù)的比值,代表著模型對(duì)正樣本的查全程度。F1值同時(shí)考慮精確率和召回率,讓兩者同時(shí)達(dá)到最高并取得平衡。正確率表示預(yù)測(cè)正確的結(jié)果占全部句子數(shù)量的比例。時(shí)間復(fù)雜度包括對(duì)訓(xùn)練時(shí)間和測(cè)試時(shí)間的統(tǒng)計(jì),用于衡量模型的效率,取10次試驗(yàn)耗時(shí)的平均值作為試驗(yàn)結(jié)果。

2.3 參數(shù)設(shè)置

問(wèn)句中包含的有效詞語(yǔ)使用128維的詞向量表示,包含詞語(yǔ)數(shù)量最大為30個(gè),包含詞語(yǔ)共現(xiàn)對(duì)數(shù)量最大為50個(gè)。BiLSTM模型輸出特征維度是128維,CNN模型卷積核數(shù)量是128,孿生神經(jīng)網(wǎng)絡(luò)的2個(gè)子網(wǎng)絡(luò)共享參數(shù)。為了避免過(guò)擬合,模型使用dropout函數(shù),隨機(jī)讓一些神經(jīng)元失活,失活率設(shè)定為0.5。

2.4 對(duì)比模型

本文模型與近年在文本相似度計(jì)算領(lǐng)域常用的4種深度學(xué)習(xí)模型進(jìn)行比較,對(duì)比模型包括基于孿生網(wǎng)絡(luò)的MaLSTM[34]、ESIM[35]、ABCNN[36]、CDNN[37],其中MaLSTM模型利用2個(gè)共享權(quán)重的LSTM提取文本特征,使用Word2vec方法將長(zhǎng)度不同的句子轉(zhuǎn)換為長(zhǎng)度相同的向量,運(yùn)用曼哈頓距離計(jì)算文本相似度;ESIM利用BiLSTM提取2個(gè)句子的文本特征,計(jì)算2個(gè)句子的相似性矩陣,對(duì)文本特征進(jìn)行加權(quán),得到新的文本特征表示向量,最后利用全連接層預(yù)測(cè)文本是否相似;ABCNN在CNN基礎(chǔ)上,分別在卷積計(jì)算前和池化計(jì)算前引入了注意力機(jī)制,判斷文本相似情況;CDNN利用CNN提取文本特征,利用文本特征相似度矩陣對(duì)2個(gè)句子特征進(jìn)行加權(quán)計(jì)算后,判斷文本相似性。

2.5 結(jié)果分析

表2展示了5種試驗(yàn)?zāi)P歪槍?duì)農(nóng)業(yè)問(wèn)答短文本數(shù)據(jù)集的試驗(yàn)結(jié)果。本文提出的Co_BiLSTM_CNN模型的正確率、精確率、召回率及F1值均超過(guò)了94%,較對(duì)比模型均有大幅提高。在對(duì)比模型中,MaLSTM模型的4項(xiàng)指標(biāo)均接近90%。對(duì)比正確率和F1值可知,Co_BiLSTM_CNN模型相對(duì)于其他模型提高了近5個(gè)百分點(diǎn),說(shuō)明該模型能夠較為全面地提取文本特征,模型在相似性計(jì)算方面的總體性能較好。此外,以LSTM模型框架為基礎(chǔ)的MaLSTM和ESIM的評(píng)價(jià)指標(biāo)明顯高于以CNN模型為基礎(chǔ)的CDNN和ABCNN。對(duì)比精確率可知,Co_BiLSTM_CNN仍為最優(yōu),說(shuō)明該模型對(duì)于相似性文本的判斷比較準(zhǔn)確,MaLSTM和ESIM在預(yù)測(cè)文本為相似文本的表現(xiàn)明顯優(yōu)于CDNN和ABCNN。對(duì)比召回率可知,4種對(duì)比試驗(yàn)?zāi)P捅憩F(xiàn)較為接近,均超過(guò)了89%,ESIM召回率達(dá)到91%,但是與Co_BiLSTM_CNN模型仍有較大的差距。

表2 5種試驗(yàn)?zāi)P偷脑囼?yàn)結(jié)果對(duì)比Tab.2 Comparison of five models %

為了進(jìn)一步驗(yàn)證詞語(yǔ)共現(xiàn)特征對(duì)于本文相似性計(jì)算的有效性,將4種對(duì)比模型進(jìn)行改進(jìn),融合了文本詞語(yǔ)共現(xiàn)特征。圖5展示了4種對(duì)比試驗(yàn)?zāi)P驮P团c融合了詞語(yǔ)共現(xiàn)特征模型在相似性計(jì)算正確率方面的對(duì)比結(jié)果。如圖5所示,針對(duì)農(nóng)業(yè)短文本數(shù)據(jù)集,本文提出的融合詞語(yǔ)共現(xiàn)特征的文本表示方式在4種試驗(yàn)?zāi)P偷南嗨菩杂?jì)算正確率明顯高于原模型,其中MaLSTM正確率最高,達(dá)92.4%。特別對(duì)于以CNN為基礎(chǔ)的試驗(yàn)?zāi)P停_率提升效果更加明顯,最高增幅達(dá)到10.2個(gè)百分點(diǎn)。4種對(duì)比模型在融合了詞語(yǔ)共現(xiàn)特征后,正確率雖明顯提高,但仍低于本文提出的Co_BiLSTM_CNN模型。

圖5 不同模型文本相似性計(jì)算正確率對(duì)比Fig.5 Comparison of accuracy by different models

為了驗(yàn)證試驗(yàn)?zāi)P蛯?duì)不同規(guī)模數(shù)據(jù)集的適用性,本文將Co_BiLSTM_CNN與MaLSTM、CDNN,以及對(duì)應(yīng)的融入詞語(yǔ)共現(xiàn)特征的CO_MaLSTM和CO_CDNN模型,分別在10 000、15 000、20 000組問(wèn)句對(duì)數(shù)據(jù)集中進(jìn)行試驗(yàn)。圖6展示了5種試驗(yàn)方法在不同規(guī)模數(shù)據(jù)集下的相似度計(jì)算正確率。由圖6可知,全部試驗(yàn)?zāi)P驮谳^大規(guī)模數(shù)據(jù)集中取得的試驗(yàn)結(jié)果均優(yōu)于小規(guī)模數(shù)據(jù)集,Co_BiLSTM_CNN在不同的規(guī)模數(shù)據(jù)集中均取得了最優(yōu)的試驗(yàn)結(jié)果,特別在小規(guī)模數(shù)據(jù)集中,Co_BiLSTM_CNN優(yōu)勢(shì)更為突出,體現(xiàn)了該模型具有較強(qiáng)的魯棒性。融合了詞語(yǔ)共現(xiàn)特征的3個(gè)試驗(yàn)?zāi)P驮谛∫?guī)模數(shù)據(jù)集中的正確率仍在90%左右,明顯高于未融合詞語(yǔ)共現(xiàn)特征的MaLSTM和CDNN。

圖6 不同數(shù)據(jù)集的文本匹配正確率Fig.6 Text matching accuracy for different datasets

表3展示了5種試驗(yàn)?zāi)P驮?0 000組問(wèn)答對(duì)數(shù)據(jù)集中的訓(xùn)練和測(cè)試所用時(shí)間。CDNN和Co_CDNN在訓(xùn)練時(shí)間上優(yōu)勢(shì)明顯,MaLSTM、Co_MaLSTM訓(xùn)練時(shí)間較長(zhǎng),融合了 CNN、BiLSTM和DNN多種模型的Co_BiLSTM_CNN由于結(jié)構(gòu)組成復(fù)雜,導(dǎo)致其訓(xùn)練時(shí)間最長(zhǎng)。在實(shí)際應(yīng)用中,由于文本匹配模型的訓(xùn)練一般采取離線方式運(yùn)行,因此模型對(duì)時(shí)間復(fù)雜度要求不高,更注重相似性判斷的正確率及結(jié)果反饋時(shí)間。此外,融合了詞語(yǔ)共現(xiàn)特征的Co_CDNN和Co_MaLSTM的訓(xùn)練時(shí)間與基礎(chǔ)CDNN、MaLSTM訓(xùn)練時(shí)間基本相同,可見(jiàn)在文本相似性判斷任務(wù)中,融合詞共現(xiàn)特征對(duì)模型時(shí)間復(fù)雜度影響較小。

表3 各試驗(yàn)?zāi)P偷碾x線訓(xùn)練時(shí)間Tab.3 Offline training time comparison of models

3 結(jié)論

(1)Co_BiLSTM_CNN模型滿足問(wèn)句相似性判斷實(shí)際需要。Co_BiLSTM_CNN能夠多角度提取文本特征,在農(nóng)業(yè)問(wèn)答問(wèn)句判斷方面具有良好的試驗(yàn)效果,相似性判斷正確率明顯提高,正確率達(dá)到94.15%,并且在小規(guī)模數(shù)據(jù)集上的表現(xiàn)仍然良好。

(2)利用文本詞語(yǔ)共現(xiàn)關(guān)系增強(qiáng)文本特征,可在保證時(shí)間效率的基礎(chǔ)上,有效提高相似性判斷的正確率,有效解決特征稀疏文本相似性判斷難的問(wèn)題。該方法在多個(gè)試驗(yàn)?zāi)P椭嗅槍?duì)不同規(guī)模的數(shù)據(jù)均取得了最優(yōu)的試驗(yàn)效果,具有廣泛的適用性。

猜你喜歡
語(yǔ)義特征文本
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 少妇精品网站| 午夜电影在线观看国产1区| 在线观看网站国产| 四虎国产在线观看| 精品国产香蕉在线播出| 国产成人高清精品免费5388| 国产精品嫩草影院av| 日本午夜视频在线观看| 欧美亚洲一区二区三区导航| 国产精品毛片一区| 在线一级毛片| 日本五区在线不卡精品| 亚洲自拍另类| 亚洲欧美不卡视频| 免费人成在线观看成人片 | 精品黑人一区二区三区| 亚洲国产精品日韩专区AV| 亚洲成aⅴ人在线观看| 中国一级特黄视频| 欧美精品伊人久久| 99999久久久久久亚洲| 国禁国产you女视频网站| 精品亚洲麻豆1区2区3区| 国产手机在线观看| 在线看片免费人成视久网下载| 久久狠狠色噜噜狠狠狠狠97视色| 国产日本视频91| 极品性荡少妇一区二区色欲| 欧美一区二区人人喊爽| 久久福利片| 国产免费怡红院视频| 91毛片网| 日日碰狠狠添天天爽| 亚洲中文字幕久久无码精品A| 四虎AV麻豆| 国产亚洲视频中文字幕视频| 精品91在线| 国产成人喷潮在线观看| 久久黄色小视频| 四虎精品黑人视频| a网站在线观看| 亚洲一区二区成人| 国产福利免费在线观看| 99re这里只有国产中文精品国产精品 | 国产白浆一区二区三区视频在线| 麻豆精品在线播放| 欧美激情视频二区| 国产精品九九视频| 亚洲bt欧美bt精品| 呦女精品网站| 蝴蝶伊人久久中文娱乐网| 免费无码又爽又黄又刺激网站| 国产成人精品免费视频大全五级| 又大又硬又爽免费视频| 99re免费视频| 亚洲免费黄色网| 一本色道久久88| 特级精品毛片免费观看| 国产肉感大码AV无码| 青青操视频在线| 天天色综网| 国产亚洲精品自在久久不卡| 亚洲国产综合精品一区| 亚洲毛片网站| 日韩无码视频专区| 国产天天色| 亚洲三级色| 欧美精品1区2区| 国产精品福利在线观看无码卡| 国产91小视频| 日本不卡在线| 亚洲a级毛片| 亚洲性日韩精品一区二区| 午夜国产精品视频| 国产成人艳妇AA视频在线| 一级成人a毛片免费播放| 国产乱子精品一区二区在线观看| 婷婷伊人久久| 天天做天天爱夜夜爽毛片毛片| 国产精品对白刺激| 欧美区一区二区三| 欧美日韩专区|