999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的相似語言短文本的語種識(shí)別方法

2020-03-11 12:51:00張琳琳楊雅婷陳沾衡潘一榮
關(guān)鍵詞:文本語言模型

張琳琳 楊雅婷 陳沾衡 潘一榮 李 毓

1(中國科學(xué)院新疆理化技術(shù)研究所 新疆 烏魯木齊 830011)2(中國科學(xué)院大學(xué) 北京 100049)3(新疆理化技術(shù)研究所新疆民族語音語言信息處理實(shí)驗(yàn)室 新疆 烏魯木齊 830011)

0 引 言

隨著移動(dòng)互聯(lián)網(wǎng)的普及和社交媒體的興起,跨國家的語言交流日益頻繁,導(dǎo)致多語言特別是相似語言共現(xiàn)的現(xiàn)象在網(wǎng)絡(luò)社交語境中頻繁出現(xiàn)。語種識(shí)別特別是相似語言的識(shí)別需求也愈加迫切。語種識(shí)別作為機(jī)器翻譯、跨語言檢索等眾多自然語言處理領(lǐng)域的基礎(chǔ)環(huán)節(jié)一直是研究熱點(diǎn),學(xué)術(shù)界普遍將語種識(shí)別視為一種“基于某些特征進(jìn)行文本分類”的特殊文本分類(text categorization)問題[1]。Cavnar等[2]提出了N-Gram詞頻排序的語種識(shí)別方法,基于該理論,F(xiàn)rank[3]設(shè)計(jì)了使用廣泛的語種識(shí)別工具Textcat,能對(duì)74種語言進(jìn)行識(shí)別。Campbell等[5]采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)一步提升語種識(shí)別的效果。

隨著語種識(shí)別的細(xì)分,針對(duì)短文本的識(shí)別也有很多。Vantanen等[6]利用N-Gram模型結(jié)合樸素貝葉斯分類器的方法對(duì)5至21個(gè)字符的短文本進(jìn)行識(shí)別。Tromp等[7]同時(shí)采用文本中的詞本身的信息和詞與詞之間的信息,構(gòu)造了一種基于N-Gram的圖結(jié)構(gòu)模型來進(jìn)行語種識(shí)別,有效提高短文本的識(shí)別效率。Lui等[8]獲取文本的N-Gram特征,以多項(xiàng)式樸素貝葉斯分類器構(gòu)造了語種識(shí)別工具Langid。郝洺等[9]通過修改特征詞和共同詞的權(quán)重對(duì)基于N-Gram頻率的短文本語種識(shí)別方法進(jìn)行了改進(jìn)。

近年來,隨著神經(jīng)網(wǎng)絡(luò)的重新興起,深度學(xué)習(xí)也開始應(yīng)用在語種識(shí)別上,尤其在語音的語種識(shí)別方面已取得不錯(cuò)效果。在文本處理方面,尤其對(duì)短文本分類已經(jīng)有基于詞級(jí)和基于字符級(jí)的神經(jīng)網(wǎng)絡(luò)文本分類的研究基礎(chǔ)。如Zhang等[10]利用基于字符的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對(duì)短文本的識(shí)別已經(jīng)達(dá)到不錯(cuò)的效果。

由于社交媒體的興起,Carter等[11]結(jié)合用戶信息等對(duì)推特信息進(jìn)行語種識(shí)別。在社交媒體中,常出現(xiàn)相似語言共現(xiàn)的現(xiàn)象,相似語言的語種識(shí)別也成為研究熱點(diǎn)。在VarDial 2016會(huì)議發(fā)布的區(qū)別相似語言(Discriminating between Similar Languages,DSL)的任務(wù)中,Malmasi等[12]用SVM和邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)方法在參與隊(duì)伍取得第一。Cianflone等[13]則用了基于N-Gram和神經(jīng)網(wǎng)絡(luò)的兩種識(shí)別方法。之后,Marcelo等[14]在DSL2017上用基于詞的CNN模型實(shí)現(xiàn)相似語言的識(shí)別,Belinkov等[15]用基于字符的CNN模型在DSL2016上實(shí)現(xiàn)了整體83.0%的正確率。

文獻(xiàn)[16]研究表明,雖然語種識(shí)別整體研究成熟,但文本長度越短,語料越小,語種識(shí)別難度越大。同時(shí),語言相似度越高,識(shí)別難度也越大。

本文提出了一種針對(duì)相似語言短文本的語種識(shí)別方法,以字符為輸入,構(gòu)建包含CNN和長短期記憶(Long Short-Term Memory,LSTM)的神經(jīng)網(wǎng)絡(luò)模型。此模型能同時(shí)獲取詞中的字符組合信息和詞與詞之間的信息,并且采用字符級(jí)輸入能解決大部分未登錄詞的問題。該方法在維吾爾語和哈薩克語、波斯語和達(dá)里語等相似語言上取得不錯(cuò)的效果。

1 相關(guān)工作

1994年Cavnar等[2]提出的基于N-Gram語言模型的語種識(shí)別方法在400字以上長文本語料上能達(dá)到99.8%的準(zhǔn)確率。但在社交媒體中更多的是150字以內(nèi)的短文本,論壇、移動(dòng)社交應(yīng)用中的口語文本很多是在20詞以內(nèi),有效提高短文本的語種識(shí)別效果成為關(guān)注的焦點(diǎn)。同時(shí),由于地域文化因素,往往地域相近地區(qū)所使用的語言也很相似,如在新疆地區(qū)維吾爾族和哈薩克族公共居住,所使用的維吾爾語和哈薩克語很相似,所以有識(shí)別相似語言的需求。

1.1 N-Gram語種識(shí)別模型

N-Gram是指一段給定的文本中包含N個(gè)最小分割單元的連續(xù)序列[17]。最小分割單元是根據(jù)具體應(yīng)用需要而自定義的基本對(duì),在語種識(shí)別時(shí)一般是字符、字或詞(針對(duì)漢語、日語等語言時(shí)一般是字,英語等語言一般是詞)等。

N-Gram就是N-1階馬爾可夫語言模型的表示。假設(shè)在一段隨機(jī)變量序列S1,S2,…,Sm中,如果序列中任何一個(gè)隨機(jī)變量Si發(fā)生的概率只與它前面的N-1個(gè)變量Si-1,Si-2,…,Si-n+1有關(guān),即:

P(Si|S1,S2,…,Si-n+1)=P(Si|Si-1,Si-2,…,Si-n+1)

(1)

在語種識(shí)別中,需要統(tǒng)計(jì)每個(gè)N-Gram頻率作為詞頻。N-Gram模型把語料中連續(xù)的長度為N的字符或詞序列看作一個(gè)計(jì)算單元,其中第N個(gè)位置出現(xiàn)某個(gè)字符或詞的概率只與前面N-1個(gè)位置上的字符或詞有關(guān)。

基于N-Gram的語種識(shí)別方法的主要思想是Zipf定律[18]:在人類語言中,一個(gè)字或詞出現(xiàn)的次數(shù)與頻率表中它的排序成反比。

當(dāng)以字符作為最小切割單元時(shí),能夠獲得字符間組合信息,但無法獲得詞與詞之間的信息。反之在Cianflone等采用的N-Gram模型中[13],以詞作為最小切割單元,雖然可以獲得詞與詞之間的信息,但無法獲取詞中字符間的信息。N-Gram模型往往不能很好兼顧詞本身的信息和詞與詞之間的信息。同時(shí),像在法語、維吾爾語中很多詞只是詞綴不同但詞根相同,如果是選擇詞作為分割單元,就無法識(shí)別這些相似的詞,從而會(huì)出現(xiàn)未登錄詞的問題。

1.2 神經(jīng)網(wǎng)絡(luò)模型

語種識(shí)別發(fā)展一直受到文本分類研究的影響。近年神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用到文本分類。Kim等[19]用CNN網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)句子文本的有效分類。Zhang等[20]利用基于字符的CNN模型對(duì)不同文本進(jìn)行分類,表明在不同數(shù)據(jù)集上基于字符的CNN網(wǎng)絡(luò)可以實(shí)現(xiàn)不錯(cuò)的效果。Kim等[21]構(gòu)建的基于字符的神經(jīng)網(wǎng)絡(luò)語言模型很好地結(jié)合了字符信息和詞之間的信息。

同時(shí)在相似語言的識(shí)別中,研究人員嘗試了基于字符和基于詞級(jí)別的CNN神經(jīng)網(wǎng)絡(luò)。Cianflone等[13]在DSL2016任務(wù)中應(yīng)用基于字符的CNN結(jié)合雙向長短期記憶網(wǎng)絡(luò)可以達(dá)到87.5%的正確率。

但單純基于字符或基于詞級(jí)別的神經(jīng)網(wǎng)絡(luò)在文本語種識(shí)別中一般不便于同時(shí)兼顧文本中詞本身的信息和詞與詞之間的信息。

2 模型設(shè)計(jì)

本文將文獻(xiàn)[12]構(gòu)建的神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行改進(jìn)并用于語種識(shí)別的分類模型。同樣以字符作為輸入,通過CNN、LSTM以及一個(gè)全連接層實(shí)現(xiàn)語種分類。CNN在字符級(jí)上對(duì)模型進(jìn)行訓(xùn)練后,可以獲得每個(gè)單詞的詞向量,該向量包含詞本身的信息。LSTM以上層的詞向量作為輸入,處理后能獲取詞與詞之間的信息。構(gòu)建的模型如圖1所示。相較于傳統(tǒng)的模型,本模型的優(yōu)勢(shì)在于一個(gè)神經(jīng)網(wǎng)絡(luò)中兼顧了字符級(jí)和詞級(jí)的信息。

圖1 模型結(jié)構(gòu)圖

2.1 字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)

與文獻(xiàn)[21]構(gòu)建的基于字符的神經(jīng)網(wǎng)絡(luò)語言模型一樣以字符向量作為輸入。首先,對(duì)文本中包含的所有字符進(jìn)行字符向量封裝,生成一個(gè)字符向量表。字符表是一個(gè)以總字符數(shù)為列數(shù)的矩陣,每一列對(duì)應(yīng)字符向量ci,維度是d。在輸入時(shí),以每個(gè)詞中的字符向量輸入卷積神經(jīng)網(wǎng)絡(luò)。假設(shè)單詞w是由n個(gè)字符[c1,c2,…,cn]組成,則詞w是一個(gè)n×d的矩陣。

在卷積層中,包含一組可學(xué)習(xí)的濾波器(filter)或內(nèi)核(kernels),參數(shù)初始值可隨機(jī)設(shè)置。假設(shè)一個(gè)內(nèi)核的寬度是k,個(gè)數(shù)是f,則內(nèi)核是一個(gè)d×k的矩陣。按照CNN原理,詞w經(jīng)過內(nèi)核k卷積后,會(huì)生成一個(gè)f×(n-k+1)的矩陣,矩陣中位置為(fi,j)的點(diǎn)是由第i個(gè)內(nèi)核與詞w中列向量[cj,cj+1,…,cj+k-1]對(duì)應(yīng)位置數(shù)乘之和加上一個(gè)偏差bi得到。卷積完后再經(jīng)過池化層,本模型中采用最大池化。對(duì)這個(gè)f×(n-k+1)的矩陣的每一行取最大值,就變成一個(gè)長度為f的向量。由于有不同寬度的內(nèi)核,每個(gè)寬度f取值不同,得到的向量長度不同。最后將這些不同內(nèi)核的向量拼接成一個(gè)向量。如圖1所示,第一組內(nèi)核的寬度k取2,個(gè)數(shù)f取3,經(jīng)過卷積和池化得到一個(gè)長度為3的向量。最后拼接得到一個(gè)長度為11的向量。

經(jīng)過CNN每個(gè)詞都會(huì)得到一個(gè)向量。在文本分類領(lǐng)域,CNN展現(xiàn)了不錯(cuò)的性能。由于語種識(shí)別很大程度上受到文本分類的影響,所以模型采用了CNN。本模型中每個(gè)詞以n×d矩陣為輸入,由于CNN局部感知的特性,能很好地提取詞本身的信息。內(nèi)核在矩陣上滑動(dòng)進(jìn)行卷積的過程可以模擬成基于字符生成一個(gè)N-Gram單元,內(nèi)核寬度k,類似于取k-Gram。所以本模型能很好地提取詞本身的信息。

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)相比于CNN,它在處理序列問題方面有很好的優(yōu)勢(shì)。比如基于時(shí)間序列:一段連續(xù)的語音序列,一段連續(xù)的文字序列等。由于RNN采用時(shí)序反向傳播算法,如果訓(xùn)練文本的長度較長或者時(shí)序t較小,會(huì)出現(xiàn)長期依賴問題。而LSTM通過引入門控單元和線性連接,能解決RNN中出現(xiàn)的梯度消失問題。鑒于此,本模型在構(gòu)建時(shí)選用了LSTM替代循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM在時(shí)序t的輸入是Xt,ht-1是前計(jì)算單元的隱藏層的輸出,ct-1是前計(jì)算單元的歷史信息,輸出是ht和ct,而it、ft和ot分別對(duì)應(yīng)t時(shí)的輸入門、遺忘門和輸出門,gt是實(shí)際加載當(dāng)前單元的信息,ct是在t時(shí)更新后的信息。計(jì)算過程如下:

it=σ(WiXt+Uiht-1+bi)

(2)

ft=σ(WfXt+Ufht-1+bf)

(3)

ot=σ(WoXt+Uoht-1+bo)

(4)

gt=tanh(WgXt+Ught-1+bg)

(5)

ct=ft×ct-1+it×gt

(6)

ct=ot×tanh(ct)

(7)

式中:W、U是神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù);b是偏移系數(shù);σ和tanh都是神經(jīng)元激活函數(shù)。在實(shí)驗(yàn)時(shí)可以根據(jù)效果調(diào)整LSTM層數(shù),如果是雙層LSTM,那么第二層的輸入it就是第一層的輸出ot。

模型中,前面CNN的輸出作為LSTM的輸入,由于每個(gè)詞經(jīng)過CNN后都有一個(gè)對(duì)應(yīng)的向量(可看作經(jīng)過CNN可以生成對(duì)應(yīng)詞的詞向量)。故LSTM實(shí)際上是以詞作為輸入,能很好地獲取句子中詞與詞之間的信息。

2.3 全連接層(分類模型)

在本模型中,考慮到語種識(shí)別相當(dāng)于一種特殊的分類問題,所以LSTM層后接了一個(gè)全連接層。LSTM每個(gè)神經(jīng)元的輸出將作為全連接層的輸入,全連接層可以把通過CNN和LSTM提取到的信息綜合起來。全連接層在神經(jīng)網(wǎng)絡(luò)中相當(dāng)于一個(gè)分類器,對(duì)之前的卷積層、池化層、激活函數(shù)、循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)果進(jìn)行總結(jié),再次進(jìn)行類似于模板匹配的工作,抽象出神經(jīng)元個(gè)數(shù)的特征存在的概率大小,得到各個(gè)特征,最終得到最后一層的神經(jīng)元個(gè)數(shù)的特征。當(dāng)然也可以認(rèn)為是對(duì)于之前的卷積層和池化層,循環(huán)神經(jīng)網(wǎng)絡(luò)之后得到的特征進(jìn)行加權(quán)和。在神經(jīng)網(wǎng)絡(luò)中加入全連接層,可以使得網(wǎng)絡(luò)的容錯(cuò)性增加,同時(shí)加入全連接層帶來了計(jì)算量的增加,所以全連接層的輸出值被傳遞給下一層,最后采用邏輯回歸(softmax regression)進(jìn)行分類:

(8)

式中:yi是上層的輸出;j是總的語種識(shí)別類別中任意一個(gè)類。

在本模型中類別由相似語言的語種個(gè)數(shù)決定。由于數(shù)據(jù)集選取的都是區(qū)分兩種相似語言,所以本模型在實(shí)驗(yàn)中要解決的問題是二分類問題。

3 實(shí)驗(yàn)設(shè)計(jì)和分析

3.1 實(shí)驗(yàn)平臺(tái)

為了驗(yàn)證該模型在相似語言短文本的語種識(shí)別效果,使用了兩個(gè)數(shù)據(jù)集對(duì)相應(yīng)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。第一個(gè)數(shù)據(jù)集是相似語言維吾爾語和哈薩克語語料,基線是N-Gram模型;第二個(gè)數(shù)據(jù)集是DSLCC v4.0中的兩組相似語言,基線是CNN文本分類模型。

3.2 維吾爾語和哈薩克語語料

本模型主要針對(duì)的是相似語言短文本的語種識(shí)別應(yīng)用,所以要選擇相似語言的語料。相似度越高,識(shí)別難度越大,而且訓(xùn)練語料越大效果越好,所以最好選擇活躍的相似語言。在新疆地區(qū),維吾爾族和哈薩克族等少數(shù)民族聚居,在日常生活中經(jīng)常發(fā)生兩種語言共現(xiàn)的情況。維吾爾語和哈薩克語都屬于阿爾泰語系,共用很多字符和詞,相似度高,且使用頻繁方便大量獲取。在新疆地區(qū)和同屬于阿爾泰語系的一帶一路沿線地區(qū),實(shí)現(xiàn)基于維語和哈語的語種識(shí)別具有很大的現(xiàn)實(shí)意義。所以本文選取維語和哈語作為一組對(duì)照試驗(yàn)語料。

通過網(wǎng)站爬取實(shí)驗(yàn)語料,主要選擇兩種語料:新聞?wù)Z料和論壇語料。新聞?wù)Z料是規(guī)范文本,論壇語料則更接近口語文本。經(jīng)過爬蟲在兩種語料中分別獲取了相對(duì)均衡的維語數(shù)據(jù)和哈語數(shù)據(jù)。其中,文本中的一個(gè)句子表示一個(gè)樣本。

爬取文本后,考慮到可能出現(xiàn)亂碼和錯(cuò)誤的沒有含義的字符,統(tǒng)一對(duì)語料進(jìn)行預(yù)處理,刪除了句子長度小于7個(gè)字符的樣本。

由于文本越短,識(shí)別準(zhǔn)確率越低。在模型LSTM層實(shí)際是以句子中的詞作為輸入,LSTM長度也是以樣本中最長句子數(shù)為長度。本模型主要針對(duì)的是短文本,所以在語料預(yù)處理時(shí)刪除了長度大于20個(gè)詞的句子??紤]到文本長度的影響,對(duì)語料每個(gè)句子中的詞數(shù)做了統(tǒng)計(jì),如圖2和圖3所示。

圖3 論壇語料句子詞數(shù)的箱型圖

圖2是新聞?wù)Z料的句子詞數(shù)的箱型圖,可以看出新聞?wù)Z料中75%的句子的詞數(shù)都不大于16,一半句子的詞數(shù)都不大于14。圖3是論壇語料的句子詞數(shù)的箱型圖,可以看出論壇語料中75%的句子的詞數(shù)都不大于12,一半句子的詞數(shù)都不大于8。整體上,新聞?wù)Z料的句子長度大于論壇語料。從表1的實(shí)驗(yàn)結(jié)果也可以看出句子較長的新聞?wù)Z料識(shí)別準(zhǔn)確率更高。

表1 在維吾爾語和哈薩克語語料上的實(shí)驗(yàn)結(jié)果

語料預(yù)處理時(shí),會(huì)將標(biāo)點(diǎn)、數(shù)字這些無效的字符用空格字符代替。并且每個(gè)詞的開始結(jié)尾部分添加“#”字符向量標(biāo)明字母開始結(jié)束位置。同理,每個(gè)句子的結(jié)尾添加“#”的詞向量標(biāo)明句子結(jié)束。LSTM為定長,句子詞數(shù)不足時(shí)用空格詞向量補(bǔ)齊。

作為對(duì)比實(shí)驗(yàn),表1中的N-Gram模型是根據(jù)Langid原理,字符級(jí)的基于N-Gram語言模型和多項(xiàng)式貝葉斯分類器實(shí)現(xiàn)的語種識(shí)別模型。一般N-Gram語言模型中的N越大,結(jié)果越好,但訓(xùn)練時(shí)間越長,系統(tǒng)消耗也越大,綜合效果與效率,在新聞?wù)Z料中當(dāng)N=7時(shí)準(zhǔn)確率已經(jīng)沒有明顯提升,在論壇語料中當(dāng)N=5時(shí)準(zhǔn)確率已經(jīng)沒有明顯提升。為了保證準(zhǔn)確率,選取較大的N時(shí),N-Gram模型將比神經(jīng)網(wǎng)絡(luò)模型消耗更多(包括計(jì)算空間和時(shí)間),且如果出現(xiàn)字符數(shù)小于N的未登錄詞時(shí),傳統(tǒng)的N-Gram可能無法識(shí)別,但神經(jīng)網(wǎng)絡(luò)模型卻不會(huì)有未登錄詞問題(類似N-Gram語言模型的平滑問題)。

從表1中可以看出,在維語和哈語的識(shí)別上,對(duì)新聞?wù)Z料和論壇語料,本文模型相對(duì)于傳統(tǒng)的N-Gram模型準(zhǔn)確率都有提高。且本文模型結(jié)構(gòu)簡單,對(duì)語料無論句子長短都有效果,可用于短文本語種識(shí)別。

3.3 DSLCC v4.0語料

DSL2017是相似語言和方言自然語言處理會(huì)議(Proceedings of the Fourth Workshop on NLP for Similar Languages,Varieties and Dialects,VarDial 2017)公布的比賽任務(wù),針對(duì)不同任務(wù)均提供了語料。DSL2017的語料包含6組相似語言或方言。提供的語料是新聞文本的小節(jié)選。DSLCC v4.0是DSL2017的語料。

鑒于本文模型主要是對(duì)相似語言的識(shí)別,所以沒有選取方言,選了印度尼西亞和馬來西亞語(Indonesian,Malay)、波斯和達(dá)里語(Persian,Dari)這兩組相似語言。由于這6組語言語料混合,所以需要通過標(biāo)記挑選出實(shí)驗(yàn)需要的兩組語料。

從DSLCC v4.0挑選出的兩組相似語言因?yàn)槎际切侣務(wù)Z料,是規(guī)范文本,所有沒有刪除7字符以下可能的亂碼樣本,且這些語料都是短小的新聞節(jié)選。從圖4和圖5中也可以看出,句子詞數(shù)都不超過20,符合短文本的要求,故不需要?jiǎng)h除長樣本,其他處理和維哈語料相同。

圖4 印度尼西亞和馬來西亞語料詞數(shù)箱型圖

圖5 波斯語和達(dá)里語語料詞數(shù)箱型圖

對(duì)比實(shí)驗(yàn)時(shí),表2中的CNN模型是以Kim(2014)對(duì)句子分類的卷積神經(jīng)網(wǎng)絡(luò)文本網(wǎng)絡(luò)[21]為原型的簡單復(fù)現(xiàn)模型。實(shí)驗(yàn)結(jié)果表明:針對(duì)印度尼西亞和馬來西亞語(Indonesian,Malay)、波斯和達(dá)里語(Persian,Dari)這兩組相似語言,且語料較小時(shí),相比于CNN模型,本文模型能得到更高的準(zhǔn)確率。因此,本文模型在相似語言短文本的小語料上仍然有效。

表2 DSL語料上的實(shí)驗(yàn)結(jié)果

3.4 實(shí)驗(yàn)結(jié)果分析

不同語言在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:相比傳統(tǒng)的N-Gram語種識(shí)別方法和神經(jīng)網(wǎng)絡(luò)方法,本文提出的方法對(duì)相似語言短文本的語種識(shí)別性能更好。由于本模型的最小粒度是字符,比基于詞級(jí)別的語種識(shí)別方法能更好地識(shí)別未登錄詞,而且模型對(duì)語料有一定依賴性,在大規(guī)模語料上效果更好。另外,LSTM采用定長的神經(jīng)元處理句子,如果語料中樣本句子詞數(shù)很小,則利用空格補(bǔ)齊,在一定程度上會(huì)影響實(shí)驗(yàn)性能。

4 結(jié) 語

本文針對(duì)相似語言短文本,提出了一種基于神經(jīng)網(wǎng)絡(luò)的字符級(jí)語種識(shí)別方法。首先,利用CNN提取字符組合的特征信息,可以更好地處理未登錄詞,并生成每個(gè)詞的特征向量。然后,將生成的詞向量輸入到LSTM網(wǎng)絡(luò)中,即可獲得詞與詞之間的信息。最后,在兩組語料上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文方法可提升相似語言短文本的識(shí)別準(zhǔn)確率。但由于神經(jīng)網(wǎng)絡(luò)往往需要大規(guī)模語料保證效果,因此語料較大時(shí)訓(xùn)練時(shí)間較長。下一步將考慮加入語言語法信息,從而進(jìn)一步優(yōu)化完善模型。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚瑟天堂久久一区二区影院| 欧美在线中文字幕| 国产成人综合网| 国产超碰一区二区三区| 日韩a在线观看免费观看| 国产剧情一区二区| 日韩av在线直播| 久久精品aⅴ无码中文字幕 | 亚洲成a人在线播放www| 伊人久久精品无码麻豆精品| 在线免费a视频| 日韩成人在线视频| 欧美日韩在线成人| 九色最新网址| 毛片网站免费在线观看| 亚洲一区二区三区国产精华液| 老司机午夜精品视频你懂的| 国产人成午夜免费看| 美女免费黄网站| 亚洲国产综合自在线另类| 777午夜精品电影免费看| 欧美一级特黄aaaaaa在线看片| 亚洲人成网站日本片| 一级毛片免费的| 国内嫩模私拍精品视频| 国产在线小视频| 久久国语对白| 国产av一码二码三码无码 | 色噜噜在线观看| 亚洲美女久久| 在线精品亚洲国产| 久久99蜜桃精品久久久久小说| 九九九精品视频| 国产毛片不卡| 狠狠色噜噜狠狠狠狠色综合久| 欧洲av毛片| 日日拍夜夜操| 在线免费无码视频| 伊大人香蕉久久网欧美| 日韩激情成人| 久久天天躁夜夜躁狠狠| 无码中文字幕精品推荐| 福利在线一区| 麻豆精品国产自产在线| 制服丝袜亚洲| 国产高清免费午夜在线视频| 亚洲全网成人资源在线观看| 精品国产成人a在线观看| 中文字幕精品一区二区三区视频| 久久久亚洲色| 精品小视频在线观看| 亚洲av综合网| 亚洲国产高清精品线久久| 国产精品大尺度尺度视频| 美女免费黄网站| 亚洲国产91人成在线| 亚洲成人www| 无码日韩精品91超碰| 国产成人精品高清在线| 免费在线国产一区二区三区精品| 国产你懂得| 日本午夜精品一本在线观看| 成人va亚洲va欧美天堂| 色欲色欲久久综合网| 18禁色诱爆乳网站| 白浆免费视频国产精品视频 | 欧美日本二区| 黄色片中文字幕| 亚洲IV视频免费在线光看| 欧美高清国产| 精品国产自在在线在线观看| 19国产精品麻豆免费观看| 欧美黄色网站在线看| 一级毛片基地| 欧美、日韩、国产综合一区| 亚洲精品少妇熟女| 久久久久中文字幕精品视频| 99尹人香蕉国产免费天天拍| 国产喷水视频| 1024国产在线| 四虎永久免费网站| WWW丫丫国产成人精品|