999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文發(fā)音視覺特點(diǎn)的唇語識(shí)別方法研究

2022-03-02 08:31:50袁家斌陸要要
關(guān)鍵詞:模型

何 珊,袁家斌,陸要要

1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106

2.南京航空航天大學(xué) 信息化處,南京211106

人類語音互動(dòng)本質(zhì)上是多模式的,與他人交流時(shí)可以通過“聽”和“看”來獲取信息。在干凈的聲學(xué)條件下,聽覺方式會(huì)攜帶大多數(shù)有用的信息,并且最新的技術(shù)水平已經(jīng)能夠自動(dòng)準(zhǔn)確地記錄語音內(nèi)容,準(zhǔn)確率高達(dá)98%。而當(dāng)音頻通道被噪聲破壞甚至沒有聲音時(shí),視覺模態(tài)變得最有效,因?yàn)閺闹锌梢垣@得一定的語言特征。

唇語識(shí)別是融合了計(jì)算機(jī)視覺、語音識(shí)別和自然語言識(shí)別等多種技術(shù)的一個(gè)課題,目的是解碼說話者嘴唇運(yùn)動(dòng)生成的文本。唇語識(shí)別具有廣闊的應(yīng)用空間,例如嘈雜環(huán)境中的語音識(shí)別、公共場所的靜默聽寫、無聲影視資料處理等。由于計(jì)算機(jī)視覺任務(wù)的進(jìn)步,這種自動(dòng)化應(yīng)用是極具前景的。近年來,至少在數(shù)據(jù)集定義的詞匯量有限的情況下,利用深度學(xué)習(xí)架構(gòu)訓(xùn)練得到的唇讀模型在很大程度上已經(jīng)超過了專業(yè)讀唇者。

幾十年來,僅根據(jù)視覺特征來識(shí)別說話者所說的內(nèi)容一直是一項(xiàng)挑戰(zhàn),難點(diǎn)之一就是如何提取嘴唇的視覺特征,以使模型具有更好的性能。

早在1984年,Petajan等人就提出了唇語識(shí)別模型[1]。1988年,在原工作的基礎(chǔ)上,他們引入了矢量量化和動(dòng)態(tài)時(shí)間規(guī)整等算法[2],并提出了新的相似度測量算法,極大地提高了唇語識(shí)別準(zhǔn)確率。之后隨著機(jī)器學(xué)習(xí)的崛起,隱馬爾科夫模型(hidden Markov model,HMM)在語音識(shí)別領(lǐng)域取得了巨大成功,根據(jù)唇語識(shí)別和語音識(shí)別的相似性,出現(xiàn)了大量將HMM應(yīng)用在唇語識(shí)別領(lǐng)域的研究[3-6],都取得了較好的結(jié)果。

近年來,由于深度學(xué)習(xí)的發(fā)展,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)或長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)提取嘴唇特征已成為一種趨勢,并且能顯著提高唇讀準(zhǔn)確率[7-10]。在模型的構(gòu)建上,通常采用以下兩種方案:一個(gè)是連接時(shí)序分類法(connectionist temporal classification,CTC),另一個(gè)是帶有注意機(jī)制的序列到序列結(jié)構(gòu)(Seq2Seq),二者均可解決輸入輸出長度不一致的情況。從單詞分類任務(wù)[9,11-13]到在字符級別轉(zhuǎn)錄大量單詞[14],再到從靜態(tài)圖像預(yù)測音素[7]或視素[15],已經(jīng)涌現(xiàn)出許多出色的工作。LipNet 使用CNN、LSTM 和CTC 損失構(gòu)建句子級的端到端唇語識(shí)別網(wǎng)絡(luò)[16]。Chung 等提出的WLAS(watch,listen,attend and spell)模型具有雙重注意機(jī)制[14],可以僅輸入視頻、僅輸入音頻或二者均輸入,實(shí)現(xiàn)在字符級別將開放域視頻轉(zhuǎn)錄成大量英文詞匯。劉大運(yùn)等提出了一種雙向LSTM 和注意力機(jī)制相結(jié)合的深度學(xué)習(xí)模型[17],解決了唇語識(shí)別中唇部特征提取和時(shí)序關(guān)系識(shí)別存在的問題。

馬金林等人總結(jié)了較有影響力的唇語識(shí)別方法及語料庫[18],可以看出,相比英文,中文數(shù)據(jù)集較少,識(shí)別工作較少且性能較弱。Yang等提出了一種用于開放域中文唇語識(shí)別的大規(guī)模數(shù)據(jù)集,名為LRW-1000,并相應(yīng)提出了一個(gè)模型DenseNet-3D[19],但是他們僅對中文進(jìn)行了單詞分類,而不能在完整的句子級別上執(zhí)行。針對句子級別的唇讀,張曉冰等構(gòu)建的CHLipNet 是一個(gè)兩步式的端到端體系結(jié)構(gòu)[20],其中使用了兩個(gè)神經(jīng)網(wǎng)絡(luò)模型分別進(jìn)行圖像到拼音的識(shí)別以及拼音到漢字的識(shí)別。Zhao等則搭建了一個(gè)三級結(jié)構(gòu)的網(wǎng)絡(luò)[21],分別用于圖像到拼音的識(shí)別、拼音到聲調(diào)的識(shí)別以及拼音加聲調(diào)到漢字的識(shí)別,且發(fā)布了第一個(gè)也是唯一公開的句子級中文視聽數(shù)據(jù)集CMLR。

英文和中文有很多差異,最大的不同點(diǎn)在于:英文的最小單元為單詞,而中文的最小單元是漢字,一個(gè)英文單詞是具有語義的,漢字則要組合起來才具有語義;另外,中文發(fā)音在視覺上極具混淆性,體現(xiàn)在不同的詞語因?yàn)橛兄嗤钠匆粜蛄校怨蚕硗耆嗤拇叫危ɡ纭奥?lián)系”和“練習(xí)”),甚至有著兩個(gè)不同拼音序列的詞語,因?yàn)榘l(fā)音相近,亦難在唇形上進(jìn)行區(qū)分(例如“聯(lián)系”和“電擊”)。因此,在建立模型時(shí)要充分考慮到中文自身的特點(diǎn),為了最大程度上減少視覺混淆對模型性能的影響,本文先研究說話者講話時(shí)的唇型變化與實(shí)際發(fā)音的對應(yīng)關(guān)系,對其進(jìn)行歸類,將最終得到的結(jié)果稱為“視覺拼音”?;诖耍岢鲆粋€(gè)中文句子級唇語識(shí)別模型CHSLR-VP,該模型是一個(gè)端到端的二級結(jié)構(gòu),整個(gè)識(shí)別過程分為視頻幀到視覺拼音序列的識(shí)別和視覺拼音序列到漢字語句的識(shí)別。鑒于視覺拼音是基于中文拼音得出的,將更換CHSLR-VP前半段的建模單元為拼音,比較二者在中文唇語識(shí)別任務(wù)上的效果。基于CMLR數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型在視覺拼音上表現(xiàn)更好,且與其他唇語識(shí)別方法相比,基于視覺拼音的模型性能更優(yōu)。

綜上所述,本文的貢獻(xiàn)如下:(1)根據(jù)中文發(fā)音的視覺特點(diǎn)得出“視覺拼音”,并首次將其應(yīng)用于中文唇語識(shí)別領(lǐng)域;(2)構(gòu)建了基于視覺拼音的中文句子級唇語識(shí)別模型CHSLR-VP,通過實(shí)驗(yàn)證明了視覺拼音可有效提升漢字識(shí)別準(zhǔn)確率。

1 視覺拼音

漢字的發(fā)音可用拼音標(biāo)記,而拼音由音節(jié)和聲調(diào)組成,聲調(diào)代表整個(gè)音節(jié)的音高,由于本文是對無聲視頻進(jìn)行識(shí)別,故不考慮聲調(diào)。通過對中文的研究可知,漢字發(fā)音可以用1 300 多個(gè)音節(jié)進(jìn)行表示,一個(gè)音節(jié)又由聲母和韻母組成。其中,聲母是整個(gè)音節(jié)的開頭,其余部分是韻母,聲母有23個(gè),可分為雙唇音、唇齒音、齒齦音、齦顎音、卷舌音和軟腭音,其具體發(fā)音分類如表1所示;韻母有39個(gè),可分為單元音韻母、復(fù)韻母和鼻韻母,如表2所示。全部聲母加上一個(gè)“ng”組成輔音,單元音韻母組成元音,二者統(tǒng)稱為音素,音素是最小的語音單位,依據(jù)音節(jié)里的發(fā)音動(dòng)作分析,一個(gè)動(dòng)作構(gòu)成一個(gè)音素。舉例來說,“中國”一詞由兩個(gè)音節(jié)組成,可以分解為“zh,o,ng,g,u,o”6 個(gè)音素。中文音素共32 個(gè),詳見表3。

表1 聲母發(fā)音分類表Table 1 Initials’pronunciation classification table

表2 韻母發(fā)音分類表Table 2 Finals’pronunciation classification table

表3 中文音素表Table 3 Chinese phoneme table

不同的發(fā)音部位和發(fā)音方法決定了聲音的不同,但在沒有聲音僅依據(jù)視覺判定發(fā)音時(shí),某些音素是很難進(jìn)行區(qū)分的。為了減少這種歧義,提出一個(gè)新的概念——視覺拼音,它是將視覺上相似度較高的音素進(jìn)行分組歸類得到的,采取了如下技術(shù)手段:先將2.1節(jié)提到的視覺拼音預(yù)測模型修改成一個(gè)拼音預(yù)測模型,就是將拼音作為建模單元,把輸入的視頻幀序列預(yù)測成拼音序列;然后按照Neti等人的方法計(jì)算音素的混淆矩陣[22]。圖1顯示了6個(gè)混淆度最高的音素矩陣,橫坐標(biāo)代表預(yù)測得到的音素,縱坐標(biāo)代表實(shí)際音素,顏色越淺代表混淆度越高。

圖1 音素混淆矩陣Fig.1 Phoneme confusion matrix

僅根據(jù)混淆矩陣不足以最終確定視覺拼音,仍有以下三種情況需要考慮:(1)通過圖1可知,最不易區(qū)分的是輔音,也即是聲母部分。綜合表1,“f”作為唇齒音和“b,p,m”具有一定的視覺相似性,為了進(jìn)一步確定“f”的分類,觀察了以“f”或“b,p,m”作為聲母,韻母相同的漢字對應(yīng)的嘴唇視頻幀序列,截取了部分例子,如圖2 所示。經(jīng)過比較發(fā)現(xiàn),“f”在發(fā)音時(shí)具有“咬下唇”的特點(diǎn),而“b,p,m”則是爆破音,故“f”將單獨(dú)劃分為一類。(2)在音節(jié)中存在“y”和“w”,它們并不是實(shí)際意義上的聲母,因?yàn)槁暷甘且粋€(gè)音節(jié)開頭的輔音,以“y”“w”為首的音節(jié),雖然也處于開頭的地位,但其實(shí)是元音“i”“u”的大寫形式。按照中文拼音的拼寫規(guī)則,當(dāng)“i”“u”獨(dú)立成音節(jié)時(shí),必須在它們的面前分別加上“y”“w”,所以視覺拼音會(huì)納入二者。(3)考慮到某些整體認(rèn)讀音節(jié)的發(fā)音與單個(gè)音素的視覺效果一樣,將這樣的音節(jié)也進(jìn)行歸類。綜上所述,得到了如表4所示的視覺拼音字母表。

圖2 “f”與“b,p,m”發(fā)音的視覺區(qū)別舉例Fig.2 Examples of visual difference between pronunciation of“f”and“b,p,m”

表4 視覺拼音字母表Table 4 Visual pinyin alphabet

2 中文句子級唇語識(shí)別模型CHSLR-VP

CHSLR-VP模型是一個(gè)端到端的二級結(jié)構(gòu),其中以第1章提出的視覺拼音作為中間結(jié)果,最終得到無聲視頻中嘴唇運(yùn)動(dòng)序列對應(yīng)的漢字文本。如第1章所述,視覺拼音是在嘴唇運(yùn)動(dòng)的基礎(chǔ)上得到的,可以在一定程度上減輕視覺歧義。下面將詳細(xì)分析模型的兩個(gè)預(yù)測過程及其最終的整體架構(gòu)。

2.1 視覺拼音預(yù)測模型

視覺拼音預(yù)測模型將輸入的視頻幀序列轉(zhuǎn)為視覺拼音序列,其結(jié)構(gòu)如圖3所示。它基于帶有注意機(jī)制的Seq2Seq體系結(jié)構(gòu),主要由兩部分組成:視頻編碼器和視覺拼音解碼器。

圖3 視覺拼音預(yù)測模型Fig.3 Visual pinyin prediction model

視頻編碼器首先將視頻序列xv輸入到CNN 中以提取視覺特征,然后將特征向量輸入到GRU。編碼過程可以表示為:

視覺拼音解碼器基于GRU 生成解碼器狀態(tài)和輸出狀態(tài)向量。在預(yù)測視覺拼音序列p時(shí),在每個(gè)時(shí)間步長i使用視頻編碼器的輸出來計(jì)算上下文向量。輸出字符的概率分布是由MLP 在輸出上使用softmax生成的。整個(gè)解碼過程可以通過以下等式表示:

2.2 漢字預(yù)測模型

漢字預(yù)測模型可以將視覺拼音序列轉(zhuǎn)為漢字序列。該結(jié)構(gòu)如圖4 所示,同樣是基于具有注意機(jī)制的Seq2Seq結(jié)構(gòu)。這里將編碼器和解碼器分別命名為視覺拼音編碼器和漢字解碼器。

圖4 漢字預(yù)測模型Fig.4 Chinese character prediction model

視覺拼音編碼器的操作類似于上述視頻編碼器。當(dāng)漢字預(yù)測模型獨(dú)立工作時(shí),暫時(shí)先忽略編碼器中的注意機(jī)制。另外,由于音節(jié)的總數(shù)只有1 300 左右,而中文漢字的數(shù)量超過了90 000,甚至常用漢字也超過了3 000。為了使模型更具魯棒性,在訓(xùn)練過程中再額外引入大量的中文句子,增加的樣本取自CCTV官網(wǎng)的新聞稿。

2.3 CHSLR-VP模型整體結(jié)構(gòu)

從圖4 可以看出,視覺拼音編碼器使用了注意機(jī)制,但在漢字預(yù)測模型中并未起到作用,因?yàn)樗枰曈X拼音預(yù)測模型中視頻編碼器的輸出向量,目的是引入唇部特征來矯正視覺拼音序列,提升模型整體性能。因此,在CHSLR-VP 的訓(xùn)練過程中,將視覺拼音預(yù)測模型中視覺拼音解碼器的輸出和視頻編碼器的輸出均輸入到漢字預(yù)測模型中。至此,整個(gè)CHSLR-VP模型構(gòu)建完成,當(dāng)然,將對CHSLR-VP 進(jìn)行重新訓(xùn)練以實(shí)現(xiàn)端到端模型。所提出的CHSLR-VP的體系結(jié)構(gòu)如圖5所示。

圖5 CHSLR-VP的結(jié)構(gòu)Fig.5 Structure of CHSLR-VP

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

所有的實(shí)驗(yàn)均是在CMLR數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集由浙江大學(xué)視覺智能與模式分析小組收集,是第一個(gè)開放式中文句子級視聽數(shù)據(jù)集。數(shù)據(jù)內(nèi)容來自中國電視網(wǎng)站,囊括了2009 年6 月至2018 年6 月錄制的《新聞聯(lián)播》,其中包含102 072個(gè)句子,25 633個(gè)短語和3 517個(gè)漢字。每個(gè)句子最多不超過29 個(gè)漢字,并且不含有英文字母、阿拉伯?dāng)?shù)字或標(biāo)點(diǎn)符號(hào)。整個(gè)數(shù)據(jù)集按照7∶1∶2的比例隨機(jī)分為訓(xùn)練集,驗(yàn)證集和測試集。

3.2 數(shù)據(jù)預(yù)處理

視覺輸入由一系列視頻幀組成,這些視頻幀是嘴唇區(qū)域的一組三通道BMP圖像,大小為64×80像素。10層的CNN網(wǎng)絡(luò)用于從圖像中提取嘴唇特征,所獲得的512維空間特征向量構(gòu)成視頻編碼器的輸入。所有卷積內(nèi)核均為1×3×3,所有最大池化stride 均為1×2×2,最大池化僅沿圖像的寬度和長度方向執(zhí)行。

對于視覺拼音,在預(yù)處理時(shí)需要改動(dòng)三個(gè)地方:“you”對應(yīng)的視覺拼音由“Iou”改為“Iu”;“wei”對應(yīng)的視覺拼音由“UeI”改為“UI”;“wen”對應(yīng)的視覺拼音由“Uen”改為“Un”。韻母中的“iou”“uei”“uen”分別對應(yīng)“you”“wei”“wen”,預(yù)處理的目的是將嘴型一致的“iu”與“iou”、“uei”與“ui”、“un”與“uen”統(tǒng)一到一個(gè)標(biāo)準(zhǔn),減少歧義。

對于文字,將對每個(gè)句子進(jìn)行分詞處理,如果該分詞出現(xiàn)20 次以上,則將它作為一個(gè)固定整體。這樣做的目的是將單個(gè)的字連接成一個(gè)有意義的整體,這在語言學(xué)上有一個(gè)專門的定義——語素,即指語言中最小的音義結(jié)合體。對于每個(gè)語素,都有其對應(yīng)的視覺拼音組合和拼音組合,例如“中文”對應(yīng)的視覺拼音組合為“RoNUn”,拼音組合為“zhongwen”。如此,便可減少低維度視覺拼音(16 個(gè))及拼音(26 個(gè))與高維度漢字(3 517 個(gè))之間的混淆度,視覺拼音組合及拼音組合映射成漢字詞的匹配度也就更高。最終,視覺拼音詞匯的數(shù)量為3 287,拼音詞匯的數(shù)量為3 537,漢字詞的數(shù)量為3 584。它們都包括,,,。其中,代表解碼器端的句子起始標(biāo)識(shí)符;代表解碼器端的句子結(jié)束標(biāo)識(shí)符;用于補(bǔ)全字符;用來表示低頻詞或者一些未知詞等。

3.3 訓(xùn)練與評估

為了驗(yàn)證CHSLR-VP的效果,選取了4種不同的模型與之進(jìn)行比較,分別是CHSLR-PY、WAS、CHLipNet、CSSMCM,它們均為端到端唇語識(shí)別方法。CHSLR-PY是將CHSLR-VP的視覺拼音預(yù)測階段改成拼音預(yù)測,以證明視覺拼音是否更適用于唇語的解讀;WAS[14]是句子級唇語識(shí)別領(lǐng)域經(jīng)典的方法,它將用于直接識(shí)別漢字;CHLipNet[20]和CSSMCM[21]均為和本文所提模型結(jié)構(gòu)類似的中文句子級唇語識(shí)別模型,前者是二級結(jié)構(gòu)(拼音預(yù)測和漢字預(yù)測),后者是三級結(jié)構(gòu)(拼音預(yù)測、聲調(diào)預(yù)測和漢字預(yù)測)。以上模型均在CMLR數(shù)據(jù)集上進(jìn)行性能比較。

在訓(xùn)練時(shí),將會(huì)通過Adam優(yōu)化器優(yōu)化真實(shí)字符轉(zhuǎn)錄與預(yù)測字符序列之間的交叉熵?fù)p失,課程學(xué)習(xí)和時(shí)間表采樣策略用來提高性能,初始學(xué)習(xí)率設(shè)置為0.000 1,如果訓(xùn)練結(jié)果在4個(gè)epochs內(nèi)仍未改善,則將初始學(xué)習(xí)率降低50%。

在評估中,測量了真實(shí)字符轉(zhuǎn)錄與預(yù)測字符序列之間的編輯距離,并通過真實(shí)長度進(jìn)行歸一化。對于所有實(shí)驗(yàn),視覺拼音準(zhǔn)確率/拼音準(zhǔn)確率(PAR)和漢字準(zhǔn)確率(CAR)被用作評估指標(biāo)。PAR由1-(S+D+I)/N計(jì)算,其中S是從預(yù)測視覺拼音/拼音序列到目標(biāo)視覺拼音/拼音序列所需的替代數(shù),D是刪除數(shù),I是插入數(shù),N是目標(biāo)序列中的視覺拼音/拼音字符數(shù)量。CAR的計(jì)算方法同PAR,只是預(yù)測序列和目標(biāo)序列均為漢字語句。

3.4 結(jié)果分析

表5確認(rèn)了視覺拼音相比于拼音更適合解析唇語,且以視覺拼音作為媒介的CHSLR-VP 模型的預(yù)測結(jié)果(67.38%)明顯好于以拼音作為媒介的CHSLR-PY 模型(61.77%)。出現(xiàn)這種現(xiàn)象的原因是:將拼音映射成視覺拼音降低了預(yù)測維度,將視覺上易混淆的元素合并到一起,使得唇形序列與預(yù)測單元匹配度更高。因此從表6中可以看見,單獨(dú)訓(xùn)練的視覺拼音預(yù)測模型V2VP準(zhǔn)確率(76.48%)明顯高于單獨(dú)訓(xùn)練的拼音預(yù)測模型V2PY(70.81%)。雖然在漢字預(yù)測階段前者VP2H(89.13%)略遜色于后者PY2H(90.96%),但當(dāng)兩個(gè)子模型合并成一個(gè)整體時(shí),CHSLR-VP在視覺拼音預(yù)測階段取得的優(yōu)勢足以彌補(bǔ)甚至使得最終結(jié)果超過了以拼音作為媒介的CHSLR-PY模型。

表5 不同唇語識(shí)別模型在數(shù)據(jù)集CMLR上的性能比較Table 5 Performance comparison of different lip reading models on CMLR dataset

表6 CHSLR-PY和CHSLR-VP的性能比較Table 6 Performance comparison between CHSLR-PY and CHSLR-VP

表5 中還顯示了CHSLR-VP 模型與其他唇語識(shí)別工作的對比結(jié)果。在同一數(shù)據(jù)集下,CHSLR-VP性能要優(yōu)于其他模型,可以得出視覺拼音相較于拼音和漢字,能更準(zhǔn)確地傳達(dá)視頻中蘊(yùn)含的語言信息,也證明了本文所構(gòu)建的這個(gè)二級結(jié)構(gòu)模型的可行性。

建立的CHSLR-VP 模型目前存在以下兩個(gè)問題:(1)使用視覺拼音歸并了拼音,在大大提高視頻解析精度的同時(shí)也會(huì)不可避免地降低漢字預(yù)測準(zhǔn)確率。舉例來說,表7 顯示了一個(gè)用CHSLR-VP 預(yù)測得到的句子,其中錯(cuò)誤地將“理性”預(yù)測成了“提醒”,因?yàn)樗鼈兊钠匆簟發(fā)ixing”和“tixing”歸納成視覺拼音均表示為“DIJIN”,而“提醒”出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于“理性”,故得到錯(cuò)誤的結(jié)果。(2)視頻幀解析階段,長句的預(yù)測效果遠(yuǎn)好于短句,這是由Seq2Seq模型本身的特性造成的,該結(jié)構(gòu)本身就更適合解析長序列。

表7 CHSLR-VP預(yù)測的句子舉例Table 7 Examples of sentences predicted by CHSLR-VP

4 結(jié)束語

本文基于中文發(fā)音的視覺特點(diǎn)對音素進(jìn)行相似性歸類得到視覺拼音;然后據(jù)此提出了一個(gè)中文句子級唇語識(shí)別模型CHSLR-VP。通過實(shí)驗(yàn)得出結(jié)論,提出的視覺拼音運(yùn)用到唇語識(shí)別模型中能達(dá)到較好的效果,并證實(shí)了使用視覺拼音作為過渡過程的二級結(jié)構(gòu)的有效性。在未來,希望對這項(xiàng)工作進(jìn)行一些擴(kuò)展:(1)收集更多的視聽數(shù)據(jù)語料,通過更多的數(shù)據(jù)提高模型魯棒性;(2)優(yōu)化模型結(jié)構(gòu),探索更適合唇部特征提取或語句解析的方法以解決模型現(xiàn)存的問題;(3)參考語音識(shí)別或輸入法,使其具有自動(dòng)聯(lián)想功能,提高預(yù)測語句的邏輯性,進(jìn)而提高模型整體的識(shí)別率。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 真实国产精品vr专区| 国产视频大全| 91最新精品视频发布页| 日本不卡在线播放| 黄色片中文字幕| 亚洲国产天堂久久综合| 大陆精大陆国产国语精品1024| 青青草久久伊人| 国产成人精品第一区二区| 国产精品欧美在线观看| 国产在线一区视频| 亚洲欧洲日产国码无码av喷潮| 青青草原国产av福利网站| 亚洲精品va| 农村乱人伦一区二区| 麻豆精品在线视频| 蝌蚪国产精品视频第一页| 国产打屁股免费区网站| 精品三级网站| 精品一区二区无码av| 日韩无码黄色网站| 无码中文字幕乱码免费2| 欧美精品在线免费| 亚洲国产中文精品va在线播放 | 亚洲天堂高清| 久久精品国产电影| 欧美色亚洲| 亚洲swag精品自拍一区| 暴力调教一区二区三区| 欧美日韩午夜视频在线观看| 狼友视频一区二区三区| 成人午夜视频免费看欧美| 2021国产精品自拍| 天天摸夜夜操| 九九热精品在线视频| 亚洲一级毛片在线播放| 欧美另类第一页| 少妇精品在线| 日韩在线中文| 美女毛片在线| 毛片基地视频| 国产成人乱无码视频| 日韩AV手机在线观看蜜芽| 日韩区欧美国产区在线观看| 久久综合干| 亚洲三级成人| 亚洲综合一区国产精品| 97综合久久| 热思思久久免费视频| 欧美成人一级| 国产九九精品视频| yjizz国产在线视频网| 亚洲欧美成aⅴ人在线观看 | 国内精品九九久久久精品| 先锋资源久久| 国产黄在线观看| 九月婷婷亚洲综合在线| 最新国产在线| 免费在线视频a| 麻豆精品在线| 精品天海翼一区二区| 无码国产伊人| 91欧美在线| 五月天香蕉视频国产亚| 精品福利国产| 99久久国产综合精品2020| 午夜不卡视频| 成年人免费国产视频| 亚洲国产精品VA在线看黑人| 国产一级在线播放| 美女潮喷出白浆在线观看视频| 欧美国产在线一区| 69av在线| 99草精品视频| 制服丝袜一区| 玖玖精品在线| 2022国产无码在线| 国产欧美中文字幕| 91麻豆精品国产91久久久久| 91福利在线观看视频| 一本大道香蕉中文日本不卡高清二区| 欧美精品色视频|