999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)增廣策略在英語語法糾錯(cuò)中的應(yīng)用綜述

2022-04-08 03:40:44孫曉東楊東強(qiáng)
關(guān)鍵詞:單詞方法模型

孫曉東,楊東強(qiáng)

山東建筑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250101

語法錯(cuò)誤是英語學(xué)習(xí)者常犯的錯(cuò)誤之一,其主要包括拼寫錯(cuò)誤、主謂一致錯(cuò)誤、名詞形式錯(cuò)誤、動(dòng)詞形式錯(cuò)誤、時(shí)態(tài)和冠詞錯(cuò)誤等。隨著自然語言處理技術(shù)的不斷發(fā)展,語法錯(cuò)誤糾正(grammatical error correction,GEC)的方法也在不斷創(chuàng)新。早期GEC的研究方法以基于規(guī)則和基于統(tǒng)計(jì)的模型為主[1-2]。隨后出現(xiàn)了基于機(jī)器學(xué)習(xí)分類的方法[3]、基于語言模型的方法[4]和基于機(jī)器翻譯方法[5]等。基于翻譯的方法又衍生出基于統(tǒng)計(jì)的翻譯模型[6](statistical machine translation,SMT)和神經(jīng)機(jī)器翻譯模型[7](neural machine translation,NMT)。相比于基于規(guī)則和分類的GEC方法,基于語言模型和機(jī)器翻譯的數(shù)據(jù)驅(qū)動(dòng)方法取得了顯著的應(yīng)用效果,并逐漸成為主流的GEC方法,但是此類模型的最大挑戰(zhàn)是人工標(biāo)注的訓(xùn)練數(shù)據(jù)不足的問題[8]。在面臨數(shù)據(jù)稀缺的情況下,人工合成的訓(xùn)練數(shù)據(jù)對(duì)解決標(biāo)注訓(xùn)練語料的匱乏顯得尤為重要。

GEC是通過分析輸入句子成分之間的依賴性和邏輯性,將可能含有語法錯(cuò)誤的句子作為輸入,在不改變語義的前提下將其轉(zhuǎn)化為語法正確的句子。GEC系統(tǒng)糾正示例如下:

Input:Travel by bus is exspensive,bored and annoying.

Output:Travelling by bus is expensive,boring and annoying.

模型輸出的最佳糾正結(jié)果需要將數(shù)據(jù)優(yōu)化[9-10]、模型優(yōu)化[11-12]與輸出優(yōu)化[13-14]相結(jié)合,主流的英語語法糾錯(cuò)系統(tǒng)結(jié)構(gòu)圖如圖1所示。其中針對(duì)數(shù)據(jù)進(jìn)行優(yōu)化[15]產(chǎn)生了諸多轉(zhuǎn)移學(xué)習(xí)和領(lǐng)域自適應(yīng)學(xué)習(xí)等策略[16]。遷移學(xué)習(xí)可以解決真實(shí)語料不足的問題,而領(lǐng)域自適應(yīng)學(xué)習(xí)是利用與GEC任務(wù)相似的合成數(shù)據(jù),通過預(yù)訓(xùn)練的方式使模型獲得較好的泛化能力。目前為止,針對(duì)英語語法糾錯(cuò)領(lǐng)域數(shù)據(jù)增廣方法的文獻(xiàn)十分缺乏。該文首先介紹GEC領(lǐng)域使用的數(shù)據(jù)集和評(píng)測(cè)GEC系統(tǒng)不同的指標(biāo),其次介紹在標(biāo)注訓(xùn)練數(shù)據(jù)匱乏的情況下,如何人工合成訓(xùn)練數(shù)據(jù),之后分析了GEC領(lǐng)域應(yīng)用現(xiàn)狀。最后對(duì)未來利用數(shù)據(jù)增廣方法提高英語語法糾錯(cuò)性能、使用數(shù)據(jù)增廣的必要性進(jìn)行了展望與總結(jié)。

圖1 主流英語語法糾錯(cuò)系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure diagram of mainstream English grammar error correction system

1 GEC相關(guān)介紹

1.1 GEC公開語料庫(kù)

最近深度學(xué)習(xí)在語言處理方面取得了重要突破,但GEC仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),其部分原因是語法錯(cuò)誤類型的多樣性、語境中共存的多個(gè)錯(cuò)誤之間語義的依賴性和人工標(biāo)注數(shù)據(jù)的稀缺性。人工標(biāo)注錯(cuò)誤文本,將會(huì)消耗大量成本。GEC領(lǐng)域的語料庫(kù)包括單語語料庫(kù)和學(xué)習(xí)者語料庫(kù)。學(xué)習(xí)者語料庫(kù)是由“錯(cuò)誤-正確”句對(duì)構(gòu)成,質(zhì)量高,但是數(shù)據(jù)量較少。單語語料庫(kù)種類繁多,數(shù)據(jù)量大,通常使用單語數(shù)據(jù)人工合成訓(xùn)練句對(duì),將其用于機(jī)器翻譯系統(tǒng)或其衍生任務(wù)。現(xiàn)有公開可用的GEC語料庫(kù)是有限的,在大規(guī)模的注釋數(shù)據(jù)下GEC系統(tǒng)將會(huì)取得良好的糾正效果。現(xiàn)有的公開學(xué)習(xí)者語料庫(kù)如表1所示。其中,標(biāo)注者數(shù)量為對(duì)文本中的錯(cuò)誤進(jìn)行標(biāo)記、糾正的人數(shù);參考數(shù)是錯(cuò)誤修改的候選參考數(shù)量。

表1 學(xué)習(xí)者語料Table 1 Learner corpus

1.1.1 GEC學(xué)習(xí)者語料

(1)FCE語料庫(kù)

劍橋?qū)W習(xí)者語料庫(kù)(Cambridge learner corpus,CLC)收集了全世界不同母語的學(xué)習(xí)者參加劍橋大學(xué)作文考試的語料,其容量大,是一個(gè)商業(yè)性的學(xué)習(xí)者語料庫(kù)。CLC中的文本從Upper Main Suite Examinations中選取,背景信息非常全面。CLC方便詞典編撰者檢索、查找學(xué)習(xí)者用得好的單詞、句式和語法結(jié)構(gòu),或者利用語料庫(kù)發(fā)現(xiàn)學(xué)習(xí)者的學(xué)習(xí)難點(diǎn)。另外,CLC還應(yīng)用于書面作文的機(jī)器閱卷和評(píng)分軟件的開發(fā)。FCE(first certificate in English)語料庫(kù)[17]是劍橋?qū)W習(xí)者語料庫(kù)(CLC)的子集,其中包括了1 244篇出現(xiàn)在FCE考試中的書面答案,包括了7種錯(cuò)誤類型,9種母語類型。

(2)JFLEG

JFLEG是用來評(píng)測(cè)GEC系統(tǒng)的常用測(cè)試集,包含747個(gè)句子,開發(fā)集包括764個(gè)句子,由約翰霍普金斯大學(xué)(JHU)提供,此語料庫(kù)用來評(píng)測(cè)句子的流利程度。英語語法糾錯(cuò)不僅僅是對(duì)不同錯(cuò)誤類型的糾錯(cuò),最終的目的是達(dá)到符合人類思維習(xí)慣的母語表達(dá)的程度。此語料庫(kù)僅在句子級(jí)別上進(jìn)行標(biāo)注,并沒有在詞粒度層面上進(jìn)行標(biāo)注。JFLEG測(cè)試集使用GLEU評(píng)價(jià)指標(biāo)[18]。

(3)Lang-8學(xué)習(xí)者語料庫(kù)

Lang-8是一個(gè)在線的英語學(xué)習(xí)網(wǎng)站。鼓勵(lì)學(xué)習(xí)者相互糾正自己的錯(cuò)誤,它將用戶在學(xué)習(xí)過程中的外語寫作文章,交給以此種外語為母語的國(guó)人批改。用戶自身也可以修改其他國(guó)人所寫的文章。網(wǎng)站提供需付費(fèi)的高級(jí)服務(wù),可以保存歷史文章、優(yōu)先在網(wǎng)站上顯示自己的作文等。Lang-8學(xué)習(xí)者語料庫(kù)[19]是從此網(wǎng)站爬取的部分語料,包含80多種語言和大量的“錯(cuò)誤-正確”平行句對(duì)。Lang-8語料庫(kù)的英語語料嘈雜,沒有明確的標(biāo)注規(guī)則。此語料庫(kù)為GEC公開預(yù)料庫(kù)中最大的一組[19],包含了200萬條句子對(duì)。

(4)NUCLE語料庫(kù)

NUCLE(National University of Corpus of learner English)數(shù)據(jù)集[20]是新加坡國(guó)立大學(xué)(NUS)標(biāo)注的英語學(xué)習(xí)者語料庫(kù),它包含了國(guó)立大學(xué)大學(xué)生撰寫的1 400篇論文,主題涉及到環(huán)境污染、醫(yī)療保健等不同方面。該語料庫(kù)由專業(yè)英語教師進(jìn)行錯(cuò)誤注釋,用于對(duì)GEC系統(tǒng)的訓(xùn)練與性能評(píng)測(cè),是第一個(gè)提供錯(cuò)誤注釋并且可以免費(fèi)使用的學(xué)習(xí)者語料庫(kù)。其中,共包括27種錯(cuò)誤類型,比例最高的5種是Wcip(搭配錯(cuò)誤、短語錯(cuò)誤、介詞錯(cuò)誤)、Rloc(冗余錯(cuò)誤)、ArtOrDet(定冠詞錯(cuò)誤)、Nn(名詞單復(fù)數(shù)錯(cuò)誤)和Mec(格式錯(cuò)誤)。5種錯(cuò)誤類型注釋數(shù)量占所有注釋數(shù)量的57.83%。

(5)W&I+LOCNESS語料庫(kù)

BEA2019共享任務(wù)[21]中,發(fā)布了兩種新的數(shù)據(jù)集。分別是CEWI(Cambridge English write&improve)數(shù)據(jù)集和LOCNESS數(shù)據(jù)集[22]。W&I+LOCNESS語料庫(kù)包括了來自CEWI的3 600篇帶有人工注釋的文章和來自LONCESS的100篇注釋文章。

CEWI是英國(guó)劍橋大學(xué)研究員研究出的一個(gè)在線的英語學(xué)習(xí)系統(tǒng)。眾多的學(xué)習(xí)者可以通過該系統(tǒng)進(jìn)行英文書面語的在線糾錯(cuò)。通過輸入需要糾正的源語句,系統(tǒng)會(huì)及時(shí)、自動(dòng)給出每句話的修改建議并對(duì)其合理性評(píng)分。CEWI數(shù)據(jù)庫(kù)是由英語測(cè)試試卷中的文本組成,這些文本來自148種不同語言的母語學(xué)習(xí)者。

LONCESS語料庫(kù)是由一些以英語作為母語的學(xué)生撰寫的論文組成。語料庫(kù)的每一條注釋數(shù)據(jù)有一個(gè)特殊的標(biāo)記區(qū)分不同英語學(xué)習(xí)者的英語水平:A(初級(jí),beginer)、B(中級(jí),intermediate)、C(高級(jí),advanced)。

(6)GMEG Wiki和GMEG Yahoo

近年來,GEC評(píng)測(cè)數(shù)據(jù)集主要由非母語的英語學(xué)習(xí)者所寫的論文組成,當(dāng)測(cè)試集遷移到其他領(lǐng)域,GEC的系統(tǒng)可靠性便無法評(píng)估。GMEG數(shù)據(jù)集[23]是以英語為母語的學(xué)習(xí)者所寫的句子組成,包括了來自3個(gè)不同領(lǐng)域的GEC系統(tǒng)對(duì)該數(shù)據(jù)產(chǎn)生的糾正結(jié)果進(jìn)行人工評(píng)級(jí)。GMEG Wiki是基于維基百科修訂歷史編輯而設(shè)定的語料庫(kù),GMEG Yahoo是由雅虎的Web郵件中收集的答案組成,GMEG FCE是為FCE語料庫(kù)建立的新的錯(cuò)誤標(biāo)注。

(7)AESW

AESW[24]是科學(xué)寫作的自動(dòng)評(píng)估共享任務(wù)automatic evaluation of scientific writing的測(cè)試集,但沒有廣泛使用。

(8)CLEC中國(guó)英語學(xué)習(xí)者語料庫(kù)

中國(guó)學(xué)習(xí)者語料庫(kù)包括了5種英語水平學(xué)生產(chǎn)生的英文語料,涉及中學(xué)英語、大學(xué)英語、大學(xué)四六級(jí)英語、專業(yè)英語低級(jí)和高級(jí)等層面,對(duì)其包含在內(nèi)的多種言語失誤進(jìn)行標(biāo)注,將言語失誤共分成61種類型。此語料庫(kù)還統(tǒng)計(jì)了失誤的頻數(shù)、占比,最常見的失誤類型,最常見的拼寫失誤單詞匯總等等。

1.1.2 單語語料庫(kù)

單語語料庫(kù)可以幫助模型進(jìn)行預(yù)訓(xùn)練,建立一個(gè)初始化良好的英語語法檢測(cè)與糾正系統(tǒng)。通過預(yù)處理、人工數(shù)據(jù)集合成等操作,模型可以充分利用一些非人工注釋的數(shù)據(jù)集來緩解訓(xùn)練數(shù)據(jù)不足的問題。如今存在許多高質(zhì)量的英語語料庫(kù),比如One-billion word benchmark[25]、Gutenberg語料庫(kù)[26]、Tatoeba語料庫(kù)[27]和維基百科語料庫(kù)[28]等。

(1)one-billion word benchmark

one-billion word benchmark是一套基準(zhǔn)語料庫(kù),數(shù)據(jù)集由康奈爾大學(xué)在2013年發(fā)布,數(shù)據(jù)來源于網(wǎng)頁,憑借近10億單詞規(guī)模的訓(xùn)練數(shù)據(jù),該測(cè)試基準(zhǔn)可以快速評(píng)估新的語言建模技術(shù)。

(2)Gutenberg

古騰堡工程(project Gutenberg,PG)是由志愿者參與、收集、整理的電子化資料,是一個(gè)電子文學(xué)圖書館,收錄包括德語、法語、意大利語以及中文在內(nèi)的不同語言著作。而Gutenberg語料庫(kù)[26]是古騰堡工程語料庫(kù)中的一個(gè)子集,包含142位作者的若干篇英、美著名作品,語言風(fēng)格偏書面語,約1.2 GB。

(3)Tatoeba

Tatoeba語料庫(kù)是為機(jī)器翻譯發(fā)布的一個(gè)新的基準(zhǔn)語料庫(kù),該基準(zhǔn)包含多種語言和用于從該數(shù)據(jù)集中創(chuàng)建最先進(jìn)機(jī)器翻譯模型的工具,當(dāng)前版本包含超過500 GB的壓縮數(shù)據(jù),涵蓋555種語言。該數(shù)據(jù)集提供了并行語料和單語語料,其中單語語料來源于Wikimedia中的公共數(shù)據(jù),為數(shù)據(jù)增廣方法提供數(shù)據(jù)來源支持。

(4)維基百科

Wikipedia是一個(gè)基于維基技術(shù)的在線百科全書,以多種語言編寫,超過4 700萬頁。Simple Wiki與通常的Wikipedia相比,只使用大約1 500個(gè)常見的英語單詞,這使得信息在語法和結(jié)構(gòu)上更容易理解。

1.2 GEC語料的預(yù)處理

數(shù)據(jù)增廣(data augmentation)可以看作是一種對(duì)訓(xùn)練集數(shù)據(jù)的預(yù)處理方式。為了提高數(shù)據(jù)的質(zhì)量,在進(jìn)行數(shù)據(jù)增廣、模型訓(xùn)練等任務(wù)之前需要對(duì)數(shù)據(jù)進(jìn)行清理,比如使用Lang-8數(shù)據(jù)[29]之前,需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行清理,數(shù)據(jù)清理過程中可以使用moses[30]官方提供的處理腳本,腳本提供標(biāo)點(diǎn)的規(guī)范化,控制有效句子長(zhǎng)度,需要大寫的地方進(jìn)行轉(zhuǎn)換、保留等。常見的處理方法包括:

(1)去重。訓(xùn)練過程中,大量重復(fù)的數(shù)據(jù)使得訓(xùn)練結(jié)果有一定偏差,可以將完全相同的句對(duì)清除。

(2)去空行。對(duì)于訓(xùn)練文本中的空行,不會(huì)為模型的訓(xùn)練提供任何信息。

(3)特殊符號(hào)處理。確定特殊符號(hào)列表,對(duì)于含有特殊符號(hào)的語句對(duì)刪除特殊符號(hào)或者直接刪除該語句對(duì)。

(4)長(zhǎng)度控制。語句對(duì)的長(zhǎng)度影響模型的訓(xùn)練,長(zhǎng)度太短的句子可能對(duì)模型的訓(xùn)練沒有幫助;長(zhǎng)度太長(zhǎng)的句對(duì),在送入模型之后需要對(duì)句對(duì)進(jìn)行拆分截?cái)嗵幚怼?/p>

(5)Tokenize操作。SentencePiece、WordPiece是兩種tokenization的方法。掃描一遍訓(xùn)練文本后構(gòu)建一個(gè)詞表,通過詞表對(duì)輸入的文本進(jìn)行tokenize。tokenize就是對(duì)文本進(jìn)行分詞并對(duì)詞語的數(shù)值化;tokenize操作同時(shí)完成了對(duì)英語句子和標(biāo)點(diǎn)的切分。

(6)全半角轉(zhuǎn)換。對(duì)于訓(xùn)練文本中的全角符號(hào)需要轉(zhuǎn)換成半角。

(7)標(biāo)點(diǎn)的正則化。英文語料庫(kù)中不應(yīng)該出現(xiàn)中文的標(biāo)點(diǎn)符號(hào),需要將中文的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換成英文。

(8)Truecase。將每個(gè)單詞中存在的大小寫形式轉(zhuǎn)換成原本的寫法。

1.3 GEC評(píng)價(jià)指標(biāo)

近年來英語語法糾錯(cuò)在自然語言處理領(lǐng)域取得重要突破,產(chǎn)生了多種對(duì)GEC系統(tǒng)的評(píng)測(cè)方法。評(píng)測(cè)方法通常將輸出序列與黃金標(biāo)準(zhǔn)序列(人工標(biāo)注的目標(biāo)句)進(jìn)行比較,比較過程中需要將輸出的原句和目標(biāo)句進(jìn)行詞對(duì)齊。GEC評(píng)價(jià)指標(biāo)的發(fā)展趨勢(shì)如圖2所示,先前GEC模型的性能只通過精確度度量,后來M2、I指標(biāo)的產(chǎn)生,通過召回率衡量GEC系統(tǒng),現(xiàn)如今GLEU、ERRANT錯(cuò)誤工具包的產(chǎn)生,使評(píng)測(cè)結(jié)果更加公平。不同評(píng)測(cè)指標(biāo)對(duì)比如表2所示。

表2 GEC評(píng)測(cè)指標(biāo)優(yōu)缺點(diǎn)對(duì)比綜述Table 2 Comparison of advantages and disadvantages of GEC evaluation indicators

圖2 GEC評(píng)價(jià)指標(biāo)發(fā)展趨勢(shì)Fig.2 GEC evaluation development trend

1.3.1 最大匹配分?jǐn)?shù)

最大匹配分?jǐn)?shù)[31](max match score,M2score),計(jì)算的是模型的輸出修改和標(biāo)準(zhǔn)修改在字、詞或短語級(jí)別的最大覆蓋,是評(píng)估英語語法糾錯(cuò)模型常用的評(píng)測(cè)方法。此度量方法首先將GEC系統(tǒng)輸出的糾正句與人工標(biāo)注的標(biāo)準(zhǔn)句進(jìn)行單詞對(duì)齊,采用基于Levenshtein距離的對(duì)齊策略,計(jì)算將一個(gè)句子轉(zhuǎn)換成另一個(gè)句子后所需要的單詞基礎(chǔ)上的編輯(插入、刪除、替換)數(shù),以精確度、召回率、F值評(píng)估系統(tǒng)。

1.3.2 GLEU

Napoles等人[18]提出GLEU(generalized language evaluation understanding)評(píng)價(jià)句子的流利度,這是BLEU[32]的一種變體。原始輸入的錯(cuò)誤語句簡(jiǎn)稱源句,人工標(biāo)注修改的句子稱為參考句。GEC系統(tǒng)輸出的糾正句子為假設(shè)句。計(jì)算假設(shè)句相對(duì)于參考句的N-gram精度,并對(duì)假設(shè)句中本改糾正卻沒有被糾正的N-gram進(jìn)行懲罰。

1.3.3 I指標(biāo)

I指標(biāo)[33]在源句、系統(tǒng)輸出和參考句三者之間應(yīng)用基于標(biāo)記(token)級(jí)別的多序列對(duì)齊優(yōu)化算法。與M2不同的是此方法為錯(cuò)誤檢測(cè)和糾正都提供了相應(yīng)的分?jǐn)?shù)。此方法定義了一種特殊的格式:每個(gè)句子都包含注釋和可能的修改,一個(gè)句子可以包含零個(gè)及多個(gè)錯(cuò)誤。每個(gè)可以選擇的候選糾正必須是互斥的。

1.3.4 ERRANT

ERRANT[34]語法錯(cuò)誤注釋工具包,從源語句和糾正后的句子中提取編輯數(shù)量,并對(duì)錯(cuò)誤類型進(jìn)行分類,有助于不同類型錯(cuò)誤級(jí)別的評(píng)估。該工具使用Felice等人[35]提出的源句和修正句之間的對(duì)齊算法,然后為提取的編輯使用基于規(guī)則的錯(cuò)誤類型框架分配錯(cuò)誤類型。框架與數(shù)據(jù)集無關(guān),僅依賴于自動(dòng)獲取的如詞性標(biāo)記等信息。

2 數(shù)據(jù)增廣策略

使用足夠多的無錯(cuò)誤數(shù)據(jù)通過噪聲函數(shù)對(duì)其注入噪音,然后將合成的訓(xùn)練數(shù)據(jù)用于模型的預(yù)訓(xùn)練,由此提高了GEC模型的性能。對(duì)于不同數(shù)據(jù)增廣的方法、不同語料庫(kù)所屬的風(fēng)格及其對(duì)不同風(fēng)格的語料庫(kù)進(jìn)行合并時(shí)如何進(jìn)行優(yōu)化以至于獲得更好的預(yù)訓(xùn)練模型等,均未生成共識(shí)。使用不同風(fēng)格的語料庫(kù)、不同的數(shù)據(jù)合成方法、不同的數(shù)據(jù)集規(guī)模等均對(duì)模型的結(jié)果產(chǎn)生不同的影響[36]。GEC面臨的挑戰(zhàn)包括數(shù)據(jù)集的領(lǐng)域適用和低錯(cuò)誤密度下將產(chǎn)生更低的精確度。同時(shí),不同的錯(cuò)誤概率分布、錯(cuò)誤密集程度、錯(cuò)誤的種類、語料庫(kù)所包含的語義變化都會(huì)影響到GEC系統(tǒng)的性能。相比于語言學(xué)習(xí)領(lǐng)域的數(shù)據(jù)集,使用其他領(lǐng)域數(shù)據(jù)集訓(xùn)練過的監(jiān)督系統(tǒng)對(duì)于語法錯(cuò)誤糾正可能沒有效果,還有可能表現(xiàn)出較低的精度。這也表明先進(jìn)的糾錯(cuò)系統(tǒng)偏向使用較高錯(cuò)誤密度的數(shù)據(jù)集[26]。

對(duì)于一個(gè)低資源的機(jī)器翻譯任務(wù),機(jī)器翻譯的加噪方法通常根據(jù)種子語料庫(kù)得出的錯(cuò)誤頻率分布,使用隨機(jī)的替換、取代、刪除、插入等規(guī)則引入錯(cuò)誤。但是,適合機(jī)器翻譯的噪聲函數(shù)不一定適合GEC。英語學(xué)習(xí)者常犯的錯(cuò)誤類型中,發(fā)生單詞順序的錯(cuò)誤概率比發(fā)生其他類型的錯(cuò)誤概率都要低。因此,不同的數(shù)據(jù)增廣策略不斷提出,合成的訓(xùn)練數(shù)據(jù)質(zhì)量也在不斷提高。有學(xué)者提出通過反向翻譯的數(shù)據(jù)增廣方法以此來充分利用單語數(shù)據(jù),但是高質(zhì)量的訓(xùn)練句對(duì)往往耗費(fèi)大量的勞動(dòng)力,如何人工合成更加接近人類真實(shí)情景下常犯的英語錯(cuò)誤對(duì)提高GEC模型的性能至關(guān)重要[37]]。初次之外,為了提高合成數(shù)據(jù)的質(zhì)量,往往引入合成數(shù)據(jù)的質(zhì)量控制。不同數(shù)據(jù)增廣方法間的優(yōu)缺點(diǎn)基合成示例,如表3所示。

表3 不同數(shù)據(jù)增廣方法優(yōu)缺點(diǎn)對(duì)比及合成示例Table 3 Comparison of advantages and disadvantages of different data augmentation methods and synthesis examples

2.1 基于概率的數(shù)據(jù)增廣方法

2.1.1 基于規(guī)則的數(shù)據(jù)增廣方法

基于規(guī)則的數(shù)據(jù)增廣方法是使用限制性的語法規(guī)則針對(duì)特定語法錯(cuò)誤對(duì)數(shù)據(jù)進(jìn)行處理,其成為提高數(shù)據(jù)質(zhì)量的一種重要手段,使用特定的限制性規(guī)則在數(shù)據(jù)清理和數(shù)據(jù)合成任務(wù)中也具有重要意義。人為規(guī)則不限于增加、刪除、取代、交換及其相應(yīng)的衍生變種,以此更加精確的生成標(biāo)記(token)級(jí)別的錯(cuò)誤,插入、刪除、交換可以在token級(jí)別和chatacter級(jí)別上進(jìn)行操作,越來越多的工作面向替換規(guī)則,與簡(jiǎn)單的從詞表中隨機(jī)挑選單詞進(jìn)行替換,融入拼寫混淆集和同類型不同詞性單詞的替換,提高了模型的性能,如圖3所示。對(duì)于特定的、不易生成的語法錯(cuò)誤,在自然語言處理領(lǐng)域中使用人為限制性的規(guī)則進(jìn)行邏輯性的處理從而彌補(bǔ)此缺陷。

圖3 基于規(guī)則的數(shù)據(jù)增廣方法示例Fig.3 Examples of rules-based data augmentation methods

使用特定規(guī)則進(jìn)行單語語料處理的方法很多,以一定的概率刪除、增加語句中的標(biāo)記(token),對(duì)選中的單詞從詞典中隨機(jī)的選擇一個(gè)單詞進(jìn)行替換及其進(jìn)行單詞與單詞之間、單詞內(nèi)部的重排序操作[38]。使用基于規(guī)則的數(shù)據(jù)增廣方法過程簡(jiǎn)單,但是預(yù)先定義的規(guī)則有限,比如使用“選中的單詞”與“臨近的單詞”進(jìn)行替換,這樣有點(diǎn)欠缺,因?yàn)樵~序錯(cuò)誤發(fā)生的概率比名詞單復(fù)數(shù)、冠詞、動(dòng)詞時(shí)態(tài)等錯(cuò)誤發(fā)生的概率小得多,只涵蓋了英語學(xué)習(xí)者語法錯(cuò)誤類型中的一小部分。也可以使用手動(dòng)創(chuàng)建的規(guī)則,通過改變量詞、生成復(fù)數(shù)形式單詞、插入冗余的限定詞來擴(kuò)大訓(xùn)練數(shù)據(jù)[39],將句子轉(zhuǎn)換成不符合語法規(guī)范的語句,然后使用合成的訓(xùn)練數(shù)據(jù)訓(xùn)練基于短語的SMT系統(tǒng)進(jìn)行語法錯(cuò)誤糾正。例如:

規(guī)則1much→many:much advice→many advice

規(guī)則2some→a/an:some advice→an advice

規(guī)則3advice→advices:much good advice→many good advices

將特定的錯(cuò)誤類型生成固定的模板,使用預(yù)先定義好的錯(cuò)誤類型引入模板作用于單語語料庫(kù)人工生成訓(xùn)練數(shù)據(jù)[40],也是用于GEC領(lǐng)域處理數(shù)據(jù)的方法之一。

2.1.2 融合標(biāo)記、類別的數(shù)據(jù)處理方法

加單的使用人為定義的規(guī)則將語法錯(cuò)誤注入到單語數(shù)據(jù),一定程度上改善GEC的性能[37],但是引入的錯(cuò)誤并不接近英語學(xué)習(xí)者產(chǎn)生的真實(shí)錯(cuò)誤。將人為定義的規(guī)則與單詞的詞性、形態(tài)相結(jié)合,將會(huì)更加接近英語語法糾錯(cuò)數(shù)據(jù)集中的真實(shí)錯(cuò)誤。

在基于標(biāo)記和基于類別的加噪方法中[41],引入英語學(xué)習(xí)者最常犯的錯(cuò)誤。基于標(biāo)記的方法首先從學(xué)習(xí)者語料中提取人類的編輯和頻次。通過構(gòu)建的含有常見錯(cuò)誤編輯的字典,隨機(jī)的將錯(cuò)誤編輯應(yīng)用于語法正確是句子。基于類別的噪聲方法,不會(huì)改變?cè)紗卧~的類別,比如更換不同的介詞、名詞單復(fù)數(shù)、動(dòng)詞時(shí)態(tài)等。Yuan和Felice[42]從NUCLE學(xué)習(xí)者語料庫(kù)中提取錯(cuò)誤標(biāo)記應(yīng)用于單語數(shù)據(jù),從而進(jìn)行訓(xùn)練數(shù)據(jù)的人工合成。

2.2 基于翻譯的單語數(shù)據(jù)處理方法

2.2.1 基于反向翻譯的數(shù)據(jù)增廣方法

基于反向翻譯的數(shù)據(jù)增廣方法,其思想是訓(xùn)練一個(gè)反向模型(錯(cuò)誤生成模型),以正確的句子作為輸入,輸出涵蓋語法錯(cuò)誤的原句。Sennrich等人[9]首次提出反向翻譯模型,將反向模型的輸入與束搜索的輸出作為訓(xùn)練句對(duì)來增加平行訓(xùn)練語料的數(shù)量。方法還包括訓(xùn)練反向模型并在集束搜索過程中加入噪音來合成偽數(shù)據(jù)[43]。基于反向翻譯的數(shù)據(jù)增廣方法能夠覆蓋不同種類的錯(cuò)誤類型,但是訓(xùn)練性能高的反向翻譯模型往往需要大量的帶有注釋的糾錯(cuò)數(shù)據(jù),也面臨著標(biāo)注數(shù)據(jù)短缺的問題。反向翻譯模型輸出時(shí)不能保證系統(tǒng)輸出的句子中已經(jīng)注入錯(cuò)誤,因此需要進(jìn)行句子的“質(zhì)量控制”:結(jié)合外部的語言模型,將低于源句概率的輸出句子與源句構(gòu)成“錯(cuò)誤-正確”句子對(duì)用于訓(xùn)練。

還可以使用基于貪婪搜索策略的反向翻譯模型解碼生成合成數(shù)據(jù)[44],分析表明通過取樣生成的數(shù)據(jù)比集束搜索或貪婪搜索生成的合成數(shù)據(jù)將會(huì)產(chǎn)生更高的性能。在此之后基于反向翻譯的變體模型出現(xiàn)。Kiyono等人[36]將反向翻譯數(shù)據(jù)用預(yù)訓(xùn)練,并通過直接注入噪聲的方法,對(duì)句子中的每個(gè)標(biāo)記執(zhí)行隨機(jī)的掩碼、刪除、插入和保持不變操作來人工合成訓(xùn)練數(shù)據(jù)。

Zhou等人[45]提出利用性能不同的機(jī)器翻譯模型合成訓(xùn)練數(shù)據(jù)。首先,使用神經(jīng)機(jī)器翻譯模型生成高質(zhì)量的翻譯語句。其次,使用基于短語的統(tǒng)計(jì)機(jī)器翻譯模型生成低質(zhì)量的翻譯語句。將單語數(shù)據(jù)中同一個(gè)句子的不同質(zhì)量的翻譯作為訓(xùn)練句對(duì)。實(shí)驗(yàn)結(jié)果表明,使用合成的數(shù)據(jù)訓(xùn)練無監(jiān)督的GEC模型可以獲得理想的性能。

Yuan和Felice[42]從NUCLE學(xué)習(xí)者語料中提取標(biāo)注錯(cuò)誤的所有可能編輯將其應(yīng)用于標(biāo)記(token)和詞性標(biāo)注兩個(gè)方面(標(biāo)記:has→have,to be used→to be use;詞性標(biāo)記:NN→NNS,DT NNP→NNP)。在注入人為錯(cuò)誤過程中,token模式優(yōu)先于詞性標(biāo)注模式,使用合成的訓(xùn)練數(shù)據(jù)集訓(xùn)練多個(gè)基于短語的統(tǒng)計(jì)機(jī)器翻譯模型(phrase-based statistical machine translation,PB-SMT),選擇性能最好的進(jìn)一步完善提高。

2.2.2 基于往返翻譯的單語數(shù)據(jù)處理方法

基于往返翻譯的數(shù)據(jù)增廣方法,其思想是訓(xùn)練兩種機(jī)器翻譯模型,一種為英語翻譯到非英語的橋語言的模型,另一種是非英語的橋語言翻譯到英語的模型。源語句是單語數(shù)據(jù),往返翻譯生成的是目標(biāo)語句。使用往返翻譯合成的偽數(shù)據(jù)體現(xiàn)多種語言的可擴(kuò)展性,并且不需要大量的標(biāo)注數(shù)據(jù),但是根據(jù)翻譯模型性能的優(yōu)劣,得到的源語言的質(zhì)量也隨即不同。性能高的機(jī)器翻譯模型得到的源語句將不存在語法錯(cuò)誤,性能低的機(jī)器翻譯模型結(jié)果產(chǎn)生很大的語義差異,可能改變語句原本的表達(dá)意思,導(dǎo)致更多的信息丟失。

2.3 基于修訂歷史的數(shù)據(jù)增廣方法

NMT不適合低資源的任務(wù),因此需要大量的合成數(shù)據(jù)彌補(bǔ)差距。維基百科提供了所有維基百科修訂歷史的頁面。不同的頁面包括的數(shù)據(jù)量也是不盡相同,從頁面中提取連續(xù)的數(shù)據(jù)作為“源-目標(biāo)”句子對(duì)。其中源句是較舊的連續(xù)修訂歷史頁面提供,目標(biāo)句是對(duì)應(yīng)較新的連續(xù)修訂歷史頁面提供。使用最小過略的啟發(fā)式算法從維基百科編輯歷史中提取訓(xùn)練句子對(duì)[46],從而生成大規(guī)模的語料庫(kù)。與往返翻譯相比,此方法生成的數(shù)據(jù)相對(duì)嘈雜。Zhou等人[45]從維基百科的修訂歷史中提取修訂的錯(cuò)誤編輯合成訓(xùn)練數(shù)據(jù),使用此方法可以收集到人為的修正錯(cuò)誤編輯,更加接近英語學(xué)習(xí)者在學(xué)習(xí)過程中常犯的英語語法錯(cuò)誤。但是大多數(shù)的糾正不是語法錯(cuò)誤修正,并且合成的數(shù)據(jù)需要經(jīng)過過濾處理。

2.4 其他數(shù)據(jù)合成方法

Felice等人[47]首次利用語言信息推導(dǎo)錯(cuò)誤發(fā)生的概率。實(shí)驗(yàn)過程中,分析了一組對(duì)于適合錯(cuò)誤注入的文本非常重要的變量,包括主題、題材類型、風(fēng)格、文本的復(fù)雜程度等。結(jié)果表明犧牲精度可以提高召回率,不同的語言信息影響不同類型的錯(cuò)誤糾正。

2.5 不同數(shù)據(jù)增廣方法系統(tǒng)表現(xiàn)對(duì)比

從應(yīng)用特定的學(xué)習(xí)者語料庫(kù)到如今使用數(shù)據(jù)增廣方法合成的訓(xùn)練集,GEC性能逐漸的提高。本文按時(shí)間順序整理了常見的基于數(shù)據(jù)增廣方法的GEC模型性能上的對(duì)比,如圖4所示[10,14,41,43,45-46,48-65]。

圖4 數(shù)據(jù)增廣方法的系統(tǒng)表現(xiàn)Fig.4 System performance using data augmentation methods

3 GEC領(lǐng)域應(yīng)用現(xiàn)狀

與早期的基于規(guī)則、分類、語言模型等英語糾錯(cuò)方法相比,目前GEC任務(wù)的主流應(yīng)用是采用基于機(jī)器翻譯的方法。本文從基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法與基于深度學(xué)習(xí)的英語語法糾錯(cuò)方法兩方面詳細(xì)介紹GEC領(lǐng)域應(yīng)用現(xiàn)狀并對(duì)其優(yōu)缺點(diǎn)進(jìn)行對(duì)比。不同GEC應(yīng)用現(xiàn)狀的優(yōu)缺點(diǎn)如表4所示。

表4 GEC領(lǐng)域應(yīng)用現(xiàn)狀優(yōu)缺點(diǎn)分析綜述Table 4 Summary of advantages and disadvantages of application status in GEC field

3.1 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)

3.1.1 基于規(guī)則

基于規(guī)則[1]的最典型GEC方法就是將語言知識(shí)總結(jié)、抽象,以特定的形式存儲(chǔ)。在糾錯(cuò)過程中,結(jié)合待糾正的輸入,選擇相應(yīng)的規(guī)則性知識(shí)進(jìn)行推理或變換。規(guī)則包括源語言的分析規(guī)則、源語言內(nèi)部表示形式向目標(biāo)語言內(nèi)部表示形式的轉(zhuǎn)換規(guī)則,以及目標(biāo)語言的內(nèi)部表示轉(zhuǎn)換為目標(biāo)語言的規(guī)則。

3.1.2 基于分類

基于分類[3,65]的英語語法糾錯(cuò)方法主要將糾錯(cuò)任務(wù)視為分類問題,早期主要針對(duì)冠詞和介詞錯(cuò)誤。其主要思想是人工進(jìn)行特征選取,對(duì)每種語法錯(cuò)誤類型標(biāo)記不同的分類標(biāo)簽,比如冠詞,可以分為a、an、the、沒有冠詞4種情形,分別標(biāo)記0、1、2、3標(biāo)簽。分類器通過特征對(duì)目標(biāo)單詞進(jìn)行預(yù)測(cè),目標(biāo)單詞最可能的預(yù)測(cè)結(jié)果作為最終的分類輸出。例如,F(xiàn)elice等人[66]通過提取18個(gè)定冠詞和13個(gè)介詞的上下文特征進(jìn)行訓(xùn)練,最終冠詞和介詞的糾正精確度分別達(dá)到70.6%和92%,取得了良好的效果。

3.1.3 基于N-gram語言模型

許多GEC應(yīng)用基于語言模型[67],語言模型定義了關(guān)于自然語言中的字、字符或字節(jié)序列的概率分布。N-gram是一種基于統(tǒng)計(jì)語言模型的算法,基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長(zhǎng)度為N的字節(jié)片段序列。每個(gè)字節(jié)片段為gram,對(duì)所有g(shù)ram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并按照事先設(shè)定好的閾值進(jìn)行過濾,形成關(guān)鍵的gram列表,列表中的每一種gram為一個(gè)特征向量的維度。N-gram模型最終按照前N個(gè)詞語預(yù)測(cè)當(dāng)前的詞語。

3.1.4 基于統(tǒng)計(jì)機(jī)器翻譯

統(tǒng)計(jì)機(jī)器翻譯[6]是一種參數(shù)學(xué)習(xí)方法,統(tǒng)計(jì)翻譯模型利用實(shí)例訓(xùn)練模型參數(shù),其本質(zhì)是帶參數(shù)的機(jī)器學(xué)習(xí)。因此,模型適用于任意語言對(duì),也方便遷移到不同應(yīng)用領(lǐng)域。

其中,基于短語的統(tǒng)計(jì)機(jī)器翻譯的GEC模型[39]應(yīng)用較廣,其基本思想是在詞語對(duì)齊的預(yù)料庫(kù)上,尋找并記錄所有的互為翻譯的雙語短語,并在整個(gè)語料庫(kù)上統(tǒng)計(jì)這種雙語短語的概率。解碼(翻譯)的時(shí)候,只將被糾正的句子與語庫(kù)中的源語句短語進(jìn)行匹配,找出概率最大的短語組合,并適當(dāng)調(diào)整目標(biāo)短語的語序。

3.2 基于深度學(xué)習(xí)GEC模型應(yīng)用

3.2.1 基于神經(jīng)語言模型的方法

傳統(tǒng)的N-gram模型由于參數(shù)空間的爆炸式增長(zhǎng),通常僅能對(duì)長(zhǎng)度為兩三個(gè)詞的序列進(jìn)行評(píng)估,其次,N-gram模型沒有考慮詞與詞之間內(nèi)在的聯(lián)系性。基于神經(jīng)語言模型的GEC方法[37],其思想是:通過嵌入一個(gè)線性的投影矩陣,將原始的獨(dú)熱編碼向量映射為一個(gè)個(gè)稠密的連續(xù)向量,并通過訓(xùn)練一個(gè)神經(jīng)語言模型,去學(xué)習(xí)這些向量的權(quán)重,使用詞向量預(yù)測(cè)可能出現(xiàn)在目標(biāo)詞后面的詞。隨著訓(xùn)練次數(shù)的增加和反向傳播調(diào)整,網(wǎng)絡(luò)逐漸獲得了將上下文相似的詞映射為相似的詞向量的能力。

3.2.2 基于神經(jīng)機(jī)器翻譯的方法

機(jī)器翻譯是讀取一種自然語言句子并產(chǎn)生等同含義的另一種語言的句子。機(jī)器翻譯系統(tǒng)可能提出多個(gè)候選翻譯,由于語言之間的差異性,這些翻譯中的許多候選句是不符合語法的,例如:許多翻譯的候選句在名詞后放置形容詞(sky blue),目標(biāo)結(jié)果為(blue sky),但也為數(shù)據(jù)增廣方法提供解決思路。其次,還需要語言模型評(píng)估翻譯系統(tǒng)輸出候選句。

端到端的神經(jīng)機(jī)器翻譯[7],直接利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)源語言文本到目標(biāo)語言文本的映射。主要以“編碼-解碼”思想:給定一個(gè)源語言句子,首先使用編碼器將其映射為一個(gè)連續(xù)、稠密的向量,然后再使用一個(gè)解碼器將該向量轉(zhuǎn)化為一個(gè)目標(biāo)語言的句子。此外,還可以將遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、長(zhǎng)短期記憶(long short term memory,LSTM)、注意力機(jī)制引入端到端的神經(jīng)機(jī)器翻譯。其中,使用遞歸神經(jīng)網(wǎng)絡(luò)能夠捕獲歷史信息和處理變長(zhǎng)字符串的優(yōu)點(diǎn)。使用LSTM可以較好的捕獲長(zhǎng)距離依賴,解決了遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)“梯度消失”和梯度爆炸“梯度爆炸”的問題。注意力,是指當(dāng)解碼器在生成單個(gè)目標(biāo)語言詞時(shí),僅有小部分的源語言詞是相關(guān)的,絕大多數(shù)源語言詞都是無關(guān)的。注意力機(jī)制的引入,能夠更好地處理長(zhǎng)距離依賴,提升端到端神經(jīng)機(jī)器翻譯模型的性能。

3.2.3 預(yù)訓(xùn)練模型

遷移學(xué)習(xí)是利用在一個(gè)場(chǎng)景中已經(jīng)學(xué)習(xí)到的內(nèi)容去改善另一個(gè)情景中的泛化情況,預(yù)訓(xùn)練方法屬于遷移學(xué)習(xí)領(lǐng)域的應(yīng)用。使用海量、無標(biāo)簽的數(shù)據(jù)預(yù)先訓(xùn)練模型,使模型學(xué)習(xí)到通用的語言表示。通過學(xué)習(xí)每個(gè)輸入句子中每個(gè)單詞的上下文相關(guān)表示,從而提升下游任務(wù)效果。現(xiàn)如今,優(yōu)異的語言模型基于Transformer[68]構(gòu)建,比如GPT、BERT、RoBERTa、XLNET等。Zhao等人[38]通過改進(jìn)Transformer模型,在注意力模型中使用Copy-Augmented Tarnsformer,即將原句中未改變的單詞復(fù)制到目標(biāo)語句,每條語句需要糾正的僅僅幾個(gè)單詞。基于復(fù)制機(jī)制的Transforner模型能夠判斷復(fù)制還是從詞表空間中生成。研究表明,使用Transformer及其衍生變種模型可能成為下一個(gè)關(guān)鍵技術(shù)。

4 展望和總結(jié)

4.1 展望

目前,基于數(shù)據(jù)驅(qū)動(dòng)的GEC方法面臨諸如需要大量注釋訓(xùn)練數(shù)據(jù)、人工標(biāo)注錯(cuò)誤數(shù)據(jù)消耗昂貴成本等問題。例如,基于規(guī)則的方法完全靠人工編纂糾錯(cuò)規(guī)則;基于統(tǒng)計(jì)的方法能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),但仍需要人工設(shè)計(jì)翻譯過程的隱結(jié)構(gòu)和特征。近年來,GEC領(lǐng)域未來的研究方向可能集中在以下幾個(gè)方面:

(1)模型訓(xùn)練數(shù)據(jù)。通過降低訓(xùn)練的復(fù)雜度,有效地提高模型糾錯(cuò)的質(zhì)量。近期的工作表明[52,69],直接優(yōu)化數(shù)據(jù)增廣方法、合成更加真實(shí)的加躁數(shù)據(jù)可以顯著提升模型的糾錯(cuò)性能。

(2)評(píng)價(jià)指標(biāo)。在GEC評(píng)價(jià)指標(biāo)中,由于存在候選編輯序列對(duì)齊的多樣性及歧義性問題,如何建立視為有效、正確的糾正句編輯集合,從而綜合客觀的評(píng)價(jià)系統(tǒng)的性能具有重要意義。

(3)模型應(yīng)用架構(gòu)。如何設(shè)計(jì)表達(dá)能力更強(qiáng)的新架構(gòu),充分相鄰句子甚至段落級(jí)的上下文語義信息。例如近期提出的BERT、Transformer及其衍生變種可能成為下一個(gè)關(guān)鍵技術(shù)。

4.2 總結(jié)

本文主要梳理了近年來數(shù)據(jù)增廣策略在英語語法糾錯(cuò)過程中的應(yīng)用。首先介紹的GEC領(lǐng)域的背景知識(shí)并探討GEC評(píng)測(cè)指標(biāo)的難點(diǎn)及解決方案。然后,詳細(xì)說明了數(shù)據(jù)增廣方法,最后描述了在GEC領(lǐng)域中的應(yīng)用。文中通過對(duì)評(píng)測(cè)指標(biāo)、數(shù)據(jù)增廣方法、相關(guān)應(yīng)用進(jìn)行橫向?qū)Ρ龋赋隽烁黝惙椒ǖ膬?yōu)缺點(diǎn)。同時(shí),對(duì)數(shù)據(jù)增廣方法、模型架構(gòu)、評(píng)測(cè)指標(biāo)等未來發(fā)展方法進(jìn)行分析,為后續(xù)進(jìn)一步研究提供指導(dǎo)工作。

由于GEC領(lǐng)域沒有單一的評(píng)價(jià)指標(biāo),指標(biāo)的有用性取決于應(yīng)用領(lǐng)域和研究目標(biāo)。其次,主流的基于機(jī)器翻譯的GEC模型對(duì)其在不同錯(cuò)誤類型上的準(zhǔn)確性和覆蓋率,在實(shí)踐中并不完全令人滿意。性能優(yōu)異的模型得益于大量的學(xué)習(xí)者語料數(shù)據(jù)。不幸的是這些數(shù)據(jù)需要大量的專業(yè)知識(shí),構(gòu)建相應(yīng)的語料庫(kù)成本很高,一種有效的數(shù)據(jù)擴(kuò)充方式使GEC的性能進(jìn)一步提高。總之,近年來基于數(shù)據(jù)增廣的英語糾錯(cuò)方法在自然語言處理領(lǐng)域取得重要的成就,具有較高的應(yīng)用價(jià)值和發(fā)展前景。

猜你喜歡
單詞方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
看圖填單詞
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
最難的單詞
主站蜘蛛池模板: 国产超薄肉色丝袜网站| 无码不卡的中文字幕视频| 久久久精品无码一区二区三区| 国产一线在线| 2021最新国产精品网站| 国产成人久久综合一区| 精品一区二区三区水蜜桃| 国产黄视频网站| 99精品在线看| 极品国产在线| 国产精品手机视频| 免费人成又黄又爽的视频网站| 波多野结衣中文字幕一区二区 | 久久一日本道色综合久久| 精品无码国产一区二区三区AV| 美女被躁出白浆视频播放| 免费视频在线2021入口| 成人噜噜噜视频在线观看| 国产99精品视频| 九九香蕉视频| 国产女人在线观看| 91口爆吞精国产对白第三集| 狠狠v日韩v欧美v| 国产草草影院18成年视频| 国产91丝袜在线观看| 色窝窝免费一区二区三区| 无码人妻免费| 美女国内精品自产拍在线播放| 亚洲欧美日韩久久精品| 国产浮力第一页永久地址| 老色鬼久久亚洲AV综合| 最新日韩AV网址在线观看| 国产97视频在线观看| а∨天堂一区中文字幕| 任我操在线视频| 国产精品不卡片视频免费观看| 中文字幕在线看| 欧美日韩成人在线观看| 欧美成人区| 黄色三级网站免费| 又粗又大又爽又紧免费视频| 香蕉在线视频网站| 第一区免费在线观看| 色综合五月婷婷| 丁香六月激情综合| 国产免费怡红院视频| 亚洲国产成人精品青青草原| 亚洲色偷偷偷鲁综合| 日韩欧美亚洲国产成人综合| 久久黄色免费电影| 天天色综网| 69精品在线观看| 一本视频精品中文字幕| 免费A级毛片无码免费视频| 国产原创第一页在线观看| igao国产精品| 久久大香伊蕉在人线观看热2| 亚洲成人网在线播放| vvvv98国产成人综合青青| 91小视频版在线观看www| 日韩a在线观看免费观看| 成年av福利永久免费观看| 国产波多野结衣中文在线播放| 国产永久无码观看在线| 香蕉久久国产精品免| 自拍亚洲欧美精品| 色综合中文综合网| 精品亚洲欧美中文字幕在线看| 91成人免费观看| 四虎国产精品永久一区| 日韩亚洲综合在线| 欧美性爱精品一区二区三区 | 天堂在线www网亚洲| 久久伊人色| 亚洲精品爱草草视频在线| 偷拍久久网| 日韩视频免费| 亚洲an第二区国产精品| 亚洲AV电影不卡在线观看| 色婷婷狠狠干| 亚洲精品色AV无码看| 亚洲无码电影|