999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多策略漢英平行語料的過濾方法研究

2021-06-22 08:32:36張國成王穎敏鐘恩俊江秋怡朱宏康陳毅東史曉東
關(guān)鍵詞:方法模型系統(tǒng)

張國成,王穎敏,鐘恩俊,江秋怡,江 舫,章 棟,朱宏康,陳毅東,史曉東

(廈門大學(xué)信息學(xué)院,福建 廈門 361005)

主流的神經(jīng)機(jī)器翻譯系統(tǒng)需要大量的語料進(jìn)行模型訓(xùn)練,而語料的質(zhì)量很大程度影響了翻譯模型的性能[1],因此對語料進(jìn)行過濾來確保語料質(zhì)量尤為重要.語料過濾的主流方法一般是采用規(guī)則方法、統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法相結(jié)合的策略,其中統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法非常多,如Junczys-Dowmunt[2]提出對偶條件交叉熵(dual conditional cross-entropy),Snchez-Cartagena等[3]從各種打分函數(shù)中學(xué)習(xí)權(quán)重的方法,還有不少研究者試圖從詞嵌入(word embedding)[4-6]角度衡量句對平行程度.

為了解決漢英平行語料中帶噪聲的問題,本文設(shè)計了兩種不同的模式:單系統(tǒng)模式和多系統(tǒng)融合模式.其中單系統(tǒng)分為規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對齊系統(tǒng)、語言模型系統(tǒng)、翻譯模型系統(tǒng)和雙語預(yù)訓(xùn)練模型系統(tǒng).多系統(tǒng)融合則是在單系統(tǒng)的基礎(chǔ)上,將表現(xiàn)優(yōu)異的系統(tǒng)的打分加權(quán)融合,融合的方式有兩種:一種是將得分相加,另一種是將得分相乘,以期獲得優(yōu)異的翻譯性能.

1 系統(tǒng)描述

本文提交的系統(tǒng)所使用的方法可分為3類:規(guī)則方法、統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法,系統(tǒng)的整體架構(gòu)如圖1所示.其中規(guī)則方法主要通過設(shè)計一系列規(guī)則來過濾質(zhì)量明顯不符合要求的語料;統(tǒng)計方法包括Zipporah系統(tǒng)、詞對齊模型和語言模型,通過在大量干凈的語料上統(tǒng)計特征信息達(dá)到過濾目的;神經(jīng)網(wǎng)絡(luò)方法包括翻譯模型和雙語預(yù)訓(xùn)練模型,在干凈的語料上訓(xùn)練得到泛化能力較強(qiáng)的模型,然后對帶噪聲的語料進(jìn)行過濾.最后,根據(jù)不同方法的成績,將表現(xiàn)優(yōu)異的方法加權(quán)融合,得到最終的干凈語料.

圖1 系統(tǒng)架構(gòu)圖Fig.1 System architecture diagram

1.1 規(guī)則方法

Pinnis[7]提出利用句子長度比例、最大句子長度、唯一句子對等過濾方法對語料進(jìn)行過濾.借鑒其工作,本文制定了4條規(guī)則:

1) 長度過濾規(guī)則,源端或目標(biāo)端句子長度超過80個單詞的句對記0分,否則記1分;

2) 長度比限制規(guī)則,源端與目標(biāo)端句子長度比超過1.7的句對記0分,否則記1分;

3) 語種識別規(guī)則,用langid(https:∥github.com/saffsd/langid.py)識別源端和目標(biāo)端語種,語種不正確的句對記0分,否則記1分;

4) 去重規(guī)則,重復(fù)的句對第一次出現(xiàn)記1分,否則記0分.

借助上述4條規(guī)則,針對給定的句對可以得到一個四維特征,每一維的值為0或1.

1.2 統(tǒng)計方法

1.2.1 Zipporah系統(tǒng)

Chaudhary等[8]嘗試將Zipporah(https:∥github.com/hainan-xv/zipporah)作為融合系統(tǒng)的一部分,取得了不錯的成績.Zipporah系統(tǒng)是一種快速且可擴(kuò)展的系統(tǒng),可以從大量嘈雜的數(shù)據(jù)池中選擇任意大小的“好數(shù)據(jù)”,用于神經(jīng)機(jī)器翻譯模型的訓(xùn)練.其原理是:首先將句子映射到特征空間,特征空間包含充分性得分和流利度得分兩個特征;然后使用邏輯回歸進(jìn)行二分類,類別分別是“好數(shù)據(jù)”和“壞數(shù)據(jù)”;最后采用式(1)進(jìn)行歸一化,得到平行程度得分

(1)

其中x為Zipporah系統(tǒng)的得分.

1.2.2 詞對齊模型

Zarina等[9]認(rèn)為非平行句對的詞對齊很少,因此本文考慮利用詞對齊進(jìn)行語料過濾.首先用fast_align(https:∥github.com/clab/fast_align)詞對齊工具在第16屆全國機(jī)器翻譯大會(CCMT 2020)提供的不帶噪聲的漢英平行語料上訓(xùn)練,然后對帶噪聲的語料進(jìn)行預(yù)測,可直接得到句對的詞對齊分?jǐn)?shù).由于在fast_align工具中,詞對齊分?jǐn)?shù)的計算方法是將詞對齊概率進(jìn)行對數(shù)求和,所以句子越長,詞對齊分?jǐn)?shù)越小,意味著系統(tǒng)偏好短句子.為了減少句子長度對詞對齊分?jǐn)?shù)的影響,本文中采用式(2)計算平行程度得分:

(2)

其中,salign為句對的詞對齊分?jǐn)?shù),lsource和ltarget分別為源端和目標(biāo)端句子的長度.

在將句對的詞對齊分?jǐn)?shù)按照式(2)處理后,按照分?jǐn)?shù)從高到低進(jìn)行排序,經(jīng)過統(tǒng)計發(fā)現(xiàn)詞對齊分?jǐn)?shù)大于等于-4.5的句對數(shù)量約為400萬,大約1億個單詞.本文中認(rèn)定這些句對的質(zhì)量較好,它們在歸一化后的分?jǐn)?shù)應(yīng)該較高,于是設(shè)計了式(3)進(jìn)行分?jǐn)?shù)的歸一化:

(3)

1.2.3 語言模型

因?yàn)檎Z言模型可以過濾掉不合語法的數(shù)據(jù),所以本文中考慮使用語言模型對語料進(jìn)行過濾.本文選擇不帶噪聲的語料庫生成語言模型,并利用該語言模型計算待過濾數(shù)據(jù)集的困惑度(perplexity,p)分?jǐn)?shù).

具體地,在不帶噪聲的雙語語料上使用SRILM(https:∥github.com/BitSpeech/SRILM)工具,為漢英語料分別訓(xùn)練一個5元語法(5-gram)語言模型,并使用這個語言模型分別計算待過濾雙語語料中漢英句子的困惑度分?jǐn)?shù).對于得到的漢英句子困惑度分?jǐn)?shù),本文使用了兩個打分策略:句子級困惑度分?jǐn)?shù)和單詞級困惑度分?jǐn)?shù).

為了便于后續(xù)處理,將困惑度分?jǐn)?shù)進(jìn)行歸一化處理.在歸一化操作中,本文基于經(jīng)驗(yàn)設(shè)計了一系列分段函數(shù).

對漢語待過濾語料句子級困惑度分?jǐn)?shù),本文設(shè)計的歸一化的分段函數(shù)如式(4)所示:

(4)

對英文待過濾語料句子級困惑度分?jǐn)?shù),設(shè)計的歸一化分段函數(shù)如式(5)所示:

(5)

另外本文考慮了單詞級的困惑度分?jǐn)?shù),分別計算了漢英數(shù)據(jù)集上每句話的詞平均困惑度分?jǐn)?shù)與整體數(shù)據(jù)集上的詞平均困惑度分?jǐn)?shù),并設(shè)計了兩個分段函數(shù)對兩者的差值進(jìn)行歸一化處理.由于數(shù)據(jù)中存在句子很短但困惑度值非常大的現(xiàn)象,所以本文在計算整體數(shù)據(jù)集的詞平均困惑度分?jǐn)?shù)的時候,忽略了困惑度超過1萬的句子.

對漢語待過濾語料單詞級困惑度分?jǐn)?shù),設(shè)計的歸一化分段函數(shù)如式(6)所示:

(6)

對英文待過濾語料單詞級困惑度分?jǐn)?shù),設(shè)計的歸一化分段函數(shù)如式(7)所示:

(7)

最終,每個平行句對將得到4個特征分?jǐn)?shù).

1.3 神經(jīng)網(wǎng)絡(luò)方法

1.3.1 翻譯模型

基于以下設(shè)想:如果句子a與b是平行句對,那么a與b的語義相似,則將a翻譯成a′時,a′與b的語義仍然相似.Parcheta等[10]先對目標(biāo)端句子進(jìn)行翻譯,然后計算譯文與參考譯文之間的相似度,這種方法得到了更好的翻譯效果.

為實(shí)現(xiàn)上述設(shè)想,首先應(yīng)訓(xùn)練一個英漢翻譯模型,然后利用翻譯模型將英文句子翻譯成對應(yīng)譯文,最后計算譯文與參考譯文之間的相似性.對于相似度計算,本文采用了兩種指標(biāo):基于詞的編輯距離和基于預(yù)訓(xùn)練詞向量的余弦相似度,最終形成2維相似度特征.

1) 模型設(shè)計

根據(jù)上述簡介,若想計算翻譯譯文與參考譯文之間的相似度,首先應(yīng)得到翻譯譯文,因此需要一個翻譯模型.本文采用了清華大學(xué)開源的神經(jīng)機(jī)器翻譯工具THUMT(https:∥github.com/THUNLP-MT/THUMT.git),該系統(tǒng)依賴較少,訓(xùn)練簡便,適合快速訓(xùn)練神經(jīng)機(jī)器翻譯系統(tǒng).

訓(xùn)練集數(shù)據(jù)來源于CCMT 2020漢英翻譯任務(wù)提供的平行語料,對其進(jìn)行分詞和小寫化,并過濾掉長度超過150個單詞的句對,形成約1 000萬對的訓(xùn)練數(shù)據(jù).開發(fā)集為CCMT 2020漢英平行語料過濾任務(wù)指定的開發(fā)集.

主要的訓(xùn)練參數(shù)選擇默認(rèn),并運(yùn)行約20輪,保存開發(fā)集上雙語互譯評估結(jié)果(BLEU)最高的5個模型,然后做模型平均,融合成一個最終模型,方向?yàn)橛ⅰ鷿h,將其記為M0.接著利用M0對帶噪聲的平行句對中的英文句子進(jìn)行解碼,得到對應(yīng)的漢語譯文.

2) 基于詞的編輯距離

該指標(biāo)本質(zhì)上是編輯距離,不過計算兩個句子匹配程度的粒度為詞,而不是單個字符.設(shè)a′與b為兩個分詞后的漢語句子,其中a′為英文源句a的翻譯譯文,那么編輯距離La′,b(|a′|,|b|)可以通過式(8)迭代計算得到.

(8)

在計算過程中,a′看作翻譯譯文,b看作參考譯文,考慮在帶噪聲的數(shù)據(jù)中,作為目標(biāo)端的b不一定與源端相對應(yīng).當(dāng)a與b不對應(yīng)時,a′和b距離較大,認(rèn)為此句對a和b平行程度較差,可以將句對過濾;反之距離較小則意味著翻譯模型給出的譯文和實(shí)際參考之間相似度較高,源句與目標(biāo)端句子的平行程度較高.根據(jù)編輯距離,最終句對的平行程度得分如式(9)所示:

(9)

3) 余弦相似度

由于翻譯模型M0可以將英文源句a翻譯成對應(yīng)漢語譯文a′,所以可以僅借助漢語詞向量計算a′和b之間的語義相似度.本文中之所以不用漢語和英文兩套單獨(dú)的詞向量,是因?yàn)檎Z種差異會造成語義空間的偏差,導(dǎo)致語義相似度計算不準(zhǔn)確.訓(xùn)練漢語詞向量使用的數(shù)據(jù)與機(jī)器翻譯訓(xùn)練集中的漢語端數(shù)據(jù)相同,訓(xùn)練工具采用gensim(https:∥radimrehurek.com/gensim/models/word2vec.html)工具包,訓(xùn)練窗口取5,去掉詞頻低于5的詞,并且考慮到相似計算壓力較大,因此維度取128維,訓(xùn)練10輪,最終保存模型記為M1.

對于a和b句對,a′是a的漢語譯文,那么利用M1,使用余弦函數(shù)即可得到該句對平行程度得分,如式(10)所示:

sa,b=cos(a′,b|M1).

(10)

1.3.2 雙語預(yù)訓(xùn)練模型

考慮到預(yù)訓(xùn)練模型包含大量的語義知識,因此本文利用sentence-BERT(sentence bidirectional encoder representations from Transforment)模型[11]在CCMT 2020給定的漢英單語語料上進(jìn)行微調(diào),分別獲得漢語與英語的句向量.但是通過該方式獲得的句向量可能存在不同語種間向量空間未對齊的問題,即不同語種中意義相同的句子被映射到向量空間中的不同位置.因此評估兩個不同語言的句子之間的平行度時,本文采用馬氏距離平方之比作為度量指標(biāo).

馬氏距離表示數(shù)據(jù)的協(xié)方差距離,是一種計算兩個未知樣本集相似度的有效方法.使用馬氏距離等同于通過數(shù)據(jù)轉(zhuǎn)換的方法,消除樣本中不同特征維度間的相關(guān)性和量綱差異,使得歐式距離在新的分布上能有效度量樣本點(diǎn)到分布的距離.假設(shè)向量x表示均值為μ、協(xié)方差矩陣為Σ的多變量隨機(jī)向量,則其到中心的馬氏距離計算式如(11)所示:

d2(x)=(x-μ)TΣ-1(x-μ)=

(11)

在本文系統(tǒng)中,首先將每個句向量進(jìn)行標(biāo)準(zhǔn)化,使得其服從均值為0的隨機(jī)分布.對于每個已經(jīng)重新中心化的漢英句子向量對(l1,l2),考慮變化空間中的3種情況:

(12)

(13)

(14)

其中e1,e2,e分別表示拼接向量[l1,0],[0,l2],[l1,l2]在馬氏空間中的向量.通過以上3種情況,可以利用下面的馬氏距離平方之比來度量兩種語言句子之間的平行度:

(15)

如果兩個句子具有相同的含義,則該句對在馬氏空間中的向量e的可能性不應(yīng)小于孤立的單個句子e1、e2在馬氏空間中向量的概率,m值越大,兩個句子之間的平行度越高.

最后,將m值進(jìn)行歸一化,利用式(16)來衡量兩個句子之間的平行度:

m′=1-m,

(16)

即m′越小,兩個句子之間的平行度越高.

2 實(shí)驗(yàn)與結(jié)果

2.1 數(shù)據(jù)處理

本文語料過濾系統(tǒng)的開發(fā)集、訓(xùn)練集和測試集分別為來自WMT 2018和WMT 2019的漢英新聞測試集(分別包含3 981句及2 000句原文和對應(yīng)參考譯文)、CCMT 2020不帶噪聲的漢英平行語料(902萬漢英句對)和CCMT 2020帶噪聲的平行語料(3 432萬漢英句對).

其中對漢語語料使用jieba(https:∥github.com/fxsjy/jieba)分詞工具進(jìn)行分詞,對英語語料使用Moses(http:∥statmt.org/moses/)腳本分詞和小寫處理.由于數(shù)據(jù)量過大,防止在解碼時出現(xiàn)顯存溢出問題,所以將小寫后的噪聲數(shù)據(jù)進(jìn)行截斷處理,每一個句子最多保留前256個單詞.同時為了緩解未登錄詞(out of vocabulary,OOV)問題,提高模型對稀有詞和OOV的處理能力,本文中使用基于子詞切分的方法,對漢語語料和英語語料使用字節(jié)對編碼(BPE,https:∥github.com/rsennrich/subword-nmt)進(jìn)行切分.此外,為防止一次性加載并解碼3 400萬句對造成的內(nèi)存緊張和解碼時間過長等問題,本文對帶噪聲的數(shù)據(jù)進(jìn)行切分,每份包含200萬條數(shù)據(jù).最后,去掉長度大于150個單詞的句子,再去掉語種錯誤的句子.

2.2 評測方法

在對帶噪聲的語料打分后,按照得分從高到低進(jìn)行排序從而實(shí)現(xiàn)語料過濾。本文選擇約含1億個詞的平行句對,使用CCMT 2020主辦方指定神經(jīng)機(jī)器翻譯工具M(jìn)arian,將前面所選擇的平行句對作為訓(xùn)練集,在Marian上進(jìn)行訓(xùn)練,然后在CCMT 2020主辦方指定測試集上進(jìn)行測試,使用機(jī)器翻譯領(lǐng)域常用的BLEU指標(biāo)作為評價指標(biāo)以評測過濾語料的質(zhì)量(結(jié)果見2.3和2.4節(jié))。

最終參賽者需向CCMT 2020主辦方提供1億個詞和5億個詞的兩份過濾后的語料,CCMT 2020主辦方將參賽者提交的語料作為訓(xùn)練集,使用Marian工具訓(xùn)練,保證訓(xùn)練過程中所有參數(shù)一致,在指定測試集上進(jìn)行測試,以此作為參賽者最終成績(結(jié)果見2.5節(jié))。

2.3 單系統(tǒng)實(shí)驗(yàn)

由于各個系統(tǒng)之間無依賴關(guān)系,所以可以并行進(jìn)行各個系統(tǒng)的實(shí)驗(yàn).具體地,選定規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對齊系統(tǒng)、翻譯模型系統(tǒng)、語言模型系統(tǒng)、雙語預(yù)訓(xùn)練模型系統(tǒng)這6個作為基礎(chǔ)系統(tǒng),分別依據(jù)每個系統(tǒng)對帶噪聲數(shù)據(jù)的打分從高到低進(jìn)行排序.需要注意的是,若有些系統(tǒng)有多個打分,則各個分?jǐn)?shù)相加或各個分?jǐn)?shù)相乘求綜合得分,權(quán)重均是1.0.再使用CCMT 2020提供的機(jī)器翻譯工具M(jìn)arian訓(xùn)練神經(jīng)機(jī)器翻譯系統(tǒng),計算開發(fā)集上的翻譯結(jié)果與參考譯文之間的BLEU值.根據(jù)每個系統(tǒng)對應(yīng)BLEU值的高低選擇優(yōu)勢特征,嘗試在優(yōu)勢特征之間組合,得到更優(yōu)的排序.

受計算資源限制,本文對每個系統(tǒng)只訓(xùn)練10輪,取開發(fā)集上最高的BLEU值作為該系統(tǒng)的最終成績.每個系統(tǒng)的成績參考表1.其中,隨機(jī)系統(tǒng)將數(shù)據(jù)隨機(jī)打亂,同樣采樣1億個單詞的平行語料,隨機(jī)系統(tǒng)0只對數(shù)據(jù)隨機(jī)打亂1次,隨機(jī)系統(tǒng)1對數(shù)據(jù)隨機(jī)打亂5次.此外,為探究領(lǐng)域?qū)Τ煽兊挠绊懀疚膹牟粠г肼暤钠叫姓Z料中采集了1 409條漢語新聞樣本和1 434 條漢語非新聞樣本,從中劃分出200條新聞和200條非新聞作為開發(fā)集,訓(xùn)練一個基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的領(lǐng)域二分類器.從表1可以看出,各系統(tǒng)成績相差較大.隨機(jī)系統(tǒng)1的結(jié)果甚至超過了大部分的系統(tǒng);最好的是基于翻譯模型的譯文與參考的相似度指標(biāo);領(lǐng)域分類器效果最差,這是因?yàn)轭I(lǐng)域分類器主要用來選擇新聞?wù)Z料,而結(jié)果表明測試集中新聞?wù)Z料占比可能不高,從而導(dǎo)致表現(xiàn)較差.注意到翻譯模型過濾后的語料中排名靠前的句子對句長并不是非常敏感,因此大量長度適中的句子都有希望排到前面,而其他系統(tǒng)得分都傾向于短句優(yōu)先.規(guī)則系統(tǒng)雖然能無差別對待長句和短句,但由于無法衡量平行程度,所以在獨(dú)自發(fā)揮作用時效果并不突出.

表1 各單系統(tǒng)對應(yīng)的BLEU值Tab.1 BLEU values for each system %

將領(lǐng)域分類器用于帶噪聲數(shù)據(jù)的測試,并將新聞數(shù)據(jù)的預(yù)測概率作為得分.其中領(lǐng)域二分類器性能參考表2,可以看到該分類器性能較高,但從表1中可以看到,基于該分類器的翻譯性能很低,因而可以認(rèn)為在此任務(wù)中,領(lǐng)域?qū)Ψg模型的影響并不大.因此該分類器僅用做驗(yàn)證,本文并未將其納入到最終的系統(tǒng)中.

表2 基于CNN的領(lǐng)域二分類器性能Tab.2 Performance of two field classifier based on CNN %

2.3 多系統(tǒng)融合實(shí)驗(yàn)

結(jié)合表1的結(jié)果,本文中認(rèn)為翻譯模型系統(tǒng)、詞對齊模型系統(tǒng)、語言模型系統(tǒng)以及雙語預(yù)訓(xùn)練模型系統(tǒng)是潛力相對較大的系統(tǒng),因此優(yōu)先對這些系統(tǒng)之間的組合進(jìn)行融合測試.多系統(tǒng)融合的方法相對比較簡單,即將各系統(tǒng)的打分進(jìn)行融合,然后再重新排序.融合的方法有2種:按權(quán)重相乘、按權(quán)重相加.大部分情況下,僅嘗試了權(quán)重均為1.0的融合.表3展示了部分實(shí)驗(yàn)結(jié)果,可以看到融合系統(tǒng)總體上成績超過單系統(tǒng)成績,而且相乘的方法總體優(yōu)于加法.融合系統(tǒng)成績更好的主要原因是因?yàn)椴煌到y(tǒng)從不同出發(fā)點(diǎn)對句對平行程度進(jìn)行度量,所以多系統(tǒng)融合后能對句對有更全面評價,這也表明了方法融合的有效性.

表3 部分系統(tǒng)融合的結(jié)果Tab.3 Partial system integration results %

2.4 提交系統(tǒng)

實(shí)驗(yàn)發(fā)現(xiàn)并不是集成的系統(tǒng)越多成績就越好,經(jīng)過大量測試,發(fā)現(xiàn)“1,3,4”組合的魯棒性和BLEU值都較高,考慮到系統(tǒng)復(fù)雜性,本文選擇“1,3,4”組合作為主系統(tǒng),又因規(guī)則方法在WMT 2018和WMT 2019語料過濾任務(wù)中被證明為提升翻譯性能的有效手段,且預(yù)訓(xùn)練模型在語義提取上具有優(yōu)勢,因此選擇“1,2,3,4,6”組合作為副系統(tǒng).最終評測結(jié)果見表4,可見本文提交的主系統(tǒng)system2綜合排名第二,在除IWSLT2020數(shù)據(jù)集外均排名第一.由于IWSLT2020數(shù)據(jù)集是口語語料,新聞?wù)Z料和口語語料有一定領(lǐng)域差異,導(dǎo)致該系統(tǒng)在IWSLT2020數(shù)據(jù)集上表現(xiàn)不佳,這也表明訓(xùn)練領(lǐng)域會影響過濾結(jié)果.

表4 最終評測結(jié)果Tab.4 Final evaluation result %

3 總結(jié)與展望

本文設(shè)計并實(shí)現(xiàn)了規(guī)則方法、統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法三類方法對漢英平行語料進(jìn)行過濾,并將多種方法融合來對噪聲語料進(jìn)行過濾.最終實(shí)驗(yàn)結(jié)果表明:相比于單系統(tǒng),改進(jìn)的按權(quán)重相乘的多系統(tǒng)融合方法在測試集上取得了較好的結(jié)果,同時,在最終的5組評測結(jié)果中,本文提交的系統(tǒng)綜合排名第二,在多個數(shù)據(jù)集上排名第一,對語料過濾研究具有一定的參考價值.

在未來的工作中,可以從兩個方向做進(jìn)一步嘗試:一是挖掘更可靠的特征來區(qū)分高質(zhì)量和低質(zhì)量的語料;二是將針對特征組合方式做進(jìn)一步的優(yōu)化調(diào)整,如引入機(jī)器學(xué)習(xí)模型自動學(xué)習(xí)最優(yōu)權(quán)重組合.

猜你喜歡
方法模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 免费又爽又刺激高潮网址| 一本综合久久| 免费在线色| 亚洲天堂网在线视频| 伊人久久婷婷| 999国内精品视频免费| 日韩欧美高清视频| 国产区网址| 秋霞一区二区三区| 这里只有精品在线播放| 欧美午夜视频在线| jizz在线免费播放| 国产欧美视频在线观看| 午夜一级做a爰片久久毛片| 人人爽人人爽人人片| 国产精品久久自在自线观看| 国产又大又粗又猛又爽的视频| 国产综合在线观看视频| 真实国产乱子伦高清| 欧美色图第一页| 欧美成人午夜在线全部免费| 亚洲中文字幕久久精品无码一区| 亚洲天堂免费在线视频| 日韩精品一区二区三区大桥未久| 青青热久麻豆精品视频在线观看| 一级全黄毛片| 亚洲日本中文字幕乱码中文| a天堂视频在线| 成人av专区精品无码国产 | 中文字幕日韩欧美| 国内精品久久久久久久久久影视| 666精品国产精品亚洲| 免费日韩在线视频| 五月激激激综合网色播免费| 免费观看欧美性一级| 国产日本欧美亚洲精品视| 一级毛片基地| 四虎永久在线视频| 欧美午夜在线视频| 亚洲天堂在线视频| 日本免费一区视频| 全免费a级毛片免费看不卡| 国产高清在线观看91精品| 日韩第一页在线| 日韩精品一区二区三区免费| 久青草国产高清在线视频| 天天躁日日躁狠狠躁中文字幕| 亚洲日本韩在线观看| 99热国产在线精品99| 精品伊人久久久香线蕉| 国产福利小视频高清在线观看| 一本一道波多野结衣一区二区| 精品国产网| 亚洲最大情网站在线观看| 2021最新国产精品网站| 无码日韩人妻精品久久蜜桃| 丁香五月激情图片| 成人福利在线看| 日韩美毛片| 尤物在线观看乱码| 久久久受www免费人成| 九九热视频精品在线| 国产尹人香蕉综合在线电影| 毛片三级在线观看| 亚洲欧洲日韩综合色天使| 国产欧美成人不卡视频| 99精品视频九九精品| 欧美精品在线视频观看| 又黄又湿又爽的视频| 欧美不卡视频在线观看| 免费高清毛片| 精品成人一区二区| 国产美女91视频| 99re经典视频在线| 欧美精品高清| 免费人成在线观看成人片| 欧美成人一区午夜福利在线| 激情综合五月网| 成人国产精品2021| 日本免费福利视频| 亚洲人成在线免费观看| 国产男女免费视频|