999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

句對齊研究綜述

2021-10-12 04:39:06黃佳躍熊德意
中文信息學(xué)報 2021年8期
關(guān)鍵詞:方法模型

黃佳躍,熊德意

(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 江蘇 蘇州 215006)

0 引言

機器翻譯(Machine Translation, MT)是一門研究通過計算機實現(xiàn)人類翻譯任務(wù)的學(xué)科,其在自然語言處理、人工智能領(lǐng)域中占有非常重要的地位。當(dāng)下,機器翻譯任務(wù)不僅在學(xué)術(shù)界得到了廣泛的研究,工業(yè)界也有許多大型公司如谷歌、微軟、百度在機器翻譯的產(chǎn)品落地上投入巨資,并取得了鼓舞人心的效果,越來越多的人使用在線機器翻譯系統(tǒng)跨越語言障礙進行交流。當(dāng)前機器翻譯領(lǐng)域的主流模型是神經(jīng)機器翻譯(Neural Machine Translation, NMT)模型,與傳統(tǒng)的統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)模型不同,它基于編碼器-解碼器框架實現(xiàn)翻譯任務(wù),并在雙語平行語料充足的多種語言對的翻譯任務(wù)上性能顯著超過了傳統(tǒng)的統(tǒng)計機器翻譯模型,甚至在“中-英”新聞領(lǐng)域翻譯任務(wù)上取得了接近人類翻譯的水準(zhǔn)[1]。

然而,對于某些雙語平行語料匱乏的低資源(low-resource)語言對的翻譯任務(wù),其翻譯質(zhì)量依舊不敵傳統(tǒng)的統(tǒng)計機器翻譯模型[2]。由此可見,擁有大量雙語平行語料能使神經(jīng)機器翻譯模型在訓(xùn)練的過程中學(xué)習(xí)到更精確的翻譯信息。句對齊任務(wù)作為一種獲取雙語平行語料的研究任務(wù),也因此得到廣泛的研究。

雙語平行語料不僅在機器翻譯模型的訓(xùn)練上扮演著重要角色,在雙語詞典編纂、術(shù)語研究應(yīng)用、跨語言信息檢索等方面也有很強的應(yīng)用性。在術(shù)語應(yīng)用方面,如果翻譯人員發(fā)現(xiàn)待翻譯的句子中含有不熟悉的術(shù)語,針對該術(shù)語的翻譯可能就成為一個棘手的問題,此時雙語平行語料可輔助翻譯人員進行術(shù)語檢索,供翻譯人員參考相應(yīng)術(shù)語進行翻譯。例如,當(dāng)一個對物理領(lǐng)域一竅不通的翻譯人員要翻譯“magnetic fields”這一術(shù)語時,由于缺少物理領(lǐng)域方面的專業(yè)知識,且考慮到“field”和“area”有相同的釋意,在不借助輔助工具的情況下,翻譯人員有可能就誤認(rèn)為其與“magnetic areas”表述的意思相同,將其翻譯為“磁地區(qū)”,顯然有失專業(yè)水準(zhǔn)。而當(dāng)擁有“中-英”雙語平行語料時,翻譯人員則從雙語平行句對中檢索“magnetic fields”一詞的慣常翻譯,便可準(zhǔn)確地對其進行翻譯,解決翻譯過程中困擾心頭的術(shù)語翻譯問題。

早期的雙語平行句對大多來自于國際會議機構(gòu),這些國際會議機構(gòu)往往使用多種語言表述會議新聞內(nèi)容,獲取雙語平行語料通常由人工對齊或根據(jù)比較規(guī)范的會議文檔進行簡單而高效的句對齊。例如,BAF語料庫[3]是由加拿大政府研究實驗室的研究人員根據(jù)加拿大議會的辯論稿、法庭謄本以及一些聯(lián)合國報告等進行句子級別的人工對齊得到的“英語-法語”雙語平行語料庫;Europarl語料庫[4]則是根據(jù)句子中的關(guān)鍵信息(如數(shù)值)以及句子長度信息對歐洲議會議事錄(Proceedings of the European Parliament)的雙語文本進行句對齊。相應(yīng)的雙語文本(早期共含有11種語言的文本)可通過爬取歐洲議會(European Parliament)網(wǎng)站中的文本得到,通常議會文本格式規(guī)范且段落篇幅較短,且雙語平行文檔間大多數(shù)句子依據(jù)前后順序一一對應(yīng),根據(jù)句長信息即可實現(xiàn)高質(zhì)量的句對齊。此外,還有各種公開數(shù)據(jù)集,如OPUS項目[5]免費提供了多領(lǐng)域、多種語言類別的平行語料,大部分平行語料來源于歐盟和其他聯(lián)合機構(gòu)的法律和行政文本,也有部分來源于新聞文本以及各種線上網(wǎng)絡(luò)資源,如電影字幕標(biāo)題文本、維基百科上保存的各個領(lǐng)域的文本等,該項目也支持用戶線上上傳相關(guān)的雙語平行語料,使得該語料庫得到不斷擴充。隨著在詞對齊、句對齊任務(wù)上的不斷進步,雙語平行語料的數(shù)量也逐漸增加。

本文組織結(jié)構(gòu)為: 第1節(jié)簡單介紹句對齊任務(wù);第2節(jié)介紹句對齊評測標(biāo)準(zhǔn);第3節(jié)介紹句對齊任務(wù)的研究進展;第4節(jié)介紹句對齊相關(guān)任務(wù)及相關(guān)方法取得的對齊效果;第5節(jié)進行未來展望與總結(jié)。

1 句對齊任務(wù)

句對齊技術(shù)是從候選的雙語句對中獲取兩兩互為翻譯的平行句對的技術(shù)。假設(shè)源語言端對應(yīng)的文本的句子集合為S=(s1,s2,…,sn),目標(biāo)語言端對應(yīng)的文本的句子集合為T=(t1,t2,…,tm),由兩個語言端文本對應(yīng)的句子集合做笛卡爾乘積即可構(gòu)成n*m對候選的雙語句對。假設(shè)源語言端的第i個句子si與目標(biāo)語言端的第j個句子tj互為翻譯,則si與tj構(gòu)成一對平行句對。句對齊任務(wù)的目標(biāo)即從n*m對候選雙語句對中將非平行句對過濾掉,并找出所有互為翻譯的平行句對。

句對齊的實現(xiàn)過程意味著需要識別源端和目標(biāo)端句子的語義并判斷語義是否相同,這與機器翻譯任務(wù)有一定程度的相似之處。用計算機實現(xiàn)智能語義理解具有很高的難度。此外,在句對齊任務(wù)中,當(dāng)源端和目標(biāo)端單語句數(shù)眾多時,通過笛卡爾乘積構(gòu)成的n*m組雙語候選句對的數(shù)量也將會非常大,句對齊任務(wù)因此也需要消耗更多的計算資源與計算時間。假設(shè)源端句子數(shù)量n和目標(biāo)端句子數(shù)量m都呈現(xiàn)線性增長趨勢,則雙語候選句對數(shù)n*m將會呈現(xiàn)指數(shù)型增長趨勢。

為了快速、高效地實現(xiàn)句對齊,在實際的句對齊過程中往往會先限定源端和目標(biāo)端單語語料的數(shù)量,將n和m限定在一定數(shù)量的范圍之內(nèi)。為了盡可能避免因限定源端、目標(biāo)端單語語料的數(shù)量后造成平行句對的漏配,限定源端和目標(biāo)端單語語料時還要求限定的單語語料中盡可能多地包含互為翻譯的平行句對。因此句對齊過程往往是從雙語平行文檔或可比語料(comparable corpora)中抽取雙語平行句對。

雙語平行文檔即互為翻譯的文檔,通俗地講,就是“用兩種不同語言表達同一個意思的文檔”。盡管文檔整體上表達的是相同語義,但由于不同語言的獨特性,表達相同語義的文檔間的句子也并非在邏輯順序上一一對應(yīng),源端文檔的一個句子可能與目標(biāo)端的兩個或更多個句子對應(yīng),也可能會出現(xiàn)倒裝、省略等情況。可比語料(comparable corpora)即表述同一個主題的雙語文檔,雖然可比語料互為翻譯的程度不如雙語平行文檔,但由于都是表述同一個具體的主題,文檔間往往也包含不少的互為翻譯的信息,如互為翻譯的句子、互為翻譯的語句片段(單詞、詞組、專有名詞等)。

由于雙語平行文檔和可比語料之間的天然特性,很恰當(dāng)?shù)胤狭司鋵R任務(wù)中限定源端和目標(biāo)端的單語句子數(shù)量,且使得限定的范圍內(nèi)盡可能多地包含互為翻譯的雙語平行句對,因此在句對齊的實際應(yīng)用中,往往是在雙語平行文檔或可比語料基礎(chǔ)上進行。如早在1991年Gale和Church[6]就提出基于句長信息從雙語平行文檔中獲取雙語平行語料。且1998年Resnik[7]就提出根據(jù)url鏈接匹配和HTML網(wǎng)頁結(jié)構(gòu)信息從互聯(lián)網(wǎng)中獲取雙語平行文檔或可比語料。

2 句對齊評測標(biāo)準(zhǔn)

句對齊任務(wù)的主要目的是從源端和目標(biāo)端單語語料中抽取出互為翻譯的平行句對。假設(shè)m個源端句子和n個目標(biāo)端句子中含有x對相互平行的句對。通常分以下兩種情況進行句對齊評測。

1)x已知

在x已知的情況下,可根據(jù)準(zhǔn)確率P(Precison)、召回率R(Recall)和F1值來衡量句對齊的效果。其中,P、R、F1值的計算如式(1)~式(3)所示。

其中,TP(True Positive)表示句對齊模型認(rèn)為是且實際上也是相互平行的句對數(shù);FP(False Positive)表示句對齊模型認(rèn)為是相互平行但實際上是非平行的句對數(shù);FN(False Negative)表示實際上相互平行但句對齊模型認(rèn)為是非相互平行的句對。由公式的定義可以看出,P值衡量句對齊模型抽取出的句對中正確的比率,即衡量句對齊模型抽取的準(zhǔn)確度;R值衡量句對齊模型抽取出的真正平行的句對數(shù)占總平行句對數(shù)的比率,即衡量句對齊模型抽取的全面程度。如果僅僅追求準(zhǔn)確度(即提高P值),則可通過提高抽取的標(biāo)準(zhǔn)(抽取出的句對數(shù)也相應(yīng)減少),使得抽取出的句對中真正正確的比率顯著提高,此時R值會相應(yīng)地降低;如果僅僅為了追求抽取的全面程度(即提高R值),則可通過降低抽取的標(biāo)準(zhǔn)(抽取的句對數(shù)也相應(yīng)增多),使得真正的平行句對也被大量地抽取出來,此時P值會相應(yīng)地降低。因此,僅僅考慮P值或R值不足以全面衡量句對齊模型的綜合性能。于是有了F1值,從公式定義中可看出,該值綜合考慮了P值和R值,是P和R的調(diào)和平均數(shù)。通過F1值可較好地衡量句對齊模型的綜合性能。

2)x未知

在x未知(即源端和目標(biāo)端單語中雙語平行句對的數(shù)量未知)的情況下,通常采用間接的方式衡量句對齊模型的性能。如將獲取到的平行句對應(yīng)用到機器翻譯模型的訓(xùn)練中,并通過評測機器翻譯模型的性能指標(biāo)間接評測句對齊模型。

機器翻譯模型的性能通常由BLEU(Bilingual Evaluation Understudy)[8]指標(biāo)衡量。BLEU是由IBM在2002年提出的一種基于精確度的相似性度量方法,廣泛應(yīng)用于機器翻譯領(lǐng)域的譯文自動評測;它的基本觀點是越接近人工翻譯的譯文,其翻譯質(zhì)量越高。具體算法描述如下: 假設(shè)待翻譯句子為si,候選譯文為ti,參考譯文集為Ri={ri1,ri2,…,riM},n-grams[9]為n個單詞長度的詞組集合,令wj表示第j組n-grams,hj(ti)表示wj在候選譯文ti中出現(xiàn)的次數(shù),hj(rik)表示wj在參考譯文rik中出現(xiàn)的次數(shù),則候選譯文和參考譯文的重合精度可由式(4)計算得到。

(4)

其中,i表示的是評測集中句子的序號,j表示的是n-grams中單詞組的序號,M表示的是參考譯文的數(shù)量。

除了計算候選譯文的n-grams精確度之外,研究者還引入了BP懲罰因子,以此調(diào)節(jié)候選譯文相對于參考譯文的完整性和充分性。懲罰因子如式(5)所示。

(5)

其中,lt表示候選譯文t的長度,lr表示參考譯文r的長度。通過引入懲罰因子,候選譯文的最終評測結(jié)果如式(6)所示。

(6)

3 句對齊任務(wù)的研究進展

本節(jié)介紹面向神經(jīng)機器翻譯句對齊任務(wù)的相關(guān)研究進展。

早期針對句對齊任務(wù)的研究往往依賴于句子間簡單的特征,如句長信息特征;隨著研究的不斷深入,句對齊過程中使用到的特征也隨之增加,如基于雙語詞典的雙語詞對照特征、同源詞特征等基于文本內(nèi)容的特征;隨著深度學(xué)習(xí)在各個領(lǐng)域不斷地取得突破,基于神經(jīng)網(wǎng)絡(luò)的句對齊方法隨之得到廣泛的研究,并且取得了很好的句對齊效果。本節(jié)將從傳統(tǒng)的基于特征工程的句對齊、基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督式句對齊和無監(jiān)督句對齊三個方面介紹句對齊任務(wù)的研究取得的進展。

3.1 基于特征工程的句對齊

基于特征工程的句對齊方法主要是基于“平行與非平行的雙語句對之間的特定特征存在著顯著差異性”這一思想,從雙語句對之間抽取出相應(yīng)的特征,并依據(jù)已有數(shù)據(jù)的已知特征訓(xùn)練相應(yīng)的判別模型,使得模型能根據(jù)句對的特征判別其是否為平行句對。

3.1.1 基于句長特征的句對齊

早期的句對齊任務(wù)通常結(jié)合以句子長度為主要特征的特征工程從雙語平行文檔中進行句對齊。

早在1991年,Gale和Church[6]就基于“句子長度較長的源端句子往往被翻譯為較長的目標(biāo)端句子,較短的源端句子也往往被翻譯為較短的目標(biāo)端句子”這一事實,提出使用基于句子長度特征的概率統(tǒng)計模型從雙語平行文檔中進行句對齊,該方法最初用于從加拿大議會平行文檔中實現(xiàn)句對齊,由于該平行文檔內(nèi)容規(guī)范,且文檔段落相對簡短,僅僅根據(jù)句長特征也取得了很好的對齊效果。隨后,Simard等人[10]指出Gale 和Church提出的基于句長特征的對齊算法之所以能取得較好的對齊效果,是因為其僅僅解決簡單的對齊任務(wù);當(dāng)對齊任務(wù)變得復(fù)雜時,如源端或目標(biāo)端文檔存在對某一句的翻譯省略且后續(xù)句子與原翻譯句子的長度特征類似時,很可能由于一處的誤匹配導(dǎo)致后續(xù)匹配的錯誤率上升。作者表示使用少量的語言學(xué)知識可以有效避免此類錯誤的產(chǎn)生,并提出使用同源詞(cognates)作為該語言學(xué)知識來改進句對齊效果,同時提出一種簡單高效的同源詞自動構(gòu)建方法。

3.1.2 融入雙語詞組對照特征的句對齊

句長特征在句對齊任務(wù)上起著舉足輕重的作用,但僅僅依據(jù)句長特征并非總是可靠,特別是對含有較大噪聲的雙語平行文檔進行句對齊時;因此開始出現(xiàn)基于雙語詞典的句對齊方法。

Wu[11]和Moore[12]開始基于雙語詞典的詞對照特征進行句對齊。與Wu提出的方法不同的是,Moore采用的方法中使用到的雙語詞典由雙語平行語料自動構(gòu)建得到: 首先使用平行語料訓(xùn)練IBM Model-1模型[13],通過該模型構(gòu)建出雙語詞表。Varga等人[14]提出的“Hunalign”句對齊算法則在Moore方法的基礎(chǔ)上,為含有足夠高比例的相同數(shù)字字符的雙語句對附加一個獎勵項分值,使得平行得分更高,研究表明該方法針對法律平行文檔進行句對齊時效果尤為明顯。Munteanu[15]則結(jié)合已有的平行語料自動構(gòu)建雙語詞表,并根據(jù)已有雙語平行句對的長度、長度比、長度差及基于雙語詞表的詞重疊率等特征訓(xùn)練最大化交叉熵分類器,使用該分類器判斷一組雙語句對是否平行。

與此前基于雙語詞典的句對齊方法不同的是,Ma[16]提出的“Champollion”方法為不同的雙語對照詞組動態(tài)賦予不同的權(quán)重。該方法基于這樣的一個事實: 文檔中出現(xiàn)越頻繁的雙語詞組在雙語句對平行與否的判別中的重要性相對較低;而出現(xiàn)頻率低的雙語詞組的重要性則更高,因此提出基于TF-IDF算法為文檔中出現(xiàn)頻率低的雙語詞組賦予更高的權(quán)重,并使用動態(tài)規(guī)劃算法允許存在“1-0”“1-1”“1-2”“2-1”“2-2”“3-1”“1-3”“4-1”“1-4”多種對齊類型(其中“n-m”表示源端的連續(xù)n個片段與目標(biāo)端的連續(xù)m個片段組成雙語平行句對)。隨后,Li等人[17]表示Champollion方法使用動態(tài)規(guī)劃算法的時間復(fù)雜度為O(n2),當(dāng)源端和目標(biāo)端文檔增大時,會嚴(yán)重影響對齊效率,并采取特定方式將待對齊的平行文檔切分成多組小的平行片段再進行對齊,提高總體的對齊效率。

3.1.3 結(jié)合擴充雙語詞表的句對齊

先前使用的固定雙語詞表很難覆蓋雙語中的所有詞對照特征,于是開始有研究者利用詞性對照特征或結(jié)合機器翻譯模型或其他技巧對原有雙語詞典的詞對照特征進行擴充實現(xiàn)句對齊。

Adafre和Rijke[18]提出基于雙語詞表或機器翻譯模型的方法從維基百科語料庫中抽取平行語料(VIC方法)。值得注意的是,基于雙語詞表的方法中使用的雙語詞表是根據(jù)維基百科頁面上特定名詞對應(yīng)的超文本鏈接結(jié)構(gòu)推導(dǎo)而得到的;維基百科網(wǎng)頁文檔包是一種超文本文檔,文檔中的特定的詞條(名詞實體、專有名詞等)含有相應(yīng)的超鏈接,指向?qū)υ撛~條進行解釋說明的頁面;不同語言版本的相同網(wǎng)頁描述也包含著超鏈接,對應(yīng)的超鏈接頁面也有相應(yīng)的詞條描述超鏈接,根據(jù)這些超鏈接的結(jié)構(gòu)特征,即可推導(dǎo)出相應(yīng)詞條的不同語言表述,從而獲取詞條的雙語對照信息;通過該方式獲得的雙語詞表大多都是人名或?qū)嶓w名稱,在進行雙語文本對照時擁有更顯著的優(yōu)勢。 基于機器翻譯模型的方法則使用在線免費的機器翻譯模型。兩種方法都是將源端句子翻譯為目標(biāo)端句子,計算杰卡德相似系數(shù)(Jaccard similarity coefficient)以衡量雙語句對的相似性。 隨后,Mohammadi等人[19]使用與Adafre和Rijke相同的方法并在該方法的基礎(chǔ)上增加雙語文本之間的長度相關(guān)特征作為約束條件對原先的句對齊結(jié)果進行過濾,并取得更好的效果。

前人提出的句對齊工具基本都針對不同的平行文檔或可比語料進行句對齊,對齊效果各異。Sennrich[20]指出,先前的工具都難以在難對齊(噪聲大)的平行文檔中取得較好的對齊效果,并提出一個基于機器翻譯和BLEU值評價指標(biāo)的對齊方法(Bleualign),將源端句子翻譯成偽目標(biāo)端句子并計算與候選目標(biāo)端句子的BLEU值,將該值作為相似度得分,進而判斷其是否平行。該方法嚴(yán)重依賴于翻譯模型的翻譯質(zhì)量,當(dāng)缺少翻譯質(zhì)量良好的翻譯模型時,該對齊方式可能還不如Gale和Church[6]提出的基于句長特征的對齊算法。Rauf等人[21]則先采用基于句長特征的對齊方法獲取得到平行語料,再使用得到的平行語料訓(xùn)練出統(tǒng)計機器翻譯模型(SMT),接著使用Bleualign對齊方法進行句對齊。與Bleualign方法相比,該方法不需要預(yù)先擁有一個翻譯模型,但同樣有其缺點: 當(dāng)錯誤對齊的句子應(yīng)用到SMT的訓(xùn)練中時,可能會導(dǎo)致錯誤的對齊信息傳遞到后續(xù)的對齊步驟中。

Kutuzov[22]提出采用基于詞性標(biāo)注(Part-Of-Speech tagging,POS-tagging,即名詞、動詞、形容詞、代詞等)的對齊方法改善Varga等人[14]提出的Hunalign方法的對齊效果。該方法基于這樣的事實: 互為翻譯的平行句對中相應(yīng)的POS及其對應(yīng)的順序有某種程度上的相似之處。具體地,該方法首先用Hunalign方法得到初始對齊結(jié)果;接著對初始對齊的雙語句對進行詞性標(biāo)注,用不同的字符標(biāo)簽表示不同的詞性標(biāo)注結(jié)果,將雙語句對轉(zhuǎn)換為一個由詞性標(biāo)注結(jié)果組成的字符串,最后計算兩個字符串的編輯距離以衡量字符串間的相似度。實驗結(jié)果表明該方法取得一定的效果,但也會出現(xiàn)一些誤判。

Etchegoyhen和Azpeitia[23]提出基于擴充的雙語詞組對照特征并采用杰卡德相似系數(shù)(Jaccard similarity coefficient)衡量雙語句對的相似性的句對齊方法(STACC)。該方法首先使用GIZA++ 工具[24]和IBM model-1模型[13]從已有的少數(shù)平行語料中獲取雙語詞表,并采用字符串最長公共前綴匹配算法(LPC,longest common prefix matching)將源端和目標(biāo)端中含有n個相同字符前綴的單詞擴充到原有雙語詞表中,同時,將經(jīng)過預(yù)處理(tokenize、truecase)后的平行語料中兩端字母大寫的單詞依然不存在雙語詞表中的詞組及相同的數(shù)值類型單詞(如時間類型數(shù)值)加入詞表中使得詞表得到擴充。隨后Azpeitia等人[25]在該方法的基礎(chǔ)上做出改進: 結(jié)合詞頻為擴充的詞表中的每一對詞組賦予一個范圍為0到1的權(quán)重,進一步改進句對齊結(jié)果。

3.2 基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督式句對齊

基于特征工程的句對齊方法的特征提取過程往往相對繁瑣且不能保證提取到的特征足夠準(zhǔn)確、全面。如雙語詞組對照特征往往不能準(zhǔn)確、全面地覆蓋所有詞的一詞多義特性,且該特征通常不能考慮句子中的詞序特征。不同于基于特征工程的方式,基于神經(jīng)網(wǎng)絡(luò)的句對齊方式由神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程自動地對相應(yīng)的特征進行提取,盡可能地避免繁瑣的特征工程。

3.2.1 基于詞向量拼接的句子向量化表征

Bouamor和Sajjad[26]提出使用句子向量化表征結(jié)合機器翻譯或者分類器模型進行句對齊(“H2”方法): 首先,使用multivec(1)https://github.com/eske/multivec開源工具結(jié)合已有雙語平行語料訓(xùn)練得到源端和目標(biāo)端的雙語詞向量,使得互為翻譯單詞的詞向量的余弦相似度比較接近。源端和目標(biāo)端的句向量則由相應(yīng)的詞向量累加求平均得到;得到句子向量化表征后,通過余弦相似度獲取與源端最相似的top-N個目標(biāo)端候選句子,其余的則過濾掉。接著,使用神經(jīng)機器翻譯模型將源端句子翻譯為目標(biāo)端句子,并將翻譯結(jié)果與候選的目標(biāo)端句子進行配對并計算其BLEU值,將BLEU值得分最高且不低于50的句對視為平行句對。

3.2.2 基于神經(jīng)機器翻譯模型的句子向量化表征

以上方法雖然得到了雙語句向量,但句向量的構(gòu)建過程比較粗糙,在句對齊任務(wù)中也僅僅是作為過濾器使用。Schwenk和Douze[27]提出基于神經(jīng)機器翻譯架構(gòu)的多語句子向量化表征模型。機器翻譯模型的訓(xùn)練依賴于平行語料,通常針對源端句子編碼形成句向量。為得到多語句向量,作者使用UN語料庫[28]中6個語言間都相互平行的語料(6-way parallel corpora, fr-en-es-ru-ar-zh),訓(xùn)練一個mini-batch時,將一個源端(如en)句子作為輸入進行編碼,并嘗試將其解碼為多個語言的目標(biāo)端(fr、es、ru)句子;一個mini-batch訓(xùn)練完成后,將原來的源端(en)句子替換為其他語言(如fr)所屬句子,并嘗試將其解碼為其他多個語言目標(biāo)端(en、es、ru),通過該訓(xùn)練過程得到的編碼器能對多種語言進行編碼,將不同語言間的句子映射到同一向量空間上,且語義比較接近的句子對應(yīng)的句向量的距離也比較接近,如圖1所示(此處以4種語言對進行說明)。

圖1 多語句向量訓(xùn)練語料匹配示例

句表征模型使用3層堆疊的Bi-LSTM神經(jīng)網(wǎng)絡(luò)作為模型的編碼器和解碼器,其中編碼器對句子編碼時得到的最后一個隱層向量經(jīng)過max-pooling得到的向量為句向量。

結(jié)合以上的多語句子向量化表征模型,以及Johnson等人[29]提出的谷歌多語言神經(jīng)機器翻譯系統(tǒng)的訓(xùn)練過程,Schwenk[30]進一步提出多語句向量表征模型(“MultiSentEmbed”方法)。與Schwenk和Douze[27]不同的是,每個mini-batch訓(xùn)練完成后不要求交換不同語言對,而是對所有源端語料采用同一個編碼器進行編碼。谷歌多語言神經(jīng)機器翻譯系統(tǒng)訓(xùn)練時也采用同一個編碼器對不同語言對應(yīng)的語料進行訓(xùn)練,并在平行語料的源端語句前面附上目標(biāo)端語言標(biāo)簽,使得訓(xùn)練時能區(qū)分不同語言;而該模型在訓(xùn)練過程中不需要對訓(xùn)練語料標(biāo)記相應(yīng)的語言標(biāo)簽,因此,編碼器對不同語言的語句進行編碼時,并不能識別其所屬語言,使得編碼器將所有語言的語句都編碼到同一向量空間上。在BUCC-2018句對齊任務(wù)中,該方法雖然未取得最優(yōu)的對齊效果,但該方法不依賴于繁瑣的特征工程或相關(guān)分類器的訓(xùn)練,且訓(xùn)練出的模型可應(yīng)用于多個語言的對齊任務(wù),而針對每一組語言對,需要訓(xùn)練一個相應(yīng)的對齊模型。

隨后Artetxe和Schwenk[31]進一步提出一個多語句子向量化表征模型(“Margin-based”方法),模型架構(gòu)如圖2所示,該模型的編碼器端類似于Schwenk[30]中采用的編碼器,同樣將最后一層的隱藏層向量經(jīng)過max-pooling處理后的結(jié)果作為句向量,不同之處在于該模型用編碼器的句向量對解碼器的第一個隱藏層狀態(tài)進行初始化,同時編碼器的句向量也與目標(biāo)端的詞向量和一個代表不同目標(biāo)端語言的向量進行拼接,使得盡管采用同一個解碼器也能對不同語言的目標(biāo)端進行解碼。使用多組不同語言的平行語料交替地訓(xùn)練出一個句表征模型,模型訓(xùn)練完成后,不同語言的句子經(jīng)過編碼器編碼后形成在同一向量空間表示的句向量。通過向量間的余弦相似度結(jié)合一個固定閾值即可區(qū)分不同語言的句子間語義是否相同。在實際應(yīng)用中作者發(fā)現(xiàn),采用余弦相似度結(jié)合一個固定閾值的句對齊方法會產(chǎn)生相似度得分范圍不一致(scale inconsistency)問題,即不同平行句對的余弦相似度得分可能不在同一個分值范圍內(nèi),且余弦相似度得分最高的也不一定就是互為翻譯的句對。因此,作者根據(jù)該相似度衡量方式在實際應(yīng)用中出現(xiàn)的相似度得分范圍不一致(scale inconsistency)問題,進一步提出基于近鄰的相似度得分衡量方法(margin-based scoring),如式(7)所示。

圖2 多語句向量表征模型

score(x,y)=

(7)

其中,NNk(x)表示源端句向量x的所有k近鄰目標(biāo)端句向量。在BUCC-2018句對齊任務(wù)中,相比于先前的其他方法,該方法在4組語言對的句對齊任務(wù)上的F1值都達到了90%以上。Artetxe和Schwenk[32]使用該模型在多組語言對的平行語料上訓(xùn)練得到一個多語句子向量化表征模型,使得多種語言對應(yīng)的句子可被映射到同一向量空間上;并將訓(xùn)練得到的多語句表征模型LASER(2)https://github.com/facebookresearch/LASER開源,供公開使用。訓(xùn)練過程中使用的多組語言對囊括了93種語言、30多個不同的語系,使得訓(xùn)練得到的模型可用于包括低資源語言對在內(nèi)的句對齊任務(wù)上,并通過實驗表明,該模型可進一步提升BUCC-2018的三種語言對的句對齊任務(wù)上的對齊效果。Schwenk等人[33]使用該模型從維基百科語料庫的85種語言對應(yīng)的文檔中獲取包含低資源語言對的多種語言對的雙語平行語料,總共獲取包含1 620組語言對的平行語料;平行語料數(shù)量總共有1.35億句對,其中僅有3 400萬句對中的一個語言端為英文,且最少的語言對的平行語料數(shù)也超過一萬句對,并使用得到的包含45種語言的平行語料訓(xùn)練神經(jīng)機器翻譯模型,在TED語料集[34]上進行驗證,表明通過該方式獲取的平行語料能訓(xùn)練出一定翻譯性能的機器翻譯模型。

3.2.3 基于雙編碼器的句子向量化表征

不同于基于機器翻譯模型的端到端模型架構(gòu),Gr’egoire和Langlais[35]提出使用基于神經(jīng)網(wǎng)絡(luò)的句子向量化表征實現(xiàn)句對齊(“RALI”方法): 使用基于門控機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-GRU)將源端和目標(biāo)端句子都編碼為指定維度的句向量,使用得到的句向量訓(xùn)練句對齊概率模型,當(dāng)模型的輸出概率值超過指定閾值時則認(rèn)為該句對相互平行。通過該方法在BUCC-2017句對齊數(shù)據(jù)集上取得了一定的對齊效果。

Guo等人[36]使用雙編碼器模型對源端和目標(biāo)端句子進行編碼、獲取雙語句子向量化表征,編碼器的模型架構(gòu)使用Iyyer等人[37]提出的深度平均網(wǎng)絡(luò)(Deep Averaging Networks,DAN),并將句子中的所有詞向量和bigram詞組向量的均值作為DAN的輸入;源端和目標(biāo)端句子經(jīng)過編碼器后得到的句向量做點乘(dot-product)得到一個分值?(x,y),并通過最大化以下訓(xùn)練目標(biāo)函數(shù)對該模型進行訓(xùn)練,如式(8)所示。

(8)

其中,xi和yi表示一對平行句對組成的源端和目標(biāo)端句向量;假設(shè)一個batch組成的N對平行句對的源端和目標(biāo)端句向量矩陣分別為U和V,則通過U和VT的矩陣乘積得到的N×N矩陣結(jié)果的對角線的值即為平行句對的點乘結(jié)果?(xi,yi),而非對角線上的值則為非平行句對的點乘結(jié)果。訓(xùn)練過程中作者引入一些存在一定程度的語義相似但并非互為翻譯的雙語句對,這種特殊的雙語句對被稱做硬負(fù)樣例(hard negatives),使得訓(xùn)練得到的模型能更準(zhǔn)確地辨別語義相似的句對是否為真正的平行句對;使用訓(xùn)練得到的模型對UN平行語料[28]進行重構(gòu),在en-fr和en-es語言對上的實驗分別取得48.9%和54.9%的準(zhǔn)確率。

Yang等人[38]同樣使用雙編碼器模型進行句對齊,不同的是作者采用的編碼器基于Transformer編碼器模型架構(gòu),訓(xùn)練目標(biāo)是最大化P(yi|xi)+P(xi|yi),即雙向最大化對齊概率;并對原有源端和目標(biāo)端句向量點乘?(x,y)做適當(dāng)修改,修改為?′(x,y),如式(9)所示。

(9)

通過以上方式對訓(xùn)練得到的模型在UN平行語料的重構(gòu)任務(wù)上,均取得了86%以上的準(zhǔn)確率,大大改善原先的雙編碼器模型的句對齊效果。在BUCC-2017句對齊數(shù)據(jù)集上,通過訓(xùn)練得到的模型并結(jié)合cosine相似度衡量指標(biāo)在4組語言對上取得的F1值均達到86%以上。在以上的基礎(chǔ)上作者提出一個與Artetxe和Schwenk[31]提出的近鄰相似度評分方法類似的句向量間相似度衡量方法,如式(10)、式(11)所示。

結(jié)合該句向量相似度評分機制,該模型在BUCC-2017句對齊數(shù)據(jù)集上取得了與Artetxe和Schwenk[31]相近的句對齊效果。作者進一步訓(xùn)練一個基于微調(diào)過的多語BERT模型[39]的重評分分類器,將該分類器應(yīng)用到平行句對的篩選中,并在BUCC-2017句對齊數(shù)據(jù)集上取得當(dāng)前最優(yōu)的句對齊效果(本文稱該方法為“Score-BERT”方法)。

3.3 無監(jiān)督句對齊研究進展

盡管當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督式句對齊方法取得了很好的對齊效果,但該方法仍依賴于已有的雙語平行語料,對于低資源領(lǐng)域,往往由于雙語平行語料的欠缺使得相應(yīng)的下游任務(wù)無法取得有效的進展。無監(jiān)督句對齊是一種不依賴于已有雙語平行語料實現(xiàn)句對齊、獲取雙語平行句對的技術(shù),對于改善低資源領(lǐng)域的相關(guān)應(yīng)用有著至關(guān)重要的作用,因此也得到了相應(yīng)的研究。

隨著基于詞向量的無監(jiān)督詞對齊技術(shù)[40]取得不錯的進展,Hangya和Braune[41]提出采用無監(jiān)督方式(“Unsup”方法)在BUCC-2017的“fr-en”“ru-en”“de-en”句對齊任務(wù)上進行句對齊。首先,使用大量fr、ru、de、en單語語料訓(xùn)練出所屬語言的單語詞向量,再通過無監(jiān)督詞對齊技術(shù)對fr和en單語詞向量進行對齊(針對ru-en和de-en采取同樣方式),使得兩個語言端的單語詞向量被映射到同一向量空間,且語義相近的單詞的向量比較接近。得到雙語詞向量之后,句子也由相應(yīng)的詞向量進行同等維度上的累加求平均得到,源端和目標(biāo)端句子因此也被映射到同一向量空間,通過向量間的距離即可判斷雙語句對是否平行。為了避免句向量構(gòu)建過程中對語義不相關(guān)的單詞賦予太高的權(quán)重,在依據(jù)詞向量構(gòu)建句向量的過程中,去除了句子中的停用詞、數(shù)值和標(biāo)點符號。為了確定源端和與其相似度得分最高的目標(biāo)端是否平行,提出一個動態(tài)閾值設(shè)定方法,其確定方式如式(12)所示。

(12)

4 句對齊相關(guān)任務(wù)

為了進一步推動句對齊任務(wù)研究的發(fā)展,Zweigenbaum等人[42]根據(jù)Wikipedia和News Commentary(3)http://www.casmacat.eu/corpus/news-commentary.html數(shù)據(jù)集構(gòu)建出了BUCC-2017句對齊數(shù)據(jù)集,該數(shù)據(jù)集主要用于對不同句對齊模型的性能評測。

4.1 BUCC句對齊任務(wù)數(shù)據(jù)集

BUCC(Building and Using Comparable Corpora)共享任務(wù)(BUCC Shared Task)旨在構(gòu)建和使用可比語料。第一屆BUCC共享任務(wù)[43]主要是針對跨語言可比語料的獲取。第二屆BUCC共享任務(wù)則主要針對從跨語言可比語料中獲取平行句對;由于先前的從可比語料中獲取平行句對的方法通常依賴于語料的特定特征,如從互聯(lián)網(wǎng)中獲取“中文-日文”新聞領(lǐng)域可比語料和平行句對時采用的日期特征[44]、從維基百科中獲取平行語料時采用的網(wǎng)頁文本的超鏈接特征、文檔標(biāo)題特征[18]等。前人提出的句對齊模型在特定語料中獲取平行句對時采用的特征并不都是廣泛存在于所有的可比語料中的,相應(yīng)的句對齊模型應(yīng)用到不同語料的對齊任務(wù)時對齊效果也有所差異。句對齊任務(wù)的目的是識別出不同語言間語義相同的平行句對,應(yīng)該關(guān)注基于文本內(nèi)容的特征,而不是文本以外的其他特征。因此Zweigenbaum等人[42]針對BUCC-2017的共享任務(wù)構(gòu)建了從可比語料中獲取平行句對的數(shù)據(jù)集(“BUCC-2017句對齊數(shù)據(jù)集”),用來衡量不采用文本內(nèi)容以外的其他特征的句對齊模型的對齊性能。

BUCC-2017句對齊數(shù)據(jù)集是由維基百科上不同語言相同主題的單語語料文本和News Commentary①雙語平行語料構(gòu)建而成的,主要是將維基百科單語文本語料進行分句、去除相應(yīng)的文本標(biāo)簽后,有選擇性地將News Commentary雙語平行語料的語句插入到單語語料中,并記錄插入的位置信息,詳細的數(shù)據(jù)集構(gòu)建過程可參閱文獻[42]。該數(shù)據(jù)集總共包含四組語言對的對齊任務(wù): 法語-英語(fr-en)、德語-英語(de-en)、俄羅斯語-英語(ru-en)、中文-英語(zh-en),每組語言對包含三個類型的數(shù)據(jù)集: 樣例集(sample)、訓(xùn)練集(training)、測試集(test),每一類數(shù)據(jù)集下包含三個文件,例如,“fr-en”對應(yīng)的sample數(shù)據(jù)集包含存放fr的單語文件、存放en的單語文件和存放兩個單語文件中包含的平行句對的文件(gold文件);其中,單語文件的每一行由一個單語句子以及該句子對應(yīng)的編號組成,gold文件的每一行存放一個源端單語句子的編號和目標(biāo)端單語句子的編號,表示對應(yīng)編號的源端句子和目標(biāo)端句子互為翻譯。數(shù)據(jù)集統(tǒng)計信息如表1所示。

表1 BUCC-2017句對齊數(shù)據(jù)集統(tǒng)計信息

4.2 句對齊系統(tǒng)結(jié)果描述

由于先前的句對齊任務(wù)大多都在不同的語料(不同的雙語平行文檔/雙語可比語料)上進行雙語句對獲取,語料所含噪聲不一致、句對齊任務(wù)難易程度不一,往往某個句對齊模型在特定的語料中效果顯著,而應(yīng)用于其他句對齊語料時則顯得效果一般。此處主要介紹在BUCC-2017句對齊數(shù)據(jù)集上的句對齊模型。

共有四個團隊在BUCC-2017句對齊共享任務(wù)上提交13組句對齊模型,主要針對“fr-en”“de-en”“zh-en”句對齊任務(wù)進行對齊,在“ru-en”句對齊任務(wù)上暫且沒有相關(guān)對齊系統(tǒng)提交。四個團隊提交的系統(tǒng)中對齊結(jié)果匯總?cè)绫?所示。

表2 不同方法在不同數(shù)據(jù)集上的句對齊結(jié)果

? RALI方法

該方法主要依賴于深度神經(jīng)網(wǎng)絡(luò),詳細介紹見3.2.3節(jié)。該方法在BUCC-2017的“fr-en”句對齊任務(wù)上取得的P、R、F1值分別為12、63、20。

? JUNLP方法[45]

該方法主要基于Moses[46]統(tǒng)計機器翻譯模型,在“fr-en”句對齊任務(wù)上進行對齊,取得的P、R、F1值分別為3、11、4。

? zNLP方法[47]

該方法針對BUCC-2017的“zh-en”句對齊任務(wù),主要是采用雙語詞典將中文端單語語句翻譯為英文端,再使用Solr(4)http://lucene.apache.org/solr/搜索引擎將英語譯文作為關(guān)鍵詞從英文候選句子中篩選出候選翻譯,最后以Solr搜索引擎搜索得分、詞重疊率、句長信息為特征訓(xùn)練一個支持向量機(SVM)分類器模型,對候選句對進行分類,判別是否屬于平行句對。采用該方法取得的P、R、F1值分別為42、44、43。

? VIC方法

該方法主要基于自動訓(xùn)練得到的雙語詞表和杰卡德相似性得分,具體實現(xiàn)介紹見3.1.3節(jié)。在BUCC-2017的“fr-en”句對齊任務(wù)上取得的P、R、F1值分別為80、79、79,在“de-en”句對齊任務(wù)上的相應(yīng)分值分別為88、80、84。

此后,BUCC-2018共享任務(wù)依舊是從可比語料中獲取平行句對,其使用的數(shù)據(jù)集仍為BUCC-2017句對齊數(shù)據(jù)集。其中“H2”方法(方法詳情介紹見3.2.1節(jié))在“fr-en”句對齊數(shù)據(jù)集上取得的P、R、F1值分別為82、72、76。Azpeitia等人[48]在VIC方法的杰卡德相似得分基礎(chǔ)上,針對命名實體錯誤匹配給定一個懲罰分值(“VIC_enhanced”方法),進一步提升對齊的準(zhǔn)確率。Schwenk[30]提出的“MultiSentEmbed”方法(詳情見3.2.2節(jié)介紹)在BUCC-2017句對齊任務(wù)上也取得了顯著的效果: 該方法相比于“VIC_enhanced”方法,雖然未取得最優(yōu)的對齊效果,但該方法不依賴于繁瑣的特征工程或相關(guān)分類器的訓(xùn)練,且訓(xùn)練出的模型可應(yīng)用于多個語言的對齊任務(wù),而其他對齊方法針對每一組語言對需要訓(xùn)練一個相應(yīng)的對齊模型。Artetxe和Schwenk[31]提出的“Margin-based”方法(詳情見3.2.2節(jié)介紹)極大地改善BUCC-2017句對齊數(shù)據(jù)集上的句對齊效果;Yang等人[38]提出的基于微調(diào)的多語BERT模型的“Score-BERT”方法(詳情見3.2.3節(jié)介紹)則在該數(shù)據(jù)集上取得當(dāng)前最佳的句對齊效果。相關(guān)方法及其句對齊F1結(jié)果匯總?cè)绫?所示。

表3 不同句對齊模型在不同數(shù)據(jù)集上的F1值 (單位: %)

其中,VIC、VIC_enhanced和zNLP方法主要基于特征工程;RALI和H2方法基于深度學(xué)習(xí)獲取得到句向量,得到的句向量用于分類器的訓(xùn)練或句過濾過程中;MultiSentEmbed和Margin-based方法則直接將多語間句子向量化表征,結(jié)合句向量的相似性衡量方法,直接得到對齊結(jié)果。

此外,無監(jiān)督句對齊方法“Unsup”在BUCC-2017句對齊任務(wù)中取得的對齊效果見表4。

表4 無監(jiān)督方法“Unsup”在不同數(shù)據(jù)集上的對齊結(jié)果 (單位: %)

5 總結(jié)與未來展望

從不同句對齊模型的對齊結(jié)果來看,在BUCC-2017句對齊數(shù)據(jù)集上實現(xiàn)句對齊任務(wù)有一定的難度。先是基于特征工程的句對齊方法取得了最佳的對齊效果,接著開始出現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的句對齊方法。起初的對齊效果不如基于特征工程的方法,隨著基于神經(jīng)網(wǎng)絡(luò)的句對齊方法的不斷改進,句對齊任務(wù)也取得了很大突破;當(dāng)前,與基于特征工程的句對齊方法相比,基于神經(jīng)網(wǎng)絡(luò)的句對齊方法取得了更好的句對齊效果。而無監(jiān)督方法由于不依賴已有的雙語句對,對齊效果相對較差。

盡管基于神經(jīng)網(wǎng)絡(luò)的句對齊方法已經(jīng)取得了很好的對齊效果,但仍有改進的空間;同時,由于其依賴大量已有平行語料,往往也難以應(yīng)用到低資源領(lǐng)域的對齊任務(wù)中;對于不依賴于平行語料的無監(jiān)督方法,由于當(dāng)前對齊效果差,也難以在低資源領(lǐng)域進行有效的句對齊。因此,如何針對低資源領(lǐng)域?qū)崿F(xiàn)有效的句對齊有待進一步研究。

基于神經(jīng)網(wǎng)絡(luò)的句對齊方法往往借鑒于神經(jīng)機器翻譯模型,當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的句對齊方法借鑒基于RNN的神經(jīng)機器翻譯架構(gòu),如何借鑒當(dāng)前主流的完全基于注意力機制的神經(jīng)機器翻譯模型實現(xiàn)句對齊任務(wù),是我們下一步的研究方向。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 无码高潮喷水专区久久| 91国内在线视频| 中文字幕在线看视频一区二区三区| 青青草原国产一区二区| 久久国产精品电影| 国产高颜值露脸在线观看| 狠狠色狠狠综合久久| 五月六月伊人狠狠丁香网| 美女扒开下面流白浆在线试听 | 久草视频福利在线观看| 成人字幕网视频在线观看| 中文字幕有乳无码| 亚洲精品成人福利在线电影| 农村乱人伦一区二区| 九月婷婷亚洲综合在线| 久久青草免费91线频观看不卡| 丰满人妻久久中文字幕| 亚洲欧美另类日本| 中文字幕首页系列人妻| 欧美不卡二区| 亚洲男人的天堂在线| 另类专区亚洲| 一区二区自拍| 国产一级裸网站| 亚洲精品色AV无码看| 99re免费视频| 欧美综合成人| 一级黄色欧美| 日韩在线欧美在线| 呦系列视频一区二区三区| 亚洲天堂精品在线| 国产乱人伦AV在线A| Jizz国产色系免费| 日本高清免费不卡视频| 欧美精品不卡| 亚洲精品麻豆| 国产欧美综合在线观看第七页| 国产福利微拍精品一区二区| 人妻无码中文字幕一区二区三区| 亚洲天堂久久久| 亚洲日韩国产精品无码专区| 国产免费网址| 欧美在线免费| 亚洲成A人V欧美综合天堂| 亚洲综合婷婷激情| 免费观看欧美性一级| 亚洲性一区| 99无码中文字幕视频| 一级毛片免费高清视频| 国产成人亚洲精品无码电影| 国产剧情国内精品原创| 精品三级在线| 婷婷午夜影院| 国产一级二级三级毛片| 国产日韩丝袜一二三区| 热这里只有精品国产热门精品| 亚洲水蜜桃久久综合网站 | 国产精品对白刺激| 54pao国产成人免费视频| 伊人精品视频免费在线| 中文成人无码国产亚洲| lhav亚洲精品| 色老头综合网| 呦系列视频一区二区三区| 国产手机在线小视频免费观看 | 特级精品毛片免费观看| 波多野结衣久久精品| 国产天天射| 日韩高清一区 | 国产va在线观看免费| 超碰91免费人妻| 亚洲AV一二三区无码AV蜜桃| 日韩在线第三页| 中文字幕av一区二区三区欲色| 精品少妇人妻无码久久| 亚洲第一天堂无码专区| 丰满人妻被猛烈进入无码| 亚洲国产综合精品一区| 国产精品一区二区久久精品无码| a毛片免费在线观看| 97国产在线播放| 国产综合网站|