999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱性句逗號識別的漢語長句機器翻譯

2025-01-26 00:00:00馮文賀李熳佳張文娟
外語學(xué)刊 2025年1期

提 要:長句翻譯一直是機器翻譯的難題。本文根據(jù)漢語中相當(dāng)數(shù)量的逗號和句號可相互轉(zhuǎn)化的特點,提出“隱性句號”和“隱性逗號”概念,并實現(xiàn)其自動識別,以將漢語長句變?yōu)槎叹溆糜跐h英機器翻譯。為此,首先通過人工與半監(jiān)督學(xué)習(xí)結(jié)合方法構(gòu)建一個隱性句逗數(shù)據(jù)集,實現(xiàn)基于預(yù)訓(xùn)練模型的隱性句逗識別方法,其中性能最好的Hierarchical BERT作為后續(xù)應(yīng)用模型。進而,實現(xiàn)基于隱性句逗識別的漢英機器翻譯方法。在新聞和文學(xué)公開翻譯測試語料上基于預(yù)訓(xùn)練機器翻譯模型的實驗表明,對于漢語長句的英譯,本文方法相比基準翻譯的BLEU值整體有所提高,而且在相對穩(wěn)健機器翻譯模型上,呈現(xiàn)為句子越長本文方法效果越明顯。

關(guān)鍵詞:機器翻譯;長句翻譯;隱性句逗號;漢語長句;逗號識別;句內(nèi)標(biāo)點

中圖分類號:H08 """"文獻標(biāo)識碼:A """"文章編號:1000-0100(2025)01-0039-8

DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.005

Machine Translation of Chinese Long Sentences Based on

Recognition of" Implicit Period and Comma

Feng Wen-he1 Li Man-jia1 Zhang Wen-juan2

(1.Lab of" Language Engineering and Computing, Center for Linguistics and Applied Linguistics,

Guangdong University of" Foreign Studies, Guangzhou 510420, China; 2.School of Computer Science and

Engineering, Guangzhou Institute of" Science and Technology, Guangzhou 510420, China)

The translation of long sentences has always been a difficult task for machine translation. In this paper, based on the feature that a considerable number of commas and periods" in Chinese text can be transformed into each other, we propose the concepts of" “implicit period” and “implicit comma”, and realize their automatic recognition to transform Chinese long sentences into short sentences for Chinese-English machine translation. In this paper, a dataset of implicit period and comma is constructed by combining manual and semi-supervised learning methods, and an implicit period and comma recognition method is realized based on a pre-trained model, in which Hierarchical BERT, which has the best performance, is used as the subsequent application model. In this paper, a Chinese-English machine translation method based on implicit period and comma recognition is realized. The experiments based on pre-trained machine translation models on the News" and Literature corpus show that for the English translation of Chinese long sentences, the method in this paper improves the BLEU value compared to the benchmark translation as a whole, and the effect of the method in this paper is more obvious the longer the sentence is for the relatively robust machine translation model.

Key words:machine translation; long sentence translation; implicit period and comma; Chinese long sentence; recognition of comma; intra-sentence punctuation

1 引言

篇章翻譯是當(dāng)前制約機器翻譯技術(shù)性能的一個突出問題,其困難集中體現(xiàn)于長句翻譯上(Koehn, Knowles" 2017)。原因在于長句一般由多個小句(clause)構(gòu)成,而不同語言的小句及其間結(jié)構(gòu)差異巨大。如表現(xiàn)在漢英語言間,漢語小句無系統(tǒng)的語法主從之別,長句多流水句,小句間“可斷可連”(呂叔湘 1979:27),反映在標(biāo)點上即逗號(句內(nèi)標(biāo)點)、句號(句間標(biāo)點)可相互轉(zhuǎn)換,句子邊界相對模糊;而英語小句則有系統(tǒng)的語法主從之別,句號、逗號分明,相互轉(zhuǎn)化性弱,句子邊界相對清晰(趙朝永 王文斌 2020,馮文賀" 李青青 2022)。句子邊界差異自然引發(fā)雙語長句的翻譯問題。長句機器翻譯困難也有其計算機制的原因。如對于基于循環(huán)神經(jīng)網(wǎng)絡(luò)的翻譯模型(Sutskever et al. 2014),長句會造成更多長距離依賴關(guān)系需要維護,以致難以記住大量上下文信息;對于基于注意力機制的翻譯模型(Vaswani et al. 2017),長句會造成注意力分散到更多信息點,以致難以持續(xù)聚焦于最關(guān)鍵信息。

對于長句翻譯問題,一種解決思路就是將其化為短句翻譯。問題是如何將長句合理化為短句。本文認為,可從漢語句逗號中有大量可相互轉(zhuǎn)化而又不影響原義表達的特點入手,解決漢語長句的翻譯問題。例如:

(1) a. "①少年姓孫,②屬馬[,]③比小水小著一歲,④個頭也沒小水高,⑤人卻本分實誠。(賈平凹《浮躁》)

b. ①This boy,a member of Sun Family, ②was born in the year of the horse[.] ③Although he was a year younger ④and a head shorter than water girl, ⑤he was honest and sincere.(Goldblatt 1991)

c. ①The young Sun, ②a horse③, is one year younger than Xiaoshui, ④and the individual is no higher than Xiaoshui, ⑤but the person is sincere.(有道翻譯 2023.11.18)

d. ①The young man’s surname is Sun," ②he was born in the year of the horse, ③and is one year younger than Xiao Shui. ④He is not as tall as Xiao Shui, ⑤but he is honest and earnest.(ChatGPT4 2023.12.10)①

例(1)a漢語復(fù)句包含5個小句。語義主題上,小句①②描述少年的個人特征;小句③④和小句⑤雖然也描述少年的個人特征,但相比卻有了對比人物“小水”。據(jù)此,前兩個小句和后3個小句所表達語義主題有所差異,其間語義關(guān)系也遠近有別。也因此,可將小句②后逗號改為句號,而且原文小句間的語義關(guān)系遠近及具體邏輯語義等不變。本文將此類可轉(zhuǎn)化為句號而不改變原文小句間語義關(guān)系遠近及邏輯語義的逗號視為“隱性句號”。同理,漢語文本中也存在句號可變?yōu)槎禾柕那闆r,本文將此類句號視為“隱性逗號”。

將漢語長句變?yōu)槎叹洌啾瓤梢詫崿F(xiàn)更好翻譯。如專業(yè)譯者(例(1)b)在小句②后斷句翻譯,更好翻譯表達了源語小句間的語義遠近關(guān)系,句子的內(nèi)部結(jié)構(gòu)也更符合英文習(xí)慣。相比之下,機器譯文例(1)c中句逗號與源語一致,小句間的語義關(guān)系不明,句子結(jié)構(gòu)也顯得冗長,不符合英文結(jié)構(gòu)習(xí)慣。但是,如果不能恰當(dāng)?shù)鼗L句為短句,也可能導(dǎo)致不良翻譯。如機器譯文例(1)d中在小句③后斷句翻譯,根本上改變源語小句間的結(jié)構(gòu)關(guān)系,其中割裂了小句③④間密切的并列關(guān)系(由連接詞“也”表示),隔斷了小句⑤對小句③④整體的轉(zhuǎn)折關(guān)系(由此也導(dǎo)致譯文連接詞but不能準確翻譯原文連接詞“卻”的管轄范圍)??梢哉f,長句化短后翻譯,在根本上會影響句子內(nèi)外的結(jié)構(gòu)組織,影響是全局性的。

本文認為,如果能夠識別漢語文本中隱性句逗號,就可能將相當(dāng)一部分長句經(jīng)切分重組為較短句子,而經(jīng)此處理后再進行機器翻譯,就可能達到更好的翻譯效果?;诖耍疚奶岢龌陔[性句逗號識別的漢語長句機器翻譯方法。為此,本文首先構(gòu)建漢語隱性句逗號數(shù)據(jù)集,并實現(xiàn)其識別模型;進而將隱性句逗號識別模型用于機器翻譯的漢語源語數(shù)據(jù)預(yù)處理,以使機器翻譯獲得更好的長句翻譯效果。

2 相關(guān)工作

現(xiàn)有機器翻譯模型處理短句表現(xiàn)良好,但對于長句,往往無法給出優(yōu)質(zhì)翻譯。為改善長句翻譯效果,主要進行了兩類研究:一類是進行篇章級機器翻譯建模,綜合解決包括長句在內(nèi)的篇章翻譯問題;另一類是專門針對長句的機器翻譯研究。

在篇章機器翻譯建模研究中,一般既關(guān)注句內(nèi)詞語間結(jié)構(gòu)關(guān)系,也關(guān)注上下文句子間的一致性、連貫性、結(jié)構(gòu)層次、銜接性等信息(Tan et al. 2019;Chen et al. 2020;Guo et al. 2022; 賈愛鑫等 2024)。由于更多關(guān)注上下文,一定程度上有利于緩解長句翻譯問題。在篇章機器翻譯建模中,有研究特別注意到句長的影響。如研究指出篇章級機器翻譯中源語和目標(biāo)語的句長偏差會導(dǎo)致翻譯質(zhì)量下降;提出動態(tài)采樣訓(xùn)練數(shù)據(jù),以確保不同序列長度可均勻分布;引入長度歸一化注意力機制,以使模型聚焦于目標(biāo)信息,緩解處理較長序列時的注意力偏離問題;提出在解碼過程中采用滑動窗口策略,以在不超過最大序列長度的前提下整合更多上下文信息(Zhang" et al. 2023)。然而,根本上篇章機器翻譯建模并不著重于解決由于(漢英)雙語句子邊界差異帶來的長句翻譯問題。

在專門針對長句的機器翻譯研究中,一般將長句化為較短的語言單位再翻譯。在傳統(tǒng)機器翻譯(基于規(guī)則、基于統(tǒng)計)下,不同語言的翻譯上均有研究嘗試將長句劃分為較短的語言單位再翻譯,一般是利用一些語言特征,如句法模板、結(jié)構(gòu)層次、小句、連接詞、標(biāo)點等,將長句劃分為較短的短語、小句、結(jié)構(gòu)片段等后,先翻譯較短單位后再進行組合(Oliveira et al. 2010;Goh, Sumita" 2011;Yin et al. 2012;Hung et al. 2012;Pouget-Abadie et al. 2014)。在漢英翻譯中,也有一些研究嘗試利用標(biāo)點符號、關(guān)系代詞、層次結(jié)構(gòu)等長句劃分為簡單句、子句等后再進行翻譯(黃河燕 陳肇雄 2002;李幸" 宗成慶 2006;Xiong et al. 2009)。在神經(jīng)機器翻譯(NMT)技術(shù)框架下,也有研究考慮將長句化短后分別翻譯再組合。如有研究在漢英翻譯中引入一個拆分和重新排序模型來共同檢測源語長句的最佳分割點序列,進而將每個源語子句由NMT系統(tǒng)獨立轉(zhuǎn)換為目標(biāo)子句,并將翻譯的目標(biāo)子句連接起來形成長句的最終翻譯(kuang, Xiong 2016)。有研究提出雙語短語提取方法,以構(gòu)建雙語短語對齊語料庫,并實現(xiàn)了一種長句預(yù)處理技術(shù),以切分長句為短語,解決長句翻譯問題(Tien, Minh 2019)。長句分割與句子邊界相關(guān),有研究發(fā)現(xiàn)句子邊界分割對口語翻譯質(zhì)量影響顯著,提出一種數(shù)據(jù)增強策略,即在訓(xùn)練過程中將模型暴露于各種邊界分割錯誤中,以提高NMT系統(tǒng)對句子邊界分割錯誤處理的魯棒性和機器翻譯的準確性(Li et al. 2021)。然而這些研究只是一般地將長句化為較短的語言單位再翻譯,而不考慮長句化短后是否改變了源語長句內(nèi)外,小句間語義關(guān)系的遠近與邏輯類別等。但事實上,隨意切斷長句后翻譯可能導(dǎo)致原文小句間的邏輯語義結(jié)構(gòu)的改變,如例(1)d的譯文。為此,本文基于漢語部分句逗號可相互轉(zhuǎn)化的特點,提出“隱性句逗號”概念,實現(xiàn)其機器識別,并用以解決漢語長句的機器翻譯難題,其中特別關(guān)注長句內(nèi)外小句間語義關(guān)系的遠近與邏輯類別等是否得到了準確翻譯。

3 隱性句逗號識別

本文構(gòu)建了漢語隱性句逗號數(shù)據(jù)集,并實現(xiàn)了基于預(yù)訓(xùn)練語言模型的隱性句逗號識別方法。考慮到原始文本中句逗號的數(shù)據(jù)不平衡(句號少,逗號多),及相應(yīng)隱性句逗號的不平衡,和預(yù)訓(xùn)練語言模型中本身句逗號知識的不平衡,本文專門構(gòu)建了一個只包含隱性句逗號的數(shù)據(jù)集。基于該數(shù)據(jù)集上,我們訓(xùn)練實現(xiàn)了最優(yōu)隱性句逗號識別模型,該模型可以相對集中地反映隱性句逗號的特征差異。在機器翻譯中,該模型將用于預(yù)處理源語漢語文本,由于該模型并未關(guān)注真句逗號,其識別結(jié)果將與現(xiàn)實文本中的句逗號進行一致性對比調(diào)正后作為源語文本預(yù)處理結(jié)果,輸入機器翻譯模型進行翻譯。

首先,本文構(gòu)建了隱性句逗號數(shù)據(jù)集。在不同體裁(含政府工作報告、法律文本、新聞、小說、學(xué)術(shù)等)的漢語文本(其中一部分來自經(jīng)典漢英翻譯的平行語料)上人工標(biāo)注一定規(guī)模隱性句逗號數(shù)據(jù);然后通過self-training半監(jiān)督學(xué)習(xí)方法大規(guī)模擴充數(shù)據(jù)集。人工標(biāo)注由漢語母語者實施,通過兩種方式實現(xiàn)。第一,標(biāo)注者根據(jù)母語者的語感直接對漢語文本標(biāo)注?;九袛鄻?biāo)準:句逗號相互轉(zhuǎn)變后,語法合理、且不改變原句所含邏輯語義關(guān)系的,為隱性句逗號。第二,參照漢英翻譯標(biāo)注。標(biāo)準為:在經(jīng)典漢英翻譯平行語料上,如果英譯文本為句號斷句,而漢語文本的對應(yīng)標(biāo)點處為逗號,則認定該漢語標(biāo)點為隱性句號;隱性逗號的確定方法同理。具體做法如表1所示,其中紅色標(biāo)注出隱性句逗號,連同其左右各一個標(biāo)點句(用S1、S2等標(biāo)注)(宋柔 2022)構(gòu)成一條數(shù)據(jù)。如其中的隱性句號數(shù)據(jù)由S3-S4構(gòu)成,隱性逗號數(shù)據(jù)由S3-S4構(gòu)成。最終,人工標(biāo)注共3,100條隱性句逗號樣本,其中包含1,847條隱性句號標(biāo)注,1,253條隱性逗號標(biāo)注。

隨后,采用了self-training半監(jiān)督學(xué)習(xí)方法(Du et al. 2021)大規(guī)模擴充數(shù)據(jù)集。先將這些標(biāo)注樣本作為初始數(shù)據(jù),然后構(gòu)建一個基礎(chǔ)模型在已有人工標(biāo)注數(shù)據(jù)上進行訓(xùn)練,使得模型能夠?qū)W習(xí)到隱性句逗號的標(biāo)注邏輯和文本特征。接著,利用訓(xùn)練好的模型對未標(biāo)注數(shù)據(jù)進行推斷,生成偽標(biāo)簽。當(dāng)模型輸出的標(biāo)簽概率高于設(shè)定閾值時,將其作為新的標(biāo)簽數(shù)據(jù),擴充至初始數(shù)據(jù)中。通過該方式,最終構(gòu)建了一個包含33,847條數(shù)據(jù)的隱性句逗號數(shù)據(jù)集,其中隱性句號19,407條,隱性逗號14,440條。識別實驗中,將該數(shù)據(jù)集按照8:1:1的比例切分為訓(xùn)練集、驗證集和測試集。具體統(tǒng)計結(jié)果如表2所示。

其次,本文提出基于預(yù)訓(xùn)練語言模型的隱性句逗號分類識別方法。為充分考慮隱性句逗識別中相關(guān)語段特征,具體采用Hierarchical BERT模型(Lukasik et al. 2020)對句子對進行編碼。如圖1所示,其包含嵌入層、Sentence Encoder、Context Encoder層,模型輸出為隱性句逗號的預(yù)測結(jié)果。其中Sentence Encoder使用BERT預(yù)訓(xùn)練模型(Devlin et al.2019),Context Encoder使用GRU模型。模型的輸入為兩段文本,分別表示為Sentence1和Sentence2,此處并不是直接拼接兩個句子,而是將其層次化并行輸入模型。隨后Sentence Encoder將學(xué)習(xí)每個Sentence句內(nèi)的局部特征并聚合至對應(yīng)的[CLS]向量中;將兩個Sentence的[CLS]表征輸入到Context Encoder層中,該層可賦予文本前后的順序特征以及上下文關(guān)系特征,并最終得到文本對的全局特征。全局特征通過線性分類層,將輸出映射到隱性句逗的類別標(biāo)簽上,其中線性分類層通過Softmax函數(shù)對輸出的概率進行歸一化,并利用交叉熵損失函數(shù)計算損失。

最后,進行隱性句逗號識別實驗。除基于Hierarchical BERT模型外,我們也進行了基于Cross-segmen BERT模型(Wicks, Post 2021)的方法。與此同時,我們還對比實現(xiàn)了基于序列標(biāo)注的方法,包括BERT-CRF(Liu et al.2020)、BERT-LSTM-CRF(Yang et al.2022)。各模型結(jié)果見表3。實驗表明,基于Hierarchical BERT模型的方法性能最佳。原因在于Hierarchical BERT相比可以充分學(xué)習(xí)到句逗號相關(guān)語段文本的詞匯、語序及上下文特征。而序列標(biāo)注方法的問題在于,當(dāng)前的隱性句逗號識別任務(wù)下相關(guān)數(shù)據(jù)是獨立的文本段,并非實際文本中的句逗號序列?;贖ierarchical BERT的隱性句逗號識別模型將用于后續(xù)機器翻譯漢語長句化短的預(yù)處理。

4 基于隱性句逗號識別的長句機器翻譯

4.1 本文方法模型

為驗證基于隱性句逗號識別的長句機器翻譯方案效果,本文使用PipeLine方案(Atrio et al. 2023)進行實現(xiàn)。首先,對源語漢語進行預(yù)處理,即進行隱性句逗號識別,并與源語文本的句逗號比對校正,確定最終句逗號;然后對預(yù)處理文本進行機器翻譯,如圖2。

模型所輸入的文本為一個句逗號切分的標(biāo)點句序列(記為sentence1,2,……n)。為適配本文基于Hierarchical BERT的隱性句逗號識別模型,相鄰的兩個標(biāo)點句組合作為一個輸入,經(jīng)過識別模型,預(yù)測其間的標(biāo)點位置為隱性句號或隱性逗號。由于隱性句逗號識別模型僅考慮了隱性句逗號,而實際文本中為所有句逗號(既包括隱性句逗號,也包括真句逗號),這里須對隱性句逗號模型識別結(jié)果進行校正,以獲得最終句逗標(biāo)點。具體做法是:將隱性句逗識別模型輸出結(jié)果與原文結(jié)果進行比對,當(dāng)模型輸出結(jié)果與原文一致,保留原文本標(biāo)點;當(dāng)模型輸出結(jié)果與原文本不一致,保留隱性句逗的識別結(jié)果。這樣做的原因在于,由于受預(yù)訓(xùn)練語言BERT自身所包含的大量一般句逗號文本知識的影響,隱性句逗號識別模型并不能很好地從真實文本(包含所有句逗號)中識別出隱性句逗號。具體而言,當(dāng)其標(biāo)點分類結(jié)果與原文本不一致時,可以認為是,句逗模型增強了本文隱性句逗號知識后的結(jié)果,即為隱性句逗號;當(dāng)其與原文一致,可以認為是BERT自身包含的大量真句逗號知識的結(jié)果。校正后的句逗標(biāo)點文本,作為預(yù)處理結(jié)果輸入機器翻譯模型。

4.2 實驗設(shè)計

為驗證本文方案效果,本文在公開機器翻譯任務(wù)WMT2018的漢英翻譯(新聞)②和WMT2023中的漢英翻譯(文學(xué))③的測試集上進行實驗。引入文學(xué)語料的考慮在于,文學(xué)文本是機器翻譯難點,而且文學(xué)文本相比一般文本口語性強,可逗可句或可斷可連的情況更突出,特別適于本文方法的驗證。為了充分驗證本文方法在漢語長句上的效果,進一步按照文本長度(以包含的逗號數(shù)計算)將數(shù)據(jù)集劃分如表4。如此考慮在于,逗號是句內(nèi)標(biāo)點,一個文本包含的逗號數(shù)越多,往往意味著其中的句子包含的小句越多,句子越長。

在翻譯階段,本文使用兩個表現(xiàn)優(yōu)異的預(yù)訓(xùn)練機器翻譯模型進行實驗,分別是opus-mt (Tiedemann, Thottingal 2020)和Randeng-mt(Zhang et al.2022)。二者均基于transformer的端到端架構(gòu),并基于大型中英平行語料庫訓(xùn)練,包含了豐富的雙語知識。實驗中二者具體設(shè)置相同,主要是:設(shè)置束搜索寬度為2;采用多概率采樣;top_k為40,其可以在生成過程中過濾掉不太可能的詞,僅保留頭部的40個詞;top_p概率為0.8,其代表輸出詞的概率之和達到或超過0.8,才會在生成過程中保留;此外為確保模型不重復(fù)地連續(xù)輸出,限制了模型連續(xù)重復(fù)生成單詞的個數(shù)為5。

評估標(biāo)準采用通用的BLEU值(Papineni" et al.2002)。其主要通過比較機器翻譯的輸出和參考譯文的n-gram相似度計算得出。BLEU值中n-gram的取值為4。另外,也進行了翻譯實例分析。主要對比分析標(biāo)點修正前后機器翻譯對于小句間關(guān)系疏密的處理等。

4.3 實驗結(jié)果

由實驗結(jié)果(表5)可見:

(1)隨著逗號增多,即句子包含的小句數(shù)增多,句長增大,機器翻譯效果變差,充分證明長句越長對機器翻譯的挑戰(zhàn)越大。

(2)在包含3到5個逗號的語段文本內(nèi),本文比基準方案的翻譯質(zhì)量整體有所提高;其中在更穩(wěn)健翻譯系統(tǒng)(Opus-mt)上,本文的BLEU值分別提高0.86、0.97和1.28,也即隨著源語文本長度的增加,本文的優(yōu)勢更明顯。

(3)本文也適應(yīng)于文學(xué)翻譯,在Opus-mt系統(tǒng)上,本文方法比基準模型提升0.69個BLEU值。一般認為文學(xué)翻譯難度大,主要是文學(xué)文本中更多人物對話和敘事,也更多涉及日常生活,內(nèi)容容易理解,但也因此句子口語性強,結(jié)構(gòu)更靈活,可斷可連的句子更多,句子邊界相比更模糊,翻譯斷句等難度更大。本文可為文學(xué)機器翻譯難題的解決提供一種特別思路。

(4)本文方法對于相對較短的句子(包含3個以下逗號的語段文本)翻譯,并沒有體現(xiàn)出優(yōu)勢。這一方面反映出短句翻譯并非機器翻譯難題,另一方面也反映出本文方法也還未能更好識別真句逗號。這是因為隱性句逗號識別模型僅專注于隱性句逗號的識別,而暫時忽視了真句逗號的問題。這無疑需要在進一步工作中予以合理解決。

4.4 實例分析

表6分別給出了漢語原文與其機器翻譯結(jié)果和經(jīng)本文方法修正標(biāo)點后的漢語修正文本與其機器翻譯結(jié)果。

實例1 文本選自WMT2018的新聞文本。修正文本將S4后的逗號改為句號,修正后S3、S4、S5、S6間的關(guān)系遠近更清晰,邏輯語義更明確。對比修正文本翻譯與原文翻譯可以發(fā)現(xiàn),修正文本翻譯更好地反映了S3與S4的關(guān)系,S5與S6的關(guān)系,而且相比原文翻譯語法結(jié)構(gòu)也更合理。

實例2 文本選自WMT2023的文學(xué)文本。修正文本將S2后的逗號改為句號,將S3后的句號改為逗號,將S5后的逗號改為句號。修正后S3、S4、S5間的緊密關(guān)系得以凸顯,包括S3與S4的遞進性關(guān)系(都是“他們都認為”的內(nèi)容,并且用“而”連接),S5與S3、S4間的因果性關(guān)系(由“因此”體現(xiàn))。并S3-5與S1-2和S6-6的關(guān)系距離也相對拉開,顯得更清晰。對比修正文本翻譯與原文翻譯,修正文本翻譯較好地反映各S間關(guān)系的語義遠近與邏輯關(guān)系關(guān)系。

5 結(jié)束語

針對長句機器翻譯難題,本文提出基于隱性句號逗識別的漢語長句機器翻譯方法。本文首先構(gòu)建了隱性句逗號數(shù)據(jù)集,并基于預(yù)訓(xùn)練模型實現(xiàn)隱性句逗自動識別;進而將隱性句逗號識別模型作為翻譯數(shù)據(jù)預(yù)處理模塊與翻譯模型結(jié)合,以解決漢語長句翻譯難題。實驗結(jié)果顯示本文方法對長句的翻譯性能有顯著提升,而且長句越長效果越佳;這一方法對于提升文學(xué)翻譯的長句翻譯也有明顯效果。未來我們將進一步完善隱性句逗號識別方法,特別是考慮真實語境中所有句逗號(真實句逗號與隱性句逗號)的識別問題,并將探索直接在機器翻譯模型中融入隱性句逗號的理解。

注釋

①數(shù)字序號代表漢英小句序號;漢語隱性句逗號與其對應(yīng)英譯標(biāo)點用紅色[]標(biāo)出,下同。例①a、b及其小句切分采用自馮文賀(2019:1)。

②網(wǎng)址分別為:https://www.statmt.org/wmt2018/translation-task.html;https://aclanthology.org/events/wmt-2023/2023wmt-1.

*張文娟為本文通訊作者。

參考文獻

馮文賀. 漢英篇章結(jié)構(gòu)平行語料庫構(gòu)建與應(yīng)用研究[M]. 北京: 科學(xué)出版社, 2019.‖F(xiàn)eng, W.-H. The Construction and Application of Chinese-English Discourse Treebank[M]. Beijing: Science Press, 2019.

馮文賀 李青青. 漢語復(fù)句的成分共享與英譯斷句[J]. 外語教學(xué)與研究, 2022(5).‖F(xiàn)eng, W.-H.," Li, Q.-Q. Constituent Sharing in Chinese Complex Sentence and the Segmentation of" Its English Translation[J]. Foreign Language Teaching and Research, 2022(5).

黃河燕 陳肇雄. 基于多策略分析的復(fù)雜長句翻譯處理算法[J]. 中文信息學(xué)報, 2002(3).‖Huang, H.-Y., Chen, Z.-X. The Hybrid Strategy Processing Approach of" Complex Long Sentence[J]. Journal of Chinese Information Processing, 2002(3).

賈愛鑫 李軍輝 貢正仙 張 民. 融合目標(biāo)端上下文的篇章神經(jīng)機器翻譯[J]. 中文信息學(xué)報, 2024(4).‖Jia, A.-X., Li, J.-H., Gong, Z.-X., Zhang, M. Mo-deling Target-side Context for Document-level Neural Machine Translation[J]. Journal of Chinese Information Processing, 2024(4).

李 幸 宗成慶. 引入標(biāo)點處理的層次化漢語長句句法分析方法[J]. 中文信息學(xué)報, 2006(4).‖Li, X., Zong, C.-Q. A Hierarchical Parsing Approach with Punctuation Processing for Long Chinese Sentences[J]. Journal of Chinese Information Processing, 2006(4).

呂叔湘. 漢語語法分析問題[M]. 北京:商務(wù)印書館, 1979.‖Lv, S.-X. Analyses of Chinese Grammar[M]. Beijing: The Commercial Press, 2022.

宋 柔. 小句復(fù)合體的語法結(jié)構(gòu)[M]. 北京:商務(wù)印書館, 2022.‖Song, R. Grammatical Structure of Clause Complexes[M]. Beijing: The Commercial Press, 2022.

趙朝永 王文斌. 漢語流水句與英語復(fù)雜句結(jié)構(gòu)特性對比:英漢時空特質(zhì)差異視角[J]. 外語教學(xué), 2020(5).‖Zhao, C.-Y., Wang, W.-B. A Structural Contrast Between Chinese Run-on Sentences and English Complex Sentences from the Perspective of English Temporality and Chinese Spatiality[J]. Foreign Language Education, 2020(5).

Atrio, L.R., Allemann, A., Dolamic, L., Popescu-Belis, A. A Simplified Training Pipeline for Low-resource and Unsupervised Machine Translation[R]. Proceedings of" the Sixth Workshop on Technologies for Machine Translation of" Low-Resource Languages(LoResMT 2023), 2023.

Chen, J., Li, X., Zhang, J., Zhou, C., Cui, J., Wang," B., Su, J. Modeling Discourse Structure for Document-level Neural Machine Translation[J]. arXiv Preprint arXiv:2006.04721. 2020.

Devlin, J., Chang, M.W., Lee, K., Toutanova, K. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[R]. Proceedings of the 2019 Conference of the North American Chapter of" the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019.

Du," J., Grave, E., Gunel, B., Chaudhary, V., Celebi, O., Auli, M., Stoyanov, V., Conneau, A. Self-training Improves Pre-training for Natural" Language Understanding[R]. Proceedings of the 2021 Conference of North American Chapter of the Association for Computational Linguistics, 2021.

Goh, C.L., Sumita," E. Splitting Long Input Sentences for Phrase-based Statistical Machine Translation[R]. The Association for Natural" Language Processing, 2011.

Guo, J., Chen, X., Liu, Z., Yuan, W., Zhang, J., Liu, G. Context Modeling with Hierarchical Shallow Attention Structure for Document-level Nmt[R]. 2022 Internatio-nal Joint Conference on Neural Networks (IJCNN), 2022.

Hung, B.T., Minh, N.L., Shimazu, A. Sentence Splitting for Vietnamese-English Machine Translation[R]. Fourth International Conference on Knowledge and Systems Engineering, 2012.

Koehn, P., Knowles, R., Six Challenges for Neural Machine Translation[R]. Proceedings of the First Workshop on Neural Machine Translation, 2017.

Kuang, S., Xiong, D. Automatic Long Sentence Segmentation for Neural Machine Translation[A]. In: Lin, C.Y., Xue, N., Zhao, D., Huang, X., Feng, Y.(Eds.), Natural Language Understanding and Intelligent Applications[C]. Cham: Springer, 2016.

Li, D., Arivazhagan, N., Cherry, C., Padfield, D. Sentence Boundary Augmentation For Neural Machine Translation Robustness[R]. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing, 2021.

Liu, M., Tu, Z., Wang, Z., Xu, X. LTP: A New Active Learning Strategy for Bert-CRF Based Named Entity Re-cognition[J]. arXiv preprint arXiv: 2001.02524. 2020.

Lukasik, M., Dadachev, B., Papineniet, K., Simoes, G. Text Segmentation by Cross Segment Attention[R]. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.

Oliveira, F., Wong, F.," Hong, I.S. Systematic Processing of" Long Sentences in Rule Based Portuguese-Chinese Machine Translation[R]. Computational Linguistics and Intelligent Text Processing: 11th International Conference, 2010.

Papineni," K., Roukos, S., Ward, T.," Zhu, W.J." Bleu: a Method for Automatic Evaluation of Machine Translation[R]. Proceedings of the 40th Annual meeting of the Association for Computational Linguistics, 2002.

Pouget-Abadie, J., Bahdanau, D., Van Merrienboer, B., Cho, K., Bengio, Y. Overcoming the Curse of Sentence Length for Neural Machine Translation Using Automatic Segmentation[R]. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, 2014.

Sutskever, I., Vinyals, O., Le, Q.V., Sequence to Sequence Learning with Neural Networks[R]. Proceedings of the 27th International Conference on Neural Information Processing Systems, 2014.

Tan, X., Zhang, L., Zhou, G. Document-Level Neural Machine Translation with Hierarchical Modeling of Global Context[J]. Journal of Computer Science and Technology, 2022(2).

Tiedemann, J., Thottingal, S. OPUS-MT-building Open Translation Services for the"" World[R]. Proceedings of" the 22nd Annual Conference of the European Association for Machine Translation, 2020.

Tien, H.N., Minh, H.N.T." Long Sentence Preprocessing in Neural Machine Translation[R]. IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF), 2019.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I. Attention is all You Need[R]. Proceedings of the 31st International Conference on Neural Information Proces-sing Systems, 2017.

Wicks, R., Post, M. A Unified Approach to Sentence Segmentation of Punctuated Text in Many Languages[R]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021.

Xiong, H., Xu, W., Mi, H., Liu, Y., Liu, Q. Sub-sentence Division for Tree-based Machine Translation[R]. Proceedings of the ACL-IJCNLP 2009 Conference, 2009.

Yang, C., Sheng, L., Wei, Z., Wang, W. Chinese Named Entity Recognition of" Epidemiological Investigation of Information on COVID-19 Based on BERT[J]. IEEE Access, 2022(10).

Yin, B., Zuo, J., Ye, N. Long Sentence Partitioning Using Top-down Analysis for Machine" Translation[R]. IEEE 2nd International Conference on Cloud Computing and Intelligence Systems, 2012.

Zhang, J., Gan, R., Wang, J., Zhang, Y., Zhang, L., Yang, P., Gao, X., Wu, Z., Dong, X., He, J., Zhuo, J., Chen, C. Fengshenbang 1.0: Being the Foundation of" Chinese Cognitive Intelligence[J]. arXiv preprint arXiv: 2022.2209.02970.

Zhuocheng," Z., Gu, S., Zhang, M., Feng, Y. Addressing the Length Bias Challenge in Document-Level Neural Machine Translation[R]. Findings of the Association for Computational Linguistics: EMNLP, 2023.

定稿日期:2024-12-10【責(zé)任編輯 謝 群】

主站蜘蛛池模板: 亚洲人成网站观看在线观看| 亚洲 欧美 偷自乱 图片| 欧美成人第一页| 亚洲精选高清无码| 在线免费亚洲无码视频| 午夜福利免费视频| 米奇精品一区二区三区| 91免费观看视频| 国产亚洲精品yxsp| 国产精彩视频在线观看| 亚洲第一香蕉视频| 亚洲人成网站日本片| 亚洲中文在线看视频一区| 国产精品99r8在线观看| 日本免费新一区视频| 91精品国产自产在线老师啪l| a级毛片免费看| 免费在线不卡视频| 亚洲精品无码抽插日韩| 精品国产福利在线| 国产激情在线视频| 欧美日韩一区二区在线播放| 日韩a级片视频| 亚洲午夜国产精品无卡| 精品亚洲麻豆1区2区3区| 一级爱做片免费观看久久 | 欧美日本激情| 人妻一本久道久久综合久久鬼色| 99re免费视频| aaa国产一级毛片| 久久www视频| 亚洲免费黄色网| 亚洲愉拍一区二区精品| 亚洲无限乱码一二三四区| 日本黄色不卡视频| A级全黄试看30分钟小视频| 亚洲二三区| 国产精品免费电影| 亚洲精品成人片在线观看| 97国产一区二区精品久久呦| 99免费在线观看视频| 国产成人狂喷潮在线观看2345| 在线观看欧美国产| 91亚洲视频下载| 午夜丁香婷婷| WWW丫丫国产成人精品| 欧美人与动牲交a欧美精品| 欧美成人怡春院在线激情| 亚洲成a∧人片在线观看无码| 呦女精品网站| 亚洲第一黄片大全| 国产高清免费午夜在线视频| 日本不卡在线视频| 亚洲男人在线天堂| 亚洲国产精品VA在线看黑人| 久久综合伊人 六十路| 88av在线| 国产精品网址你懂的| 日本不卡免费高清视频| 欧美精品1区2区| 在线观看国产精美视频| 亚洲91精品视频| 国产地址二永久伊甸园| 国产精品网曝门免费视频| 一本大道AV人久久综合| 精品国产乱码久久久久久一区二区| 亚洲黄网在线| 青青青国产视频| 免费xxxxx在线观看网站| 日韩成人在线视频| 亚洲国产精品国自产拍A| 伊人精品视频免费在线| 成人福利在线视频免费观看| 中文字幕在线看| 久久99精品久久久久久不卡| www.亚洲一区二区三区| 欧美在线一二区| 国产制服丝袜91在线| 欧美亚洲香蕉| 97视频精品全国在线观看| 欧美国产在线一区| 亚洲制服丝袜第一页|