999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義缺省對機器翻譯質量的影響研究

2023-05-30 12:21:30馬建軍田思琪
計算機應用文摘 2023年1期

馬建軍 田思琪

關鍵詞:語義缺省;機器翻譯;世界知識

1引言

自然語言中存在無數被我們省略的背景知識,即存在語義缺省現象。語義缺省是一種特殊的省略現象,在形式上表現為語義空位。人類使用的大部分句子中都存在語義缺省,缺省的內容就是人們熟知的世界知識。世界知識是在語言研究中,幫助讀者或聽眾解釋單詞和句子含義的非語言信息,也被稱為語言外知識。機器若要完全理解人類語言表達背后的意思,就必須以某種方式“發現”人們在語言交流中假定和省略的一切。

研究者一直以來從不同角度研究機器翻譯質量和語義缺省。有學者聚焦機器訓練語料的數量對機器翻譯質量的影響,也有學者從翻譯者的角度立足語用推理、語境分析等試圖通過譯后分析提高翻譯質量,更有大量學者關注語義缺省的現象,分析語義缺省特別是文化上的語義缺省對譯員的影響,但幾乎沒有文章研究語義缺省現象對機器翻譯的影響。

因此,本文選擇語義缺省較多的新聞標題作為研究語料,以Jaszczolt的缺省語義學理論為指導,研究語義缺省現象對機器翻譯質量的影響。研究進一步完善語義缺省框架;選擇百度翻譯作為機器翻譯系統,比較加入世界知識前后的英文標題的機器翻譯結果來分析語義缺省對機器翻譯的影響:提出補充世界知識的方法,從而進一步提高機器翻譯質量。

本研究旨在解決以下三個問題:(1)英語新聞標題中都存在哪些語義缺省?(2)語義缺省是否影響機器翻譯質量?如果有影響,如何影響?(3)如何補充世界知識改善機器翻譯質量?

2語義缺省理論框架

Jaszczolt把語義缺省區分為認知缺省和社會文化缺省兩種基本類型。認知缺省的信息是同一語言社團共享知識的默認值,當跨語言社團成員對同一概念的意義可能產生認知變異日寸,原文的缺省值需要在譯語中轉化為必要值。社會文化缺省是說話人在與其意向受眾交流時對雙方共有的相關文化背景知識的省略,但被隱去的語用值又可能是異域受體的期待信息。本文結合新聞語料以及Saba列舉的語義缺省的例子,在Jaszczolt的缺省語義學基礎上,根據引起語義缺省的因素,對認知缺省和社會文化缺省進一步分類。認知缺省從詞匯和句法兩個層面分析引起缺省的因素,而社會文化缺省則從詞匯和修辭兩個層面分析。對每一個層面都概括了引起語義缺省的主要因素,具體分類如圖1所示。

詞匯層面引起語義缺省的主要因素是多義詞:句法層面的主要因素包括隱藏關系和回指:而修辭層面的主要因素包括隱喻和轉喻[2]。各缺省因素具體定義如下。

多義詞:當一個詞或句子有一個以上的意義視為多義詞,主要是因為句子中的同一個詞有幾種不同的意義或理解而引起的。

隱藏關系:指隱藏的句法關系,包括并列、主謂、修飾和介詞短語附著等關系。并列關系指的是由連詞and或or等將兩個或兩個以上句子成分(如短語或小句)連接起來,這些句子成分在語法地位上沒有主次之分。

回指:一般情況下,如果同一個項目連續多次出現,就用同一個代詞而不重復用同一個名詞來指代它。代詞一般代表名詞短語,但也可以代表動詞短語、整個句子或段落[3]。

暗喻:表示一種物體或概念的詞以及短語代替另一種物體或概念,以暗示它們之間的相似性或類比性。

轉喻:指一個事物或概念是由與該事物或概念密切相關的事物的名稱來指代。

3研究設計

3.1研究語料

考慮到新聞標題簡潔生動的特點,本文從《中國日報》中文版和英文版中選取平行語料。從2020年9月19日~ 2022年4月6日共有1067條雙語新聞標題,選擇英文標題做翻譯語料,其中中文標題作為參考來衡量機器翻譯的質量。隨后,在清洗語料的過程中,刪除非平行語料新聞83條,不含缺省的新聞484條,最終得到含語義缺省的新聞標題對500條,缺省比例47%,如表1所列。新聞內容主要涵蓋經濟、政治等話題。

3.2數據分析

結合語義缺省理論框架(圖1)對語料中的語義缺省現象進行詳細分類[4]。為了盡量減少任意性的風險并保證結果的可靠性,項目組邀請了研究人員以外的第二位語料標注者對語料進行二次劃分,針對不一致的語料標注進行充分討論,最終得出相關分類結果。

之后,選擇目前國內使用率較高的百度翻譯作為機器翻譯系統,實驗方法是將英文標題原語(記為ST1)放人百度翻譯中得到第一版中文譯文(記為TT1),再將缺省的世界知識補充進原句中,將補充好世界知識的英文語料(記為ST2)再次放入機器翻譯中,得到第二版中文譯文(記為TT2),將加入世界知識前后的兩版機器翻譯結果與《中國日報》(雙語)中給出的中文標題(記為REF)進行對比,總結語料中世界知識的出現是否會影響機器翻譯質量。語料統計結果使用SPSS 25.0中文版進行獨立T檢驗[5]。

4結果和討論

4.1新聞標題中的語義缺省類型

《中國日報》英文新聞標題中的語義缺省類型如表2所列。表2表明,語義缺省現象涵蓋各種類型。其中,認知缺省現象占比57%,而社會文化缺省占比43%。這說明認知缺省和社會文化缺省在新聞標題的缺省中具有同等研究地位,不可忽視[6]。

從影響缺省的因素來看,多義詞導致的缺省是最多的,共占比63%,其中多義詞導致的認知缺省占比26%,其導致的社會文化缺省占比37%。研究表明,多義詞導致認知缺省主要是由于絕大多數詞匯,尤其是名詞和動詞,都具有不止一個常用義項,而社會文化缺省中的多義詞主要在于新詞和社會機構縮略語。

其次是隱藏關系,占比23%。表3進一步分析了各種隱藏關系,其中主謂關系比例最高,占隱藏關系中的62%,其次是修飾關系,占比34%,而并列關系和介詞短語附著占比很低,各占比1%和3%。研究表明,為了以最少的篇幅傳遞最多的信息,新聞標題多用介詞和數詞,選擇省略部分動詞或者名詞,因此隱藏了主謂關系或修飾關系。比如,例1隱藏了并列關系,該句前后兩部分是并列關系,“and”被省略[7]。例1(并列關系):Young people spend so long staring atscreens(and) half may need glasses in 30 (2021-10-18)

占比較少的是回指、轉喻和隱喻,其中回指和轉喻分別占比7%和5%,而隱喻是最少的,僅占比1%。其主要原因是受限于新聞標題的體裁。回指較少是由于新聞標題內容精煉,一句話中需要反復提及同一個詞語的情況鮮少出現:而隱喻和轉喻作為修辭手法,雖然生活中隨處可見,但是新聞標題講求高效客觀傳達信息,因此語料中也并不多見。比如,例2中“it”指前文描述的“藝術家攜款逃跑的現象”,而不是“money”。例2(回指):Danish artist takes museum'smoney and runs,

calls it(this phenomenon)

art( 2021-09-29)

4.2缺省世界知識對機器翻譯質量的影響

通過比較加入世界知識前后譯文的質量,可以分析語義缺省現象對機器翻譯質量的影響。表4說明了加人世界知識前后譯文的翻譯正確率,TTI指的是ST1(缺省世界知識)的譯文,TT2則是ST2(補充世界知識)的譯文。統計結果顯示,兩版譯文有顯著差異(p=0.0009<0.05),表明補充世界知識和機器翻譯正確率之間的關系有統計學意義,即各類缺省中世界知識的補充都能提升機器翻譯質量[8]。

表5詳細分析了補充世界知識對機器翻譯結果的影響情況,總體來看,通過補充世界知識,各類別機器翻譯錯誤情況都有所改觀,并且不存在加入世界知識后翻譯由正確變為錯誤的情況。其中,42. 6%的語料在補充世界知識后機器翻譯結果從錯誤變成正確,說明這些語義缺省現象是影響機器翻譯質量的主要原因:52.2%的語料在加人世界知識前后翻譯結果均正確,說明某些語義缺省現象并沒有影響機器翻譯結果:而仍有5.2%的語料在加人世界知識后翻譯結果仍然錯誤,說明影響機器翻譯的因素較為復雜,語義缺省可能不是唯一的影響因素。

4.3機器翻譯中對世界知識補充的建議

由于多義詞中的縮略語和回指導致的缺省,主謂關系中因果關系的缺省,修飾關系中數字后名詞的缺省和并列關系中中英文缺省習慣一致,同樣不需要額外補充世界知識也能得到準確翻譯[9-10]。

另外,在需要補充的各類缺省情況中,本文將從補充世界知識的難度的角度進行分類建議。對于機器來說,可以通過添加功能詞或者上下文實詞的搭配完成世界知識的補充。多義詞中的轉義詞特別是名詞可以通過添加上下義的名詞進行補充,從而明確詞義。而多義詞的其他情況、隱藏關系中主謂關系、修飾關系和介詞短語附著關系以及隱喻,由于補充的世界知識多為動詞名詞等實詞,需要總結推理才能得出結果,人工補充尚且有歧義,對于機器而言難度就更大。并且,多義詞引起的缺省占比最大,存在補充世界知識后機器翻譯的結果依然錯誤的情況。

5結束語

本文基于Jaszczolt對語義缺省的分類理論,結合基礎語法和Saba博士對于世界知識的舉例,進一步完善了語義缺省的框架,并針對英語新聞標題中的語義缺省以及世界知識的補充進行了討論。本文發現,在各類缺省中,多義詞對機器翻譯的影響最為明顯,相比之下,其他類別的缺省基本都可以通過加入相應世界知識得到正確的翻譯。

對于機器翻譯由于缺省導致的多義詞現象,應加入范疇類或搭配類世界知識使含義顯性化:而對于句法中隱藏關系的缺省現象、介詞短語附著和回指,則應添加動詞分詞形式或不定式將隱藏的關系展現出來:修辭層面的轉喻和隱喻則應結合語境添加相應的名詞或者動詞分詞形式。還有一部分缺省,如并列,由于中英文缺省習慣一致,所以即使句子中存在缺省現象,也不影響機器翻譯結果。絕大多數機器翻譯不通順的句子在加人世界知識后都可以變得更加流暢通順,這是因為世界知識將相關詞匯更為明顯地連接了起來,使得原本隱藏在句子下的關系變得清晰透明。

主站蜘蛛池模板: а∨天堂一区中文字幕| 久久久精品无码一区二区三区| 欧美天堂在线| 欧美成人第一页| 思思99思思久久最新精品| 婷婷激情五月网| 欧美中日韩在线| 夜夜操天天摸| 欧美在线中文字幕| 国产在线视频二区| 99精品这里只有精品高清视频| a毛片在线免费观看| 免费看a毛片| 九九热这里只有国产精品| 免费毛片全部不收费的| 国产美女一级毛片| www亚洲精品| 九九热视频在线免费观看| 曰AV在线无码| 视频国产精品丝袜第一页| 亚洲美女一级毛片| 狠狠色噜噜狠狠狠狠色综合久 | 国产精品粉嫩| 亚洲欧美另类专区| 中文字幕色在线| 国产综合在线观看视频| 精品国产美女福到在线不卡f| 国产午夜人做人免费视频| 国产成人久久777777| 91久久国产综合精品女同我| 国产精品人成在线播放| 国产精品女主播| 又爽又黄又无遮挡网站| 亚洲欧美成人影院| 91破解版在线亚洲| 免费日韩在线视频| 国产产在线精品亚洲aavv| 最新日本中文字幕| 99精品国产自在现线观看| 国产精品分类视频分类一区| 在线永久免费观看的毛片| 一级毛片基地| 99re在线观看视频| 亚洲另类色| 国产无遮挡裸体免费视频| 亚洲三级影院| 欧洲极品无码一区二区三区| 丁香五月婷婷激情基地| 国产精品久久久久无码网站| 欧美日韩久久综合| 97影院午夜在线观看视频| 国产凹凸一区在线观看视频| 亚洲swag精品自拍一区| 欧美亚洲激情| 久久福利片| 精品无码国产一区二区三区AV| 国产xx在线观看| 久久综合伊人 六十路| 欧美中文字幕一区| 国产在线视频二区| 国产福利大秀91| 99er精品视频| 综1合AV在线播放| 在线观看国产黄色| 九九免费观看全部免费视频| 高h视频在线| 日韩A级毛片一区二区三区| 国产精品自在线天天看片| 日本亚洲国产一区二区三区| 亚洲床戏一区| 亚洲天堂网站在线| 国产精女同一区二区三区久| 国产精品无码AⅤ在线观看播放| 免费观看成人久久网免费观看| 一区二区欧美日韩高清免费| 午夜毛片免费观看视频 | 无码网站免费观看| 国产女人喷水视频| 精品综合久久久久久97| 好紧好深好大乳无码中文字幕| 欧洲亚洲一区| 毛片在线播放网址|