999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

構造日漢翻譯系統的探索

2021-06-04 03:09:20王澍
微型電腦應用 2021年5期
關鍵詞:語義記憶分析

王澍

(西安培華學院 外語系, 陜西 西安 710125)

0 引言

隨著我國對外交流與合作程度的不斷加深,日常生產生活中,包括貿易、文化交流、旅游和商務等跨國活動日益頻繁,受到不同國家語言的限制,增加了交流和溝通的難度,促使不同語言間的機器翻譯系統得到快速發展,計算機、機器學習、人工智能等技術為翻譯系統提供了強大的技術支撐,使不同語言間的溝通障礙問題得以有效解決,同時降低了翻譯成本、提高了語言翻譯的便利性。在機器翻譯中,識別由名詞短語構成的句子是句法分析及翻譯的基礎和關鍵,最終翻譯結果的準確性取決于名詞短語識別的精確度。

1 設計分析

在全球化發展背景下,日益發達的科技與文化高度以及普及應用的互聯網,暴露出了不同語種間的溝通障礙,促使涉及到多學科的機器翻譯(涵蓋了語言學、計算機、認知科學等)快速發展起來。目前,機器翻譯研究仍然是包括信息處理及人工智能等領域在內的一項研究熱點,單獨應用這些機器翻譯方法及策略時,在語言歧義、多義選擇、慣用表達等方面普遍存在難以有效解決的弊端。

因此,為彌補使用單一策略和方法存在的問題和不足,關于結合運用多種翻譯策略及算法的翻譯系統方面的研究已取得了一定的進展,如一種基于多種翻譯策略的多Agent機器翻譯研究(陳群秀等),并使用多Agent構建了一種日漢機器翻譯系統,該系統結合運用了斷段分析方法、翻譯記憶、實例、配價模式等多種翻譯方法與策略,有效解決了日語中的譯詞選擇問題,具有較高的翻譯準確率,并有效保證了最終翻譯結果的可讀性。本文在現有研究成果的基礎上,提出了基于多策略的日漢機器翻譯系統,結合運用了特征提取算法、漢語分析、翻譯記憶技術、基于實例與斷段分析翻譯等方法和技術,闡述了該系統的整體結構和流程及各子系統的核心技術與算法[1]。

2 系統設計

2.1 翻譯流程

本文設計的基于多策略的日漢機器翻譯系統主要由4個子系統構成。漢語分析子系統,主要負責分析漢語句子,為其他子系統提供支撐,采用由淺至深的分析層次,依次分析詞法、句法、淺層語義;翻譯記憶子系統,主要負責完成翻譯過程,該過程主要通過翻譯記憶技術和翻譯記憶庫的結合運用實現;翻譯子系統,在翻譯具體句子時具體通過采用基于樹到串對齊的相應實例模板實現;基于配價和斷段分析的子系統,對于以動詞為核心的句子,當這些句子是基于動詞配價模式和規則時,在翻譯過程中會運用到語義分類綜合模型,綜合使用配價規則和斷段分析思想完成句子處理過程。系統的翻譯流程如圖1所示。

圖1 系統日漢翻譯流程

各子系統在實際翻譯過程中需基于不同策略的初步融合實現,漢語翻譯流程主要分為3部分。在翻譯過程中,對句子分析的層次會逐步深入,此時伴隨著粒度單位從句子到短語或詞的過渡,機器翻譯過程通過融入不同的語言層面實現多策略的翻譯目的,參照已有的實例/規則對待翻譯句進行匹配,并以翻譯結果的評分展現,實現對可翻譯程度更加準確的衡量,為有效衡量翻譯質量,在翻譯子系統間分別設置兩個閾值(本文設置為0.9和0.85,可按需調整),前一子系統的譯文評分低于閾值時,需進入下一子系統進行深入處理,滿足閾值要求方可直接以其譯文輸出作為最終輸出結果[2]。

2.2 特征提取算法

日漢翻譯過程需基于最佳語境的映射實現,本文使用特征提取算法實現映射內容的有效提取,以實現特征語境的標準提取,假設,N表示存在的翻譯語境數量,具體表示為Ni(i=1,2,…,K),其所包含的語義翻譯種類由K(n維向量集合)表示,相應的語義翻譯用概率由Xi={Xi1,Xi2,…,XiN}表示,i=1,2,…,k表示n維向量集合,基本標準翻譯語境通過限定過程可實現,αi表示到翻譯語義翻譯語境,具體表達式[3]如式(1)。

(1)

其中,α表示最佳語境,其選定過程的表達式如式(2)。

(2)

(3)

(4)

β=[α1,α1,…,αR]

(5)

3 各子系統中的核心技術

3.1 漢語分析子系統

系統翻譯過程會涉及到不同層面的漢語分析結果,均需通過漢語分析子系統向其他子系統傳遞以進行后續翻譯,不同子系統通常具有不同的漢語分析需求,漢語分析子系統流程如圖2所示。

圖2 漢語分析子系統流程

針對待翻譯的源語言,基于語言學層面進行分析,更有利于提高譯文的準確率及可讀性。

選用漢語分詞和句法分析功能庫作為詞法分析的基本分詞模塊,并采用基于錯誤驅動的方法進行分詞后處理,進而實現對錯誤分詞結果的合理調整及句法分析等后續步驟的有效簡化,并根據規則合并部分分詞結果以得到漢日詞典中的短語,進一步提高譯文結果的準確性。句法分析同樣使用上述功能庫,在標注句法成分時結合運用內部和外部的雙重標記,進行句法分析的后續處理時,對分析中出現的部分錯誤結果以及短語結構歧義,通過利用現代漢語語義知識庫和短語搭配詞典完成相應的糾正和歧義消解處理過程。由基于配價和斷段分析的子系統進一步處理漢語淺層語義分析結果,通過語義角色標注分析淺層語義,可使翻譯的層面與粒度更深更細,根據句法分析結果,句法結構樹在語義角色標注前即轉換成了依存樹,并對分詞結果根據句法規則抽取句子主干形成捆綁樹。在完成不同成分的語義角色標記的基礎上幫助機器理解在表達句子含義時各部分起到的作用,需利用語言學上的知識實現對語義角色的準確標注,如介賓短語利用結構語義特征完成標注。使用動詞相關的語義知識庫標注核心為動詞的依存樹,一個動詞通常包含多個論旨模式,已通過述語動詞詞典進行定義,漢語中常見的短語類型如介賓短語也是語義角色標注和識別的重點,在系統翻譯包含較多格助詞的日語句子時,需標示其主語、賓語和以介賓短語為主的格助詞,通過在漢語分析過程中對介賓短語進行識別及語義角色標注,以實現系統對介賓短語的準確翻譯,同一語義角色的介賓短語,可將某類介賓短語通過使用介詞詞典標注其可能形式,并在此基礎上識別出特定類介賓短語,據此即可識別此類介賓短語并得到相應的譯文[4]。

3.2 基于翻譯記憶技術的子系統

該翻譯子系統主要負責對翻譯記憶庫中已有內容進行處理,從而快速準確地獲取譯文結果。實際翻譯過程中遇到完全相同句子的可能性較小,為快速找到相同和相似例句的翻譯記憶,滿足大規模文本翻譯需求,同時提高翻譯記憶庫的檢索與處理效率,基于翻譯記憶技術的子系統主要負責完成相同句和相似句查找,分別采用高效檢索和模糊檢索完成,該子系統的流程如圖3所示。

圖3 翻譯記憶子系統流程設計

為高效準確地檢索出相同句,在檢索翻譯記憶庫中的原文語句時,采用了哈希表的方法,哈希表算法可有效實現字符串索引(具體通過映射原句的字符實現),在無法找到完全相同句子的情況下則進行模糊查找,對于以中文詞為單位的索引,使用后綴數組的方式查找,后綴數組能夠便捷高效地檢索出某一子串在大型語料庫中的出現次數及相應語句。在記憶庫中對待翻譯語句進行檢索時,在完成分詞處理后轉換為Bigram數組,然后完成對包含該數組句子的查找與翻譯,再采用字符串編輯距離的方法計算出其與待翻譯句間的相似度,并輔助人工翻譯解決這些不同之處的翻譯[5]。

3.3 基于實例的翻譯子系統

基于實例的子系統(EBMT)在上述子系統難以給出滿意譯文時啟動,使用樹到串的對齊方式組織實例,將漢日文的對齊關系采用實例翻譯單元的形式保存,EBMT主要分為分析、匹配抽取和生成3步,其核心在于匹配待翻譯句的句法樹和實例翻譯單元,滿足樹到串形式的翻譯單元的特征:源語言是句法樹中的一棵子樹;在產生于同一實例的翻譯單元中,目標語言為包含或并列關系。判斷實例句各句法節點,根據實例句生成翻譯單元。將漢語分析子系統中的句法樹作為分析階段中實例翻譯的輸入。在匹配抽取階段中,先從下向上匹配待譯句的句法分析樹,找到實例庫中與各句法節點類似的實例,再通過計算二者間的相似度實現最相似實例的獲取。源語言文本和源語言句法樹片段分別存儲于翻譯記憶庫和實例庫中,其中句法樹片段需經抽象歸納處理后再進行存儲,相似實例查找中的結構相似度和語義相似度分別通過比較句法樹結構和樹中節點完成計算過程,兩個詞語在語義上的相似度通過計算其在語義分類樹上的距離確定,查找各句法節點的相似實例后生成最終譯文。錯誤的句法分析樹在EBMT子系統中也能得出正確的譯文結果[6]。

3.4 基于配價和斷段思想的子系統

配價語法屬于基于規則的機器翻譯方法的一種,配價模式翻譯的中心詞為漢語的動詞,以動詞為依據確定譯文方式及內容。可以對詞語順序不做嚴格要求的句法依存樹作為該子系統的輸入,在翻譯日語時,適用于輔助生成日文的句法分析中的依存關系樹,其基本組成單元為句節,句節間的語序無嚴格要求,各句節的語義作用相對獨立,如私は朝に家でご飯を食べた即由句節私は、朝に、家で、ご飯を、食べた構成,食べた作為核心謂語動詞需放到句尾,剩余部分的順序無明確要求。該子系統主要通過模式匹配和斷段分析得到翻譯結果,模式匹配主要采用規則匹配算法實現,針對待翻譯部分,根據句子中主動詞的相應配價模式獲得同其匹配度最高的規則,進而得出翻譯結果,配價規則匹配適用于處理單句,基于依存樹的規則匹配則將復雜句子拆分成多個子句,由一組詞序列表示待匹配的部分內容,分別對各子句進行配價規則匹配。斷段分析階段,先利用長句、難句中的連詞、動詞等進行拆分,得到多個簡單句再依次完成模式;翻譯同模式不匹配的簡單句時,可以標注的語義角色、句法功能等為依據翻譯部分內容。譯文生成階段,先生成匹配部分譯文,未能匹配的短語需通過進一步處理生成最終的譯文結果,為滿足中日文不同的表達需求,將表示時態的助詞、副詞、否定詞等轉換成日文的助動詞等附加成分[7]。

4 實驗測試

為測試系統翻譯結果的準確度和可讀性,抽取1 559個實例庫中的句子作為EBMT的封閉測試集,再抽取1 500個翻譯記憶庫中的句子作為開發測試集,所有抽取句子作為基于配價和斷段分析的子系統的測試集,將預設的可接受程度作為判別,翻譯記憶庫中的句子均得出相應譯文結果,1 559個實驗用句的每個句子在不同模塊和子系統中的時間開銷,如表1所示。

表1 實驗用句的每個句子的時間開銷

子系統的運行速度較快,平均每個單詞僅需0.045 ms的單詞查找時間,記憶庫之外的句子基本得到了相似結果(15句有13句得到了準確翻譯)。封閉和開放測試及配價和斷段分析開放測試結果表明系統的翻譯效果較佳,如表2所示。

表2 準確性與可讀性測試結果

從封閉測試集中抽取100個有代表性句子(包含復雜句和簡單句),譯文準確率為97%,基于翻譯記憶技術的子系統得到了相似度高達67%的句子,對漢語分析結果的依賴較小。基于配價和斷段分析的子系統在46句淺層語義分析不正確句子中有32句翻譯正確,說明本文基于多策略的機器翻譯可有效提高翻譯系統的準確率,可滿足自動翻譯大量文本的需求[8]。

5 總結

本文主要完成了一個日漢機器翻譯系統的構建,使最終日漢翻譯結果的準確度、可讀性得到有效提高,雖然該系統初步實現了較為準確的翻譯過程,但仍需進一步擴充系統的資源,完善和優化系統的功能,包括進一步提升漢語分析性能、有效融合實例庫中的矛盾實例、在松散耦合的基礎上進行更細粒度的結合等,將是后續研究和完善的重點內容。

猜你喜歡
語義記憶分析
隱蔽失效適航要求符合性驗證分析
語言與語義
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
記憶中的他們
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲精选无码久久久| av手机版在线播放| 小说 亚洲 无码 精品| 国产丰满成熟女性性满足视频| 久久免费精品琪琪| 欧美α片免费观看| 亚洲欧美一区二区三区蜜芽| 黄色网址手机国内免费在线观看 | 香蕉视频在线观看www| 国产玖玖视频| 亚洲日韩第九十九页| 一级做a爰片久久免费| 国产自在自线午夜精品视频| 欧美性猛交xxxx乱大交极品| 精品欧美视频| 男女性色大片免费网站| 伊人成色综合网| 热热久久狠狠偷偷色男同| 午夜国产精品视频| 国产剧情无码视频在线观看| 一区二区日韩国产精久久| 日韩成人在线网站| 亚洲男人的天堂在线观看| 亚洲精品视频在线观看视频| 最新日韩AV网址在线观看| 无码中文字幕精品推荐| 蜜臀AVWWW国产天堂| 精品伊人久久久香线蕉| 亚洲精品在线影院| 性激烈欧美三级在线播放| 久久这里只有精品8| 国产丝袜无码精品| 一本二本三本不卡无码| 婷婷色一区二区三区| 久久毛片基地| 日韩欧美国产综合| 男人天堂亚洲天堂| av在线5g无码天天| 手机在线看片不卡中文字幕| 在线毛片免费| 国产亚洲欧美日韩在线观看一区二区 | 国产h视频免费观看| 国产成人亚洲毛片| 成人午夜久久| 亚洲αv毛片| 欧美爱爱网| 手机看片1024久久精品你懂的| 91麻豆精品国产91久久久久| 永久免费无码日韩视频| 亚洲最大综合网| 国产亚洲精| 国产地址二永久伊甸园| 亚洲天堂视频在线观看免费| 国产午夜不卡| 亚洲色图综合在线| 亚洲综合网在线观看| 日本欧美午夜| 高清欧美性猛交XXXX黑人猛交| a毛片免费观看| 国产精品9| 国产精品乱偷免费视频| 久久久久久国产精品mv| 97国产在线观看| 69视频国产| 在线国产91| 亚洲水蜜桃久久综合网站 | 亚洲人成网址| 国产免费人成视频网| 国产一级无码不卡视频| 一本一道波多野结衣av黑人在线| 制服丝袜亚洲| 白丝美女办公室高潮喷水视频| 91久久偷偷做嫩草影院电| 黄色在线网| 亚洲码在线中文在线观看| 国产精品入口麻豆| 婷婷综合色| 国产制服丝袜91在线| 国内老司机精品视频在线播出| 国产精品久久久久久久伊一| 国产精品999在线| 久精品色妇丰满人妻|