999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HNC理論和自動文摘的計(jì)算機(jī)輔助英漢科技翻譯模式

2012-10-29 10:21:46杜玲莉紀(jì)再祥楊繼唐
關(guān)鍵詞:語義文本理論

杜玲莉,紀(jì)再祥,周 宏,楊繼唐,王 俐

(1.武漢理工大學(xué) 外國語學(xué)院,湖北 武漢430063;2.武漢航海職業(yè)技術(shù)學(xué)院,湖北 武漢430062;3.武漢交通職業(yè)技術(shù)學(xué)院,湖北 武漢430062)

一、研究背景

HNC即概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts),它是黃曾陽創(chuàng)立的用于描述自然語言理解的理論框架。該框架以傳統(tǒng)國學(xué)研究和現(xiàn)代語言學(xué)研究成果為基礎(chǔ),其核心目標(biāo)是建立一種自然語言的計(jì)算機(jī)表述和處理模式,使機(jī)器能夠真正實(shí)現(xiàn)模擬人腦的語言感知功能。[1]它以語義表達(dá)為方向,著眼于深層次的理解,沖破了以前相關(guān)理論基于文本語言形式的句法分析思路的局限性,表達(dá)呈現(xiàn)出概念化、層次化和網(wǎng)絡(luò)化的特征。它面向整個(gè)自然語言理解,建立了強(qiáng)大而完善的語義描述體系。其內(nèi)容涵蓋了語句處理、句群處理、篇章處理、短時(shí)記憶向長時(shí)記憶擴(kuò)展處理、文本自動學(xué)習(xí)處理等方面。“在科學(xué)上為認(rèn)知科學(xué)、語言學(xué)與人工智能的研究提供了一個(gè)全新的理論框架”[2]。HNC理論模擬人腦的認(rèn)知機(jī)制,特色鮮明,在自然語言理解領(lǐng)域獨(dú)領(lǐng)風(fēng)騷,因其在計(jì)算機(jī)理解人類自然語言方面開拓出的新路子而成為了國內(nèi)目前自然語言理解和處理的三大流派之一。

該理論將人腦的認(rèn)知結(jié)構(gòu)劃分為局部和全局兩個(gè)聯(lián)想脈絡(luò),而語言深層(即語言的語義層面)的根本問題正是對聯(lián)想脈絡(luò)的表達(dá)。根據(jù)HNC理論,全球6000多種人類的自然語言之所以能相互理解并翻譯,是由于人類大腦中存在著一個(gè)概念空間,這正是人類賴以認(rèn)識世界和進(jìn)行思維活動的基礎(chǔ)。而作為整個(gè)概念空間中的一個(gè)子空間,語言概念空間與自然語言的理解以及運(yùn)用都息息相關(guān)。雖然自然語言空間呈現(xiàn)出多種多樣的形態(tài),但人類卻有著共同的語言概念空間。兩者相互對應(yīng),構(gòu)成果與因、流與源的關(guān)系。前者是后者的外在表現(xiàn)形式,兩個(gè)空間之間存在著多對一的映射關(guān)系。HNC理論認(rèn)為人類語言之間的翻譯可以解釋為將一種自然語言空間映射到另一種自然語言空間的過程。該過程可分為兩個(gè)階段:第一階段由源語言向HNC語言概念空間映射,源語言的語詞和語句將分別映射為HNC概念以及句類表示符號;而在第二階段中,語言概念空間將向目標(biāo)語言進(jìn)行反映射,即源語言中的HNC概念和句類表示符號反映射到目標(biāo)語,成為目標(biāo)語中的語詞和語句(如圖1所示)。[3]

圖1 HNC語言空間映射模型

在這個(gè)模型中,第一部分即是源語分析過程或翻譯理解過程,而第二部分則是目標(biāo)語的生成過程或翻譯的形成過程。兩者的中間存在一個(gè)過渡處理過程,即運(yùn)用HNC概念和符號表述的過程。它包含句類轉(zhuǎn)換和語句格式轉(zhuǎn)換,即從語義塊感知來辨識句類,并對句類進(jìn)行假設(shè),然后依據(jù)句類先驗(yàn)知識對語義塊的構(gòu)成作進(jìn)一步的分析,并據(jù)此來對語句中存在的發(fā)音模糊、音詞轉(zhuǎn)換模糊、詞的多義模糊、語義塊構(gòu)成的切分模糊、指代冗缺模糊等進(jìn)行消解,涉及語義塊構(gòu)成變換、語義塊主輔變換以及輔塊和小句的排序調(diào)整等。這一系列的過渡處理是生成高質(zhì)量翻譯的必要條件。

多年來,諸如中心動詞的辨識、語序的確定、詞義模糊、未登錄詞的識別等這些困擾漢語理解和人工語言處理的多個(gè)難題終于在HNC理論的句類分析方法中找到了解決方案。有了句類分析對源語正確理解為前提,如何進(jìn)一步提高翻譯的精度和質(zhì)量則依賴于對反映射知識庫的更廣泛和深入的挖掘。

二、問題描述

科技文獻(xiàn)因其強(qiáng)烈的專業(yè)性而對翻譯的有效性提出了較高要求。科技翻譯研究也走過了基于規(guī)則、基于實(shí)例、基于統(tǒng)計(jì)的不同階段。關(guān)于文本理解的研究對象和表述,從語詞、語句,再到語篇,語言學(xué)和人工智能學(xué)界多年來爭論不休,語篇語義的理解和表達(dá)成為了相關(guān)研究的瓶頸。那么,如何從語篇角度更全面地理解文本,從而有效提高翻譯時(shí)效和質(zhì)量。

長期的語言智能和翻譯實(shí)踐表明語篇的理解不等同于語詞或語句意義的簡單相加。如果說HNC理論中語義塊概念為此提供了理論支持,那么自動文摘技術(shù)則為這一問題的解決提供了現(xiàn)實(shí)有效的途徑。自動文摘就是利用計(jì)算機(jī)從原始文獻(xiàn)中自動地提取文本的主要內(nèi)容。面對信息時(shí)代大量的科技文獻(xiàn),對其進(jìn)行快速提煉和濃縮是提高信息資源獲取效率的有效手段。這一技術(shù)實(shí)際上將文本語義的理解和表述推向了極致。筆者大膽設(shè)想,科技文本翻譯可以從這里起步。這樣做的好處在于:借助相關(guān)技術(shù),不僅翻譯工作者可以大大提高翻譯理解階段的準(zhǔn)確度和效率,而且為機(jī)器翻譯領(lǐng)域研究減少部分因復(fù)雜的語言深層結(jié)構(gòu)分析所耗精力。

自動文摘研究在過去50多年發(fā)展歷史中吸引了世界上許多國家的學(xué)者投入研究,其領(lǐng)域橫跨了計(jì)算機(jī)科學(xué)、人工智能、情報(bào)科學(xué)和語言學(xué)等多個(gè)學(xué)科,并取得了很大的進(jìn)步。目前這方面的研究已形成了一定的理論與方法,其中,基于句子概率統(tǒng)計(jì)、文本結(jié)構(gòu)、領(lǐng)域理解、信息抽取和四種自動文摘技術(shù)成為了主流方法。它們共同的設(shè)計(jì)理念都離不開對自然語言的分析和技術(shù)處理兩部分。這四種主流自動文摘技術(shù)應(yīng)用中的技術(shù)難度、應(yīng)用領(lǐng)域、生成的文摘質(zhì)量方面各有優(yōu)劣,因此不少學(xué)者提出建議——采用一種綜合式的面向非受限領(lǐng)域的自動文摘方法,既要從微觀上考慮文本的表面結(jié)構(gòu),又要從宏觀上把握篇章結(jié)構(gòu)特征。即文本形式特征將作為衡量文章中句子權(quán)值的基本方法,用篇章結(jié)構(gòu)分析替代深層的語義分析,從而避免機(jī)械抽取文摘內(nèi)容會遺漏的問題,最后引入句法和語義分析,對所抽取文摘句進(jìn)行可讀性的潤色加工,解決文摘簡潔性和連貫性不足的問題。目前,較新的研究成果就來自這種綜合式的思路。

三、翻譯模式設(shè)計(jì)

根據(jù)HNC理論和自動文摘技術(shù),科技文獻(xiàn)新的翻譯模式設(shè)計(jì)如下(見圖2):

1.文獻(xiàn)理解。首先,使用ParaConc對待譯科技文獻(xiàn)(Ts)進(jìn)行預(yù)處理——分詞處理,得到用于建立文摘的向量空間模型(VSM)的段落和詞。[4]采用向量空間模型將文本的篇章結(jié)構(gòu)進(jìn)行自動分析,根據(jù)語義相似度建立段落間的關(guān)系圖,該段落與主題的關(guān)系就是段落的重要度,提取各段落的重要度信息,使用標(biāo)題或聚類的方法將意義相近的段落歸納為同一語義塊;依據(jù)文本中詞的頻度、句子位置、提示語等形式特征計(jì)算語義塊的權(quán)值,分別從各語義塊中提取權(quán)值較高的句子作為文摘句;從句法和語義兩方面對提取的文摘句進(jìn)行分析,解決諸如指代詞不明、表述冗余、詞句不連貫等問題,最終的文摘將具備簡潔、通順、可性讀強(qiáng)等特點(diǎn)。[5]

圖2 科技文獻(xiàn)翻譯模式圖

2.計(jì)算機(jī)輔助翻譯(Computer Assisted Translation,CAT)。將文獻(xiàn)理解階段所獲文摘進(jìn)行中心句和關(guān)鍵詞提取,使用Yaxin或Trados等機(jī)輔翻譯軟件進(jìn)行翻譯前預(yù)處理,檢索并確定中心句和關(guān)鍵詞的譯法,利用語料對齊技術(shù)將確定后的雙語對應(yīng)翻譯文本導(dǎo)入相應(yīng)的雙語數(shù)據(jù)庫;使用翻譯記憶庫(Translation Memory,TM)進(jìn)行機(jī)器預(yù)翻譯(Machine Translation,MT),得到初步的由源文本(Ts)映射到目標(biāo)語的翻譯文本(Tt);然后進(jìn)行最后也是最關(guān)鍵的由翻譯人員進(jìn)行的細(xì)致的修正過程(Human Translation,HT),從而得到翻譯初稿。修正涉及詞語、句法、語篇等各個(gè)層次,特別是語際分詞錯誤、歧義、固定習(xí)語等機(jī)器翻譯的盲點(diǎn)。

3.評估修正(Evaluation &Correction,EC)。對翻譯譯文的評價(jià),如果通過人工實(shí)現(xiàn)則人為因素影響很大,并且對評價(jià)人員的要求也很高,不僅實(shí)現(xiàn)起來困難,而且還導(dǎo)致了評價(jià)標(biāo)準(zhǔn)的不一致。于是設(shè)計(jì)自動化、規(guī)范化的評價(jià)方法便成為許多學(xué)者的研究目標(biāo)。各種研究成果紛呈,基本設(shè)計(jì)方向是從TM語料庫中獲取翻譯知識,建立n元語言模型,在此基礎(chǔ)上為譯文的任意句子評分。[6]

根據(jù)HNC理論,語際翻譯實(shí)際上就是一個(gè)從源語言到目標(biāo)語的概念映射過程,所以系統(tǒng)評估的標(biāo)尺是語際映射的速度和準(zhǔn)確程度。映射規(guī)則的復(fù)雜程度決定了映射的速度,而準(zhǔn)確程度的評估參照物則是通過比對機(jī)輔翻譯文本與專家翻譯文本的相符度。兩個(gè)文本越相近,翻譯質(zhì)量就越高。這里包含了評估系統(tǒng)的兩個(gè)重要指標(biāo):準(zhǔn)確率和召回率。

召回率是指所有機(jī)輔翻譯Tt與所有待譯的文本數(shù)的比率,其表達(dá)式如下:

召回率(Recall)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/所有待譯的句子數(shù)

準(zhǔn)確率是指所有機(jī)輔翻譯Tt中與專家翻譯的文本相吻合的句子所占的比率,其表達(dá)式如下:

準(zhǔn)確率(Precision)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/專家翻譯的句子數(shù)

召回率和準(zhǔn)確率是評估翻譯質(zhì)量的兩個(gè)重要方面,必須將兩者進(jìn)行綜合考慮。

此外,Neubert等將語篇內(nèi)部和外部屬性具體概括為七個(gè)方面:意向性、可接受性、情景性、信息性、互文性、連貫性和銜接性。[7]建立評估模型時(shí),文本語篇層面的這些重要特征可作為相應(yīng)參數(shù),并可根據(jù)不同類型的Ts調(diào)整各參數(shù)的權(quán)重。

四、試驗(yàn)驗(yàn)證

為檢驗(yàn)該模型的可行性,筆者分別從PNAS(Proceedings the National Academy of Science of the USA)和中國知網(wǎng)上隨機(jī)抽取了24篇專業(yè)期刊文章進(jìn)行了對照實(shí)驗(yàn)。其中,自然科學(xué)類(涉及生物、化學(xué)等專業(yè))和人文類(包括管理、教育等專業(yè))各占50%,中英文各50%。對照組為掌握自動文摘(AA)生成和計(jì)算機(jī)輔助翻譯軟件的翻譯者以及普通的翻譯者。試驗(yàn)方式是將24篇文章給3組被試分別用傳統(tǒng)方式(Tr)、計(jì)算機(jī)輔助翻譯方式(CAT)、文摘自動提取加計(jì)算機(jī)輔助(AA+CAT)模式各自進(jìn)行翻譯。并將所譯文檔建成小型數(shù)據(jù)庫,分析結(jié)果如下(h/p:小時(shí)/篇):

表1

表2

五、結(jié) 論

通過比較,發(fā)現(xiàn)AA+CAT模式在準(zhǔn)確率和速度方面與其他模式相比有明顯優(yōu)勢,召回率與CAT模式區(qū)別不大,但比Tr模式改善不少。說明從整體效率而言,計(jì)算機(jī)輔助翻譯比傳統(tǒng)翻譯方式先進(jìn),而采用自動文摘技術(shù)對文本進(jìn)行譯前處理又比單純使用計(jì)算機(jī)輔助翻譯技術(shù)的效率有所提高。當(dāng)然,這一結(jié)果也可能因被試的專業(yè)背景和掌握相關(guān)技術(shù)的熟練程度等因素而受影響。另外由于條件限制,試驗(yàn)樣本范圍有限,代表性有待進(jìn)一步驗(yàn)證。

[1]黃曾陽.HNC理論與自然語言語句的理解[J].中國基礎(chǔ)科學(xué),1999,1(2):83-88.

[2]許嘉璐.現(xiàn)狀和設(shè)想——試論中文信息處理與現(xiàn)代漢語研究[J].中國語文,2000(6):491.

[3]張克亮,基于HNC理論的漢英機(jī)器翻譯策略研究[J].解放軍外國語學(xué)院學(xué)報(bào),2003(5):60-64.

[4]郭王箐,萬敏.面向非受限領(lǐng)域的綜合式自動中文文摘方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2002,42(1):7-9.

[5]錢多秀.計(jì)算機(jī)輔助翻譯[M].北京:外語教學(xué)與研究出版社,2011:139-142.

[6]張劍,吳際,周明.機(jī)器翻譯評測的新進(jìn)展[J].中文信息學(xué)報(bào),2003,17(6):1-8.

[7]Neubert A,Gregory M S.Translation as Text[M].Kent:Kent State University Press,1992:117.

猜你喜歡
語義文本理論
堅(jiān)持理論創(chuàng)新
神秘的混沌理論
理論創(chuàng)新 引領(lǐng)百年
相關(guān)于撓理論的Baer模
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 中国精品久久| 农村乱人伦一区二区| 国产人成在线观看| 亚洲无码日韩一区| 精品一区国产精品| 国产传媒一区二区三区四区五区| 欧美国产日韩另类| 色哟哟国产精品| 精品久久久久久中文字幕女 | 中文字幕精品一区二区三区视频| 免费AV在线播放观看18禁强制| 尤物在线观看乱码| 狠狠亚洲五月天| 日韩高清一区 | 欧美三级不卡在线观看视频| 操国产美女| 无码内射在线| 国产一区二区福利| 久久伊人操| 欧美精品另类| 精品福利网| 国产成人a毛片在线| 亚洲欧美自拍视频| 韩日无码在线不卡| 欧美亚洲一二三区| 91无码网站| 婷婷午夜影院| 亚洲嫩模喷白浆| 久久精品一品道久久精品| 久久精品人人做人人| 91久久天天躁狠狠躁夜夜| 国产二级毛片| jizz亚洲高清在线观看| 在线a视频免费观看| 欧美三級片黃色三級片黃色1| 亚洲天堂日韩在线| 国产成人精品在线| 国产精品尤物铁牛tv| 亚洲福利视频一区二区| 久久亚洲国产视频| 日本草草视频在线观看| 国产性精品| 国产成人1024精品| 91精品国产福利| 五月六月伊人狠狠丁香网| 日本免费精品| 国产一区在线视频观看| 亚洲精品成人片在线观看| 亚洲欧洲日产无码AV| 国产性爱网站| 毛片久久久| 亚洲一区二区三区中文字幕5566| 伊人网址在线| 在线国产91| 久久男人资源站| 99ri国产在线| 免费xxxxx在线观看网站| 国产办公室秘书无码精品| 国产又黄又硬又粗| 亚洲日韩AV无码一区二区三区人| 久久五月天国产自| 呦女精品网站| 精品视频第一页| 无码专区在线观看| 欧美一级在线看| 国产精品久久久久无码网站| www欧美在线观看| 国产黄色片在线看| 国产一级毛片网站| 国产高清无码第一十页在线观看| 日韩欧美中文字幕在线精品| 久久精品一卡日本电影| 青青青视频91在线 | 2020极品精品国产| 国产永久在线视频| 不卡无码网| 国产区在线观看视频| 国产精选小视频在线观看| 亚洲区欧美区| 欧美视频在线播放观看免费福利资源| 国产在线视频二区| 国产不卡一级毛片视频|