999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

近五十年來自動評分研究綜述

2013-04-29 23:12:12江進林
現代教育技術 2013年6期
關鍵詞:翻譯作文

江進林

【摘要】近五十年來,國內外相繼開發出多個英語作文自動評分系統,研究日臻成熟。在翻譯領域,自動評分研究主要局限于機器翻譯評價,人工譯文自動評分研究仍處于初級階段。近年國內建立起針對中國學生的漢譯英自動評分模型,針對英譯漢的自動評分研究也開始起步。由于中國學生的英譯漢具有自身的特點,其評分系統在變量挖掘、模型驗證等方面與已有研究不同。

【關鍵詞】自動評分;作文;翻譯;學生英譯漢

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2013)06—0062—05

引言

主觀題是測量語言技能的有效方式,目前已被廣泛運用于各類英語考試,其自動評分是測試領域關注的一個焦點。自二十世紀六十年代以來,國外己開發出多個作文自動評分系統,并應用于GRE、GMAT等大型考試中。在國內,梁茂成研制了適合中國英語學習者的作文自動評分系統,取得了良好的效果。在翻譯領域,極少數研究也對學生漢譯英的自動評分進行了嘗試。但是,針對英譯漢的自動評分研究仍處于起步階段。本文將回顧近五十年來自動評分技術的優劣,探討英譯漢機器評分系統與已有研究的異同。

一 作文自動評分系統

歷史上第一個作文自動評分系統是1966年研制的PEG。二十世紀九十年代以后,IEA、E-rater、IntelliMetric、MY Aeeess等作文自動評分系統相繼出現。近年來,自動評分擴展到醫學、建筑、藝術、計算機等領域,評分對象涉及簡答、繪圖、口試等多種主觀題。本文僅對四個主要作文自動評分系統進行回顧,其主要特點見表1。

第一,測量對象。表1顯示,作文自動評分系統的測量對象從語言形式發展到語義內容,再過渡到語言、內容和結構三個方面。在梁茂成的研究中,內容模塊主要考察作文是否緊扣主題;語言模塊主要衡量作文語言形式的準確性;結構模塊主要評判作文是否滿足獨立成篇的條件。這三個模塊可以直接追溯到寫作能力的構念,具有較好的效度,也更符合寫作測試的評價標準。

第二,評分方法。PEG、E-rater和梁茂成的系統都采用變量提取、多元回歸、計算作文分數三大步驟來完成評分。首先,研究者從一批事先評分的作文中提取一系列文本特征,再以這些特征為自變量、人工評分為因變量進行多元線性回歸分析,得到能夠最大限度地預測分數的回歸方程,最后將新作文的相關變量代入方程,獲得機器給新作文評出的分數。

第三,主要技術。四個評分系統都采用多種技術來提取變量。其中,IEA和梁茂成的系統都采用了潛語義分析方法(Latent Semantic Analysis)。其基本假設是,文本中隱藏著一個潛在的語義空間,是所有詞匯的語義之和。由于語言中存在大量多詞同義和一詞多義現象,語義空間往往帶有許多噪音,需要通過特征過濾、選擇、抽取來進行壓縮。具體做法是:首先,研究者使用停詞表過濾信息量很少的詞匯;其次,選擇一批與主題相關的文本(如專家作文、主題知識材料)構建詞頻矩陣,并根據詞頻對詞匯賦予不同權重。詞匯出現的次數越多,表示信息量越小,權重越低;最后,使用奇異值分解技術(SingularValue Decomposition)對矩陣進行降維。這種技術類似于主成分分析法,壓縮后的矩陣既保留了原矩陣的重要信息,又排除了干擾信息,代表作文主題的典型潛在語義空。潛語義分析具有提取語義內容的優勢,甚至能夠處理創造性的記敘文。不過,它忽略了詞匯順序、句法、邏輯等信息,不能反映學生的全部知識,因而需要與反映語言形式的變量結合使用。

與潛語義分析不同,E-rater使用向量空間模型(VectorSpace Model)來判定文本內容的相關度。不過,這是一種基于主題詞分析的技術,難以達到潛語義分析的降維、消除噪音等效果。

第四,主要變量。各個系統使用的主要變量與其測量對象對應。例如,梁茂成采用流利度、地道性、復雜度方面的變量來考察語言形式質量,采用語義相似度來衡量語義質量,采用連接詞等特征來評判作文結構質量。

第五,驗證方法。上述系統主要采用相關度和一致性來檢驗機器評分與人工評分的接近程度。相關度反映機器與人工排序的相似性,既包括機器與單個評分員評分的相關,也包括機器與多名評分員平均分數的相關。第一種相關度不一定可靠,因為單個評分員的評分可能具有偏差(bias),內部一致性難以保證;第二種相關度更有價值,因為多名評分員對同一名學生的平均評分接近其真分數(true score)。

一致性反映具體評分等級的一致程度,包括絕對一致和相鄰一致百分比。前者指機器與人工所評等級相同的文本數量占所評文本總數的比例,后者指機器與人工所評等級相差1級的文本數量占所評文本總數的比例,兩者各有所長。當評分結果為離散數據且等級較少時,往往使用絕對一致百分比;當評分等級較多時,相鄰一致百分比更適合。E-rater和梁茂成的研究對兩種百分比都進行了統計。

除了上述系統外,極少數人還對漢語作文的自動評分進行了初步研究。不過,該研究僅探討了潛語義分析技術在自動評分中的應用,不夠全面。

總之,現有作文自動評分系統在評分步驟、主要技術和變量挖掘方面對英譯漢的機器評分研究具有重要啟示。研究結果表明,不管考生處于哪個年齡段、作文話題如何變化,上述系統的評分與人工評分的相關度都在0.7-0.9之間,一般為0.8-0.85,可以代替一名評分員使用。

二 翻譯譯自動評分系統

翻譯自動評分系統有兩種,分別對機器翻譯和人工譯文進行評價,下面分兩部分進行述評。

1 機器翻譯評價系統

機器翻譯評價主要采用兩種方法:

第一,基于N元組(Ngram)的評價。其主要思想是:高質量的機器譯文應與人工譯文具有較多相同的語言片段。BLEU和NIST是該方法的主要代表。BLEU通過計算機器翻譯與一組參考譯文內N元組的相似度來考察機器譯文的質量,即N元組的匹配數量所占機器譯文N元組的比例。如果機器譯文比它最接近的參考譯文短,相似度的結果還需要乘以長度罰分比(Brevity Penalty),以接受一定的懲罰。在BLEU的基礎上,NIST根據N元組在參考譯文中出現的頻率,對它們賦予不同的信息權重。頻率越低,則信息量越大,權重越大。BLEU和NIST不僅方法簡單,所評分數與人工評分也高度相關,可供英譯漢機器評分系統借鑒。

第二,基于測試點的評價。其主要思想是:模擬標準化考試的方法,不評價整句,而是通過設置測試點簡化測試目標。測試點分6組:詞匯量測試、固定詞組測試、詞法測試,以及初、中、高級句法測試。研究者采用描述語言對各句的測試點進行句法描述,使評測可以全自動完成。程序評估機器譯文中各個測試點的翻譯質量,加權平均后獲得最終的機器翻譯評價結果。由于翻譯中有些語言點的區分度比較高,基于測試點的評價方法能夠有效縮短評價時間,值得借鑒。

2 人工譯文評價系統

除了機器翻譯評價,人工譯文自動評價研究也已起步,國內己建立起針對中國英語學習者的漢譯英自動評分模型。下面從六個方面進行介紹。

第一,語料來源。該研究使用國內英語專業三、四年級學生的300篇英譯漢譯文。原文為記敘文,包括9個句子,約300字。為滿足研究需要,測試時既呈現整個篇章供學生整體理解,也提供單個句子讓學生逐句翻譯,單句譯文合并即可獲得篇章譯文。

第二,模型設計。該系統按用途分為診斷性和選拔性評分模型,采用分模塊設計。診斷性模型包括篇章和單句譯文的語義內容、語言形式評分模塊,通過提取各個模塊對應的文本特征,可以分別構建它們的評分模型,并提供有針對性的診斷性信息。選拔性模型僅包括篇章譯文的語義評分模塊,可以對大規模測試中的漢譯英進行評分。

第三,人工評分。該研究采用兩次人工評分。第一次評分比較細致,以“忠實、通順”為標準,分別對譯文的語義內容和語言形式進行評價,結果分別用于構建診斷性語義、形式評分模型。語義評分時,先將原文各句劃分為2~3個語義單位,逐個單位進行評價。形式評分以句為單位,衡量語言的準確性和恰當性。第二次評分比較簡化,僅對具有較大區分度的語義點進行評價,結果用于構建選拔性評分模型。

第四,變量挖掘。該研究采用語料庫工具、自然語言處理、信息檢索技術和統計方法,挖掘了多個文本特征。其中,反映譯文語義質量的變量有三類:N元組匹配數量及其百分比、語義相似度和語義點對齊數量。語義點對齊技術考察譯文對區分度較高語言點的翻譯能否與正確譯文表匹配,和俞士汶等使用的針對測試點的評價方法有相似之處。該研究還提取了字詞、句子、篇章三個層面的形式變量。表2對主要變量進行了總結。

第五,模型構建。該研究首先在事先評分的一半譯文(訓練集)中計算所提取的變量與相應人工評分之間的相關度,采用與人工評分相關的變量作為譯文質量預測因子;然后進行多元線性回歸分析,選擇性能最佳的模型,作為預測因子與人工評分之間的關系方程。數據表明,診斷性篇章譯文語義、形式評分模型的決定系數R2分別為0.794、0.547。該研究進一步使用三種數量的訓練集譯文(30、50、100篇)構建了選拔性評分模型,模型的相關系數R都在0.8以上。

第六,模型驗證。該研究使用從訓練集中獲得的多元回歸方程,計算另一半學生譯文(驗證集)的機器評分,然后分析機器與三名評分員平均評分的相關度和一致性。研究結果表明,診斷性篇章譯文機器語義、形式評分與人工評分的相關度分別為0.842**、0.741**。在選拔性模型中,機器與人工評分的相關度都在0.8以上。若需提高評分效率,以100篇譯文構建的評分模型就能滿足大規模測試評分的需要。

總之,該研究探索了診斷性與選拔性評分模型的區別,構建的模型能夠準確、有效地評價中國學生的漢譯英譯文。不過,研究也存在一定的不足:(1)不同文體的原文及其譯文在內容、語言、風格上都具有顯著差異,該研究使用記敘文譯文構建模型,難以判定譯文質量預測因子在其他文體中有效。(2)人工語義評分主要針對信息量較大的語義點進行,當學生未譯或誤譯某處次級信息時,自動評分模型難以進行診斷性反饋。(3)采用保留樣本法,訓練集一直用于建模,驗證集一直用于檢驗模型,結果在一定程度上受到譯文分集的影響。

除了漢譯英自動評分研究外,王立欣對英譯漢的自動評分進行了初步探討。該研究的原文是一個廣告段落,譯文有230份,模型構建也經過變量提取、多元回歸、計算新譯文分數等步驟。研究采用10折交叉檢驗法,使用9成語料構建模型,1成語料進行驗證,經過10次循環計算的人機評分相關度均值為0.75**。研究中使用的主要變量見表3。

該研究采用的一些變量值得借鑒,模型的驗證方法比較科學。不過,研究也存在一些不足:(1)原文為廣告文體,難以判斷模型中的變量對其他文體的譯文起作用。(2)未采用分模塊設計,機器僅對譯文質量進行整體評分,難以對語義、形式質量及其分項特征進行有針對性的反饋。(3)采用機器翻譯評價的慣例,僅使用4篇參考譯文,而人工譯文的多樣性和復雜性都遠遠超過機器譯文,這種做法對變量的有效性造成了一定影響。

除了王立欣外,Tian等人也考察了關鍵詞匹配和語義相似度對英譯漢譯文語義質量的預測力。不過,該研究的語料為句子譯文,容易忽略篇章層面的質量預測因子,并且研究挖掘的變量比較有限。三英譯漢機器評分系統的新探索

筆者將借鑒上述研究的經驗,構建適用于中國學生英譯漢的機器評分系統。該系統與已有研究的區別在于以下幾個方面:

首先,人工評分。(1)漢譯英的目的語是學生的外語,譯文達到“忠實、通順”己屬不易,因而漢譯英自動評分研究的人工評分以“忠實、通順”為標準。而英譯漢的目的語是學生的母語,譯文在語言形式上往往比較通順,需要采用更高的標準來衡量。本研究將在“忠實、通順”的基礎上加入“風格切合度”,對語言形式進行更高層次的評價。(2)本研究將原文劃分為符合搭配規則、意義單一、完整的多詞單元,即翻譯單位。評分員對每個翻譯單位的譯文逐個進行評分,能夠更全面地衡量譯文的語義質量,也便于機器對譯文的語義優劣進行更細致的反饋。

其次,變量挖掘。(1)為擬合人工評分過程,研究者將根據翻譯單位的最佳譯文和正確譯文列表,提取學生譯文中的翻譯單位對齊數量。由于翻譯單位符合搭配規則,并具有單一和完整的意義,能夠較好地評價譯文的語法性、連貫性和地道性。(2)由于英漢語言表達的差異和漢語分詞的影響,一個英語詞匯可能對應一個或多個漢語詞語,也可能出現多對一、多對多的情況。同時,少數英語詞匯的漢語翻譯呈分離狀態,如as quickly as的譯文“像……一樣快”,中間間隔一個或多個詞語。此外,中國學生的英譯漢譯文中大量使用同義詞和近義詞,如in radiant bloom的翻譯包括“盛開”、“開花”、“開放”、“綻放”、“怒放”等。針對以上特點,本研究的詞對齊不僅考察英、漢語的一一對應,還將進行一對多、多對一、多對多的對齊,同時考慮英語詞匯與漢語分離結構對應的情況,還將嵌入同義詞詞林,考察原文詞匯與詞典譯文的同義詞、近義詞對應的情況。初步研究發現,這種詞對齊的效果優于僅僅基于詞典的詞對齊技術[25]。

再次,文體類別。本研究將采用說明文、記敘文、議論文三種文體,分別使用300多篇學生譯文構建機器評分模型。通過比較,進一步挖掘對三種文體的譯文質量都具有預測力的文本特征,以便提高系統的遷移性。

最后,驗證方法。本研究將對機器與人工評分差異較大的譯文進行質性分析并究其原因,在此基礎上提出改進變量、提高系統性能的方法,以便減少大規模測試中機器評分的偏差。

四 結語

本文對近五十年來自動評分系統的優缺點進行了回顧和評價,探討了現有技術對英譯漢機器評分系統的啟示,以及其中可資借鑒的方面。在總結以往經驗的基礎上,研究者將針對中國學生英譯漢譯文的特點,在人工評分、變量挖掘、文體類別,以及對機器評分結果的分析方面進行新的探索,以便構建適用于中國學生英譯漢的機器評分模型。

猜你喜歡
翻譯作文
紅批有聲作文
紅批有聲作文
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
本科英語專業翻譯教學改革與實用型翻譯人才的培養
淺析跨文化交際
人間(2016年26期)2016-11-03 18:34:20
以《我是貓》為例談日語被動式表達
商務英語翻譯在國際貿易中的重要性及其應用
主站蜘蛛池模板: 波多野结衣无码中文字幕在线观看一区二区 | 国产在线98福利播放视频免费| 成人精品亚洲| 综合网久久| 免费人成又黄又爽的视频网站| 在线观看91精品国产剧情免费| 亚洲国产精品VA在线看黑人| www.日韩三级| 国产三级视频网站| 国产美女在线观看| 就去色综合| 91精品情国产情侣高潮对白蜜| 99re在线免费视频| 亚洲中文精品久久久久久不卡| 色天天综合| 色综合五月| 婷婷六月天激情| 国产一级一级毛片永久| 欧美高清国产| 中国成人在线视频| 最新国产你懂的在线网址| 欧美日韩专区| 国产午夜一级毛片| 欧美国产精品不卡在线观看| av无码一区二区三区在线| 国产本道久久一区二区三区| 最新痴汉在线无码AV| 亚洲AⅤ永久无码精品毛片| 日韩免费成人| 国产福利小视频在线播放观看| 国产精品久久久久鬼色| 国产精品第页| 国产性精品| 免费无遮挡AV| 丝袜美女被出水视频一区| 亚洲国产成人精品一二区| 欧美日韩va| 国产凹凸视频在线观看| 国产一二三区在线| 欧美a级在线| 特级aaaaaaaaa毛片免费视频| 国产成人综合网在线观看| 精品国产免费观看| 夜精品a一区二区三区| 国产精品自在线天天看片| 91国内视频在线观看| 色综合久久久久8天国| 新SSS无码手机在线观看| 国产欧美日韩综合一区在线播放| 久久特级毛片| 尤物视频一区| 国产成人麻豆精品| 久996视频精品免费观看| 99re视频在线| 成人自拍视频在线观看| 国产综合精品一区二区| 中文字幕自拍偷拍| 亚洲AV色香蕉一区二区| 亚洲精品无码高潮喷水A| 青青草原国产一区二区| 久久黄色小视频| 国产主播一区二区三区| 91久久国产成人免费观看| 国产99免费视频| 国产日韩欧美在线播放| 久久精品无码国产一区二区三区 | 伊人久久婷婷五月综合97色| 成人午夜网址| 秋霞一区二区三区| 91成人精品视频| 成人在线不卡视频| www.亚洲一区二区三区| 蜜桃臀无码内射一区二区三区| 日韩A∨精品日韩精品无码| 国产视频入口| 乱系列中文字幕在线视频| 亚洲第一成年网| 日本三级欧美三级| 国产女同自拍视频| 午夜欧美理论2019理论| 18黑白丝水手服自慰喷水网站| 伊人中文网|