999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語功能名詞短語研究及其應用

2012-05-31 08:42:38軍,
大連理工大學學報 2012年1期
關鍵詞:功能

馬 建 軍, 黃 德 根

(1.大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2.大連理工大學 外國語學院,遼寧 大連 116024)

0 引 言

在英語語言中,名詞短語的結構非常復雜.英語名詞短語結構中可以包含多個修飾語和中心詞,結構關系具有可變性、不確定性,因而極易產生歧義.根據傳統語法對名詞短語的定義,名詞短語可以是一個名詞,也可包括名詞之前名詞的限定詞、形容詞或其他修飾語,還包括名詞之后的介詞短語或關系從句,還可以是一個代詞[1].同時,名詞短語在句子中具有豐富的句法功能:可以作主語;可以作動詞賓語;可以放在小品詞后,作介詞賓語;可以作補足語,補充說明主語或賓語;可以與介詞搭配作狀語.Halliday的系統功能語法[2]將這些句法功能概括為主語(subject)、補語(complement)和狀語(adjunct).另外,名詞短語還與動詞構成搭配,如take part in(參加)等,成為謂語動詞不可分割的一部分.若能確定這些句法功能,就能提高句法分析的正確率,提高機器翻譯的質量.但是目前的英語名詞短語研究主要以名詞短語的結構來定義名詞短語,而沒有考慮名詞短語的句法功能.

Church[3]利用統計方法進行名詞短語的識別,Voutilainen[4]設 計 了 名 詞 短 語 識 別 系 統NPtool,但是這兩種方法識別的名詞短語非常簡單,甚至不包括名詞前的修飾成分;Ramshaw等[5]提出了基本名詞短語(以下簡稱baseNP)的概念,把名詞之前的修飾語包含在名詞短語中.baseNP指非嵌套名詞短語,即不包含其他任何名詞短語的名詞短語.Ramshaw等采用了Abney[6]關于組塊的定義,將組塊分為名詞類組塊(即基本名詞短語)和動詞類組塊兩大類,把介詞及其賓語構成的介詞短語歸為名詞類組塊.CoNLL-2000[7]將組塊識別作為共享任務,定義了英語中11種基本組塊,其中名詞短語組塊與baseNP的定義十分類似,主要將修飾名詞的形容詞短語歸入名詞短語組塊,但是不包括名詞的后置定語.同時,介詞短語(PP)作為單獨的組塊列出.值得一提的是,這里的PP并不是Halliday所定義的介詞短語(prepositional phrase)(介詞+名詞),而是介詞詞組(preposition group)[2],即指介詞本身,或由多個介詞組成的介詞短語,如because of,such as,due to,或由副詞修飾的介詞短語,如well above,just after,even in.此外,還將動詞小品詞作為單獨的組塊列出,與介詞進行了區分.

Koehn等[8]在研究德英機器翻譯時,提出了一種面向統計機器翻譯的最長名詞短語(本文以下簡稱maxNP)的定義,把名詞后的修飾語包含在名詞短語中.其定義如下:給定一個句子s和它的句法分析樹t,一個名詞短語是t的一棵子樹,它至少包含一個名詞而不包含動詞,并且不被更大的包含名詞并且不包含動詞的子樹包含.實際上,maxNP是名詞短語和介詞短語的組合,將名詞短語之后的介詞短語合并到名詞短語中.這里的介詞短語是真正意義的介詞短語,即介詞+名詞.與baseNP相比,maxNP將名詞的后置定語與名詞結合起來,簡化了翻譯過程;但是卻沒有將介詞和結構詞區分開來.baseNP和maxNP都沒有將“介詞+名詞”作狀語的結構區分出來.

國內對英語名詞短語的研究主要集中在基本名詞短語的自動識別[9~11],而最長名詞短語的識別研究多以漢語為主[12~14].

本文根據名詞短語的句法功能,提出一種新的名詞短語——功能名詞短語(以下簡稱funNP).首先闡述名詞短語引起的結構歧義問題,提出功能名詞短語的定義,同時與基本名詞短語和最長名詞短語相比較;應用Google在線翻譯系統對英語商務信函語料翻譯,分析其譯文,對其中的功能名詞短語進行處理,以解決結構歧義引起的翻譯錯誤.

1 名詞短語結構歧義問題

文獻[15]研究了英漢機器翻譯中的歧義問題,發現動詞與介詞搭配、介詞與名詞搭配做定語或狀語,極易引起歧義.這些結構歧義都是由一個結構引起的,即“baseNP1+介詞+baseNP2”結構.

本文將名詞短語結構歧義概括如下:

(1)baseNP1與前面的動詞是否構成固定搭配?

例1 How many countries took part in the last Olympic Games?(文獻[16]的P922)(參考譯文:多少個國家參加了上屆奧林匹克運動會?)

在該句中,take part in是固定搭配,構成句子的謂語動詞.因此不能將part in the last Olympic Games識別為NP來理解.

(2)介詞是否與動詞構成固定搭配,成為小品詞?

例2 You tie the rope in knots.(文獻[17]的P381)(參考譯文:你把繩子系成結.)

在該句中,in是由動詞tie決定,是小品詞(particle),knots是介詞in的補語,in knots表明結果.

(3)介詞+baseNP2是baseNP1的后置定語還是句子的狀語?

例3 He is getting pains in his back.(文獻[1]的P169)(參考譯文:他后背疼.)

在該句中,in his back作后置定語(post modifier),表明疼痛的部位.

例4 I have described this case in detail.(文獻[1]的P286)(參考譯文:我詳細地敘述了這件事.)

在該句中,in detail作狀語(adjunct),表示方式.

2 功能名詞短語的定義

2.1 功能名詞短語

基于系統功能語法[2],本文將功能名詞短語的句法功能歸納為主語、補語和狀語.

功能名詞短語定義如下:功能名詞短語是指在句中作主語、補語和狀語,且至少含有一個名詞但不包含動詞的短語.即功能名詞短語含有可嵌套的結構,主要包括名詞詞組(nominal group)、介詞短語(prepositional phrase)和“形容詞+介詞”短語3種結構.

其邏輯結構如下:

(1)名詞詞組:“前置修飾語 + 名詞 + 后置修飾語”。其中:前置修飾語可以是限定詞、數詞、形容詞或名詞;名詞包括普通名詞或代詞或專有名詞;后置修飾語可以是介詞+名詞詞組結構或形容詞;前置修飾語和后置修飾語不是必須的結構.

(2)介詞短語:“介詞+名詞詞組”.

(3)“形容詞+介詞”短語:“形容詞+介詞+名詞詞組”.

該定義不包括與動詞構成固定搭配的名詞短語,從翻譯角度,將與動詞構成固定搭配的名詞歸入動詞短語(VP)會更合適.如“take part in+n(參加)”中的part不是名詞短語,take part in構成動詞短語,定義為VP.如果將part in+n定義為NP,則往往會譯為“…的一部分”,而引起歧義.

同理,在“be+adj+prep+n”結構中,如be interested in+n(對…感興趣),be interested in的句法功能相當于謂語動詞,本文將be interested in定義為VP,其后的n才定義為NP.其他情況的adj+prep+n結構,如free from charge(免費),往往在句子中作補語,則定義為NP.

上述例1~4的funNP識別、功能塊表達式、句法功能表達式見表1.

2.2 功能名詞短語與基本名詞短語和最長名詞短語的關系

表2從介詞、小品詞、“介詞+名詞”作定語、“介詞+名詞”作狀語和與動詞構成固定搭配的名詞5個方面概括了3個定義的主要區別,表3比較了3種方法的識別結果.結果表明,funNP不同于baseNP和maxNP,是介于baseNP和maxNP的一個短語概念;funNP識別在理論上能解決上述結構歧義問題,且效果優于baseNP和maxNP識別.

表2表明,baseNP和maxNP都沒有將“介詞+名詞”作狀語和與動詞構成固定搭配的名詞區分出來,這對機器翻譯造成了一定的難度.

表3表明,funNP識別能夠在識別階段區分4種歧義情況,而baseNP和maxNP識別則不能完全區分這4種情況.

根據表3,funNP識別針對4個例句有3種不同句法功能表達式,所識別的名詞短語模式也不同,且不同于baseNP和maxNP識別.例1表明take part in是固定搭配;例2表明in是動詞tie的小品詞;例3將in歸入到名詞詞組中而例4將maxNP識別中的NP拆分成2個短語,并且表明in不是動詞describe的小品詞,成功地區分了動詞+名詞固定搭配、小品詞、后置定語和狀語.這些都將大大簡化之后的翻譯過程.

表1 funNP分析Tab.1 The analysis of funNP

表2 baseNP、maxNP和funNP的定義比較Tab.2 The definition comparison of baseNP,maxNP and funNP

表3 baseNP、maxNP和funNP識別比較Tab.3 The recognition comparison between baseNP,maxNP and funNP

而baseNP識別只區分出小品詞,至于介詞+名詞作后置定語還是狀語,在識別階段還不明確,需要在翻譯過程中進行大量的組塊重組.maxNP識別對于4個例子句法功能表達式一模一樣,尤其未能區分固定搭配、介詞和小品詞.這會引起歧義,以例2為例,若將例2中the rope in knots翻譯成短語,很可能得到“結繩”或“結的繩索”,造成翻譯錯誤.

3 從譯文質量分析funNP識別

名詞短語識別只是機器翻譯的一個子系統,識別效果還是要通過具體的翻譯結果才能體現.因此本文選擇Google機譯系統來進行譯文質量分析.Google是基于統計機器翻譯的代表性機譯系統.2005年NIST機器翻譯評測結果表明,Google在所有4項測評中均名列第一[18].

所選擇的語料來自自建的有3 000個雙語句對的商務信函雙語語料庫.對譯文質量從兩個方面進行分析:一是與動詞構成固定搭配的名詞歧義問題,二是“介詞+名詞”作狀語的歧義問題.這兩個問題是baseNP和maxNP識別未能處理的問題,也是funNP識別試圖解決的關鍵問題.

采用funNP的定義進行消歧處理,比較消歧前后的結果.正確率A=翻譯正確的句子數/句子總數×100%,每個句子只觀察一個歧義問題.

3.1 實驗1:與動詞構成固定搭配的名詞的歧義問題及處理

本文選擇沒有確切意義的3個動詞make、take、place進行分析.對商務信函雙語語料庫進行搜索,找出所有含有3個動詞的固定搭配,并進行分類,共得出74種不同搭配,具體分類見表4.

表4 動詞固定搭配測試語料Tab.4 Testing data of VP pattern

將74個句子輸入到Google在線翻譯系統,人工統計固定搭配的翻譯結果,發現問題主要在于與動詞形成固定搭配的名詞沒有被識別出來,卻與之后的介詞短語合并,形成名詞短語,引起歧義.如:

句子:One of our clients takes interest in your products.

Google譯文:我們的一位客戶發生在你的產品的興趣.

參考譯文:我們的一位客戶對你們的產品感興趣.

在該句中,take interest in本是固定搭配,意為“對…感興趣”,take interest相當于動詞,in是動詞結構詞,無意義.而在Google譯文中,卻將interest并入in your products,將take譯成“發生”,將“interest in your products”譯成“在你的產品的興趣”,造成翻譯錯誤.這是個很常見的固定搭配,對機器翻譯卻形成困擾.

因此,funNP識別將這種搭配中的名詞定義為VP的一部分,而不單獨形成NP.據此,本文設計了5種消歧方法,其目的就是實現這種搭配的VP識別.

(a)取名詞的動詞形式替代短語.如:arrange make arrangements.

(b)取名詞的形容詞形式替代短語.如:be interested in take interest in.

(c)取同義的動詞替代短語.如:examine take a look at.

(d)取同義的動詞短語替代短語.如:order the goods place an order.(注:消歧時,必須將其后的介詞短語等成分刪去,否則又變成名詞+介詞,造成結構歧義.該方法最適合具有許多語義的動詞多義詞,如order.沒有名詞作賓語,很難判斷動詞的含義,會引起新的歧義問題.)

(e)在名詞后加分隔符“,”將短語與其他部分隔開.如:place the order,on the understanding that place the order on the understanding that.

譯文質量和消歧結果見表5.

表5 動詞固定搭配消歧結果Tab.5 Disambiguation results of VP pattern

表5表明,應用funNP的定義,大幅度地提高了譯文質量,正確率從之前的39.2%提高到93.2%.在3個動詞中,place+n是難點,尤其是place+order,如:place regular orders,place a trial order,place a further order,place a substantial order,place a large order,place a first order,place an order,place orders,place a further and large order,place another order等.沒有解決的問題主要包含下列5個名詞:make offers,make shipment,make an allowance on,make an order for,place insurance中的“offer,shipment,allowance,order,insurance”.這些名詞是多義詞,且所對應的動詞“offer,ship,allow,order,insure”也是多義詞,且很難找到具有相同用法的同義動詞或動詞短語,因此在實驗中沒能消解歧義.

3.2 實驗2:“介詞+名詞”作狀語的歧義問題及處理

本文選擇介詞in進行分析.“in+n”結構,既可能作之前名詞的后置定語,也可能作狀語,很容易引起結構歧義.本文對商務信函雙語語料庫進行搜索,找出所有含有“n+in+n”結構,且“in+n”作狀語的句子,并進行分類,得出表示地點、時間、情況、方式和目的等5類狀語,合計92個測試句子,具體信息見表6.

表6 “n+in+n”測試語料Tab.6 Testing data of″n+in+n″pattern

將92個句子輸入到Google在線翻譯系統,人工統計“in+n”的翻譯結果,發現問題主要在于“in+n”作狀語沒有被識別出來,卻被當作后置定語,修飾之前的名詞,造成歧義.如:

句子:We look forward to hearing a favorable reply from you in due course.

Google譯文:我們期待著聽到您在適當的時候有利的答復.

參考譯文:希望在適當的時候聽到貴方的好消息.

可以看出,Google在翻譯該句時,將a favorable reply from you in due course作為一個NP進行翻譯,將in due course看做reply的定語,譯成“在適當的時候有利的答復”,而沒有考慮到in due course是狀語,修飾動詞hear,應譯為“在適當的時候聽到”.

因此,本文采取以下消歧策略,將“in+n”作狀語同之前的名詞短語區分開來:

在in前加分隔符“,”將“in+n”與其他部分隔開.如:We have pioneered your new product,

in our market. We have pioneered your new product in our market.消歧結果見表7.

表7表明,將“in+n”作狀語識別出之后,可以提高機譯的質量(消歧前正確率為22.8%,而消歧后為75.0%).根據表7,“in+n”表示情況時,是翻譯的難點,消歧后的準確率也只有64.7%.

表7 “n+in+n”消歧結果Tab.7 Disambiguation results of″n+in+n″pattern

仍有23個句子,占25%,沒有消解歧義,問題主要有兩種:

(1)所采用的消歧策略對譯文無影響.即采用消歧策略后,得到的譯文與消歧前一致,占總數的13%.

(2)消歧后,譯文仍錯,占12%.原因主要在于“in+n”為固定搭配,對機器翻譯造成困難,如:in the spirit of(本著…的精神),in the absence of(在沒有…的情況下),in the hope of(希望…),in the most effective manner(最有效地)等.

4 結 論

本文基于系統功能語法,提出了功能名詞短語的概念,并運用該功能名詞短語,對英文商務信函語料進行處理.結果表明,功能名詞短語能夠在名詞短語識別階段消解兩種主要結構歧義:與動詞構成固定搭配的名詞引起的歧義和“介詞+名詞”結構作狀語引起的歧義.消解這兩種歧義后,機器翻譯的譯文質量有較大提高.實際上,名詞短語的結構歧義消解問題轉化為了功能名詞短語的識別問題.而功能名詞短語的識別,既要考慮名詞短語的結構,又要考慮名詞短語的句法功能,限于篇幅將另文深入闡述英語功能名詞短語的自動識別.

[1] SINCLAIR J.柯林斯COBUILD英語語法句型2:名詞與形容詞[M].上海:上海外語教育出版社,2000

[2] HALLIDAY M A K.功能語法導論[M].北京:外語教學研究出版社,2000:106-214

[3] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C]//Proceedings of Second Conference on Applied Natural Language Processing.Austin:Association for Computational Linguistics,1988:136-143

[4] VOUTILAINEN A.NPtool,a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives. Columbus: Association for Computational Linguistics,1993:48-57

[5] RAMSHAW L,MARCUS R.Text chunking using transformation-based learning [C]//Proceedings of the Fourth Workshop on Very Large Corpora.Copenhagen:University of Copenhagen,1995:82-94

[6] ABNEY S.Parsing by chunks[C]//Principal-Based Parsing.Dordrecht:Kluwer Academic Publishers,1991:1-18

[7] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000shared task:chunking[C]//Proceedings of CoNLL-2000and LLL-2000.Lisbon:Association for Computational Linguistics,2000:127-132

[8] KOEHN P,KNIGHT K.Feature-rich statistical translation of noun phrases[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo:Association for Computational Linguistics,2003:311-318

[9] 周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語識別[J].計算機研究與發展,2003,40(3):440-446

[10] 梁穎紅,趙鐵軍,岳 琪.英語基本名詞短語識別技術研究[J].信息技術,2004,28(12):22-24

[11] 呂 琳,劉玉樹.最大熵和Brill方法結合識別英語BaseNP[J].北京理工大學學報,2006,26(6):500-503

[12] 馮 沖,陳肇雄,黃河燕,等.基于條件隨機域的復雜最長名詞短語識別[J].小型微型計算機系統,2006,27(6):1134-1139

[13] 代 翠,周俏麗,蔡東風,等.統計和規則相結合的漢語最長名詞短語自動識別[J].中文信息學報,2008,22(6):110-115

[14] 錢小飛.以“的”字結構為核心的最長名詞短語識別研究[J].計算機工程與應用,2010,46(18):138-141

[15] 馬建軍.英漢機器翻譯歧義問題分析[J].大連理工大學學報(社會科學版),2010,31(3):114-119

[16] HORNBY A S. Oxford Advanced Learner′s Dictionary[M].Oxford:Oxford University Press,2000

[17] SINCLAIR J.柯林斯COBUILD英語語法句型1:動詞[M].上海:上海外語教育出版社,2000

[18] GEER D.Statistical machine translation gains respect[J].IEEE Computer,2005,38(10):18-21

猜你喜歡
功能
拆解復雜功能
鐘表(2023年5期)2023-10-27 04:20:44
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
基層弄虛作假的“新功能取向”
當代陜西(2021年21期)2022-01-19 02:00:26
深刻理解功能關系
鉗把功能創新實踐應用
關于非首都功能疏解的幾點思考
基于PMC窗口功能實現設備同步刷刀功能
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達功能
中西醫結合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 中文字幕在线看| 久久亚洲中文字幕精品一区 | 亚洲码在线中文在线观看| 欧美视频二区| 伊人激情综合网| 怡春院欧美一区二区三区免费| 精品第一国产综合精品Aⅴ| 欧美日韩免费在线视频| 亚洲无码37.| 国产簧片免费在线播放| 天堂岛国av无码免费无禁网站| 国产一区二区网站| AV无码无在线观看免费| 亚洲色成人www在线观看| 999精品在线视频| 2021亚洲精品不卡a| 四虎精品黑人视频| 毛片网站在线看| 亚洲制服丝袜第一页| 国产欧美精品专区一区二区| 亚洲精品国产成人7777| 久久综合丝袜日本网| 视频二区欧美| 综合亚洲色图| 国产一级毛片高清完整视频版| 欧美日韩另类在线| 露脸国产精品自产在线播| 亚洲美女操| 小蝌蚪亚洲精品国产| 免费毛片a| 亚洲无卡视频| 免费高清自慰一区二区三区| 小蝌蚪亚洲精品国产| 国产91无毒不卡在线观看| 国产精品久久自在自线观看| 国产一区二区人大臿蕉香蕉| 国产精品久久久久婷婷五月| 国产一区二区在线视频观看| 国产精品成人一区二区| 亚洲国产看片基地久久1024| 亚洲区欧美区| 成人国产精品网站在线看| 57pao国产成视频免费播放| 亚洲一级毛片免费观看| 日韩在线第三页| 大香网伊人久久综合网2020| 一级福利视频| 亚洲无码37.| 国产精品女在线观看| 欧美va亚洲va香蕉在线| 国产美女精品在线| 999精品在线视频| 国产欧美成人不卡视频| 亚洲欧美自拍中文| 风韵丰满熟妇啪啪区老熟熟女| 国内精品久久久久久久久久影视| 九色91在线视频| 一本大道香蕉中文日本不卡高清二区| 免费国产高清精品一区在线| 91福利片| 欧美中出一区二区| 噜噜噜久久| 又猛又黄又爽无遮挡的视频网站 | 成人综合网址| 久久99国产精品成人欧美| 91丝袜美腿高跟国产极品老师| 亚洲国产第一区二区香蕉| 久久77777| 日本在线免费网站| 国产91无码福利在线| 久久精品这里只有国产中文精品| 国产亚洲视频免费播放| 国产成人精品日本亚洲77美色| 在线观看视频一区二区| 久久不卡精品| 久久精品波多野结衣| 欧美一区二区丝袜高跟鞋| 东京热一区二区三区无码视频| 波多野结衣中文字幕一区二区| 伊人成人在线视频| 免费观看成人久久网免费观看| 99久久精品国产综合婷婷|