李詩品
摘 要 谷歌專利(Google Patent)為廣大用戶提供了便利的專利檢索和翻譯服務,但其(Google Patent)翻譯文本仍然存在著一定的不足。本文基于谷歌專利(Google Patent)的檢索文本,探討美國專利局專利摘要在專利詞匯層面的差異,進而探討計算機通信領域專利摘要中存在的翻譯共性。本文從谷歌專利(Google Patent)中隨機選取100篇專利摘要文本,借助Antconc文本分析工具和微型平行語料庫探究其詞匯層面的翻譯共性。研究表明,谷歌專利(Google Patent)在術語的層面,雖然大多數核心詞能做到相對精確的對應,但仍存在著部分名詞的指代偏差、修飾詞搭配偏差和術語結構順序偏差。在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘體現著一定程度的翻譯共性。 關鍵詞 機器翻譯 專利摘要 平行語料庫 翻譯共性
中圖分類號:H315.9 文獻標識碼:A DOI:10.16400/j.cnki.kjdks.2018.08.030
Abstract Google Patent provides a convenient patent search and translation service for users, but there are still some shortcomings in its translation. Based on the search text of Google Patent, this paper explores the differences in patent vocabulary between US Patent Office patent abstracts, and then explores the commonalities of translation in patent abstracts in computer communications. This paper randomly selects 100 patent abstract texts from Google Patent, and explores the commonality of translation at the lexical level by means of Antconc text analysis tools and micro-parallel corpus. Studies have shown that Google Patent at the level of terminology, although most of the core words can achieve a relatively accurate correspondence, there are still some nouns of the deviation of the reference, modifier collocation deviation and term structure order deviation. In terms of vocabulary density and class proportions, the US Patent Office's patent abstract text and Google patent abstracts reflect a certain degree of translation commonality.
Keywords machine translation; patent abstracts; parallel corpus; translation commonality
1 概述
通信互聯網行業作為21世紀的新興產業,其專利需求量與日俱增。僅從2012年到2016年,世界范圍內戰略性新興產業領域的專利數量激增,全球戰略性新興產業發明專利申請量達到357萬件,五年年均增長率為 5.8% 。[1]專利不僅承擔著向特定讀者群體傳播技術發明的作用,同時可以作為預防侵權的有力證據。作為記錄授予發明人一定時間的權利的法律文件,專利對保護知識產權的合法權利和生產起著至關重要的作用。[2]而專利翻譯摘要作為專利檢索的切入點,可以助于專家總覽全文。谷歌專利(Google Patent)作為一個在線專利網站,其豐富的語庫可以實現一定程度的翻譯服務,達到一定程度的翻譯對等。然而,這種對等仍然沒有實現賴斯 (Kantarlna Relss)所提出的功能對等。[3]在實際操作中,專利翻譯者需要注重翻譯細節和專利文獻的功能對等。隨著中國新興產業的迅速崛起,專利成為知識產權“走出去”的有力保障。探究中英文專利翻譯摘要文獻與谷歌專利(Google Patent)所生成的機器翻譯文本在術語層面的差異,不僅具有較高的學術價值,同時對實現專利的機助翻譯具有十分重要的意義。
2 文獻綜述
自20世紀50年代初,一些學者開始重視機器翻譯。江鎮化指出了潛在的困難,并提出了機器可用于翻譯活動的假設。[4]機器翻譯在專利領域的研究始于2007年,劉韌介紹了第一個專利機器翻譯引擎。[5]2011年,中國專利信息中心——北京師范大學機器翻譯聯合實驗室成立。
此后,越來越多的學者研究機器翻譯在專利翻譯領域的應用以及專利機器翻譯的優化。[6]隨著機器翻譯的興起,翻譯語料庫應運而生。
語料庫(corpus)是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的連續的語言運用文本或話語片斷。[7]梁茂成指出,存在著“基于語料庫”的研究范式和“語料庫驅動”兩研究模式。[8]前者只是將語料庫視為眾多數據種類中的一種,不排斥在必要時使用其他類型的數據,而后者主張一切源自語料庫。其中,基于語料庫的翻譯語言研究十分活躍,就翻譯共性而言,胡顯耀、曾佳等發現,翻譯語料與原創語相比,表現出明顯的簡化、顯化和范化特征;[9]而且,無論是文學還是非文學語料,翻譯語與原創語相比具有詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。[10]
從文本量化層面,Tsai、Y.在專利翻譯詞匯層面研究對比了中英專利文獻的字長、詞頻、關鍵詞和類型標記率。[11]她發現,英文專利摘要更多的使用短句,而中文專利用詞更為多樣化。然而,她只是調查了中英文專利摘要的差異,兩者區別對于機助翻譯顯得并不是那么直觀。班尼特特別關注了翻譯的問題,他認為學術文本的寫作慣例具有準確、簡潔和清晰的特點,這與專利文本的標準非常相似。[12]
3 研究方法
在文本選擇層面,美國專利局的專利包括實用專利、外觀設計專利和植物專利。[13]而我國將專利分為發明專利、實用新型專利和外觀設計專利。[14]因為我們根據世界知識產權組織(WIPO)根據合作專利分類(CPC)章程,選定了隸屬于(H4)電力通信行業范疇的專利文本。
在語料庫層面,我們采用隨機選取的策略,在谷歌專利中設置了檢索限制。將專利文本限制在2013年1月1日到2017年12月30日。同時考慮到專利是否同時具有中英文版本,以及這些文本是否具有代表性。我們選擇了高通、華為、中興等通訊行業的巨頭作為研究對象。通過Excel 軟件做成標題對齊、句子對齊和段落對齊的三種語料庫。
在量化層面,我們使用了美國當代語料庫(COCA)。同時,使用語料庫在線對于中文文本進行標注,進而使用antconc和WordSmith探索中英文專利和機器翻譯文本在詞頻、詞密度、字長和類符比層面的差異,進而研究其翻譯共性。
4 結果和討論
詞法分析旨在研究目標語中的字長、詞頻、關鍵詞和類符比。單詞長度是指一個單詞中的字符數,而詞頻為每個文本提供文體特征的統計證據。[15]使用語料庫工具可以搜索文本中的單詞或短語,進而系統地展示其文本特征。
4.1 術語差異
專利摘要中的術語必須符合國家規定或行業內的共識,因而其選擇是極為嚴格的,同時專利的術語通常集中在專利文摘的標題中。[16]因此,我們隨機抽樣了100份專利摘要的標題,并且對比了美國專利摘要和谷歌專利(Google Patent)翻譯文本的差異。實驗表明:(Google Patent)可以實現37%標題完全對等,這足以顯示機器翻譯在專利術語層面的準確性較高。同時26%的標題實現了名詞的完全對等、只有形容詞和動詞的細微差別。
谷歌專利(Google Patent)可以在術語選擇方面實現較高的準確度。與美國專利局專利相比,谷歌專利(Google Patent)在相同、相似和核心詞對等的百分比已達到90%。然而僅37%的完全對等并不能滿足翻譯的要求。術語的選擇可以反映專利寫作的準確性。例如在“用戶設備”中,user device和user equipment表面上看都是可以接受的。但是,事實上,當我們使用COCA進行驗證時,結果表明user device比user equipment更容易接受。同時,user device的MI值達到3.06,超過3.0這一搭配界限。
類似的例子,如在“系統裝置”中。其裝置可以通過COCA語料庫來驗證。其結果是, apparatus指代需要裝配起來的裝置,device強調已經裝配完整的裝置。除了以上的名詞差異外,在專利中delivery method 和 delivering method也有著一定的差異。delivery method這一術語在COCA語料庫中出現頻率較高。雖然可以將轉化為method of delivering,但鑒于專利撰寫的簡潔性而舍棄。
在術語層面,除了名詞術語的差異外,形容詞差異為另一個突出問題。如:
中文:RRS由遠端接口單元、射頻收發單元(TRU)和天線
美國專利局:The RRS includes a remote interface unit, a RF transceiver unit (TRU) and an antenna
谷歌專利局:The RRS is composed of a far-end interface unit, a radio-frequency transceiver unit (TRU) and an antenna
三個版本除了遠端 這一形容詞不同之外,其余術語基本一致。在美國專利局的摘要文本中,技術寫作者選用了remote而不是far-end。我們可以通過COCA語料庫進行驗證。結果表明,far-end一詞通常用于描述噪音,而remote多用于通信行業。而我們在COCA界面搜索remote,我們可以在5173個文本中搜索到多個MI值超過3.0的搭配。因此,遠端接口中的remote更符合語料庫的表達習慣。
4.2 詞匯密度和類符比
詞匯密度指的是文本中實詞的數量。更準確地說,詞匯密度可以反映詞匯在語境中的比例。較高的詞匯密度可以反映文本的簡潔度。另一個詞匯層面的衡量標準是類符比。類型是指文本中所有詞匯的數量,而形符是指文本中不同單詞的數量。詞匯密度和類符比可以反映文本單詞總數和樣本中使用的各種詞的數量之間的關系(見表1)。
將100隨機選取的專利摘要平行語料庫中。我們發現美國專利局的詞匯類型和符號數分別1310和12016,而谷歌專利翻譯所對應單詞類型和符號數分別為1466和14139,美國專利局類符比為10.9%,而谷歌專利機器翻譯的類符比10.2%。而中文標注之后的文本類型和符號數分別為1273和16882,漢語原文的類符比7.5%。根據貝克的在翻譯共性中提到的翻譯簡化理論,譯者會對原語文本中的“語言 / 信息下意識地簡單化”。[17]可以看出,美國專利局的翻譯文本和谷歌專利機器翻譯的翻譯文本相比,在句長和詞匯密度方面都更為精煉、簡潔。
結合上一具體事例,我們可以看出三種文本的情況。這從側面證實了谷歌專利翻譯在英文譯本中存在著一定的翻譯共性。即在谷歌專利(Google Patent)英文翻譯中,雖然存在著詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。
5 總結
專利文獻摘要作為專利檢索的核心,有著舉足輕重的作用。其文本質量不僅決定著文本能否通過,同時也決定著某一項創新能夠得以保護。盡管很多專家在專利翻譯的術語選擇方面進行了一定的研究。但是結合語料庫從翻譯共性和文本量化層面的研究仍然不多。本文從詞匯入手,結合語料庫的工具,探索了谷歌專利在專利摘要詞匯層面的翻譯共性,得出谷歌專利在術語層面可以實現較為精準的對應,但在限定詞層面需要使用語料庫進行驗證。同時,在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘雖然存在著一定的翻譯共性,但其文本詞匯密度比中文偏高。
綜上所述,中英文專利摘要文獻在寫作中存在著很多差異。考慮到現實的操作性和平行語料庫的嚴格要求,專利樣本并不大。但基于選擇專利摘要的隨機性原則,所選的專利文本和實驗結果仍然具有一定的有效性。同時,這一實驗結果對我們進一步探索中英文專利文獻的寫作特點和基于機器翻譯的后期編譯具有一定的參考價值。
參考文獻
[1] 楊國鑫,劉磊,王奕潔,等.戰略性新興產業發明專利授權報告(2009—2013)[J].科學觀察,2016(1):27-47.
[2] Marco A C,Toole A A, Miller R, et al. USPTO Patent Prosecution and Examiner Performance Appraisal[J].2017.
[3] 許慶華.功能對等理論在科技英語漢譯中的應用研究[D].吉林大學,2009.
[4] 胡韌奮.面向漢英專利機器翻譯的介詞短語自動識別策略[J].語言文字應用,2015(1):136-144.
[5] 江鎮華.怎樣閱讀及翻譯英文專利文獻.知識產權出版社,2010.
[6] 薛寶.中國專利信息中心-北京師范大學機器翻譯聯合實驗室揭牌[J].北京師范大學學報:自然科學版,2011.47(2):137-137.
[7] Sinclair J.Corpus,concordance, collocation[M].Oxford University Press,1991.Chapter 1, pp 12-35.
[8] 梁茂成.語料庫語言學研究的兩種范式:淵源,分歧及前景[J].外語教學與研究:外國語文雙月刊,2012.44(3):323-335.
[9] 胡顯耀,曾佳.基于語料庫的翻譯共性研究新趨勢[J].解放軍外國語學院學報,2011(1):56-62.
[10] 王克非,胡顯耀.基于語料庫的翻譯漢語詞匯特征研究[J].中國翻譯,2008.29(6):16-21.
[11] Tsai Y. Text analysis of patent abstracts[J].JoSTrans,2010.13:61-80.
[12] Bennett, G., & Jessani, N. (Eds.).The knowledge translation toolkit: Bridging the know-do gap: A resource for researchers[M].IDRC,2011.
[13] Leydesdorff L, Kushnir D, Rafols I. Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC)[J].Scientometrics, 2014.98(3):1583-1599.
[14] 董濤,賀慧.中國專利質量報告——實用新型與外觀設計專利制度實施情況研究[J].科技與法律,2017.7(2):220-305.
[15] Popiolek M. Terminology management within a translation quality assurance process[J]. Handbook of Terminology,2015.1:341.
[16] Tsai Y. Linguistic evaluation of translation errors in Chinese–English machine translations of patent titles[C]//FORUM. Revue internationale dinterpr ation et de traduction/International Journal of Interpretation and Translation. John Benjamins Publishing Company, 2017.15(1):142-156.
[17] Mauranen A. Universal tendencies in translation[J]. Incorporating corpora: The linguist and the translator,2008:32-48.