提 要 本文敘述了國際標準ISO 7098的修訂過程,指出這個國際標準修訂的兩大特點?:一是把漢語拼音按詞連寫的規則引入國際標準,二是把漢字—拼音轉寫的自動譯音方法引入國際標準。
關鍵詞 拼音;國際標準;單一羅馬化;自動譯音
Abstract This article describes the latest development of Chinese character internationalization. The first section, after a brief introduction about the promulgation of Pinyin (Romanization Scheme for Chinese character), discusses a series of academic efforts to integrate Pinyin into international standards since 1979, with a focus on recent proposals of Pinyin spelling standardization rules recommended to the annual meetings of ISO/TC (International Organization for Standardization/Technical Committee) from 2011 to 2015. The second and third sections review the two latest recommendation submitted to ISO. The second section focuses on the technical aspects of Chinese word-segmentation and disambiguation mechanism and the third section is devoted to the significance of the automatic transcription from Chinese characters to Pinyin in the international standard.
Key words Pinyin; international standard; single Romanization; automatic transcription
1979年,中國代表周有光在華沙的ISO/TC 46(國際標準化組織信息與文獻標準化技術委員會)第18屆全體會議上,提出把《漢語拼音方案》作為國際標準的建議。
1982年在南京召開的ISO/TC 46第19屆全體會議上,正式通過了《ISO 7098 文獻工作——中文羅馬字母拼寫法》(ISO 7098 Information and Documentation-Chinese Romanization)。澳大利亞、加拿大、法國、日本、韓國、德意志聯邦共和國、蘇聯等國投了贊成票,英國棄權,由于技術上的原因,美國投了反對票。從此,漢語拼音成為國際標準。
一、國際標準ISO 7098的修訂過程
1991年,在巴黎召開的ISO/TC 46第24屆全體會議上,對國際標準“ISO 7098”進行了技術修改,成為《ISO 7098信息與文獻——中文羅馬字母拼寫法(1991)》,簡稱“ISO 7098(1991)”。中國代表王均出席了這次會議。
20世紀90年代初制定ISO 7098(1991)的時候,正是世界進入信息時代的關鍵時刻。為了適應信息時代的要求,中國開始研制計算機漢字輸入輸出。使用漢語拼音,可以通過拼音—漢字轉換的方法輸入輸出漢字。由于漢語拼音是中國初等教育必不可少的內容,每一個受過教育的中國人都會使用,這樣,ISO 7098(1991)就成了漢字輸入輸出的一種便捷的手段。
國際標準ISO 7098(1991)是在《漢語拼音方案》的基礎上制定的,為了在國際范圍內進一步擴大《漢語拼音方案》的影響,有必要修改ISO 7098(1991)。
ISO 7098(1991)對于全世界的信息與文獻工作具有重要的意義,為了滿足國內外對漢語拼音實際應用的迫切需要,也有必要修改ISO 7098(1991)。
2011年3月,教育部成立了ISO 7098修訂工作組,由語言文字應用研究所研究員馮志偉擔任組長,李志江、傅愛平、黃偉、顏偉四位語言文字專家為工作組成員,啟動了ISO 7098(1991)的修訂工作。
2011年5月6日,ISO/TC 46第38屆會議在澳大利亞悉尼召開,受教育部的派遣,我國代表馮志偉出席并在會上提出了修改ISO 7098(1991)以便反映當前中文羅馬化的新發展和實際應用需要的建議。會后,我國國家標準化委員會(SAC)正式向ISO國際標準化組織提出了修訂ISO 7098(1991)的新工作項目(New Working Item Proposal,簡稱NWIP)的提案,提案的國際編號是:N 2358。
2012年5月6日至11日,ISO/TC 46第39屆全體
會議在德國柏林舉行,教育部派遣馮志偉出席這次會議。會議接受了我國的N 2358號提案,并將這個提案直接作為ISO 7098的工作草案(Working Draft,簡稱WD),成立了ISO 7098國際修訂工作組,并任命馮志偉擔任國際工作組組長,由美國、俄羅斯、德國和加拿大四國各派一位專家參加,這樣,ISO 7098(1991)的修訂便正式列入了國際標準化組織的工作日程。
2013年6月3日至7日在巴黎召開ISO/TC 46第40屆全體會議,教育部派遣馮志偉出席這次會議,馮志偉在會議上正式向ISO/TC 46秘書處提交了ISO 7098的委員會草案(Committee Draft,簡稱CD)。
2014年5月5日至9日,ISO/TC 46第41屆全體
會議在美國華盛頓召開。教育部派遣馮志偉出席這次會議,在5月7日的第三工作組(Working Group 3,簡稱WG3)會議上,就ISO 7098(1991)的修訂問題重申中國的立場。會后向ISO/TC 46秘書處提交了ISO 7098的國際標準草案(Draft of International Standard,簡稱DIS)。
2015年6月1日至5日的ISO/TC46第42屆全體會議在北京召開。教育部派遣馮志偉出席這次會議,在6月2日的大會專題報告會上做了《ISO 7098國際標準及其在人機交互中的應用》的報告(Feng 2015)。6月3日的WG3會議上,馮志偉又介紹了各國對于ISO 7098的DIS稿提出的意見以及我國對于這些意見的處理情況,向與會人員出示了DIS的修改稿。
會后,馮志偉把經過修改的DIS稿正式提交ISO/TC 46秘書處,根據ISO/TC 46第41屆全體會議的決議,ISO/TC 46秘書處于2015年7月27日把DIS的修改稿分發給ISO/TC 46的各成員國,進行委員會內部投票(Committee Internal Balloting,簡稱CIB),CIB投票于2015年9月18日結束。ISO/TC 46秘書處的N 2526號文件公布了投票結果:ISO/TC 46委員會中沒有棄權的19個國家全都投了贊成票,獲得全票通過。至此,ISO 7098形成了新的修訂稿,叫作ISO 7098:2015。2015年12月15日,ISO總部正式出版ISO 7098:2015,作為新的國際標準向全世界公布。
2015年12月15日由ISO總部正式出版的ISO 7098:2015有兩個最為引人注目的特點,一是把漢語拼音按詞連寫的規則引入國際標準,二是把漢字—拼音轉寫的自動譯音方法引入國際標準。
二、漢語拼音按詞連寫的規則引入國際標準
漢語中大多數常用詞都是多音節詞,因此,在國際文獻和信息工作中,有必要把按詞連寫的規則引入國際標準。
在漢語拼音中,單個的音節是有歧義的。如果不計聲調,基本的漢語音節只有405個,這405個漢語音節可以表示全部漢字的讀音。《通用規范漢字表》包含8105個通用漢字,一般使用中一個漢語音節平均要表示20個以上的漢字(8105/405 =
20.01),不可避免會出現歧義。如果把幾個單音節連接起來構成多音節詞,歧義指數就會大幅度減少。為了給拼音音節排歧,必須把不同的單音節連接起來構成多音節的漢語單詞。
《漢語拼音正詞法基本規則》(GB/T 16159-2012)中包括了分詞連寫規則,人名和地名的拼寫規則,大寫規則,移行規則,等等。
漢語的專有名詞中,單詞的界限還是相對清楚的,由于漢語中多音節的命名實體的界限根據有關的規范和標準比較容易確定,因此,把不同的幾個單音節連接起來構成多音節的專有名詞就不是很困難。
由于這樣的考慮,國際標準ISO 7098:2015增加了命名實體(naming entities)按詞進行音節連寫的規定:在漢語拼音中,對于人名、地名、語言名、民族名、宗教名這五種命名實體,都要按詞進行連寫。這樣就把“按詞連寫”這個重要的方法引進了國際標準中。
在中文羅馬字母拼寫的發展過程中,曾經使用過與《漢語拼音方案》不同的羅馬字母拼寫形式來拼寫中文地名。威妥瑪式(Wade Giles)、國語羅馬字(Guoyeu Romatzyh)、耶魯拼音(Mandarin Yale)等,根據“單一羅馬化”原則,在對中文地名進行羅馬字母拼寫時,選擇了《漢語拼音方案》。
三、漢字—拼音轉寫自動譯音的方法引入國際標準
ISO 7098:2015還把漢字—拼音轉寫自動譯音的方法引入國際標準,提出了在計算機輔助文獻工作中,對命名實體進行自動譯音(automatic transcription)的兩種方法:一種是按音節全自動譯音,一種是基于規則的按單詞半自動譯音。
按音節全自動譯音的方法能夠把漢字文本自動地譯音為彼此之間由空白分開的單音節的拼音。使用這樣的方法,“北京市”這個地名可以全自動地譯音為/bei/、/jing/ 和/shi/三個音節。這種方法很容易用計算機程序來實現,但是譯音出來的音節的歧義指數較高。
另一種是基于規則的按單詞半自動譯音的方法。在目前的技術條件下,全自動的單詞切分難以達到很好的質量,可以采用基于規則的按單詞半自動譯音的方法。
命名實體基于規則的按單詞半自動譯音可以使用如下的資源:1. 一套譯音規則:ISO 7098:2015提出了命名實體譯音的一般規則,這些規則可以用作命名實體半自動譯音的資源。2. 一個相關的譯音詞典:最近出版的《漢語拼音詞匯:專名部分(草案)》(董琨 2015)包含了大多數的命名實體的拼音譯音,可以用作命名實體半自動譯音的另一個資源。
ISO 7098:2015提出,如果在按詞譯音過程中出現歧義或問題,后編輯人員可以根據譯音詞典,使用人機交互找出合適的命名實體的譯音。所以,這樣的方法是半自動的。這種半自動方法的譯音質量很高,音節的歧義指數較小甚至可以減少到零。
24年前制定的ISO 7098(1991)把《漢語拼音方案》提高到國際標準的地位,是漢語拼音走向世界的第一步,現在我們修訂的ISO 7098:2015,進一步提出了在羅馬字母拼寫時對命名實體按詞連寫的規則和自動譯音的方法,邁開了漢語拼音走向世界的新步伐。
參考文獻
董 琨主編 2015 《漢語拼音詞匯:專名部分(草案)》,上海:上海辭書出版社。
Feng Zhiwei. 2015. Chinese Romanization and Its Application in HCI. Proceedings of 42th Plenary Meeting of ISO TC46, Beijing.
International Standadization Organization. 2015. ISO 7098: 2015 Information and Documentation: Romanization of Chinese. Geneve.
責任編輯:劉一玲