摘 要:藏語文是藏族群眾重要的交際工具,藏語文使用有著悠久的歷史,藏文文獻蘊含著難以估計的獨特文化價值。自20世紀80年代,藏文信息技術研究開始起步,至今已超過40年,藏文信息處理的基礎是藏文字符編碼研究。文章詳細回顧了藏文字符編碼的創制和發展歷程,歸納劃分出數碼轉化、萬“碼”奔騰、標準編碼發布和標準編碼修訂完善四個發展時期,并針對目前藏文字符編碼存在的一些問題進行詳細分析并提出合適的解決方案。
關鍵詞:藏文;字符編碼;標準
中圖分類號:H6" 文獻標識碼:A" 文章編號:1673-2596(2024)08-0064-04
藏族是生活在中國西南部的一個大民族,根據第七次人口普查(2020),中國約有706萬藏族人口[1]。藏語是藏族群眾的主要交際工具,屬于漢藏語系藏緬語族藏語支語言。藏文是藏族人民創制的文字,已通行使用一千四百多年,用藏文記載的文獻、古籍數量巨大,是中華民族文化遺產寶庫中的重要組成部分,有著難以估計的獨特文化價值。時至今日,藏文仍然作為藏區傳播知識文化的重要工具,起到舉足輕重的作用。自從計算機作為一種日常工具逐漸融入到人們的工作生活中,藏文能否準確便捷地輸入計算機,在計算機系統中完美顯示和打印輸出,是信息時代賦予藏文新的使命。藏文信息處理作為一門利用計算機理論與技術處理藏文的交叉學科應運而生。藏文要進入計算機,首先要變換成計算機能識別的代碼,計算機不能直接識別處理文字,它需要將每個輸入計算機的文字轉化為編碼。當需要在計算機上顯示文字時,又要通過編碼在計算機已有的字符庫中查找與該編碼對應的字符點陣圖,最終計算機顯示出來的才是文字。因此,藏文信息處理的基礎是藏文字符編碼研究。
國際標準化組織(International Organization for Standardization,簡稱ISO)是國際標準化領域中一個十分重要的非政府組織,成立于1947年。它的主要職責是制定國際標準,協調世界范圍內的標準化工作,組織各成員國和技術委員會開展情報交流,與其他國際組織開展工作合作,共同研討有關標準化的一系列問題[2]。統一編碼聯盟(The Unicode Consortium)是計算機科學領域里的一項業界標準,包括字符集、編碼方案等。Unicode解決了傳統字符編碼方案的局限,為了滿足文本轉換、處理時跨語言、跨平臺的要求,它為每一種語言的每一個字符設定了統一且唯一的二進制編碼,Unicode于1990年開始研發,1994年正式公布[3]。
一、藏文字符概況
藏文分現代藏文與梵音藏文兩種。現代藏文是用來記錄現代藏族語言的文字。梵音藏文是依據一定的音譯規則,轉寫藏族歷史傳說和佛教經文中梵文的文字。現代藏文和梵音藏文共同組成了藏文文字符號系統。藏文屬拼音文字[4]。藏文字符包括30個輔音字母,10個梵音藏文字母,共40個基本字符。同時藏文字符還必須包括4個元音符號、3個梵音藏文元音符號、作為上加字和下加字字符的變形基本輔音字母和其他數個組合用的梵音藏文的輔助讀音符號[5]。藏文的書寫方式是由左向右橫寫。字母的上面和下面均可加字母。藏文字母在音節字中的結構位置可以分為基字、上加字、下加字、前加字、后加字和再后加字。根據藏文正字法,每個藏文音節最長占四個“字符單元”位置。在基字的垂直方向上可添加上加字、下加字和元音符號,最多4個疊加層次,7個部分。
二、藏文字符編碼發展歷程
縱觀藏文字符編碼研究的40年發展歷程,大致可分為數碼轉化、萬“碼”奔騰、標準編碼發布和標準編碼修訂完善四個發展時期。
(一)數碼轉化時期
與漢字信息處理相比,中國的藏文信息處理研究工作起步稍晚,始于改革開放后。最早發表的研究成果是于道泉先生設計的“藏文數碼代字”方案,依據該方案,可以將藏文簡捷地轉換為數碼形式[6]。張連生在于先生提出的方案基礎上進行了改造,設計實現了計算機藏文排索[7]。此后,張連生在美國利用PLATO計算機系統中的TUTOR軟件程序,實現了在計算機上輸入、顯示、輸出藏文的文字處理軟件[8]。1984年,俞樂等人利用BASIC語言實現了一個有輸入、顯示和打印等多功能藏文字處理系統和藏文報表軟件。同時期,胡彥發等人也在WANGVS/80機上用擴展BASIC語言實現了一個藏文的字處理系統ZWCL和藏文文獻聯機檢索系統。羅圣儀等人在微機PC-8001和IBM-PC上利用TLLP字符寫入程序實現了一個藏文字處理系統[9]。
(二)萬“碼”奔騰時期
因印刷藏文出版物的實際需要,20世紀80年代末期,由中國藏學研究中心、航天部710所、濰坊華光集團合作開發出一款藏文激光照排系統——華光藏文系統。該藏文系統沒有采用國際標準藏文編碼字符集,而是仿造漢字的編碼技術,開發出以字丁為基礎的大字符編碼集。藏文字丁是藏文文字系統中的一個基本字符,由基字及疊加在其垂直方向上下的字符組合而成。1990年,由中軟總公司、北京民族印刷廠、北京大學計算機科學技術研究所、中國民族語文翻譯中心在華光藏文系統的基礎上,聯合研發出一款專門用于書刊排版的藏文系統——北大方正藏文系統。1997年青海師范大學開發了班智達藏文字處理系統,運用在漢藏機器翻譯系統和藏藥信息系統。2000年西北民族大學開發了同元藏文系統。
(三)標準編碼發布時期
1.國際標準編碼發布
1988年7月,英國標準局率先向ISO提交藏文字符編碼方案,ISO于1988年制定完成了第一個國際標準草案ISO/DP10646《信息技術通用多八位編碼字符集》。ISO內部制定的測試版本ISO/DP10646:1993,包括了168個藏文字符。中國從1993年開始組織協調多部門、各領域專家,迅速開展藏文編碼字符集國際標準研制工作,歷時四年,完成藏文字符編碼國際標準方案。期間,美國、印度、愛爾蘭等國家相繼提交藏文編碼方案,中國政府嚴正交涉,在堅持“以我為主”的基本原則下,積極開展國際交流與研討。1997年7月,在希臘舉行的第33屆WG2會議及SC2會議上,表決通過了以中國提案為主的藏文編碼國際標準,隨后正式發布ISO/IEC 10646藏文國際標準編碼(ISO/IEC 10646-1:1993/AMD 6:1997 Information technology—Universal Multiple-Octet Coded Character Set (UCS)—Part 1:Architecture and Basic Multilingual Plane Amendment6:Tibetan)。藏文是中國少數民族文字中第一個具有國際標準編碼的文字,藏文正式進入了信息化時代。
幾乎在同一時期,Unicode著手于藏文國際標 準編碼研制。1991年10月發布了Unicode1.0.0版本,該版本收入藏文字符71個,包括7個元音字符,35個輔音字符,5個反寫梵源藏文字符,2個符合元音字符,10個數字符號和12個輔助符號。但是由于沒有采用正字,功能描述也不準確,這個版本的編碼標準度不高。1993年6月發布Unicode1.1.0版時,刪除了所有的藏文字符。同時,兩個國際標準化組織開始意識到世界上應統一使用一個標準。1996年7月,Unicode2.0.0版本推出,收入了ISO/DP 10646(1993)里的藏文字符。
2.中國國家標準編碼發布
在藏文國際標準編碼發布的同年9月,中國國家技術監督局、國家標準委發布了《信息技術信息交換用藏文編碼字符集基本集》(GB16959-1997)和《信息技術藏文編碼字符集(基本集)點陣字形第一部分:白體》(GB/T16960.1-1997)兩項國家標準,標準于1998年1月1日起實施。
(四)標準編碼修訂完善時期
1.國際標準編碼的修訂
2000年8月統一編碼聯盟發布Unicode3.0.1版,藏文字符編碼與ISO發布的ISO/IEC 10646-1:2000完全一致。與舊版相比,Unicode3.0.1版增加了25個藏文字符、4個不變形字符、5個組合用下加符和16個其他符號,如類標點符號、吟誦示意符、吉祥裝飾符及籌碼符號。因增補字符數量較多,原先設定的192個字符區域已經無法滿足需求,Unicode3.0.1版的藏文字符編碼區域擴展至256個,并對一些藏文字符名稱、意義進行重新修訂。此后,Unicode更新版本的藏文字符編碼區不再擴展,僅增加少量藏文字符。如2005年3月31日發布Unicode4.1.0版增加藏文字符6個,2009年10月1日發布Unicode5.2.0版,增加藏文字符4個,2010年10月11日發布Unicode6.0.0版,增加藏文字符6個。2019年5月7日Unicode12.1.0發布,這是Unicode最新版本,藏文編碼沒有增減。ISO/IEC10646:2017是ISO最新版本。
2.中國國家標準編碼的補充
ISO/IEC 10646-1:1993/AMD 6:1997將藏文完全按拼音文字處理,定義了共169個藏文字符(小字符集),包括藏文字母30個、梵音藏文字母11個、組合用字符58個、藏文數字符20個、其他圖形字符49個、控制字符1個。這169個編碼,采用動態組合的方法可以組成全部藏文。但是由于技術的困難和受漢字編碼的影響,中國國內普遍采用預組合方式的藏文字符編碼。預組合編碼模式是基于GB16959-1997《信息技術信息交換用藏文編碼字符集基本集》,以字丁為造字基礎的編碼方式。自2002年起,中國兩次向ISO提出將“藏文大字丁編碼字符集”方案收錄于ISO/IEC 10646,由于ISO的專家認為編碼空間有限,中國的增補提案遭到拒絕。
2006年10月,中國國家技術監督局、國家標 準委發布了GB/T 20542-2006《信息技術藏文編碼字符集擴充集A》。擴充集A共收錄1536個現代藏文和梵源藏文垂直預組合字符,編碼位置0xF300-0xF8FF。擴充集A使用了GB16959-1997基本集中的74個字符,采用預組合方式,按照現代藏文字符和梵源藏文字符分開排序。預組合現代藏文字符761個,以基字為準,按藏文字母的順序排序,具體的規則是:輔音+元音、基字+下加字、基字+下加字+元音、基字+上加字、基字+上加字+元音、基字+下加字+上加字、基字+下加字+上加字+元音;梵音轉寫藏文字符775個,以最上層輔音字符為準,根據其元音、輔音的先后順序,按疊加字符的最頂層的輔音所處的位置進行排序[10]。
2008年6月,中國國家技術監督局、國家標準委發布了GB/T22238-2008《信息技術藏文編碼字符集擴充集B》。擴充集B收錄了5702個梵源藏文字符,編碼位置0xF0000-0xF1645。收錄的字符以最上層輔音字符為準,按藏文字母順序排序[11]。
2008年8月6日,中國國家技術監督局、國家標準委發布了GB/T22323-2008《信息技術藏文編碼字符集(基本集及擴充集A)24×48點陣字型吾堅瓊體》。該標準提供了GB 16959-1997(基本集)和GB/T 20542-2006(擴充集A)規定的1729個藏文圖形字符的24×48點陣吾堅瓊體字型,并按照藏文編碼字符集規定的字符次序排序。
2011年1月10日,中國國家技術監督局、國家標準委發布了三種藏文字體的國家標準編碼字符集,用于藏文信息系統中的顯示、輸出和印刷。三個標準分別是GB/T 25911-2010《信息技術藏文編碼字符集24×48點陣字型朱匝體》、GB/T25912-2010《信息技術藏文編碼字符集24×48點陣字型白徂體》、GB/T25913-2010《信息技術藏文編碼字符集(擴充集B)24×48點陣字型吾堅瓊體》。GB/T25911-2010提供了GB 16959-1997(基本集)和GB/T 20542-2006(擴充集A)規定的710個(藏文編碼字符集基本集中字符57個,擴充集A中字符653個)藏文圖形字符的24×48點陣朱匝體字型,并按照藏文編碼字符集規定的字符次序排序。GB/T 25912-2010提供了GB 16959-1997(基本集)和GB/T 20542-2006(擴充集A)規定的712個(藏文編碼字符集基本集中字符59個,擴充集A中字符653個)藏文圖形字符的24×48點陣白徂體字型,并按照藏文編碼字符集規定的字符次序排序。GB/T25913-2010提供了GB/T 22238-2008(擴充集B)規定的5702個藏文圖形字符的24×48點陣吾堅瓊體,并按照GB/T 22238-2008規定的字符次序排序。
2012年12月31日,中國國家技術監督局、國家標準委發布了甘丹白體、甘丹黑體兩種藏文字體的16×32點陣、24×48點陣的國家標準編碼字符集共8個標準,用于藏文信息系統中的顯示、輸出和印刷。標準提供了藏文編碼字符集基本集和擴充集A中規定的1729個藏文圖形字符及擴充集B中規定的5701個藏文圖形字符。
三、藏文字符編碼存在的問題與建議
(一)藏文字符編碼研究滯后,國際角逐多次失利
基于國際標準的藏文字符編碼研究長期存在研究滯后的問題。中國是藏語言文字的使用大國,藏語文的故鄉,但藏文編碼國際標準首次由英國標準局提出,隨后,中國政府與國際組織、相關國家多次交涉,最終才確立了以中國方案為主導的藏文編碼國際標準。此后,國內相關專家學者并未引以為戒,提高其自身政治敏銳性,而是把藏文國際編碼放置一邊,推出以字丁為基礎的大字符集編碼,還作為國家標準發布,并多次向國際編碼組織申報,希望作為補充集批準,但國際編碼組織堅持編碼唯一的原則,駁回申請。2007年1月,美國微軟公司發布Windows Vista操作系統,率先解決了藏文字符垂直疊加技術難題。該系統基于Unicode國際標準編碼和中國國家標準藏文鍵盤輸入方案,采用Open Type字體和疊置引擎技術,基本解決了藏文小字符集輸入、排版、輸出打印問題。
(二)同形異碼,藏文信息處理的絆腳石
已發布的藏文標準編碼字符集并不完善,存在同形異碼的問題。同形異碼簡單地說就是一個字符有兩個或兩個以上的編碼。人依靠字形判斷,字形完全相同,在人的眼中是同一個字符,而計算機是依據編碼判斷,一個編碼對應一個字符,同形異碼現象是計算機把一個字符分辨為不同的字符。藏文國際標準編碼字符集中同時存在單字符編碼和組合字符編碼兩種編碼方式,藏文國家標準編碼字符集擴充集A和擴充集B收錄的藏文字丁也同樣存在同樣的兩種編碼。按照人們的輸入習慣,當遇到組合字符時,出于本能會優先采用以單字符組合的方式輸入。只有經過編碼集學習的人才能明確記住有一部分組合字符是已納入編碼集中,具有固定的編碼。因此,可能導致同形不同碼的問題。藏文字符的同形異碼現象是藏文信息處理的一個嚴重問題,對藏文信息檢索和藏文分詞的準確性均有影響。要解決同一字符多個編碼的問題,只能修訂現有的標準編碼字符集。修改方案是刪除已發布字符集里的組合字符編碼,僅保留單字符編碼,并根據需要,再增加一些單字符編碼。要求使用者必須嚴格遵守所有字符統一使用標準字符集里單字符編碼的組合方式。
(三)萬“碼”奔騰,造就信息交換不暢
研究初期,技術人才匱乏,科研方向轉向。各種藏文系統編碼不統一,互相不兼容。自20世紀80年代起,國內相關機構相繼推出多個藏文信息處理應用系統。目前比較有影響力的有華光藏文系統、北大方正藏文系統、班智達藏文系統、同元藏文系統。這些系統均未采用國際標準藏文編碼字符集,但其長期占據國內書刊印刷市場,擁有廣泛的客戶群體,因此仍有相當一部分群體研究使用。國內技術人員開發的藏文系統全部都采用大字符編碼集,因為沒有規范編碼標準,因此各系統的字符碼位相互不同,有的占用00~FF區ASCII碼的碼位,有的占用GB-2312的10~15區或88~94區的空余碼位,有的字庫占用漢字GB-2312的15~81區的某段碼位。這些藏文系統全部沒有使用統一的國際編碼標準,因此無法實現藏漢英兼容處理和支持使用其他應用軟件[12]。
各藏文網站使用不同的藏文字符編碼,產生藏文網頁瀏覽不暢的現象。現階段,藏文網站使用的編碼Unicode國際標準編碼、北大方正藏文編碼、同元藏文編碼和班智達藏文編碼[13]。不同的編碼,導致只有安裝了與網站相同藏文編碼的計算機才能順利瀏覽網頁信息,如果本地計算機沒有安裝與網站相匹配的藏文字符集,則無法正常查看網頁信息。多樣的編碼類型嚴重阻礙了藏文信息的發布與共享,影響了藏文網頁瀏覽量,制約了藏文網站發展。為促進藏文網站的蓬勃發展,需要從國家層面要求網站開發者使用國際標準編碼開發藏文網站,以改善由于編碼不統一造成的困境。
四、結語
自20世紀80年代,藏文字符編碼研究開始起步,至今超過40年。縱觀這40多年的發展,藏文字符編碼研究在黨和國家領導人的高度重視下,在無數專家學者的努力攻關下,已取得相當大的進展。目前,有關藏文字符編碼的國際標準1項,國家標準19項,但仍然不能滿足實際需求。只有建立了數量足夠多,內容涵蓋全面的標準,才能實現現有藏文信息處理系統的統一。目前,藏文國際標準編碼字符集和中國國家標準編碼擴充集同時并存,只是應用領域不同,國際編碼主要應用于電腦系統,中國國家編碼主要應用于專業書刊排版系統。但隨著科學的進步,關鍵技術的突破,藏文字符編碼最終將統一成為一種編碼。
參考文獻:
〔1〕國家數據官網[EB/OL].[2024-5-23].http://www.stats.gov.cn/sj/pcsj/rkpc/7rp/zk/indexch.html.
〔2〕國際標準化組織官網[EB/OL].[2024-5-23]. https://www.iso.org/about-us.html.
〔3〕統一編碼聯盟官網[EB/OL].[2024-5-23].https://home.unicode.org/basic-info/faq/.
〔4〕瞿靄堂.藏族的語言和文字[J].中國藏學,1992 (3):139-155.
〔5〕江荻,周繼文.論藏文的序性及排序方法[J].中文信息學報,2000,14(1):56-64.
〔6〕于道泉.藏文數碼代字[J].民族語文,1982(3):1-7.
〔7〕張連生.藏文號碼代字及其計算機排索[J].語言研究,1983(2):35-40.
〔8〕張連生.計算機藏文文字處理的設計[J].民族語文,1983(5):37-43.
〔9〕陳玉忠,俞士汶.藏文信息處理技術的研究現狀與展望[J].中國藏學,2003(4):97-107.
〔10〕中國電子技術標準化研究所.信息技術 藏文編碼字符集 擴充集 A: GB/T 20542-2006[S].北京:中國標準出版社,2007.
〔11〕中國電子技術標準化研究所.信息技術 藏文編碼字符集 擴充集 B: GB/T 22238-2008[S].北京:中國標準出版社,2008.
〔12〕李永宏,何向真,艾金勇,等.藏文編碼方式及其相互轉換[J].計算機應用,2009,29(7):2016-2018.
〔13〕王志娟,馮迎輝,趙小兵.我國藏文網站分析[J].語言政策與規劃研究,2014,1(2):25-31.
(責任編輯 賽漢其其格)
The Review and Deliberation of Tibetan Character Coded
WEI Ren
(Institute of Ethnology and Anthropology, Chinese Academy of Social Science, Beijing 100081, China)
Abstract: Tibetan language is used in Tibetan-inhabited areas as an important communicational tool, it has a long history and contains immeasurable value. Tibetan information technology started 不from 1980s, it has more than 30 years now. Tibetan character coded is the basic of Tibetan information technology. The article reviews and deliberates the Tibetan character coded. It provides the method for consulting and questions.
Keywords: Tibetan; Character Coded; Standard