吳 勰
(貴州民族大學西南夜郎文化研究院,貴州 貴陽 550025)
面向信息處理的彝文搜集與規范整理研究
吳 勰
(貴州民族大學西南夜郎文化研究院,貴州 貴陽 550025)
基于彝語文前期研究成果和彝文古籍文獻彝文字全面搜集整理,經過充分的科學論證,對彝文字進行甄別、查重、篩選和規范整理,解決彝文信息技術開發的用字問題,是信息時代彝語文的主要研究任務之一。
信息處理;彝文字符;搜集整理;規范化
彝族文字在歷代漢文地方志史中,多稱為“爨文”“韙書”“羅羅文”等,[1](p153)通常稱為“彝文”。現在我國彝文分為傳統彝文 (或古彝文)和規范彝文兩種。 “貴州是彝文發祥地,也是彝文的主要流傳區域”,[2]貴州境內使用的是傳統彝文。本文在彝文信息處理的前期研究成果基礎之上,深入開展彝文搜集、規范整理研究,進一步完善彝文編碼字符集和彝文字型標準,為彝文信息技術開發奠定基礎。
(一)字量
彝族文字是彝文信息處理研究的基礎。據不完全統計,貴州地區有彝文字兩萬余個。[3]基于彝文信息技術開發需求,從2012年開始貴州進行了彝文整理專項研究工作,這一階段研究團隊主要利用學界彝語文研究成果,開展彝文字整理工作。以貴州 《簡明彝漢字典》、彝語文教材為整理樣本,同時參照 《滇川黔桂彝文字集·貴州卷》,連續4年開展彝文整理與編碼字符集研制工作,到2015年整理出9000余字的彝文字,建立了 《信息交換用彝文編碼字符集·大字符集》,這項研究成果解決了貴州彝文基本用字問題,研究團隊以該字符集為藍本開發出彝文計算機筆畫輸入法軟件。前階段彝文軟件在日常辦公、彝語文和部分彝文古籍文獻整理、翻譯等領域得到有效應用,為發展貴州彝文信息處理學科奠定基礎。但隨著彝文古籍文獻數字化工作深入推進,同時依據該軟件在不同用戶中實踐應用反饋情況,歸納彝文整理規范中存在的不足與問題。
首先,彝文字量不能完全滿足彝文日常用字需求。彝文軟件開發以后,研究團隊對該軟件進行大量測試,發現字符集中缺少部分常用字。如 “、、、、、、”。以上彝文字是彝文字形系統中必不可少的常用字,缺少這些字就直接導致彝文表達系統不完整,彝文也就得不到有效使用。據此,前期研制的彝文編碼字符集還不完善,需要進一步增補彝文字量,完善彝文字形系統,才能滿足彝文日常應用。
其次,彝文古籍文獻中還有大量彝文字符沒有整理。貴州省的彝文古籍文獻藏書有近萬部。[4](P4)由于貴州彝文古籍文獻藏量大,前期彝文整理成果仍不能完全滿足貴州彝文古籍文獻的數字化翻譯整理用字需求。
目前彝文古籍文獻用字分為已經整理出版彝文文獻和還未整理彝文古籍兩個方面。首先筆者選取已經出版的具有代表性彝文古籍文獻如 《西南彝志》《彝族源流》《物始紀略》等進行用字測試,用彝文軟件對照文獻逐字逐句的錄入,測試出已出版彝文文獻中彝文用字需求情況分為兩種:一是文獻中僅有部分彝文還沒有整理。如 《西南彝志》全26卷中,每卷均有10—20個彝文還沒有搜集整理;二是由于彝語各土語區差異化影響,導致各地區彝文古籍文獻用字不同。如烏撒地區 《物始紀略》整部文獻還有四分之一彝文字沒有整理。另外,對于還未整理彝文古籍中每部文獻均還有彝文沒有整理。
(二)字形
目前筆者對貴州傳世彝文古籍文獻中用字情況進行整理,主要基于已經出版的傳世經典彝文文獻 《西南彝志》全26卷中彝文用字情況進行系統梳理,總結彝文字形中存在問題。
第一,不同筆畫在同字形中存在大量混用情況。在彝文古籍文獻中不同筆畫在同字形中存在大量混用情況,這也是造成彝文異體字多的主要因素之一。如 “、(、)①在 《西南彝志》一、二卷中 “、”,字音和義項一樣 (ha33),分別有6處用(338、339、345、412、423),有5處用(56、68、129、176、239)。,、(,),、(),、(),、(),、(,)。
第二,筆畫增減現象突出。無論是在日常應用還是在彝文古籍文獻中,相同彝文字形在同一文本不同地方經常出現筆畫增減現象。這除了彝文使用者書寫不嚴謹以外,也是手寫字體應用的常見弊端。如 《西南彝志》十七、十八卷中、(k?21)兩個字形的讀音和義項相同,他們之間存在增減筆畫差距,其中這兩卷文獻中有7處用,有9處用②《西南彝志》十七、十八卷中有7處用(30,、32、146、177、178、、184、352),有 9 處用(84、103、140、144、154、157、158、159、237)。,可見文獻中彝文筆畫增減現象嚴重性。
第三,相同筆畫因不同組合方式而組成不同部首。彝文字受手寫字體所限,同字型中相同筆畫間因 “相離、相接、相交”不同組合方式,進而構成不同字形。如在 《西南彝志》一、二卷中、(v?21)③《西南彝字》一、二卷中5處用(v?21,59、117、160、209、238),6 處用(v?21,44、204、256、271、349)。兩個字形,因書寫中、兩個部首相交構成,相接構成,分別與組成兩個字形。
第四,筆畫長短引起字型結構變化。彝文主筆畫長短往往直接影響整個字型結構,特別是筆畫數少的字形。容易混淆字型結構在 “半包圍結構與左右、上下結構”之間。如上下結構字型 “”中的 “”筆畫拉長就變成包圍結構字型 “”;左右結構字型 “”中的“”筆畫拉長變成交叉結構字型 “”。
上述彝文字型使用中存在問題,在彝文字體使用中很多現象是交叉并存,情況較為復雜需要對彝文字形系統中存在問題進行詳細梳理,才能做好彝文字形規范工作。
(一)對彝文常用字進行查漏補缺
對 《信息交換用貴州彝文編碼字符集·大字符集》中常用字進行系統梳理,查找出彝文字形系統中沒有常用字。如表示數目的1—10基數詞中缺少表示基數詞2的 “”字。研究團隊對貴州前期彝語文成果中常用字進行全面查漏補缺。如1983年彝文統編教科書 《彝文》試用教材1—6冊,2012年 《漢彝語文》1—2冊,2009年 《彝文字釋》,2012年 《彝漢雙語語匯 (貴州盤縣次方言)》,1991年 《簡明彝漢字典 (貴州本)》,以上著作是貴州彝語文的常用教材和工具書,這些書籍均有常用彝語會話和常用彝文單字。對上述書籍中列舉彝文單字逐一查出字符集中沒有收錄字,通過大規模查漏補缺,全面整理彝文常用字,完善彝文常用字系統。
(二)全面搜集整理彝文古籍文獻中彝文
從古至今,彝文古籍文獻主要是通過彝文字來記載的,同時彝文古籍文獻里的彝文字也是彝文古籍文獻的主要內容之一。彝文古籍文獻是彝文字最直接的傳承方式,因此彝文字整理須把彝文古籍文獻作為選字藍本。由于彝文古籍文獻的數量太大,無法實現把所有彝文古籍文獻都當作選字范疇,只能選擇彝文傳世經典文獻作為選字范本,對整理文本進行定量。貴州彝文傳世經典文獻中首屈一指的要數 《西南彝志》《彝族源流》等,這是目前貴州彝文古籍文獻整理、翻譯印刷出版的精品,這些文獻在全國產生重大影響,成為學界研究彝族歷史和民族傳統文化的史料,這些彝文古籍文獻也是學習研究的常用范本。因此,現階段彝文古籍文獻中彝文字整理,以 《西南彝志》全26卷和 《彝族源流》全26卷等2部貴州傳世經典彝文古籍文獻為主要藍本,盡可能地向其他彝文古籍文獻擴展,尤其是尚未翻譯整理的彝文古籍。
目前彝文古籍文獻中彝文字整理情況如下:一是 《西南彝志》全26卷彝文詳盡整理,搜集出400余字彝文;二是貴州六盤水市檔案局館藏彝文古籍 《彝文通書》,該部古籍保存完整共130頁,全文有7萬余個彝文字,整理出300余字;三是 《彝族源流》全26卷,共整理出500余字;四是其他彝文古籍文獻經典著作如 《物始紀略》《宇宙人文論》等,以及貴州工程應用技術學院館藏部分彝文古籍,工作人員正深入開展整理這些彝文古籍中的彝文單字。
(三)對不同土語區彝文字適量增補
貴州富藏彝族歷史文化資料和彝文古籍文獻,研究人員無法對海量彝文文獻資料進行窮盡式整理。筆者深知研究人員掌握彝文資料有限性,因此采取了與貴州各土語區長期從事彝文古籍文獻翻譯工作的資深彝文專家合作的方式,請他們搜集整理出各自在彝文古籍文獻翻譯中遇到的彝文字,這些字在 《簡明彝漢字典》《彝文字釋》等工具書沒有收錄,但在這些土語區彝文古籍文獻中經常出現。同時對不同地方搜集的彝文字符進行查重、甄別、規范。總的來說,以上舉措不僅能彌補研究人員掌握彝文資料的不足,同時能有效加強彝文搜集整理力量,有助于提高彝文搜集整理質量。
彝文字與漢字一樣屬于方塊字型,在彝文字形規范中借鑒漢字成熟經驗和做法,在整理中需遵循以下原則:“筆畫、部件的確立要科學,保持同筆畫和部件的高度統一,不同的筆畫、部件間要保持足夠的區別度,注重整字的穩定性和系統性”。[5]本文針對彝文手寫使用中存在的問題,從 “筆畫部首和整字”兩方面開展彝文規范工作,正確處理好 “筆畫部首和整字”之間的關系,確保字形的正確性和科學性,這是字形規范的基本要求,同時還要注重整字的穩定性和系統性。
(一)彝文筆畫部首規范
首先,筆畫部首。筆畫是彝文字形的基礎要素,也是彝文字形規范的基礎,彝文字形規范須從筆畫開始。規范彝文筆畫就是要明確字形中每個筆畫,要保證字形中每個筆畫形狀的正確性。對于不同筆畫在同字形中混用情況,對手寫筆畫要甄別選擇,要把文獻中使用率高的筆畫作為規范筆畫。如 “和”兩個筆畫在手寫字體中容易混用,在 《西南彝志》一、二卷中共有22處使用,即筆畫。而在 《彝族源流》只有兩處使用,即筆畫。因此在這組、混用筆畫中應規范為“”筆畫。
其次,筆畫數。在筆畫規范情況下,字形中彝文筆畫數目自然也就規范好了。但彝文文獻中時常出現手寫同一字形在同一文本中不同地方出現個別筆畫增減現象。不能把增加或減少筆畫的字形誤認為另外一個字形,而是要對照文獻中文字的讀音和義項,選擇正確筆畫數目的字形為規范彝文字形。如在 《西南彝字》一、二卷中332頁用(?‘γ21),而在同卷348頁少了橫點,因此應把該字形規范為5畫。
第三,筆畫部首間組合關系。彝文字形中不同筆畫間組合關系有 “相離、相接、相交”三種,相同筆畫因不同組合關系而構成不同字形。如在包圍字型中、相接組成,相交組成,進而組成兩個不同字形(nde21,平整)、(nde33,游逛、走竄),可見筆畫部首間組合關系的重要性。在彝文文獻中 “相交和相接”筆畫間最容易混淆,需要嚴格規范才能確保彝文筆畫部首間組合關系正確、合理,這是彝文字形規范的基本要求。
(二)彝文字型
第一,以彝文字型為基礎,搭建好字型的基本骨架。如同建造房屋一樣,只有搭建好基礎框架,才能添磚加瓦。即搭好字型主干,為筆畫部首在字型中組配做好框架工作。彝文為“方塊”字型,同時兼有少部分圓形字。總的來說,彝文字型有 “獨體結構、上下結構、左右結構、包圍結構、交叉結構、上左下右結構”等六大結構類型。在彝文字型結構中,很多字型是上述六大結構的綜合,如 “”字型是上下結構中含有左右結構,“”字型是左右結構中含有包圍結構。要在彝文基本字型結構基礎之上,綜合掌握字型結構要素,正確處理混合字型結構,搭建好字型的基本骨架,才能規范好彝文字型。
第二,做好彝文字型結構中主附筆畫間搭配關系。彝文除基本字型結構外,還有大量主附筆畫交叉使用字型。要以主筆畫為基礎,恰當地處理好附屬筆畫,同筆畫如果在字型結構不同位置出現就成為不同字形。如附筆點畫、分別放置在主筆“上下、左右”不同位置就構成不同字形,如(tu33,千)、(to33,雄性)、(ti33,十一)。
第三,要保持筆畫間平行性。在彝文字型結構中部分彝文筆畫部件間要保持平行性,尤其是 “上下和左右”筆畫間平行性特征強。如上下筆畫、間保持平行構成,左右筆畫、平行構成。
(三)彝文字距、篇章
字形規范除考慮單個字形外,還要兼顧字與字之間的距離,以及字與篇章關系。要在彝文傳統視覺審美和閱讀習慣基礎之上,同時也要考慮印刷字形在計算機中的編輯排版數字化應用,處理好字與字之間的間距。另外,還要考慮不同文字與標點符號組成句子、段落、篇章方面的整體效果。只有把字與字、字與篇章間整體組合關系正確調整好,才能保障彝文使用的穩定性和閱讀性。
前期彝文字整理主要集中在彝語文研究成果基礎之上,基本完成彝文常用字、次常用字以及部分異體字整理工作。現階段彝文字整理以前期成果 《信息交換用貴州彝文編碼字符集·大字符集》為起點,基于傳世彝文古籍文獻對貴州境內流傳使用的彝文字進行全面、系統整理,擴展彝文編碼字符集,進一步解決彝文信息處理學科中用字難題。
(一)整理原則與方法
彝文整理總體原則為 “有用性”,要求進入彝文編碼字符集中的彝文字要在日常、教學、古籍文獻等方面能得到有效應用,而不能選擇已經沒有使用的文字,更不能濫竽充數,隨意整理錯誤文字。這一原則不僅是彝文字整理的基本要求,也是文字整理工作的出發點。
在大原則總體要求下,彝文規范整理中具體指導原則為 “源自古籍、保持風貌、字形美觀、便于書寫、符合用字規律”。要求從彝文古籍文獻和彝族歷史文化資料中搜集彝文字,從源頭上保證彝文整理質量。同時要求彝文保持傳統書寫風格特征,符合彝族審美價值,使規范整理后的彝文符合彝族用字規律。
在整理方法上,研究團隊充分利用前期彝文信息技術開發成果,使用彝文輸入法軟件對整理藍本中的彝文進行逐字逐句錄入,對文本中沒有的文字進行詳細標注,對該字形進行甄別,然后對照前期建立彝文編碼字符集,確定字符集中沒有該文字后擇定好彝文字,接著標注出文字的讀音、義項、筆畫等基本屬性,再按照彝文的讀音和偏旁部首做好彝文字形排序工作,依次進入字符集。
(二)建立 《信息交換用貴州彝文編碼字符集·超大字符集》
對于從不同文獻和土語區搜集出的彝文單字,結合前期建立的彝文編碼字符集,對彝文字進行系統整理。首先要對不同階段搜集到的彝文字進行剔重整理。對近5年陸續搜集整理的彝文根據前期建立彝文筆畫部首系統把每個彝文單字歸入相應類別,依照筆畫部首類別查找出不同批次搜集到的彝文字重復字符,確保彝文字符的唯一性,這是彝文字符整理的首要工作。其次,在新整理出的彝文字基礎之上,對彝文構字筆畫部首進行系統梳理,查找和歸納出尚未整理的構字部件,擴展彝文筆畫部首系統。第三,對整理彝文字符依照其在各種工具書、歷史文化資料和彝文古籍文獻中使用的頻率,把字符分為常用字、次常用字和異體字等不同級別,進一步擴展彝文編碼字符集,建立 《信息交換用貴州彝文編碼字符集·超大字符集》,完成彝文編碼字符集擴展工作。
(三)標注彝文屬性
在彝文字整理基礎之上,需要理清文字間的字際關系,標示出彝文的讀音、義項、偏旁部首、文字出處等基本屬性內容,標注出 《新整理的彝文字符屬性》。依據彝文讀音和義項對彝文進行歸類整理,彝文基礎屬性為彝文字形整理提供支撐基礎,彝文屬性標注是彝文整理的基礎和依據,也是彝文整理的重要成果。
隨著信息技術飛速發展,開展彝文信息處理研究工作,改變彝文手寫使用現狀,使彝文以新興數字化方式使用和傳承,是大數據時代的必然要求。因此,全面深入搜集、規范整理彝文具有重要的社會價值及意義。一是在完善彝文常用字系統的同時深入擴展彝文古籍文獻翻譯整理用字需求,全面反映彝語文用字的真實情況;二是在擴展 《信息交換用貴州彝文編碼字符集.超大集》基礎之上,全面擴展彝文計算機字庫,滿足彝文計算機用字需求;三是彝文規范克服彝文手寫字體應用隨意性,實現彝文規范化應用。總的來說,彝文字作為彝文信息處理學科的基礎性研究工作,現階段深入開展彝文字搜集、規范整理研究,解決彝文信息處理中的 “字”問題,為彝文信息技術開發奠定堅實基礎。
[1]李平凡,馬昌達著.貴州彝族傳統文化調查研究 [M].貴陽:貴州教育出版社,2012.
[2]吳勰.貴州彝文印刷字形規范淺析[J].畢節學院學報,2013,(11):41—44.
[3]王繼超.解碼歷史:彝文價值及整理[J].當代貴州,2013,(16):28—31.
[4]陳樂基,王繼超主編.中國少數民族古籍總目提要·貴州彝族卷 (畢節地區)[M].貴陽:貴州民族出版社,2010.
[5]連登崗.漢字字形系統與印刷字形規范 [A].厲兵.漢字字形研究 [C].北京:商務印書館,2004:52—55.
The Collection and Standardization of Yi Characters in Information Processing
WU Xie
(Southwest Yelang Culture Research Institute,Guizhou Minzu University,Guiyang,550025,Guizhou Province)
We should collect and arrange on the base of Yi preliminary research results and ancient books.After the sufficient and scientific proof,we will identify,duplicate,screen and standard Yi characters,this will solve the problem of Yi characters about Yi information technology.
Information processing;Yi characters;Collection;Standardization
H217
A
1671-7406(2017)05-0087-05
2016年度國家語委語言文字科研項目優秀成果后期資助計劃項目 “基于彝文古籍文獻的貴州傳統彝文字符整理及其輸入法軟件開發研究”(項目編號HQ135-7)。
2017-08-01
吳 勰 (1983—),女 (彝族),貴州民族大學西南夜郎文化研究院副研究員,研究方向為彝文信息處理。
(責任編輯 徐彩玲)