摘 要:《說文解字義證》信息化過程中處理異體字是個難題,采用保真和整理相結合的原則能確保全書的系統性并方便計算機處理。這種方式能為古籍信息化中異體字處理提供借鑒。
關鍵詞:《說文解字義證》 信息化 異體字
古籍信息化能“將計算機對語料的形式化處理和專家對語料的分析判斷結合起來,充分發揮計算機和人的各自的特長,從而推動漢語史研究的迅猛發展。”[1](p60)古籍信息化,首先必須實現文本字符的信息化,在此基礎上,才能利用計算機的優勢對古籍資源信息處理以輔助漢語史研究。本文以桂馥《說文解字義證》(以下簡稱《義征》)為例討論其處理原則和具體方法。
一、《義證》中的異體字
學術界對異體字的看法不一,我們采用裘錫圭的觀點[2],把異體字分為狹義異體字和部分異體字。
《義證》對許慎《說文解字》(以下簡稱《說文》)做了全方位的研究,在文字訓詁學領域具有重要地位;《義證》保存的異體字不僅類型多樣,而且數量巨大:首先,《說文》一書本身存在不少重文。許慎指出的就有“古文(壁中書)”“籀文(大篆)”“奇字”“或字”“今字”等多種類型,還有一些異體字沒被《說文》列入重文而是分立字頭;其次,桂馥廣泛征引古籍,而這些古籍在流傳過程中又產生了不少異體字。所以,處理好《義證》能為其他古籍信息化中異體字的處理提供借鑒。
二、處理原則及方法
針對《義證》信息化過程中存在的異體字問題,我們采用保真與整理相結合的原則。包括《義證》在內的古籍信息化,主要是輔助語言學家進行漢語史研究的,我們應該盡量保持古籍在形式上的原貌。然而,《義證》存在的大量異體字本質上屬于手寫文字,規范程度很低,如果追求對這類字形的保真,漢字字庫恐怕永遠難以滿足需要,也根本無法實現真正意義上的信息化處理。所以,我們應在保證內容系統性和正確性的情況下對不規范的異體用字進行整理。
(一)《義證》信息化過程中,碰到一改變字形就影響上下文意思或全書系統性時,必須保持原本字形而不必改為古籍通用形式。這包括如下幾種情況:
1.強調本字
(1)斯—廝
斯,析也。從斤,其聲。《詩》曰:“斧以斯之。”字或作“廝”。……韋昭曰:“析薪曰斯,炊烹曰餐。”(第四十六卷)
“斯”和“廝”都有“分”義,它們是一對異體字。例(1)是強調“斯”的本義,所以韋昭提及的“斯”必須保留字形不能用“廝”替代。
2.《說文》的重文
《說文》中的重文分同部重文和異部重文兩種情況:
1)同部重文是指重文和正字在同一部首內的異體字,如:
(2)糂—糣—糝
糂,以米和羹也。一曰粒也。從米甚聲。桑感切。(第二十卷)
糣,籀文糂。從朁。(第二十卷)
糝,古文糂。從參。(第二十卷)
許慎先列出“糂”字,隨后列出該字的重文“糣”“糝”。例(2)中的古文或籀文字形,如果改為通用的“糂”,則會破壞全書系統性,讀者將不知所云,計算機檢索結果也會出現問題。
2)許慎在《說文》中明確指出的重文有1163個。但是還有許多本為異體的字卻把它們當作不同的詞分別加以分析和解說。這種與正字不在同一部,但實際是異體的字就是異部重文,如:
(3)鯁—骾
鯁,魚骨也。(第十一卷)
骾,食骨留咽中也。(第四卷)
這兩個詞前一個是名詞用法,后一個是動詞用法。體用同稱是古人用字的習慣,它們應當是同一個詞。段玉裁在《說文解字注》中曾經考證出二百余處異部重文。比如木部中“楙”,解釋為:“楙,木盛也。”下注曰:“此與艸部茂音義皆同,分草木耳。”對于這類異體字我們也應當保留其原貌。
3.用以互訓
(4)樛—朻
樛,下句曰樛。從木翏聲。吉虯切。下句曰:“樛者與下文朻字訓。”……馥案:樛、朻二字,同聲相通。(第十六卷)
“樛”和“朻”是組異體字,當它們互訓時,不能將它們統一成一種字形,否則就會讓讀者迷惑不解,也給日后計算機處理造成不便。
4.強調形體差異
(5)罪—辠
罪,捕魚竹網。從網、非。秦以罪為辠字。徂賄切。捕魚竹網者。徐鍇引《詩》:“畏此罪罟。”又《瞻卬》:“罪罟不收。”傳云:“設罪以為罟。”秦以罪為辠字者。本書辠字云:“秦以辠字似皇字,改為罪。”(第二十三卷)
(6)逾—踰—愈—俞—癒
逾,#165003;進也。從辵俞聲。《周書》曰:“無敢昬逾。”羊朱切。經典作“踰”字。《易#8226;謙卦》:“卑而不可踰。”《王制》:“朋友不相踰。”《曲禮》:“禮不踰節。”《孟子》:“禮,朝廷不曆位而相與言,不踰階而相揖也。”又借“愈”字。《論語》:“熟愈。”《孟子》:“丹之治水也,愈齡禹。”趙注:“自謂過禹也。”又借“俞”字。《荀子》:“俞少俞辱。”又借“癒”字。《藝文志》:“不猶癒於其野乎?”(第六卷)
例(5)中,我們如果把“辠”寫成“罪”的話,讀者就看不出它在字形上和“皇”的相似之處。而且不同的古籍會用不同的字形表示同一音義,如例(6)所示,“逾”在不同的古籍中出現了多達五種字形。這些異體字是我們研究漢字發展的有用證據,也應該保留其原貌。
(二)在不影響上下文語義及全書系統性,且改變后既能方便讀者閱讀又有利于計算機統計的情況下,我們應該將某些狹義異體字處理成一個便于辨認理解的通用形式。這類字大體有如下幾種情況:
1.筆形有細微差別
古籍多為雕版印刷的,由于書寫人和刻工的習慣不同,在不同書籍中,同一字的筆畫結構往往不同。我們應將這類異體字統一規范。
(7)良,善也。從畗省,兦聲。呂張切。善也者。《廣雅》同《詩·日月》:“德音無良。”《鶉之奔奔》:“人之無良。”傳並云:“良,善也。”(第十五卷)
(8)#15261;,角械也。從木欲聲。一曰木下白也。其逆切。角械也者,《廣雅》:“梏、衡、楅,郤也。”《周禮·封人》:“設其楅衡”,鄭注:“元謂:楅設於角,衡設於鼻。”馥案:施於角,故曰角械。(第十六卷)
(9)梴,木長也。從木延聲。《詩》曰:“松桷有梴。”丑連切。(第十六卷)
(10)糱,牙米也。從米嶭聲。魚列切。“《書·說命》:“若作酒醴;爾惟麴櫱。””(第二十一卷)
(11)畗,滿也。從高省。象高厚之形。凡畗之屬皆從畗。讀若付。房六切,又芳逼切。(第十五卷)
(12)宥,寛也,從宀有聲。於救切。(第二十二卷)
(13)片,判木也。從半木。凡片之屬皆從片。匹見切。判木也者,《廣韻》:“片,半也、判也、析木也。”《論語》:“片言可以折獄者。”鄭注云:“片,半也。”……(第二十一卷)
(14)繇,瓜也。從瓜繇省聲。余昭切。(第二十二卷)
此類異體字主要有六種情況:第一,筆形的改變:例(7)中“良”在原書中側點為一短橫;第二,長度的伸縮:例(8)中“角”在原書中為“角”,中間的豎沒出頭,使用相同部件的“桷”也處理為“桷”,見例(9);例(10)中的左右結構“麴”在原文中是由半包圍結構變來的;第三,筆畫的連斷:例(11)的“形”的部件在原書中字形是“幵”,橫筆為互不相干的兩筆;第四,筆畫的減少,例(12)《義證》中的“寬”本有一點,現無;第五,相對方向或相對位置的變化,例(13)中“半、判”字開頭兩筆在原書中為八字形;第六,筆畫的形變,例(14)中“繇”的左上部在書中字形與祭、然的左上部件相同。
2.部件相同而位置不同
(15)某,酸果也。從木甘。闕。莫厚切。通作梅。《夏小正》:“五月煮梅。”傳云:“為豆實也。”《管子·地員篇》:“五沃之土,宜彼群木,其梅其杏,其桃其李。”(第十六卷)
原書中采用的是上下結構的“羣”,我們選取其左右結構的通用字形。
(16)疽,癰也。從疒且聲。七余切。《史記·太倉公傳》:“齊侍御史成自言病頭痛,臣意診其脈,吿曰:此病疽也,內發於腸胃之閒,後五日當臃腫,後八日嘔膿死,成之病得之飲酒,且內成即如期死。”(第二十二卷)
在原書中用的是上下結構的#157768;,該字形不常用,我們將它統一為左右結構的“臃”。
古籍信息化中異體字的處理是個難題。李菊萍提出對“漢字進行完全獨立的解碼”[3](p33),這種獨立于Unicode通用碼之外的技術,既增加了古籍處理的難度,又難于實現真正意義上的信息化處理與應用;易敏提出“‘并正’趨向‘唯一’的規范原則”[4](p87),但是,面向漢語史研究的古籍數字化,必須保留古籍文本的原貌。以利于漢語研究。通過實踐我們認為:保真與整理相結合的原則,既能充分保留古籍的原貌,又維護了系統性,具有通用性、可操作性、客觀性的特點,有利于專家學者利用數字化文本進行漢語史研究。《爾雅正義》信息化處理與應用就是成功范例[5](p136-150)。
注 釋:
[1]尉遲治平.計算機技術和漢語史研究[J].古漢語研究,2000,(3).
[2]裘錫圭.文字學概要[M].北京:商務印書館,2003.
[3]李菊萍.檔案館數字化處理過程中的異體字問題[J].山西檔案,2007,(1).
[4]易敏.石刻經文字研究與異體字整理問題[J].北京師范
大學學報(哲學社會科學版),2006,(1).
[5]張義,姜永超.《爾雅正義》引“賈誼書”考[J].淮北煤炭師范學院學報(哲學社會科學版),2007,(4).
(姜永超 秦皇島 燕山大學國際教育學院 066004;郭翀 武漢 華中科技大學人文學院 430074)