摘要:采用XML技術開展古籍專書的標注和研究,是計算機輔助語言研究的一個新領域。利用該標注技術建成的清人小學注疏五種詞源研究語料庫,對清代五部小學注疏詞源研究成果的諸多方面有著準確的反映,為研究者查詢利用相關詞源研究成果提供了極大便利。該語料庫的建設能為應用XML技術處理古籍文本,提取相關語言學知識提供借鑒。
關鍵詞:XML詞源學建模技術數字化一、引言
《廣雅疏證》《說文解字注》《爾雅義疏》《方言箋疏》《釋名疏證補》這五部清代小學注疏作品,不僅保存了歷代探索字詞源流豐富的詁訓資料,而且能以“因聲求義”之法疏解詞義、補證理據、說解詞源,堪稱傳統詞源研究的一座寶庫?,F代先進的信息技術,為我們利用這些古籍開展現代詞源學研究提供了有力支撐。
我們利用XML標注技術[1]建成了清人小學注疏五種詞源研究語料庫,該語料庫對清代五部小學注疏詞源研究成果的諸多方面有著準確的反映。通過檢索該語料庫,研究者可以及時而清楚地了解:1.各家對某組語詞是否同源的判斷;2.各家論證某組語詞同源關系所征引的文獻證據和語音證據;3.各家研究古今字、通假字、異體字的情況。下文將對該語料庫的建設作詳細介紹。
二、電子文本的生產
清人小學注疏五種的電子文本由吾師尉遲治平教授及門下弟子共同完成,筆者為主要參與者之一。
五種文本均系手工錄入,所用底本之版本信息如下:
《廣雅疏證》(中華書局,王氏家刻本影印,1983年版)
《說文解字注》(上海古籍出版社,經韻樓本影印,1981年版)
《爾雅義疏》(上海古籍出版社,郝氏家刻本影印,1983年版)
《方言箋疏》(上海古籍出版社,仁和王文韶紅蝠山房??居坝?,1983年版)
《釋名疏證補》(上海古籍出版社,光緒丙申刊本影印,1984年版)
我們在制作以上電子文本的過程中,以“存真”為基本原則,盡量保持典籍原貌。
所有文本文件均采用支持超大字符集的“UTF-8編碼”?!癠TF-8編碼”是國際標準超大字符集統一碼“Unicode”的一種變長字符編碼,又稱“萬國碼”。用在網頁上,可以在同一頁面顯示簡體中文、繁體中文及其他語言,其顯示范圍遠大于“ANSI”。[2]在字體選擇上,我們選擇了“宋體-方正超大字符集”和“PMingLiU-ExtB”字體,以保證絕大多數古籍漢字的正確錄入與顯示。即便如此,清人小學注疏五種中依然有少數古文字、俗字、別字、冷僻字等無法正常錄入和顯示。針對此問題,我們對古籍文本在堅持“存真”的基本原則下,用既有的漢字字形來組字造字,其組字規則及示例如下:
表1:
所用符號字形結構說明示例
*左右結構明: 日*月
/上下結構皇: 白/王
@包含結構虎: 虍@幾
﹢﹣增減部件虔:虎-幾+文
所有文本均系繁體字純文本,能夠進行字符串的全文檢索,并能夠供諸位學人根據自己需要作進一步加工或標注。
三、清人小學注疏五種的數據建模
(一)構建樹形結構圖
清人小學注疏五種橫跨雅學、說文學兩大領域,性質不同,體例不一,具體文檔結構更是紛繁復雜。現要集合五種注疏,綜合利用,惟有求同存異,小而統之,粗分大類。
大致而言,五種注疏皆包含了序言、正文、附錄三個部分。正文部分包含了大量我們需要分析的語言學屬性。初步分析,五種注疏的正文部分都是篇目名和逐條小學注疏循環構成的一個整體。
由小學原文和清人注疏構成的單條小學注疏的內部情況雖復雜多樣,但各個研究者都可以根據自己的研究目的,對其內容作出自己的分析。因我們的研究主要關乎詞源研究,所以我們將單條小學注疏下面細分出一條條分析聲義同源的字詞關系斷語,字詞關系斷語下面又可以析分出數個聲義同源的同源字。
基于詞源學的研究初衷,我們畫出了清人小學注疏五種文檔的樹形結構圖,如圖1:
圖1:文檔結構樹形圖
(二)使用XSD Schema進行數據建模
1.設計標記名
鑒于我們需要提取分析的語言屬性、語言知識都存儲在清人小學注疏五種文檔中的正文部分,為了文檔結構層次的簡潔、經濟,我們擬直接以清人小學注疏五種正文作為我們的根元素,序言、附錄等暫時被剝離,這不會影響我們工作的開展。另外,由于目前大量主流軟件尚不支持漢字標記,我們便采用漢語拼音作為標記。對根元素及各節點子元素的標記分別定義如下:
清人小學注疏五種正文:qingrenxiaoxuezhushu
篇目名: pianmuming
疏證語段:zhushuquanwen
字詞關系斷語:ziciguanxiduanyu
同源字:tongyuanzi
2.編寫擴展名為“xsd”的文件
Schema是強大而靈活的數據建模工具。XML Schema的W3C的推薦標準叫作XSD,它可以準確地描述文檔結構,即定義XML文件中允許哪些元素和屬性、哪些元素和屬性是必需的、哪些是可選的、允許的數據種類以及XML文件內容和結構的其他方面。使用XSD建模的成品是擴展名為“xsd”的源文件。[3]該文件代表了上面我們對清人小學注疏五種文檔結構分析的成果,既能夠鏈接到已有的XML文檔中,以驗證其文檔的有效性,也可以作為模式架構,添加到文本編輯器中,以實現XML標記的自動標注。其源代碼本文暫略。
四、清人小學注疏五種的標注方法
(一)添加架構
Office2003聲稱全面支持XML,我們使用其組件Word2003中文版作為XML文檔的編輯器。雖然目前還有大量的處理XML文檔的專門軟件,但它們遠不及Word2003通用易得;特別是Word2003對超大字符集的支持功能在很多軟件中還未實現,也促使我們選擇它作為我們工作的軟件平臺。[4]
首先,我們用Word2003打開我們制作的清人小學注疏五種電子純文本。然后在“工具”菜單上,單擊“模板和加載項”,然后單擊“XML架構”選項卡。單擊“添加架構”,瀏覽并找到要添加到架構庫中的XML架構文件(xsd文件),然后單擊“打開”。在“架構設置”對話框中,選擇所需的選項,在“別名”框中鍵入架構的名稱,最后點擊“確定”完成。如圖2:
圖2:添加架構的方法
(二)半自動標注
添加架構后,Word2003編輯框右邊會出現如下“XML結構”任務窗格。我們可以依次在清人小學注疏五種文檔中選擇相應元素,然后在“XML結構”任務窗格的“選擇一種元素并應用于當前的選定內容”框中單擊一個元素,完成對該元素的標注,已標注的元素被圖3所示紅色光帶嵌套。標注中或完成標注后,如文檔結構不符合架構規則,將會在文檔中以紫色波浪線標記出來,并在“XML結構”任務窗格中報告此違規錯誤。整個標注界面如圖3所示:
圖3:標注的方法
(三)生成XML文檔
完成標注,且通過架構驗證的文檔可選擇“文件”菜單上的“另存為”命令,保存為“qingrenxiaoxuezhushu.xml”文檔。為保證其他XML的軟件也能閱讀并處理我們保存為XML格式的文檔數據,我們選擇“僅保存數據”備選項。如圖4:
圖4:生成xml文檔
五、清人小學注疏五種的屬性提取方法
(一)XML與XSL的整合
XML文檔中事先標注過的元素和信息,都可利用XML的可擴展樣式表技術加以提取?,F欲提取“qingrenxiaoxuezhushu.xml”文檔中的“字詞關系斷語”和“同源字”兩元素,可編寫“tongyuanzi.xsl”文檔,其源代碼如下:
)
已標注的“qingrenxiaoxuezhushu.xml”在鏈接上述“tongyuanzi.xsl”文檔后,經IE瀏覽器解析,可直接轉換成我們需要的詞源研究資料,包括我們教學中常用的各種同族詞、古今字、通假字、異體字等方面的寶貴材料。其轉換結果如圖5:
圖5:樣式表轉換結果
(二)HTML對XML的整合
超級文本標記語言(即HTML)是一種超文本鏈接標記語言,依據該標準創建的HTML文件具有極強的描述和鏈接下級文本的功能。
為此,我們創建了“清人小學注疏五種詞源研究語料庫.html”文件。該文件可以順利地整合我們標注好的五種清人小學注疏的XML文檔,并為瀏覽整個語料庫提供一個初始界面,該語料庫初始界面如圖6:
圖6:清人小學注疏五種詞源研究語料庫
六、結語
長期以來,在古漢語研究領域,人們最常用的計算機功能僅僅是能提高閱讀速度的全文檢索,但這無助于增進對古籍文本的理解。關系數據庫技術出現后,人們又將古籍文本的內容分析為字段和記錄的形式以存儲,從而為人們獲得較系統的語言學知識開辟了新的途徑。但是關系數據庫往往會肢解原古籍文檔內容的整體性,從而降低語言學典籍的可讀性。
XML有效避免了這些缺陷,它奉行數據存儲與數據顯示相分離的原則[5],人們可借助自定義標簽,從XML文檔中無限次地提取自己需要的語言學知識,且能在顯示上與源數據相獨立。清人小學注疏五種詞源研究語料庫的建設,是應用XML技術標注處理古籍文檔的一次大膽嘗試,將為應用XML技術處理古籍文本提供寶貴借鑒。
(本文系教育部人文社會科學研究青年基金項目“清人小學注疏五種詞源研究語料庫建設及研究”的階段性成果,項目編號為[11YJC740028])
參考文獻:
[1][3][5]Extensible Markup Language (XML) 1.0 (Fifth Edition) [JB/OL]. http: //www.w3.org/TR/REC-xml,2008-11-26.
[2]RFC 3629 - UTF-8, a transformation format of ISO 10646 [JB/OL].http://www.faqs.org/rfcs/rfc3629.html,2003-11-30.
[4]Peter G.Aitken.微軟XML技術指南[M].謝君英譯.北京:中國電力出版社,2003.
(甘勇湖北武漢 中南財經政法大學新聞與文化傳播學院430073)