扎西加,高定國
(1. 西藏大學 工學院計算機科學系,西藏 拉薩 850000;2. 西藏大學 藏文信息技術研究中心,西藏 拉薩 850000)
據目前相關報道: 西北民族大學建立了1.3億字節的大型藏文語料庫,用于藏文詞匯頻度和通用度的統計;中國社會科學院民族學與人類學研究所建立了 500 萬藏語字符的藏語語料庫,進行詞語切分和標注的研究;青海師范大學建立了100萬字的藏語語料庫;西藏大學也建立了規模較大的藏語文本語料庫和語音語料庫,語料庫的收集范圍比較廣泛,并且正在不斷地擴充,豐富了藏語語料庫的內容和應用范圍。
“語料庫不是任意文本的隨意堆積,為了發揮語料庫的作用,通常都需要對語料庫進行一定的加工,進行何種加工和加工深度如何通常和應用目標相關”[1]。經過不同階段的語料庫加工處理,語料庫所攜帶的信息也不斷地增加和完善,最終將成為一個名副其實的語言知識庫。這樣的知識庫可以為藏語統計分析、機器理解和機器翻譯提供豐富的資源。
藏文編碼的不統一問題導致語料分散,資源無法共享。目前有北大方正、華光、同元、班智達、桑布扎等近10種編碼不同的藏文字處理軟件,各種語料資源編碼不一,互不兼容。因此,便于語料庫的管理、處理、共享和交換,我們將不同編碼的語料資源全部統一為藏文ISO/IEC10646的小字符集編碼。TEI(Text Encoding Initiative)語言作為編碼的元語言,它是目前在信息處理界普遍使用的置標語言,TEI所訂規范的應用范圍廣,標記的層次高,通用度強,軟件支持好,因此對藏語語料庫采用TEI語言來標記。
“TEI適用于對電子形式的全文的編碼和描述。TEI元數據標準同時也規定了可供數據交換的標準編碼格式,使用SGML作為編碼語言”[2]。TEI 格式具有很大限度的靈活性、 綜合性、可擴展性,能支持對各種類型或特征的文檔進行編碼。TEI元數據標記可以對語料庫的文本屬性信息與文本結構信息進行規范的標記。
TEI文檔,也是一個SGML文檔,一般有四個部分: teiHeader(題名), front(文本前的信息), body(正文), back(文本后的信息)。其含義分別是:
TeiHeader: 對電子文本對象的描述。front: 對正文前的信息描述,包含位于文件最前端的項目 (標頭、題名頁、前言、獻詞等)。body: 對正文信息的描述,單篇文章的整體部分,不包含正文前及正文后信息。back: 對正文后的信息描述,包含附錄等。
TEI標頭的第一層可以包含
TEI元數據標準規定了描述文本的書目信息所需要的標記,主要在fileDesc部分,有6個復合元素;在此6種元素的基礎上,為了便于對語料搜索和統計,可自定義語料的標題、作者、來源、領域、體裁、語言層次、文類、語式、年代、譯者、編者、本次、版本、出版、日期、語言、國家、性別、年代、創作時間、記錄者等18項屬性信息,具體如下:
1)標題屬性信息

2)作者屬性信息

3)來源屬性信息

4)領域屬性信息

5)載體屬性信息

6)語言種類信息

7)語式屬性信息

8)年代屬性信息

9)譯者屬性信息

10)編者屬性信息

11)版本屬性信息

12)地方屬性信息

13)出版屬性信息

14)語言屬性信息

15)國家屬性信息

16)作者性別屬性信息

17)時代屬性信息

18)記錄者屬性信息

以上18項屬性信息比較全面地反映了一個文本的總體信息,在實際標注時,按照文本收集的具體情況和文本使用的具體情況,可以進行一定的附加屬性的標記,也可以只標記其中部分屬性。
“任何文件或專著都有其自身的結構。如: 書信由發信人、收信人、信件本體等部分組成,公文由發文單位、收文單位、題目、文號、公文本體等部分組成[3]”,一般學術著作是由文本前的信息(出版說明等)、序言、目錄、正文、后記、文本后的信息(如: 參考文獻等)等組成。比如: 學術專著的結構可以用下面的樹形圖來表示。

圖1 學術專著樹形圖
樹形圖上的每一個非終端節點叫做“元素”,一個元素的子節點,叫做這個元素的“內容”。例如,在學術著作的樹形圖結構中,“章”是“著作本體”的內容,“節”是“章”的內容,“段”是“節”的內容,“句”是“段”的內容,“詞”是“句”的內容。樹形圖上的每一個終端節點沒有內容,這些沒有內容的終極節點,叫做“數據”。此樹形圖可以用來仿造書籍的傳統結構。書籍的傳統結構可依照層次分解為許多單位。普遍來說,TEI文件都符合這個簡單的層次模式。正文中“章”與“節”的標記可以簡單用章節號和相應的標題來進行標記,其“段落”、“句”和“詞”的標記可以采用如下的標記方式。
…
,該標記必須有一個屬性,屬性的名稱是ID,ID的值即為該段落的序號。在標記規范中規定: 對于文中出現的標題、子標題等均作為特殊的段落加以標記。加入了段落標記的文本體部(含有n個段落)形狀一般如:......
......
......
......
內部。例如在某個藏語文本第20個段落中出現了4個句子,標記情況如下:






如果建立雙語對齊語料庫,還可以增加對齊標記。
詞匯標記用來標記文本中詞匯的開始邊界和結束邊界。無論是漢語文本還是藏語文本,一個句子都是由若干個詞組成的。在語料庫中詞匯標記用TEI標記,標記中還需要標記分詞和詞性規范,其中有一個pos的屬性,用來記錄詞性屬性。例如:


......
至此,語料庫就詳細標記到了詞的層面。有了該層面的標記,就可以按照需求開展相應的很多工作了。
以上探討了語料庫整體框架的標記。下面對《更敦群培文集》進行一個整體框架的標記,供大家參考。

< /titleStmt>

以上范例中描述了電子文本的標題、作者、來源、語式、載體、語言、出版日期、修訂、編碼等屬性,對藏語語料庫框架標記提供一個參考。 本文由于篇幅所限,不再贅述藏語料庫結構標記的實例。
本文結合我們建設語料庫和使用語料庫的實際情況,提出了藏語語料庫框架標記、結構標記規范及標記方法,并嘗試用一定的實例表述我們的標記方法。藏文語料庫的建設比較滯后,并且規模也不大。希望我們提出的藏語語料庫的標記方法對藏語語料庫的建設起一個拋磚引玉的作用。
[1] 常寶寶,柏曉靜. 北京大學漢英雙語語料庫標記規范
[J].漢語語言與計算學報,2003,13(2): 197-214.
[2] 中文元數據標準研究項目組. 國外元數據標準比較研究報告—中文文獻元數據標準系列報告之一[R]. http://www.idl.pku.edu.cn/pdf/metadata1.pdf.2000.
[3] 馮志偉.標準通用置標語言SGML及其在自然語言處理中的應用[J].當代語言學(試刊). 1998,(4):1-11.
[4] 魯·伯納,麥克·蘇寶麥昆,馬德偉著,謝筱琳,黃韋寧譯.TEI使用指南—運用TEI處理中文文獻[OL].http://ablogtags.info/2011/tei-chinloc-2ndprinted-gjba/.
[5] David Mertz博士.TEI—文本編碼規范[OL]. [2003 年 10 月 01 日].http://www.ibm.com/ developerworks/cn/xml/x-matters/part30/.
[6] 扎西加,頓珠次仁.自然語言處理用藏語格助詞的語法信息研究[J].中文信息學報,2010,24(5):41-45.
[7] Roma:制作TEI的文件模型檔[OL].http://www.tei-c.org/Roma/.
[8] 圣才學習網.圖書館資源描述標準[OL].[2010-10-19 11:49].http://www.100bjcb.com/HP/20101019/OTD 246998.shtml.
[9] 吳守用,古麗拉·阿東別克.哈薩克文語料庫XML格式標注規范初探[C]//中國少數民族語言文字信息處理研究與發展.民族出版社, 2010.