安見才讓
(青海民族大學計算機學院,西寧810007)
語料庫由大量收集得來的書面語或口語構成,使用計算機儲存并處理的用于語言學研究的文本庫。它為語言教學提供了自然出現的真實語料,為語言研究提供了科學的方法[1]。經過20多年的發展,很多領域的語料庫已達到一定規模,相應的語料庫日趨成熟,但藏區的漢語教學至今沒有一個可以應用的漢藏語料庫。目前,國內漢藏平行語料庫缺乏統一的標準,藏區的漢語教學工作仍采用傳統的面授模式,教師的知識儲備有限,知識得不到及時更新與總結,缺乏知識對比的參照標準和有效信息的搜索工具,而且檢索效率低下[2]。因此,文中建立了漢藏雙語語料庫平臺系統,立足于“藏區使用的小學、初中漢語文教材”,充分結合漢藏雙語的特點,應用計算機技術,實現了對漢、藏語料的收集、篩分、統計、檢索、對齊、對比、發音、朗讀、顯示等功能,為藏區的漢語教學、漢藏語言的研究提供了一個高效、準確、統一的教學平臺。
九年義務教育六年制小學和三年制初級中學共17本《漢語》教科書(藏族地區使用)的內容及與之對齊的藏語翻譯內容是本系統的生語料。它含有904個課文文本文件,約2794445字。據此,本系統在設計上突出了以下幾個特點:
(1)實現了良好的人機交互
系統在生語料的人工處理和熟語料的人工修正模塊中,通過友好的交互界面,實現了漢藏分詞、漢藏詞性標注、漢藏句法分析和漢藏樹庫結果的人工修正等功能。
(2)加工深度到達詞、句、段級
在對生語料進行加工的過程中,提取并保存了每個文件的段數、句數、詞數及其對象在數據結構中的存取地址,可以方便地實現對任意文件、段、句、詞的檢索和提取。
漢藏平行語料庫系統功能結構如圖1所示。
系統包括前臺應用和后臺維護2個子平臺。應用子平臺供最終用戶進行語料檢索、統計、對比分析的使用,功能如下:
(1)語料檢索:檢索引擎根據檢索請求,輸出用戶需要的漢藏語料數據。
(2)語料對齊顯示:根據用戶的檢索請求,語料按成篇、段落、語句對齊等多種形式輸出給用戶。
漢藏句子級對齊如圖2所示。

圖1 漢藏雙語語料庫系統功能結構

圖2 漢藏句子對齊
單擊漢語句子時,會使其本身及與之相對齊的藏語句子的顏色加深并朗讀發聲,反之亦然。
(3)統計分析:系統分別對漢、藏語的各種項目進行頻率統計,并自動成為語料檢索的結果之一。
表1是任意選擇初級中學《漢語》課本第五冊,對其內所有課文中各詞性類別、詞性出現次數和所占總字數的百分比等情況作出的統計:

表1 漢語的詞性類別、詞出現次數和百分比統計
(4)漢語朗讀:根據教學要求,對漢語語篇、段落、句子、詞語和字進行朗讀或發音,為藏族學生普通話水平的提高提供幫助。
維護子平臺的功能是提供對語料的編輯和入庫操作。其功能如下:
·漢藏語料的錄入和編輯。如語料的錄入、修改及語料人工標記的添加等
·漢藏語料中詞的切分和標注
漢藏語料的分詞和標注如圖3和圖4例示。
·語料句法分析和樹庫生成
例如句子:漢語“我們學習漢字”和與之對齊的藏語“NGA TSOS RGYA YIG SLOB,”的句法分析的樹型標示如圖5和圖6。

圖3 藏語句子的分詞和標注

圖4 漢語句子的分詞和標注
·漢藏語料校對
漢藏平行語料庫系統分為語料庫文件和語料庫引擎(即語料庫索引程序)及其他應用程序。本系統的總體框架如圖7所示。其中語料庫加工模塊對生語料或熟語料進行詞語切分、詞性標注和句法分析處理,得到存放在計算機磁盤中的庫文件。語料庫索引模塊則對庫文件中的語料信息,運用特定的工具進行分析處理,并生成索引文件,實現特定的功能。

圖5 漢語句子的句法分析

圖6 藏語句子的句法分析

圖7 漢藏平行語料庫系統
全部的漢語文教材內容按冊分成18個類,系統將每個類作為一個單獨的庫文件存取,并可由語料庫索引程序根據用戶的選擇裝載、調用。每個庫文件由四個動態數組構成,分別是文件數組、段信息數組、句信息數組和詞信息數組。每個數組元素為一個結構,具體定義如下所示:


由于漢語中95%的詞語都不超過4個字,教材中與漢語詞語對應的藏語詞語基本上也是4個字長,為了減少存儲空間的占用,系統設定漢語詞條長度為8字節,藏語詞條長度為28字節。若漢語詞條長度超過8字節或藏語詞條長度超過28字節,則設一個指針指向LONGWORDINFO結構。
在語料庫加工過程中,對熟語料文件,分析提取出其中的各個段、句、詞或者詞性標記等信息,由這些信息計算出結構各成員的值填入各數組中,對后繼的文件,同樣的信息也依次添加到數組中。對每篇文章的首段、每段的首句及每句的首詞或字,將其ID填入上一級對象相應的成員中,實現上一級對下一級相應對象的尋址,這樣就能夠存放文章的段、句結構信息。通過詞對象的FileId,SenId成員,系統能夠方便地為詞語建立B+樹索引。
語料庫加工模塊的結構如圖8所示。
詞語切分和詞性標注是熟語料生成的基本步驟,本系統采用了基于N-最短路徑方法的漢藏詞語粗分模型實現生語料的切分和標注。它綜合了最短路徑分詞方法與全切分分詞方法二者之長處,其基本思想是:

圖8 語料庫加工模塊
根據詞典,找出字串中所有可能的詞,構造詞語切分有向無環圖。每個詞對應圖中的一條有向邊,并賦給相應的邊長(權值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度值按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第 1,第 2,...,第 i,...,第 N 的路徑集合作為相應的粗分結果集。若兩條或兩條以上路徑長度相等,則它們的長度并列為第i,都要列入粗分結果集,而且不影響其他路徑的排列序號。最后粗分結果集合的大小應該大于或等于N。在原有模型的基礎上,進一步加入詞頻信息,建立統計模型,能夠使整個模型粗分結果的召回率有很大提高,模型的運行效率也達到滿意的效果[3]。
數據結構裝填和保存模塊實現了將切分標注后的熟語料文本信息填入數組的功能,此外,還負責數組元素對象中各個成員的修改,數組元素的添加、刪除和數組的存取。
在熟語料的人工修正模塊和生語料的人工處理模塊中,通過交互界面提供的詞類選擇框、主題分類選擇框,可以很方便地實現句子的人工分詞、詞語的人工詞性標注和文件的人工分類等功能。由于效率的要求,這兩個模塊一般利用不多。
語料庫索引模塊的結構如圖9所示。
語料庫載入模塊根據用戶的選擇提取某一冊的庫文件,得到語料信息以供處理。指令分析模塊接收用戶發給交互界面的請求,發送指令調用相應的功能模塊進行運作。
F1~F4功能模塊分別實現B+樹索引[4](一種改進的B+樹索引)、詞表生成和語篇統計、分類主題詞提取和詞語搭配分析,獲得的結果由交互界面返回給用戶。

圖9 語料庫索引程序
交互界面接收用戶的請求,發送給指令分析模塊,并將處理結果返回給用戶,用戶對選定分類的庫文件的裝載請求也通過交互界面發送給語料庫載入模塊。此外,它還可將處理結果,如索引、主題詞集保存在計算機磁盤中。
為方便漢語教學,本系統為便捷地使用語料庫信息提供了一些工具,并集中在“語料庫索引模塊”中。
系統地介紹了面向漢語教學漢藏平行語料庫平臺的基本功能、設計思想和實現方法。筆者實現了基于C/S模式的語料庫系統,使用最短路徑分詞方法與全切分分詞方法二者之長處和動態索引樹技術實現對海量語料的各種操作。目前該語料庫已采集了含有904個課文文本文件,約2794445字的語料,并逐步投入到了面向藏族學生的漢語教學和漢藏語言對比的研究中。
[1] 楊惠中.語料庫語言學導論[M].上海:外語教育出版社,2002.
[2] 王長,勝劉群.雙語語料庫的檢索和管理[J].計算機工程與應用,2002,38(7):113-114.
[3] 李文翔,晏蒲柳,夏德麟.基于內容主題的語料庫系統設計與實現[J].計算機應用研究,2004,21(10):149-151.
[4] 徐逸文,方鈺,陳閎中.一種處理B+樹重復鍵值的方法[J].計算機工程,2009,35(5):25-27.
[5] 哈斯.蒙古語語料庫語言資源管理平臺的設計與實現[J].內蒙古師范大學學報(自然科學漢文版),2007,37(6):743-745.