英青加
西北民族大學 甘肅 蘭州 730030
“成語是用喻法手段表達喻義,是一種概括性極強的名詞組固定組合形式,具有結構固定、構詞簡潔、寓意深刻、表現力強的特點。”成語本身蘊含著豐富的社會、歷史文化知識,是一個民族語言中最具有特色的組成部分。而“藏文成語信息庫”是指從計算機科學視角對藏文成語進行深入研究和理解為重點,將成語語料存放在電子文庫中進行分詞與標注、語法分析,對文本中的字、詞、詞組等各級語言單位的出現率等進行計算分析與統計等的過程,是藏語自然語言處理系統中重要的組成部分,也是研究計算機如何對藏文成語語法特點進行識別、如何使它便于理解、處理等提供研究依據的一種電子信息庫。研究類似成語、習語、諺語等多詞表達(Muti- word Expression )并建設這種語言單位的知識庫對于藏語語言對比研究、語言教學研究、詞典編纂,以及機器翻譯、跨語言檢索等自然語言處理等領域的研究和發展具有實質性的意義[1]。
任何一個人類社會中的詞典的出現,必然是該社會文明發展到一定程度的標志和為滿足社會的特大需求。詞典學家們把詞典的起源分為兩個重要原因,一是了解和學習古代歷史典故、經典文獻的含義。二是與不同語言的人們建立了政治、經濟、文化聯系,為滿足相互交流和學習的需要。“詞典是社會文明進步的產物。詞典產生的原因不外乎兩種需要,首先,古籍積累漸多,隨著語言不同的人群接觸日增,出于交流的需要,雙語詞典或多語詞典應運而生。”無論從哪方面看,詞典都是文明發展的成果,所以編纂字典是個極其重要的語言教學工程。構建藏文成語信息庫首先要有足夠的成語語料,其次對語料進行自動分詞、詞性標注、數據統計、語法分析等程序,使人們便于檢索藏文成語并獲取詳解。藏文成語數量龐大,要構建標準的成語信息庫,要具備專業的研究方法和知識體系,構建出結構合理,內容完整的標準化的成語信息庫。因此,成語信息庫的構建在傳承和收集成語、編纂詞典的過程中有著舉足輕重的作用[2]。
藏文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。一般分為分為文字信息處理與語言信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。在自然語言處理領域中,語言信息庫就好比人類大腦中儲存語言知識的記憶區域,是支撐語言信息處理發展的基礎[3]。
“語義分析是自然語言處理和人工智能的關鍵技術之一,在很多自然語言處理和AI系統中有廣泛應用。”藏文成語一般都有很強的語義,也有著嚴格的語境限制,在機器翻譯和自然語言處理等過程中有較大難度。構建成語信息庫的過程中除了分詞標注、語法分析之外還提供了例句,方便判斷語境和使用條件,更好地了解成語的含義。通過信息處理等對藏文詞匯進行研究的目的也是用計算語言學的方法對藏文詞匯和詞組的規律與功能,性質、分類、語法結構、語義等進行細致的研究,它一方面能促進自然語言翻譯和AI的發展,另一方面使語言文字研究要貼近現代文化的需要,對于面向現代人工智能研究的路徑,提供能力理論和數據具有重要意義[4]。
“機器翻譯是指通過計算機將源語言句子翻譯到與之語義等價的目標語言句子的過程,是自然語言處理領域的一個重要研究方向”。成語內涵豐富,且概括性強,不易理解,構建藏文成語信息庫過程中要對字、詞、詞組等層次進行全面研究和分析,為翻譯工作得以發展和提高提供了前提條件,也是機器翻譯、搜索引擎、文件分類等藏文自然語言翻譯中的基本要領,為建設公共信息庫提供研究經驗和理論數據,具有重要的價值和意義[5]。
藏文成語收集數量為數不多,還有待進一步收集更多的成語語料來豐富成語信息庫內容和擴大信息庫構建規模,只要建設好成語知識庫,絕大部分成語的理解問題就會迎刃而解。因此,綜上所述,成語信息庫的構建在藏文詞典編纂、自然語言處理方面都有著舉足輕重的作用。