多杰措,安見才讓
(青海民族大學計算機學院,西寧 810007)
隨著計算機及網絡技術的飛速發展,Internet/Intranet引用在全球范圍內的日益普及。當今社會正快速向信息化社會前進,社會的信息總量以爆炸形式的指數增長,為了對應信息帶來的嚴重挑戰,緊迫性地需要一些自動化的工具來幫助人們在大量的信息中提取自己需要的信息。目前國內有許多代表性的漢語句法分析系統,不少已在實踐中取得了較好的成果。相反在藏語言中目前幾乎沒有句法分析方面的成果,為此,本文采用基于規則的線圖分析方法進行句法分析,實現了句法分析系統的實現。
句法分析是自然語言處理領域的一個關鍵環節,它研究如何通過計算機算法得到自然語言句子的句法結構,句法分析對機器翻譯、信息檢索、信息抽取等方面產生重要的推動作用。
藏文的句法分析是藏文信息處理的基礎,由于藏文在藏文在語法上有些獨特的特征,對藏文的句法分析造成了一定的影響。使我們不能照搬現有的英文、漢文句法分析的方法,要從藏文自身獨特的文法出發,研究適合藏文的句法分析技術。對藏文句法分析的研究將對自然語言的各種問題提供幫助,是解決自然語言處理的的重要手段之一。
線圖算法在句法分析中廣泛使用,線圖分析算法是最通用、簡單、直觀的句法分析算法。線圖就是一組節點和邊的集合。簡單地說,線圖分析算法是由日程表驅動的不斷循環的過程。按照初始化策略對日程表(agenda)進行初始化,若agenda為空,那么分析失敗,否則每次按照日程表組織策略,從日程表中取出一條邊。如果取出的邊是一條非活躍邊而且覆蓋整個句子,那么返回成功,將取出的邊加入到chart中,執行基本策略和規則調用策略將產生的新邊又加入到agenda中。圖1是線圖算法的流程圖。


圖1 線圖分析算法的流程圖

圖2 用線圖分析算法對例句分析過程產生的線圖
本文中線圖句法分析系統由待分析的藏文句子,規則庫,藏文句法分析模塊,句法分析過程表,生成樹等組成。待分析的藏文句子模塊是用已有的分詞系統進行詞性標注的結果。規則庫是實現基于規則的藏文句法分析。藏文句法分析模塊采用的是線圖分析算法,運用一套藏文語法規則,實現基于規則的藏文句法分析,并且生成樹。
線圖句法分析系統經過運行后,得到如圖3線圖分析算法運行后所示的界面以及生成的樹的界面。

圖3 線圖分析算法運行后所示的界面以及生成的樹的界面
本文對藏語句子的結構和語法規律進行深入研究的基礎上,用線圖分析算法對藏文句子進行句法分析,并且用計算機軟件來實現藏語句法分析,這對藏文句法分析分析的研究具有重要的意義,因為規則庫的不完善,已實現的這個線圖句法分析系統只能處理一些簡單的或者句型結構相近的或者相類似的句子。離處理實際的文本或者句型復雜的句子還有一定的距離。因此還要在這一步的基礎上,繼續擴充規則庫和復雜句型句子的研究。