于詩畫 趙小兵
【摘 要】藏文分詞是藏文信息處理中最為基礎卻又十分重要的工作,而藏文的自動分詞是提高藏文信息處理工作效率的重要技術。本文主要從藏文自動分詞的意義、國內研究現狀、分詞方法以及目前所面臨的主要問題等方面來簡單闡述藏文自動分詞技術的相關內容。
【關鍵詞】分詞;藏文分詞;分詞方法
1 藏文自動分詞的主要意義
分詞其實就是按照一定的標準或規范將一系列連續的字序列重新劃分成詞序列的過程。在英文中, 單詞之間是以空格作為自然分界符的,因此在詞的理解上較為直觀,它直接跨越了分詞這一處理過程。而藏文的詞與詞之間是不具備任何形式的分界符的,這便給藏文的信息處理增加了一定的難度。而一段藏文在經過分詞后,如果讓計算機來處理這樣一段由詞組成的藏文句子,它首先需要對句子的詞法進行分析,然后才能夠進一步去理解整個句子的具體含義。因此,藏文詞的正確切分在藏文信息處理工作中顯得尤為重要。
在保障詞的正確切分過程中,如果僅僅通過人工的方式進行分詞處理,顯然是一個龐大而復雜的過程,并且會存在許多的弊端。而在飛速發展的信息技術社會背景下,如果用計算機按照一定的規則和程序來代替人工進行藏文文本的自動分詞,將具有很大的研究意義。目前,藏文信息處理技術的應用已經在文字處理的基礎上逐漸面向語言信息處理,但是作為語言的基本組成單元,分詞處理仍然是藏文信息處理中一項不可或缺的基礎工作。因為分詞結果的質量將直接影響到藏文檢索主題排序、藏文機器翻譯、藏文語音識別等藏文信息處理技術的應用和發展。進而,藏文自動分詞技術的研究與發展也即將對藏族人民的生活、學習和工作等具有積極的作用和重要的意義。
2 國內藏文自動分詞的研究現狀
迄今為止,隨著藏文信息處理技術的不斷研究與深入,藏文自動分詞技術也取得了很多令人矚目的成果。比如,目前在國內公開發表的關于藏文分詞方面的研究和系統有很多:1999年,中國藏學研究中心的扎西次仁所發表的“一個人機互助的藏文分詞和詞登錄系統的設計”可以看作是藏語分詞研究開始的標志[1]; 2001年,陳玉忠設計實現了《一個基于格助詞和接續特征的藏文分詞系統》[2]。此外,祁坤鈺提出了切分與格框架、標注一體化的藏語三級切分體系的藏文分詞方法[3];才智杰實現了一種藏文分詞方法,并首次提出了基于規則的方法“還原法”來處理藏語分詞中緊縮詞識別問題等[3]。
而由于標注語料資源的限制,采用機器學習方法在最近三年才逐漸受到重視。其中,劉匯丹、李亞超各自采用基于條件隨機場的音節標注方法,把分詞看成判斷音節在詞中位置的過程,并取得了很好的效果,該方法基于統計機器學習模型,是藏文分詞研究的最新研究成果[4]。
3 藏文自動分詞的基本步驟
藏語是黏著性語言, 藏語句子的組織過程就是在詞與詞、短語與短語之間添加格助詞并與句末動詞有效地結合的過程。因此,藏文分詞的關鍵是如何結合藏語字、詞、句各類形式特征來確定格助詞及其接續特征規則的識別算法。
藏語句子的各個功能性成分主要是詞和格助詞及其接續特征詞的結合體,同時還有一些則是短語或子句與格助詞組成的連續結合體,統一稱之為塊。由短語或子句組成的句節內詞的切分必須借助詞典和接續特征規則。句節內無法切分的“堆塊”以及由屬格格助詞引起的“截斷”問題在分析階段需綜合各類知識才能解決。據此,有專家提出利用字切分特征和字性庫先“認字”,再用標點符號和關聯詞 “斷句”,用格助詞“分塊”,再用詞典“認詞”,充分利用各類接續特征“分詞”的多級切分策略。
4 藏文自動分詞面臨的主要問題
目前的藏文分詞處理通常都是首先由計算機對藏文文本進行自動分詞,然后再對分詞結果附以人工校對。但無論是計算機自動分詞還是人工校對,前提是都需要符合一定的分詞標準或規范以保證分詞結果的正確性,從而也為藏文信息處理的后續工作提供統一的輸入。但即使如此,也并不能完全保證分詞結果的正確性,因為藏文自動分詞還面臨著兩個最大的困難:一是歧義切分問題,二是未登錄詞識別問題。
4.1 歧義切分問題
在分詞過程中,文句中某個片段可能存在兩個或兩個以上切分形式的字段,稱為分詞歧義字段[5]。針對分詞中的歧義現象,人們從不同的角度提出了不同的分類方式,從歧義字段的主要構成形式來分,藏文分詞中歧義分為兩種: 一種是交集型歧義字段,另一種是組合型歧義字段。據統計,藏文中交集型歧義占歧義問題的90%以上[6],因此, 如何解決好交集型歧義字段的切分問題,對于藏文歧義字段的切分具有重要的意義。
而對于藏文分詞中交集型歧義問題的研究,一般采用兩種解決方法。一是采用雙向掃描匹配方法,即對同一字段分別進行正向最大匹配和逆向最大匹配,如果掃描結果不同,則認為是交集型歧義;也有人采用最大概率方法來消解交集型歧義,主要利用詞頻信息來找出最佳的切分結果。但是由于高頻單音節對切分結果的影響,有時也往往無法得出期望的切分結果。因此,無論是哪一種消歧方法,還都有待于在實驗中不斷改進。
4.2 未登錄詞問題
大規模的藏文本處理中,會遇到很多機器可讀詞典中未收錄不能識別的詞匯,“包括中外人名、地名、機構組織名、事件名、貨幣名、縮略名、派生詞及各種專業術語等,這些詞總稱為未登錄詞”。未登錄詞包括兩大類:一類是新涌現的普通詞匯或專業術語;另一類是專有名詞,例如:人名、地名、國名、組織機構等名。未登錄詞在藏語真實文本中普遍存在。
有實驗統計,用含7萬詞條的詞典,對2萬余字的藏文網頁新聞文本語料進行自動切分后發現,其中有20%的詞不在詞典中;對1萬字的藏文科技文本進行自動切分,其中有40%的詞不在詞典中;對6萬字藏文文學、新聞、民俗等多種文本進行自動切分,發現絕大多數錯誤是由未登錄詞造成。未登錄詞是影響藏文分詞正確率的主要因素,對分詞精度的影響超過了歧義切分。因此,要從根本上提高藏文分詞效率,解決未登錄詞問題尤為重要。
5 結語
藏文分詞是藏文文本處理中最基礎也最為首要的工作,其分詞的正確性將直接影響到藏文信息處理的有效性與應用價值;而藏文自動分詞技術則是藏語自然語言處理中的一項關鍵技術,因為該項技術不僅直接運用于藏文文字識別、藏文語音處理、藏語機器翻譯、藏語教學技術研究等方面,而且也是未來藏語的智能化研究以及藏語文化、信息傳播與交換的直接動力與基礎支撐;同時這也將對藏族地區的社會生活與社會發展帶來深遠的影響。當然,藏文自動分詞技術還并為成熟,還有很多亟待解決的問題,如程序中關于unicode編碼處理的問題、藏文文字的在線輸入問題、人工標注庫的建立和完善等,這就需要相關研究人員投入進一步的研究工作。
【參考文獻】
[1]何向真,李亞超,馬寧,于洪志.基于音節標注的藏文自動分詞研究[J].計算機應用研究,2015,07:1989-1991.
[2]索郎桑姆.藏語語料庫構建與加工技術研究[D].西藏大學,2013.
[3]劉匯丹.藏文分詞及文本資源挖掘研究[D].中國科學院大學,2012.
[4]湯小娜.詞義消歧在統計機器翻譯中的應用研究[D].廈門大學,2007.
[5]李偉.中文分詞歧義消解技術的研究[D].青島科技大學,2014.
[6]艾金勇.“藏文自動分詞技術研究”報告[R].2013,12.
[責任編輯:楊玉潔]