999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

央金藏文分詞系統(tǒng)

2011-06-28 06:27:10史曉東盧亞軍
中文信息學報 2011年4期
關鍵詞:系統(tǒng)

史曉東,盧亞軍

(1. 廈門大學 人工智能研究所,福建 廈門 361005; 2. 西北民族大學 機器翻譯研究所, 甘肅 蘭州 730030)

1 引言

隨著少數(shù)民族語言(主要是藏、維、蒙)到漢語的機器翻譯研究逐漸進入人們的視野,相關的少數(shù)民族語言基礎語法分析工具也亟待完善。藏文分詞是藏語到其他語言的基礎性工具。雖然研究的時間也不算短(2002年陳玉忠[1]是較早的一篇研究),已經(jīng)有至少10年的歷史,但是還沒有公開可用的工具。第一作者在研究漢語分詞方面有豐富的經(jīng)驗,從2005年就開發(fā)的Segtag漢語分詞系統(tǒng),雖然沒有發(fā)表相關的論文,但是在北京大學公開的1998年《人民日報》一個月的語料上的準確率約為98%。因此將其移植到藏文,并加以公開,是我們的一個想法。經(jīng)過與第二作者密切合作,已經(jīng)成功地開發(fā)出了藏文的分詞標注系統(tǒng),在一個測試集上的準確率約為93%,取得了較為令人滿意的效果。本文描述該系統(tǒng)的基本算法,并對藏文所作的特殊改進。

本文下面的內(nèi)容如下: 首先綜述一下國內(nèi)外的相關工作,然后介紹了央金藏文分詞系統(tǒng)的基本結構,然后再描述為了改進性能對藏文所作的特殊處理,最后得出結論,并指出了進一步的工作。

由于第一作者一點也不懂藏文,因此本文對想開發(fā)一個未知語種(如蒙語、泰語、彝語等)的分詞系統(tǒng)的人,有一定的借鑒意義。

2 相關工作

陳玉忠[1]在2002年提出了基于格助詞和接續(xù)特征的藏文分詞算法。從此文中作者得出,其實藏文和日語類似,有很多格助詞,表示一定的句法語義功能。扎西加等[2]給出了藏文分詞的詞類劃分。Huidan Liu等[3]研究了藏文分詞中的數(shù)字識別問題。才智杰[4]描述了班智達藏文分詞系統(tǒng)的設計和實現(xiàn)。蘇峻峰[5]描述了一個基于HMM的藏文分詞模型。Yuan Sun等[6]在天之靈2009年也實現(xiàn)了一個基于格助詞和接續(xù)特征的分詞算法,并做了組塊切分研究。劉智文[7]做過一個基于CRF的藏文分詞系統(tǒng)。國內(nèi)的藏文相關工作基本上集中在青海師大、西北民大、西藏大學等單位。

與采用機器學習為主的漢語分詞相比,目前藏文分詞系統(tǒng)顯得落后一些。在漢語方面一般都采用HMM、ME、CRF等模型,很少采用相對原始的規(guī)則或最大匹配模型。

作者也用過青海師大開發(fā)的國內(nèi)最早的藏文分詞軟件班智達,但是該系統(tǒng)只支持班智達編碼。

3 央金藏文分詞系統(tǒng)介紹

HMM模型由于其簡單高效已經(jīng)成為了分詞系統(tǒng)的基準模型,雖然ME或者CRF的準確率比HMM略高一些,但是其訓練卻相對復雜一些,而且當標注語料庫比較小的時候,并不見得有優(yōu)勢。所以我們便用HMM模型來做藏文分詞。另外,作者恰好早已經(jīng)實現(xiàn)了一個基于HMM的漢語分詞系統(tǒng)Segtag,因此便直接移植過來。

Segtag的結構非常簡單,分詞和標注一體化完成,其結構如圖1。

圖1 Segtag分詞系統(tǒng)(其中詞典為央金系統(tǒng)所加)

由于Segtag本身已經(jīng)是基于Unicode的,所以對Unicode的藏文處理毫無困難,原始程序改動不到1%,主要是參照文獻[8]*實際上我們參考的主要規(guī)范是青海師范大學才讓加、吉太加、扎洛等起草的擬作為教育部標準的“信息處理用藏語詞類標記規(guī)范”。修改了詞性表,并增加了對藏語Unicode的未登錄詞識別。因為,與漢語相比,在0平面內(nèi),一個漢字只需雙字節(jié)表示碼位,藏文很多字(有些文章稱之為字丁[9],其實指一個可縱向疊加的書寫單位,我們?nèi)匀环Q為字)是多個雙字節(jié)構成的序列。此外,專門針對藏文數(shù)字修改替換了原漢字數(shù)字識別,使之能處理藏文數(shù)字。移植后的系統(tǒng)由第二作者命名為央金藏文分詞系統(tǒng)。

如果純粹用訓練語料來生成分詞詞典,由于訓練語料很小,得到的詞條僅有13 200余條,根本無法對藏文進行分詞。所以我們又合并了幾本藏文詞典。大約有9萬詞。簡單地把詞典中的詞條以頻率1加到訓練語料,從中訓練出分詞詞典,一共97 800余條。

央金系統(tǒng)的性能如表1(此處2.7M指UTF16編碼的文件大小)。

表1 央金分詞系統(tǒng)的性能

這些訓練語料都是在央金系統(tǒng)的分詞結果的基礎上,由第二作者校對修正而滾雪球一樣得到。而初始種子語料來自于班智達分詞系統(tǒng)。

另外,雖然Unicode目前已經(jīng)是國際標準,國內(nèi)仍然存在著部分班智達和同元編碼的文檔,我們集成了編碼識別和自動轉換功能,以方便用戶使用。

南充市儀隴縣柑橘示范園區(qū)規(guī)劃采用“大園小鎮(zhèn)”模式,即鄉(xiāng)村旅游開發(fā)中所提出的一種創(chuàng)新休閑農(nóng)業(yè)的模式。所謂“大園”就是有一定規(guī)模或正在規(guī)劃的大型園區(qū),而“小鎮(zhèn)”則是符合園區(qū)特色和整體風格,滿足園區(qū)旅游發(fā)展所需要的各種服務配套功能開發(fā)。在本項目中,小鎮(zhèn)指廟子梁中心場鎮(zhèn),結合柑橘食文化以及“三鄉(xiāng)文化”等元素,發(fā)展以客家文化為主題的特色農(nóng)家樂;大園則以海升集團柑橘產(chǎn)業(yè)為園區(qū)基底,由休閑、教育、觀光、康養(yǎng)、文化體驗、電商物流等功能片區(qū)組成[4]。

此外,我們還集成了鼠標藏漢詞典,以方便作者校對分詞結果。

由于第一作者一點也不懂藏文,所以許多央金分詞系統(tǒng)的很多功能都是為了方便用戶能夠在系統(tǒng)內(nèi)便于進行分詞校對而設。

4 分詞系統(tǒng)的錯誤分析和改進

4.1 分詞系統(tǒng)錯誤

通過文件比較,對測試語料中的錯誤進行了分析。首先我們注意到,標注的準確率偏低。結果發(fā)現(xiàn),訓練出詞典中的有些詞的不同詞性之間的頻率差異很大,如

其中gj 和 gl都是格助詞,懷疑gj這個詞性是訓練語料中的標注錯誤而混進來的,因此在裝入詞典的時候做了一個簡單的處理: 如果某個詞的頻率低的詞性與該詞的頻率最高的詞性之頻率比小于閾值β(目前取1%),則舍棄該詞性。經(jīng)過這樣處理以后,分詞的準確率沒有任何變化,而標注的準確率有所提高。

簡單的分析表明: 分詞錯誤大部分是由于未登錄詞而造成的。而很多標注錯誤是因為訓練生成的詞典中根本沒有測試答案中的詞性造成的。其實這些錯誤大部分是訓練語料的不一致性造成的。

舍棄低頻詞性后央金分詞系統(tǒng)的性能見表2。

表2 舍棄低頻詞性以后央金分詞系統(tǒng)的性能

4.2 漢語人名識別

藏文新聞中經(jīng)常出現(xiàn)人名。相對于地名等其他專名,人名是最豐富并且變化的。因此,分詞系統(tǒng)最好能自動識別人名。從來源分,人名基本上可以分為藏語人名、漢語人名、歐美人名等三大類。目前我們只考慮了漢語人名的自動識別。

漢語人名翻譯成藏語,基本上都是采用音譯。也就是說,“王東”和“王棟”翻譯成藏語應該是一樣的。當然,不同的譯者可以選擇不同的藏文字來對同一個漢字(或同音漢字)進行譯音。目前我們已經(jīng)收集了一個漢藏人名對照表TC(目前只有300條),我們可以把它改為藏音對照表(這里音指漢語拼音)。另外我們還有一個常用漢語人名表C,有20多萬條。此外還有一個海量的漢語語料庫。那么藏文中的漢語人名識別算法可簡單地描述如下:

假設藏文的音節(jié)序列ABC,其中每個音節(jié)都是一個可能的漢字譯音A′B′C′,而且不是藏文單詞,P(A′B′C′)作為漢語人名的概率大于一定的閾值,那么可把ABC識別為一個藏文中的漢字人名譯音。

人名識別和數(shù)字識別都在圖1的構造詞圖中進行,與其他處理無關。其實實現(xiàn)的時候就是和數(shù)字識別一樣加一個加權自動機即可。

人名識別后的央金分詞系統(tǒng)的性能見表3。

表3 人名識別后的央金分詞系統(tǒng)的性能

盡管有所改進,但和漢語分詞相比差距不小,訓練語料庫太小可能是一個主要原因。

5 結論和進一步的工作

本文描述了一個基于HMM的藏文分詞系統(tǒng)。就我們和同類系統(tǒng)比較而言,該系統(tǒng)的分詞速度快,準確率也基本達到了可以使用的水平,目前已經(jīng)用于我們的藏漢統(tǒng)計機器翻譯系統(tǒng)。

下一步要做的主要工作是: 繼續(xù)擴大訓練語料規(guī)模;進行地名和機構名的自動識別;克服n元模型的局部性,處理長距離語義相關性。

[1] 陳玉忠,李保利,俞士汶.藏文自動分詞系統(tǒng)的設計與實現(xiàn)[J].中文信息學報,2003,17(3): 15-20.

[2] 扎西加,珠杰. 面向信息處理的藏文分詞規(guī)范研究[J].中文信息學報,2009,23(4): 113-117.

[3] Haidian Liu. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the Coling 2010: 719-724.

[4] 才智杰. 班智達藏文自動分詞系統(tǒng)的設計與實現(xiàn)[J].青海師范大學民族師范學院學報,2010,12(2):75-77.

[5] 蘇峻峰. 祁坤鈺,本太. 基于HMM 的藏語語料庫詞性自動標注研究[J]. 西北民族大學學報(自然科學版),2009,30(1): 42-45.

[6] Yuan Sun et al. Design of a Tibetan Automatic Word Segmentation Scheme[C]//Proceedings of International Conference on Information Engineering and Computer Science, 2009: 1-6.

[7] 劉智文. 藏漢統(tǒng)計機器翻譯研究[D]. 廈門大學碩士論文,2010.

[8] 才讓加.藏語語料庫詞語分類體系及標記集研究[J].中文信息學報,2009,23(4):107-112.

[9] 王維蘭,陳萬軍.藏文字丁、音節(jié)頻度及其信息熵[J].術語標準化與信息技術,2004,(2):27-31.

猜你喜歡
系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
半沸制皂系統(tǒng)(下)
FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統(tǒng) 德行天下
PLC在多段調(diào)速系統(tǒng)中的應用
主站蜘蛛池模板: 99精品视频在线观看免费播放| 国产视频你懂得| 一区二区三区精品视频在线观看| 国产精品对白刺激| 亚洲av日韩综合一区尤物| 亚洲欧美成人| 欧美色亚洲| 人妻一本久道久久综合久久鬼色| 亚洲高清日韩heyzo| 婷婷亚洲最大| 国内精自视频品线一二区| 日本黄色不卡视频| 欧美激情伊人| 久久综合伊人 六十路| 亚洲色无码专线精品观看| 亚洲第一福利视频导航| 国产一级α片| 日本国产精品| 无码aⅴ精品一区二区三区| 四虎成人在线视频| 亚洲精品桃花岛av在线| 极品私人尤物在线精品首页| 国产91精品调教在线播放| 国产女人爽到高潮的免费视频| 中文字幕在线一区二区在线| 在线国产毛片| 欧美啪啪一区| 国产成人艳妇AA视频在线| 999福利激情视频 | 亚洲中文字幕手机在线第一页| 亚洲综合第一页| 丝袜亚洲综合| 国产无码制服丝袜| 午夜日b视频| 黄色网在线| 日本一本正道综合久久dvd| 中文无码影院| …亚洲 欧洲 另类 春色| 91久久青青草原精品国产| 欧美黄网站免费观看| 精品欧美日韩国产日漫一区不卡| 99久久精品美女高潮喷水| 日本免费高清一区| 午夜福利在线观看入口| 黄色网页在线播放| 91精品国产自产在线老师啪l| 97视频免费看| 中国成人在线视频| 伊人成色综合网| 国产免费羞羞视频| 精品国产福利在线| 91久久性奴调教国产免费| 全部毛片免费看| 在线观看网站国产| 国产在线精彩视频论坛| 在线国产欧美| 97国产成人无码精品久久久| 国产永久在线视频| 国产黄色视频综合| 国产在线视频自拍| 色精品视频| 国产欧美日本在线观看| 中文无码日韩精品| 91精品久久久久久无码人妻| 在线综合亚洲欧美网站| 国产在线一二三区| 日韩成人免费网站| 久久这里只有精品66| 国产免费一级精品视频| 日韩小视频在线观看| 亚洲日本精品一区二区| 免费大黄网站在线观看| 亚洲欧美一区二区三区图片| 久久超级碰| 亚洲中文字幕23页在线| 国产91视频观看| 高h视频在线| 国产精品漂亮美女在线观看| 国产在线专区| 91视频精品| 成人午夜视频网站| 小蝌蚪亚洲精品国产|