999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)的設(shè)計(jì)

2014-03-12 19:57:59陳小瑩艾金勇
語文學(xué)刊 2014年7期
關(guān)鍵詞:文本研究

○ 陳小瑩 艾金勇

(西藏民族學(xué)院,陜西 咸陽 712082)

一、引 言

在信息化時(shí)代,藏族文化要跟上時(shí)代的步伐,首先要解決的就是藏文的信息處理問題,藏文信息化和網(wǎng)絡(luò)化是藏民族發(fā)展的必然趨勢(shì)。從20世紀(jì)80年代起,隨著對(duì)藏文字符編碼、字符屬性和輸入技術(shù)等諸多領(lǐng)域不斷深入的研究,藏文信息處理技術(shù)已取得較好的成果。隨著藏文網(wǎng)絡(luò)信息時(shí)代的發(fā)展,藏文正在迅速與現(xiàn)代化、信息化以及世界文化接軌。[1]藏文信息處理已從字處理研究逐步向詞、短語、句法以及語義的研究發(fā)展。以藏字為媒介向世界介紹西藏文化是對(duì)西藏優(yōu)秀傳統(tǒng)文化的繼承,藏文報(bào)刊、電子書、網(wǎng)站、電子郵件及藏文辦公自動(dòng)化的字處理等電子文本也越來越廣泛地應(yīng)用于藏文信息處理多個(gè)領(lǐng)域,而這些都需要通過計(jì)算機(jī)進(jìn)行處理,難免會(huì)出現(xiàn)錯(cuò)誤。[2]如何保證這些電子文本的正確性,顯得越來越重要。這使得其中的校對(duì)環(huán)節(jié)工作量大大增加,對(duì)藏文文本的人工校對(duì)帶來了很大的壓力,這樣對(duì)其進(jìn)行校正就顯得尤為重要。[3]所以對(duì)藏文音節(jié)拼寫自動(dòng)校對(duì)的研究具有非常重要的現(xiàn)實(shí)意義。

國內(nèi)藏文自動(dòng)校對(duì)的研究工作是從20世紀(jì)80年代初的字處理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肅、青海等地的一些院校及科研機(jī)構(gòu)紛紛研制開發(fā)了許多藏文信息處理系統(tǒng),推動(dòng)了藏文信息技術(shù)的發(fā)展,特別是計(jì)算機(jī)藏文文字處理技術(shù)的發(fā)展較快。很多藏文信息界的專家對(duì)此做了較多的研究。劉文香發(fā)表《藏文文本詞校對(duì)模型研究》一文,文中闡述了音勢(shì)約束理論和二元鄰接矩陣在藏文自動(dòng)校對(duì)中的應(yīng)用。[4]關(guān)白等人發(fā)表的《現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究》一文,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對(duì)現(xiàn)代藏文音節(jié)字的自動(dòng)校對(duì)進(jìn)行了研究。[5]王維蘭等人發(fā)表的《印刷體現(xiàn)代藏文識(shí)別研究》一文,將藏文自動(dòng)校對(duì)應(yīng)用于藏文文字識(shí)別的后期處理,對(duì)識(shí)別后所形成文本中的單字進(jìn)行了次校正。[6]多杰卓瑪發(fā)表《N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究》一文,提出將一個(gè)藏文音節(jié)字按其構(gòu)件分成若干個(gè)字丁,利用N元模型對(duì)這些字丁建立模型,采用這一模型對(duì)音節(jié)字進(jìn)行偵錯(cuò)的方法。[7]黃小蘭等人發(fā)表的《現(xiàn)代藏文音節(jié)的劃分與確定》一文,通過應(yīng)用程序?qū)Σ匚木幋a的占位和不占位的有效判定找出組合字符。對(duì)找出組合字符的藏文字符通過藏文正字法的限定對(duì)藏文音節(jié)進(jìn)行有效的判定和音節(jié)組件的拆分。[8]

二、主要內(nèi)容

藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)共分為四個(gè)模塊:

(1)藏文文本規(guī)范化處理模塊

藏文文本中除了包括正常的規(guī)范字符外,還常常出現(xiàn)各種不屬于藏文字符的其他字符,例如數(shù)字、日期、電話號(hào)碼等使用阿拉伯書寫的字符。這些不屬于藏文字符的其他字符會(huì)對(duì)后期音節(jié)的切分時(shí)發(fā)生錯(cuò)誤,從而使整個(gè)音節(jié)拼寫校對(duì)系統(tǒng)的校正率降低,所以這些非規(guī)范的文本在進(jìn)行音節(jié)切分之前應(yīng)該要進(jìn)行規(guī)范化處理,并給出它們對(duì)應(yīng)的在規(guī)范化藏文詞表上的規(guī)范寫法。

(2)音節(jié)切分模塊

現(xiàn)代藏文的字符流是兩維呈現(xiàn)的,有一套嚴(yán)格而完整的字母組合排列規(guī)則,自左向右橫行書寫。傳統(tǒng)藏文文法根據(jù)字母在音節(jié)中的結(jié)構(gòu)位置,將30個(gè)輔音字母分為分為基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7個(gè)構(gòu)件,各個(gè)構(gòu)造位上出現(xiàn)的字符其性質(zhì)與數(shù)量均有一定的限制。藏文音節(jié)字是用音節(jié)點(diǎn)進(jìn)行間隔的,在音節(jié)切分時(shí),以音節(jié)點(diǎn)為標(biāo)記對(duì)藏文音節(jié)進(jìn)行切分。[9]

(3)黏著語的分離與還原模塊;

在現(xiàn)代藏文的實(shí)際文本中有些格助詞和接續(xù)詞、終結(jié)詞是黏著在后加字或者基字上,形成一個(gè)音節(jié)字的。這種具有黏著性的格助詞有:a.黏著性屬格助詞“ ”;b.黏著性接續(xù)詞“ ”;c.黏著性疑問助詞“ ”;d.黏著性終結(jié)詞“ ”;e.黏著性作格助詞“ ”;f.黏著性LA格助詞“ ”。這樣形成的音節(jié)字雖然可能不符合藏文的正字法結(jié)構(gòu),但是又是正確的書寫形式,因此需要對(duì)對(duì)待校文本中存在黏著現(xiàn)象的音節(jié)字進(jìn)行分離和還原。具體過程如下:

①對(duì)“ ”的分離與還原:判斷字符串中可能黏著的格助詞或接續(xù)詞是否有“ ”等,如果有則對(duì)該音節(jié)進(jìn)行黏著語分離和還原操作;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。

②對(duì)“ ”的分離與還原:判斷字符串中可能黏著的格助詞是否有“ ”,因?yàn)椤?”還可能作為后加字成分存在,所以如果存在,還需要根據(jù)構(gòu)字規(guī)則判斷其是否為后加字,如果不是則對(duì)該音節(jié)進(jìn)行黏著語分離和還原;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。

(4)音節(jié)校對(duì)模塊

現(xiàn)代藏文具有最多3個(gè)輔音和最多1個(gè)元音的垂直疊加形成的組合字符。藏文字符顯示時(shí),一個(gè)組合字符只占據(jù)一個(gè)字母的寬度,這個(gè)寬度由第一層輔音決定,這個(gè)輔音稱為占位輔音,這個(gè)輔音的編碼也就稱為占位輔音編碼,其它字母只是疊加在占位輔音的上方或者下方而不單獨(dú)占據(jù)寬度,稱為不占位字母或不占位編碼。[10]項(xiàng)目實(shí)施中首先可以依據(jù)音節(jié)編碼中占位輔音編碼和非占位輔音編碼的順序來確定基字所在的組合字丁的位置,然后再根據(jù)前后編碼的序列確定前加字、后加字和再后加字;其次通過組合字符對(duì)應(yīng)的編碼特點(diǎn)即一個(gè)占位編碼緊接著最多三個(gè)連續(xù)的不占位編碼確定 “上加字”、“下加字”;最后根據(jù)藏文正字法確立的構(gòu)字規(guī)則對(duì)該藏文音節(jié)各部件進(jìn)行判別校對(duì)。

三、結(jié) 語

通過對(duì)藏文文本規(guī)范化處理、音節(jié)切分、黏著語的分離與還原和音節(jié)校對(duì)四個(gè)部分內(nèi)容的研究與分析,設(shè)計(jì)了藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)。該校對(duì)系統(tǒng)可以廣泛應(yīng)用于藏文信息處理的其他領(lǐng)域。比如:藏文字識(shí)別和藏文語音識(shí)別、藏文拼寫檢查、文本編輯、自動(dòng)分詞、語料庫制作、輔助教學(xué)等諸多的藏文信息處理的研究領(lǐng)域當(dāng)中,可以減少人工校對(duì)帶來的壓力,從而大大提高校對(duì)環(huán)節(jié)的工作效率。所以對(duì)其的研究必將提升現(xiàn)有藏文信息處理研究的成果,具有非常重要的現(xiàn)實(shí)意義。

【參考文獻(xiàn)】

[1]關(guān)白,洛藏,才科扎西.現(xiàn)代藏文自動(dòng)校對(duì)現(xiàn)狀分析[J].西藏科技,2011(8).

[2]張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(6).

[3]扎西次仁.一個(gè)藏文拼寫檢查系統(tǒng)的設(shè)計(jì)[C]//中文信息處理國際會(huì)議論文集,1998.

[4]劉文香.藏文文本詞校對(duì)模型研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(2).

[5]關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究[J].計(jì)算機(jī)過程與應(yīng)用,2011(6).

[6]王維蘭,丁曉青,等.印刷體現(xiàn)代藏文識(shí)別研究[J].計(jì)算機(jī)工程,2003(3).

[7]多杰卓瑪.N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2009(4).

[8]黃小蘭,黃鶴鳴,才科扎西.現(xiàn)代藏文音節(jié)的劃分與確定[J].計(jì)算機(jī)應(yīng)用與軟件,2012(9).

[9]李永宏,孔江平,等.藏語文-音自動(dòng)規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào),2008(1).

[10]黃鶴鳴,達(dá)飛鵬.基于排序的藏文音節(jié)類型判定[J].計(jì)算機(jī)應(yīng)用,2009(7).

猜你喜歡
文本研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側(cè)面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲av无码牛牛影视在线二区| 婷婷色狠狠干| 亚洲视频免| 亚洲精品va| 国产精品9| 欧美午夜视频| 人妻丰满熟妇αv无码| 丁香婷婷激情综合激情| 18禁高潮出水呻吟娇喘蜜芽| 伊人福利视频| 色综合婷婷| 国产综合色在线视频播放线视| 东京热一区二区三区无码视频| 91毛片网| 久久国产亚洲偷自| 欧美国产在线一区| 国产玖玖视频| 亚亚洲乱码一二三四区| 亚洲自偷自拍另类小说| 亚洲αv毛片| 99精品国产自在现线观看| 激情视频综合网| 欧美一区二区三区香蕉视| 欧美一区精品| 国模私拍一区二区| 国产精品午夜电影| 国产精品免费入口视频| 伊大人香蕉久久网欧美| 亚卅精品无码久久毛片乌克兰 | 欧美亚洲国产视频| 久久精品国产电影| 国产精品嫩草影院av| 色精品视频| 久久国产精品77777| 992tv国产人成在线观看| 国产亚洲精品97AA片在线播放| 国产一区二区三区免费观看| 成年人福利视频| 国产香蕉在线视频| 国产96在线 | 欧美在线精品一区二区三区| 鲁鲁鲁爽爽爽在线视频观看| 亚洲熟女中文字幕男人总站| 丁香婷婷激情网| 久久免费视频6| 毛片免费视频| 在线看国产精品| 久久成人免费| 超碰aⅴ人人做人人爽欧美| 成人蜜桃网| 毛片手机在线看| 91亚瑟视频| 四虎永久在线精品影院| 精品国产网站| 欧美日本激情| 伊在人亚洲香蕉精品播放| 国产精品久久自在自线观看| 国产呦精品一区二区三区下载| 香蕉精品在线| 亚洲第一成年人网站| 色久综合在线| 成人免费视频一区| 亚洲a免费| 亚洲国产精品VA在线看黑人| 欧美日韩国产综合视频在线观看| 久久无码av三级| 中文字幕波多野不卡一区| 久久精品国产亚洲麻豆| 欧美亚洲一区二区三区导航 | 精品成人一区二区| 无码丝袜人妻| 91色综合综合热五月激情| yy6080理论大片一级久久| 国产精品亚洲片在线va| 欧美、日韩、国产综合一区| 91亚洲免费视频| 国产成人精品亚洲77美色| 在线另类稀缺国产呦| 国产探花在线视频| 欧美午夜视频| 亚洲欧美成人在线视频| 18禁高潮出水呻吟娇喘蜜芽|