999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于匹配算法的藏文文本詞語校對(duì)研究?

2021-08-08 11:14:00王福釗周
關(guān)鍵詞:文本研究

王福釗周 雁

(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 拉薩850000)(2.北京理工大學(xué)珠海學(xué)院計(jì)算機(jī)學(xué)院 珠海519000)

1 引言

文本校對(duì)是較為復(fù)雜的自然語言處理過程,也是自然語言處理中最為重要的關(guān)鍵一步。漢英文本校對(duì)研究起步較早,目前也已經(jīng)取得了較好的成果。藏文信息處理研究起始于21世紀(jì)初,其起步晚,研究資源短缺,研究進(jìn)展緩慢[1]。藏文文本校對(duì)占據(jù)了藏文信息處理的重要位置,是進(jìn)行藏文自動(dòng)分詞、文本語義分析、語料庫建設(shè)等的基礎(chǔ),具有極其重要的基礎(chǔ)性意義[2]。藏文文本校對(duì)是一項(xiàng)較為復(fù)雜的工作,其包括音節(jié)校對(duì)、梵音轉(zhuǎn)寫校對(duì)、詞語校對(duì)、接續(xù)關(guān)系校對(duì)以及語法校對(duì)[3]。隨著計(jì)算機(jī)的不斷應(yīng)用普及,對(duì)藏文信息化的要求也越來越高。簡單來看,當(dāng)我們?cè)谟?jì)算機(jī)中進(jìn)行藏文文本的錄入時(shí)就可能存在錯(cuò)誤,可能出現(xiàn)音節(jié)拼寫上的錯(cuò)誤或詞法、句法上的錯(cuò)誤等,這些錯(cuò)誤都將嚴(yán)重影響之后的文本處理。因此在我們的生產(chǎn)生活科研中對(duì)藏文文本的校對(duì)就顯得格外重要。在過去的十多年里,一些科研機(jī)構(gòu)對(duì)藏文文本的校對(duì)進(jìn)行了研究,大多是對(duì)藏文音節(jié)和詞接續(xù)關(guān)系的研究[1~3]。本次研究的對(duì)象是藏文文本中的詞語校對(duì)方法研究,并采用最大匹配算法的思想在不進(jìn)行分詞的情況下實(shí)現(xiàn)了藏文文本的詞語校對(duì)。

2 研究基礎(chǔ)

2.1 藏文基本結(jié)構(gòu)

藏文創(chuàng)造于吐蕃松贊干布時(shí)期,屬于藏漢語系語言。藏文同是拼音型文字,其拼寫為一體,即書寫和拼讀皆通過30個(gè)輔音字母和5個(gè)元音字母(其中?a為省略不寫)構(gòu)成[4]。藏文的輔音和元音字母如表1,2所示。

表1 藏文輔音字母

表2 藏文元音字母

藏文字形結(jié)構(gòu)是縱橫疊加的平面結(jié)構(gòu),其以基字(一個(gè)輔音字母)為核心。現(xiàn)代藏字包括一般結(jié)構(gòu)和特殊結(jié)構(gòu)。在一般結(jié)構(gòu)中,藏字至少由一個(gè)輔音字母組成,最多可由七個(gè)字母組成[4]。藏字一般結(jié)構(gòu)如圖1所示。

圖1 藏字一般結(jié)構(gòu)

2.2 藏文文本校對(duì)類型

根據(jù)藏文文本中可能出現(xiàn)的錯(cuò)誤情況進(jìn)行校對(duì)分類,共分為五類。具體如下。

1)藏文音節(jié)校對(duì)。主要是從藏文字的構(gòu)字規(guī)則出發(fā)對(duì)音節(jié)的組成進(jìn)行檢查。例如,藏字

3 藏文文本詞語校對(duì)

藏文文本的詞語校對(duì)方法主要有機(jī)器學(xué)習(xí)的詞網(wǎng)絡(luò)匹配方法和詞典匹配兩種方法。基于詞典匹配的詞校對(duì)方法是簡單而方便的詞校對(duì)方法,之前的研究中大多通過文本分詞,再進(jìn)行詞典的匹配方式實(shí)現(xiàn)詞校對(duì)。現(xiàn)將使用動(dòng)態(tài)組詞并匹配的方式實(shí)現(xiàn)詞語校對(duì)。藏文文本詞語校對(duì)原理圖如圖2所示。

圖2 藏文文本詞語校對(duì)原理

藏文文本進(jìn)行預(yù)處理。首先,將其中的非藏文特殊字符,如逗號(hào)、冒號(hào)、引號(hào)等進(jìn)行處理,將文本根據(jù)這些符號(hào)進(jìn)行簡單分句;其次,對(duì)文本中的縮略詞進(jìn)行還原;最后在預(yù)處理的結(jié)果上進(jìn)行文本的詞語校對(duì)。

3.1 文本預(yù)處理

3.2 音節(jié)校對(duì)

藏文音節(jié)校對(duì)采用構(gòu)字規(guī)則約束判斷。首先對(duì)音節(jié)進(jìn)行構(gòu)件拆分識(shí)別,將各個(gè)構(gòu)件以基字為中心拆開,然后通過構(gòu)字規(guī)則的限制條件進(jìn)行約束限制判斷,如果構(gòu)件之間不能滿足限制條件則確定音節(jié)錯(cuò)誤[8]。藏文構(gòu)字規(guī)則約束較多[4],有對(duì)前加字的限制如表3所示。

表3 前加字約束

表4 上加字約束

對(duì)于下加字的添加限制如表5所示。

表5 下加字約束

對(duì)于再后加字的添加限制如表6所示。

表6 再后加字約束

3.3 詞語校對(duì)算法設(shè)計(jì)

校對(duì)算法的設(shè)計(jì)采用的是在前向最大匹配算法的基礎(chǔ)上增加了反向匹配的思想。校對(duì)算法原理如圖3所示。

圖3 詞語校對(duì)算法思想

如圖3中所示,藏文句子words=(a1,a2,a3,…,an-1,an)包含n個(gè)音節(jié)。算法以前向最大匹配算法的基礎(chǔ)上融入了反向匹配的思想,在前向匹配的起止start、end游標(biāo)基礎(chǔ)上增設(shè)front游標(biāo),實(shí)現(xiàn)了前向-后向匹配。算法具體實(shí)現(xiàn)是1)初始化。先賦初值start←0,front←start,end←start;2)校對(duì)控制。start游標(biāo)從0開始以1為單量遞增至n+1則表示當(dāng)前句子校對(duì)結(jié)束;3)前向動(dòng)態(tài)組詞。words[start…end]由start和end組成,end從start開始依次以1為增量遞增,當(dāng)words[start…end]與詞典匹配成功則end遞增結(jié)束并start←end+1,否則依次遞增匹配至n,當(dāng)end為n還尚未匹配成功,則前向匹配失敗并進(jìn)行后向匹配;4)后向動(dòng)態(tài)組詞。words[front…start]由front和start組成,front從start開始依次以1為減量遞減,當(dāng)words[front…start]與詞典匹配成功則front遞減結(jié)束并start←start+1,否則依次遞減匹配至0,當(dāng)front為0還尚未匹配成功,則后向匹配失敗。前后向均匹配失敗,則表示當(dāng)前音節(jié)本身以及至少與下一個(gè)音節(jié)不能組成詞語,作錯(cuò)誤標(biāo)記并進(jìn)行start←start+2。

4 實(shí)驗(yàn)及結(jié)論

實(shí)驗(yàn)程序通過pycharm工具編寫python3.5程序?qū)崿F(xiàn)算法,并對(duì)人工輸入共計(jì)包含28469個(gè)音節(jié)的藏文文本進(jìn)行了校對(duì)測(cè)試。具體實(shí)驗(yàn)步驟如下:1)對(duì)文本預(yù)處理;2)將預(yù)處理的結(jié)果文本以單垂符“?”和雙垂符“??”分句;3)將分句的結(jié)果輸入校對(duì)算法程序進(jìn)行文本校對(duì);4)將算法程序執(zhí)行后返回的校對(duì)結(jié)果輸出到文件中。通過實(shí)驗(yàn)驗(yàn)證,結(jié)果表明該方法下藏文文本的詞語校對(duì)達(dá)到較好的效果,實(shí)現(xiàn)了在不進(jìn)行分詞情況下的詞語校對(duì)。

5 結(jié)語

藏文文本校對(duì)不僅對(duì)藏文信息化處理的研究具有重要意義,而且對(duì)生產(chǎn)生活也具有重要意義。隨著計(jì)算機(jī)技術(shù)和藏文基礎(chǔ)研究的不斷發(fā)展,藏文文本校對(duì)方法將會(huì)得到不斷的改進(jìn)和優(yōu)化,其應(yīng)用領(lǐng)域也將會(huì)越來越廣闊。

猜你喜歡
文本研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側(cè)面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲首页在线观看| 日韩毛片在线视频| 98精品全国免费观看视频| 亚洲欧美日韩另类在线一| 亚洲天堂视频在线播放| 成人国产小视频| 天堂va亚洲va欧美va国产| 99热国产这里只有精品无卡顿"| 69av免费视频| 国产SUV精品一区二区| 日韩精品毛片| 亚洲啪啪网| 久青草国产高清在线视频| 成人在线观看一区| 干中文字幕| 欧美精品影院| 欧美日韩综合网| 中文字幕在线播放不卡| 国产91麻豆视频| 久久精品波多野结衣| 亚洲中文字幕日产无码2021| 精品视频一区二区观看| 国产一区二区在线视频观看| 亚洲天堂区| 久久久亚洲色| 呦系列视频一区二区三区| 国产欧美日韩视频一区二区三区| 亚洲成a人片在线观看88| 久久网综合| 波多野结衣第一页| 精品人妻系列无码专区久久| 亚洲精品成人片在线播放| 免费激情网址| 97青青青国产在线播放| 91精品网站| 天天干天天色综合网| 精品91自产拍在线| 国产免费网址| 久久久久88色偷偷| 天天综合网色| 国产精品福利在线观看无码卡| 亚洲国产午夜精华无码福利| 欧美成人一级| 色爽网免费视频| 成人国产精品2021| 国产喷水视频| 国产www网站| 成人免费一区二区三区| 欧美日韩中文字幕在线| 一本久道久综合久久鬼色| www.国产福利| 午夜电影在线观看国产1区| 亚洲人在线| 国产精品偷伦在线观看| 日本人又色又爽的视频| 国产一区二区视频在线| 婷婷综合缴情亚洲五月伊| 久久精品视频亚洲| 国产精品流白浆在线观看| 国产精品免费电影| 亚洲开心婷婷中文字幕| 欧美日本在线观看| 香蕉蕉亚亚洲aav综合| 亚洲无码高清免费视频亚洲| 香蕉综合在线视频91| 国产综合网站| 波多野结衣视频一区二区| 国产免费a级片| 欧美无专区| 在线观看亚洲天堂| 亚洲欧洲日本在线| 超清无码熟妇人妻AV在线绿巨人 | 国产日产欧美精品| 福利在线一区| 国产日本一区二区三区| 亚洲视频免费在线看| 国产主播在线一区| 色首页AV在线| 中文字幕调教一区二区视频| 伊人久久久久久久| 国产欧美亚洲精品第3页在线| 伊人久久久久久久|