基于匹配算法的藏文文本詞語校對(duì)研究?

2021-08-08 11:14:00王福釗周

計(jì)算機(jī)與數(shù)字工程 2021年7期

關(guān)鍵詞：文本研究

王福釗周雁

（1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院拉薩850000）（2.北京理工大學(xué)珠海學(xué)院計(jì)算機(jī)學(xué)院珠海519000）

1 引言

文本校對(duì)是較為復(fù)雜的自然語言處理過程，也是自然語言處理中最為重要的關(guān)鍵一步。漢英文本校對(duì)研究起步較早，目前也已經(jīng)取得了較好的成果。藏文信息處理研究起始于21世紀(jì)初，其起步晚，研究資源短缺，研究進(jìn)展緩慢［1］。藏文文本校對(duì)占據(jù)了藏文信息處理的重要位置，是進(jìn)行藏文自動(dòng)分詞、文本語義分析、語料庫建設(shè)等的基礎(chǔ)，具有極其重要的基礎(chǔ)性意義［2］。藏文文本校對(duì)是一項(xiàng)較為復(fù)雜的工作，其包括音節(jié)校對(duì)、梵音轉(zhuǎn)寫校對(duì)、詞語校對(duì)、接續(xù)關(guān)系校對(duì)以及語法校對(duì)［3］。隨著計(jì)算機(jī)的不斷應(yīng)用普及，對(duì)藏文信息化的要求也越來越高。簡單來看，當(dāng)我們?cè)谟?jì)算機(jī)中進(jìn)行藏文文本的錄入時(shí)就可能存在錯(cuò)誤，可能出現(xiàn)音節(jié)拼寫上的錯(cuò)誤或詞法、句法上的錯(cuò)誤等，這些錯(cuò)誤都將嚴(yán)重影響之后的文本處理。因此在我們的生產(chǎn)生活科研中對(duì)藏文文本的校對(duì)就顯得格外重要。在過去的十多年里，一些科研機(jī)構(gòu)對(duì)藏文文本的校對(duì)進(jìn)行了研究，大多是對(duì)藏文音節(jié)和詞接續(xù)關(guān)系的研究［1~3］。本次研究的對(duì)象是藏文文本中的詞語校對(duì)方法研究，并采用最大匹配算法的思想在不進(jìn)行分詞的情況下實(shí)現(xiàn)了藏文文本的詞語校對(duì)。

2 研究基礎(chǔ)

2.1 藏文基本結(jié)構(gòu)

藏文創(chuàng)造于吐蕃松贊干布時(shí)期，屬于藏漢語系語言。藏文同是拼音型文字，其拼寫為一體，即書寫和拼讀皆通過30個(gè)輔音字母和5個(gè)元音字母（其中?a為省略不寫）構(gòu)成［4］。藏文的輔音和元音字母如表1，2所示。

表1 藏文輔音字母

表2 藏文元音字母

藏文字形結(jié)構(gòu)是縱橫疊加的平面結(jié)構(gòu)，其以基字（一個(gè)輔音字母）為核心。現(xiàn)代藏字包括一般結(jié)構(gòu)和特殊結(jié)構(gòu)。在一般結(jié)構(gòu)中，藏字至少由一個(gè)輔音字母組成，最多可由七個(gè)字母組成［4］。藏字一般結(jié)構(gòu)如圖1所示。

圖1 藏字一般結(jié)構(gòu)

2.2 藏文文本校對(duì)類型

根據(jù)藏文文本中可能出現(xiàn)的錯(cuò)誤情況進(jìn)行校對(duì)分類，共分為五類。具體如下。

1）藏文音節(jié)校對(duì)。主要是從藏文字的構(gòu)字規(guī)則出發(fā)對(duì)音節(jié)的組成進(jìn)行檢查。例如，藏字

3 藏文文本詞語校對(duì)

藏文文本的詞語校對(duì)方法主要有機(jī)器學(xué)習(xí)的詞網(wǎng)絡(luò)匹配方法和詞典匹配兩種方法。基于詞典匹配的詞校對(duì)方法是簡單而方便的詞校對(duì)方法，之前的研究中大多通過文本分詞，再進(jìn)行詞典的匹配方式實(shí)現(xiàn)詞校對(duì)。現(xiàn)將使用動(dòng)態(tài)組詞并匹配的方式實(shí)現(xiàn)詞語校對(duì)。藏文文本詞語校對(duì)原理圖如圖2所示。

圖2 藏文文本詞語校對(duì)原理

藏文文本進(jìn)行預(yù)處理。首先，將其中的非藏文特殊字符，如逗號(hào)、冒號(hào)、引號(hào)等進(jìn)行處理，將文本根據(jù)這些符號(hào)進(jìn)行簡單分句；其次，對(duì)文本中的縮略詞進(jìn)行還原；最后在預(yù)處理的結(jié)果上進(jìn)行文本的詞語校對(duì)。

3.1 文本預(yù)處理

3.2 音節(jié)校對(duì)

藏文音節(jié)校對(duì)采用構(gòu)字規(guī)則約束判斷。首先對(duì)音節(jié)進(jìn)行構(gòu)件拆分識(shí)別，將各個(gè)構(gòu)件以基字為中心拆開，然后通過構(gòu)字規(guī)則的限制條件進(jìn)行約束限制判斷，如果構(gòu)件之間不能滿足限制條件則確定音節(jié)錯(cuò)誤［8］。藏文構(gòu)字規(guī)則約束較多［4］，有對(duì)前加字的限制如表3所示。

表3 前加字約束

表4 上加字約束

對(duì)于下加字的添加限制如表5所示。

表5 下加字約束

對(duì)于再后加字的添加限制如表6所示。

表6 再后加字約束

3.3 詞語校對(duì)算法設(shè)計(jì)

校對(duì)算法的設(shè)計(jì)采用的是在前向最大匹配算法的基礎(chǔ)上增加了反向匹配的思想。校對(duì)算法原理如圖3所示。

圖3 詞語校對(duì)算法思想

如圖3中所示，藏文句子words=（a1，a2，a3，…，an-1，an）包含n個(gè)音節(jié)。算法以前向最大匹配算法的基礎(chǔ)上融入了反向匹配的思想，在前向匹配的起止start、end游標(biāo)基礎(chǔ)上增設(shè)front游標(biāo)，實(shí)現(xiàn)了前向-后向匹配。算法具體實(shí)現(xiàn)是1）初始化。先賦初值start←0，front←start，end←start；2）校對(duì)控制。start游標(biāo)從0開始以1為單量遞增至n+1則表示當(dāng)前句子校對(duì)結(jié)束；3）前向動(dòng)態(tài)組詞。words［start…end］由start和end組成，end從start開始依次以1為增量遞增，當(dāng)words［start…end］與詞典匹配成功則end遞增結(jié)束并start←end+1，否則依次遞增匹配至n，當(dāng)end為n還尚未匹配成功，則前向匹配失敗并進(jìn)行后向匹配；4）后向動(dòng)態(tài)組詞。words［front…start］由front和start組成，front從start開始依次以1為減量遞減，當(dāng)words［front…start］與詞典匹配成功則front遞減結(jié)束并start←start+1，否則依次遞減匹配至0，當(dāng)front為0還尚未匹配成功，則后向匹配失敗。前后向均匹配失敗，則表示當(dāng)前音節(jié)本身以及至少與下一個(gè)音節(jié)不能組成詞語，作錯(cuò)誤標(biāo)記并進(jìn)行start←start+2。

4 實(shí)驗(yàn)及結(jié)論

實(shí)驗(yàn)程序通過pycharm工具編寫python3.5程序?qū)崿F(xiàn)算法，并對(duì)人工輸入共計(jì)包含28469個(gè)音節(jié)的藏文文本進(jìn)行了校對(duì)測(cè)試。具體實(shí)驗(yàn)步驟如下：1）對(duì)文本預(yù)處理；2）將預(yù)處理的結(jié)果文本以單垂符“?”和雙垂符“??”分句；3）將分句的結(jié)果輸入校對(duì)算法程序進(jìn)行文本校對(duì)；4）將算法程序執(zhí)行后返回的校對(duì)結(jié)果輸出到文件中。通過實(shí)驗(yàn)驗(yàn)證，結(jié)果表明該方法下藏文文本的詞語校對(duì)達(dá)到較好的效果，實(shí)現(xiàn)了在不進(jìn)行分詞情況下的詞語校對(duì)。

5 結(jié)語

藏文文本校對(duì)不僅對(duì)藏文信息化處理的研究具有重要意義，而且對(duì)生產(chǎn)生活也具有重要意義。隨著計(jì)算機(jī)技術(shù)和藏文基礎(chǔ)研究的不斷發(fā)展，藏文文本校對(duì)方法將會(huì)得到不斷的改進(jìn)和優(yōu)化，其應(yīng)用領(lǐng)域也將會(huì)越來越廣闊。