王福釗周 雁
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 拉薩850000)(2.北京理工大學(xué)珠海學(xué)院計(jì)算機(jī)學(xué)院 珠海519000)
文本校對(duì)是較為復(fù)雜的自然語言處理過程,也是自然語言處理中最為重要的關(guān)鍵一步。漢英文本校對(duì)研究起步較早,目前也已經(jīng)取得了較好的成果。藏文信息處理研究起始于21世紀(jì)初,其起步晚,研究資源短缺,研究進(jìn)展緩慢[1]。藏文文本校對(duì)占據(jù)了藏文信息處理的重要位置,是進(jìn)行藏文自動(dòng)分詞、文本語義分析、語料庫建設(shè)等的基礎(chǔ),具有極其重要的基礎(chǔ)性意義[2]。藏文文本校對(duì)是一項(xiàng)較為復(fù)雜的工作,其包括音節(jié)校對(duì)、梵音轉(zhuǎn)寫校對(duì)、詞語校對(duì)、接續(xù)關(guān)系校對(duì)以及語法校對(duì)[3]。隨著計(jì)算機(jī)的不斷應(yīng)用普及,對(duì)藏文信息化的要求也越來越高。簡單來看,當(dāng)我們?cè)谟?jì)算機(jī)中進(jìn)行藏文文本的錄入時(shí)就可能存在錯(cuò)誤,可能出現(xiàn)音節(jié)拼寫上的錯(cuò)誤或詞法、句法上的錯(cuò)誤等,這些錯(cuò)誤都將嚴(yán)重影響之后的文本處理。因此在我們的生產(chǎn)生活科研中對(duì)藏文文本的校對(duì)就顯得格外重要。在過去的十多年里,一些科研機(jī)構(gòu)對(duì)藏文文本的校對(duì)進(jìn)行了研究,大多是對(duì)藏文音節(jié)和詞接續(xù)關(guān)系的研究[1~3]。本次研究的對(duì)象是藏文文本中的詞語校對(duì)方法研究,并采用最大匹配算法的思想在不進(jìn)行分詞的情況下實(shí)現(xiàn)了藏文文本的詞語校對(duì)。
藏文創(chuàng)造于吐蕃松贊干布時(shí)期,屬于藏漢語系語言。藏文同是拼音型文字,其拼寫為一體,即書寫和拼讀皆通過30個(gè)輔音字母和5個(gè)元音字母(其中?a為省略不寫)構(gòu)成[4]。藏文的輔音和元音字母如表1,2所示。

表1 藏文輔音字母

表2 藏文元音字母
藏文字形結(jié)構(gòu)是縱橫疊加的平面結(jié)構(gòu),其以基字(一個(gè)輔音字母)為核心。現(xiàn)代藏字包括一般結(jié)構(gòu)和特殊結(jié)構(gòu)。在一般結(jié)構(gòu)中,藏字至少由一個(gè)輔音字母組成,最多可由七個(gè)字母組成[4]。藏字一般結(jié)構(gòu)如圖1所示。

圖1 藏字一般結(jié)構(gòu)

根據(jù)藏文文本中可能出現(xiàn)的錯(cuò)誤情況進(jìn)行校對(duì)分類,共分為五類。具體如下。
1)藏文音節(jié)校對(duì)。主要是從藏文字的構(gòu)字規(guī)則出發(fā)對(duì)音節(jié)的組成進(jìn)行檢查。例如,藏字

藏文文本的詞語校對(duì)方法主要有機(jī)器學(xué)習(xí)的詞網(wǎng)絡(luò)匹配方法和詞典匹配兩種方法。基于詞典匹配的詞校對(duì)方法是簡單而方便的詞校對(duì)方法,之前的研究中大多通過文本分詞,再進(jìn)行詞典的匹配方式實(shí)現(xiàn)詞校對(duì)。現(xiàn)將使用動(dòng)態(tài)組詞并匹配的方式實(shí)現(xiàn)詞語校對(duì)。藏文文本詞語校對(duì)原理圖如圖2所示。

圖2 藏文文本詞語校對(duì)原理
藏文文本進(jìn)行預(yù)處理。首先,將其中的非藏文特殊字符,如逗號(hào)、冒號(hào)、引號(hào)等進(jìn)行處理,將文本根據(jù)這些符號(hào)進(jìn)行簡單分句;其次,對(duì)文本中的縮略詞進(jìn)行還原;最后在預(yù)處理的結(jié)果上進(jìn)行文本的詞語校對(duì)。

藏文音節(jié)校對(duì)采用構(gòu)字規(guī)則約束判斷。首先對(duì)音節(jié)進(jìn)行構(gòu)件拆分識(shí)別,將各個(gè)構(gòu)件以基字為中心拆開,然后通過構(gòu)字規(guī)則的限制條件進(jìn)行約束限制判斷,如果構(gòu)件之間不能滿足限制條件則確定音節(jié)錯(cuò)誤[8]。藏文構(gòu)字規(guī)則約束較多[4],有對(duì)前加字的限制如表3所示。

表3 前加字約束


表4 上加字約束
對(duì)于下加字的添加限制如表5所示。

表5 下加字約束
對(duì)于再后加字的添加限制如表6所示。

表6 再后加字約束

校對(duì)算法的設(shè)計(jì)采用的是在前向最大匹配算法的基礎(chǔ)上增加了反向匹配的思想。校對(duì)算法原理如圖3所示。

圖3 詞語校對(duì)算法思想
如圖3中所示,藏文句子words=(a1,a2,a3,…,an-1,an)包含n個(gè)音節(jié)。算法以前向最大匹配算法的基礎(chǔ)上融入了反向匹配的思想,在前向匹配的起止start、end游標(biāo)基礎(chǔ)上增設(shè)front游標(biāo),實(shí)現(xiàn)了前向-后向匹配。算法具體實(shí)現(xiàn)是1)初始化。先賦初值start←0,front←start,end←start;2)校對(duì)控制。start游標(biāo)從0開始以1為單量遞增至n+1則表示當(dāng)前句子校對(duì)結(jié)束;3)前向動(dòng)態(tài)組詞。words[start…end]由start和end組成,end從start開始依次以1為增量遞增,當(dāng)words[start…end]與詞典匹配成功則end遞增結(jié)束并start←end+1,否則依次遞增匹配至n,當(dāng)end為n還尚未匹配成功,則前向匹配失敗并進(jìn)行后向匹配;4)后向動(dòng)態(tài)組詞。words[front…start]由front和start組成,front從start開始依次以1為減量遞減,當(dāng)words[front…start]與詞典匹配成功則front遞減結(jié)束并start←start+1,否則依次遞減匹配至0,當(dāng)front為0還尚未匹配成功,則后向匹配失敗。前后向均匹配失敗,則表示當(dāng)前音節(jié)本身以及至少與下一個(gè)音節(jié)不能組成詞語,作錯(cuò)誤標(biāo)記并進(jìn)行start←start+2。
實(shí)驗(yàn)程序通過pycharm工具編寫python3.5程序?qū)崿F(xiàn)算法,并對(duì)人工輸入共計(jì)包含28469個(gè)音節(jié)的藏文文本進(jìn)行了校對(duì)測(cè)試。具體實(shí)驗(yàn)步驟如下:1)對(duì)文本預(yù)處理;2)將預(yù)處理的結(jié)果文本以單垂符“?”和雙垂符“??”分句;3)將分句的結(jié)果輸入校對(duì)算法程序進(jìn)行文本校對(duì);4)將算法程序執(zhí)行后返回的校對(duì)結(jié)果輸出到文件中。通過實(shí)驗(yàn)驗(yàn)證,結(jié)果表明該方法下藏文文本的詞語校對(duì)達(dá)到較好的效果,實(shí)現(xiàn)了在不進(jìn)行分詞情況下的詞語校對(duì)。
藏文文本校對(duì)不僅對(duì)藏文信息化處理的研究具有重要意義,而且對(duì)生產(chǎn)生活也具有重要意義。隨著計(jì)算機(jī)技術(shù)和藏文基礎(chǔ)研究的不斷發(fā)展,藏文文本校對(duì)方法將會(huì)得到不斷的改進(jìn)和優(yōu)化,其應(yīng)用領(lǐng)域也將會(huì)越來越廣闊。