藏文文本錯誤檢錯系統的設計與實現

2022-03-21 07:25:48西藏大學劉澤軍楊士偉

數字技術與應用 2022年2期

西藏大學劉澤軍楊士偉

隨著信息技術的蓬勃發展，自然語言處理已經成為了熱門話題。目前，中文、英文的分詞方法也已經較為成熟。隨著國家對少數民族地區文化的支持，越來越多的學者也對少數民族地區的文化保護做出了貢獻。本文立足于藏文的信息化，設計制作了藏文文本錯誤檢錯系統，運用了Python、HTML5、JavaScript等。

當處理大量的數據文本時，若采用人工檢測，會消耗大量的人力、物力與財力，且大量數據帶來的疲勞感還將大大降低檢錯的效率。為此，我們開發了藏文文本錯誤檢錯系統，將檢錯成本盡可能的減至最低的此同時提升了檢錯的效率，性價比較高，方便可實行。后期做進一步的優化，還可將其設計為一款小程序，方便又快捷。此外，在Word等App中輸入漢字或者英文時，系統會自動檢錯，并在出錯的位置標紅提示用戶，但到目前為止，藏文在這一塊的功能還比較缺乏，這也是我們此次設計的創新點。

使用的自然語言不同，所產生的文本錯誤也不相同，因為每一種語言在單位及組織結構上各有特點。就拿漢字和英文來看，英文以空格作為詞的顯式邊界字符，而中文則較為復雜。(1)由于中文沒有特定的符號顯示邊界，分割的依據必須是語義。有些漢字本身具有獨立的含義，有些字則無任何含義，只有與其他漢字結合才能表達一定的含義。因此，在對中文文本進行分析前一般先做自動分詞，為漢字串添加顯示標識符。(2)因為漢語字符集是大字符集，它包含超過6700個漢字，這給漢語的處理帶來了困難，因為許多對英文很有效的語言處理技術在中文處理中不適用。(3)漢字進入計算機的方式不同。在用鍵盤將信息鍵入計算機的過程當中，英語單詞是一個字母、一個字母地被錄入計算機，而由于中文字符只能以一種特殊的編碼方式存儲于計算機中，因此漢字符的錄入也只能借助于漢字編碼。錄入員在鍵盤上鍵入的是漢字編碼而不是漢字符本身，在將輸入結果反饋給用戶時，計算機系統需根據編碼轉換規則將漢字的編碼形式轉換回它的原始字形輸出給用戶。可見這種輸入方式使得漢字在計算機內不存在字形上的錯誤，即不存在類似于英語中的單詞內部的拼寫錯誤。

1 需求分析

藏文文本檢錯是藏文文本校對的重要環節。藏文真詞檢錯是藏文文本校對研究的重點和難點,也是藏文信息處理技術的基礎工作。經過對現代藏文音節字分析，將藏文音節字分為規則音節字（遵循組件組合規則的藏文音節字）和不規則音節字（不遵循組件組合規則的音節字）兩種。對規則音節字采用了音節字組件組合規則進行檢錯，對非規則音節字則采用建立梵源藏文詞典、音譯藏文詞典和本體非規則音節字詞典進行檢錯。根據我們的項目研究課題，我們需要做一個檢錯系統，且是整個文本的檢錯并標注錯誤信息，所以我們必須要有的功能是：(1)傳入傳出文本；(2)標注錯誤信息；(3)HTML界面可視化操作。

2 開發環境

我們的后端使用的是Python語言。選擇此語言的原因有三點：(1)Python語言的語法非常簡潔明了，即便是非計算機專業的初學者，也很容易上手；(2)與其他編程語言相比，實現同一個功能，Python語言的實現代碼往往是最短的；(3)在處理自然語言上，Python具有很大的優勢。

前端語言我們使用了HTML5。HTML5是構建Web內容的一種語言描述方式。HTML5是互聯網的下一代標準，是構建以及呈現互聯網內容的一種語言方式，被認為是互聯網的核心技術之一。HTML5是Web中核心語言HTML的規范，用戶使用任何手段進行網頁瀏覽時看到的內容原本都是HTML格式的，在瀏覽器中通過一些技術處理將其轉換成為了可識別的信息。

連接前端后端我們使用了JavaScript。JavaScript（簡稱“JS”）是一種具有函數優先的輕量級，解釋型或即時編譯型的編程語言。雖然它是作為開發Web頁面的腳本語言而出名的，但是它也被用到了很多非瀏覽器環境中，JavaScript基于原型編程、多范式的動態腳本語言，并且支持面向對象、命令式和聲明式（如函數式編程）風格。

語言調用庫：resource.txt。

3 藏文字一般結構

藏文字一般最多由七個構件構成，如圖1所示。即藏文字的基本結構為[前加字+][上加字+]基字[+下加字]元音[+后加字][+再后加字]。如果把組合構件看成一個構件，則一個藏文字最多由四個構件構成，如圖2所示，組合構件最多含一個，即藏文字的基本結構為[前加字+]基字/組合構件[+后加字][+再后加字]，其中基字或組合必須存在。

圖1 藏文字七個構件結構Fig.1 The structure of seven components of Tibetan characters

圖2 藏文字四個構件結構Fig.2 The structure of the four components of Tibetan characters

由于組合構件可數且規模不大，因此通過建立組合構件庫可將組合構件分解為基本構件。組合構件庫由組合構件字、基字序號、元音字母序號、上加字序號和下加字序號等組成，用于存放相應的組合構件及構成組合構件的序號。組合構件字字段中存放組合構件字，元音字母序號字段表示該組合構件是否含元音或所含元音，基字序號字段以自然序列存放30個基字，上加字序號字段表示該組合構件是否含上加字或所含上加字，下加字序號字段表示該組合構件是否含下加字或所含下加字，用不同的序號表示不同的基字、元音、上加字、下加字。

4 功能實現

4.1 后端實現

后端我們采用的是Python語言，Python語言有著開發周期短、可移植性、可拓展性等優點，快速開發、后期還可移植到小程序、App上，符合我們的研究意義。

實現后端主要考慮以下幾個問題：a.如何給傳入文章中的藏字切段

傳入文章后,我們首先讓文件進入TibetanDocu mentProcessing.py程序中，讓所有字段匹配所有的Unicode字符集：

parttern1匹配所有藏文字符[u0f00-u0fff]

parttern2匹配所有全角字符[u0f20-u0f29]

parttern3匹配所有特殊字符'》|）|'|'

然后我們考慮把所有特殊和全角字符用“d”替代以方便我們查找文字。然后我們就能把所有的藏文轉化為可分析的藏文字段。

對于有加字的情況，我們利用藏文Unicode編碼的規則來取有加字的基字，具體代碼如圖3所示：

圖3 代碼Fig.3 Code

然后具體再判斷元音、上加字、前加字、基字、下加字、再后加字的各種情況，代碼忽略，不再一一贅述。

b.如何匹配字庫判斷錯誤

根據藏文的所有藏字組合規則，我們建了一個標準字庫resource.txt里面包括所有符合規則的藏字，我們會把所有的傳入文件并進行分割的字傳入進行匹配，將長度不足7的字，用空格補全到長度為7，然后一一判斷基字、上加字、前加字、下加字、元音、后加字、再后加字，最后返回ture/false，從而實現匹配字庫檢驗錯誤。

4.2 前端實現

前端我們設計了網頁，能有主要的傳入傳出文件，顯示錯誤字段信息的功能就好，后期再優化一下布局。

最后頁面成品如圖4所示。

圖4 界面Fig.4 Interface

4.3 算法分析

我們的關鍵算法是如何分割藏字和如何匹配字庫判斷錯誤，藏文字符的長度是構成該藏文字的構件的多少。如：一個構件構成的藏文字符長度為一，兩個構件構成的藏文字符長度為二等以此類推。現代藏文字符最長由7個構件構成。在判斷現代藏文字符的具體構件時，首先根據藏字長度將藏文字符分為7大類，然后每一類按照藏文從左到右，從上到下的書寫順序進行匹配，也就是構件進行識別。

算法實現：字符長度為1的藏文構件識別為基字。字符長度為2的藏文構件形式有4種，分別為：基字+元音，基字+后加字，上加字+基字，基字+下加字。字符長度為3的藏文構件形式有12種，分別為：前加字+基字+后加字，前加字+基字+元音，前加字+上加字+基字，前加字+基字+下加字，上加字+基字+元音，上加字+基字+下加字，基字+下加字+再下加字，上加字+基字+后加字，基字+下加字+ 元音，基字+下加字+元音，基字+下加字+后加字，基字+元音+后加字，基字+后加字+再后加字。字符長度為4的藏文構件形式有14種，分別為：前加字+上加字+基字+元音，前加字+基字+下加字+元音，前加字+基字+元音+后加字，前加字+上加字+基字+下加字，前加字+上加字+ 基字+后加字，前加字+基字+下加字+后加字，前加字+基字+后加字+再后加字，上加字+基字+下加字+元音，上加字+基字+元音+后加字，上加字+基字+下加字+后加字，上加字+基字+后加字+再后加字，基字+元音+后加字+再后加字，基字+下加字+元音+后加字，基字+下加字+后加字+再后加字。字符長度為5的藏文構件形式有10種，分別為：前加字+上加字+基字+下加字+元音，前加字+上加字+基字+下加字+后加字，前加字+上加字+基字+元音+后加字，前加字+上加字+基字+后加字+再后加字，前加字+基字+下加字+元音+后加字，前加字+基字+下加字+后加字+再后加字，上加字+基字+下加字+元音+后加字，上加字+基字+下加字+后加字+再后加字，上加字+基字+元音+后加字+再后加字，基字+下加字+元音+后加字+再后加字，具體識別結果如下：字符長度為6的藏文構件形式有5種，分別為：前加字+上加字+基字+下加字+元音+后加字，前加字+基字+下加字+元音+后加字+再后加字，前加字+上加字+基字+元音+后加字+再后加字，前加字+上加字+基字+下加字+后加字+再后加字，上加字+基字+下加字+元音+后加字+再后加字。字符長度為7的藏文構件形式只有1種，是前加字+上加字+基字+元音+后加字+再后加字。流程圖如圖5所示：

圖5 流程圖Fig.5 Flow chart

5 結果分析

圖6為我們的登陸界面，圖7為我們上傳文件的操作，圖8為識別到文檔中的文字，圖9為文字進行檢錯后的結果顯示。

圖6 登錄藏文處理平臺Fig.6 Logging in to the Tibetan language processing platform

圖7 選擇藏文文件Fig.7 Select Tibetan file

圖8 開始檢測Fig.8 Start detection

圖9 導出檢測結果Fig.9 Export test results

6 結語

此系統已經能夠實現我們想要達到的效果，后期我們還可以對界面進行美化以及增加一些其他功能使系統更加完善，同時也可以進一步進行小程序和App的開發。