拉丁化維吾爾文字特征及其基于規則的正規化

2016-05-04 01:15:40賽牙熱依馬木于斯音于蘇普阿不都薩拉木達吾提

中文信息學報 2016年3期

賽牙熱·依馬木，于斯音·于蘇普，阿不都薩拉木·達吾提

(1. 新疆大學政治與公共管理學院，新疆烏魯木齊 830046；2. 新疆大學信息科學與工程學院，新疆烏魯木齊 830046;3. 新疆大學軟件學院，新疆烏魯木齊 830046)

賽牙熱·依馬木1，于斯音·于蘇普2，阿不都薩拉木·達吾提3

結合網絡上流通的拉丁化維吾爾文字特征，以拉丁化維吾爾文單詞作為研究單位，首先，通過大規模文本語料庫建立了固定詞庫、詞首字母序列庫、詞尾字母序列庫以及特殊詞庫等正規化規則庫。然后，利用維吾爾單詞中的字母序列結構特征和相鄰字母上下文信息進行了拉丁化維吾爾文的正規化，同時引用最小編輯距離的方法進一步提高了正規化正確率，并用Visual C# 編程工具實現了基于規則的拉丁化維吾爾文的正規化算法。最后，給出了實驗結果，并分析了結果不佳的原因及相應的對策。

維吾爾語；拉丁化維吾爾文；正規化；規則庫；最小編輯距離；文字轉寫

前言

拉丁化維吾爾文的正規化(Normalization of Latinized Uyghur Character,NLU)已經成為在文本信息處理和拉丁化維吾爾文的規范化工作中迫切需要解決的重要任務之一。由于正在使用的拉丁化維吾爾文的書寫不統一，盡管國家和新疆維吾爾自治區頒布制定了維吾爾拉丁化規范標準，但實際應用中還是存在拉丁化維吾爾文的混用現象。例如，“naga mangding”(往哪里走？)，“man”(我)，“adam”(人)”正規化之后“nege maNdiN，men，adem”等。這使得拉丁化維吾爾文的規范需要進一步正規化。其目的是從拉丁化維吾爾文文本中準確地識別出每個單詞規范化的書寫形式。目前，隨著少數民族文字信息技術的開發與發展，維吾爾文已經實現了信息處理技術的應用。在這個過程中，國家和自治區相繼制定頒布了維吾爾文信息處理方面的相關標準，包括信息交換用三項國家標準、ISO/IEC 10646國際編碼字符集標準和國家標準、字體字形規范標準、界面術語使用標準等，有力地推進了維吾爾文信息處理技術朝著標準化規范化方向發展[1]。

近幾年來，維吾爾文到拉丁化維吾爾文的轉寫研究受到高度重視，且頗有成效。例如，基于國際編碼系統的維吾爾文拉丁文轉寫規則研究[1]，維吾爾文拉丁化方案及其轉寫規則[2]，古維吾爾文(察合臺文)文獻數字化整理系統中轉寫技術研究[3]等。在這些研究過程中，使用的主要轉寫方法是維吾爾文字母與拉丁文字母之間一一對應關系，例如，文獻[1]中使用維吾爾文與拉丁文相互轉換的字符對應表，或使用現代維吾爾文字母轉寫符號的定位(如文獻[3])等。此外，藏文到拉丁文的轉寫方面也有良好的研究成果，例如，Linux系統藏文拉丁文轉寫輸入法的實現[4]，現代藏文與拉丁文字母雙向轉寫的規則與實現[5]等。

至今，雖然國家和自治區主管部門研究制定維吾爾文的拉丁文轉寫標準及方案，但是一方面該方案中有些字母的鍵入較難，例如，?，ü，?等；另一方面，因為廣大用戶還沒有熟悉該方案中所提到的轉寫規范，因而就按照自己習慣的方式去書寫拉丁化維吾爾文，例如，“man bir adam”(我是一個人)應該寫“men bir adem”(我是一個人)；“u kaldi”(他來了)應該寫“u keldi”(他來了)等。經過研究發現，在互聯網應用領域中拉丁化維吾爾文的書寫形式不規范的問題占絕大比例。所以研究拉丁化維吾爾文的規范化，不僅是當前信息技術發展的新需求和國際間信息交換的需要，也是在維吾爾文本信息處理過程中文字的規范化、標準化工作的前提。一方面，只有通過拉丁化維吾爾文的正規化，才能有效地提高拉丁化維吾爾文規范化的普及程度；另一方面，解決國際間信息的順利交換共同實現互聯互通、信息、資源的共享。

值得注意的是，關于以上所描述的情況而言，一直到現在沒人去研究這些問題。也就是說，拉丁化維吾爾文的正規化研究仍在拉丁化維吾爾文研究中是個空白的研究領域之一。

綜上所述，在拉丁化維吾爾文的正規化方面的研究還處于剛剛起步和摸索階段。從事這方面研究的人員還不多，公開發表的論文也極少。此外，隨著時代的發展、信息化速度加快、外來詞的沖擊和拉丁化維吾爾文的按照個人習慣的方式去書寫，原有的拉丁化維吾爾文規范化標準也被破壞。由于每個人的輸入方式千變萬化，故[a]、[k]、[h]等字母的正規化任務是很難實現的。因此，我們在拉丁化維吾爾文的正規化過程中，以維吾爾文拉丁化方案為出發點，進行基于規則的拉丁化維吾爾文的正規化方法的初步探討。

1 拉丁化維吾爾文字轉寫及其特點

維吾爾文到拉丁文的轉寫，簡稱“拉丁化維吾爾文的轉寫”。主要是利用維吾爾文與拉丁文之間的字母對應關系，對語料中的文字進行拉丁化維吾爾文轉寫操作。因此，它是拉丁化維吾爾文的正規化過程中必不可少的一個環節。

1.1 拉丁化維吾爾文字轉寫相關定義

定義1 字母轉寫: 是指在不必理解詞、句語義的情況下，按照讀音將一種文字符號映射為另外一種文字符號的方法[6]。本文中指老維吾爾文字母與拉丁化維吾爾文字母之間的一對一映射關系。

定義2 維吾爾文拉丁化：是指將老維吾爾文字母轉寫成對應的拉丁文字母的過程。

1.2 維吾爾文的特點

維吾爾語是我國新疆地區維吾爾民族的常用語言，它屬于阿爾泰語系突厥語族西匈語支的黏著性語言。現行維吾爾文由32個音素(其中有8個元音和24個輔音)組成，并且無大小寫區分；典型地，從右到左方向書寫；詞是由一個或多個音素組成；句子是由一個或多個詞組成，且詞與詞之間通常用標點符號或空格來隔開；由于維吾爾語的構詞、構形都是通過在詞干后面按照一定的規則可以不斷地鏈接不同的詞綴或詞尾，因此維吾爾語的形態變化非常豐富而且復雜。也就是說，一個詞干就可以生成很多不同的詞，如表1列出從同一個詞干“oqu”(讀)構建出來的幾種不同的詞。

表1 同一個詞干構建的8個單詞列表

從表1中可以看出，維吾爾語的形態變化導致詞的數量巨大。因此，在維吾爾文相關的很多研究工作中，為了節省存儲空間和提高效率事先考慮進行提取詞干是最佳的選擇。

1.3 拉丁化維吾爾文的特點

拉丁化維吾爾文的書寫方向與維吾爾文相反，且具有大小寫區分。盡管拉丁化維吾爾文有大小寫區分，但是每個字母的讀音始終不變。所以拉丁化維吾爾文的書寫與編輯操作基本上可以采用與英文同樣的方法進行處理。當使用拉丁化維吾爾文書寫時，既可以全部小寫，又可以全部大寫。不過，一般的情況下，在拉丁化維吾爾文文本中句子首字母的書寫要求為大寫，例如，“Ubizning muellim”(他是我們的老師)等；地名、人名、機構單位名稱既可以首字母為大寫，又可以全部字母為大寫，如人名: “Alim 或ALIM”(阿力木)；專用名詞的首字母為大寫，例如，“Shinjang”(新疆)；國際單位、略語、商品名稱書寫時按原文讀寫，例如，MTV、DVD、Volt、Microsoft等。

此外，由于拉丁化維吾爾文以英文中26個字母為基礎，這些字母不夠用來表達拉丁化維吾爾文中的32個字母。因此，不能避免有些拉丁化維吾爾文字母采用英文中兩個字母的結合形式來表達拉丁化維吾爾文中一個字母的現象。下面將會介紹這些結合形式的字母。

1.4 拉丁化方案及其中拼寫規則簡介

現行維吾爾語是維吾爾族人民群眾的主要交際工具，也是新疆通用的語言。近年來，隨著互聯網與通信技術的迅速發展、計算機信息技術的日益更新，在日常社交溝通中拉丁化維吾爾文的實用方面也有了一些難以置信的變化。即目前大量出現了在日常社會交流溝通中會說漢語并使用中文的維吾爾族人(其中大部分都是在城市里的維吾爾族知識分子，他們能使用多種語言文字，如維吾爾文、拉丁化維吾爾文等)。因此，在社交活動中以漢語拼音為主的拉丁化維吾爾文字逐漸成為維吾爾知識分子的主要走向趨勢。針對這種新趨勢，2008年新疆維吾爾自治區民族語言文字工作委員會研究中心，一方面為了不斷滿足各族人民群眾日益增長的物質文化需求；另一方面為了提升語言文字的表達能力和適應目前語言文字的社會要求；更重要的是為了正確運用語言文字、豐富語言文字內容、開拓語言文字新領域，通過廣大語言文字工作者的共同努力，最終簽定通過了《維吾爾文拉丁化方案》。該方案中提出的老維吾爾文字母與拉丁文字母對照關系如表2所示。

表2 維吾爾文的拉丁化方案對照表

由表2可以看出，在正規化過程中[h]和[H]表示不同而寫的兩個字母；維吾爾文字母和拉丁化文字字母是相互對應的；這種拉丁化的維吾爾文字母與英文和中文的書寫方向相同，都是自左到右書寫；共有32個字母，其中有八個元音字母(其中三個元音字母(? ü Ё)的書寫比較特殊因而目前的使用比率幾乎為零),有24個輔音字母(其中五個輔音字母(Sh,Ch,Zh,Gh,Ng)分別是由兩個獨立輔音字母的結合形式組成的)。此外，一個維吾爾文字母同時對應大寫和小寫的一個拉丁化字母。

該方案中還提出了維吾爾文拉丁化的基本拼寫規則。這些規則不是本文探討的目標，所以，在此不再作詳細介紹。

2 拉丁化維吾爾文的正規化規則收集

在文本信息處理領域中，規則方法是一種重要的方法。本文根據字串本身特征以及其上下文語境，通過對大量的真實語料進行多次識別，并對識別結果進行深入分析和研究，總結出了發生錯誤的規律與相應的正規化規則。

2.1 拉丁化維吾爾文書寫不一致性分析

實際上，因日常社會交流溝通不斷地增強和互聯網的普及，在進行維吾爾文字操作過程中，致使同一個字母的拉丁化維吾爾文的書寫形式出現迥然不同現象。甚至，有時導致詞義轉變的現象。例如，

A: manmaktapka bargan.含義是: 我去過學校。

B: man maktapka barghan.含義是: 我去過學校。

在以上的兩個句子中，單詞“去過”(bargan/barghan)的書寫有兩種不同的書寫形式。因此，單詞“去過”存在不一致，并且表示相同的意義。

C: man tvnvgvn kattim.含義是: 我昨天回去了。

D: man tunugun kattim.含義是: 我昨天回去了。

在以上的兩個句子中，單詞“昨天”(tvnvgvn/tunugun)的書寫有兩種不同的書寫形式。因此，單詞“昨天”存在不一致，并且表示相同的意義。

E: man turpandin kaldim.含義是: 我來自于吐魯番。

F: man turpanda kaldim.含義是: 我留在吐魯番。

在以上的兩個句子中，單詞“kaldim”(來自/留在)的書寫完全相同，但表達的意義是互不相關的。

2.2 拉丁化維吾爾文的正規化規則分析

拉丁化維吾爾文轉寫規則探索是進行拉丁化維吾爾文的正規化的首要任務。因此，首先我們在下面一個短文的基礎上總結一些規則。

例如: 某個用戶按照自己的習慣方式去書寫的短文如下:

Dunyada guzallikni soymaydighan,guzallikka intilmaydighan birmu insan bolmisa kirak. Amma gap nimini guzal dap tonuxta……

通過拉丁化維吾爾文的正規化之后我們要達到的目標短文應該為如下:

Dunyada gUzellikni sOymeydighan,gUzellikke intilmeydighan birmu insan bolmisa kirek. Emma gep nimini gUzel dep tonuxta……

從以上所寫短文和例子的書寫形式中我們可以總結出以下幾條規則。

1)在拉丁化維吾爾文轉寫過程中，沒有字母的大小之分(只有句首字母需要大寫)。因此，需要處理的文本第一次掃描時，就將大寫一律轉換成小寫。

例如，A.man ahxam kaldim；B.tursun kalmidi.

2) 假如某個詞匯包含[Ch],[Sh]字母，首先把它分別替換為q，x單個字母。例如: man ahsham yaman chux kordum. 替換之后: man ahxam yaman qux kordum.

3) 在維吾爾語32個字母中[b]、[d]、[f]、[I]、[j]、[k]、[l]、[m]、[n]、[o]、[p]、[r]、[s]、[t]、[u]、[w]、[y]、[z]等18個字母按照各自相互對應的拉丁化維吾爾文字母轉寫處理即可。

4) 如果詞首字母或詞中字母為元音開始，那么按照文獻[7]處理方法處理。

以上所說的這些四種規則下面簡稱“通用規則”。

需要說明的是，一般的情況下，由于在維吾爾拉丁書寫時除了[,]、[;]、[?]、[%]等這些符號以外，拉丁化維吾爾文符號與英文符號的書寫形式完全相同。因為這些符號的正規化比較簡單，并且一般地對單詞正規化的影響不明顯，所以在此這些符號的正規化過程被忽略。

總而言之，以上所提出的這些規則都是具有完全的通用性，適用范圍廣，魯棒性也強。

2.3 幾種特殊字母的正規化規則分析

顯然，一個拉丁化的維吾爾文字母在同一個單詞中的不同位置或不同單詞中仍然能夠有效地表達出不同的字母。例如，以字母[a]為例，如: adam→adem(人)；maktap→mektep(學校)；dan→den(粒)……等。此外，維吾爾語構詞方法的異同，致使不斷地產生新單詞，因而對這些字母的正規化帶來了巨大的挑戰。

經過對網絡上的拉丁化維吾爾文書寫的文本分析和觀察之后，我們發現在拉丁化維吾爾文字母中有些字母的使用程度不僅頻繁，而且混用現象突出。尤其是[a]、[k]、[h]、[g]、[o]等五個字母的用法就屬于這種情況，所以針對這些字母進行正規化是此項任務的核心。

接下來，我們主要利用字符串匹配算法對這些字母的正規化處理過程進行進一步的探討。

首先，為了有效地減少復雜度，以每個需要正規化的字母為主，分別建立了該字母的詞首字母序列詞典和詞尾字母序列詞典。詞首字母序列詞典是由該字母開頭的幾個字母序列組成的。詞尾字母序列詞典是由單詞結尾的幾個字母序列組成的。

然后，建立了對每個字母適合地固定詞典。因為該詞典所包含的詞條不僅始終不變，而且一旦匹配成功就可以按照已制定的規則去實現正規化操作。

最后，建立了在日常社交和網絡世界上比較常見的無法尋找適當的規則去實現正規化的單詞組成的特殊詞詞典。本文中特殊詞詞典是對所有的字母而言同等使用。在表3中以字母[h]為實例的部分列表所示。

表3 字母[h]的詞典實例

值得一提的是，如果當前單詞中的字母序列與[a]、[k]、[h]、[g]、[o]詞典中任意一個字母序列或單詞匹配成功，就將當前單詞中的字母替換成該單詞屬于的相應字母，例如，“niyatka”因為該單詞中字母序列“niyat”是與[a]中詞首字母序列匹配，所以該單詞中的所有“a”替換為“e”，即最后結果為“niyetke”。

3 拉丁化維吾爾文的正規化算法設計

3.1 基本模塊化系統結構

本文實驗所用語料包括已標注語料11 257句。其中，訓練語料有10 206句(180 283個單詞)，測試語料有1 051句(14 581個單詞)，其中訓練語料里有10 359個人名，測試語料里有1 669個人名，其中維吾爾族人名占54.4%、漢族人名占24.9%、外來人名占20.7%。所用語料還有人名詞典(21 317個人名)、人名后綴庫(259個后綴)。語料中采用的標注分別有BPER(前部)、IPER(內部)和O(其他)。

拉丁化維吾爾文的正規化系統本質上是文本中各個單詞的規范化過程，其基本原理如圖1所示，由預處理、規則匹配、后處理等步驟組成。

預處理部分依次為去除多余空格、標點符號、單位符號、數字、序列號、數學符號，使用通用規則的前三條進行初步正規化，按照空格分詞，為規則匹配操作準備標準的樣本。

規則匹配階段主要是進行當前單詞與特殊單詞或每個字母所屬于固定詞典或其中的字母序列詞典中的字符串匹配，并且對于匹配成功的單詞再次進行相應規則的正規化。

后處理根據匹配后的結果進行通用規則的最后一條的正規化，并利用維吾爾文與拉丁化維吾爾文之間一一對應關系進行轉寫并輸出結果。

3.2 拉丁化維吾爾文的正規化算法描述

正逆向最大匹配是拉丁化維吾爾文的正規化算法的主要部分。因為每個用戶按照個人習慣的方式去書寫所產生的，容易混淆字母的正規化就在該階段得到解決，其算法流程圖為如圖2所示。

圖2 拉丁化維吾爾文的正規化算法流程圖

根據上述流程圖，我們可以把整個算法描述為如下:

(1) 對資源文本進行預處理操作，去除標點符號、數字、多余符號并利用空格進行分詞等。

(2) 遍歷取出文本中的單詞，如果遍歷結束，則轉至(8)，否則轉至(3)。

(3) 以單詞為單位判斷當前單詞與特殊單詞是否匹配，如果匹配成功就進行基于特殊詞規則正規化的操作，并將處理結果轉至(4)，否則就轉至(4)。

(4) 判斷當前單詞是否包含[a]、[k]、[h]、[g]、[o]等目標字母。如果包含則轉至(5)，否則將當前單詞傳送到臨時存儲，并轉至(2)。

(5) 判斷當前單詞的開頭字母序列是否與詞首字母序列詞典中的字串匹配。如果匹配成功，就進行基于詞首規則的正規化處理，并轉至(6)，否則就直接轉至(6)。

(6) 判斷當前單詞的結尾字母序列是否與詞尾字母序列詞典中的字串匹配。如果匹配成功，就進行基于詞尾規則的正規化處理，并轉至(7)，否則就直接轉至(7)。

(7) 判斷當前單詞是否與固定詞典中的單詞匹配。如果匹配成功就進行基于固定詞典規則的正規化操作，將處理結果放至臨時存儲，否則直接將當前單詞放至臨時存儲，然后轉至(2)。

(8) 對完成所有單詞正規化并處理結果已放到臨時存儲的數據進行后處理，利用通用規則的最后一條進行元音字母的正規化。

(9) 輸出結果，利用維吾爾文與拉丁化維吾爾文字母之間的一一對應關系進行拉丁化維吾爾文到維吾爾文的轉寫并輸出結果。

4 實驗與分析

4.1 數據準備

為了獲得更精確的拉丁化維吾爾文的正規化規則庫，本文首先利用維吾爾常用詞匯詞典和維吾爾社會中的著名小說“故鄉”的單詞為參考，建立了拉丁化維吾爾文的正規化規則庫。然后在這些規則的基礎上按照維吾爾語單詞字母序列的構成特點，分別建立了[a]、[k]、[h]、[g]、[o]字母的詞首字母序列庫和詞尾字母序列庫，特殊詞庫和固定詞庫。其中，特殊詞庫有47個單詞，固定詞庫有169個單詞，詞首字母序列庫有1 151行不同的字母序列，詞尾字母序列庫中有931行不同的字母序列數據。

4.2 實驗設置

至今，在拉丁化維吾爾文的正規化方面沒人研究過，使得該實驗結果對比性研究任務艱巨。為此，我們引用最小編輯距離(Minimum Edit Distance)算法進行對比實驗。因為，此種算法在自然語言處理領域中廣泛用于拼寫檢查和糾錯處理，即對一個字符串中的多余插入、脫落、替代和換位等字母能夠進行有效地糾正。換句話說，采用該算法在一定的程度上也可以達到字母正規化的目標。最小編輯距離是指一個字符串轉換為另一個字符串所需要的最小編輯操作次數。該算法的基本思想在文獻[8]中詳細介紹了，所以此處不再贅述。

另外，本文根據拉丁化維吾爾的書寫特點，從文獻[9]中得到啟發，通過利用首字母是否相同，錯誤詞和詞庫中詞條的長度差異(本文設定為2)和取編輯距離的最小值的方法，同時與規則方法進行同步和異步的正規化。

4.3 實驗結果及分析

本文在上述的拉丁化維吾爾文字符串匹配算法的基礎上，利用Visual Studio 2010 C#編程工具實現了拉丁化維吾爾文的正規化系統。為了驗證本文所提出的拉丁化維吾爾文的正規化匹配算法的有效性，我們主要是在許多用戶的QQ聊天記錄和其他用在拉丁文書寫的網頁上抽取了實驗樣本(2 636個句子，其中有18 836個單詞)。

在以上實驗數據的基礎上，我們用規則方法、最小編輯距離方法和前兩種方法的結合進行測試，并用正規化準確率對算法的性能進行了評價(式(1))，實驗結果為如表4中所示。

(1)

實驗測試結果表明，一般單獨使用規則方法和編輯距離方法時，基于規則的拉丁化維吾爾文的正規化算法對拉丁化維吾爾文的正規化具有較高的準確率，可以達到88.50%，同時也說明我們所用的規則并不完善。最小編輯距離方法的正規化準確率較低，主要原因是通常拉丁化維吾爾文書寫時，在單詞中不時地出現[ch]、[sh]、[ng]等結合的字母,使得容易超出編輯距離的最小值的約束范圍，因而直接影響到正規化效率。此外，本文把以上兩種方法結合起來，發揮各自的優勢，促進互補作用，取得了較好的正規化效果，結合兩種方法的正規化準確率達到了93.80%，從而驗證我們方法的有效性。

表4 測試結果

此外，值得指出的是，通過對測試樣本進行統計發現，包含(以上我們所提出的那些需要正規化的)五種字母的樣本比例占所有樣本的84.10%。很慶幸的是，對不包含五種字母的樣本進行分析可知，在這些樣本中有些樣本的拼寫存在錯誤或者拼寫無誤，而且不必需要正規化的處理(只要拉丁化維吾爾到維吾爾文轉寫即可)。簡單地說，在進行兩種結合方法的正規化時，編輯距離方法不僅對包含五種字母的樣本基于規則的正規化處理以后進行拼寫糾錯方面有所幫助，還能對不包含五種字母樣本的拼寫錯誤自動發揮糾正功能，而達到更好的效果。由此可見，我們的方法在整個正規化過程中發揮了極大作用和做出了較大的貢獻。

5 結束語

本文對基于規則的拉丁化維吾爾文的正規化進行研究與分析，并初步實現了拉丁化維吾爾文的正規化系統。實驗結果表明，以詞首字母序列、詞尾字母序列、特殊詞和固定單詞為主的，基于規則的方法在拉丁化維吾爾文的正規化系統中具有較好的效果。與最小編輯距離方法相結合起來，該方法的優勢更為突出。然而，由于每個用戶書寫的單詞形式無窮無盡、單詞的字母結構比較復雜，因此音位變化和同形詞的正規化方面還是存在一些問題。對這些問題僅靠規則來完成拉丁化維吾爾文的正規化是完全不夠的，所以在未來工作中除了完善正規化算法以外，還可以通過利用規則與統計結合的方法和按照單詞讀音識別出同形詞的方法有效地提高拉丁化維吾爾文的正規化的準確率。

[1] 亞森·依明.基于國際標準編碼系統的維吾爾文拉丁文轉寫規則研究[J].信息技術與標準化，2011，6: 49-51

[2] MZ115-68，維吾爾文拉丁化方案[OL].http://sina.com.cn/s/blog_5fe8b9000100dadl.html.

[3] 地里木拉提·吐爾遜，瓦依提·阿不力孜，吐爾根·伊布拉音.古維吾爾文(察合臺文)及轉寫符號的智能輸入法研究[J].中文信息學報，2007，6: 125-128.

[4] 曹暉.Linux系統藏文拉丁文轉寫輸入法的實現[J].西北民族大學學報，2010，31: 22-25.

[5] 郭淑妮，李永宏，于洪志.現代藏文與拉丁文字母雙向轉寫的規則與實現[C]//第八屆中國語音學學術會議暨慶祝宗濟先生百歲華誕語音科學前沿問題國際研討會論文集.北京: 2008.

[6] 陳麗娜，祁坤鈺，賈彥民，等.藏文拉丁轉寫的研究與實現[J].計算機工程與設計，2006，1: 15-18.

[7] 袁保社，袁曉琴.維吾爾文Open Type字庫設計與實現[J].電腦知識與技術(學術交流版),2008,2: 672-673.

[8] 包西林，郭辰，姚倩，等.自動拼寫校對的算法設計和系統實現[J].科技和產業，2013，13(2)；144-148.

[9] 瑪依熱·依布拉音，米吉提·阿不里米提，艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯與糾錯研究[J].中文信息學報，2008，22(3): 110-114.

Features of Latin Transcriptions of Uyghur Characters and ItsNormalization Based on Rules

Seyyare Imam1, Hussein Yusuf2, Abdusalam Dawut3

(1. Instiute of Politics and Public Administration,Xinjiang University, Urumqi,Xinjiang 830046,China;2. Instiute of Information Science and Enginerring,Xinjiang University, Urumqi,Xinjiang 830046,China;3. School of Software,Xinjiang University,Urumqi,Xinjiang 830046,China)

A rule based normalization method for Latin transcriptions of Uyghur Characters popular in the WEB is presented. First, we establish the large scale text corpus including four different types of datasets, i.e.set of the fixed words, set of the word-initial letter sequences, set of the suffix letter sequences, and set of the special words. Then we normalize the Uyghur Latin transcriptions by the characteristics of the letter sequence within a word and context information of adjacent letters via the Minimum Edit Distance. Finally, a detailed analysis of the experiment results and the further researches are also given in this paper.

Uyghur; Latinized Uyghur;normalization;rule sets;minimum edit distance;text transcription

賽牙熱·依馬木(1972—)，碩士，副教授，主要研究領域為社會語言學，維吾爾語本體及其應用研究等。E?mail：139720425@qq．com于斯音·于蘇普(1985—)，碩士研究生，主要研究領域為維吾爾自然語言處理。E?mail：hussein999@163．com阿不都薩拉木·達吾提(1972—)，博士，講師，主要研究領域為模式識別等。E?mail：abs＿ili@163．com

2014-08-25 定稿日期： 2015-04-10

國家社會科學基金(13BYY062)；國家自然科學基金(61163033)；新疆多語種信息技術重點實驗室開放課題

1003-0077(2016)03-0060-08

TP391