艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉
(新疆師范大學 計算機科學與技術學院 新疆 烏魯木齊 830054)
現代維吾爾語常用詞計量研究是少數民族語言信息處理領域急需研究的重要課題。維吾爾語常用詞匯表的欠缺,是影響維吾爾語詞匯學、計算語言學和維吾爾語信息處理工作質量的重要因素,因此迫切需要研制具有代表性、可靠性、權威性的維吾爾語常用詞匯表,促進維、哈、柯等阿爾泰語系的新疆少數民族自然語言理解跨越式發展。
為確保收集語料的可靠性、代表性和權威性,本文重點對語料來源、語料范圍、語料載體等進行了研究,以保證常用詞候選表的權威性和代表性。
(1) 在現有的語料庫資源基礎上,系統、持續地進行收集、整理、加工和處理現代維吾爾文平面媒體、教育教材媒體、有聲媒體、網絡媒體語料,構建現代維吾爾語語料庫,相比之前的語料庫,本語料庫語料來源更廣、語料領域更寬、各個領域比率控制適當。
(2) 對構建現代維吾爾語語料庫的關鍵技術與方法進行進一步優化與完善,新增了人名識別和數據自動分析技術。對詞語使用頻次及其詞匯文本數進行基本考察,從詞語的使用頻度和詞語在文本中出現的次數兩方面加以考慮,提取了現代維吾爾語常用詞候選表。
本研究不但為維吾爾語等少數民族自然語言理解及處理工作提供了基礎,也可為阿爾泰語系的少數民族語言的規范化、教材設計、中小學語文教育、掃盲教育、雙語教育和辭書編纂提供服務。
為確保收集語料的可靠性,重點對語料來源、語料范圍、語料載體等進行研究,以保證常用詞候選表的權威性和代表性。根據現有語料具體情況,以傳播媒體作為篩選依據。本語料庫是由平面媒體(以主要文學作品和經典名著為主,代表文學語言)、教育教材媒體(新疆教育出版社、新疆科技出版社、新疆人民出版社、美術出版社等正規出版社出版的正規出版物,代表科學技術、文化、金融、工業生產多領域的文學和生活語言)、有聲媒體(新疆電視臺每天播出的30分鐘新疆新聞和30分鐘的新聞聯播文本語料,代表新聞報道語言)、網絡媒體(十多家比較正規的網站,代表網絡語言)組成的總語料。它們基本代表維吾爾族人政治、經濟和社會生活的方方面面。
本語料資源是由國家語言資源監測中心少數民族分中心“維吾爾語文研究基地”、新疆師范大學“網絡信息安全與輿情分析重點實驗室”提供。
本語料是把由國家正式出版社出版的文學作品組成的語料作為研究對象,語料容量188MB,占總語料容量的26.81%。
本語料是以科普性和教育性較強的正式出版物組成的語料作為研究對象,語料容量173MB,占總語料容量的24.67%。
所收集的語料來源于新疆電視臺每天播出的新疆新聞和新聞聯播各30分鐘的文本語料。采集的語料時間跨度為2010年1月至2012年12月,共1 080天的1 080小時播放時間的文本語料。語料容量171.2MB,占總語料容量的24.42%。
網絡媒體語料來源于新疆政府網、昆侖網、天山網等18家網站。收集語料時間跨度為2006年4月至2012年12月。語料容量169MB,占總語料容量的24.10%。
(1) 現代維吾爾語語料預處理技術: 收集語料,對語料進行預處理,并形成文本文件。
(2) 現代維吾爾語語料統計技術
① 對調查語料統計: 研究項目包括詞次、頻率、詞種、詞長和文本數等,最終形成維吾爾語詞頻表。
② 人名識別: 根據維吾爾族人、漢族人、外國人姓名在維吾爾語中的特點,對已研究的識別技術進一步優化,確定識別規則,解決漢族人名中姓和名空格隔開描述問題,優化漢族、外國人姓名識別率。
(3) 現代維吾爾語詞干提取技術
利用基于詞典和人機交互結合技術方法提取詞干。提取詞干過程中,通過現代維吾爾語詞干詞典維護來發現提取詞干過程中出現的新詞干,并對機器詞典中新詞干進行補充,增加機器學習等功能。

圖1 基于平衡語料庫的現代維吾爾語多策略統計模型
維吾爾語詞語的具體構詞方式見圖2。

圖2 現代維吾爾語詞法結構模型
圖2中,A表示詞根,B表示詞綴,C表示詞尾,D表示詞干,W表示詞語。
(4) 現代維吾爾語數據分析技術
本技術主要解決常用詞、次常用詞、部分常用詞、獨用詞、詞種分布、覆蓋率、詞語領域通用度、時間通用度等幾個部分數據的自動分析技術。
詞次(頻次): 每一調查對象的頻次同其前調查對象頻次的累加和。頻次是一個具體的數字,它直觀地反映了某個詞語在語料中真實、原始的使用情況,計算公式如式(1)所示。
(1)
其中: Ai為調查對象i的累加頻次,ni為調查對象i的出現次數。
頻率: 每一調查對象的詞次的累加和,與所有語料中調查對象總次數的比值,即式(2)所示。
(2)
其中: Bi為調查對象i的累加頻率,ni為調查對象i的出現次數,N為所有語料中調查對象出現的總次數。
一般來說,頻率愈高的詞其常用程度愈高。這是最直觀,且大多情況下都頗有成效的統計方法。
累加覆蓋率: 指所有詞語的頻率由高到低降序排列時,每一個詞語與其前詞語的頻率之和在全部語料中所占的比重,見式(3)。
(3)
其中: Fi為調查對象i的覆蓋率,ni為調查對象i的出現次數,N為所有語料中調查對象出現的總量。
累加覆蓋率的作用是能清楚觀察到每個詞在由高到低的頻率排序中在詞語整體中所處的位置。
詞語領域通用度: 用來衡量詞語在語言各流通領域的通用程度,即詞語常用程度的量化指標。其計算公式不僅應該考察詞匯的詞頻,同時還應該考慮詞語在不同文本及不同領域和分領域的分布是否均勻。
本項目采用改進后的領域通用度計算步驟如下:
① 計算領域類詞語頻度Fx:
FX為k號詞語在領域類語料中出現的總頻次。
② 計算k號詞語文本使用度UIK:
采用A.Juilland公式計算詞語的文本使用度:
(5)
詞的文本使用度:
UIK=DK×Fk(取整數值)
(6)

③ 計算k號詞語的領域通用度Uk:
采用分布均勻度計算詞語在各領域類分布的均勻程度,計算公式為:
分布均勻度:
DCk=SMR/Mean (0≤DCk≤1)
(7)
SMR及Mean分別定義如下:
k號詞語的領域通用度:
Uk=DCk×UIk
(10)
上式中,n表示領域類數,要求各領域類語料庫語料等量;FKi是詞語在第i領域類k號詞的頻度,UIk表示k號詞的文本使用度,DCk表示k號詞的領域類分布均勻度。
詞語的時間通用度: 詞語在考察時間內通用程度的量化指標。它需要觀察詞語在考察期內使用是否穩定,即詞語詞頻在各月分布的均勻程度。
時間通用度計算步驟如下:
① 計算詞語月頻度Fk:
Fk為k號詞語在各月語料中出現的總頻次。
② 計算k號詞語的時間通用度Tk:
采用分布均勻度計算詞語在考察時間內各月分布的均勻程度,計算公式為:
k號詞語的時間度通用度:
Tk=SMR/Mean (0≤Tk≤1)
(13)
上式中,n表示考察時間內月數,要求各月中語料庫語料等量;FKi是詞語在第i個月的詞頻度。
詞語通用度: 綜合考慮詞語的領域使用度及時間穩定度而提出的,并未考慮地域通用度對詞語通用度的影響,以后在考慮較大地域范圍流通語料時,應納入地域通用度的考察。
詞匯通用度的計算方法為:
詞語通用度Ok=Tk×Uk
(14)
Tk表示k號詞的時間通用度,Uk表示k號詞的領域通用度。Ok表示詞語的通用程度,該值越大,k號詞的常用性特征及考察時間內使用穩定性特征表現就越好。
對詞語進行基本考察,從詞語的使用頻度和詞語的分布兩方面加以考慮。維吾爾語詞語的“詞種數、頻次、頻率、文本數、詞長”作為常用詞候選表的依據。
在此基礎上,提取出不同媒體語料庫的高頻詞表,在四個詞表中,篩選出不同媒體語料的共用詞,作為現代維吾爾語常用詞候選表;篩選出任意三個語料庫的共用詞,作為現代維吾爾語次常用詞候選表;篩選出任意兩個媒體語料庫的共用詞,作為現代維吾爾語部分常用詞候選表;篩選出各媒體語料庫的獨用詞,作為現代維吾爾語獨用詞候選表。
本文的研究語料涵蓋平面媒體、有聲媒體、網絡媒體、教材媒體4種,共計96 025個文本文件,43 529 435詞次。現代維吾爾語語料采集的依據及選擇詳見本文第三部分。
本語料為平面媒體(文學作品語料)、教育教材媒體(科普教材媒體)、有聲媒體(新聞語料)、網絡媒體(網絡語料)組成的總語料。它基本代表維吾爾族人政治、經濟和社會生活的方方面面。語料具體情況如表1所示。

表1 總語料的分布情況表
為了保證常用詞候選的代表性和權威性,需要進一步確認是將現代維吾爾語的詞還是詞干作為現代維吾爾語常用詞。本文根據維吾爾語的特點和具體四大媒體語料,對語料統計數據進行比較分析。
(1) 現代維吾爾語詞語基本數據
本文首先提取平面媒體、教育媒體、有聲媒體、網絡媒體等四大媒體的常用詞表,通過比較,提取出四大媒體常用詞表共用的部分,作為現代維吾爾語常用詞候選表。本表共收錄了現代維吾爾語常用詞語62 330個,具體情況如表2所示。

表2 現代維吾爾語常用詞語情況表
從表2可以看出, 62 330個共用詞語的頻次占總詞頻比例77.73%。說明常用詞語占總語料的覆蓋率相對偏低,不能承擔現代維吾爾語常用候選詞的角色。
(2) 4大媒體詞干基本數據
同樣對4大媒體的4個詞干表進行比較,提取4大媒體共用總詞干,作為現代維吾爾語常用詞干候選表。本表共收錄了現代維吾爾語常用候選詞干36 488個,具體情況如表3所示。

表3 現代維吾爾語常用詞干情況表
從表3可以看出,36 488個共用詞干占總語料覆蓋率95.23%。說明對總語料的覆蓋率接近整個語料,能承擔代表現代維吾爾語常用候選詞角色。
高頻詞是指在語料中詞頻累加覆蓋率達到90%的全部用詞。根據這個定義,從每一種媒體語料中覆蓋率達到90%時提取高頻詞,具體分布情況如表4所示。

表4 高頻詞、詞干種總語料中分布情況
從表4可以看出,每一種媒體語料在總語料中分布情況。
以詞干能代表現代維吾爾語常用候選詞角色特點為依據,根據高頻詞在媒體中分布情況,確定現代維吾爾語共用詞、部分共用詞、準部分共用詞和獨用詞等四個檔次。計算時教育媒體定義為A、平面媒體定義為B、網絡媒體定義為C、有聲媒體定義為D。四大媒體(ABCD)共用部分叫做常用候選詞(共用詞);任意三種媒體(ABC、ABD、ACD、BCD)和任意兩個媒體(AB、AC、AD、BC、BD、CD)共用的部分叫做次常用候選詞(大部分共用詞),只有一種媒體(A、B、C、D)中出現的詞叫做獨用詞。經過四大媒體高頻詞干進行比較,提取常用候選詞、次常用候選詞和獨用詞。常用候選詞和獨用詞的具體情況如表5所示。

表5 常用候選詞和獨用詞表
從表5可以看出,常用詞和獨用詞的分布情況。由于常用候選詞和次常用候選詞合并后占總高頻詞語料中的比例為90.20% 。這說明提取的常用候選詞表對本次考察語料是可行的。
表6給出詞次10萬次以上的22條高頻常用候選詞樣例表。
在維吾爾語基地相關研究的基礎之上選取了更大規模的真實語料建成現代維吾爾語語料庫,其語料庫包括平面媒體、教材媒體、有聲媒體、網絡媒體等四類主流媒體。語料量43 529 435詞次。而現階段,這些資源的合理、有效應用,對于深化與擴展語言資源的監測工作有重要意義,同時也是計算語言學服務于語言生活、語言教學、語言工程、辭書編纂等方面的重要體現與有益嘗試。其中,四大媒體語言文字使用頻率變化、頻序排位相對變化反映了媒體對社會生活的關注點的變化。透過這些字詞語的使用狀況可以看到年度的社會生活、時事面貌。
[1] 艾孜爾古麗,李曉,玉素甫·艾白都拉.中小學維吾爾語文教材用詞數據分析方法與應用研究[J].計算機工程與應用,2014,2: 108-111.
[2] 艾孜爾古麗,艾山江·阿不力孜,玉素甫·艾白都拉.現代維吾爾文網絡媒體用詞研究[J].計算機應用與軟件,2012,2: 67-68.
[3] 艾孜爾古麗等.基于網站用詞調查的現代維吾爾語詞干提取和應用[J].計算機應用與軟件,2012,3: 32-34.
[4] 艾孜爾古麗,齊向偉,玉素甫·艾白都拉.現代維吾爾語語言資源監測中數據分析技術研究[J].計算機應用與軟件, 2013,4: 36-39.
[5] 玉素甫,艾孜爾古麗.基于網站用詞調查的現代維吾爾語詞尾切分和應用研究[J].計算機應用與軟件,2012,4: 13-15.
[6] 玉素甫,艾孜爾古麗,祖力皮亞.基于網站用詞調查的現代維吾爾語詞長研究[J].計算機應用與軟件,2012,5: 32-34.
[7] 玉素甫.信息處理用現代維吾爾語詞干類標記集研究[J].信息技術與標準化,2011,6: 45-48.
[8] 蘇新春.漢語詞匯計量研究[M].廈門大學出版社,2001.
[9] 蘇新春,楊爾弘.2005年度漢語詞匯大規模統計的分析與思考[J].廈門大學學報,2006年6月.
[10] 趙小兵.基于動態流通語料庫的現代漢語基本詞匯自動識別與提取方法研究[D].博士學位論文,2007年6月.