○熱西旦·玉素甫
(新疆師范大學,新疆 烏魯木齊830054)
詞頻統計是數據與信息處理、知識挖掘與傳播中的中心和基礎性工作,只有比較準確地在文章中統計出詞及其頻度,才能進行所有的下一步工作。維吾爾語是新疆地區少數民族使用較為廣泛的一種語言,系跨境語言,有自己的特點,維吾爾文有32個字母,其中8個元音字母,24個輔音字母,在對維吾爾語統計時發現表面上毫無關系的詞頻之間實際上存在著內在的聯系。
19世紀90年代初,一項龐大的語言調查工程在德國展開。克定(Kaeding,F.W.)在眾多合作者的協作下,耗時七年,手工統計了以報刊為主的14個語料來源的資料。在110份語料中,總詞匯量達10,910,777條。經統計,頻率在4以上的詞共79,716個。調查結果形成一部厚達671頁的《德語頻率詞典》,于1898年出版。這是第一次現代意義上的以統計調查方法完成的詞匯研究工作。緊隨克定詞表出現的是1920年美國學者凱尼斯頓(KOiston)的《西班牙語常用詞匯》和1921年美國教育學家兼心理學家桑代克(Thorndidc,E,L。1874~1949)編寫的《教師一萬詞詞書》、《教師二萬詞詞書》。
2003年,全球語言監測網建立,總部設在美國圣地亞哥。它的主要任務是公布英語語言生活中產生廣泛影響的語言現象,包括各種新詞語、流行語、外來語以及政治性錯誤用語,對于語言發展趨勢以及其對政治、文化和經濟影響的專業分析等。目前,在現代維語詞語使用頻率和分布情況方面,雖然有一定的研究,但是沒有對初中維吾爾文數學教材進行真實語料的統計和研究,無法提供初中維吾爾文用詞分布情況具有科學性的依據。初中數學維吾爾文教材是九年義務教育課程的重要教學資源,其用詞狀況直接關系到數學教學的效果。為了研究初中數學維吾爾文教材中的用詞狀況,寫出了本文章。
構建初中數學維吾爾文教材語料庫,語料文件格式轉換(語料庫來源:新疆師范大學人文社會科學重點研究基地和重點實驗室提供)文本分類(初中維吾爾文各冊數學書的課文,練習等)文本統計(圖片統計、公式統計、表格統計、定義統計等)構建生語料庫(通過轉換工具把doc文件轉換成txt文件,內容保持一致)。
隨著計算機技術的飛速發展,詞匯的計量研究近十幾年來逐漸成熟,人們更多、更廣地利用詞匯計量方式探索各領域的詞匯規律與特點。基于現代維吾爾語詞匯統計研究也需要諸多的新成果,本文利用維吾爾文信息處理技術,對人教版(維吾爾文)全日制普通初中數學教材的文本與詞匯進行相關統計并將統計結果進行比較分析概貌,對初中數學教材的文本與詞匯進行相關統計并分析初中數學教材指出相關的觀點。在文章中要做語料的準備,分類,調整,開發軟件,對語料進行統計等等重要工作。通過分詞及詞頻統計軟件,筆者將先前獲得的生語料進行了初步的分詞,并將詞頻表導出為微軟的表格文件,微軟辦公軟件中的表格數據處理文件是一個功能十分強大而且非常易用的數據統計工具,可以在其中做出相應的用詞調查報告。
本次的調查對象主要是維吾爾文初中數學語料中的詞。對這些詞的調查項目主要有頻次、頻率、詞匯長度、文本書等。頻次詞是在實際應用中,出現次數多、使用較頻繁的詞,頻率即每一調查對象的頻次與整個語料所含調查對象總次數的比值,抽樣一定數量的語料,計算其中各個不同詞語的出現次數,每個詞語的出現次數,叫做這個詞語的頻度。每個詞語的頻度與總頻度和之比,叫做頻率。這就是詞頻統計工程最主要的方法,或稱頻度(或頻率)的方法。
本人在研究中通過一些相關的系統處理了以下的結果,在系統中本人主要處理了一些關于詞匯的頻次、頻率、詞匯長度、文本書等等數據,下面的表格有一部分數據,在結果里可以看出來在初中維吾爾文數學教材中用得最多的詞是等等。

教材每冊詞匯分布情況表
初中數學維吾爾文詞頻統計系統是在計算語言學、統計學的軟件開發思想基礎上,根據系統需求設計和實現詞頻的統計系統。本文作者根據初中數學維吾爾語信息處理的工作流程,完成了對初中數學維吾爾文詞頻統計系統的設計和實現。系統實現了使用真實的語料,以顯示系統進度方式,通過構詞規則的方法來判斷是否維吾爾文的詞,并在分析每一個文本的過程中一邊存儲詞匯,一邊對詞匯的頻次、頻率、詞匯長度、文本書數據,對系統統計結果進行分析。目前,該系統還有不少問題需要進一步解決。比如,進行詞頻統計之前準備的電子資料非常費時,而且人工調整會有失誤,為解決此問題,文本的調整就很重要,要是在統計功能之前有一個文本調整功能,就能保證統計的準確率。
[1]艾孜爾古麗,等.現代維吾爾文網絡媒體用詞研究[J].計算機應用與軟件,2012(2).
[2]艾孜爾古麗,等.基于網站用詞調查的現代維吾爾語詞干提取和應用[J].計算機應用與軟件,2012(3).
[3]玉素甫,艾孜爾古麗,基于網站用詞調查的現代維吾爾語詞尾切分和應用研究[J].計算機應用與軟件,2012(4)
[4]哈米提·鐵木爾.現代維吾爾語法[M].民族出版社,1987.
[5]玉素甫,艾孜爾古麗,基于網站用詞調查的現代維吾爾語詞長研究[J].計算機應用與軟件,2012(5).
[6]艾斯卡爾·亞庫甫,艾孜爾古麗,玉素甫.維吾爾文語料庫建設中文件格式轉換技術研究[J].計算機應用與軟件,2012(6)(已錄用No 803783).