999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

維吾爾文初中數學教材詞干分析研究

2017-11-27 08:58:21艾孜爾古麗艾孜海爾江玉素甫艾白都拉祖力克爾江米爾夏提
中文信息學報 2017年5期
關鍵詞:文本教材數學

艾孜爾古麗,艾孜海爾江,2 ,玉素甫·艾白都拉,祖力克爾江,2,米爾夏提

(1. 新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054;2. 新疆師范大學 文學院,新疆 烏魯木齊 830054;3. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)

維吾爾文初中數學教材詞干分析研究

艾孜爾古麗1,艾孜海爾江1,2,玉素甫·艾白都拉1,祖力克爾江1,2,米爾夏提3

(1. 新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054;2. 新疆師范大學 文學院,新疆 烏魯木齊 830054;3. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)

該文將初中數學維吾爾文教材作為研究對象,根據維吾爾語的特點和統計學原理理論,從計算語言學角度調查初中數學維吾爾文教材用詞干情況。該文主要研究維吾爾語詞干、教材概貌、數據處理技術相關概念及其算法及現代維吾爾語語料處理工具,獲取教材中詞干基本情況、新增詞干、初中數學教材高頻詞干,開展了初中數學維吾爾文教材詞干調查,為維吾爾語研究、維吾爾文數學教學與教材編纂等提供參考依據,從而更加積極有效地促進維吾爾語語言本身研究及其信息處理的發展。

現代維吾爾語;詞干;分析;方法

1 引言

詞干是語義最小單位。詞干提取是把一個詞的不同形式統一為一種具有代表性的標準形式(詞干),主要處理對象是語言中的詞,需要了解語言詞匯的結構,因而必須理解維吾爾語形態學[2]。語言形態學是一個關注詞匯內在結構和構詞規則的語言領域,研究如何從比較小的意義單位( 語素——語素是語言中負荷意義的最小單元)構成詞[2]。提取的詞干能夠減少詞的數量,縮減索引文件所占空間,降低重復率,從而提高效率。

本文利用現代維吾爾語語料預處理技術、現代維吾爾語多策略語料統計技術、現代維吾爾語多技術融合詞干提取技術、現代維吾爾語多特征詞性標注技術、現代維吾爾語多維度數據分析技術等關鍵技術,提取、分析維吾爾文初中數學教材中的詞干。

2 基于多策略的現代維吾爾語數據處理技術

為了科學地調查教學教材用詞情況,本文利用信息處理技術手段處理維吾爾語語料,完成維吾爾語語料預處理、維吾爾語語料統計、統計數據的自動分析工作。

2.1 相關概念及其算法

(1) 詞次(頻次)。抽取一定數量的語料,計算不同詞語在語料中出現的次數。假設詞語作為調查對象,頻次是每一調查對象的頻次同其前調查對象頻次的累加和。頻次是一個具體的數字,它直觀地反映了某個詞語在語料中真實、原始的使用情況[3],算法如式(1)所示。

其中,Ai為調查對象i的累加頻次,ni為調查對象i的出現次數。

(2) 頻率。每一調查對象的詞次的累加和,與所有語料中調查對象總次數的比值,即[4]:

其中,Bi為調查對象i的累加頻率,ni為調查對象i的出現次數,N為所有語料中調查對象出現的總次數。

(3) 文本數。如果把語料看成由若干個文本組成,一個詞在多少個文本里出現(不管出現次數),也就是該詞語出現的文本數:

其中,Di為表示文本數,i表示字母的累加數,ni為表示第i個文本次數。

2.2 現代維吾爾語語料處理工具

(1) 維吾爾語語料預處理系統。本系統由語料格式調整模塊、語料代碼統一轉換模塊、語料調整、語料校對模塊四個模塊組成。維吾爾語語料預處理模塊把現代維吾爾語語料庫中非標準的語詞進行噪聲過濾后,再進行語料格式轉換、語料自動調整、非規范詞規范、語料自動校對等,保證每一個詞語的正字正確性,同時正確處理非維吾爾語詞語,確保獲取正確數據分析結果。

(2) 維吾爾語語料統計系統。本系統較為成熟,統計功能強,主要統計包括詞次、頻率、詞種、詞長和文本數等項目[5]。

(3) 維吾爾語詞干提取系統。提取詞干時利用基于詞尾切分技術以及詞典和人機交互結合的方法。在提取詞干過程中,通過現代維吾爾語詞干詞典維護模塊發現在提取詞干過程中出現的新詞干,并對機器詞典中新詞干進行補充,增加了機器學習功能[3]。

(4) 融合形態特征的最大熵維吾爾文詞性標注系統。

① 現代維吾爾語詞性標記集

現代維吾爾語是黏著性語言,語法、語義、語用三位一體構詞結構,是三個范疇融合在一起的復雜語言[6]。

(今天的討論會艾買提參加了)。

(今天的討論會牛參加了)。

只有語法、語義特征相結合,才能正確地表達詞語的有關信息。《現代維吾爾語詞性標記集》由新疆師范大學計算機應用重點學科、國家語言資源監測中心少數民族分中心維吾爾文基地提供。

② 現代維吾爾語詞性標注模型

本文提出一種融合維吾爾文形態變形特征的最大熵維吾爾文詞性標注模型。首先,根據維吾爾文構詞特點,定義上下文特征模板,并從訓練語料中提取大量特征集,再通過人工設置一些規則篩選模板。然后,訓練最大熵概率模型參數。在最大熵概率模型特征的選擇上,根據維吾爾文的特點,選取詞內部詞干和詞綴、詞前后信息及混合信息等形態信息作為特征,構建標注系統[4]。

最大熵原理的主要思想為: 將已知事實作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布[7]。該模型的形式是

其中,Zλ(x)為歸一化函數;fi(x,y)∈(0,1)為特征函數;λi是特征函數的權重,代表每個特征函數的重要性,每個λi對應于一個特征函數[7]。

特征選擇依據: 使用最大熵模型對維吾爾語名詞進行識別,是根據當前詞的上下文特征確定的。本文的模型特征選擇依據維吾爾語名詞本身的構詞特點[4]。

特征模板定義: 根據維吾爾語構詞特點和統計結果,本文設計了詞內部特征、前后依存詞特征[4]。

(5) 維吾爾語數據分析系統: 本系統主要統計功能包括詞次、頻率、詞種、詞干種和文本數等項目的統計。

3 實驗結果與分析

3.1 語料概貌

本文選取了由新疆維吾爾自治區課程教材研究所、中學數學課程教材研究開發中心與人民教育出版社聯合出版的九年義務教育數學課程標準實驗教科書(數學維吾爾文版本)。電子語料和處理技術由國家語言資源監測中心少數民族分中心維吾爾語研究基地和新疆師范大學計算機應用重點學科提供,其中包括初中一年級到初中三年級,共六冊教材的生語料庫。對初中數學教材書中的各冊的圖片、公式、表格、定義、文本等進行統計,統計情況如表1所示。

表1 初中數學維吾爾文教材基本信息統計表

說明: 文本數指在教材中文本數量;定義數指在教材中出現的數學定義的數量;表格數指在教材中出現的表格數量;公式數指在教材中使用的數學公式數量;圖片數指在教材中使用的數學幾何圖片數量。

3.2 教材中詞干基本情況

首先構建初中數學教材電子語料庫,然后用維吾爾語料預處理系統對初中數學教材電子語料庫進行預處理。預處理工作結束后使用維吾爾語語料統計系統對初中數學教材電子語料進行統計,統計內容包括詞干的頻次、詞干長度、文本數等。經維吾爾語數據分析系統對詞干進行統計分析,在初中維吾爾文初中數學教材六冊書中統計出總詞干頻次58 284次,總詞干種數6 682個。

現代維吾爾文初中數學教材中的詞干基本分布情況如表2所示。

表2 詞干每冊分布情況表

續表

從表2可見,對比同一年級上、下兩冊的詞次所占比例,上冊詞次數量所占的比率高于下冊,說明教材的編寫符合初中生認知規律,也符合問題描述規律和有效提高詞匯利用率的要求。從詞干種數在各冊分布情況來看,每冊詞干種數分布比較均勻,新詞干的增加比較緩慢,與初中生學習數學知識的需求相吻合。表3中更能體現此特點。

表3 詞干學年分布情況表

本研究把第一、二學期合并為學年,初一叫作第一學年,初二叫作第二學年,初三叫作第三學年。在初中數學教材中每一學年詞次變化趨勢與詞干種數變化趨勢同步,具有年級增加詞干種數減小的趨勢。內容組織安排符合初中生的認知能力,與心理成熟能力相適應。

從詞干在文本中分布角度考察,結果如表4所示。

表4 詞干在文本中分布情況表

文本數指該詞語或詞干出現的文本次數。在表4中可以看出,文本數為201~300的詞干種數是8個,占詞干種數比例為0.12%;文本數為101~200的詞干種數是41個,占詞干種數比例為0.61%。

3.3 新增詞干

新增詞干以第一學期教材為基礎,第一學期與第二學期教材進行比較產生新詞干,前兩學期教材與第三學期教材比較產生的新詞干,以此類推產生的新詞干叫作新增詞干。本研究用維吾爾語數據分析系統對統計數據進行分析,獲得新增詞干,如表5 所示。

表5 新增詞干統計分析表

由表5可見,由于在七年級上冊教材里詞干種數為1 665,由于學生第一次接觸, 定義新增詞干種數為1 665,比例認定為100%。圖1表示每冊詞干種數與每冊新增詞干變化關系。

圖1 每冊詞干種數與每冊新增詞干變化圖

從圖1可以看出,每學期的詞干種數變化不大,特別是七年級上、下冊詞干種數差距最小,相對穩定。第三學期開始詞干種數開始平穩減少,每學期新增詞干種數呈快速減少趨勢,說明數學教材是以學習數學知識為主、學習新詞干為輔的特點。這符合該教材強化學生數學功底和以培養思維能力為主的教學目標要求。

3.4 初中數學教材高頻詞干

本文從數學教材中提取了《基礎教育數學常用詞1000條》,并給出了樣例, 前12個高頻詞干情況如表6所示。

表6 初中數學高頻詞干情況表

從表6可以看出,出現高頻詞干是數學用詞為主,生活用詞為輔。為解釋某一個具體的數學現象,一些普通詞干會有較高頻率。

4 總結

本文利用信息處理技術手段處理維吾爾語語料,提取分析維吾爾文初中數學教材詞干,完成維吾爾語語料預處理、維吾爾語語料統計、統計數據的自動分析工作, 提出了基于多策 略的現代維吾爾語數據處理技術,為科學調查維吾爾文數學教材用詞情況提供理論基礎和技術支撐。初中數學教材所使用的詞干在很大程度上與語文教材所使用的普通詞干的情況形成對比。該數學教材特色用詞干總量都不大,與承擔著語言文字學習任務的語文教材相比,詞干種數及總詞次較少,復現率較低。在教學過程中,數學課程教授學生自然科學知識的同時,在語言能力培養上不容低估,應引起教材編纂者和教學工作者的重視。

[1] 哈密提.鐵木爾.現代維吾爾語語法[M]. 北京: 北京民族出版社,1987.

[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對比分析研究[J],《圖書情報工作》,2012,56(15):109-115+142.

[3] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現代維吾爾語常用詞統計關鍵技術研究[J],中文信息學報, 2014,28(5):192-197.

[4] 艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉. 基于形態分析的現代維吾爾語名詞詞干識別研究 [J],中文信息學報,2015,37(12):2318-2323.

[5] 艾孜爾古麗,阿里木·木拉提,蘇國平. 現代維吾爾語語言資源監測中數據分析技術研究[J],計算機應用與軟件,2013,30(04)36-39.

[6] 艾孜爾古麗,米爾夏提,玉素甫·艾白都拉.現代維吾爾語詞干詞類標注標記集驗證性研究 [J], 計算機工程與科學,2015(6):45-48.

[7] 張貫虹,斯·勞格勞,烏達巴拉.融合形態特征的最大熵蒙古文詞性標注模型[J],計算機研究與發展,2011,48(12):2385-2390.

[8] 魏順平,傅騫,何克抗.低年級小學生用字情況調查與分析——以廣東、北京兩地6所小學為例[J],語言文字應用,2008(03):81-89.

艾孜爾古麗(1987—),博士,講師,主要研究領域為計算語言學、自然語言處理。

E-mail:Azragul2010@126.com

艾孜海爾江(1991—),碩士研究生,主要研究領域為計算語言學、自然語言處理。

E-mail: Azhar110@126.com

玉素甫·艾白都拉(1958—),通信作者,學士,教授,主要研究領域為計算語言學、自然語言處理。

E-mail:ysp2002@126.com

TheStudyofModernUyghurStemsinMathsTextbookofJuniorMiddleSchool

Azragul1, Azharjan1,2, Yusup Abaydula1, Zulkarjan1,2, Mirxat3

(1. School of Computer Science and Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China;2. School of Liberal Arts, Xinjiang Normal University, Urumqi, Xinjiang 830054, China; 3. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046,China)

In this study, focused on the Uyghur mathematics textbooks in junior high school, the Uyghur stem are studied. This paper studies the basic stems in the textbooks, the new stems, and the high frequency stems. This provides reference materials for the Uighur language study, Uighur Mathematics Teaching and codification.

modern Uygur language;word stem;analysis;method

1003-0077(2017)05-0108-06

TP391

A

2015-08-16定稿日期2016-04-26

國家自然科學基金(61662081,61463048);自治區自然科學基金(2017D01A58);自治區青年科技創新人才培養工程(QN2016BS0365);國家社科基金(14AZD11);國家語委重點項目(ZD1135-28);新疆維吾爾自治區社會科學基金(2016CYY067);國家語言資源監測與研究中心少數民族語言分中心項目(NMLR201602);新疆師范大學計算機應用重點學科、新疆師范大學數據安全重點實驗室資助項目

猜你喜歡
文本教材數學
教材精讀
教材精讀
教材精讀
教材精讀
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
我為什么怕數學
新民周刊(2016年15期)2016-04-19 18:12:04
數學到底有什么用?
新民周刊(2016年15期)2016-04-19 15:47:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
數學也瘋狂
主站蜘蛛池模板: 亚洲天堂在线视频| 在线观看免费人成视频色快速| www.亚洲一区| 欧美一区二区自偷自拍视频| 香蕉久人久人青草青草| 免费国产小视频在线观看| 亚洲第一区欧美国产综合 | 男人的天堂久久精品激情| 久久毛片基地| 狠狠操夜夜爽| 日韩资源站| www.亚洲一区二区三区| 99热这里只有成人精品国产| 日韩 欧美 小说 综合网 另类| 日本人又色又爽的视频| 亚瑟天堂久久一区二区影院| 午夜激情福利视频| 欧美日韩第三页| 日韩精品视频久久| 免费一级毛片| 2020国产免费久久精品99| www.日韩三级| 一本一本大道香蕉久在线播放| 国产无码网站在线观看| 国产屁屁影院| 五月婷婷亚洲综合| 国产亚洲精| 亚洲精品国产综合99| 国产精品亚洲综合久久小说| 国产99精品久久| 免费看久久精品99| 欧美色香蕉| 久久精品国产一区二区小说| 2021国产在线视频| 91视频日本| 999国产精品| 99视频精品在线观看| 精品国产成人高清在线| 欧美无专区| 伊人查蕉在线观看国产精品| 亚洲一区精品视频在线| 久久久久久尹人网香蕉 | 亚洲综合片| 国产成人免费高清AⅤ| 亚洲国产91人成在线| 老司国产精品视频91| 日本在线国产| 国产色婷婷视频在线观看| 97精品国产高清久久久久蜜芽| 欧美日本在线| 一级毛片免费观看不卡视频| 午夜毛片免费观看视频 | 在线五月婷婷| 免费一级无码在线网站| 亚洲av无码成人专区| 亚洲乱亚洲乱妇24p| 一区二区在线视频免费观看| 久久精品日日躁夜夜躁欧美| 日韩无码视频专区| 国产一区二区三区精品久久呦| 国产真实乱人视频| 天天色天天操综合网| 国产精品香蕉在线| 欧美日韩另类在线| 久久综合丝袜日本网| 中文字幕欧美日韩| 亚洲无线观看| 亚洲AV人人澡人人双人| 国内精品久久九九国产精品| 国产交换配偶在线视频| 无码一区二区三区视频在线播放| 国产又黄又硬又粗| 免费国产一级 片内射老| 2019国产在线| 女同国产精品一区二区| 成人夜夜嗨| 精品小视频在线观看| 一区二区自拍| 小说 亚洲 无码 精品| 欧美专区在线观看| 在线观看网站国产| 在线亚洲小视频|