麥麗開·阿皮孜 玉素甫·艾白都拉
摘要:現代維吾爾語各個詞類中,大部分是名詞,名詞的數量最多,句法地位也很重要。但是,目前對名詞進行語義方面的研究卻最為薄弱。為了提升維吾爾文信息處理水平,我們先建立信息處理用維吾爾語名詞語義分類體系。該文主要介紹對維吾爾語名詞語義分類的研究實踐,分類的基礎資源以及分類的必然性,簡要描述了分類過程中需要解決的若干問題。
關鍵詞:維吾爾語;語義分類;名詞
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)02-0262-02
1 基礎資源
目前的名詞研究狀況來說,有關名詞知識描寫遠遠不夠,原因一方面是人們比較重視動詞研究,把動詞作為了句子核心,而對名詞關注不夠,另一方面名詞特別多,由于騎術牧龍大,研究難度也相當大,迄今為止,研究成果一直不如動詞研究那么豐富。
詞類標注的方法自從 1960 年代開始被研究的,國外專家不斷地更新和探尋相關的研究方法。WordNet 是一種傳統的詞典信息與現代計算機技術以及心理語言學的研究成果有效結合的一個產物。它是一個聯機英語詞匯檢索系統它作為語言學本題庫, 同時又是一部語義詞典,在自然語言處理研究方面應用非常廣泛。Wordnet中的名詞數據庫大約有8萬個名詞,分為實體,抽象物,心理特征,自然現象,活動,事件,集體,處所,所有物,外形,狀態等11類,有些概念進一步分為幾個小類。應該說WordNet 類義劃分比較完備,但是缺乏一種照應的網絡關系,也就是說對事物分類缺少實體和概念,實體和屬性間等關系的描述。
北京大學與中科院計算所自1994年開始聯合開發“漢英機器翻譯模型系統”,就著手研制為漢英機器翻譯服務的“現代漢語語義詞典”。“現代漢語語義詞典”收錄的名詞37522個,名詞庫設15個字段,分為具體事物,抽象事物,過程,事件,空間等5大類,有些概念進一步分為幾個小類。
自2008年內蒙古大學蒙古學學院在國家自然科學基金的資助下著手研制“蒙古語語義信息詞典”,目前“蒙古語語法信息詞典名詞分庫”有了36個屬性字段,14105個名詞成為語義分類的對象。分為事,物,智慧,時間,空間,動作,量度等7個大類,有些概念進一步分為幾個小類。
現代維吾爾語信息處理方面,新疆大學和新疆師范大學一直走在前列,維吾爾語詞性標注研究也得到了一定的成績,主要有:玉素甫.艾白都拉的《version1.0》和《version 2.0》的報告及有關論文;新疆大學,吐爾根.依不拉音的《現代維吾爾語詞性標記集的探索》等。這些論文中詳細的描述了維吾爾語詞性標注的基本原則及方法,并提出了有關詞性標注標記集。目前,維吾爾語詞性標注工作主要是以基于統計法和規則法的兩種研究法而開展。
2 維吾爾語名詞語義分類的必然性
現代維吾爾語是黏著性語言,語法、語義范疇較為復雜。目前現代維吾爾語中采用的是按語法功能分類的12中詞類,這種分類方法無法滿足短語分析、句子分析、機器翻譯等現代維吾爾語信息處理方面的需求。為了正確的表達其包含的所有信息, 我們需要建立一個語法語義特征相結合的分類體系。雖然新疆大學和新疆師范大學理論方面提出了現代維吾爾語語義分類,但這個分類體系不夠詳細,缺乏很多信息,比如新疆師范大學對現代維吾爾語詞性標注集進行驗證性研究的過程中發現收錄的28133個名詞里面12926種名詞服從現有的現代維吾爾語詞性標注標記集規范,還有一部分名詞不滿足該規范的語義分類規律,這需要我們改正和補充。
在現代維吾爾語信息處理研究工作中,光考慮詞語的語法意義,而忽略它的語義是會導致一個句子或者整篇文章的語義錯誤。例如:
3 現代維吾爾語名詞語義分類難處
現代維吾爾語里面名詞最多,但是名詞的分類研究基本上停留在以語法功能為基礎的水平。如果我們想建立一個更趨合理,相對較細的語義分類體系,必須要考慮下面幾個方面,這也算是我們所面臨的困難。
4 結束語
目前,現代維吾爾語名詞語義分類研究工作只能說是起步,但沒有停止。為實現名詞語義分類的合理化、系統化、科學化,我們還需要更重視理論認識與操作方法。總之而言,我們的能力和水平有限的原因,上面所做的研究工作依然存在著不少的缺陷。因此,對語義分類體系工作要進行進一步的優化和補充。
參考文獻:
[1] 玉素甫.艾白都拉,張海軍,等.信息處理用現代維吾爾語詞干詞類標記集研究[J].信息技術與標準化,2011(6).
[2] 玉素甫.艾白都拉.信息處理用現代維吾爾語詞類標注標記集規范草案[C].新疆師范大學,2011.
[3] 吐爾根.依不拉音,阿里甫.庫爾班,阿不都熱依木.基于詞典的現代維吾爾語詞性自動標注系統的研究[J] .新疆大學學報,2011(6).
[4] 努爾加瑪力.沙依提,現代維吾爾語詞性標注標記集驗證性實驗研究[D].新疆師范大學,2015年5月.
[5] 玉素甫.艾白都拉 阿布都熱依木.沙力,阿拉帕提古麗,信息處理用維吾爾語詞匯標記集的確定[J].計算機應用,2009(7).
[6] 王惠,詹衛東,俞士汶,“現代漢語語義詞典”的結構及應用[J],語言文字應用,2006(2).endprint