999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向信息處理的少數民族語料庫構建分析

2019-12-13 07:18:08費德蓮袁凌云權朝臣
無線互聯科技 2019年19期

費德蓮 袁凌云 權朝臣

摘 ? 要:語料庫是一切自然語言處理的基礎,尤其是在機器翻譯、語音識別等應用的大趨勢下,構建高質量、大規模、標準化的語料庫尤為重要。民族語料庫構建工作自20世紀八九十年代起,到目前已取得眾多成果。文章主要對我國民族語料庫的建設現狀及相關研究進行介紹與評價,重點分析蒙語、維語、藏語語料庫研究工作,并在此基礎上,針對民族語料庫構建存在的問題提幾點建議,以期為其他少數民族構建民族語料庫提供借鑒與參考。

關鍵詞:少數民族語;語料庫構建;蒙語;維語;藏語

語料庫從1.0,2.0到大數據推動下的3.0時代,給語言研究及語言應用研究帶來了革命性變化,針對語料庫的構建與研究,俞士汶、何中清、龐偉、譚祥燕等對國內外語料庫發展現狀都進行了綜述,但文章多以漢、英、日語為研究對象,很少關注民族語料庫。雖然民族語信息化起步晚,但根據近10年(2009—2018)《中文信息學報》、全國少數民族語言文字信息處理學術研討會等期刊、會議的發文情況看,民族語料庫構建與研究工作正在飛速發展,尤其是蒙、維、藏等幾個少數民族語,無論是在語料庫構建,還是基于庫的語言研究或語音識別、機器翻譯等方面的應用研究都取得了重大突破。

1 ? ?民族語料庫整體發展現狀

為從整體上把握民族語料庫構建現狀,本部分對中國知網(China National Knowledge Infrastructure,CNKI)收錄有關民族語料庫構建的論文進行篩選,得到與之直接相關的論文167篇,并從年載文、研究主體、關鍵詞3個方面分析民族語料庫構建現狀、熱點與發展趨勢。

1.1 ?年載文

根據年載文量(見圖1)可知,1992—2008年論文較少,民族語料庫處于緩慢發展中,未引起太多研究者的關注;2009年至今,載文量穩步增加,且論文被引頻次逐年遞增,說明近10年民族語料庫構建與研究一直處于活躍狀態,今后也將存在極大研究空間。

1.2 ?研究主體

如圖2所示,內蒙古大學與新疆大學研究成果遠高于其他機構,有關蒙、維語語料庫的研究較多,開展語料庫研究的主要是西北部少數民族,其他如云南的少數民族研究較少。通過對文獻進一步分析發現,把語料庫建設本身作為研究對象的并不多,持續性研究更少,相關學者更傾向于語料庫應用研究,使得眾多因研究需要構建的小規模語料庫未得到融合、共享等有效利用。

1.3 ?關鍵詞

通過書目共現系統對文獻關鍵詞進行分析,設閾值為6,結果如表1所示。數據庫頻次較高,說明部分民族語料庫研究還處于數據庫階段;民族語料庫研究以蒙、維、藏為主;語音合成、語音識別與管理平臺頻次較高,是目前的研究熱點;此外頻次低于6的關鍵詞占比較大,說明民族語料庫整體研究內容較為分散。

2 ? ?民族語料庫具體構建現狀

蒙、維、藏語信息化起步較早且有各高校的持續研究,相較于其他少數民族有明顯的研究優勢與更前沿的研究成果。因此本部分重點介紹蒙、維、藏語語料庫構建現狀,對其他民族語料庫僅做簡單介紹。

2.1 ?語料庫建設

相較于維語、藏語,蒙語語料庫更多、更完善且有更多專業語料庫,已建成回鶻體、托忒文、八思巴文、西里爾蒙文古籍、蒙古秘史等文獻語料庫以及《17世紀滿蒙關系書信》語料庫,蒙語諺語、熟語、電話語音、口語語料庫以及漢蒙、蒙漢、漢蒙俄英日等多語種平行語料庫。其中,現代蒙古語文數據庫較為典范,語料涵蓋蒙語教材、文學、政治、新聞、社會科學、自然科學以及口語等內容,目前正在建設包含言語、文獻的2億詞級蒙古語語料庫。

維語已建成800萬,1 000萬詞級的維語語料庫以及123萬詞級的詞法標注語料庫和3 000句的句法標注語料庫,30萬句的維漢平行語料庫、漢維醫療平行語料庫、烏茲別克語—維語平行語料庫、漢文—維吾爾文平行語料庫等語料庫,并在網絡與在線文本語料庫方面進行了探索,部分研究者也開始研究維語電話語音及方言口音等語料庫。

藏語語料庫研究自1999年開始,先后構建了500萬音節字的初級平衡語料庫、1.5億字符的大型藏文平衡語料庫、1.3億字的大型藏文語料庫以及藏語拉薩話口語語音語料庫、藏語13個方言點的方音數據庫、藏語諺語、電話語音語料庫。此外還構建了藏族歷代文獻資料庫、藏文農牧科、醫藥等文獻數據庫,但多數屬于數據庫、資料庫,未上升到語料庫研究階段。

3個少數民族在手寫語料庫、動態腭位語料庫、情感語料庫及多模態語料庫方面也進行了一些嘗試。除蒙、維、藏語外,戴紅亮、王曉丹、何芳芳、楊健、王成平、張羽等分別對傣、朝鮮、羌、白、彝、壯語語料庫進行構想與建設;針對瀕危民族語言語料庫,范俊軍、劉巖等也進行了系列設計與研究。

2.2 ?語料庫加工處理

標注規范方面,蒙語曾提出建立詞語分類與標記集,但因無后續投入,未形成較規范、完整的研究成果;2009年,新疆大學確定了《維吾爾語詞語分類體系及其標記集》[1-2],同年,玉素甫等[3]制定了《信息處理用現代維吾爾語4類詞干詞類標記規范與手冊》;2019年正式實施《信息處理用藏語詞類標記集》《信息處理用藏文分詞規范》兩項國家標準[4-5]。近年,曲珍、陳晨、郭淑妮、趙建東等提出面向語音合成的音段、韻律標注規范,為蒙、藏語規范標注起到一定作用。

分詞標注方面,設計了班智達、SegT,TIP-LAS等藏文分詞系統,研究了融合語言特征的最大熵藏文詞性標注模型及基于詞向量模型的詞性標注方法,提升了詞性標注準確性;蒙語基于AYIMAG開發了新一代蒙語詞語自動切分與標注系統。除基于規則的方法,少數民族也開始探索基于神經網絡解決民族語分詞標注問題,2018年李博涵等[6]對比幾種神經網絡,發現編碼器—標注器長短期記憶模型得到的分詞結果最好,準確率達92.96%。

管理平臺方面,蒙語在相關課題背景下已建成語言資源管理平臺、宣傳與發布平臺及加工與研究平臺[7];維語構建了支持多語種的語料庫建設與管理平臺[8]以及維語中介語語料庫管理系統[9],實現了語料的在線錄入、審核、標注與檢索等工作。

2.3 ?語料庫應用

一方面基于民族語料庫蘇婭、畢麗克孜、盧亞軍等分析掌握了蒙、維、藏語的發展現狀;胡傳成、久美然不旦通過研究民族語句式、詞匯,提升維、藏語教學科學性。另一方面基于語料庫研發了漢蒙英日、漢維哈柯文等電子詞典,推出蒙語語音合成軟件、漢蒙翻譯系統與維語語音識別、語音合成、維漢翻譯軟件,同時西藏大學、科大訊飛先后發布藏語智能語音云平臺、維漢語音翻譯終端設備,進一步加快了民族語信息化進程。

3 ? ?民族語料庫建設和應用中存在的問題及相應對策

針對民族語料庫建設和應用中存在的問題,提出以下幾點思考與建議。

3.1 ?語料庫發展不平衡

通過前文分析可知,蒙、藏、維語語料庫較完善,羌、壯、彝語等語料庫規模較小,文本來源較局限,多數民族還未構建民族語料庫,無法滿足語言信息處理的需要。為促進民族語料庫均衡發展,除國家對民族語言項目的支持與資金投入,民族地區,尤其西南地區院校應鼓勵相關專業學生構建本地區民族語料庫,特別是瀕危民族語言,為語音研究、教學及應用等提供有效數據。

3.2 ?語料庫構建不規范

民族語料庫多由個體自主采集構建,庫內量少,樣本不均衡、發音人較少且缺乏統一的加工標準,不同的編碼方式、標注規則以及層級使眾多語料庫難以融合共享?;诖?,首先,應統一各民族語字符編碼集,制定技術標準和建議性文件;其次,借鑒SAMPA-C,C-ToBI設計本民族語標注規則與標注集;再次,采用主動學習策略,為標注對象提供低頻義項或含更多語言信息的語料,實現樣本均衡;最后,組織構建民族語料庫管理平臺,整合以往小型語料庫資源。

3.3 ?語料庫自動化程度低

民族語多采用田野采集的方式采集語音,但不同地區、村落發音存在差異,采集效率低;通過專家或專職標注員使用Praat等工具進行人工標注,費時、費力且容易出錯?;诖?,可定制民族語語音采集軟件遠程采集,同時建立語言學模型,以現有語料為訓練語料,嘗試自動標注,人工復核,以迭代的方式提高標注效率與準確性,促進民族語料庫構建工作的自動化。

3.4 ?語料資源缺乏共享機制

從目前情況看,多數民族語料庫沒有上網,未向公眾開放,如2009年建成的彝語語音參數數據庫,且無相應平臺提供檢索與下載服務。通過良好的資源共享機制,搭建民族語料庫共享平臺,使資源得到推廣與共享,既方便相關研究者檢索、瀏覽與使用,提高語料的使用效率,又促進民族語之間相互借鑒,推動民族語信息化研究。

4 ? ?結語

民族語由于自身特殊性,存在文本與讀音不規范、地區差異性等問題,同時缺乏專業技術人員,民族語料庫構建面臨諸多問題。針對少數民族語料庫構建,應確定各民族語相關標準文件,設計、開發語料加工系列軟件工具,借鑒漢、蒙、藏、維等語語料庫構建經驗,促進構建工作的規范化與自動化,同時鼓勵熱愛民族語的母語或非母語研究者投身其中,為保護民族語言文化、促進民族語信息化作出努力。

[參考文獻]

[1]阿里甫·庫爾班,吾買爾江·庫爾班,吐爾根·伊布拉音.信息處理維吾爾語詞語分類體系及標記研究(Ⅰ)[J].新疆大學學報(自然科學版),2009(4):476-481.

[2]阿里甫·庫爾班,吾買爾江·庫爾班,吐爾根·伊布拉音.面向信息處理的維吾爾語詞語分類體系及標記研究(Ⅱ)[J].新疆大學學報(自然科學版),2010(1):106-112,116.

[3]玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現代維吾爾語詞干詞類標記集研究[J].信息技術與標準化,2011(6):45-48,63.

[4]國家標準行業標準信息服務網.(GB/T 36337—2018)信息處理用藏語詞類標記集[EB/OL].(2018-06-07)[2019-10-10].http://www.zbgb.org/2/StandardDetail4181429.htm.

[5]國家標準行業標準信息服務網.(GB/T 36452—2018)信息處理用藏文分詞規范[EB/OL].(2018-06-07)[2019-10-10].http://www.zbgb.org/2/StandardDetail4181573.htm.

[6]李博涵,劉匯丹,龍從軍,等.基于深度學習的藏文分詞方法[J].計算機工程與設計,2018(1):194-198.

[7]趙小兵.構建《蒙古語及三少數民族語言語料庫資源管理平臺》[C].西雙版納:全國民族語言文字信息學術研討會,2007.

[8]徐健.維吾爾語語音語料庫管理平臺的研究與實現[D].烏魯木齊:新疆大學,2018.

[9]買吾浪江·艾依提.維吾爾中介語語料庫管理系統建設及自動標注技術研究[D].烏魯木齊:新疆農業大學,2016.

Abstract:The corpus is the basis of natural language processing, especially in the trend of applications such as machine translation and speech recognition. It is important to build high quality, massive, standardized corpus. Since the 1980s and 1990s, the construction of the national corpus has achieved many achievements. This paper analysis the research status of the national corpus, focusing on the Mongolian, Uyghur and Tibetan corpus. And then, this paper puts forward some suggestions for the problems existing in the construction of national corpus, so as to provide reference for other ethnic minorities to build national corpus.

Key words:minority nationality language; corpus construction; Mongolian; Uyghur; Tibetan

主站蜘蛛池模板: 欧美成人综合视频| 国产一级做美女做受视频| 日本午夜三级| 国产va免费精品| 中文字幕1区2区| 欧美特黄一级大黄录像| 精品国产欧美精品v| 在线观看91香蕉国产免费| 久久99国产乱子伦精品免| 五月天在线网站| 成人午夜免费视频| 国产成人精品高清在线| 一级福利视频| 亚欧成人无码AV在线播放| 久久精品国产999大香线焦| 国产精品白浆在线播放| 香蕉蕉亚亚洲aav综合| 国产幂在线无码精品| 亚洲成AV人手机在线观看网站| yy6080理论大片一级久久| 久久永久精品免费视频| 久久精品亚洲中文字幕乱码| 亚洲无码不卡网| 国产综合网站| 人妻精品久久久无码区色视| 亚洲综合色在线| 亚洲一级毛片在线观播放| 一级成人a毛片免费播放| 九九视频免费在线观看| 欧美成人A视频| 国产国产人在线成免费视频狼人色| 深夜福利视频一区二区| 中文字幕在线一区二区在线| 免费精品一区二区h| 国产激爽爽爽大片在线观看| 亚洲国产日韩在线观看| 9久久伊人精品综合| 免费欧美一级| 四虎精品国产永久在线观看| 视频二区中文无码| 亚洲欧美日韩色图| 97国产成人无码精品久久久| 色亚洲成人| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲成人手机在线| 亚洲精品欧美重口| 欧美日韩免费在线视频| 国产精选小视频在线观看| 亚洲视频三级| 制服丝袜在线视频香蕉| 欧美日韩精品在线播放| 毛片在线播放网址| 野花国产精品入口| 免费在线a视频| 中国毛片网| 中文字幕资源站| 欧美自慰一级看片免费| 91国内在线观看| 精品国产中文一级毛片在线看| 找国产毛片看| 久操中文在线| 久久青草精品一区二区三区| 91蜜芽尤物福利在线观看| 国产97色在线| 久久国产av麻豆| 欧美精品啪啪| 国产av无码日韩av无码网站| 精品国产成人三级在线观看| 免费可以看的无遮挡av无码| 国产精品区视频中文字幕 | 另类欧美日韩| 精品国产毛片| 国产超碰在线观看| 中文字幕亚洲无线码一区女同| 91久久精品日日躁夜夜躁欧美| 99热这里都是国产精品| 亚洲欧洲日产国产无码AV| 亚洲AV无码精品无码久久蜜桃| 免费一级毛片| 亚洲熟妇AV日韩熟妇在线| 国产精品久久久久久久久kt| 亚洲第一视频网|