999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏語同形異音詞的消歧方法研究

2018-08-17 07:10:40拉巴頓珠祖漪清裴春寶
中文信息學報 2018年7期
關鍵詞:規則文本

拉巴頓珠,歐 珠,2,祖漪清,裴春寶

(1. 西藏大學 信息科學技術學院 藏文信息技術研究中心,西藏 拉薩 850000;2. 西藏民族大學,陜西 咸陽 712000;3. 科大訊飛股份有限公司,安徽 合肥 230088)

0 引言

以往在藏語語音合成技術方面,人們一直認為合成中藏語讀音問題通過規則已解決,故目前很少有研究藏語語音合成中由于分詞歧義造成讀音不正確的問題。而藏語合成語音自然度和可懂度的測試結果表明,在藏語中,音節的聲母、韻母讀音錯誤不大,但存在聲調古怪的情況。聲調讀法不正確往往與詞性判斷不恰當有關,而詞性標記的不正確來源于分詞的準確性。讀音不正確不僅使合成語音發音不自然,甚至會改變整個句子的意思,對文本的可懂度有很大的影響。因此,如何判別其正確的讀音就成為語音合成系統不得不解決的問題[7]。

字-音轉換研究,是語音合成系統的前端文本分析的重要模塊,其目的是將文字序列轉換成相應的音標序列。首先對輸入文本進行準確可行的分析,經過預處理后給語音合成后端提供必要的信息。目前藏語字音轉換正確率在很大程度上取決于同形異音詞的讀音識別正確性,而同形異音詞的讀音判斷又取決于藏文自動分詞和詞性預測的準確率。目前,漢語、英語等語言中對多音詞消歧方法的研究已有不少[8-11],而對藏語的相關研究還處于初始階段,甚至到目前為止國內外相關研究學者對藏語同形異音詞方面未曾有研究工作及相關報告。

本文分以下幾個方面進行論述: 第一節詳細介紹了語料庫的來源、數量及最終實驗數據的選取情況;第二節是藏語同形異音詞的構詞研究;第三節對藏語同形異音詞進行分類;第四節提出了基于規則的同形異音詞消歧方法;第五節對基于規則的消歧方法的實驗結果進行了分析;第六節給出分析的結論及今后的研究計劃。

1 語料庫的設計及分析

1.1 語料庫的設計原則及標注方法

1.1.1 語料庫的設計原則

“語料”收集是進行語音合成的基礎工作,通常的做法是盡可能多地收集大規模的自然語料來為挑選訓練語料和測試數據提供支撐。但為了有針對性地研究同形異音詞,需要專門設計語料。設計原則是,以盡量少的語料,盡可能多地覆蓋研究對象。

1.1.2 語料來源

本文主要在《西藏日報》藏文版和中國西藏新聞網藏文版等一些不同藏文網站上收集了含有法律、新聞、教育、醫學、詩歌、文學等不同領域中具有代表性的語料共37萬多個相對獨立的句子,同時還考慮了文獻的年代、地域等問題。經過自動過濾和人工校對將太長和太短、不完整的句子以及含有不常用的梵文的句子去除后剩28萬多個句子,其中還有一些語料來自詞典中的例句及日常生活中常用的語句,從而形成了原始語料。然后利用貪心(greedy)算法進行篩選,從28萬多原始語料中挑選出含有140個同形異音詞的92 229個句子,并對語料進行反復的優化(包括去重),最終選取最大覆蓋藏語同形異音詞的精煉語料共計35 890句作為訓練數據及測試集,本文實驗數據的具體構成情況及數量統計結果如圖1所示。

本文收集各種語料時,為了更全面地描述和覆蓋更多的語言現象,根據語料本身所表達的內容不同,我們主要收集整理了不同類別的句子文本。但由于各網站所發布和關注的側重點不同,只利用一個網站無法覆蓋所有類型的語料,因此,語料庫的具體來源及分布存在一定的差異,本文語料庫的具體構成情況如表1所示。

表1 語料的來源及數量

1.1.3 語料庫的標注方法

“語料庫不是任意文本的隨意堆積。為了發揮語料庫的作用,通常都需要對語料庫進行一定的加工,進行何種加工和加工深度如何通常和應用目標相關”[12]。因此,收集和整理的語料根據不同領域中的應用需求出發。為了達到更好的數據訓練及最終實驗效果,我們特制定較為規范的標記方法,本文對語料庫的標注方面做出以下幾條統一規范。

(1) 語料庫整體的規范

在信息處理領域中,很多藏文語料存在著編碼不一且不同編碼之間互不兼容等問題。這些問題導致語料分散資源無法共享等后果,這對語料庫的設計帶來了一定的困難[13]。目前有同元、班智達、桑布扎、北大方正、華光、藏文編碼字符集擴充集和加央(jamyang)等近10種不同編碼的藏文字處理軟件。因此,為了便于對語料庫進行管理、處理和共享,我們在收集各種大量文本時,將不同編碼的藏文語料全部統一為ISO/IEC10646(Unicode6.2)的小字符集編碼,以TXT文本格式保存。

(2) 分詞和詞性標記的規范

首先,利用傳統的分詞器對所有實驗數據進行自動分詞,并對每一個分詞單位給出初始的詞性。然后,通過規則和統計相結合的方法排除歧義。整個文本的詞語切分和詞性標記都以“信息處理用藏語詞類標記集規范”和“信息處理用現代藏文分詞規范”[4]為基礎,結合藏語構詞規則,再根據我們自己的實踐經驗,以及總結、整理發現的一些新處理規律,對基本規范進行改進、補充和調整,形成了分詞和標注結合的規范。從實際文本的內容和不同應用的研究來看,考慮不同的處理側重點,本文針對藏語語音合成系統前端文本分析中的切分和標記方面包括以下三個具體的規范。

1) 切分規范

3) 存在兩種以上詞性的標記規范

1.2 同形異音詞的頻率分析

本文以《藏漢大詞典》為基礎,在其所列出的常用藏語同形異音詞的基礎上,我們共收集整理了465個藏語同形異音詞,并從372 320個句子文本中統計出了同形異音詞在藏語文本中的出現頻率。我們根據同形異音詞的出現頻率,選取了165個文本中出現頻率較高的詞,根據文本分析獲取現代藏語文本中每個同形異音詞不同讀音的使用頻率,最終整理出140個同形異音詞作為本文研究的重點。前20個同形異音詞在35 890句藏文文本中的數據統計結果如表2所示。

表2 同形異音詞的出現頻率(前20個詞)

續表

2 藏語同形異音詞的概念及構詞研究

2.1 藏語同形異音詞的界定

藏語中所謂的同形異音詞,是指拼寫相同而讀音及詞義不同的詞,也可稱為“同形異音異義的詞”,與其他語言中所謂的多音詞在本質上有很大的區別。例如,漢字中有許多多音字,多數多音字在詞的層面只有唯一的讀音,而多音詞在具體的語境中聯系上下文才能判斷正確的讀音。在很多不同語言中都有多音詞(同形異音詞),而藏語同形異音詞通常并不完全是帶有多音字的詞語,它與雙音詞是兩個不同的概念[10-11]。

雖藏語中基本不存在多音字的概念,但很多藏語雙音節詞在不同的語言環境中,由于聲調的高低、強弱的不同,會發生不同的變化。因而,存在同形異音異義的詞(homograph)。在計算語言學中為了與異形同音詞的加以區分,被稱為藏語同形異音詞。

2.2 藏語同形異音詞的構詞形式

從藏語構詞法的角度分析,藏語同形異音詞有單純詞和合成詞的區別。這類詞的數量并不多,常用詞中可能只有數百個。藏語同形異音詞的構詞形式只可以分成兩種,一是詞綴和結尾的詞。即準確地判斷該詞后音節或是表義詞綴()還是表形詞綴()。因詞性不同而讀音不同,一般詞義也不同。例如,

第一類同形異音詞的結構與維吾爾語多音詞相似,由詞根和詞綴構成,同形異音詞詞根連接構詞詞綴和構形詞綴會構成大量的同形異音詞,它們不僅發音有區別,并且改變詞的意義,對合成文本的可理解度有很大的影響[15]。

第二類同形異音詞是屬于組合型分詞歧義問題。即詞的讀音區別主要取決于藏文自動分詞和詞性預測的準確率。若不能準確地切分詞語,會導致詞性標記錯誤。然而,發出錯誤的讀音,會改變詞的意思[16-18]。兩種同形異音詞的所占比例如表3所示。

表3 兩種同形異音詞的所占比例

3 藏語同形異音詞的分類

根據藏語音勢論、藏語構詞法及語法學,深度辨析藏語文本中同形異音詞的表現形式,并在大規模語料中統計出同形異音詞的出現頻率和不同讀音的使用頻率,及同形異音詞的本身特征。本文把藏語同形異音詞分為四類。

表4 第一類同形異音詞(T1)

表5 第二類同形異音詞(T2)

表6 第三類同形異音詞(T3)

第四類: (D1>>D2)詞的另一種讀音在文本中使用頻率遠大于另一個讀音,并難以由上下文語境信息來確定讀音的詞(T4表示)。同形異音詞不同讀音的使用頻率相差懸殊,在藏語實際文本中僅有一個讀音經常出現,而另一種讀音很少出現的同形異音詞在所有同形異音詞中也占有一定的比例。這類同形異音詞主要是另一種讀音的使用頻率隨著現代語言學的發展變化而逐漸減少,且這些詞難以由上下文語境信息來判斷正確的讀音。如表7所示。

表7 第四類同形異音詞(T4)

圖2 同形異音詞不同類型的數據分析結果

4 藏語同形異音詞消歧方法

基于規則的消歧方法主要依據語言學規則,它具有很強的形式描述能力和形式生成能力,在自然語言處理領域中有很好的應用價值。通常做法是,通過人工方式依靠一定的專家知識來建立相對完備的規則庫,在藏語TTS系統前端文本分析中可以有效地能夠處理同形異音詞讀音判斷等困難。

(1) 高頻默認

在實際文本中,有些同形異音詞并沒有多個讀音的形式出現,即在語料庫中僅有一個讀音經常出現。而另一種讀音極少出現,并且難以由上下文語境信息來判斷正確讀音的同形異音詞。因此,我們遵循基于真實語料的原則,采用高頻默認方法來處理“第四類”同形異音詞的讀音,對這類同形異音詞一律標注為高頻音。

(2) 同形異音詞所在句中的位置

(3) 同形異音詞所在虛詞及助詞的位置

1.4 SNPs位點的選擇 通過查詢NCBI db SNP數據庫以及phaseⅡHapma數據庫并對數據庫中ATG5基因相關多態性位點進行篩選,結合多態性位點所處的功能結構區域、多態性位點在我國人群中的最小等位基因頻率(MAF>0.1)以及國內外學者對該基因多態性位點的功能性研究結論等影響因子,依照本研究的目的和所預期的試驗效果,選取ATG5基因中rs573775、rs510432、rs6568431、rs2299863 以及 rs38043385這個多態性位點。

在藏語傳統語言學中,對于虛詞及一些常用助詞我們是可以窮盡的,且在句子文本中與同形異音詞具有一定的搭配規則。

(4) 同形異音詞所在關鍵詞的位置

(5) 同形異音詞本身的信息

基于規則的同形異音詞讀音識別流程如圖3所示。

圖3 同形異音詞自動標音流程圖

5 實驗結果分析

本文通過以上五個不同的消歧規則,對當前在藏語語音合成系統前端文本分析中出現的140個高頻同形異音詞讀音進行了測試實驗。實驗數據為從9萬多句語料庫中挑選出的含有140個同形異音詞的句子,共計35 890句。實驗結果如表8所示。

表8 實驗結果

實驗表明,本文采用基于規則的消歧方法對140個高頻同形異音詞的讀音識別率高達95%。經實驗結果分析得出,采用的規則方法對同形異音詞的消歧具有很強的分析能力,但同時也存在一定的解析困難。當然,基于規則的方法主要依賴于規則集的可靠性,若規則集不完整或整理不全等問題會直接影響最終的識別結果,同時還存在一些規則沖突的問題。

6 結束語

本文針對目前藏語語音合成系統的突出問題,深度分析了藏語同形異音詞的結構及分類,并收集整理了較大規模的藏語句子文本,為進一步分析和處理藏語同形異音詞的正確讀音準備了素材。根據藏語同形異音詞的統計和分析,結果得出: 藏語中同形異音詞的出現主要問題在于詞語切分和詞性預測的準確性。不同的讀音具有不同的詞性,詞義也不同。由于藏語本身受限于資源的不足,目前還無法從語義角度處理同形異音詞的讀音問題。

如果使用規則的方法進行同形異音詞的讀音分析,需對每一個詞都要具體問題具體分析,這樣不僅消耗大,也會發生規則沖突。因此,我們認為同形異音詞的讀音問題解決方法是在基于規則方法的基礎上,使用以大規模的標注語料庫(Annotated Corpus)為基礎的統計學方法[19],即兩種方法結合可實現優勢互補,不僅減少算法的復雜性,而且還能獲取更好的識別結果。下一步我們計劃統計并擴充藏語同形異音詞,盡可能地獲取較大規模的標注語料庫。在此基礎上實現基于規則和統計結合的同形異音詞自動標音方法,進一步提高同形異音詞的讀音準確率和工作效率。

致謝

本文在語音合成方面的工作是在西藏大學和科大訊飛公司關于藏語語音合成的研究成果基礎上進行的,特別是在處理同形異音詞的技術方面得到了科大訊飛多語種研發團隊邵鵬飛、朱榮華、蔡明琦三位研究員的技術支持和具體幫助。關于語料庫的設計思想及問題分析受益于西藏大學研究生處趙棟材副教授的指導,他為本文的研究內容提出了寶貴的意見。在此,向指導和幫助過的研發團隊及個人表示由衷的謝意!

猜你喜歡
規則文本
撐竿跳規則的制定
數獨的規則和演變
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
搜索新規則
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 综合亚洲网| 亚洲国产天堂在线观看| 三级国产在线观看| 国产人免费人成免费视频| 欧美在线天堂| 四虎永久在线精品影院| 97国产成人无码精品久久久| 欧美成a人片在线观看| 乱人伦99久久| 国产国模一区二区三区四区| 精品国产网| 免费一级毛片不卡在线播放| 亚洲成人在线网| 在线五月婷婷| 成人在线不卡| 欧美亚洲另类在线观看| 免费人成黄页在线观看国产| 亚洲精品福利网站| 亚洲人成成无码网WWW| 精品少妇人妻av无码久久| 小说区 亚洲 自拍 另类| 99久久人妻精品免费二区| 国产区免费| 伊人大杳蕉中文无码| 久久精品只有这里有| 午夜国产小视频| 欧洲亚洲欧美国产日本高清| 亚洲成年人网| 精品国产自在在线在线观看| 三级视频中文字幕| 2020最新国产精品视频| 久操中文在线| 国产精品lululu在线观看| 亚洲婷婷丁香| 狠狠干欧美| 国产自无码视频在线观看| 亚洲人成网址| 久久公开视频| 天天做天天爱夜夜爽毛片毛片| 在线观看av永久| 亚洲国产中文精品va在线播放| 国模在线视频一区二区三区| 久久毛片免费基地| 日韩东京热无码人妻| 欧美高清视频一区二区三区| 亚洲午夜福利精品无码不卡| www.亚洲国产| 国产精品.com| 国产成人高清精品免费| 91午夜福利在线观看精品| 色久综合在线| 欧美a在线| 毛片网站观看| 国产成人麻豆精品| 青青青视频91在线 | 成人午夜视频免费看欧美| 欧美国产精品不卡在线观看| 无码网站免费观看| 国产成人一区二区| 九九热免费在线视频| 五月婷婷丁香综合| 亚洲精品天堂自在久久77| 亚洲色图欧美激情| 免费看美女自慰的网站| 亚洲精品手机在线| 日韩乱码免费一区二区三区| 国产欧美在线| 亚洲综合婷婷激情| 日本三级精品| 国产情侣一区| 久久国产精品麻豆系列| 免费观看欧美性一级| 国产熟睡乱子伦视频网站| 欧日韩在线不卡视频| 久久久久88色偷偷| 2021国产在线视频| 国产精品第一区在线观看| 伊人AV天堂| 日本成人福利视频| 亚洲人成网址| AV不卡无码免费一区二区三区| 成年午夜精品久久精品|