999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文國際音標(拉薩音)自動轉換研究

2016-05-04 02:54:45龍從軍劉匯丹
中文信息學報 2016年5期
關鍵詞:規則

龍從軍,劉匯丹,吳 健

(1. 中國科學院軟件研究所,北京 100091; 2. 中國社會科學院民族學與人類學研究所,北京 100081)

藏文國際音標(拉薩音)自動轉換研究

龍從軍1,2,劉匯丹1,吳 健1

(1. 中國科學院軟件研究所,北京 100091; 2. 中國社會科學院民族學與人類學研究所,北京 100081)

該文旨在實現從藏文文本到國際音標的自動轉換,在一定程度上解決獲取較大規模的藏文國際音標標注文本的問題。在國際音標轉換系統中,采用了基于規則和統計融合的方法,實現了文語語音詞自動切分;利用輔音、元音和聲調對應規則表實現了藏語音節的國際音標自動轉換;利用聲調變化規則、輔音和元音變化規則實現了基于語音詞的聲調變調、輔音和元音的變化。從自動標注的結果來看,達到了實用效果。

藏語;國際音標;自動轉換;分詞

1 引言

到目前為止,藏文文本國際音標自動轉換研究方面的成果還未報道過。但是在語音、語言研究中,語言學工作者都離不開用國際音標對語言的語音進行記錄,即把聽到的藏語語音用國際音標記錄下來后進行分析研究。聽音、記音則需要經過嚴格培訓,即便如此,不同的人由于聽辨能力的差別,對同一個音也會出現不同的記錄結果;另外,語音的記錄過程耗時費力,大規模的、標有國際音標的藏文文本較難獲得,規模太小又不能夠滿足藏語語音識別、文本語音轉換研究的需要。藏文是一種拼音文字,文字與語音之間有對應也有變化,如果能通過探索對應規則和變化規律,實現文本自動國際音標轉換,將對藏語語音工程應用有重要的價值。由于藏語以詞為單位出現元音、輔音變化和聲調變調,因此,本文還涉及文本分詞、輔音元音變化和聲調變調等相關規則研究。

2 藏文與國際音標對應

2.1 藏文與聲母的對應

藏文是拼音文字,現代藏文由30個輔音字母和四個元音符號(a無符號對應)組成,輔音和元音拼合構成藏語的音節。

現代藏語的聲母有29個,它來源于單輔音字符和復合輔音字符。復合輔音字符包括前加、上加、基輔音和下加輔音。前加、上加和下加輔音在一定條件下影響聲母的類型,而后加輔音字母在一定條件下影響元音和聲調。藏文與聲母的對應(以拉薩方言讀音為準)如表1所示。

表1 聲母與藏文對應關系表

續表

2.2 藏文與韻母的對應

表2 藏文與韻母的對應關系

2.3 藏文與聲調對應

3 藏語元音和聲調變調規則

3.1 語音詞的定義

在藏文文本中,詞與詞之間無明顯分割標記,為了適應文本信息處理的需要,通常會進行分詞處理;同樣在語音標注研究中,藏語的元音和聲調以詞為單位發生變化,因此也需要進行語音詞的切分。根據研究領域和研究需要的不同,詞的邊界也體現出差異,語言學研究領域區分了語法詞、詞匯詞和語音詞的概念。本文旨在研究藏語的語音標注,主要關注語音詞的切分。

3.2 語音詞的元輔音變化規則

元音的變化。元音變化的情況可以分成兩個方面考慮,一是在音節中受后加輔音的影響導致的元音變化,前文已經有敘述,這里需要強調一下//元音,這個元音在拉薩方言中并不是大家公認的,本項研究認為在音節中,如果一個音節的元音為a,后加輔音為時,a元音變化為//元音,例如,讀作“php132”、讀作“khp132”;另一種元音變化是在語音詞的范圍內,前后音節之間相互影響而引起的變化,這種變化又可以根據不同情況分類,(1)元音高低前后之間的變化,例如,讀作“kha55thu55”,實際讀作“kh55thu55”,讀作“ji13ke51”,實際讀作“ji13ki51”,讀作“ko13t?h51”,實際讀作“ku13t?hil51”。(2)元音長短的變化,由屬格標記構成的黏寫音節的元音變長,例如,加屬格標記構成,讀音由“ti13”變為“ti:13”。(3)元音類型的改變,由屬格標記和施事格、工具原因格標記構成的黏寫音節的元音變化,例如,和,和,分別讀作“a13”、“?:13”和“a13”、“?132”。

3.3 語音詞的聲調變化規則

在一個語音詞的內部,音節的聲調根據音節在詞中的位置會發生一定的變化。聲調變化主要在雙音節和三音節中,一個語流片段是否發生變調,主要看“詞的內部實詞素結合的松緊,結合得緊,組成一個構詞單位,聲調發生變化,結合得松的,不組成一個構詞單位,聲調不發生變化”[6]。就雙音節詞而言,根據前文所說的四個調類的不同調值,共有16個調值組合: 55+55、55+51、55+13、55+132、51+55、51+13、51+132、51+51、13+55、13+51、13+13、13+132、132+55、132+51、132+13、132+132,但實際只有四種合規組合: 55+55、55+51、13+55、13+51。雙音節的變調規則可以總結為: (1)雙音節的第一個音節不能是降調,第一個音節的51變成55,132變成13; (2)雙音節的第二個音節不能是低調,13變成55,132變成51。如果第二音節是構詞詞綴,則第二音節變為輕聲*語音詞的分詞規則不同,會導致一些聲調變化差異,例如,在文本上體現為動詞+連詞,否定副詞+聯系動詞或者存在動詞的結構,我們在語音分詞時作為一個分詞單位,因此其聲調變化規則等同于雙音節詞。; (3)三音節詞的變調有兩種情況,即前兩個音節按雙音節詞規則變調,后一個不發生變化,或者后兩個音節按照雙音節詞規則變調,前一個不發生變化。

4 藏文拉薩音自動標注系統

4.1 藏語語音詞自動分詞

在基于字位的分詞方法中,使用特征模板集定義對上下文的依賴關系。字位標注系統中常用的特征模板如表3所示,U01,U02指的是特征的序號,%x[0 , 0]指的是當前字的一元特征(Unigram),%x[-1, 0]/%x[1, 0]指的是前一個字和后一個字組成的二元特征組(Bigram),依此類推。

表3 常用特征模板

在分詞實驗中,本研究使用了人工切分的5 837句語料作為訓練語料,材料來源于教材、會話和影視頻教學片。所有語料的訓練與測試均采用CRF++開源程序包。盡管語料有限,經對相同類型的400句材料進行測試,獲得的測試結果F值達到94.3%。

4.2 基于規則的單音節音標轉換

表4 聲韻母及聲調規則表(部分)

4.3 語音詞的韻母及聲調變化轉換

聲調的變化主要依照前文所說的變化原則,設置變調規則,變調規則主要考慮了雙音節和三音節詞,以及部分讀輕聲的詞綴、虛詞等。具體的變調規則格式如表 5所示。

表5 雙音節和三音節變調規律(部分)

說明: s代表音節,“>”表示變調方向, “>”的左邊是單音節的原調,“>”的右邊是變化后的調。

4.4 系統設計與實現

系統的總體流程如圖1所示。從藏文文本到國際音標的轉換總體上需要經過三個大的階段,首先是分詞,其次是音標轉換,最后是變音變調。

圖1 藏文國際音標自動轉換的處理流程

藏文轉換為國際音標的過程中之所以需要分詞,是因為語音詞內音節的讀音和聲調可能受到其前后音節的影響而發生變化,而這種影響僅發生在詞語內的相鄰音節,分詞的目的是為了第三階段作詞內變音和變調。

對于每個詞語,系統首先將其拆分為音節,對于各個音節,再拆分為聲母和韻母,然后分別調用聲母轉換規則和韻母轉換規則,將藏文文本轉換為國際音標,聲母轉換規則和韻母轉換規則中均已經包含了聲調。藏文前加、上加、下加輔音對基輔音的發音有影響;同樣,后加和再后加輔音對元音的發音變化也有影響,在本系統中,我們將聲母和韻母作為轉換的基本單元,在轉換規則中已經包含了音節內的元音和輔音的變音規則。藏語中,單個音節的聲調大多取決于聲母,但韻母對聲調也有一定的影響,聲母轉換規則庫和韻母轉換規則庫中均已經包含了聲母的聲調和韻母的聲調,系統再根據音節內變調規則最終確定整個音節的聲調;然后,系統處理詞語內部各個音節之間的各種變化,根據詞內變音規則庫和詞內變調規則庫對詞內音節作變音和變調處理。

4.5 自動轉換結果分析

在圖1三個階段中,單音節音標轉換階段完全采用規則的方法,而且這種轉換規則是可以窮盡的,因此能夠保證單音節轉換完全正確。但是在變音變調階段聲韻調的變化是以語音詞為單位,聲韻調的變化是否正確取決于第一階段分詞的正確性。以A和B兩組轉換例子來說明。

在A組中,文本分詞正確,分別得到A2和A3的轉換結果,為了驗證這個結果的正確性,我們錄制了母語人的語音,經聽辨,發現聲韻調的變化基本上與母語人的語音相吻合。但是如果分詞一旦發生錯誤,得到B3的轉換結果,就與母語人發音相差較遠了。

5 結語

本項研究的目的是實現藏文文本國際音標自動轉換,轉換過程中分別采用了規則方法和統計方法,在單音節國際音標轉換階段和詞內聲韻調的變化階段完全使用規則方法,在分詞階段采用了統計方法。分詞結果影響詞內聲韻調的變化結果。從現有轉換情況來看,分詞正確率達到94%左右,精度還需要進一步的提升。在后續研究中,我們計劃校正現有轉換結果,改善分詞效果,可以考慮用統計的方法預測詞內聲、韻、調的變化情況。

[1] 胡坦, 藏語(拉薩話)聲調研究[J]. 民族語文, 1984,8: 22-36.

[2] 格桑居勉, 格桑央金, 藏語方言概論[M]. 民族出版社, 2002: 9-10.

[3] 周季文, 藏語拼音教材[M]. 民族出版社, 1996年重印本,1996: 5.

[4] 于道泉, 藏漢拉薩口語詞典[M]. 民族出版社, 1983: 11.[5] 王洪君, 漢語語音詞的韻律類型[J]. 中國語文, 1996,3: 167-171.

[6] 瞿靄堂, 藏語的變調[J]. 中國語文, 1981,6: 20-27.

[7] 劉匯丹, 藏文分詞及文本資源挖掘研究[D]. 中國科學院大學博士論文, 2012.

[8] Caijun Kang,Congjun Long and Di Jiang.Tibetan Word Segmentation Based on Word-Position Tagging[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 239-242.

[9] Huidan Liu,Minghua Nuo,Longlong Ma,Jian Wu and Yeping He.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language,Information and Computation(PACLIC-2011): 168-177.

[10] Congjun Long,Caijun Kang and Di Jiang.The Comparative Research on the Segmentation Strategies of Tibetan Bounded-Variant Forms[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 243-246.

[11] 李亞超,加羊吉,宗成慶等.基于條件隨機場的藏語自動分詞方法研究與實現[J],中文信息學報,2013,(4): 52-58.

Research on Automatic Conversion of IPA for Tibetan Text

LONG Congjun1,2LIU Huidan1,WU Jian1

(1. Institute of software Chinese academy of Sciences, Beijing 100190,China 2. Institute of ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081,China)

This paper applies rules and statistical methods to realize conversion form Tibetan texts to IPA texts. The procedures of conversion include word segmentation , and construction of mapping rules and patterns of consonants, vowels, tones and monosyllables or multi-syllables. Experimental results show the proposed system does well in IPA conversion.

Tibetan; IPA; automatic conversion; word-segmentation

龍從軍(1978—),博士,副研究員,主要研究領域為藏語計算語言學。E?mail:longcj@cass.org.cn劉匯丹(1982—),博士,副研究員,主要研究領域為自然語言處理、多語言信息處理。E?mail:huidan@iscas.ac.cn吳健(1962—),研究員,主要研究領域為操作系統中文信息處理、多語言信息處理。E?mail:wujian@iscas.ac.cn

1003-0077(2016)05-0203-06

2015-10-15 定稿日期: 2016-04-25

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 狠狠做深爱婷婷综合一区| 九九九九热精品视频| 亚洲色图欧美一区| 国产精品久久久久久久伊一| 国产精品男人的天堂| av无码久久精品| 99热精品久久| 在线中文字幕日韩| 一级毛片免费播放视频| 呦视频在线一区二区三区| 91美女视频在线| 欧美a√在线| 欧美97欧美综合色伦图| 久久99热这里只有精品免费看| a网站在线观看| 91小视频版在线观看www| 视频在线观看一区二区| 99视频有精品视频免费观看| 色综合久久综合网| 专干老肥熟女视频网站| 亚洲综合婷婷激情| 国产毛片高清一级国语 | 亚洲天堂成人在线观看| 国产精品欧美日本韩免费一区二区三区不卡 | 国产在线无码av完整版在线观看| 国产成人av大片在线播放| 国产无码制服丝袜| 中文字幕 91| 国产在线97| 国产日韩AV高潮在线| 日本欧美视频在线观看| 欧美亚洲综合免费精品高清在线观看| 污网站免费在线观看| 精品99在线观看| 亚洲一级毛片在线观| 亚洲网综合| 欧美日韩国产系列在线观看| h网站在线播放| 国产嫖妓91东北老熟女久久一| 1769国产精品视频免费观看| 高清无码手机在线观看| 九九热精品视频在线| 国产三级视频网站| 国内99精品激情视频精品| 美女啪啪无遮挡| 在线观看国产网址你懂的| 欧美精品xx| 青青草原国产精品啪啪视频| 夜夜操狠狠操| 综合色88| 色综合久久综合网| 国产成人毛片| 99视频国产精品| 亚洲综合极品香蕉久久网| www.99在线观看| 亚洲—日韩aV在线| 人妻无码一区二区视频| 婷婷色婷婷| 毛片免费视频| 精品久久香蕉国产线看观看gif| 91丝袜美腿高跟国产极品老师| 亚洲色欲色欲www在线观看| 在线观看亚洲人成网站| 国产乱子伦一区二区=| 国产激爽爽爽大片在线观看| 欧美人在线一区二区三区| 第一区免费在线观看| 成人看片欧美一区二区| 啪啪永久免费av| 国产欧美日韩精品第二区| 黄色a一级视频| 免费国产黄线在线观看| 91九色国产porny| 激情在线网| 热久久综合这里只有精品电影| 日韩国产一区二区三区无码| 久久香蕉国产线看精品| 亚洲伊人电影| 美女无遮挡被啪啪到高潮免费| 亚洲欧美日韩成人在线| 亚洲国产精品VA在线看黑人| 玖玖精品在线|