999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏語自動標(biāo)音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2015-05-30 20:22:09艾金勇陳小瑩劉澤國

艾金勇 陳小瑩 劉澤國

摘要:本文在對藏文文本規(guī)范化、藏文音節(jié)結(jié)構(gòu)確定和藏文SAMPA的設(shè)計(jì)與實(shí)現(xiàn)的基礎(chǔ)上,設(shè)計(jì)與實(shí)現(xiàn)了藏語自動標(biāo)音系統(tǒng)。藏語字音轉(zhuǎn)換是文語轉(zhuǎn)換系統(tǒng)中必不可少的一個(gè)模塊,具體可以將藏文文字的拼寫形式轉(zhuǎn)換成音素的形式表示出來,解決從藏文文字到語音音標(biāo)的轉(zhuǎn)換問題。

關(guān)鍵詞:藏語;語音合成;自動標(biāo)音

中圖分類號:TP391文獻(xiàn)標(biāo)識碼: A文章編號:2095-2163(2015)06-

Abstract:Based on determining the Tibetan text specification, Tibetan syllable structure and design and implementation of Tibetan sampa, the paperstudies and presents the Tibetan automatic transcription system. Tibetan grapheme to phoneme conversion is a essential module for text to speech system, which can convertthe Tibetan language spelling form into phonemes representation, in order to solve the problem from the Tibetan text to speech phonetic conversion.

Keywords:Tibetan Language;Speech Synthesis;Automatic Labeling

0引 言

隨著語音合成技術(shù)的發(fā)展及越來越多語音產(chǎn)品的出現(xiàn),人機(jī)交互技術(shù)的應(yīng)用也更加廣泛,這些技術(shù)的應(yīng)用大大提高了人們的工作效率。在語音合成系統(tǒng)中,首要解決的問題是文字如何發(fā)音,這就需要將文字轉(zhuǎn)化成發(fā)音因素的音標(biāo)形式,建立與文字相對應(yīng)的音標(biāo)數(shù)據(jù)庫[1]。在語音合成時(shí),主要利用字符匹配的方法來獲取數(shù)據(jù)庫里對應(yīng)的音標(biāo)。在漢語的文語轉(zhuǎn)換系統(tǒng)中,已經(jīng)實(shí)現(xiàn)了將漢字轉(zhuǎn)化成漢語拼音這一功能,在英語和德語等語言的語音合成中,也完成了字素到音素的自動轉(zhuǎn)換[2]。但是在藏語語音合成系統(tǒng)的相關(guān)研究中還沒有關(guān)于自動注音方面系統(tǒng)性的文獻(xiàn)和成果,基于此,本文提出了實(shí)現(xiàn)藏語字音轉(zhuǎn)換的研究目標(biāo),作為文語轉(zhuǎn)換系統(tǒng)中必不可少的一個(gè)模塊,具體可以將藏文文字的拼寫形式轉(zhuǎn)換成音素的形式表示出來,解決從藏文文字到語音音標(biāo)的轉(zhuǎn)換問題。

1 系統(tǒng)設(shè)計(jì)及運(yùn)行環(huán)境

1.1 系統(tǒng)設(shè)計(jì)方案

本文在分析藏文的文字特征和對應(yīng)語法規(guī)則的基礎(chǔ)上,制定藏文文本的規(guī)范化方案;通過對小字符集編碼文字特征分析,提出藏文部件拆分算法,實(shí)現(xiàn)藏文文字的識別和分解;最后根據(jù)藏語各方言區(qū)的聲韻調(diào)特征,建立基于SAMPA碼的藏語各方言區(qū)機(jī)讀音標(biāo)系統(tǒng),并參照藏語的拼讀規(guī)則最終實(shí)現(xiàn)藏文音節(jié)的自動標(biāo)注[3-4]。

在完成系統(tǒng)總體設(shè)計(jì)方案、部件確定算法及機(jī)讀音標(biāo)的設(shè)計(jì)后,把所有的算法整合運(yùn)用到藏語自動注音系統(tǒng)中,以實(shí)現(xiàn)自動注音系統(tǒng)的整體功能。通過對文本切分,藏文文本自動注音就轉(zhuǎn)化為藏語單音節(jié)自動注音,單音節(jié)自動注音的整體流程如圖1所示。

1.2系統(tǒng)運(yùn)行環(huán)境

系統(tǒng)運(yùn)行環(huán)境主要包括硬件環(huán)境和軟件開發(fā)環(huán)境。硬件環(huán)境是指對應(yīng)的硬件配套設(shè)施。軟件開發(fā)環(huán)境主要指Web操作系統(tǒng),數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)開發(fā)平臺。良好的軟件開發(fā)環(huán)境有利于系統(tǒng)開發(fā)人員設(shè)計(jì),還有助于快速滿足用戶需求。

1.2.1 Web操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)

由于Windows系統(tǒng)在國內(nèi)使用較廣,且不同的系統(tǒng)之間具有統(tǒng)一的界面,人機(jī)交互比較方便,普通用戶的使用更加容易。此外,Windows網(wǎng)絡(luò)操作系統(tǒng)比較穩(wěn)定,基本上能夠滿足所有中、小型網(wǎng)絡(luò)系統(tǒng)的需求,硬件配置相對較低。基于上述考慮,Web服務(wù)器平臺系統(tǒng)采用Microsoft Windows 2008 server+IIS7.0,采用SQL Server 2008作為數(shù)據(jù)庫服務(wù)的管理工具。

1.2.2 開發(fā)工具

通過前期系統(tǒng)需求分析以及系統(tǒng)設(shè)計(jì)方案的分析考慮,藏文自動標(biāo)音系統(tǒng)的開發(fā)工具采用了Visual Studio.NET2010,程序設(shè)計(jì)語言選擇C#,C#是基于.NET4.0平臺的成熟完整的開發(fā)語言,擁有較為完善的Web Services技術(shù)框架,可以極大地縮短Web服務(wù)的開發(fā)周期,同時(shí)ADO.NET數(shù)據(jù)庫訪問技術(shù)能夠使用.NET架構(gòu)的最新特性。

2前臺模塊具體實(shí)現(xiàn)

2.1規(guī)范化文本模塊

規(guī)范化文本模塊的流程通過收集整理藏文文本中出現(xiàn)的不屬于藏文字符的現(xiàn)象,設(shè)計(jì)處理此類文本的一些規(guī)則,收集整理網(wǎng)絡(luò)媒體、報(bào)紙以及書本上出現(xiàn)的各種不規(guī)范文本現(xiàn)象,分析出現(xiàn)的語境以及具體的使用范圍,最后確立相應(yīng)的知識庫。

2.2音節(jié)結(jié)構(gòu)劃分模塊

音節(jié)結(jié)構(gòu)劃分模塊首先需要對規(guī)范化的文本進(jìn)行音節(jié)切分工作,音節(jié)切分主要利用藏文文本構(gòu)成規(guī)則,以及規(guī)范化文本中對其它音節(jié)間隔符號的處理結(jié)果,直接根據(jù)音節(jié)點(diǎn)劃分,利用字符串的Split函數(shù)即可實(shí)現(xiàn)。其次再利用建立的占位輔音和非占位輔音編碼庫,確定非占位輔音的個(gè)數(shù),依據(jù)藏文正字法建立規(guī)則知識庫即可實(shí)現(xiàn)。

2.3音節(jié)自動注音模塊

藏文文本的自動注音模塊主要依據(jù)已經(jīng)確定的藏文音節(jié)結(jié)構(gòu),通過基字丁定位和字丁分解進(jìn)行聲韻母的分離,得到藏文聲母和韻母,再對照三大方言的聲韻母以及聲調(diào)的SAMPA轉(zhuǎn)寫支持庫的查找來實(shí)現(xiàn)聲韻母的轉(zhuǎn)換,最后將其組合,并加之聲調(diào)即可。音節(jié)的實(shí)際調(diào)值由對應(yīng)聲韻母的調(diào)號進(jìn)行組合,其中,聲母SAMPA=前加字SAMPA+上加字SAMPA+基字SAMPA+下加字SAMPA;韻母SAMPA=元音SAMPA+后加字SAMPA+再后加字SAMPA,沒有的部分不轉(zhuǎn)寫,程序?qū)崿F(xiàn)過程中需要字丁分解表、聲母SAMPA支持庫、韻母SAMPA支持庫以及聲調(diào)SAMPA支持庫的支持[5]。選擇不同的方言時(shí),只要改變支持庫即可,平臺運(yùn)行界面如圖2所示。

2.4其它模塊

由于藏文字符編碼顯示的差異性,雖然在Windows7系統(tǒng)里已經(jīng)實(shí)現(xiàn)了小字符集編碼藏文的正常顯示,但可能仍然有一部分存在顯示不完整的情況。為了確保程序中涉及的藏文字符能夠正常顯示,程序中還提供了喜馬拉雅藏文輸入法的下載功能,同時(shí)參照拉丁轉(zhuǎn)寫方案,設(shè)計(jì)了拉丁轉(zhuǎn)寫形式。

3后臺基礎(chǔ)模塊

3.1數(shù)據(jù)維護(hù)模塊

由于藏語不同方言區(qū)的差異性,以及各地區(qū)語言發(fā)展的不均衡現(xiàn)象,各方言區(qū)的音位系統(tǒng)并不能完全表示該區(qū)域的發(fā)音現(xiàn)象。為了保持程序的正確性和可移植性,設(shè)定了針對不同區(qū)域的聲母系統(tǒng)和韻母系統(tǒng)轉(zhuǎn)換模式的編輯方式。用戶可以直接在后臺修改聲韻母系統(tǒng)。但是為了保證數(shù)據(jù)的安全性,所有系統(tǒng)只能更改不能刪除。

3.2日志記錄模塊

日志記錄模塊主要實(shí)現(xiàn)對操作歷史的記錄,程序可以監(jiān)控所有的轉(zhuǎn)換過程,可以記錄操作者的日志和執(zhí)行的操作,并且包含操作者的操作對象和操作結(jié)果,可以方便發(fā)現(xiàn)轉(zhuǎn)換中的一些異常現(xiàn)象,以及相關(guān)系統(tǒng)數(shù)據(jù)的更改,有利于提升系統(tǒng)的維護(hù)效率。

4結(jié)束語

本文經(jīng)過分析調(diào)研后,從系統(tǒng)的總體設(shè)計(jì)出發(fā),通過不規(guī)范文本設(shè)計(jì)方案,確定藏文音節(jié)結(jié)構(gòu)和藏語三大方言區(qū)機(jī)讀音標(biāo)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),利用VS2010在平臺上實(shí)現(xiàn)了藏語自動注音系統(tǒng)的開發(fā),通過該平臺可以獲取同一文字不同方言區(qū)的機(jī)讀音標(biāo)和對應(yīng)的拉丁轉(zhuǎn)寫字符,有利于不同方言區(qū)的語音交流。本文研究成果在藏語語言文字學(xué)習(xí)、計(jì)算語言學(xué)以及藏文信息化發(fā)展方向都具有重要的理論價(jià)值和實(shí)際的可操作性,同時(shí)對藏語言文字本身的發(fā)展以及藏民族文化的傳播和傳承也起到積極的促進(jìn)作用。

藏語自動注音是實(shí)現(xiàn)文語轉(zhuǎn)換的基礎(chǔ)工作之一,對藏文信息處理的進(jìn)一步發(fā)展有著重要推動作用,但是本系統(tǒng)僅實(shí)現(xiàn)了基本功能,仍有很多工作需要完成,下一步研究工作將在以下方面開展:

(1)系統(tǒng)僅僅是基于已有方言區(qū)域的音位系統(tǒng)上實(shí)現(xiàn)的自動注音,由于藏語方言語音的復(fù)雜性,很多音位系統(tǒng)還存在不確定性,所以后期還需要修正完善方言音系;

(2)系統(tǒng)對黏著語規(guī)范化處理主要基于詞典庫進(jìn)行開展的,由于詞典庫中缺乏許多新詞語,因此處理結(jié)果可能影響自動注音的正確性,后期還需要進(jìn)一步完善擴(kuò)充詞典庫;

(3)目前不規(guī)范文本數(shù)據(jù)的收集整理僅僅來源于常見的藏文文本,還有一些不規(guī)范藏文文本未能收集,需要下一步繼續(xù)收集整理;

(4)系統(tǒng)還需要更好地平衡算法復(fù)雜度和實(shí)時(shí)性之間的矛盾。

參考文獻(xiàn):

[1]李永宏,孔江平,于洪志.藏語文-音自動規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,S1:621-626.

[2]高璐,陳琪,李永宏,于洪志.藏語語音合成中文本分析的若干問題研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,02.

[3]陳志剛,胡國平,王熙法.中文語音合成系統(tǒng)中的文本標(biāo)準(zhǔn)化方法[J].中文信息學(xué)報(bào),2003,04:45-51.

[4]于洪志,高璐,李永宏,鄭文思.藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J].中文信息學(xué)報(bào),2012,04:66-72.

[5]江荻.藏文的拉丁字母轉(zhuǎn)寫方法——兼論藏文語料的計(jì)算機(jī)轉(zhuǎn)寫處理[J].民族語文,2006,01:45-53.

主站蜘蛛池模板: 欧美日韩激情| 青青久久91| 亚洲一级毛片在线播放| 夜夜高潮夜夜爽国产伦精品| 女人18一级毛片免费观看| 动漫精品啪啪一区二区三区| 亚洲香蕉伊综合在人在线| 国产亚洲精品91| 亚洲天堂视频在线观看| 中文字幕无码电影| 亚洲天堂在线视频| 国产手机在线ΑⅤ片无码观看| 国产在线一区视频| 中文字幕在线看| 97视频免费在线观看| 欧美精品在线免费| 欧美成人区| 色网站在线免费观看| 亚洲天堂久久新| 欧美色亚洲| 免费国产黄线在线观看| 免费一级毛片| 一级黄色欧美| 97se亚洲| 麻豆精品视频在线原创| 日韩精品亚洲精品第一页| 国产精品第页| 欧美午夜在线观看| 精品国产自在在线在线观看| 日本免费高清一区| 色综合综合网| 国产91高清视频| 日韩精品成人在线| 天天躁夜夜躁狠狠躁躁88| 亚洲美女操| 亚洲黄网在线| 老色鬼久久亚洲AV综合| 亚洲人成网站观看在线观看| 久久夜色撩人精品国产| 亚洲精品男人天堂| 在线网站18禁| 久久久亚洲色| 性做久久久久久久免费看| 国产丰满大乳无码免费播放 | 少妇露出福利视频| 久久精品这里只有精99品| 亚洲精品无码成人片在线观看| 青草国产在线视频| 国产精品所毛片视频| 国产真实乱人视频| 97se亚洲综合在线天天| 亚洲区视频在线观看| 无码内射在线| 欧美成人影院亚洲综合图| 亚洲IV视频免费在线光看| 亚洲精品制服丝袜二区| 亚洲Av综合日韩精品久久久| 日韩精品一区二区三区swag| 国产福利免费视频| 中文字幕在线一区二区在线| 国产一区成人| 国产福利拍拍拍| 精品人妻AV区| 国产资源免费观看| 久久99国产精品成人欧美| 成·人免费午夜无码视频在线观看| 性网站在线观看| 欧美成人二区| 正在播放久久| 婷婷丁香在线观看| 午夜国产在线观看| 精品国产网| 国产精品大尺度尺度视频| 亚洲第一香蕉视频| 欧美a在线| www精品久久| 性欧美在线| 97久久精品人人| 97精品久久久大香线焦| 538精品在线观看| 久久午夜影院| 成人欧美在线观看|