999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

俄語孤立數字語音識別研究

2021-09-23 07:05:50紀佳昕
現代計算機 2021年23期
關鍵詞:特征信號模型

紀佳昕

(信息工程大學洛陽校區,洛陽471003)

0 引言

自動語音識別(ASR)是指機器識別和理解語音信號并將其轉換為文本或命令,根據信息執行人的各種意圖[1],是一門融合了生理學、計算機科學、模式識別與人工智能的交叉學科。語音識別實踐起源于1952年貝爾實驗室研發的特定人獨立英文數字識別系統,隨著統計模型、神經網絡等機器學習方法的興起和發展,面向漢語和英語的語音識別技術逐漸趨于成熟并走向實用化。

目前,國內有關俄語語音的研究主要集中在雙語發音比較和語音教學領域[2],使用統計和深度學習方法建模俄語聲學特征的實踐相對較少。王彤[3]結合全局約束和早棄策略改進DTW算法,提高了俄語短指令集的識別率和識別速度;楊政[4]構建了基于Se?quence-to-Sequence的俄漢語音翻譯模型,避免了傳統語音翻譯錯誤級聯的問題;吳敏[5]提取多種聲學特征,設計對比實驗探索了適用于俄語軍事語音的識別模型,豐富和拓展了國內俄語語音識別的實驗成果。

隱馬爾可夫模型-高斯混合模型(GMM-HMM)是語音信號處理中廣為應用的統計模型。在GMM-HMM中,HMM模塊負責建立狀態之間轉移概率分布[6],每個狀態可以是一個音素或詞,可對應多幀觀察值;GMM模塊則通過多個高斯函數的線性組合負責生成HMM的觀察值概率。本文收集了俄語孤立數字的音頻語料,開展基于GMM-HMM模型的俄語數字識別研究,從詞匯量、說話人特征和發音方式三個角度看,屬于小詞匯量非特定人孤立詞識別范疇,可為俄語電話號碼識別、語音區號識別等非特定人連續數字識別提供研究基礎和參考。

1 俄語數字語音特點分析

1.1 語音結構分析

俄語書寫系統使用33個西里爾字母,分為元音和輔音,輔音又分為清輔音和濁輔音。俄語遵循“元音中心”的論點,按照元音劃分音節。一個詞有幾個元音,便有幾個音節,沒有復合元音[7],每個音節包含的輔音個數不限。俄語數字的音節構成如表1所示。

由表1可知,這十個數字中,多數為單音節詞,存在一個三音節詞。各詞之間相同特征較多,其中五個詞包含元音e,處于重音位置時發[э]音,非重音位置發[и]音。各 有 兩 個 詞 含 有 元 音o、я和и。數 字6|шесть、7|семь含有同一元音且發音相同。從組合特征上看,除數字1|один外,其他詞均以輔音開頭,多音節詞通常以輔音和元音交替的方式組合而成。

表1 俄語數字音節構成

1.2 相同元音音素共振峰分析

共振峰是語音能量比較集中的區域,決定了元音的音質。俄語的元音都是濁音。實驗發現,元音發音舌位的高低和前后分別與第一、第二共振頻率(F1、F2)有關。舌位越高,F1越小,舌位越靠前,F2越大。文獻[8]收集整理了俄語元音的共振峰頻率,反映在俄語數字中,如表2所示。

由表2可得,多數單元音發音特點與統計數據基本一致。如и屬前高元音[9],因此F1值相對較小,F2值高,y為后高元音,所以F1值和F2值都較低,я、a為后低元音,F1高,F2低。部分數字為多音節詞,共振峰值依靠多個元音的共同作用。

表2 俄語數字的元音共振峰頻率

實驗發現,不同語境下,同一元音的共振峰值也有所差別。以含有相同元音e的單音節詞шесть|6和семь|7為例,將這兩個數字的音頻剪輯到一起,再用Praat觀察兩個數字的共振峰,可以發現二者的第一共振峰曲線在元音段比較相近,而семь|7發音時存在元音鼻化現象,使得семь|7元音段的F1值稍低于шесть|6,如圖1所示。

圖1 шесть|6和семь|7的共振峰比較

2 俄語數字語音識別流程

圖2給出了俄語數字語音識別流程,分為信號數字化及預處理、特征提取、生成參考模式庫和模式匹配幾部分。預處理部分對信號進行適當放大和增益控制,將模擬信號轉換為數字信號,以便存儲和處理;特征提取即使用一些特征參數來表示信號,隨后利用文本和語音訓練數據建立特征模板庫和相應模型;最后在識別階段,提取待識別語音特征參數,并將之與模板庫的特征一一比對,從中選取相似度最高的參考模板作為識別結果。

圖2 俄語數字語音識別流程

2.1 語音數據預處理

預處理發生在信號的采樣和量化之后,包括預加重、分幀和加窗等步驟。預加重是對語音高頻部分進行加重,目的是去除口唇輻射對信號的影響,增加語音的高頻分辨率[10]。設n時刻語音采樣值為x(n),則預加重處理后的結果表示為:

α為預加重系數,且0.9<α<1.0。

分幀的理論依據是語音信號的短時平穩性,即認為基因頻率在短時范圍內是相對固定的[11]。語音信號的分幀是通過為可移動的有限長度窗口加權實現的。為保持幀與幀之間平滑過渡,采用交疊分段的方法,設置幀長為25ms,幀移與幀長的比值取1/2。常用的窗函數有矩形窗和漢明窗兩種。本實驗使用漢明窗,其函數為:

定義窗函數后,語音信號的分幀處理實際上就是對各幀進行一定的變換和運算。

2.2 雙門限法端點檢測

端點檢測的目的是確定語音詞中有話段的起止位置,剔除信號中的無聲段和噪音段,使得識別模型聚焦于有效語音幀序列的特征。實驗采用雙門限法配合使用短時能量和短時平均過零率兩個時域特征實現語音起點和終點的檢測。

(1)短時平均能量。語音具有短時平穩的特征,即語音狀態不會在短時間內發生突變,語音能量亦然。一般來說,濁音的能量值高于清音。由此,可將短時平均能量作為區分俄語輕音和濁音的依據。短時平均能量是信號值平方經過一個窗函數的濾波輸出所得到的信號。n時刻某語音信號的短時平均能量En為:

其中N為窗長,ω(n)為窗口函數。

(2)平均過零率。通常,清音的過零率高于噪音及無聲部分。可以使用平均過零率參數將信號的清音和噪聲部分區別開來。短時過零率是單位時間穿過坐標系橫軸的次數,其計算公式為:

(3)雙門限端點檢測思路。雙門限端點檢測方法綜合運用了短時能量和短時過零率來檢測俄語數字的發音起始位置[12]。圖3分別以三音節詞чет?ре|4、單音節詞шесть|6、雙音節詞всемь|8為例,給出原始信號及其短時能量和過零率的時域特征。

圖3 三個俄語數字語音雙門限特征參數示意圖

雙門限端點檢測方法設有三個閾值,前兩個是語音能量的閾值,最后一個是過零率的閾值。其判定步驟如下:

(1)一級端點判決:選取一個較高的門限T2,使得語音信號的能量包絡大部分位于此門限之上,粗略提取初始語音段;選取一個較低的門限T1,并從初始語音段的起始點和終止點分別向左向右搜索,找到短時能量的輪廓與T1相交的兩點,該兩點確立的語音段即為利用短時能量判定的語音段;

(2)二級端點判決:確定一個平均過零率門限T3,并從第一階段的語音段開始再次向左向右搜索,分別找到短時平均過零率低于T3的兩點,則此兩點確定為語音的起點和終點。

2.3 特征提取

語音識別和說話人識別實踐最常用到的語音特征是梅爾倒譜系數(MFCC)。與其他特征相比,MF?CC與實際頻率的對數分布大致對應,分析方法更符合人耳的聽覺特性。MFCC特征提取流程如圖4所示,具體步驟為:將預處理后的時域信號經過快速傅里葉變換(FFT)得到各幀頻譜,并對語音信號的頻譜取模平方得到語音信號的譜線能量,將能量譜通過一組含有M個濾波器的三角形濾波器組,如此同一語音參數將不會因發音人的音調高低而有所差別,從而突顯語音的原始共振峰。然后對所有的濾波器輸出做對數運算,再進一步做離散余弦變換(DCT)即可得12維MFCC。

圖4 MFCC特征提取流程

重音是構成俄語節律的重要要素,能夠反映語言的韻律特征[13]。俄語重音的音強較強,響度也較大[14],對應短時能量值也較大。相同條件下,不同音節產生語音流的短時平均能量各不相同,可作為俄語語音的一個重要區分特征。提取每一幀的對數能量作為一維特征參數,計算方法如下,其中N為分析窗的寬度,表示第t幀中第n個點的信號。

以上13維倒譜參數只反映語音靜態特性,因此需計算其一階二階差分譜組合成共39維的特征參數,以描述語音的變化方向、變化速度等動態特征,通過兩種信息的融合,更好地完成對語音信號特征的描述。

2.4 模型訓練

模型訓練整體流程如圖5所示。首先將預處理后的各數字的訓練音頻經過特征對數提取等步驟生成MFCC矩陣,矩陣中的每一行代表相應數字一幀語音的聲學特征。每個數字設一個特征列表,存儲該數字所有訓練集的MFCC矩陣,共生成十個列表,分別用于模型參數估計和訓練。每個數字對應一個HMM模型,共得到十個模型。識別階段,利用相同的方式得到待識別特征矢量矩陣并將其與各模型進行匹配,使用前向-后向算法計算該矩陣在每個孤立數字HMM上的輸出概率,得分最高者對應數字標簽即為判決結果。

圖5 模型訓練流程

3 實驗及結果分析

3.1 實驗準備

(1)語料采集。語料采集選擇在安靜的教室環境中進行,采集對象為10名俄語專業學生,錄音人年齡范圍為21-27歲,其中男性5人,女性5人。采集設備為Adobe Audition CS6,環境為安靜的教室。語音的采樣頻率為8kHz,編碼方式為16bit線性PCM,單聲道,Windows下wav文件格式。錄制規模為每人3遍,每遍依次錄制0-9的發音,每個發音間隔1 s左右。每遍采集的數據保存為一個音頻文件,共計30個。最后將每個音頻文件人工切割成單個數字的發音文件,最終得到300個原始語音信號樣本,每個樣本時長約為1 s。

(2)實驗環境與評測指標。開展俄語數字語音識別的實驗環境為Windows 10操作系統,開發語言為Python 3.7,使用python_speech_features、sklearn、mat?plotlib庫實現模型訓練和圖表繪制。采用識別準確率評價系統的性能,識別準確率定義如下:

3.2 實驗結果

采用五折交叉驗證法,訓練集:測試集=4:1,240條語音樣本用于訓練,60條作為測試。實驗過程采用對比驗證的方法,將10個數字的13維組合特征及其一階二階差分參數進行對比,通過對隱藏狀態數(components)及迭代次數(iterations)進行調整,觀察模型參數對系統性能的影響,得到測試集上的準確率如表3所示。

表3 模型正確率變化

從實驗結果可以看出,模型的隱藏狀態數和迭代輪數會對模型性能的影響較為突出。當MFCC維度為13時,模型在狀態數為5,迭代次數為50時達到最佳性能84.3%;當MFCC維度為39時,模型在狀態數為5,迭代次數為60時性能最優,最優值為89.7%。圖6給出了最優狀態數下迭代次數對兩種特征維度的模型性能的影響。整體上看,39維特征訓練出的模型,其識別正確率整體上高于13維特征訓練出的模型,且二者最佳性能相差5.4%,說明融合了一階二階差分參數的MFCC可以描摹俄語數字更為全面的語音特征。

圖6 最優狀態數下迭代次數對模型性能的影響

為進一步探究單個數字識別效果,取模型性能最優時十個數字的正確率,得到表4所示。由表4可得,除了семь|7之外,絕大多數數字的準確率達到80%,7個數字識別準確率在90%及以上,尤其數字од?н|1,在測試集上得到了100%的識別結果。識別效果相對較差的數字為4、7、9,對以上誤識別率較高的數字進行錯誤分析,發現三者之間互為易混淆數字。

表4 單個數字識別正確率

以上結果一定程度上印證了語音特征分析模塊的相關結論。從元音構成的角度看,三個數字都含有相同的元音e且發音相同,共振峰均值相近,增加了相互誤識別的幾率;從音節構成上看,三音節詞構成復雜,發音特點更加難以表征,這些都為模型判決帶來了困難。而оди?н|1作為唯一以元音開始的數字詞語,發音特性與其他數字的區別更為明顯,因此得到了良好的識別結果。要想提高總體識別率,還需著眼于探索易混淆數字間的屬性差異,并將其顯式地引入特征矩陣中,有目的地展開區分性訓練,以確保模型學習到它們之間更細微的差別。

4 結語

根據語音識別的基本原理和相關算法,在訓練語料有限的條件下開展了基于GMM-HMM的俄語離散數字語音識別研究。一方面,嘗試從語音學角度出發,分析十個數字聲學特征的相似性,得出共振峰值接近和易混淆的數字,并結合Praat軟件進行了分析驗證;另一方面,在實驗層面完成了數字音頻切分及預處理、雙門限法端點檢測、聲學特征提取、模型訓練和判決的俄語語音識別流程,定量分析正確率達到89.7%,驗證了模型和實驗方法在小規模數據集上的可行性,為連續俄語數字語音識別研究提供了一定的參考借鑒。

同時可以看到,基于GMM-HMM的俄語孤立數字識別正確率還有一定的提升空間,后續應進一步結合語音學特征,改進易混淆俄語數字的區別性聲學特征提取方法,并設計更多對比實驗來驗證模型算法對俄語語音的適應性。

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 91福利片| 91精品国产麻豆国产自产在线| 亚洲综合片| 青草视频在线观看国产| 国产精品毛片在线直播完整版| 九九九精品成人免费视频7| 国产成人资源| 日本在线亚洲| 中文字幕日韩欧美| 亚洲福利视频一区二区| 免费在线国产一区二区三区精品 | 日韩欧美国产三级| 人妻出轨无码中文一区二区| 中文字幕丝袜一区二区| 在线亚洲天堂| 成人福利视频网| 欧美 国产 人人视频| 成人在线观看一区| 国产粉嫩粉嫩的18在线播放91| 日韩免费中文字幕| 干中文字幕| 亚洲欧美精品日韩欧美| 干中文字幕| 亚洲国产一成久久精品国产成人综合| 日韩精品一区二区三区视频免费看| 欧美伊人色综合久久天天| 色久综合在线| 中文字幕佐山爱一区二区免费| 中文字幕乱码中文乱码51精品| 欧美亚洲一区二区三区导航| 精品人妻一区二区三区蜜桃AⅤ| 99久久无色码中文字幕| 久久一本精品久久久ー99| 小说区 亚洲 自拍 另类| 伊人成人在线| 国产高清在线观看| 亚洲国内精品自在自线官| 亚洲欧美人成电影在线观看| 亚洲性一区| 国产在线观看一区精品| 国内视频精品| 亚洲精品成人福利在线电影| 国产丝袜丝视频在线观看| 精品久久久久久久久久久| 狠狠ⅴ日韩v欧美v天堂| 国产高清在线观看91精品| 一本一道波多野结衣一区二区| 久久国产热| 香蕉久久永久视频| 久久久久人妻一区精品| 亚洲成人精品久久| 亚洲日韩精品欧美中文字幕| 99偷拍视频精品一区二区| 亚洲视频免费在线看| 无码 在线 在线| 911亚洲精品| 欧洲精品视频在线观看| 91视频青青草| 粉嫩国产白浆在线观看| 三上悠亚精品二区在线观看| 人人91人人澡人人妻人人爽| 亚洲经典在线中文字幕| 99久久精品久久久久久婷婷| 国产真实二区一区在线亚洲| 日本黄网在线观看| 亚洲色无码专线精品观看| 日韩在线第三页| 国产视频资源在线观看| 国产熟女一级毛片| 亚洲精品手机在线| 久久精品66| 黄色网站不卡无码| 国产高清毛片| 又猛又黄又爽无遮挡的视频网站| 午夜免费小视频| 91精品人妻互换| 国产精品自拍露脸视频| 欧美精品1区| 九九免费观看全部免费视频| 国产一级精品毛片基地| 亚洲中字无码AV电影在线观看| 亚洲一区二区无码视频|