竇旭霞
(煙臺職業學院,山東 煙臺 264670)
隨著語音信號處理技術的發展,采用語音信號識別方法進行英語口語發音錯誤捕捉,能夠有效提高英語口語發音錯誤捕捉能力,因此對該問題的研究在提高英語口語教學有效性方面具有重要意義[1]。由于相關的英語口語發音錯誤捕捉方法對于英語口語發音規范化具有促進作用,因此對于英語口語發音錯誤捕捉方法的研究受到人們的極大關注。傳統英語口語發音錯誤捕捉方法是建立在語音信號分析基礎上,采用動態特征分析方法進行英語口語發音錯誤捕捉和特征識別[2],但是該方法存在英語口語發音錯誤捕捉準確性較低的問題,實際應用效果并不理想。為了解決傳統方法存在的問題,提出了基于深層神經網絡的英語口語發音錯誤捕捉方法。
1.英語口語發音語音信號模型
為了實現基于深層神經網絡的英語口語發音錯誤捕捉,首先構建英語口語發音語音信號檢測模型,采用多傳感檢測方法,進行英語口語發音語音信號的原始數據采集,對采集到的英語口語發音語音信號進行尺度分解和特征提取[3],在此基礎上進行英語口語發音錯誤捕捉和特征檢測。其中,英語口語發音語音信號的數學模型表達式為:
(1)
上式中,a(t)稱為英語口語發音語音信號在第n個陣元接收信號幅度,有時也稱為包絡;φ(t)稱為多均勻直線寬帶陣列相位,Z(f)可由S(f)通過傅里葉變換得到,H(f)為英語口語發音語音信號的階躍式傳輸函數。
基于粒子群算法進行英語口語發音語音信號建模和檢測識別,得到語音信息采樣的陣元分布為vm,m∈[1,n]。英語口語發音語音信號的回波脈沖表示為:


(3)
上式中,f(t)為接收到的英語口語發音語音信號的瞬時頻率估計值,ρ(a,b)為寬帶信號入射到陣元上的延時分量,a為信號的高階統計特征信息,b為頻移分布[4]。在新的簇頭節點,得到英語口語發音信息的特征分量為:
(4)
更新融合權重,得到輸出信號分量Xp(u),表示為:
(5)
其中,p為最佳接收極化矢量的階數,可以為任意實數,語音檢測的相位為α=pπ/2,當足π/2時,即旋轉至頻率軸,由此實現對英語口語發音語音信號的統計信息建模[5]。
2.英語口語發音譜特征量分析
采用多傳感融合跟蹤識別方法進行英語口語發音的語音信號采集,結合時頻特征分解方法進行英語口語發音錯誤信息特征提取,英語口語發音語音信號長度l,得到英語口語發音語音信號的譜特征量為:
(6)
l=a·fl+b
(7)
其中,a、b表示英語口語發音語音信號的塊稀疏特征參數。對于給定的寬帶高分辨英語口語發音語音信號x(n)和尺度d,采用期望和方差聯合估計方法進行英語口語發音語音信號動態檢測,設置英語口語發音語音信號x(n)在尺度d的方差用E(ni,d)表示、最大功率譜特征量用max{E(ni,d)}表示,英語口語發音語音信號的模糊度辨識參數為:
(8)
對x(t)進行抽樣濾波處理后,能夠獲取英語口語發音語音信號的離散特征分量x(n),英語口語發音語音信號的集成窗函數h(t)的寬度為T=(2d+1)Ts,Fs=1/Ts。設寬帶高分辨英語口語發音語音信號為x(t),對其進行加窗操作[6],英語口語發音語音信號在頻譜分布區間[m0-Δm/2,m0+Δm/2]上服從均勻分布,英語口語發音語音信號的譜特征量為:
r(t)=g(t)+n(t)
(9)
式中,g(t)為概率密度函數,采用多級濾波方法進行英語口語發音語音信號的稀疏性檢測,結構模型如圖1所示。根據英語口語發音語音信號的譜特征分離結果,實現英語口語發音譜特征量分析。

圖1 英語口語發音語音信號的譜特征檢測模型
1.英語口語發音信號的特征篩選和分類識別
假設輸入的英語口語發音語音信號為一個單頻信號cos2πf0t,其中f0為英語口語發音頻率,設第1個陣元檢測到的英語口語發音語音信號的基準分量,構建英語口語發音的錯誤特征篩選模型,采用時頻特征變換方法進行英語口語發音語音信號動態檢測和特征篩選處理[7],則第m個塊稀疏特征量為:
sm(t)=cos{2πf0[t+τm(θ)]}
(10)
采用目標源信號檢測方法,進行英語口語發音語音信號的特征監測,得到英語口語發音錯誤特征分布為:
(11)
其中:
um=cos[2πf0τm(θ)];vm=sin[2πf0τm(θ)]
(12)
通過上述過程提取到英語口語發音語音信號的特征量,采用波束形成方法進行英語口語發音語音信號的特征聚焦,采用深層神經網絡檢測方法進行英語口語發音語音信號錯誤特征檢測[8],輸出為:
y1(t)=A1(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe1t]}
(13)
輸出的英語口語發音錯誤特征量表示為:
y2(t)=A2(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe2t]}
(14)
式中,fe1為波束域截止頻率,fe2為諧波截止頻率。采用統計特征分析方法進行英語口語發音錯誤特征分離[9],得到英語口語發音錯誤信息為:
y(t)=s(t)+n(t)
(15)
英語口語發音錯誤信息的頻譜為:
Yp(u)=Fa[y(t)]
=Fa[s(t)+n(t)]
=Fa[s(t)]+Fa[n(t)]
(16)
在信號的先驗概率滿足收斂條件的情況下,計算英語口語發音語音信號的時間寬度:
(17)
英語口語發音語音信號的頻域特性描述為:
(18)
根據貝葉斯公式,進行英語口語發音信號的特征篩選,檢測輸出為:
(19)
采用深度神經網絡學習方法,進行英語口語發音信號的特征篩選和分類識別。
2.英語口語發音語音錯誤捕捉輸出
建立英語口語發音錯誤信號的統計特征分析模型,采用深層神經網絡分類器進行英語口語發音信號的特征篩選和分類識別,根據特征分類結果實現英語口語發音錯誤信息捕捉和識別,為了防止過擬合,對L個塊特征量采用模糊狀態分離方法,得到特征參數a1(t)和a2(t)由下式確定:
(20)
根據英語口語發音語音錯誤特征篩選輸出為:
(21)
上式中,a(t)稱為英語口語發音語音信號的z(t)瞬時幅度,φ(t)稱為英語口語發音錯誤特征的模糊狀態分量,采用如下檢測門限進行英語口語發音語音錯誤特征檢測:
xmin,j=max{xmin,j,xg,j-ρ(xmax,j-xmin,j)}
(22)
xmax,j=min{xmax,j,xg,j+ρ(xmax,j-xmin,j)}
(23)
結合先驗概率和似然函數估計方法[10],得到英語口語發音錯誤特征檢測輸出為:
(24)
此時英語口語發音語音錯誤捕捉輸出表示為:
其中,γ代表英語口語發音錯誤特征分量。
為了測試本文算法在實現英語口語發音錯誤捕捉方面的性能,進行仿真實驗,實驗采用Matlab 7仿真軟件設計,英語口語發音信號采樣節點數量為120,特征提取的分辨率為200KHZ,輸出的英語口語發音語音信號長度為1200,待測語音信號集個數為20,干擾信噪比為20dB,根據上述仿真參量設定,進行英語口語發音錯誤捕捉仿真分析,其中英語口語發音信號模型如圖2所示。

圖2 英語口語發音信號模型
以圖2的英語口語發音信號為研究對象,進行英語口語發音的錯誤捕捉,得到捕捉結果如圖3所示。

圖3 英語口語發音的錯誤捕捉結果
分析圖3得知,本文方法能有效實現對英語口語發音的錯誤捕捉和特征分離。測試不同方法英語口語發音的錯誤捕捉的精度,得到對比結果如圖4所示。

圖4 捕捉精度對比
分析圖4得知,本文方法的英語口語發音的錯誤捕捉的精度較高,實用性較強。
研究英語口語發音錯誤捕捉方法,在提高英語口語教學有效性方面具有重要意義,能夠促進英語口語發音規范化,因此本文提出基于深層神經網絡的英語口語發音錯誤捕捉方法。給出英語口語發音語音信號檢測模型,采用多傳感檢測方法進行英語口語發音語音信號的原始數據采集,對采集到的英語口語發音語音信號進行尺度分解和特征提取,提取英語口語發音語音信號的特征量,采用波束形成方法進行英語口語發音語音信號的特征聚焦,采用深層神經網絡檢測方法實現英語口語發音語音信號錯誤特征檢測和捕捉。分析得知,本文方法進行英語口語發音錯誤捕捉的精度較高,可靠性與實用性較強。