劉夢君+陳雅詩
摘 要:伴隨著現代科學與計算機技術的發展,人們意識到了語音識別技術所具有的重要理論價值和廣闊的應用前景,而語音識別技術也成為了現代計算機技術研究和發展的重要領域之一。考勤是評價學生平時成績的重要指標,傳統的點名方式效率低下,真實性得不到保證,而目前實施的點名系統無法改善此類現象。針對上述問題,設計一種基于神經網絡的語音點名識別系統來提高點名的準確率。在基于神經網絡的語音識別點名系統中,通過比對說話人聲音特征的方式來確定學生的出勤,從大量的實驗數據中可以發現,此種點名方式可有效地提高點名的準確率。
關鍵詞:語音識別 特征提取 神經網絡
中圖分類號:TN912 文獻標識碼:A 文章編號:1672-3791(2017)02(b)-0016-02
考勤是評價學生平時成績的重要指標,但其準確率和真實性卻往往得不到保證。在過去的點名方式中,比較為人們所熟知的有:老師喊學生名字,學生回答“到”。這是最為傳統的一種,但是此種方式的弊端也顯而易見——在學生達到30人及以上時,由于人數過多,老師難以準確制止學生之間相互代答的現象,導致學生“渾水摸魚”,蒙混過關,考勤成績不具有真實、準確性;另外,在手機的快速發展和普及下,一種APP點名方式也逐漸興起。在需要點名時打開手機APP點擊簽到即可,點名的時間不固定,老師通過簽到的情況來確定學生是否缺勤。但這其中忽略的問題則是雖然點名時間是隨機的,但是出勤的同學可以用多種方式來告知缺勤的同學使其完成簽到,這種情況下,考勤結果依然無法辨別。
針對上述問題,設計出一種基于神經網絡的語音點名識別系統來提高點名的準確率。在課堂點名的時候,錄入學生的實時語音,對輸入的語音信號進行預處理,包括聲音的預加重、加窗分幀處理與端點檢測等。語音信號經過預處理后,再進行特征參數提取。在訓練階段,對特征參數進行一定的處理之后,為每個詞條得到一個模板,保存為模板庫。在識別階段,語音信號經過相同的方法得到語音參數,生成測試模板,與參考模板進行匹配,將匹配相似度最高的參考模板作為識別結果。通過識別結果來判斷是否為同一個學生回答,這樣則可減少老師點名工作的繁雜度,并且可以大幅增加考勤的有效性以及準確率,來更好地達到“考勤”這一行為的預期目的。
通過實驗表明,該系統具有較高的準確率。從之前的老師點名學生回答和APP點名等方式對真實性的一無所知、無法預測到現如今該系統可以使考勤的準確率達到85%以上,都表明了這種基于神經網絡的語音點名識別系統可以有效地減少學生代替答到的行為并提高學校考勤的準確率,使評價學生平時成績的重要指標——考勤結果更加真實、可靠。
1 具體方案
1.1 模型庫建立
1.1.1 語音識別的預處理
語音信號的預處理是語音識別的基礎與前提,包括語言的預濾波、采樣、預加重、加窗分幀處理與端點檢測等。
(1)預濾波、采樣。
預濾波的目的是:抑制語音信號中超過f/2(f為采樣頻率)的分量對語音產生混疊的現象;有效地實現對50 Hz電源干擾的抑制。
濾波時使用的是個帶通濾波器,采樣定理要求采樣頻率至少要是語音頻率的兩倍。
在濾波和采樣結束后,將模擬信號轉換成數字信號。
(2)預加重。
聲音信號中,處于低頻段的信號能量比較大,集中了語音信號的絕大多數信息量。預加重就是將語音信號在輸入端對高頻部分進行增大,達到提高信噪比的目的[1-2]。
(3)分幀與加窗。
分幀可以采用連續分段的方法,但是為了使幀與幀之間能夠平滑過渡,保持很好的連續性,現在一般采用交疊分段的方法。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取0~1/2。
在語音信號處理中常用的窗函數是矩形窗和漢明(Hamm ing)窗等。由于漢明窗的旁瓣高度是最小的,而主瓣是最高的,其對抑制頻譜的泄露比較有效果,漢明窗有比其他窗函數更好的低通性[3]。
1.1.2 語音識別的特征參數提取
特征提取是指從說話人的語音信號中獲得一組能夠描述語音信號的特征參數的過程,人們發現說話人語音的個性特征在很大程度上取決于說話人的發音聲道。特征參數可以是能量、共振峰值、零相交率等語音參數。因為不同的人所說出語音的各項特征參數不相同,因此,可以將特征參數作為判斷兩段語音是否為同一個人的重要判斷依據[4]。
1.2 語音識別
1.2.1 人工肝神經網絡簡介
人工神經網絡(ANN)簡稱神經網絡,使用計算機網絡系統模擬生物神經網絡的智能計算系統。它是基于人腦神經元的原理,模擬人腦神經元的結構和活動建立的一種識別模型,其最終目的是建成一種具有自學習能力、聯想能力、識別能力的系統[5]。
1.2.2 BP神經網絡
BP算法,也稱為EBA算法,也就是誤差反向傳播算法,系統地解決了多層神經元網絡中隱單元層連接權的學習問題,并在數學上給出了完整的推導[7]。
按照神經元之間的連接方式,可將神經網絡分為兩大類:分層網絡和互聯型網絡[8]。
2 實驗過程與討論
程序的起始界面如圖3。
在該系統中,聲音文件的格式均為.wav格式,頻率默認為8 000。
首先在錄入學生信息時采集學生的語音,一并存入數據庫,通過預處理、特征提取等工作提取出每個學生的聲音特征,例如速度、能量等,將這些數據存入模型庫文件trainer中,提供給之后的神經網絡訓練使用以及作為課堂點名時的聲音樣本。在日常上課點名時實時采集每個學生回答同樣話語的聲音,經過預處理及特征提取等同樣的步驟放入文件夾speaker中來與模型庫中的語音樣本進行比對,文件名為該學生學號。若是同一人回答,則會顯示trainer** matches speaker** ,兩者文件名數字相同;若顯示匹配的數字不相同,則代表可能不是同一人。
圖4為一段語音的特征參數圖形。
由圖4可以更加直觀地看出,不同的語音所具有的特征參數波形圖是不一樣的,我們就可以利用這個特性來達到分辨是否為同一個人回答的目的。
3 結語
語音識別、神經網絡都是現在學術界的研究熱點,以基于人工網絡的語音識別為基礎,對語音識別的過程進行了系統和深入的研究。基于語音識別的原理和過程,結合BP神經網絡的理論和特點,研究了基于MFCC的語音識別,完成了相關算法與軟件的編寫,結合神經網絡語音識別等知識,運行出了一個簡易的點名系統。可以大大減少學生代替答到的現象,塑造一個良好的課堂環境并得到可靠的考勤結果。符合科技日益發展的現代社會的需要,課堂與生活一起與時俱進。
參考文獻
[1] 王偉臻.基于神經網絡的語音識別研究[D].浙江大學計算機學院,2008.
[2] 張穩.基于神經網絡的語音識別系統的實現[D].成都理工大學,2013.
[3] 吳煒燁.基于神經網絡語音識別算法的研究[D].中南大學,2009.
[4] 雷濤.基于神經網絡的語音識別研究[D].浙江工業大學,2005.
[5] 施彥,韓立群.神經網絡設計方法與實例分析[D].北京郵電大學,2009.
[6] 余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設計,2009,30(5):1189-1191.
[7] 王明.基于神經網絡的語音識別技術研究與實現[D].電子科技大學,2012.
[8] 李昌立,吳善陪.數字語音-語音編碼實用教程[M].北京郵電出版社,2004.