朱泰 管震臻 李新戰 韓雪 白玉帥
摘 要:采集大量不同說話人的語音信息,將音頻信號轉換成電信號,然后把說話人話音中的個人特征提取出來,利用
sql server 2012軟件建立一個學生信息數據庫,用于存儲待簽到的學生信息,最后基于高斯混合模型(GMM),把待說話人的語音與保留在數據庫中的語音進行匹配判決,再通過比對數據庫中的信息,以此找出待識別的人,從而達到簽到的目的。
關鍵詞:高斯混合模型 數據庫 個人特征
中圖分類號:G64 文獻標識碼:A 文章編號:1672-3791(2018)04(a)-0032-02
Abstract:Gauss Collecting a large number of different speaker's voice information, the audio signal is converted into electrical signals, and the personal characteristics of the speaker voice extracted. By using SQL Server 2012 software to establish a database for storing student information, student information to sign in, based on Gauss mixture model (GMM), the voice of the speaker and the voice to be retained in the database for matching decision, and then by comparing the information in the database, in order to find out the recognition of people, so as to achieve the purpose of attendance.
Key Words:Gauss Mixture Model; DataBase; Personal Characteristics
每個人都是一個獨立的個體,每個人的聲音也是各具特色的。把人的聲音單獨提取出來作為人的一項特征來分辨說話人的身份,這在理論上是行得通的。事實上也是,現代科學技術對于語音的應用已經相當廣泛了,比如:在工業、軍事、交通、醫學、民用諸方面,特別是在計算機、信息處理通信與電子系統、自動控制等領域中有著廣泛的應用[1]。
1 說話人識別方法和系統結構
圖1是說話人識別系統的結構圖,它由預處理、特征提取、模式匹配計算、參考模板制作和識別判決等幾大部分組成。首先將聲音錄入到設備中,將其在計算機中把語音信號轉變成電信號,通過波譜分析,提取出不同說話者的個人特征。
然后在特定數據庫中存入大量不同學生的個人信息,將特征提取步驟中提取到的個人特征對應到相應的學生項之中。接著在需要識別學生個體的時候,將此時的說話人聲音與數據庫中存儲的數據進行匹配,從而分辨出學生的個人身份。在此過程中,預定相似度達到某一個值即可確認出該學生身份。因為在不同環境和時間,說話人發出的聲音可能會有細微的差別,因此不可能每次都能夠百分之百的還原之前錄入到數據庫中的音頻特征信息。
2 說話人識別特征的選取
在理想情況下,選取的特征應當滿足下述準則。
(1) 有效區分不同的說話人。
(2) 易于從語音信號中提取。
(3) 不易被模仿。
(4) 盡量不隨時間和空間變化。
同時滿足上述所有要求的特征目前是不可能找到的,所以只需滿足其中部分即可。
3 GMM模型的識別問題
在給定的一個語音樣本中,說話人辨認的目的是要決定這個語音是屬于N個待識別說話人中的哪一個。在一個封閉的待選人集合里,只需要確認該語音屬于語音庫里的哪一個說話人,在辨認任務中,目的是找到一個說話者i^*,他對應的模型λi^*使得待識別語音特征矢量組X具有最大后驗概率P(λ_i/X)。基于GMM的說話人辨認系統結構框圖如圖2所示
根據Bayes理論,最大后驗概率可表示為:
4 建立數據庫
要實現語音識別簽到,首先需要有一份待識別人的個人信息,所以需要建立一個數據庫,用以存儲這些個人信息。我們以學校課堂簽到為例,需要的信息有:姓名(Sname)、性別(Ssex)、學號(Snumber)、院系(Sdept)、以及預處理時提取出的聲紋特征(Svoice)。其中以學號每個學生都不相同,取唯一值[3]。
Create table Student
( Snumber CHAR(10),
Sname CHAR(20) UNIQUE,
Ssex CHAR(2),
Sdept CHAR(20),
Svoice CHAR(50),
)
在建立好的學生信息表中輸入一定數量的學生信息,如表1所示。
5 結語
人在說話的時候,發音常常會隨著環境的變化、說話人的情緒變化、說話人的健康狀況變化而變化,因此說話人的個人聲紋特征不是固定不變的,這些變化對識別系統存在較大的準確性影響 在這些不定因素的影響下,如何較為正確的識別出說話人仍是一個較難攻克的課題。
參考文獻
[1] 王俠.語音識別應用無限[J].計算機世界報,1999:24-26.
[2] 沈忱,基于遺傳算法的混合高斯模型在與文本無關的說話人識別中的應用[D].東南大學,2007.
[3] 邵妍,霍春寶,金曦.基于改進的高斯混合模型算法的說話人識別[J].遼寧工業大學學報:自然科學版,2010,30(1):8-10.
[4] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3-6.