龍潤田
(首都師范大學 文學院,北京100089)
普通話、漢語方言及大部分分布在中國南方的少數民族語言均具有聲調。這些語言的聲調具有很強的別義能力。在語音信號處理中,聲調作為語音的重要組成部分,其對于聲調的識別及合成研究亦具有重要的意義。
對于聲調識別,利用聲調與基音頻率間的關系實現語音的識別已成為研究者們的共識。常用的語音識別方法包括隱馬爾科夫模型(HMM)[1-2],神經網絡[3-4],支持向量機(SVM)[5-6]以及特征聚類[7]等。對于HMM、神經網絡以及SVM而言,這3類方法均需要在識別前進行聲調模型的訓練或設計分類器來對未知聲調進行識別。對于特征聚類的聲調識別,則通過不同聲調間參數的區分性,利用聲調特征進行聚類分析達到聲調識別的目的。除了識別算法外,聲調識別特征也是聲調識別的重要組成部分,目前的聲調識別特征主要包括語音聲學特征[1,2,6]、基頻特征[5,8]等。常用的特征包括基音頻率、短時能量以及基頻衍生的幾何特征,如基頻的長度、斜率、最值等。
對聲調的研究,語言學研究者更關注聲調的調類歸并、劃分及其歷史演變過程。但從田野調查中獲取的語音材料,在未經聽辨記音的情況下,往往不可能獲知其到底具有幾個聲調,這時,采用模型訓練的方法,并不能夠較為迅速準確地獲取聲調的類別和調值。對于特征聚類的識別方法,在聚類分析前一般需要事先給定聚類類別的數目,在不知道確切的聲調類別數目時,將會給聚類識別帶來較大的困難。……