鮑 楓 ,劉 鑫 ,賈懋 ,鮑長春
(北京工業大學電子信息與控制工程學院語音與音頻信號處理研究室,北京 100124)
近年來,非線性研究得到了快速發展,已廣泛應用到天文、水文、氣象以及經濟領域。通過對事物已知的時間序列進行非線性分析來預測其未來的演變趨勢是非線性研究的核心所在。隨著科學技術的發展,在許多學科之中都出現了非線性問題。傳統的線性化方法已不能滿足解決非線性問題的要求,非線性動力學也就由此產生。非線性動力學中的相空間重構理論對音頻頻譜非線性特性的分析有著巨大的吸引力。目前,在語音與音頻信號的非線性分析方面,已有科研人員對語音序列進行了非線性分析[1,2],而針對不同類型音頻信號頻譜信息非線性特性的統計分析還有待進一步研究[3-5]。基于該背景,本課題針對各類型音頻信號的修正離散余弦變換(Modified Discrete Cosine Transform,MDCT)系數的混沌特性展開分析和研究。
相關文獻證明,最大李雅普諾夫(Lyapunov)指數定量地表征了相空間中兩相鄰軌線運動的發散情況,當某一序列的最大Lyapunov指數為正時,可以判定該段信號存在混沌現象[4-8]。基于此,本課題通過對MDCT域序列的最大Lyapunov指數進行統計分析,來驗證音頻信號頻域信息的非線性特性,最終實現一種基于最大Lyapunov指數的音頻信號MDCT系數混沌特性分析方法,為非線性動力學理論引入音頻信號處理領域奠定基礎。
MDCT是音頻編碼中常用的一種變換編碼技術,其原理是:將原來在時間域相關性很強的信號,經正交變換,轉化為在變換域內的一組系數,通過對變換域基矢量的選擇,大大減弱變換域系數之間的相關性,并使得信號能量主要集中在某些系數上,從而達到對數據壓縮的目的。由于采用了時域混疊消除技術,因此與傳統DCT變換相比,MDCT可以有效地減小變換域系數量化失真所造成的邊界效應。
MDCT可以定義為

式中,x(n)(n=0,1,…,N-1)表示長度為N的時域信號。為消除邊界塊效應,引入時域混疊消除技術對信號進行加窗處理,窗函數選擇正弦窗,即:

加窗后MDCT定義為

由于采用了時域混疊消除技術,時域信號在進行時頻分析時將采用50%的疊接方式進行逐幀MDCT。
由于MDCT具有良好的正交性、稀疏性以及消除塊效應的能力,本文采用MDCT作為音頻信號時頻分析的主要工具,從而為其頻域信息非線性特性的分析奠定基礎。
對于一個混沌系統來說,經過一段時間變化,其產生的運動軌跡會呈現出一定規律。而由于觀測條件的限制,通常只能通過某些實驗觀測方式來獲得表征動力學系統特性的一組時域序列。系統中任意分量的形成都是由其與之相關聯的分量所共同決定,這樣可以從某一分量中提取并重構出系統的相空間,從而恢復出原來動力學系統所表征的運動規律,這種方式稱作相空間重構技術。非線性動力學則是在重構相空間的基礎上對復雜系統運動規律展開研究的。在相空間重構過程中,通常采用時間延遲法。該方法選取適當的延遲時間,取整數倍延遲后的觀測值作為新的坐標,從而構成一個多維狀態空間。可以證明這樣的空間可以將原始混沌系統中吸引子的許多特性保存下來,同時初步確定該系統真實相空間的維數[6]。
在相空間重構過程中最重要的兩個參數分別為延遲時間 τ和嵌入維數m。由F.Takens的延遲嵌入定理可知[8],在時間序列無限長、無噪聲、無限精確的情況下,可以任意選取τ,但實際測量得到的時間序列是有限長的,且有一定的噪聲污染和測量誤差,所以只能根據經驗來選取延遲時間 τ,同時要使Xn與Xn+τ具有某種程度的獨立但又不完全無關。如果τ太小,Xn與Xn+τ的值過分靠近,以至于不能區別它們,相空間軌跡會集中在同一位置,信息被擠壓產生大量冗余;如果 τ太大,會導致Xn與Xn+τ不相關,吸引子的軌跡會投影在完全不相關的方向上,不能真實地刻畫出軌跡的規律。
序列{Xi}在時間間隔 τ下的自相關函數可以表示為

當自相關函數降低到RXX(0)的1-1/e時,可以表明相鄰τ點延遲數據之間存在的相關性較低,而系統信息不會過多的丟失,此時的 τ即為重構相空間的時間延遲。
在相空間重構過程中同時還要考慮參數嵌入維數m,同時要滿足Takens嵌入定理,即如果嵌入維數m≥2d+1,該條件是充分的,但并不是必要的,其中d為動力學系統的真實維數。如果嵌入維數m過大,雖然相軌跡可以完全展開,但會增加軌跡的計算量。本文采用虛假近鄰點法來選擇合適的嵌入維數m。隨著嵌入維數m的增加,相軌跡逐漸展開,由軌跡折疊產生的虛假近鄰點也將逐步剔除。當虛假近鄰點數不隨維數增加而減少時,證明相軌跡已經完全展開,則將此時的空間維數定義為嵌入維數m。
在m維相空間中,每個相點為X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]},都存在某個距離內最近鄰點XN,其距離為Dm(t)=‖X(t)-XN(t)‖。從相空間的維數m增加到m+1維時,這兩個相點的距離會發生變化,即:

若相點與其近鄰點之間的距離有較大變化,則可以認為是由高維奇異吸引子中兩個相鄰的點在投影到低維相空間上所造成的,此時該近鄰點記為偽最近鄰點。令Ym表示該距離的相對變化程度,即:

則若Ym>YT,XN可記為虛假最近鄰點。閾值YT可在[10,50]之間選取。
在實際測量中,從嵌入維數的最小值開始計算虛假緊鄰點的比值,當增加嵌入維數m到偽近鄰點的比值小于5%或者偽最近鄰點不再隨著嵌入維數m的增加而減少時,這時認為相空間完全展開,此時的m為最佳嵌入維數[7]。
通過以上方法對信號進行分析,可以確定其延遲時間 τ和嵌入維數m。利用這兩個參數,可以將一維觀測序列轉換到重構相空間中,構成相應的相點 X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]}。
根據非線性動力學原理可知,混沌系統對初始條件具有較強的敏感性。相空間初始距離很近的兩條軌跡會以指數速率發散,Lyapunov指數就是根據相軌跡的發散率來定量地判斷系統的混沌特性從而初步度量了復雜系統的預測性[7]。
對一維映射y(t+1)=F[y(t)],假設初始位置 y(t0)附近有一點 y(t0)+βx(t0),則經過 n次迭代后,有:

式中,t0、tn分別為預選的初始時間與當前時間。
設相軌跡上兩點之間的初始距離為 βx(t0) ,用 βx(tn) 表示經過 n次迭代后該兩點之間的距離 ,由式(8),有:

當λ>0,相鄰軌跡按指數發散,具有系統混沌特性;λ=0,系統具有周期性;λ<0,系統有穩定的不動點,不具有混沌特性。
本文采用基于Rosenstein小數據量法[7]對Lyapunov指數進行計算,對于一個音頻信號時間序列{x(i),i=1,2…,N}進行MDCT變換,利用前一節介紹的相關方法獲得延遲時間 τ和嵌入維數m,進而實現相空間重構,重構的相點記為X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]},t=1,2,…,M,其中M=N-(m-1)τ。在相空間中,尋找任意點X(t)的最近鄰點 X(t′),即 :

式中,t′=1,2,…,M,且 t≠t′,T為時間序列平均周期,d(0)代表初始時刻一對最近鄰點之間的距離。
對于相空間中的每一個X(t),計算出該點與其近鄰點在i時刻后的距離d(i):

式中,i=1,2,…,min(M-t,M-t′)。對每個時刻i,求出所有相點與其近鄰點的平均對數距離,即:

式中,q為d(i)的非零數目,Δt表示相軌跡演變步長。用最小二乘法對 x(i)和i的映射關系進行線性回歸,該斜率為最大Lyapunov指數。
根據非線性動力學相關原理可知,當某一序列的最大Lyapunov指數為正時,可以判定該段信號存在混沌現象。基于此,本文分別對不同類型音頻信號頻域序列的最大Lyapunov指數進行了統計和分析,相關實驗原理如圖1所示。

圖1 音頻頻域序列最大Lyapunov指數概率統計原理框圖Fig.1 The probability statistic diagram of maximum Lyapunov exponents for audio spectrum series
打擊樂音頻信號的最大Lyapunov指數曲線和時域波形如圖2所示。當音頻信號沒有聲音時,Lyapunov指數維持在一定正值范圍內;聲音起奏時,Lyapunov指數會迅速下降,但數值仍然為正,然后再返回到最初的數值,總體數值都為正數,所以此音頻具有混沌特性。
華覺明:就傳統工藝學科建設的建制化而言,工藝美術院校和相關研究機構已相對完善,而其他手工藝的學科建設則相當薄弱甚至有空白之處。必須正視這個事實,敦促主管部門采取措施彌補這一缺陷。專家學者具有專門的學識和廣博的視野,能把握方向,起著引領和指導的重要作用。在日本的“無形文化財”中,每一個項目都由一個專家組長期跟蹤、調查研究、監管指導。專家提出重要的措施和決策,政府主管部門給予保障,負責實施。在我國,要想盡可能地發揮專家學者的引領和指導作用,基礎在于傳統工藝的學科建設及傳統工藝學科建設的建制化。

圖2 打擊樂信號的最大Lyapunov指數曲線和時域波形Fig.2 The maximum Lyapunov exponents curve and time domainwaveform of percussion signal
管樂音頻信號的最大Lyapunov指數曲線和時域波形如圖3所示。音頻信號在從無聲到有聲突然加載聲音時,Lyapunov指數會下降,但仍為正數,隨著音頻信號的繼續輸出,Lyapunov指數趨勢較為平穩,在個別聲音突變處指數會出現向下浮動,負指數通常處在音頻過渡或者小能量信號幀中,所占概率不超過5%,圖中從統計意義上來看,音頻信號的頻域序列具有顯著的混沌特征。

圖3 管樂的最大Lyapunov指數曲線和時域波形Fig.3 The maximum Lyapunov exponents curve and time domain waveform of pipe signal

圖4 4類音頻信號的最大Lyapunov指數統計直方圖Fig.4 The histograms of the maximum Lyapunov exponents for four types of audio signals
除了對以上兩種器樂音頻信號的頻域序列最大Lyapunov指數進行了相關統計外,本文還對不同類型音頻信號最大Lyapunov指數的分布進行了直方圖統計。圖4分別表示管樂、鍵盤樂、弦樂和打擊樂的最大Lyapunov指數統計直方圖,圖5表述了語音信號最大Lyapunov指數的分布情況,可見各個類型的音頻信號頻譜序列的最大Lyapunov指數均為正數。

圖5 語音信號的最大Lyapunov指數統計直方圖Fig.5 The histogram of the maximum Lyapunov exponents for speech signal
為了進一步驗證具體器樂音頻信號的非線性特性,本文還對音頻信號頻域序列的平均最大Lyapunov指數進行了統計,如表1所示。

表1 器樂音頻信號頻域序列的平均最大Lyapunov指數Table 1 The average maximum Lyapunov exponents of the spectrum series for instrumental audio signal
由圖4、圖5和表1的統計結果可以看出,各段音頻信號最大Lyapunov指數分布大于零且平均值也大于零,并未出現負值,即便出現負值,若其概率不超過5%,在統計意義上仍可視此音頻信號具有混沌特性。
通過以上實驗可以證明,音頻信號的頻域序列具有典型的非線性特性,這為非線性動力學理論引入音頻信號處理領域奠定基礎。可以從奇異吸引子重構相空間的角度研究音頻系統的動力學特性和本質規律,并利用相關混沌理論對音頻信號的頻譜進行更加精確地分析、處理和控制,這具有很重要的理論和實際意義。
本文針對音頻信號頻域信息的非線性特性分析展開研究。首先利用MDCT來對音頻信號進行時頻分析,并基于時間延遲法利用適當的延遲時間和嵌入維數,重構出音頻信號MDCT域信息的相空間,最終實現一種基于最大Lyapunov指數的音頻信號MDCT系數混沌特性分析方法。相關統計結果證明,各類音頻信號的頻譜信息具有明顯的非線性特性,這為非線性動力學理論引入音頻信號處理領域奠定了基礎。
[1] 閆潤強.語音信號動力學特性遞歸分析[D].上海:上海交通大學,2006.YAN Run-qiang.Recurrence Analysis of Dynamical Characteristics for Speech Signals[D].Shanghai:Shanghai Jiaotong University,2006.(in Chinese)
[2] 胡水清,張宇,華一滿,等.漢語語音的非線性動力學特性分析[J].聲學學報,2000,25(4):329-334.HU Shui-qing,ZHANG Yu,HUA Yi-man,et al.Nonlinear Dynamic Characteristic Analysis of Speech for Chinese[J].Acta Acustica,2000,25(4):329-334.(in Chinese)
[3] 沙永濤.音頻頻帶擴展技術研究[D].北京:北京工業大學,2010.SHA Yong-tao.Research on Bandwidth Extension of Audio Signals[D].Beijing:Beijing University of Technology,2010.(in Chinese)
[4] Yong-tao Sha,Chang-chun Bao,Mao-shen Jia,et al.High frequency reconstruction of audio signal based on chaotic prediction theory[C]//Proceeding of IEEE International Conference on Acoustics Speech and Signal Processing.Dallas,Texas,USA:IEEE,2010:381-384.
[5] Xin Liu,Chang-chun Bao,Mao-shen Jia,et al.Nonlinear Bandwidth Extension based on Nearest-Neighbor Matching[C]//Proceeding of the Second Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Biopolis,Singapore:APSIPA,2010:169-172.
[6] 許小可.基于非線性分析的海雜波處理與目標檢測[D].大連:大連海事大學,2008.XU Xiao-ke.Sea Clutter Processing and Target Detecting Based on Nonlinear Analysis[D].Dalian:Dalian Maritime University,2008.(in Chinese)
[7] 韓敏.混沌時間序列預測理論與方法[M].北京:中國水利水電出版社,2007.HAN Min.Prediction theory and method of chaotic time series[M].Beijing:China Water Power Press,2007.(in Chinese)
[8] 劉秉正,彭建華.非線性動力學[M].北京:高等教育出版社.2004.LIU Bing-zheng,PENG Jian-hua.Nonlinear dynamics[M].Beijing:Higher Education Press,2004.(in Chinese)