成 昊,唐 斌
(電子科技大學電子工程學院 成都 611731)
盲源分離起源于雞尾酒會問題[1],即在嘈雜環境下如何通過不同傳感器接收到的混合信號,分離出各個說話者的語音信號。在這過程中,并無先驗信息或僅有較少的先驗信息可用。隨后,盲源分離被廣泛擴展到了生物醫學、雷達、通信和地震信號處理等領域。
為解決該問題,自文獻[2]提出了H-J算法后,獨立成分分析(independent component analysis, ICA)的理論體系逐漸成熟并被廣泛應用到各個領域。ICA主要利用了源信號間的獨立性假設,通過不同的角度對假設進行數學近似,從而達到盲源分離的目的。通常情況下,ICA算法多要求信號源中至多只有一個服從高斯分布。從信息極大化的角度出發,文獻[3]提出了infomax算法;為避免自適應過程中的矩陣求逆,文獻[4]提出了自然梯度算法;文獻[5]利用四階累計量矩陣,提出了特征矩陣聯合近似對角化(joint approximative diagonalization of eigenmatrix,JADE)算法;為提高計算效率,文獻[6]提出了固定點ICA算法(fixed point ICA, FPICA),又稱為快速ICA(FastICA)算法等。這些算法的出發點在于利用一定的統計信息對源信號的獨立性進行近似體現,在此基礎上實現盲源分離。通常認為,采用四階的統計信息即可較好地實現盲源分離,現有算法也大多基于四階的統計信息。因此,從統計角度來說,盲源分離算法還有一定發展空間。
在統計信號處理方面,文獻[7-12]提出了信息理論學習(information theoretic learning, ITL)的理論體系。ITL從信息論的角度,通過將傳統的香農熵(Shannon’s entropy)到雷尼熵(Renyi’s entropy)的擴展,探索了有別于傳統的矩和累計量的統計信息,并獲得了大量應用。文獻[13]指出將相關熵(correntropy)和時延信息相結合的相關熵函數(correntropy function),可以應用于對超高斯分布源和次高斯分布源組成的混合信號的分離,即信號源在峭度上需具有不同的符號,但算法中多個不同時延相關熵函數的估計使得算法復雜度較高。更進一步地,文獻[14]提出并證明了基于相關熵的獨立性測度,使得這一概念有了更完善的理論依據。
本文提出了基于相關熵的盲源分離算法,該算法不需要多個不同時延的相關熵函數的估計,而是通過利用相關熵近似體現各個源信號之間的獨立性,建立合適的代價函數,實現盲源分離。

信息理論學習采用了雷尼熵作為基礎和出發點。雷尼熵定義為:

式中,p(x)為連續隨機變量X的概率密度函數。本文主要研究X為連續隨機變量的情況。當參數a=2時,雷尼熵和信息勢變為最為常用的二次熵和二次信息勢。
采用寬度s的高斯核,利用Parzen的概率密度函數估計方法[15],可得到二次信息勢的估計為:


在信息理論學習基礎上,作為隨機變量之間的廣義相似程度的度量,定義相關熵為:

式中,k為滿足k?L¥的任意正定核。該相關熵指兩個隨機變量之間的互相關熵,為簡明起見,在下文的分析中,均直接以相關熵進行說明。
傳統的相關定義即為選取k(x,y)=xy的特殊情況,即只考慮二階統計信息。在相關熵中,通常選取k為高斯核,得到:

可以看到,相關熵可以分解為X-Y的偶數階矩的加權和,因此相關熵中蘊涵了比傳統的相關更多的信息量。此外,相對于傳統ICA方法多利用四階統計信息,相關熵更廣泛地考慮到了各偶數階統計信息,提供了更有效實現盲源分離的可能。

式中,a和b為任意實數,且要求a10。該定義的提出允許對聯合概率密度函數的積分可以沿平面上任意斜率的直線進行,且該直線不需要一定經過平面原點,其估計為:

此外,由于核的性質造成的非線性變換的存在,即使輸入數據已經被中心化的情況下,得到的相關熵也并非總是零均值。因此,定義中心相關熵:

從而將信息勢與相關熵的概念聯系起來。
將式(13)的參數化相關熵與式(15)的中心相關熵結合起來,得到參數化中心相關熵:

在信息理論學習中,核寬度s是其中的一個自由參數。在核寬度的選取上,一個建議的準則為Silverman準則(Silverman’s rule):

式中,T為數據長度;d為數據維度;xs為數據標準差。實際中,根據不同情況,選取不同的核寬度,可能會得到更好的性能。
在概率論中,傳統的對隨機變量間的獨立性是通過概率密度函數定義的,即:

考慮由超高斯信號和次高斯信號混合得到的兩路接收混合信號,按照常規的分離流程,首先對其進行球化,以去除其中的二階相關并使得各路信號功率相同,得到預處理后的信號%x。此后的解混矩陣為一正交矩陣,可表示為旋轉角度的形式:

選取g(X,Y)作為代價函數,通過梯度下降法對其進行最小化,得到對應的旋轉角q,從而獲得恢復信號y。算法使得對解混矩陣中四個元素的尋優轉化為對標量q的尋優,降低了計算維數。
算法的具體流程如下:
1) 對接收到的混合信號x進行球化,得到預處理后的信號;
2) 選取初值0q和小的角度增量Dq,計算:


在本文的計算機仿真中,分別采用拉普拉斯分布源和均勻分布源生成超高斯源信號和次高斯源信號。拉普拉斯分布的概率密度函數為:

這里不考慮盲分離中可能會出現的分離信號的反號與排序問題,即選擇所有可能組合中最大的平均信干比作為輸出。
實驗1中,對于數據長度為1 000的兩路源信號,在不同的旋轉角下分別計算代價函數,關系曲線如圖1所示。由于在盲分離中不考慮反號與排序問題,旋轉角范圍選擇為由圖1看到,代價函數在旋轉角接近零時最小,近似體現了源信號之間的獨立性;此外,代價函數與旋轉角的關系曲線僅存在一個全局最小值,因此采用梯度下降法不會陷入局部最優。

圖1 代價函數與旋轉角度關系曲線
實驗2對本算法的分離效果進行了仿真,數據長度為1 000的源信號、混合信號以及利用本算法的分離信號如圖2所示??梢灾庇^看出,不考慮分離信號可能會出現的反號和排序問題,本算法有效地進行了分離。此外,在該次實驗中,通過計算得到輸出信干比為23.5 dB。

圖2 源信號、混合信號與分離信號
實驗3研究了核寬度的選取對于算法性能的影響,關系曲線如圖3所示。其結果為100次仿真取平均值,數據長度為1 000??梢钥吹?,在有無噪聲情況下,本算法的性能受核寬度影響均不明顯。
實驗4研究了算法性能與數據長度的關系,并與傳統的FPICA算法進行對比,其結果為100次仿真取平均值,如圖4所示??梢钥吹剑瑹o噪聲情況下,本文算法與FPICA算法類似,數據長度越長,算法性能越好,在數據長度接近1 000時,相對于傳統的ICA算法,本文算法的性能優勢開始體現。當輸入中帶有噪聲時,兩種算法性能出現明顯降低,表明本文算法和傳統ICA算法類似,對噪聲較為敏感。在信噪比為30 dB時,較無噪聲情況,輸出信干比下降已較為嚴重,但本算法在數據長度接近1 000時,性能仍然優于FPICA算法。當信噪比降至20 dB時,兩種算法的輸出信干比進一步下降,且幾乎與數據長度無關。此時的輸出信干比約為5 dB,分離效果受到較大影響。在此情況下,本算法相對于FPICA算法優勢已經不再明顯。

圖3 輸出信干比與核寬度關系曲線

圖4 超高斯分布源與次高斯分布源混合時輸出信干比與數據長度關系曲線
實驗5在實驗4的基礎上,將源信號中作為次高斯源的均勻分布源信號替換為一個雷達中常見的線性調頻(LFM)信號,使其具有了時間結構。LFM信號的歸一化起始頻率為0.105,歸一化帶寬為0.082,仿真結果如圖5所示。與實驗4類似,在無噪聲和信噪比30 dB時,數據長度越長,算法性能越好。在數據點數接近1 000時,相對于傳統的ICA算法,本算法具有性能優勢。同樣,當信噪比降至20 dB時,兩種算法分離性能均受到較大影響,且幾乎不受數據長度影響,本算法相對于FPICA算法優勢已不再明顯。

圖5 超高斯分布源與LFM信號混合時輸出信干比與數據長度關系曲線
本文從信息理論學習原理出發,基于相關熵與獨立性測度的關系,在傳統ICA方法多使用四階統計信息的基礎上,利用相關熵對其進行了擴展,實現對超高斯混合信號和次高斯混合信號的分離。仿真表明,本文算法優于傳統的ICA算法。同時也表明算法受到核寬度選取的影響不大。但本文算法討論的是對于超高斯分布源和次高斯分布源的分離,下一步的研究內容為如何在源信號峭度符號相同時進行分離,以便擴展到更多數目源信號的盲源分離中。
作者在與Jose Principe、Sohan Seth和Ruijiang Li等人的交流中受益匪淺,在此表示感謝。
[1] CHOI S, CICHOCKI A. Adaptive blind separation of speech signals: cocktail party problem[C]//Proc International Conference on Speech Processing. Seoul, Korea: [s.n.], 1997:617-622.
[2] JUTTEN C, HERAULT J. Blind separation of sources, part I:an adaptive algorithm based on neuromimetic[J]. Signal Processing, 1991, 24(1): 1-10.
[3] BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution[J].Neural Computation, 1995(7): 1129-1159.
[4] AMARI S. Natural gradient works efficiently in learning[J].Neural Computation, 1998, 10(2): 251-276.
[5] CARDOSO J F. High-order contrasts for independent component analysis[J]. Neural Computation, 1999, 11(1):157-192.
[6] HYV?RINEN A. Fast and robust fixed-point algorithms for independent component analysis[J]. IEEE Trans Neural Networks, 1999, 10 (3): 626-634.
[7] HILD II K, ERDOGMUS D, TORKKOLA K, et al. Feature extraction using information-theoretic learning[J]. IEEE Trans Pat Analy Mach Intell, 2006, 28(9): 1385-1392.
[8] SANTANA E, PRINCIPE J C, SANTANA E E, et al.Extraction of signals with specific temporal structure using kernel methods[J]. IEEE Transactions on Signal Processing,2010, 58(10): 5142-5150.
[9] PRINCIPE J. Information theoretic learning: renyi's entropy and Kernel perspectives[M]. New York: Springer, 2010.
[10] GUNDUZ A, HEGDE A, PRINCIPE J C. Correntropy as a novel measure for nonlinearity tests[J]. Signal Processing,2009, 89(1): 14-23.
[11] JEONG K H, LIU W, PRINCIPE J. The correntropy MACE filter[J]. Pattern Recognition, 2009, 42(5): 871-885.
[12] VERA P A, ESTEVEZ P A, PRINCIPE J C. Linear projection method based on information theoretic learning[C]//ICANN'10 Proceedings of the 20th international conference on Artificial neural networks: Part III. Thessaloniki, Greece: [s.n.], 2010: 178-187.
[13] LI R, LIU W, PRINCIPE J C. A Unifying criterion for instantaneous blind source separation based on correntropy[J]. Signal Processing, 2007, 87(8): 1872-1881.
[14] RAO M, SETH S, XU J, et al. A test of independence based on a generalized correlation function[J]. Signal Processing, 2011, 91(1): 15-27.
[15] PARZEN E. On the estimation of a probability density function and the mode[J]. Ann Math Statist, 1962(33):1065-1067.