(天津大學 機械工程學院, 天津 300072)
摘 要:新穎檢測中,可應用高斯混合模型建立已知數據模型,擬合數據分布,但當數據維數較高時,自由參數太多,訓練需要巨大的數據采樣,而ICA搜尋數據的最大統計獨立表示,可以將數據從高維空間投影到低維空間。提出一種基于ICA空間高斯混合模型的新穎檢測,可有效減少估測的自由參數,降低訓練數據采樣的苛刻要求,實驗也驗證了該方法的可行性。
關鍵詞:新穎檢測; 獨立成分分析;高斯混合模型
中圖分類號:TN919 文獻標志碼:A
文章編號:10013695(2009)03114204
Novelty detection based on Gaussian mixture models in ICA space
PEI Zhijun, TAO Jianhua
(School of Mechanical Engineering, Tianjin University,Tianjin 300072, China)
Abstract: A novelty detector learns the model of normality in the training stage using only normal samples and abnormalities are then identified by testing for novelty against that model. Gaussian mixture models can be used to model data general distributions for novelty detection. But given high data dimensionality, a very large number of training samples are needed for modeling, there are also too many free parameters. ICA is a subspace projection technique that can project data from a highdimensional space to a lowerdimensional space by computing independent components of the data. So this paper proposed a novelty detection based on Gaussian mixture models in ICA space, which could improve the dimension curse problem and decrease the free parameters. The method is verified by the experiments.
Key words:novelty detection; independent component analysis(ICA); Gaussian mixture models(GMM)
一般地,將機器學習系統訓練時沒有學習的未知新數據的識別稱為新穎檢測[1]。 測試數據有時包含訓練模型時未知的目標信息, 這使得新穎檢測對良好識別系統非常重要。在監督學習系統中,常假設測試數據屬于已知類之一,根據訓練獲得的已知類模型,未知測試數據被分配到相應的類。然而, 機器學習系統訓練時,往往很難獲得可能遇到的所有目標類數據, 測試采樣有可能不屬于已知類,這種情況下,新穎檢測可將測試采樣分配到已知類或未知類,分配到未知類的采樣即新穎。 新穎檢測可應用于信號處理、計算機視覺、模式識別、數據挖掘、機器人等領域[2~5]。新穎檢測中,建立已知數據的合適模型十分重要,已提出許多方法如統計模型、神經網絡、支持向量等。其中高斯混合模型 (GMM) 的統計方法基于概率模型無監督學習聚類,可以擬合數據的一般分布,已應用于測試數據的新穎檢測[1]。但當數據維數較高時,GMM訓練需要巨大數據采樣,計算復雜,且當訓練數據有限時,自由參數太多。為了克服傳統高斯混合模型的缺陷,本文提出一種基于ICA空間高斯混合模型的新穎檢測。ICA搜尋數據的最大統計獨立表示, 可以將數據從高維空間投影到低維空間[6],因而在ICA空間,高斯混合模型的自由參數有效減少,也降低了訓練數據巨大、采樣的苛刻要求,從而可進行快速有效的新穎檢測。
1 ICA
ICA是一種揭示隨機變量、測量或信號集合中潛在的隱藏因子的統計和計算技術。ICA技術是一個相對新的發明,20世紀80年代早期在神經網絡模型內容中首次被介紹[7]。90年代中期,幾個研究小組介紹了一些高度成功的新算法,并演示了給人深刻印象的雞尾酒會派對問題,使ICA獲得了更廣泛的關注[8]。隨后,FastICA算法的提出[9],由于算法的計算有效性,使ICA可應用于更大尺度的問題。在神經網絡領域、無監督學習、先進統計和信號處理等領域,ICA成為令人振奮的新研究熱點之一。ICA最初開發用于解決音頻信號分析的BSS (blind source separation)問題,隨后BSS方法擴展應用于經濟數據分析、電信、人臉識別等領域。ICA已經擴展成為一般的數據表示方法之一。
數據的表示方法影響所描述的模式和提取的信息。PCA(principal component analysis)是一個廣泛應用的表示和壓縮數據的統計工具,應用數據的協方差信息,通過發現數據的固有正交坐標系,盡可能保存最大量的數據方差,發現數據分布的低維表示。PCA通過發現正交坐標框架,使協方差矩陣對角化,使得不能夠被協方差描述的結構如聚類可能未被正確保留。一個自然坐標框架不一定必須是建立在歐式距離上的正交框架,去掉正交限制,投影到獨立軸,可獲得更自然的表示,保留聚類結構。ICA是PCA技術的一般化,除二階矩外,還將更高階統計去相關,搜尋一個數據的最大統計獨立表示,可以將數據從高維空間投影到低維空間。
已提出許多計算ICA的算法,如FastICA、InfoMax等。FastICA算法中,獨立成分計算通過峰態(kurtosis)最大化處理,使被白化數據分布的非高斯性最大化。設S是未知源信號矢量,X是所觀測的信號混合,A是未知混合矩陣,則混合模型為
X=AS。
通過計算分離矩陣W,估測獨立源信號U,則
U=WX=WAS
算法中,首先將觀測的采樣白化,被白化的采樣用Z表示;然后,搜尋矩陣W使得被白化的采樣通過矩陣的線性投影具有最大的數據分布非高斯性。
Ui=WiTZ, Kurt(Ui)=|E{(Ui)4}-3(E{(Ui)2})2|
分離矢量Wi由最大化Ui的kurtosis獲得。
許多自然信號如自然圖像、語音等可更好地描述為具有長尾分布稀疏源的線性組合,此時,ICA比PCA具有潛在優勢。ICA提供了一個更好的數據模型,發現所觀測數據的重要集中方向,可看做一種形式的聚類分析;ICA對數據高階統計特性敏感,而不僅是協方差矩陣;ICA基矢量非正交,改變了數據點間的相對距離,ICA基矢量也改變了數據點間的角度,影響了相似性測量如余弦,這種度量變化可能對分類算法具有潛在益處。ICA引入的度量優于PCA,可以提供一個對噪聲影響更強健的表示[10]。
2 ICA空間高斯混合模型
模式分析和識別中,為了從數據提取信息,可以假設數據產生于數據產生器的混合,混合模型提供了一個基于概率模型的無監督學習聚類方法。混合模型中,成分數目的合理選擇十分重要,成分數太多,混合過擬合數據;而成分太少,混合可能不能足夠近似真實的潛在模型。EM(expectation maximum)算法常用于混合模型到觀測數據的擬合,收斂于混合參數的最大似然估測。文獻[11]中提出一種有限混合模型估測準則及執行算法,能夠自動選擇成分數目,相對于EM算法,對初始化不敏感。設Y=[Y1,…,Yd]T是d維隨機變量,服從k個成分有限混合分布,y=[y1,…,yd]T是Y的采樣,它的概率密度函數可以表示為p(y|θ)= km=1amp(y|θm)。其中:a1,…,ak是混合概率;θm 是第m個成分的參數集合,θ≡{θ1,…,θk,a1,…,ak}是混合模型的參數集合,且有am≥0,m=1,…,k,km=1am=1。
給定n個相互獨立的相同分布的采樣,Y={y(1),…,y(n)},相應地k成分混合分布的似然對數可表示為log p(Y|θ)=ni=1logkm=1amp(y(i)|θm)。
數據集合Y根據概率分布p(Y|θ)產生、編碼和發送,則信息長度可表示為L(θ,Y)=L(θ)+L(Y|θ)。
應用基于最小信息長度( minimum message length criterion,MML)準則估測參數,即
θ^=argminθ L(θ,Y)
L(θ,Y)=N/2 m,am>0log(nam/12)+knz/2+log( n/12)+[(N+1)/2-log p(Y|θ)
其中:N是每一個成分的參數數目,如θm的維數;knz是非零概率成分的數目。
算法基于MML類似準則,通過改進的EM算法執行,沒有采用MML作為模型選擇準則,而將估測和模型選擇無縫集成在單一算法。在M步驟,當一個成分太弱不被數據支持時,則被泯滅。對于高斯混合模型情況,每一個產生器都是高斯分布。考慮具有任意協方差矩陣的d維高斯混合,有
p(y|θm)=(2π)-d/2/|Cm|e-1/2(y-um)TCm-1(y-um)≡N(um,Cm)
則θm=(um,Cm)。EM算法基于Y是非完全數據,E步驟計算給定Y和當前估測θm^(t)條件下完全對數似然的條件期望。對于zm(i)=1,zp(i)=0,p≠m, 采樣y(i)由第m個成分產生,有
wm(i)=E[zm(i)|Y,θ^(t)]=Pr[zm(i)=1|y(i),θ^(t)]
M步驟為
u^m(t+1)=(ni=1wm(i))-1ni=1y(i)wm(i)
C^m(t+1)=(ni=1wm(i))-1×ni=1(y(i)-u^m(t+1))(y(i)-um^(t+1))Twm(i)
iwm(i)可以看做分配到m成分采樣點的等效數目,即N=d+d(d+1)/2。意味著iwm(i)的最小值,即支持成分m需要分配到該成分的數據,隨維數的平方而增加。為了保證獲得給定誤差概率,所需要的采樣數隨特征空間維數近似二次增加。
高斯混合模型中,隨著空間維數d的增加,協方差矩陣的尺度d2變得巨大而難以承受。 為了保證獲得給定誤差概率,所需要的數據采樣數目也大大增加。另外,如果給定足夠多成分,高斯混合模型雖然能夠擬合任何分布,但成分數太多,易過擬合數據。由于ICA技術的潛在優勢,可以在ICA特征空間應用GMM聚類分析。ICA探尋從數據提取顯著特征和結構,可以將數據從高維空間投影到低維空間,有效減小了協方差矩陣的尺度,降低了對采樣數目的要求。在ICA特征空間,所提取的成分最大統計獨立,使得協方差矩陣簡化,理想情況下,只有在對角線存在非零值, 使得需要估測的參數大大減少,更一步降低了對采樣數目的要求。此外,在稀疏源情況,ICA發現所觀測數據的重要集中方向,可看做一種形式的聚類分析,使得GMM聚類更有效。
3 基于ICA空間GMM的新穎檢測
新穎檢測不同于傳統的分類方法。在異常檢測應用中,存在正常和異常兩類模式。其中異常意味著缺陷或故障的發生。應用傳統監督方式的分類方法需要大量的采樣,訓練學習依賴于所有模式類的采樣。 雖然傳統分類方法可以在理論上和應用中表現出令人期望的精度,但實際應用中很難搜集獲得足夠數量的缺陷采樣來構建訓練所需的異常數據集合,并且一些缺陷只在生產中發生,常常不可預測。另一方面,獲得一個正常數據集合更容易,而新穎檢測只需要定義正常類。訓練時,新穎檢測只采用正常數據集合學習常態模型。檢測時,應用學習獲得的常態模型測試未知模式,探測新穎,從而識別異常。通常,在幾何意義上,缺陷類表現出與正常類較大的距離。 新穎檢測的主要挑戰在于適合于特定應用的已知數據模型的描述和閾值定義。對于新穎檢測,雖然已提出統計模型、神經網絡等許多方法,但不存在單一的最好模型,新穎檢測性能與所采用的方法和處理數據的統計特性密切相關[12]。
GMM可以采用比訓練模式較少的高斯核估測數據概率密度,從而模擬數據的一般分布。許多研究應用GMM進行新穎檢測,如醫學X光檢查、發動機故障檢測、傳感器故障探測、奇異點檢測等[1],但大多受維數“詛咒”問題困擾,當數據維數高時,訓練模型需要非常大量的采樣。但在一些實際應用中,可獲得的訓練數據有限,而概率模型的良好估測,輸入特征矢量的數目必須遠大于數據維數,這種情況下,保持數據的維數相對較小非常重要。當訓練集合中采樣數目較少時,難以應用傳統的GMM方法,可應用ICA技術將數據變換到更低維數的ICA特征空間,采用ICA空間GMM,可有效改善維數“詛咒”問題,從而進行有效的新穎檢測。基于ICA空間高斯混合模型的新穎檢測具有訓練學習和檢測兩種工作模式,分類基于最小馬氏(Mahalanobis)距離準則。
訓練學習模式:
a)應用ICA算法從非缺陷數據集合獲得混合矩陣A、去混合矩陣W。
b)對正常模式訓練數據,計算ICA特征矢量。
c)在ICA空間,應用上述有限混合模型算法進行GMM聚類,估測類數目、各類的均值μ和σ方差參數。在ICA空間,GMM模型中,高斯核的協方差矩陣可近似為對角矩陣
Cm=diag(σm1,σm2,…,σmN)。
檢測模式:
a)對測試數據計算特征矢量Si, 并作為列構成矩陣S。
b)計算S每一列(對應著一個ICA特征矢量)和學習獲得的各類間的最小馬氏距離ds。
dm=((S-μm)TCm-1(S-μm))1/2, ds=min(d1,d2,…,dnz)
c)如果距離ds超過某閾值,則將該ICA特征矢量對應的測試數據矢量分類為異常,即新穎模式。
4 實驗和討論
為了驗證所提出的基于ICA空間高斯混合模型的新穎檢測方法,當前應用MATLAB平臺進行了實驗。首先采用文獻[11]研究非監督學習有限混合模型所討論的二維數據集合進行實驗。該數據集合由四個高斯核混合產生,混合模型中,混合概率a1=a2=a3=0.3,a4=0.1,均值和協方差矩陣分別為
μ1=-4-4, C1=1 0.50.5 1,μ2=-4-4, C2=6 -2-2 6
μ3=22,C3=2 -1-1 2, μ4=-1-6, C4=0.125 00 0.125
訓練學習時,先對數據進行歸一化處理,并應用FastICA算法計算矩陣A、W及相應的ICA特征矢量,然后在ICA空間應用GMM聚類,算法采用文獻提出的有限混合模型算法。結果如圖1所示。
顯然,在ICA空間所估測的混合模型最佳高斯核的數目為4,數據變換到ICA空間,仍然具有較好的聚類特性。所估測的高斯核的協方差矩陣分別如下:
C^1=0.080 6 0.009 30.009 3 0.078 8
C^2=1.637 5 -0.005 9-0.005 9 0.199 1
C^3=0.681 9 0.009 20.009 2 0.061 7 C^4=0.022 1 -0.000 1-0.000 1 0.007 2
可見,均近似為對角矩陣。因而算法中,GMM模型高斯核的協方差矩陣可以用對角矩陣近似,從而簡化了計算,降低了對大量采樣數據的苛刻要求。
測試時,將學習獲得的GMM模型作為正常類,任選一個高斯核隨機產生測試數據,計算各測試數據與正常類的最小馬氏距離ds,其中選第三個高斯核隨機產生測試數據(正常數據)獲得的ds如表1所示。為了比較,將第三個高斯核隨機產生數據作為異常測試數據,訓練數據僅由其余三個高斯核混合產生。這時通過計算獲得的各測試數據與正常類的最小馬氏距離ds也如表1所示。可見,異常類表現出與正常類相當大的距離,可以根據應用確定合適閾值進行數據新穎檢測。
圖像可簡單地直接采用高維空間的點表示,但圖像中一般存在大量冗余,鄰域像素高度相關。為了消除冗余,圖像還可以應用子空間表示,子空間中的點對應著原始圖像的稍微變換。ICA搜尋數據的最大統計獨立表示,可以將數據從高維空間投影到低維空間,因此,圖像子空間表示可用ICA描述,基于ICA空間高斯混合模型可應用于圖像數據新穎檢測。實驗中,圖像數據采用COIL100數據庫中的目標圖像[13],該數據庫中目標圖像尺寸為128×128,共100類目標圖像,每類采樣數72。選其中的1~10類目標圖像作為新穎檢測的正常圖像用于訓練,如圖2所示。訓練時,每類目標中的每一個采樣圖像均表示為16 384維空間中的特征點,所有目標圖像采樣的特征矢量構成訓練輸入數據的集合,然后計算ICA特征矢量,將輸入圖像數據從高維空間變換到低維ICA空間。ICA空間維數選擇與應用相關,實驗中取25維。隨后GMM聚類,估測混合模型中的參數。
測試時,將測試圖像同樣表示為1282維空間中的特征點,構成測試輸入數據的集合,計算ICA特征矢量及與正常類的最小馬氏距離ds。為了比較,測試目標圖像分別任意選自訓練時的正常類和數據庫中其他類。當測試目標圖像從正常類采樣時,如目標1、目標2、目標10,計算獲得的各測試數據與正常類的最小馬氏距離ds分別如表2所示。
當測試目標圖像從其他非正常類采樣時,如目標11、51、71、81(圖3)計算獲得的各測試數據與正常類的最小馬氏距離ds,分別如表3所示。可見,ICA空間,非正常類采樣目標圖像與正常類的馬氏距離ds相比,正常類目標采樣情況大得多,可以根據應用確定合適的閾值進行圖像數據新穎檢測。
5 結束語
新穎檢測不同于傳統的分類方法, 只需要定義正常類, 應用學習獲得的常態模型測試未知模式,探測新穎,從而識別異常。新穎檢測中,建立已知數據的合適模型十分重要,GMM的統計方法基于概率模型無監督學習聚類,可以擬合數據的一般分布,但當數據維數較高時,GMM訓練需要巨大數據采樣,計算復雜,且當訓練數據有限時,自由參數太多。為了克服傳統高斯混合模型的缺陷,本文提出一種基于ICA空間高斯混合模型的新穎檢測。ICA搜尋數據的最大統計獨立表示,可以將數據從高維空間投影到低維空間,在ICA空間,高斯混合模型的自由參數有效減少,也降低了訓練數據巨大采樣的苛刻要求,從而可進行快速有效的新穎檢測。通過二維數據和圖像數據的實驗,驗證了所提出方法的可行性。
參考文獻:
[1]MARKOU M,SINGH S. Novelty detection: a review[J]. Signal Processing, 2003, 83(12):24812521.
[2]NETO H V,NEHMZOW U.Visual novelty detection with automaticscale selection[J].J Robotics and Autonomous Systems,2007,55:693701.
[3] MARKOU M, SINGH S. A neural networkbased novelty detector for image sequence analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(10):16641677.
[4]GARDNER A B,KRIEGER A M.Oneclass novelty detection for seizure analysis from intracranial EEG[J].Journal of Machine Learning Research,2006,7:10251044.
[5]MARSLAND S, NEHMZOW U, SHAPIRE J. Online novelty detection for autonomous mobile robots[J].J Robotics and Autonomous Systems, 2005,51:191206.
[6]HYV¨ARINEN A,OJA E.Independent component analysis algorithms and applications[J].Neural Networks, 2000,13(45):411430.
[7]ANS B,J H′ERAULT,C JUTTEN.Adaptive neural architectures:detection of primitives[C]// Proc of COGNITIVA’85.1985:593597.
[8]BELL A J,SEJNOWSKI T J.An informationmaximization approach to blind separation and blind deconvolution[J].Neural Computation,1995,7(6):11291159.
[9]HYV¨ARINEN A.Fast and robust fixedpoint algorithms for independent component analysis[J].IEEE Trans on Neural Networks,1999,10(3):626634.
[10]BARTLETT M S, MOVELLAN J R,SEJNOWSK T J.Face recognition by independent component analysis[J].IEEE Trans on Neural Networks,2002,13(6):14501464.
[11]MARIO A T,ANIL K J.Unsupervised learning of finite mixture models[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2002,24(3):116.
[12]NAIRAC A,CORBETTCLARK T,RIPLEY R,et al.Choosing an appropriate model for novelty detection[C]// Proc of the 5th IEE International Conference on Artificial Neural Networks.[S.l.]:IEEE Press,1997:227232.
[13]COIL100數據庫[DB/OL].[20080508].http:// www1.cs.columbia.edu/CAVE/software/softlib/coil100.php.