錢冬,王蓓,張濤,王行愚
(1.華東理工大學 信息科學與工程學院,上海 200237; 2.清華大學 自動化系,北京 100086)
結合Copula理論與貝葉斯決策理論的分類算法
錢冬1,王蓓1,張濤2,王行愚1
(1.華東理工大學 信息科學與工程學院,上海 200237; 2.清華大學 自動化系,北京 100086)
摘要:傳統的貝葉斯決策分類算法易受類條件概率密度函數估計的影響,可能會對分類結果造成干擾。對此本文提出來一種改進的貝葉斯決策分類算法,即Bayesian-Copula判別分類器(BCDC)。該方法無需對類條件概率密度函數的形式進行假設,而是將Copula理論和核密度估計相結合進行函數構建,利用核密度估計平滑特征的概率分布,概率積分變換將特征的累計概率分布轉化為均勻分布,Copula函數構建2個類別的邊緣累積分布之間的相關性。隨后,用極大似然估計方法確定Copula函數的參數,貝葉斯信息準則(BIC)用于選擇最合適的Copula函數。通過生物電信號的仿真實驗進行模型驗證,結果表明相比傳統的概率模型,提出的分類算法在分類精度和AUC兩個性能指標上表現較好,魯棒性更強,說明了BCDC模型充分利用Copula理論和核密度估計的優點,提高了估計的準確性和靈活性。
關鍵詞:機器學習;貝葉斯決策理論;Copula理論;核密度估計;生物電信號
中文引用格式:錢冬,王蓓,張濤,等.結合Copula理論與貝葉斯決策理論的分類算法[J]. 智能系統學報, 2016, 11(1): 78-83.
英文引用格式:QIAN Dong, WANG Bei, ZHANG Tao, et al. Classification algorithm based on Copula theory and Bayesian decision theory[J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 78-83.
機器學習在人工智能領域的研究中具有十分重要的地位。目前,其應用已遍及人工智能的各個分支,如模式識別、計算機視覺、數據挖掘、醫學診斷、自然語言處理等領域[1-6]。概率模型則是模式識別中被研究較多的一類模型,它給予了數據產生的復雜現象和內在機理的描述方式。其中,貝葉斯理論是基于概率表達的機器學習的主要工具,其認為:先驗信息反映了試驗前對總體參數分布的認識,在觀察到樣本信息后,對此認識有了改變,其結果反映在后驗信息中,后驗信息綜合了樣本信息和參數的先驗信息[7]。
產生式模型(generative model)和判別式模型(discriminative model)是2個比較常見的有監督學習的分類模型。產生式模型可以指定數據結構的先驗信息,但需要對觀測數據建立正確的模型,而不是對類別分布進行建模,如貝葉斯決策理論;判別式模型則是通過最大化類別的概率學習模型,如Logistic Regression (LR)[8-9]。然而,在實際使用中,貝葉斯決策理論仍然存在著一定的局限性。
貝葉斯決策理論是解決模式分類問題的一種基本統計方法。該理論的出發點是利用概率的不同分類決策與相應的決策代價之間的定量折中;目的則是對未知的數據所屬的類別做出判決[10]。由于缺乏對于數據結構的信息,貝葉斯決策理論中類條件概率密度函數通常是很難準確估計的。
目前,估計類條件概率密度函數的方法主要有2種,但兩者都是基于一定的假設條件。第一種是假設類條件概率密度函數服從多元高斯分布,簡稱為高斯判別分類器(Gaussian discriminant classifier, GDC)[11]。然而,多元高斯分布的邊緣分布是一元高斯分布,該一元高斯分布并非和實際特征的概率分布相吻合。所以,該假設條件并不能準確地表現出多元變量的依賴結構。更重要的是,多元高斯分布中的協方差矩陣只能反映出各個特征之間的線性關系,難以精確地描述特征之間的非線性關系。第2種則是基于樸素貝葉斯條件獨立的特點,假設類條件概率密度函數服從若干個一元高斯分布,簡稱為高斯樸素分類器(Gaussian naive Bayes classifier, GNBC)[12]。該假設條件雖然可以有效地減少參數估計的個數,但它過于簡單,直接忽略了各個特征之間的依賴結構。因此,該方法也不能準確地估計出多個特征的聯合分布。
由上述可知,現有的估計方法都存在著一定的不足和局限性。本文考慮了特征之間存在的依賴關系,提出了將貝葉斯決策理論和Copula理論相結合的分類器,簡稱為Bayesian-Copula判別分類器。該模型將Copula函數和核密度估計相結合構建類條件概率密度函數。Copula函數能夠描述變量間的線性或者非線性相關性,該理論表明多元聯合分布函數可以通過Copula函數和任意的隨機變量的邊緣分布函數構建[13-15]。而核密度估計則是一種非參數估計方法,它不需要假設概率分布的形式,可以直接計算得到概率密度值[16]。最后,將改進的BCDC算法用于生物電信號分類識別的實際問題中進行模型的驗證。由于從生物電信號中提取的特征之間存在依賴關系,在分類精度和AUC兩個指標上,相比于傳統的GDC、GNBC和LR模型,所提出的方法呈現出更好的分類效果。因此,該模型可以被用于處理特征間存在一定的相關性的實際問題,為機器學習問題提供了一種新的方法。
1Bayesian-Copula 判別分類器
1.1貝葉斯決策理論
貝葉斯決策理論表明對未知的數據x所屬的類別做出判決,可以通過計算x屬于某一個類別的概率值得到,因此通過貝葉斯公式,該概率值可表示為

(1)
式中:x表示特征向量,即x={x1,x2,…,xn},n為特征的個數,K為類別個數,P(Ck)是類別Ck的先驗概率,P(Ck|x)則是相應的后驗概率,p(x|Ck)是類條件概率密度函數。此外,p(x)僅僅是一個標量,以保證各類別的后驗概率總和為1。貝葉斯公式表明,通過觀察數據x,先驗概率可以轉換為后驗概率。
根據最小化誤差概率的準則,未知數據x將被歸于后驗概率P(Ck|x)最大的類別。考慮到p(x)只是一個標量因子,所以式(1)可以簡化為
(2)
注意到,在式(2)中,后驗概率P(Ck|x)主要由先驗概率P(Ck)和類條件概率密度函數p(x|Ck)的乘積所決定。先驗概率P(Ck)可以經驗性地獲得,計算在訓練數據中屬于某一類別的數據個數,再除以訓練數據的總個數即可得到。
在下面小節中,我們將通過Copula函數和核密度估計的方法來構建類條件概率密度函數。
1.2Copula理論
近年來,在統計領域里,Copula理論引起了研究者的關注。該理論可以理解為:多維隨機變量的聯合分布函數可以分解成若干個一維的分布函數和一個Copula函數,而Copula函數則將若干個分布函數連接起來,它可以描述隨機變量間的依賴關系。目前,該理論被廣泛應用于經濟、金融等領域[17-18]。Sklar定理是Copula理論的核心部分,也是Copula理論在統計學中應用的基礎,在建立聯合分布函數和它們相應邊緣分布函數之間的關聯中起著關鍵的作用。
定理 (Sklar定理 (1959)):令H為n個隨機變量X1,X2, …,Xn的聯合分布函數,令F1(x1),F2(x2), …,Fn(xn)為隨機變量的邊緣分布函數,如果所有的邊緣分布函數都是連續的,那么存在唯一一個Copula函數C滿足:
(3)
聯合密度函數h被定義為
(4)
(5)
式中:c(F1(x1), …,Fn(xn))是一個n維的Copula密度函數,fi(xi)則是每個隨機變量的密度函數。
推論如果C是一個Copula函數,C的值域為[0,1]n,F1(x1),F2(x2), …,Fn(xn)為隨機變量的邊緣分布函數,那么C(F1(x1), …,Fn(xn))可以定義一個聯合分布函數。
通過Copula理論,式(2)可以被推導出
(6)
式中:θ是Copula密度函數的參數,右邊第1項表示屬于類別Ck的Copula密度函數,右邊第2項表示屬于類別Ck的核密度函數。
Copula函數連接的是每個特征的累積分布函數Fi(xi),而累積分布函數的值域是[0,1],因此,當每個特征都是連續的隨機變量時,需對數據進行概率積分變換,計算出每個特征的經驗累積分布,該方法可以使任意給定的分布轉換為均勻分布。
1.3邊緣分布估計
式(4)表明,一個聯合概率密度函數可以分解為一個Copula密度函數和n個邊緣密度函數。非參數估計的方法,如直方圖和核密度估計,可以直接利用樣本來估計變量的密度函數。考慮到直方圖的缺點,核密度估計被用來估計每個特征的概率密度函數。假設有N個樣本xi,對于一個新來的樣本x,核密度估計的方法可以定義為
(7)
式中:K(·)是核函數,h是平滑參數,本文中,采用高斯核函數,因此,式(7)可以表示為
(8)
1.4Copula函數參數估計
采用極大似然估計的方法對Copula密度函數的參數θ進行估計,可以得到θ的估計值:
(9)
此外,為了校準參數θ,我們充分使用了隨機數的性質,從估計的Copula密度函數中生成10 000個隨機數,然后用極大似然估計的方法對生成的隨機數重新進行參數擬合,估計出最終的參數θ。
1.5模型選擇
目前廣泛使用的Copula密度函數主要分為兩大類:elliptical Copulas和Archimedean Copulas。在本文中,主要使用的是elliptical Copulas中的多元Gaussian Copula函數和多元Student-t Copula函數。
通常,Copula模型的選擇會對后續步驟造成一定的影響。因此,貝葉斯信息準則(Bayesian information criterion, BIC)用來對Copula模型進行選擇,它是模型擬合程度和模型復雜度之間的權衡,BIC值較小的Copula密度函數會被用于構建類條件概率密度函數。
(10)
式中:L(θ*)是估計的似然值,m表示Copula密度函數中參數的個數,k表示數據的個數。
2生物電信號的分類識別
通過檢測受試者在白天短時睡眠過程中的困倦狀態(drowsiness)和覺醒狀態(alertness)這一個實際問題,驗證所提出方法的有效性。通常對生物電信號問題進行分析和識別,需要經過信號的數據采集、特征提取和模式分類3個步驟[19-22]。考慮到從生物電信號中提取的特征參數能反映人的生理狀態,而且特征之間可能存在一定的相關性,所以BCDC模型可以用于進行狀態檢測。
2.1數據采集
共有8名受試者參與了白天短時睡眠的實驗,將受試者安排在一個安靜舒適的環境內,記錄其午后30分鐘的睡眠數據。原始睡眠數據的采集按照多導睡眠描記圖(PSG, Ploysomnograph)的標準記錄方式,包括了4導腦電信號(C3-A2,C4-A1,O1-A2,O2-A1),并同步采集了2導眼電信號(LOC-A1, ROC-A2),1導肌電信號和1導心電信號。其中腦電、眼電和心電信號的采樣頻率為100 Hz,肌電信號的采樣頻率為200 Hz,高頻截至頻率是30 Hz,時間常數是0.3 s。本文主要分析4導腦電信號(EEG)和2導眼電信號(EOG)。
2.2特征提取
考慮到在20 s的時間內,受試者的狀態可能有所變化,因而特征參數可能也會有較大的波動,所以將受試者原始每段20 s的腦電和眼電信號進一步劃分為5 s一段和2.5 s的重疊窗,提高特征參數的準確性,并對5 s的數據進行512個點的快速傅立葉變換(FFT),計算每個5 s內腦電信號和眼電信號的特征,對所有5 s的特征參數取平均值,將其作為20 s數據的特征參數,以減少干擾。選取的特征分別對應于C3/C4導聯的θ波(4~8 Hz)和O1/O2導聯的α波(8~13 Hz)的腦電能量占空比和左、右眼電信號的頻域能量和(2~10 Hz),即特征向量x={Dθ,Dα,SLOC,SROC}。特征參數計算公式如表1。

表1 腦電信號和眼電信號中提取的特征參數
表1中θ(4~8Hz),α(8~13 Hz),T(0.5~25 Hz);LOC, ROC(2~10 Hz)。
2.3模式分類
2.3.1參數優化和模型選擇
首先,對數據集做歸一化處理,隨機選取70%的數據作為訓練數據,30%的數據作為測試數據進行分析。然后,針對每一個類別,通過概率積分變換計算訓練數據中4個特征的經驗累積分布,并用kendall秩相關系數表示兩兩特征之間的相關性。相關性如下所示:
(11)
從以上2個矩陣可知,每一個類別的特征之間存在正、負相關性,有些特征間的相關性比較微弱,這主要是由于不同的受試者對2個狀態存在一定的差異性。
隨后,對Copula密度函數的參數θ進行極大似然估計,并用隨機數的性質重新校準參數θ。最后,采用BIC選取最合適的Copula密度函數,并與核密度估計相結合,構建類條件概率密度函數,BIC選取的模型如表2所示。
表2基于BIC選取的2個類別的Copula 密度函數
Table 2Copula density functions for two categories based on BIC

Copula密度函數覺醒狀態(A)困倦狀態(D)GaussianCopula-451.63-477.25Student-tCopula-459.46-471.83
BIC值較小的Copula函數會被選擇,所以針對alertness類別選取的是Student-t Copula函數,而drowsiness類別選取的是Gaussian Copula函數。
2.3.2模式分類和模型比較
將改進的BCDC算法與GDC、GNBC和LR對測試數據進行分析和比較。ROC曲線被用來表現分類器的性能,它通過將連續變量設定出多個不同的閾值來揭示真陽率(true positive rate, TPR)和假陽率(false positive rate, FPR)的相互關系。其橫軸表示真陽率,縱軸表示假陽率,曲線下面積越大,分類器分類的能力越強。圖1呈現出4個分類器在測試數據上的ROC曲線,其中連接點(0,0)和(1,1)的直線表示隨機猜測。相比其他3個方法,BCDC算法的曲線處于左上角,所以該方法表現出較好的分類能力。

圖1 GDC、GNBC、BCDC、LR的ROC曲線Fig.1 ROC curves obtained by GDC, GNBC, BCDC, LR, respectively
為了進一步定量地檢驗4個分類器識別的準確性,通過分類精度和AUC兩個性能指標對分類器進行評價。考慮到訓練數據和測試數據是隨機選取的,數據中存在的個體差異性可能會影響分類器的性能評估,所以將隨機實驗循環50次,得到分類器的平均分類精度和平均AUC,如表3所示。
表3GDC、GNBC、BCDC、LR的平均精度、平均AUC值和相應的標準差
Table 3Average Accuracy, Average AUC and corresponding standard deviation obtained by GDC, GNBC, BCDC and LR, respectively

分類器平均精度(標準差)平均AUC(標準差)GDC0.8559(0.0257)0.9408(0.0129)GNBC0.8588(0.0258)0.9253(0.0169)LR0.8382(0.0239)0.9120(0.0173)BCDC0.9026(0.0179)0.9634(0.0103)
從表3可知,本文提出的BCDC算法在兩個分類指標上呈現出更好的分類表現。就平均精度而言,BCDC識別的精度高于其他3個分類器大約5%左右,同時標準差也小于其他3個分類器。而對于AUC,盡管GDC相對接近于BCDC,但BCDC的AUC值大于其他3個方法,且標準差也較小,呈現出更強的穩定性。
為了了解不同分類器在不同數量的數據集上的分類能力,從數據中分別隨機選取10%、30%、50%、70%和90%的數據作為訓練數據,用剩余的測試數據評估4個分類方法,結果如圖2所示。

(a)平均精度 (b)平均AUC圖2 GDC、GNBC、BCDC、LR在不同訓練數據個數下的平均精度和平均AUCFig.2 Average accuracy and average AUC obtained by GDC, GNBC, BCDC, and LR based on the different subsets of the training data
分析數據可得:當訓練數據較少時(10%),4個方法表現出幾乎相同的平均精度,BCDC并沒有產生顯著的識別精度。當訓練數據增加(30%),提出的方法的分類表現很快超越了其他3個分類器。當數據量大于30%,BCDC表現出更高的分類表現。總而言之,當30%、50%、70%和90%作為訓練數據時,相比較GDC、GNBC、LR,改進的BCDC的分類能力更強。由圖2表明,增加訓練數據個數能夠提供更多的某種特定類別的信息,從而更加準確地判斷類別。
作為一種監督式學習方法,BCDC算法通過參數優化和模型選擇提高了類條件概率密度函數估計的準確性。雖然訓練時間大約是10 s,但是在不同數據量的條件下,BCDC算法呈現出更好的平均分類精度和平均AUC。
3結束語
本文提出了基于貝葉斯決策理論和Copula理論的分類算法。該算法在實際運用過程中,參數Copula模型和核密度估計相結合提升類條件概率密度函數估計的準確性。相比較其他傳統的貝葉斯決策模型,Bayesian-Copula判別分類器能夠在實際的生物電信號分類識別問題中得到較好的分類效果。
Copula模型的優勢主要是不需要對邊緣分布的形式進行假設,在模型中,我們僅僅計算每個特征的經驗累積分布,用不同的Copula函數建立特征間的依賴結構。該模型簡單、易懂,在對未知數據建立模型時,具有更多的靈活性。對于許多實際問題,概率模型中獨立同分布的假設通常是不成立的。所以,通過Copula理論能夠提高對聯合分布估計的準確性。
參考文獻:
[1]TIPPING M E. Sparse Bayesian learning and the relevance vector machine[J]. Journal of machine learning research, 2001, 1(3): 211-244.
[2]XUE Jinghao, HALL P. Why does rebalancing class-unbalanced data improve AUC for linear discriminant analysis?[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(5): 1109-1112.
[4]RODRIGUEZ A, LAIo A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496.
[5]李宏偉, 劉揚, 盧漢清, 等. 結合半監督核的高斯過程分類[J]. 自動化學報, 2009, 35(7): 888-895.
LI Hongwei, LIU Yang, LU Hanqing, et al. Gaussian processes classification combined with semi-supervised kernels[J]. Acta automatica sinica, 2009, 35(7): 888-895.
[6]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2001, 3(4-5): 993-1022.
[7]BISHOP C M. Pattern Recognition and Machine Learning[M]. New York: Springer, 2006: 21-31.
[8]NG A Y, JORDAN M I. On discriminative vs. generative classifiers: a comparison of logistic regression and na?ve Bayes[C]//Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2002, 14: 841-848.
[9]李航. 統計學習方法[M]. 北京: 清華大學出版社, 2012: 77-91.
[10]JAIN A K, DUIN R P W, MAO Jianchang. Statistical pattern recognition: a review[J]. IEEE transactions on pattern analysis and machine intelligence, 2000, 22(1): 4-37.
[11]DUDA R O, HART P E, STORK D G. Pattern Classification[M]. 2nd ed. New York: Wiley, 2001: 20-45.
[12]MURPHY K P. Machine Learning: A Probabilistic Perspective[M]. England: MIT, 2012: 82-87.
[13]NELSEN R B. An Introduction to Copulas[M]. 2nd ed. Springer: Berlin, 2006.
[14]GENEST C, FAVRE A C. Everything you always wanted to know about Copula modeling but were afraid to ask[J]. Journal of hydrologic engineering, 2007, 12(4): 347-368.
[15]EBAN E, ROTHSCHILD G, MIZRAHI A, et al. Dynamic Copula networks for modeling real-valued time series[C]//Proceedings of the 16th International Conference on Artificial Intelligence and Statistics. Scottsdale, AZ, USA, 2013, 4: 247-255.
[16]KRISTAN M, LEONARDIS A, SKOC AJ D. Multivariate online kernel density estimation with Gaussian kernels[J]. Pattern recognition, 2011, 44(10-11): 2630-2642.
[17]CHERUBINI U, LUCIANO E, VECCHIATO W. Copula Methods in Finance[M]. England: John Wiley & Sons, 2004.
[18]PATTON A J. A review of Copula models for economic time series[J]. Journal of multivariate analysis, 2012, 110: 4-18.
[19]AUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in biology and medicine, 2013, 43(5): 576-586.
[20]TAGLUK M E, SEZGIN N, AKIN M. Estimation of sleep stages by an artificial neural network employing EEG, EMG and EOG[J]. Journal of medical systems, 2010, 34(4): 717-725.
[21]CICHOCKI A, MANDIC D, DE LATHAUWER L, et al. Tensor decompositions for signal processing applications: from two-way to multiway component analysis[J]. IEEE signal processing, 2015, 32(2): 145-163.
[22]KHUSHABA R N, KODAGODA S, LAL S, et al. Driver drowsiness classification using fuzzy wavelet-packet-based feature-extraction algorithm[J]. IEEE transactions on biomedical engineering, 2011, 58(1): 121-131.
Classification algorithm based on Copula theory and Bayesian decision theory
QIAN Dong1, WANG Bei1, ZHANG Tao2, WANG Xingyu1
(1. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China; 2. Department of Automation, Tsinghua University, Beijing 100086, China)
Abstract:Traditional Bayesian decision classification algorithm is easily affected by the estimation of class-conditional probability densities, a fact that may result in incorrect classification results. Therefore, this paper proposes an improved classification algorithm based on Bayesian decision, i.e., Bayesian-Copula Discriminant Classifier (BCDC). This method constructs class-conditional probability densities by combining Copula theory and kernel density estimation instead of making assumptions on the form of class-conditional probability densities. Kernel density estimation is used to smooth the probability distribution of each feature. By performing probability integral transform, continuous distribution is converted to random variables having a uniform distribution. Then, Copula functions are used to construct the dependency structure between these probability distributions for two categories. Moreover, the maximum likelihood estimation is applied to determine the parameters of Copula functions, and two well-fitted Copula functions for two categories are selected based on Bayesian information criterion. The BCDC method was validated with experimental datasets of physiological signals. The obtained results showed that the proposed method outperforms other traditional methods in terms of classification accuracy and AUC as well as robustness. Moreover, it takes full advantage of Copula theory and kernel density estimation and improves the accuracy and flexibility of the estimation.
Keywords:machine learning; Bayesian decision theory; Copula theory; kernel density estimation; physiological signals
DOI:10.11992/tis.201509011
收稿日期:2015-09-06. 網絡出版日期:2016-01-05.
基金項目:上海市科委科技創新行動計劃-生物醫藥領域產學研醫合作資助項目(12DZ1940903).
通信作者:王蓓. E-mail:beiwang@ecust.edu.cn.
中圖分類號:TP391.4
文獻標志碼:A
文章編號:1673-4785(2016)01-0078-06
作者簡介:

錢冬,男,1990年生,碩士研究生,主要研究方向為機器學習、生物電信號。

王蓓,女,1976年生,副研究員,主要研究方向為智能信息處理和模式分類、復雜系統及其在人工生命科學中的應用。曾參與國家自然科學基金、上海市科委科技創新行動計劃等項目。發表學術論文50余篇,被SCI、EI檢索30余篇。

張濤,男,1969年生,教授,博士生導師,主要研究方向為控制理論及應用、信號處理、機器人控制等。主持或參與國家973項目、國家863項目、國家自然科學基金項目多項。曾獲得教育部自然科學獎、軍隊科技進步獎、中國電子信息科學技術獎等。發表論文200余篇,其中被SCI檢索40余篇,EI檢索120余篇。
網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160105.1526.002.html