夏戰國,夏士雄,蔡世玉,萬玲
(中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116)
高斯過程[1]是近年在國際上機器學習研究的熱點領域之一。高斯過程是基于貝葉斯框架的無參數核方法,可用于有監督學習,被成功應用于回歸與分類[2~5]。與人工神經網絡(ANN)和支持向量機(SVM)相比,高斯過程的優點主要有3點:1) 在不犧牲性能的條件下容易實現,在模型構建過程中自動地獲取超參數,具有完全的貝葉斯公式化表示,預測輸出具有清晰的概率解釋,并且可以直接實現多分類[6~13];2) 由于高斯過程采用核函數,使它具有較強的非線性性能,可以解決線性不可分和特征維數過多的問題,從而在一定程度上避免了ANN中的“維數災難”問題[14];3) 高斯過程為貝葉斯學習提供了一個范式,根據訓練樣本可以從先驗分布轉換到后驗分布,并可以對核函數的超參數進行推理;而 SVM 對超參數的選擇卻通常只能采用經驗法或交叉驗證方法[15,16]。因此,在數據挖掘、模式識別、故障檢測、生物醫學、圖像及文本識別等領域得到了廣泛的應用,并已取得了較為顯著的研究。
傳統的監督學習方法只利用標記數據進行模型訓練,一旦標記數據量很少,就會導致訓練集不足,模型的泛化能力得不到保證,勢必會引起回歸或分類結果的精度下降,最終難以解決實際應用的問題。而在現實世界中,難以獲得過多的已標記數據,對無標記數據進行標記則需要昂貴的代價,且易于標記錯誤。針對這種情況,學者們嘗試使用基于半監督學習的推理方法,即同時考慮少量的標記數據和大量的無標記數據,從而解決了前述的標記數據少且獲取困難的問題,具有重要意義。半監督學習主要有基于約束條件和基于距離度量的半監督學習,同時還有基于模型和基于密度的半監督學習,以及基于數據集空間結構方法的半監督學習方法[17~19]。Catanzaro等人[17]提出了將半監督譜學習與隱馬爾科夫模型相結合的人臉識別算法,解決了標記信息相對較少的問題。Mireille[18]討論了基于密度的半監督學習方法,從約束關系著手,拓展must-link和cannot-link關系集合,以滿足即使只有部分標記信息情況下,依然可以很好地訓練學習。
但是以上半監督學習方法針對類不均衡的訓練數據均未作深入討論。類不均衡數據并非傳統意義上的噪聲數據,而是廣泛存在于異常檢測、醫療診斷等各個領域中的真實存在的數據集合,這些數據中的一類屬于正常數據,容易獲得其標記信息,而另一部分則由于數據存在相對概率小、數據特征難以捕捉等各種原因,導致了類不均衡情況的出現。類不均衡數據主要有數據稀缺性、將數據分類預測傾向于多類、不平衡數據難以識別以及決策面偏移失衡等問題。現在研究的很多聚類分類問題大都是在類別大致平衡的條件下討論的,因而對于類不均衡數據往往得不到有效的處理。類不均衡問題容易導致劃分面的位置過度偏向于一類,可能最終結果是基本上把幾乎所有的正類和負類都劃在劃分面的一側,使得最終的結果都為同一類,甚至將正常數據錯劃分為噪音數據。
針對以上問題,本文提出了類不均衡的半監督高斯過程分類算法,其基本原理是利用數據空間分布的自適應特性,利用極少量不平衡的標記數據來構建半監督分類器,用其對未標記數據進行分類,從而使數據的分類標簽信息達到相對平衡。該算法中,未標記數據通過半監督自訓練的方法逐漸被標注上類別標記,并且被加入到訓練樣本集合中作為標記數據,從而可進行新的訓練。半監督分類器不斷通過自我訓練,獲取可信度高的標記數據來平衡數據中原來存在的類別不均衡問題。對未標記數據進行類別標記是迭代進行的,通過判斷設置的閾值或者迭代次數,決定是否進行重復訓練直至達到要求為止。半監督高斯過程分類器可以根據要求主動尋找數據內部的類別信息進行自動分類,訓練自動化,減少了人工標記的錯誤率,提高了分類標記數據平衡比例和數量,從而解決了類不均衡數據稀缺而導致的錯分問題,提高了對不平衡數據進行正確分類的準確度,算法簡單而高效。基于自適應類不均衡的半監督高斯過程分類算法的具體步驟是:首先根據類不均衡數據特性進行數據預處理,然后利用少量的標記數據進行高斯過程分類訓練,選取預測概率置信度最高的未標記數據,向該未標記數據注入合理的類標記信息,并且自動地將新標記過的數據樣本加入到原有的訓練集中,用擴充后的訓練集再次進行高斯過程分類;最后采用自訓練迭代執行,直至構造出最優的高斯過程分類器,用以對測試數據集分類。算法將標記數據與未標記數據結合,實現自訓練的半監督高斯過程分類,即使在有少量標記數據訓練樣本的情況下,同樣保證了分類結果的準確度。本文通過多組實驗對類不均衡的半監督高斯過程分類算法的效果進行了驗證。
高斯過程分類算法的核心思想是:把非高斯的真實后驗分布p(f|D,θ)通過一個高斯類近似后驗分布q(f|D,θ)=N(f|(μ,∑))來代替,再通過此后驗分布給出測試數據的近似預測分布。其中,μ為均值,∑表示方差。
對于高斯過程分類(GPC)問題的定義:給定的訓練數據集D={(xi,yi),i=1,2,…,m},xi為連續數據,表示特征向量,yi為離散數據,表示類別標記。目標是對于新輸入x*,預測其輸出y*。若y取值為{0,1}或者{1,-1}稱為二類分類;若y取值為多個整數值,稱為多分類。本文主要討論二分類問題。
對于確定的輸入矢量x,p(y|x)分布為伯努利分布,y=1的概率為p(y=1|x)=Ф(f(x)),其中,f(x)稱為潛在函數,服從高斯過程:f(x|θ)~GP(0,K)。f(x)定義了標記數據集合和相對應的類標記集Y之間的映射關系。Ф函數為標準高斯分布的累積概率密度函數,取Sigmoid函數,保證概率值落在[0,1]區間。
由于給定的潛在函數f,其觀測數據是相互獨立的伯努利分布變量,似然函數可以描述為

潛在函數的先驗分布為

在式(2)中,K定義了協方差矩陣(核函數),Kij=k(xi,xj,θ),這里k(·)是與θ有關的正定協方差函數;θ可通過潛在函數f的極大似然法來估計[20]得到最優超參數。
高斯過程模型的協方差函數需要滿足:對任一點集都能夠保證產生一個非負正定協方差矩陣。本文采用的協方差函數為高斯核函數。

其中,xc為核函數的中心,超參數θ={σf,l}。由式(3)可以看出,協方差函數由2部分組成:第一部分用來表示2個數據點間的距離相關性,如果它們的距離相對于寬度參數l很小,即相關性高,指數項就趨于 1;否則兩數據點之間相關性低,指數項就趨于0。超參數σf用來控制局部相關性的程度。
當獲得實際觀察值后,根據貝葉斯規則,潛在函數f的后驗分布為

其中,均值和方差為

其中,k*=[k(x1,x*),…,k(xm,x*)]T表示測試數據x*與訓練數據集的先驗協方差函數。
本文將半監督學習思想與高斯過程機器學習相結合,綜合利用類不均衡數據特點進行半監督訓練,提出了類不均衡的半監督高斯過程分類算法。對于給定的訓練數據集,將其中的一小部分數據定義為標記數據對象,其他數據為未標記數據對象。下面給出具體的相關定義。
定義1令X表示數據對象集合,XL表示該集合中的原始標記數據集,XU表示未標記數據集,則,其中,n表示數據集數目,p表示標記數據集數目(1≤p 定義2令Y表示標記數據集合的類標記信息,Y={y1,y2, …,yp},yi∈{1,-1},Y與XL數據集中的元素一一對應。 定義3預測概率置信度α,在進行半監督高斯過程分類訓練時,若預測概率達到置信度α或者小于α則將該數據考慮是否注入類標記。α可人工設置,根據多次實驗經驗,本文設定α=0.95為最佳置信度閾值。 類不均衡的半監督高斯過程分類算法主要結合高斯過程分類算法和自訓練半監督學習方法以解決類不均衡數據分類問題。該算法包括引用文獻[21]的部分算法1和本文提出的算法2兩部分,具體描述如下。 算法1高斯過程分類(GPC)算法[21] 輸入:協方差矩陣K,訓練集標記Y,似然函數p(y|f); 輸出:分類預測分類函數f。 Step1初始化預測函數f=0。 Step2令對角矩陣W=-??logp(y|f),對矩陣L做cholesky 矩陣分解,使得 Step6返回f和logq(y|X,θ),算法結束。 算法1為高斯過程二分類構造器構造過程[21]。通過目標函數建立收斂準則。f是由牛頓計算公式而得到的隱變量的最大后驗概率,即分類預測函數,是邊緣最大似然函數,可以通過f和矩陣W不斷地對其進行優化,使該函數通過訓練數據樣本低密度區域最終得出分類預測函數。 算法2半監督高斯過程分類(SSGP)算法 輸入:標記數據集合XL,未標記數據集合XU,測試數據集XT。 輸出:分類預測結果R,R與測試集XT中一一對應,且ri∈{1,-1}。 Step1標記數據集XL全部復制到XLnew中。 Step2將更新后的標記數據集合XLnew作為訓練集,利用算法1輸入到高斯過程,進行分類訓練學習,構造高斯過程分類器。 Step3使用Step 2構造的高斯過程分類器,對未標記數據集合進行自訓練分類,且對分類結果做如下篩選:若選取的數據點Xi預測概率p≥α,則將該數據點Xi加入到XLnew中,置其類標記信息Yi=+1;若選取預測概率p≤1-α,則將該數據點Xi加入到XLnew中,置其類標記信息Yi= -1;同時從XU去除該數據信息。更新標記數據集XLnew,未標記數據集合XU; Step4若更新后的XLnew與XL數據集相同或者構造的分類器分類結果穩定即概率相同時,停止XLnew的更新,輸出數據集XLnew和對應的標記信息Y;否則,置XL=XLnew,更新XL,重復Step2。 Step5更新后的XL為訓練集合,利用算法 1構造高斯過程分類器,對分類數據集合XT進行分類,輸出XT的類標記信息R,算法2結束。 算法 2通過自訓練的半監督學習方法向未標記數據注入類標記信息,用擴充后的標記數據集構造分類器,未標記數據反饋預測結果指導下次的分類。 在SSGP算法的自訓練過程中,利用少量的標記數據進行高斯過程分類訓練,得到一個初始學習器,然后選取預測概率置信度最高的未標記數據注入標記,同時將新標記的樣本加入到原來的訓練集中,隨后使用這個擴充后的訓練集再次進行高斯過程分類,重新訓練學習器,重復以上過程直到滿足迭代終止條件。算法從無標記數據和有標記數據開始,通過將無標記樣本整合進有標記樣本中,自訓練在這個過程中實際上進行的是一個強化過程,目的是為了改進學習器性能。 SSGP算法的復雜度與GPC算法的復雜度緊密相關,但是由于 GPC算法用不同的方法進行優化近似求解,其時間復雜度和空間復雜度差異較大,因此不容易直接計算SSGP算法的復雜度[22]。根據文獻[23]可以通過計算 SSGP算法執行時所用的訓練樣本總數來衡量算法的復雜度。定理 1表明,SSGP算法與標記樣本和未標記樣本的數量呈線性關系而不是指數關系。 定理 1 SSGP算法執行時所用的訓練樣本復雜度為O(Max_Iter(p+q)),其中,Max_Iter是半監督訓練最大迭代次數,p和q分別是標記樣本集數目和未標記樣本集數目。 證明 設s為從未標記樣本集XU中選擇出來的置信度最高的樣本所占的比例,在第一次迭代訓練中,p和q分別是標記樣本集數目和未標記樣本集數目。在第一次迭代后,qs個未標記樣本被標記,并加入到已標記樣本中,且有qs個樣本從XU中刪除。因此,在第二次迭代訓練中,已標記樣本數為p+qs,未標記樣本數為q(1-s)。依此類推,在第i次迭代訓練中,已標記樣本數為 所以 SSGP算法執行時所用的訓練樣本復雜度為O(Max_Iter(p+q)),定理得證。 為驗證SSGP算法對數據集信息具有更好的提取,本文首先將仿真數據進行實驗對比。仿真數據是從 2個不同的二維正態分布中隨機采樣 80、40個數據點,共120個數據點。圖1為用GP算法與SSGP算法時,仿真數據信息的邊緣似然值和空間分布信息。 圖1說明了高斯過程使用SE內核在二分類問題上的分類情況,SE內核函數為一個 variable length-scale和logistic響應函數。Laplace近似法畫出該數據集的似然函數值,體現該數據信息。這些數據點分布在[-4,4],似然值則集中在[0,1]區間范圍內。*和Δ分別表示2類數據,從圖1中可以很明顯地區分出每一類。圖1顯示了二維數據點分布空間情況。這些數據點被分成2類,*代表正類(+1),Δ代表負類(-1),圖1中等高線為不同超參數情況下的預測概率等高線,越是接近于1的等高線,其值極有可能被分為正類,相反,接近于0的等高線一般被劃分為負類。 圖1(a)表示為未優化情況,數據錯分情況十分嚴重,難以正確分類,顯示的幾條等高線都是在0.2~0.5之間,基本上無法分類。圖 1(b)顯示通過GP算法優化后,其新的超參數對構造分類器更加合理些,但是由于部分等高線仍然是從高密度區域穿過,依然存在錯分問題。在圖 1(c)中,SSGP算法在正確劃分數據的基礎之上,提高了可信度,似然函數等高線盡可能地從低密度區域劃分,數據集中在0.1或0.9附近。實驗表明,經過超參數優化后的高斯過程算法盡可能地平衡了length-scale,使似然函數等高線從低密度區域穿過,提高了分類準確度,減少了錯分數,增加了可信度。 為驗證類不均衡的半監督高斯過程分類算法的有效性和可行性,本文采用USPS手寫數據集進行性能測試對比實驗。在USPS數據集中,共有9 298個16×16灰度圖像,經過數據預處理,其像素強度均在[-1,1]范圍內。從該數據集中,筆者提取了數字“3”和“5”,其中,訓練樣本 767個,包括 406個“3”和361個“5”。測試樣本773個,包括418個“3”和355個“5”。在本組實驗的訓練樣本中,只選取其中一部分樣本用于訓練,并將正類標記與負類標記比例依次從1:1~1:16做多組比較。 圖1 不同超參數下的似然函數 圖2和圖3實驗結果分別為標記比率為1:1和1:16條件下,其GP算法與SSGP算法性能比較。圖2和圖3所示為分類預測概率示意,從中可以看出半監督學習高斯過程算法的預測概率明顯優于高斯過程算法。在1:1條件下,正負類比率相同,GP預測精度為93.79%,SSGP算法利用半監督學習得到的信息將預測精度提高到了 95.08%,而正類的預測準確度分別為92.11%和94.74%,也都達到了很高的準確度。實驗表明,在高斯過程分類算法中,當訓練集標記比率接近時,單類預測概率接近于整體預測概率,且標記信息較多的情況下,預測準確度很高,SSGP算法的性能與GP算法性能效果相似,半監督信息利用率較低。在 1:16條件下,正類標記數大大降低,訓練集中大部分都是負類標記信息。此時,GP算法對全局數據預測精度為86.55%,而SSGP算法對全局數據預測精度為93.66%,提高了7.11%,SSGP算法的優越性逐漸體現出來了。對于正類的預測分類,GP算法和SSGP算法準確度分別為75.12%和88.52%,雖然都不如比率為 1:1情況預測分類的準確度高,但GP算法降低了16.99%,而SSGP算法僅僅降低了6.22%。此外,在數據失衡為1:16的情況下,SSGP算法比GP算法在正類準確度上提高了13.4%。由此可見,SSGP算法在數據比率嚴重失衡的情況下,充分利用半監督信息,擴充了標記信息集合,提高了分類準確度,其算法依然具有較好的穩定性、頑健性,性能幅度下降盡可能地小。而高斯過程分類算法的分類準確性雖然很好,但是難以適應真實數據情況,一般都是在理想數據集下的性能比較,未充分考慮到數據的各種情況,在數據失衡情況下,其預測分類性能低于SSGP算法的分類性能。實驗表明,在高斯過程分類算法中,當訓練集標記比率接近時,且標記信息較多的情況下,預測準確度很高,SSGP算法的性能與GP算法性能效果相似,半監督信息利用率較低。當訓練集標記比例嚴重失衡時,全局預測依賴于單類預測結果,訓練數目較少的一類極有可能被訓練數目較大的一類所覆蓋,造成該類預測概率嚴重降低,錯分數目大于各種情況。此時GP算法不再完全適用該情況,而SSGP算法則可以利用數據集中的未標記信息指導高斯過程分類,通過可信度判斷不斷地進行標記信息的擴展,從而提高分類器的準確度,為分類預測數據提供更加可靠的分類器和精確度。 圖2 類標記比率1:1的預測概率散點對比 圖3 類標記比率1:16的預測概率散點對比 實驗表明,在數據失衡條件下,高斯過程算法的預測概率除了錯分較多之外,密度分布還不明顯,很多預測概率點都落在了p=0.5附近,難以辨析其分類結果,預測概率低,準確度不高。類不均衡的半監督高斯過程分類算法通過對未標記數據的學習,訓練集獲取的已知信息量增大,構造分類器精度提高,概率密度分布集中且主要集中在概率1和概率0附近,即對數據點分類更加明確,不確定性減小,準確度大大提高。分析實驗可知,使用自訓練半監督學習的高斯過程算法在進行分類器訓練時更加有效,進行分類預測時更加準確。SSGP算法分類的確定性和預測的穩定性明顯優于高斯過程分類算法。 圖4和圖5分別表示在不同標記比率下,使用GP算法與SSGP算法時的分類可信度情況。實驗規定,預測概率越接近于1和0時,預測準確度越高,可信度越大。比率為1:1時,GP算法和SSGP算法預測概率值都主要集中在0和1附近,表明分類的可信度很高,準確度也相應較高,且兩者區分不大,SSGP算法此時可以認為近似于GP算法。而比率為1:16時,對于標記信息多的負類,影響不大,仍然集中在0附近,可信度依然很高,而對于筆者想得到的正類分類情況,利用GP算法卻難以獲得相應的正確分類,具有較低的可信度,概率1附近幾乎沒有數據,SSGP算法卻可以根據未標記信息,進行迭代計算后,可信度逐漸提高。圖5(b)顯示了與圖4近似的效果。在該組實驗中,標記比例依次從1:1~1:16,標記數據逐漸失衡,GP算法分類預測效果逐漸不佳,當最后為1:16時,其正類可信度大大下降。而SSGP算法克服了數據失衡的問題,保持了分類的可信度和準確度。實驗表明,SSGP算法具有更加穩定的可靠性和有效性。 圖4 類標記比率1:1的概率統計柱狀示意 圖5 標記比率1:16的概率統計柱狀示意 圖6為不同標記比率下,GP算法、TSVM算法與 SSGP算法在同一數據集上的迭代次數與準確度的關系。在數據比例為1:1的情況下,3種算法的分類準確度曲線都相對較為平緩,預測分類也都比較高。從圖6(a)可以發現,TSVM分類算法的分類精度較高,分類效果較好,SSGP算法分類準確度略低于TSVM算法,但3種算法分類準確度都達到了90%以上,無太大差異。而在1:16的情況下,SSGP算法在進行第4次迭代后,準確度明顯攀升較快,分類性能較佳,效果相對明顯。TSVM算法雖然分類效果也較好,但相對于SSGP分類算法準確度低了1.2個百分點,在迭代過程中,其準確度也一直低于SSGP算法的分類效果。從圖6(b)可以看出,隨著比例逐漸失衡,SSGP算法準確度一直保持相對較高水平,更加適合數據比例失衡的分類。 圖6 GP算法與SSGP算法在不同比例下的性能曲線(正類準確度) 表1主要討論了數據在不同標記比例失衡情況下,SSGP算法與GP算法、TSVM算法分類精度的問題。經過對比可發現,若標記比例為 1:1時,兩者精度差異不明顯,但隨著標記比例的逐步增加,傳統的 GP算法難以應付,其中一類分類錯誤率大大提高,其可信度也在不斷地降低,TSVM 算法準確度也由原來的 96.06%下降到了87.32%,波動幅度較大。而SSGP算法通過自訓練得到部分標記數據,提高了標記數目,雖然調整了標記比例,其最終效果還是得到了相應的提高,尤其對標記比例相對比較少的一類,效果尤為明顯,可信度也提高了很多,對整體分類的準確度有了較大的改善。從實驗中可以分析得出,在標記比例嚴重失衡的情況下,SSGP算法有更高的準確度和可信度。實驗顯示,為了達到相同的預測分類準確率,經典高斯過程算法需要使用更多的標記數據,這在實際需求中將會增加相應代價,也說明了自訓練的半監督高斯過程分類算法在數據失衡的情況下確實能起到提高預測準確率的作用。由此得到下述結論:在具有少量標記數據信息或標記信息不對稱情況下,較 GP算法與TSVM分類算法而言,SSGP算法能更充分利用少量標記數據進行數據分類。 表1 GP算法、TSVM算法與SSGP算法在不同比例的性能比較 為進一步研究標記數據率對分類結果的影響并驗證本文提出的SSGP算法的有效性,分別從訓練樣本數據類別比例失衡和數據標記率失衡角度進行實驗研究。本文在USPS數據集上抽取了“2”、“3”和“5”共3種數據構成實驗數據集,并且比較了3種標記數據率:1/30、1/20、1/10。假設數字“3”為正常數據類(正類),數字“2”和“5”的混合集為異常數據類(負類),正負類數據量比例為20:1,每次實驗都在該標記數據率的情況下,隨機選取標記數據集50次,總共進行150次對比實驗。比較了GP算法與SSGP算法及SVM算法的平均性能、最佳性能和最差性能,實驗結果如圖7和表2所示。 圖7為SSGP算法、GP算法和SVM算法的數據分類情況,在訓練樣本情況較少、比例嚴重失衡的條件下,自訓練的半監督高斯過程分類算法充分利用未標記信息,通過學習獲得了更多的標記信息,增加了算法的準確度。尤其對于負類,該算法通過從測試集的未標記信息中擴展負類標記信息,盡量使得負類標記信息數據分布與整體負類信息數據分布相似,為構造分類器提供了更多的信息參考,明顯提高了每一類的數據分類準確度。實驗結果顯示,在1/30的標記數據率情況下,SSGP算法平均錯分率為12.57%,而GP算法和SVM算法平均錯分率分別為29.40%和29.57%。經過多次隨機實驗表明,即使在最佳情況下,GP算法和SVM算法依然難以達到SSGP算法的平均水平。隨著標記數量的增加SSGP算法、GP算法和SVM算法的性能均得到了相應的提升,從圖7和表2中可以看出,在1/20和1/10兩種標記比率下,GP算法與SVM算法性能提高幅度較大,也就是說標記數據率的提高使得這2種算法的分類期望和均差均得到了很大的提高。由此可以得到下述結論:在具有少量標記數據信息下,較高斯過程分類和SVM算法而言,自訓練的半監督高斯過程分類算法更能充分利用少量標記數據來指導未標記數據進行分類。此外,從圖7中還可以看出,選取標記數據存在很大的隨機性和誤差,如果開始選取的標記數據處在分布邊緣,則分類效果不明顯。然而使用半監督高斯過程分類算法時,首先在分類之前進行二次選擇,構造更新的標記數據集,約束了標記數據的選取。其次,通過半監督學習方法向未標記數據中注入類標記,使得最后的標記數據分布與全局數據分布的相似度提高,減小了邊緣值對整體數據分類的影響,有效地克服了初始隨機選擇標記數據帶來的不良影響,提高了分類精度。 圖7 SSGP算法與GP算法、SVM算法在不同標記數據率下性能對比 表2 3種算法在USPS數據集不同標記數據上的性能對比 本文提出了一種類不均衡的半監督高斯過程分類算法,利用未標記數據集合進行半監督學習,把未標記數據集通過半監督學習將其部分轉換為標記數據,有效地解決了高斯過程分類訓練中標記數據集過少、類不均衡的問題,增加了高斯過程在異常數據分類中的準確性,提高了其分類精度和可信度。實驗結果表明了該算法的可靠性和有效性。 [1] KITAYAMA S, YAMAZAKI K.Simple estimate of the width in Gaussian kernel with adaptive scaling technique[J].Applied Soft Computering, 2011, 11(8):4726-4737. [2] RODNER E, WACKER E S, KEMMLER M,et al.One-class classification for anomaly detection in wire ropes with Gaussian processes in a few lines of code[A].Proceedings of the 12th IAPR Conference on Machine Vision Applications (MVA)[C].Nara, Japan, 2010.296-308. [3] 姚伏天.基于高斯過程的高光譜圖像分類研究[D].杭州:浙江大學,2011.YAO F T.Gaussian Processes based Classification for Hyperspectral Imagery[D].Hang Zhou: Zhejiang University, 2011. [4] KAPOOR A, GRAUMAN K, URTASUN R,et al.Gaussian processes for object categorization[J].International Journal of Computer Vision,2010, 88(2):169-188. [5] 孫欣堯,王雪,王晟.無線傳感網絡協同概率多模識別方法[J].通信學報, 2011, 32(6):141-147.SUN X Y, WANG X, WANG C.Collaborative probability based multimodel target identification in wireless sensor networks[J].Journal on Communications, 2011, 32(6):141-147. [6] 熊志化.高斯過程模型及其在工業過程軟測量中的應用研究[D].上海: 上海交通大學,2006.XIONG Z H.Study on Gaussian Process Model and Its Application to Soft Sensor in Process Industries[D].Shanghai: Shanghai Jiao Tong University, 2006. [7] VAN GOOL E, WINN W, ZISSERMAN A.The PASCAL visual object classes (VOC) challenge[J].International Journal of Computer Vision, 2010, 88(2):303-338. [8] 陳鳳.基于HRRP和JEM信號的雷達目標識別技術研究[D].西安:西安電子科技大學,2009.CHEN F.Radar Target Recognition Based on HRRP and JEM Signal[D].Xi'an: XiDian University,2009. [9] 王磊, 鄒北驥, 彭小寧等.基于高斯過程的表情動作單元跟蹤技術[J].電子學報, 2007, 35(11):2087-2091.WANG L, ZOU B J, PENG X N,et al.Facial tracking by Gaussian process[J].Acta Electronica Sinica, 2007, 35(11):2087-2091. [10] DEISENROTH M P, TURNER R D, HUBER M F,et al.Robust filtering and smoothing with Gaussian processes[J].IEEE Transactions on Automatic Control, 2012, 57(7):1865-1871. [11] GASBARRA D, SOTTINEN T, ZANTEN H V.Conditional full support of Gaussian processes with stationary increments[J].Journal of Applied Probability, 2011, 48(2):561-568. [12] RODNER E, DENZLER J.One-shot learning of object categories using dependent Gaussian processes[A].Proceedings of the DAGM Conference on Pattern Recognition[C].Springer, Heidelberg, 2010.232-241. [13] BOSCH A, ZISSERMAN A, MUNOZ X.Representing shape with a spatial pyramid kernel[A].ACM International Conference on Image and Video Retrieval (CIVR)[C].Amsterdam, Netherlands, 2007.401-408. [14] CHUM O, ZISSERMAN A.An exemplar model for learning object classes[A].ACM International Conference on Image and Video Retrieval (CIVR)[C].Amsterdam, Netherlands, 2007.19-21. [15] HAGERW W.Updating the inverse of a matrix[J].Society for Industrial and Applied Mathematics (SIAM) Review, 1989, 31(2):221-239 . [16] ADANKON M M, CHERIET M.Model selection for the LS-SVM application to handwriting recognition[J].Pattern Recognition, 2009,42(12):3264-3270. [17] CATANZARO B, SUNDARAM N, KEUTZER K.Fast support vector machine training and classification on graphics processors[A].Proceedings of the 25th International Conference on Machine Learning(ICML)[C].New York, NY, USA, 2008.104-111. [18] TOHME M, LENGELLE R.Maximum margin one class support vector machines for multiclass problems[J].Pattern Recognition Letters, 2011,32(13):1652-1658. [19] FENG W, XIE L, ZENG J,et al.Audio-visual human recognition using semi-supervised spectral learning and hidden Markov models[J].Journal of Visual Languages & Computing, 2009, 20(3):188-195. [20] RUIZ C, SPILIOPOULOU M, MENASALVAS E.Density-based semi-supervised clustering[J].Data Mining and Knowledge Discovery,2010, 21(3):345-370. [21] RASMUSSEN C E, WILLIAMS C K I.Gaussian Processes for Machine Learning[M].Cambridge: MIT Press, 2006. [22] 陳曉峰, 王士同, 曹蘇群.半監督多標記學習的基因功能分析[J].智能系統學報, 2008, 3(1):83-90.CHEN X F, WANG S T, CAO S Q.Gene function analysis of semi 2 supervised multi-label learning[J].CAAI Transactions on Intelligent Systems, 2008, 3(1):83-90. [23] KLAUS B, JOHANNS F, EYKE H.A unified model for multilabel classification and ranking[A].Proceedings of the 2006 Conference on ECAI 2006: 17th European Conference on Artificial Intelligence[C].Riva del Garda, Italy, 2006.489-493.3.2 算法描述


3.3 算法復雜度

4 實驗結果與分析
4.1 仿真數據集實驗分析
4.2 USPS數據集實驗







4.3 極端數據比例失衡實驗


5 結束語