網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150317.1025.002.html
一種新穎的領域自適應概率密度估計器
許敏1,2,俞林2
(1.江南大學 數字媒體學院,江蘇 無錫 214122; 2. 無錫職業技術學院 物聯網技術學院,江蘇 無錫 214121)
摘要:傳統概率密度估計法建立好密度估計模型后,無法將源域知識傳遞給相關目標域密度估計模型。提出用無偏置v-SVR的回歸函數來表示傳統概率密度估計法獲得密度估計信息,并說明無偏置v-SVR等價于中心約束最小包含球及概率密度回歸函數可由中心約束最小包含球中心點表示。在上述理論基礎上提出中心點知識傳遞領域自適應概率密度估計法,用于解決因目標域信息不足而無法建立概率密度函數的場景。實驗表明,此種領域自適應方法進行領域間知識傳遞的同時,還能達到源域隱私保護的目的。
關鍵詞:概率密度函數;無偏置v-SVR;中心約束最小包含球;核心集;領域自適應
DOI:10.3969/j.issn.1673-4785.201312041
中圖分類號:TP391.4 文獻標志碼:A
收稿日期:2013-12-20. 網絡出版日期:2015-03-17.
基金項目:江蘇省高校自然科學研究資助項目(13KJB520001);江蘇省高校哲學社會科學基金資助項目(2012SJB880077);江蘇省研究生創新工程資助項目(CXZZ12-0759).
作者簡介:
中文引用格式:許敏,俞林. 一種新穎的領域自適應概率密度估計器[J]. 智能系統學報, 2015, 10(2): 221-226.
英文引用格式:XU Min, YU Lin. A probability density estimator for domain adaptation[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 221-226.
A probability density estimator for domain adaptation
XU Min1,2, YU Lin2
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China)
Abstract:This paper proposes that the density information received from the traditional probability density estimation method can be represented by no bias v-SVRregression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB) and the probability density regression function is constrained by CC-MEB's center point is described. On the basis of the above theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain.
Keywords:probability density estimation; no bias v-SVR; center-constrained minimum enclosing ball(CC-MEB); core set; domain adaptation

通信作者:許敏. E-mail:xum@wxit.edu.cn.
概率密度估計常見的做法是根據所得數據建立概率密度函數(probability density function, PDF),在機器學習和模式識別中具有非常重要的作用[1],如聚類分析[2]等。通常概率密度估計法分參數估計和非參數估計2類。因真實數據概率密度分布不可知,故非參數核密度估計法(kernel density estimation, KDE)[3]是采用較廣泛的方法。因KDE需要所有樣本參與計算且需存儲所有數據,故壓縮集概率密度估計器[4]和快速壓縮集概率密度估計器[5]被提出以解決存儲空間和運行效率問題。上述傳統的概率密度估計法效果顯著但均未考慮領域間自適應學習的問題。在實際應用中存在這樣的場景,已有源域數據集數據量大、密度估計精確;但相關目標域數據集由于隱私保護或數據遺失等原因只獲得少量數據,這些數據是目標域真實信息但卻不足以建立目標域PDF。如何既保證目標域已知數據對建立目標域PDF的作用,又能利用源域知識對目標域信息不足部分加以彌補是本文研究的重點。
1DADE模型
1.1DADE模型理論依據
領域自適應概率密度估計器的應用前提是存在兩相關領域,兩域通過傳統密度估計法,如Parzen窗法獲得概率密度估計值,形成(x,y)對。其中,x是輸入向量,y是概率密度估計值。源域(x,y)對足以構建概率密度函數,而出于隱私保護或數據遺失等原因,一些高度機密的數據無法獲得,所得少量目標域(x,y)信息精確,但不足以構建目標域概率密度函數。
傳統密度估計法本身不能進行領域間知識傳遞,本文的貢獻在于使用無偏置v-SVR回歸函數表示概率密度函數,這樣做的優勢在于:
1)無偏置v-SVR等價于CC-MEB的特性,可使用核心集[6-8]代替源域所有數據建立概率密度函數,提高密度估計效率;
2)密度回歸函數f(x)可由CC-MEB中心點表示,提出中心點知識傳遞模型[9],實現相似領域間領域自適應概率密度器的建立,若使用源域核心集代替所有源域樣本表示源域中心點,還可起到源域隱私保護的目的。
1.2DADE模型架構
設訓練集T={(x1,y1),…,(xl,yl)},其中輸入向量xi∈Rn,輸出向量yi∈Y=R為概率密度估計值,i=1,2,…,l。本文用無偏置支持向量回歸函數y=wTφ(x)建立概率密度估計函數,與傳統v-SVR相比,沒有b項,文章下面部分介紹無偏置v-SVR。
1.2.1無偏置v-SVR
無偏置v-SVR試圖尋找Rn上的一個實值函數g(x),以便使用y=g(x)來推斷任一輸入x所對應的輸出值y。通常訓練集在輸入空間線性不可分,故引入映射函數φ(x)將xi映射到高維空間φ(xi)中。 無偏置v-SVR原始優化問題如下:
(1)
式中:(*)表示向量有*號和無*號2種情況。為導出原始問題(1)的對偶問題,引入拉格朗日函數:
(2)

為了使式(2)最小化,對L關于向量w和變量ε、ξi(*)求偏導數,得
(3)
(4)
(5)
將式(3) 、(4)帶入式(2),可得對偶優化問題:
(6)
最終所得回歸函數:
(7)

1.2.2無偏置v-SVR與CC-MEB
1)CC-MEB

(8)

(9)
使用最優解β,可得到半徑R、中心點c的值:
(10)
因為βT1=1,任意實數η加入公式,不會影響β的取值。原對偶形式改為
(11)
文獻[6]指出,任意滿足式(11)的QP問題均能看作CC-MEB問題,可運用核心集快速算法求解。把整個數據集合S的求解轉化成對S的一個子集Q的求解,可得到一個精確有效的近似解,其中Q被稱為核心集。具體方法參見文獻[6]。
2) 無偏置v-SVR與CC-MEB間關系

(12)

(13)

式(13)為無偏置v-SVR的QP形式,與式(11)相比較,求Δ的值:
(14)
式中:實數η足夠大,以使Δ≥0。式就可以寫成
(15)

按式(15)求解,球心c可按下面公式計算:

(16)
式(3)中的w就可簡化為w=λc。故
(17)
由式(17)可獲得以下兩結論:
1)無偏置v-SVR等價于CC-MEB,故可用核心集技術進行快速求解;
2)概率密度回歸曲線可由其二次規劃形式等價的CC-MEB的中心點表示。
1.2.3DADE模型
從1.2.2節分析可知,無偏置v-SVR等價于CC-MEB,概率密度函數由CC-MEB中心點表示。在此理論基礎上,本文提出通過學習源域中心點將源域知識傳遞給目標域,構造學習源域知識且與目標域無偏置v-SVR等價的CC-MEB,此CC-MEB的中心點可用于目標域概率密度函數的建立。
學習源域中心點的CC-MEB原始問題如下:
(18)
引入拉格朗日乘子變量,在約束條件下構造式(18)的拉格朗日函數:
(19)
由最優化理論可知,式(19)在鞍點處取極值,在鞍點處L關于變量c和R的偏微分:
(20)
將(20)代入(19),該問題的對偶形式為:
(21)

(22)
2實驗與分析
2.1實驗設置
本文實驗將本文所提算法與如下3個方面的回歸函數進行性能對比:1)直接使用源域數據構建概率密度回歸函數; 2)直接使用包含少量信息的目標域數據構建概率密度回歸函數;3)使用源域、目標域數據共同構建概率密度回歸函數。從而來體現本文所提算法的優勢。

實驗環境為:IntelCore2 2.40GHzCPU, 2.39GHz、1.94GBRAM,WindowsXPSP3,MATLAB7.1。
2.2實驗結果與分析
為了利用源域知識彌補當前場景下信息過少造成受訓系統泛化能力下降之缺陷,模擬數據集的構造需遵循以下原則:1)源域和目標域之間既有很大相似性,又存在區別;2)已知的目標域數據集(x,y)是精確的,但由于樣本過少,不能構建出概率密度估計回歸函數。
為了表征上述原則,首先生成樣本數較多且能精確表示概率密度分布均值為0、方差為1的源域數據集,需指出的是文章1.2.2節說明無偏置v-SVR與CC-MEB等價且概率密度函數可由CC-MEB中心點組成,若源域有數據隱私保護的需要,還可通過核心集技術,求得源域數據集的核心集,由少量核心集元素表示源域CC-MEB的中心點,進行遷移學習。另一方面,為了表示目標域與源域相近但不同,目標域設置時對均值、方差進行漂移,分均值、方差、均值方差均漂移3種情況,如表1所示。

表1 數據源描述
由于隱私保護等原因,目標域獲得信息量少且精確,但不足以構建目標域概率密度函數。圖1(a)虛線顯示了均值為0、方差為1.1時目標域真實概率密度分布圖,圖1(b)顯示了此種情況下目標域自適應學習效果圖。圖2將本文所提算法與另外3種訓練方法進行比較。

(a) 源域、目標域概率密度分布圖

(b)自適應學習效果圖 圖1 均值為0、方差為1.1自適應學習效果圖 Fig.1 Charts of adaptive learning on the data set with mean 0, variance 1.1

(a)源域性能

(b)目標域性能

(c)源域目標域合并性能

(d)自適應學習性能 圖2 原始圖像和退化仿真圖像 Fig.2 Performance comparison charts of different algorithms
表2列出了設置目標域不同均值方差后各算法的性能。

表2 不同算法性能比較
生成均值為0、方差為1源域樣本10000個,如圖1(a)所示,實線表示源域概率密度函數曲線,使用核心集技術獲得源域的核心集由13個空心圓表示,源域知識只需知道模型參數和這13個樣本點即可獲得。虛線表示均值為0、方差為1.1的目標域真實概率密度函數曲線。由圖1(a)可以看出,源域、目標域分布近似但不相同。圖1(a)中5實點表示目標域已知信息,為了體現數據隱私保護的目的,文中實驗選取的5個樣本均在[-1,1]之外。點劃線表示由這5個點獲得的目標域概率密度函數曲線。由圖可知,雖然已知信息精確,但信息過少不能反映目標域真實概率密度分布。圖1(b)顯示了不同μ值自適應學習效果圖,隨著μ值的增大,目標域概率密度曲線向目標域真實分布靠攏。此種自適應學習的優勢在于,既可保證目標域已知信息精確表示,又可通過源域知識對未知信息進行自適應學習,極大提高目標域概率密度估計性能。
根據表2和圖 2,可給出如下的觀察:
1) 從表2可知,本文提出的DA-PDF算法充分利用目標域已知信息的同時,學習了源域知識,較之于兩域各自訓練、合并訓練所得概率密度估計函數具有更好的性能。
2) 對圖2(a)可知,若直接使用源域概率密度估計函數對現有測試集進行密度估計,效果不理想,其原因在于目標域與源域密度分布已發生變化(源域方差為1,目標域方差為1.1),這種變化導致若繼續使用源域模型進行預測,其預測性能不好,無法達到與目標域實際情況逼近的效果。
3) 對圖2(b)可知,由于在當前場景下采集的數據數量較少,雖然這些數據真實可靠,但對于構建整個概率密度估計函數信息量過少,故密度估計性能低下。
4) 對圖2(c)可知,使用源域數據與目標域數據結合后生成的概率密度估計函數,其性能提升不明顯。原因在于源域數據較之目標域收集到的數據,數據量大,因此在模型訓練時,其所占的比重也大,故得到的概率密度估計函數最終更偏向于源域數據所得模型。合并訓練另一缺點是需要源域所有數據參與模型的建立,但一些高度機密的歷史數據通常難以獲取,若源域有數據隱私保護的需要,此種方法則無法實現。
5) 從圖2(d)可知:本文方法較之圖2(a)有更好的逼近效果;與圖2(b)相比,可利用源域知識較好地彌補目標域信息不足的缺陷;與圖2(c)相比,不僅逼近程度有明顯改進,且本文方法只需要歷史知識(歷史模型參數)以及目標域數據,并不需要源域數據作為訓練數據,因而在隱私保護方面也體現了較大優勢。
3結束語
本文采用無偏置v-SVR對已知概率密度(x,y)對進行概率密度函數建模,并證明無偏置v-SVR等價于CC-MEB且概率密度回歸函數可由CC-MEB中心點表示,以此為前提,提出中心點領域自適應學習的概率密度估計函數建模思想,解決多領域相關聯且某一領域信息較少無法構建概率密度函數的問題。本文所提方法不需要大量源域數據的支持,僅是繼承歷史知識(源域中心點),且允許當前領域信息較少,不但能夠根據歷史知識進行當前領域的信息補償,又能對源域數據進行隱私保護,這些特性是傳統概率密度估計方法所不具備的。通過合成數據的仿真實驗表明本文方法較之于傳統方法具有更好的適應性。
參考文獻:
[1]VAPNIKVN.Statisticallearningtheory[M].NewYork:JohnWileyandSons, 1998: 35-41.
[2]吉根林, 姚瑤. 一種分布式隱私保護的密度聚類算法[J].智能系統學報, 2009, 4(2):137-141.
JIGenlin,YAOYao.Density-basedprivacypreservingdistributedclusteringalgorithm[J].CAAITransactionsonIntelligentSystems, 2009, 4(2):137-141.
[3]PARZENE.Onestimationofaprobabilitydensityfunctionandmode[J].TheAnnalsofMathematicalStatistics, 1962, 33(3): 1065-1076.
[4]GIROLAMIM,HEC.Probabilitydensityestimationfromoptimallycondenseddatasamples[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2003, 25 (10): 1253-1264.
[5]DENGZH,CHUNGFL,WANGST.FRSDE:Fastreducedsetdensityestimatorusingminimalenclosingballapproximation[J].PatternRecognition, 2008, 41(4):1363- 1372.
[6]TSANGIW,KWOKJT,ZURADAJM.Generalizedcorevectormachines[J].IEEETransactionsonNeuralNetworks, 2006, 17(5): 1126-1140.
[7]TSANGIW,KWOKJT,CHEUNGPM.Corevectormachines:fastSVMtrainingonverylargedatasets[J].JournalofMachineLearningResearch, 2005(6): 363-392.
[8]CHUCS,TSANGIW,KWOKJK.Scalingupsupportvectordatadescriptionbyusingcore-sets[C]//IEEEInternationalJointConferenceonNeuralNetworks.Budapest,Hungary: 2004: 425-430.
[9]許敏,王士同. 基于最小包含球的大數據集域自適應快速算法[J]. 模式識別與人工智能, 2013, 26(2): 159-168.
XUMin,WANGShitong.Afastlearningalgorithmbasedonminimumenclosingballforlargedomainadaptation[J].PatternRecognitionandArtificialIntelligence, 2013, 26(2): 159-168.

許敏:女,1980年生,講師,博士,主要研究方向為模式識別、人工智能。