999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無限狄利克雷混合模型的變分學習

2017-10-23 02:21:37曾凡鋒王寶成
計算機技術與發展 2017年10期
關鍵詞:模型

曾凡鋒,陳 可,王寶成,肖 珂

(北方工業大學,北京 100144)

無限狄利克雷混合模型的變分學習

曾凡鋒,陳 可,王寶成,肖 珂

(北方工業大學,北京 100144)

有限高斯混合模型廣泛應用于模式識別、機器學習和數據挖掘等領域,但現實中的許多數據都具有非高斯性,而高斯混合模型無法準確地描述這些數據。此外,有限高斯混合模型還存在參數估計和模型選擇困難的問題。為了更好地擬合非高斯數據,解決有限高斯混合模型的參數估計和模型選擇困難的問題,在研究一種適合于建模非高斯數據的無限狄利克雷混合模型的學習方法的基礎上,提出了一種高效的變分近似推理算法。該算法能夠同時解決參數估計及模型選擇的問題。為了驗證該算法的有效性,在合成數據集上進行了大量實驗。驗證實驗結果表明,該算法能夠很好地解決模型選擇及參數估計的問題。所提出的無限狄利克雷混合模型還可應用于目標檢測、文本分類、圖像分類等方面。

狄利克雷;無限混合模型;變分貝葉斯;模型選擇;參數估計

1 概 述

有限混合模型[1-2]是分析復雜數據的一個簡便和優秀的概率建模工具,它可以通過使用多個分量描述一個復雜的數據分布。其中,高斯混合模型具有便于學習、形式簡單和描述能力強、聚類精度高等優點,成為研究最為深入的有限混合模型,在模式識別、機器學習、統計模型、計算機視覺以及數據挖掘等領域應用廣泛[3]。文獻[4]利用高斯混合模型建模研究預測智能控制交通、輔助駕駛系統、軍事數字化戰場中移動對象的不確定性軌跡。文獻[5]利用高斯混合模型對含有非視距誤差信息進行定位估計。文獻[6]將混合模型應用于文本主題-情感分析中。然而,實際中,許多具有非線性、非高斯性、有界性以及非對稱性的數據,均無法用高斯混合模型準確擬合[7]。近期的研究表明,非高斯混合模型能夠有效擬合非高斯數據。目前大量關于非高斯混合模型的研究成果相繼涌現,比如有限貝塔劉維爾混合模型,能有效地應用于圖像場景分類[8]、人體膚色檢測[9]中。文獻[10]提出了混合逆狄利克雷混合模型,并成功應用于正的非高斯數據聚類。然而,有限混合模型需要對混合分量數進行估計和確定,分量數的過多或過少會引起模型的過擬合或欠擬合問題。

相對于有限混合模型,無限混合模型直接避開了分量數的選擇,優化了模型擬合度。無限混合模型的研究主要涉及參數估計的問題。參數估計常被稱為參數學習。參數學習方法主要分為兩大類:確定性學習算法和非確定性學習算法。其中確定性學習算法以極大似然估計(Maximum Likelihood Estimation,MLE)的EM算法為主,主要是通過優化模型似然函數來求模型參數的估計值。EM算法存在估計過程陷入局部最優、估計結果嚴重依賴初始化值[11]和出現過擬合或欠擬合等問題。非確定性學習算法以馬爾可夫蒙特卡羅(Markov Chain Monte Carlo,MCMC)鏈為代表的貝葉斯學習算法為主。貝葉斯估計法先利用樣本數據將模型參數的先驗概率密度通過貝葉斯定理轉變為后驗概率密度,然后用后驗概率密度估計模型參數。然而,貝葉斯估計法存在高維密度積分的問題。目前,解決高維數積分困難問題的主要方法是隨機近似和確定性近似的方法[12]。隨機近似法主要有MCMC抽樣算法,但其存在收斂速度緩慢、局限于小規模數據集環境以及收斂不確定性大等缺點;確定性近似法主要有拉普拉斯近似算法和變分貝葉斯算法。拉普拉斯近似算法對于單峰分布的模型有很好的近似功能,但是對多峰分布的模型其近似性能不理想,所以拉普拉斯近似算法推理得到的結果不準確。

變分貝葉斯是解決高維積分困難問題的一種重要的近似推理方法。其核心思想是利用易處理的一類分布族來逼近隱變量的后驗分布,通過最大化變分參數的對數似然目標函數的下界獲得模型參數的估計值[13]。變分貝葉斯能夠適應高維的觀測環境,且運算量較少,已經成為概率混合模型學習的主流方法。變分框架受到了廣泛關注,并且能在各種應用中提供很好的泛化性能[14-17],包括有限混合學習。而且變分學習框架在高斯混合模型中已被證明可以提供更好的參數估計[18-20]。

為此,針對無限狄利克雷混合模型的學習問題,提出一種有效的變分近似推理框架,該框架能夠同時解決模型選擇及參數估計的問題。

2 無限狄利克雷混合模型的變分學習

2.1無限狄利克雷混合模型

狄利克雷過程產生離散的隨機分布,而狄利克雷過程混合模型則產生絕對連續分布[16-21],無限狄利克雷混合模型可以看作具有無限個分量的混合模型,是具有狄利克雷過程先驗假設的有限混合模型的極限形式[22]。在對非高斯數據進行建模時,混合分量數可以自動收斂。

有限狄利克雷混合模型定義為M個狄利克雷分布的線性組合,其表達式為:

(1)

狄利克雷分布的概率密度函數為:

(2)

其中,Γ()是伽馬函數。

選擇合適的M數量是混合模型選擇的重要問題,可以假設M值是無限的[23]。當式(1)中的M值趨近于無窮大時,狄利克雷混合模型線性組合由有限變成無限,無限狄利克雷混合模型的表達式如下:

(3)

(4)

給定類標簽,隱變量Z和參數α服從X的條件分布,則觀測變量集X的條件分布為:

(5)

在貝葉斯推理中,需要預先指定模型參數的先驗分布。因為狄利克雷分布的標準共軛先驗不能直接用于貝葉斯推理,故采用Gamma分布作為它的近似共軛先驗[8-9]。假設DMM中各個參數是統計獨立的,則參數α的先驗概率分布如下:

(6)

其中,(gmd,hmd)是超參數,且滿足gmd>0,hmd>0。

2.2模型的變分學習

(7)

其中,<·>n≠s代表除了n=s之外的所有服從Qn(Θn)的期望。

根據文獻[24-25]提出的變分推理方法,可以在M值上做一個變化分布的截斷,比如:

(8)

其中,M是一個截斷級,它是一個變化的參數,可以任意初始化,而且在變分學習過程中自動最優化。

理論上,棒斷裂性表示方法可以以任意精度逼近真實分布。因此,通過采用棒斷裂性表示和因式分解假設,可以獲得參數集合的后驗概率:

(9)

對每一個因子都使用式(7),可以獲取到變化后的后驗概率的每一個因子的最優結果:

(10)

(11)

(12)

參數更新方程中的期望值如下:

=rnm

(13)

(14)

(15)

(16)

(17)

由于每一個變分因子的解是通過其他因子的期望值相互關聯的,所以模型的優化可以通過一個類似期望最大化(EM)算法來實現,算法步驟如下:

(1)初始化分量數M,以及超參數gmd,hmd,am,bm的值;采用K-means算法初始化rnm的值。

(2)變分步驟:使用當前的模型參數分布估計式(13)~(17)的期望值。

(4)重復步驟(2)和(3)直至收斂。

(6)設定閾值為10-5,忽略混合系數接近小于閾值的分量并且檢測最終的分量數。

3 實驗結果及分析

為了驗證提出的基于變分貝葉斯算法的無限狄利克雷混合模型(variational Infinite Dirichlet Mixture Model,varInDMM)的性能,在程序生成的合成數據集上,進行了大量的仿真實驗。實驗中分量數初始化值設定為15,設定狄利克雷混合模型的共軛先驗概率(gmd,hmd)=(1,0.1),并初始化混合權重等系數。

實驗生成了四個合成數據集,四個合成數據集的數據可以指定分量數、維數且服從狄利克雷分布,利用四個合成數據集進行以下實驗:

(1)對比提出的變分貝葉斯算法的無限狄利克雷混合模型與文獻[20]中的變分貝葉斯算法的有限狄利克雷混合模型(variational finite Dirichlet Mixture Model,varDMM)的估計精度。該算法程序運行15次,結果取統計的平均值。表1量化地給出了變分貝葉斯算法的無限狄利克雷混合模型對于四個合成數據的參數估計結果。通過對比參數的真實值和varInDMM的參數估計結果發現,對于每一個數據集,利用varInDMM得到的估計值與真實值基本吻合。通過對比varInDMM與varDMM的參數估計結果可以看出,基于變分貝葉斯算法的無限狄利克雷混合模型的參數估計值更為精確。

(2)圖1給出了變分貝葉斯算法對于四個合成數據集學習得到的概率密度圖。

從圖1可見,狄利克雷分布的概率密度函數既可以是對稱的,也可以是非對稱的,因此它對非高斯數據具有很強的描述能力。

圖1 合成數據集變分學習后的混合密度

表1 不同合成數據集的參數

(3)對比varInDMM與varDMM的收斂速度,表2給出了兩種算法對于四個合成數據集學習的收斂時間。由表2可見,提出的基于變分貝葉斯算法的無限狄利克雷混合模型具有更快的收斂速度。

表2 算法的收斂時間 s

(4)算法初始化時定義的狄利克雷分量數為15。變分貝葉斯算法設置了隱變量,每一次的迭代循環中都會更新超參數,然后會重新計算各個分量的權值。若隱變量所指示分量出現權重過小的結果,該分量是冗余分量,加權求和時可忽略它的存在,即認為Znm=0。變分貝葉斯算法對于四個合成數據集的有效分量學習結果如圖2所示。由此可見,該算法最終收斂后可以通過模型選擇。

4 結束語

針對有限混合模型存在的參數估計和模型選擇的問題,提出了一個變分推理框架來學習無限狄利克雷混合模型。仿真實驗表明,文中算法能夠有效地估計模型參數,同時確定混合分量數,避免了有限混合模型的模型選擇困難問題。實驗對比了變分學習的無限狄利克雷混合模型和有限狄利克雷混合模型的估計值,以及兩種算法的收斂時間,證明了該算法在估計精度上更為精確,收斂速度更快。由合成數據集變分學習后的混合密度圖可見,該模型可以很好地擬合非高斯數據。表明該算法是有效的和可行的。下一步工作將研究基于變分貝葉斯算法的無限狄利克雷混合模型的特征選擇問題。

圖2 模型選擇后的有效分量

[1] Titterington D M,Smith A F M,Makov U E.Statistical analysis of finite mixture distributions[M].New York:Wiley,1985.

[2] Chen Tao,Zhang Jie.On-line multivariate statistical monitoring of batch processes using Gaussian mixture model[J].Computers & Chemical Engineering,2010,34(4):500-507.

[3] Lopez-Rubio E,Palomo E J.Growing hierarchical probabilistic self-organizing graphs[J].IEEE Transactions on Neural Networks,2011,22(7):997-1008.

[4] 喬少杰,金 琨,韓 楠,等.一種基于高斯混合模型的軌跡預測算法[J].軟件學報,2015,26(5):1048-1063.

[5] 崔 瑋,吳成東,張云洲,等.基于高斯混合模型的非視距定位算法[J].通信學報,2014,35(1):99-106.

[6] 樊 娜,蔡皖東,趙 煜.基于混合模型的文本主題-情感分析方法[J].華中科技大學學報:自然科學版,2010,38(1):31-34.

[7] Nguyen T M,Wu Q M J.Gaussian mixture model based spatial neighborhood relationships for pixel labeling problem[J].IEEE Transaction on System Man and Cybernetic,2012,42(1):193-202.

[8] 賴裕平,丁洪偉,周亞建,等.有限貝塔劉維爾混合模型的變分學習及其應用[J].電子學報,2014,42(7):1347-1352.

[9] Ma Zhanyu, Leijon A. Bayesian estimation of beta mixture models with variational inference[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2160-2173.

[10] Bdiri T,Bouguila N.Positive vectors clustering using inverted Dirichlet finite mixture models[J].Expert Systems with Applications,2012,39(2):1869-1882.

[11] Biernacki C,Celeux G,Govaert G.Choosing starting values for the EM algorithm for getting the highest likelihood in nultivariate Gaussian mixture models[J].Computational Statistics and Data Analysis,2003,41(3-4):561-575.

[12] Grimmer J.An introduction to Bayesian inference via variational approximations[J].Political Analysis,2011,19(1):32-47.

[13] Bishop C M.Pattern recognition and machine learning[M].New York:Springer-Verlag,2006.

[14] Teschendorff A E,Wang Y,Barbosa-Morais N L,et al.A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data[J].Bioinformatics,2005,21(13):3025-3033.

[15] Bali B,Mohammad-Djafari A.A variational Bayesian algorithm for BSS problem with hidden Gauss-Markov models for the sources[C]//Proc of ICA.[s.l.]:[s.n.],2007:137-144.

[16] Snoussi H, Mohammad-Djafari A. Estimation of structured Gaussian mixtures:the inverse EM algorithm[J].IEEE Transactions on Signal Processing,2007,55(7):3185-3191.

[17] Skolidis G,Sanguinetti G.Bayesian multitask classification with Gaussian process priors[J].IEEE Transactions on Neural Networks,2011,22(12):2011-2021.

[18] Wang B,Titterington D M.Convergence properties of a general algorithm for calculating variational Bayesian estimates for a normal mixture model[J].Bayesian Analysis,2006,1(3):625-650.

[19] Corduneanu A,Bishop C M.Variational Bayesian model selection for mixture distributions[C]//Proceedings of eighth international conference on artificial intelligence and statistics.[s.l.]:[s.n.],2001:27-34.

[20] Fan Wentao,Bouguila N,Ziou D.Variaional learning for finite Dirichlet mixture models and applications[J].IEEE Transaction on Neural Networks and Learning Systems,2012,23(5):762-774.

[21] 梅素玉,王 飛,周水庚.狄利克雷過程混合模型、擴展模型及應用[J].科學通報,2012,57(34):3243-3257.

[22] MacKay D,Peto L C B.A hierarchical Dirichlet language model[J].Natual Language Engineeing,1994,1(3):1-19.

[23] Bouguila N,Ziou D.A Dirichlet process mixture of Dirichlet distributions for classification and prediction[C]//IEEE workshop on machine learning for signal processing.[s.l.]:IEEE,2008:297-302.

[24] Ishwaran H,James L F.Gibbs sampling methods for stick-breaking priors[J].Journal of the American Statistical Association,2001,96(453):161-173.

[25] Blei D M, Jordan M I. Variational inference for Dirichlet process mixtures[J].Bayesian Analysis,2005,1(1):121-144.

VariationalLearningforInfiniteDirichletMixtureModel

ZENG Fan-feng,CHEN Ke,WANG Bao-cheng,XIAO Ke

(North China University of Technology,Beijing 100144,China)

Finite Gauss mixture model is widely used in pattern recognition,machine learning and data mining and so on,but many data in reality are non Gauss,which cannot accurately describe these data.In addition,there exist difficulties in parameter estimation and model selection in the finite Gauss mixture model.In order to better fit the non Gauss data and solve the problem of parameter estimation and model selection of the finite Gauss mixture model,on the basis of research on basic learning method of infinite Dirichlet mixture model suitable for modeling the data of a non Gauss,an efficient variational approximate inference algorithm is proposed,which solves problem of parameter estimation and model selection at the same time.In order to verify its validity,a lot of experiments are carried out on the synthetic data set.The experimental results show it can solve the problem of model selection and parameter estimation.Infinite Dirichlet mixture model proposed can also be applied to object detection,text classification,image classification and other parts.

Dirichlet;infinite mixture models;variational Bayes;model selection;parameter estimation

TP181

A

1673-629X(2017)10-0019-05

2016-10-10

2017-01-12 < class="emphasis_bold">網絡出版時間

時間:2017-07-11

國家自然科學基金資助項目(61371142);北方工業大學校內專項(XN060)

曾凡鋒(1966-),男,碩士,副研究員,研究方向為信息安全、圖像處理、系統辨別等;陳 可(1991-),男,碩士研究生,研究方向為信息安全、機器學習。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1455.048.html

10.3969/j.issn.1673-629X.2017.10.005

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲福利片无码最新在线播放| 精品国产成人三级在线观看| 性欧美久久| 国产精品久久久久久久久| 国产在线视频导航| 日本成人一区| 成人午夜视频免费看欧美| 精品国产欧美精品v| 国产在线无码一区二区三区| 国产v欧美v日韩v综合精品| 国产精品亚洲专区一区| 久久综合色天堂av| 精品人妻AV区| 最新日韩AV网址在线观看| 国产人成在线观看| 91香蕉国产亚洲一二三区| 日韩精品成人网页视频在线 | 欧美性色综合网| 中文字幕在线日韩91| 久久精品人妻中文视频| 无码内射中文字幕岛国片| 91免费片| 欧美日韩亚洲综合在线观看| 2019年国产精品自拍不卡| 亚洲一区二区三区香蕉| 一本色道久久88| 在线观看国产精美视频| 亚洲精品天堂自在久久77| 国产精品黄色片| 乱人伦视频中文字幕在线| 久久性视频| 五月激激激综合网色播免费| 91小视频在线观看免费版高清| 国产91特黄特色A级毛片| 伊人AV天堂| 日韩第九页| 免费毛片视频| 成人字幕网视频在线观看| 看国产毛片| 亚洲综合色在线| 国产打屁股免费区网站| 色综合久久久久8天国| 国产理论精品| 国产在线第二页| 国产精品粉嫩| 欧美成人第一页| 免费一级成人毛片| 日韩天堂视频| 久无码久无码av无码| 色哟哟国产精品| 国产成人三级| 亚洲国产成人久久77| 色有码无码视频| 99久久精品国产麻豆婷婷| 97se亚洲综合| 久久免费精品琪琪| 日韩亚洲高清一区二区| 特级毛片免费视频| 国产在线自乱拍播放| 99伊人精品| 色视频国产| 日本高清成本人视频一区| 国产SUV精品一区二区6| 久久精品国产999大香线焦| 国产91蝌蚪窝| 波多野结衣在线一区二区| 欧美在线一级片| 亚洲人成人伊人成综合网无码| 久久精品亚洲中文字幕乱码| 二级毛片免费观看全程| 国产自产视频一区二区三区| 国产精品无码制服丝袜| 不卡网亚洲无码| 亚洲AV成人一区国产精品| 亚洲综合极品香蕉久久网| 欧美日本中文| 国产日韩久久久久无码精品| 国产男女免费视频| 国产一级二级在线观看| 最新日韩AV网址在线观看| 99国产精品国产高清一区二区| 亚洲精品图区|