999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然梯度的概率主組件分析在線學習算法

2021-02-25 09:26:54陳亞瑞秦智飛
天津科技大學學報 2021年1期
關鍵詞:實驗模型

陳亞瑞,秦智飛

(天津科技大學人工智能學院,天津 300457)

數據降維[1]是指將高維樣本數據通過線性或者是非線性變換映射到低維空間,獲得高維數據在低維空間的一種表示.近年來,數據降維在眾多領域變得越來越重要,高維的數據通過數據降維可以去除高維空間中不相關或者不重要的屬性,減輕維數災難,能夠對數據的分類、壓縮以及可視化帶來良好效果.目前常用的降維方法有線性判別分析[2](linear discriminant analysis,LDA)、局部線性嵌入[3](locally linear embedding,LLE)、拉普拉斯特征映射[3](laplacian eigenmaps,LE)以及主組件分析[4-5](principal component analysis,PCA).LDA 是一種屬于有監督學習降維技術,基本原理是使得投影之后的每一種類別數據的投影點盡可能接近,而不同類別數據的類別中心之間的距離盡可能大.LDA 在降維過程中可以使用類別的先驗知識經驗,但是LDA 不適合對非高斯樣本分布進行降維,并且最多只能降到類別數減1 的維度.LLE 屬于流形學[6](manifold learning)的一種.它將高維數據投影到低維空間中,并保持數據點之間的局部線性關系,其核心思想是每個點都可以由與它相近的多個點的線性組合近似,投影到低維空間之后要保持這種線性重構關系,并且有相同的重構系數.LLE 算法歸結為稀疏矩陣[1]特征分解,計算復雜度相對較小,實現容易,但是算法對最近鄰樣本數的選擇敏感,不同的最近鄰數對最后的降維結果有很大影響.LLE 是用局部的角度去構建數據之間的關系,它的直觀思想是希望相互間有關系的點(在圖中相連的點)在降維后的空間中盡可能靠近,可以反映出數據內在的流形結構,但是局部特征保留特性使得它對孤立點和噪聲不敏感.PCA 的主要思想是將n 維特征映射到k 維上,這k 維是全新的正交特征,也被稱為主組件,是在原有n 維特征的基礎上重新構造出來的k 維特征,消除了特征之間的多重共線性.通過計算數據矩陣的協方差矩陣,然后得到協方差矩陣特征值的特征向量,選擇特征值最大(即方差最大)的k 個特征所對應的特征向量組成的矩陣.這樣就可以將數據矩陣轉換到新的空間當中,實現數據特征的降維.但是PCA 在求解時需要計算數據的協方差矩陣,過程較為繁瑣.概率主組件分析[7-9](probabilistic principal component analysis,PPCA)是從概率角度理解PCA,將PCA 納入生成式框架,與傳統的PCA 相比,PPCA 屬于隱變量模型[10],可以使用期望最大化[11](expectation maximization,EM)算法求解,避免了計算數據協方差矩陣.概率模型與EM 的結合能夠處理數據集里的缺失值問題.PPCA 也可以用一種生成式的方式運行,生成新的樣本.但是通過傳統EM 算法求解PPCA 模型時會存在參數更新過慢的問題.

因此,本文首先介紹PPCA,針對PPCA 存在的問題提出基于自然梯度的概率主組件分析在線學習算法,結合實驗驗證該算法的有效性.

1 PPCA及EM算法

1.1 概率主組件分析(PPCA)

對于生成模型[12]p(x,z)=p (z) p(x|z),其中x 表示觀測向量,z 表示連續隱向量,p (z)表示隱向量先驗概率分布,一般情況下先驗概率分布為p (z)=N(z| 0,I),p (x | z)表示條件概率分布.在生成模型結構下,觀測樣本 xi的生成過程如下:首先從隱變量先驗分布 p (z)中隨機生成一個隱向量樣本 zi,然后根據條件概率分布 p (x | z)生成樣本 xi.生成過程的概率表示形式為

生成模型 p(x,z)=p (z) p(x|z)對應的概率圖模型形式如圖1 所示,其中白色節點表示隱向量,黑色節點表示觀測向量,節點之間的邊表示變量之間的依賴關系.

圖1 生成模型Fig.1 Generating models

概率主組件分析是生成模型的一種特殊形式,其中D 維觀測變量x 由M 維隱變量z 的一個線性變換附加一個高斯噪聲[13]定義,即

其中W 表示RD×M維的一個參數矩陣,ε 表示D 維零均值高斯分布的噪聲變量,ε~ N(0,δ2I).

PPCA 模型的觀測樣本 xi的生成過程如下:首先從隱變量先驗分布 p (z)中隨機生成一個樣本 zi,然后根據條件概率分布 p (x|z)生成樣本 xi,即

對于觀測數據集X={ x1,…,xN},其中N 表示觀測樣本的個數,Z={ z1,…,zN}為對應的隱變量據集.PPCA 的學習任務是通過觀測數據X={ x1,…,xN}學習模型(4)中的參數W、δ2和μ.

1.2 EM算法

EM 算法是求解隱變量模型最大似然問題的經典方法,其基本思想是通過 E(Expectation)步和M(Maximization)步兩步不斷迭代更新模型參數.其中 E 步是通過對完備數據集的對數似然函數ln p( X,Z | θ)求關于隱變量后驗概率分布p (Z | X,θold)的期望,此步驟的目的是通過隱量后驗概率分布處理隱變量.M 步是對于在E 步中的完備數據集對數似然函數的期望進行最大化處理,更新模型參數.

對于PPCA 模型,完備數據集的對數似然函數為

PPCA 模型采用EM 算法迭代計算模型參數.

E 步:對ln p (X,Z | θ)求關于p (Z | X,θold)的期望,即

其中計算E[ zn]和是該步驟的關鍵.根據后驗概率分布計算可得

其中M=WTW +δ2I .

M 步:是最大化E[ln p (X,Z | μ, W,δ2)]更新模型參數

進一步求解可得

PPCA 模型EM 算法如下:

1.3 PPCA算法存在的問題

根據PPCA 模型的EM 算法描述,在進行一次參數更新的時候,需要首先計算出所有樣本的Ε[ zn]和,然后再更新模型參數Wnew和該算法最大問題是每更新一次參數需要計算所有樣本的隱變量后驗概率分布的期望,會導致計算過于復雜,參數更新太慢;同時算法很難擴展到大規模數據集,因為每一次算法更新時都需要遍歷整個數據集是不現實的.進一步,當數據量不斷增加時,需要采用增量學習[14]算法,隨著數據量增加不斷提升算法的性能.基于以上問題,本文提出基于自然梯度的概率主組件分析在線學習[15]算法.

2 自然梯度

梯度上升方法[16]是求解優化問題的重要方法,它通過沿著目標函數梯度的方向進行參數迭代更新,求解最優化問題.在歐氏空間中,函數梯度方向是變化最快的方向,也是參數更新的最優方向.但是當優化的參數是概率分布時,歐氏距離不能有效地度量概率分布之間的距離.對稱KL 散度[17](KL divergence)是度量兩個概率分布之間相似性的一種度量方式,數學表述為

歐氏梯度是歐氏空間中上升最快的方向,而自然梯度[18]是黎曼空間(該空間采用對稱KL 散度度量局部距離)內上升最快的方向.對于目標函數f(λ),它的自然梯度為

3 本文算法

對于PPCA 模型的EM 優化算法,其中的最大化問題maxE[ln p (X,Z | μ, W,δ2)],采用自然梯度上升方法求解該優化問題.根據自然梯度(式(13))及平均值場[7](mean field)理論可知

可以得到自然梯度具有以下的簡單形式

在傳統的PPCA 的EM 算法中,每一次參數的迭代更新都需要計算所有樣本的后驗概率分布,會使得算法的性能變得很差.在基于自然梯度的概率主組件分析在線學習算法中,使用單個樣本對參數進行局部的更新,并在參數的更新時引入自然梯度.

對于單樣本 xn,首先是計算樣本所對應的隱變量后驗分布

此時根據梯度下降算法,更新模型參數

基于自然梯度的概率主組件分析在線學習算法如下:

4 實驗分析

本節在5 個數據集下設計一組對比實驗,在不同訓練樣本個數下設計一組在線學習過程實驗以及在MNIST 數據集下設計一組生成樣本數據實驗,分析實驗結果,證明本文提出算法的有效性.

4.1 實驗環境

本實驗選用了5 個數據集,包括MNIST 數據集,Fashion-MNIST 數據集和 3 個 UCI 數據集(HOP、SDD、AREM).其中:MNIST 數據集為手寫數字數據集,共有10 類;Fashion_MNIST 數據集包含有10 類不同商品的圖片;HOP、SDD 及AREM 數據集是進行過特征提取后的數據集.數據集具體信息見表1.

表1 數據集信息Tab.1 Data set information

實驗平臺信息如下:GPU 采用GTX1080,CPU采用i7-8700@3.30 Hz,運行內存為16 GB,操作系統Windows 7 旗艦版,運行平臺工具python3.6.

4.2 實驗設計

設計3 組實驗.實驗1(在線學習過程實驗):在基于自然梯度的概率主組件分析在線學習算法中,依次使用遞增的訓練樣本個數對模型進行訓練,比較分類正確率.實驗2(精度對比實驗):在5 個數據集下分別運行PPCA 的EM 算法和基于自然梯度的概率主組件分析在線學習算法,并對比分析了算法運行時間及其分類正確率.實驗3(生成樣本實驗):在基于自然梯度的概率主組件分析在線學習算法中,依次使用遞增的訓練樣本個數對模型進行訓練,在訓練好的模型中使用隨機生成的隱變量生成新的樣本,比較生成數據的效果.

4.2.1 在線學習過程實驗

在基于隨機化近似的在線EM 算法中,依次使用5 000、10 000、20 000、30 000、40 000、>40 000 個數據樣本對EM 算法進行訓練,在訓練好的模型下對數據進行降維,并將降維后的數據按照表2 所示分為訓練集和測試集,通過單隱層全連接神經網絡進行分類,batch-size 為32,在學習率0.1,epoch 為100,得到分類正確比見表3.

表2 分類數據集Tab.2 Classified data set

表3 基于不同訓練樣本個數的分類正確比Tab.3 Classification accuracy ratio based on different training samples

4.2.2 精度對比實驗

在數據集上分別運行PPCA 的EM 算法和在訓練基于自然梯度的概率主組件分析在線學習算法時,由于內存的限制,每個數據集都隨機選用30 000 個樣本用于訓練EM 算法,最大迭代次數設置為500.在訓練好的模型中,將MNIST、Fashion_MNIST 的數據樣本降到200 維,將HOP 數據集樣本降到4 維,將AREM 數據集降到5 維,將SDD 數據集樣本降到22 維.將降維之后的數據集按照表2 所示比例分為訓練樣本和測試樣本,通過單隱層全連接神經網絡進行分類,batch-size 為32,學習率0.1,epoch 為100,得到分類正確比見表4,算法的運行時間見表5.

表4 分類精度Tab.4 Classification accuracy

表5 算法運行時間Tab.5 Algorithm running time s

4.2.3 生成樣本實驗

在基于自然梯度的概率主組件分析在線學習算法中,依次使用 5 000、10 000、20 000、30 000、40 000、>40 000 個MNIST 數據樣本對算法進行訓練,隱變量的維度設置為2,從均勻分布中隨機生成隱變量z,利用概率生成模型生成新的樣本,樣本的清晰度比較如圖2 所示.根據圖2 對比結果可知,在基于自然梯度的概率主組件分析在線學習算法中,隨著訓練樣本的增多,所生成的樣本越來越清晰,生成效果越來越好.

圖2 基于自然梯度的概率主組件分析在線學習算法的生成樣本Fig.2 Generated samples of online learning algorithm based on natural gradient probability main component analysis

5 結語

本文提出的基于自然梯度的概率主組件分析在線學習算法將自然梯度引入到PPCA 的EM 算法中,提高了算法的效果.實驗證明該算法相比于基于EM的傳統PPCA 在分類精度略有提升,但是算法的運行時間大大減少,并且算法受物理環境的影響較小,同時,隨著訓練樣本的增加,算法在生成數據方面也有比較明顯的提升.

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产经典免费播放视频| 国产精品网址在线观看你懂的| 狼友视频一区二区三区| 国产麻豆另类AV| 亚洲成av人无码综合在线观看| 国产无码网站在线观看| 91网站国产| 国产福利一区视频| 亚洲国产成人精品一二区| 午夜老司机永久免费看片| 国产草草影院18成年视频| 国产精品主播| 中文纯内无码H| 亚洲无码A视频在线| 国产精品自拍露脸视频| 国产男人的天堂| 亚洲最大福利网站| 亚洲视频在线网| 91成人试看福利体验区| 亚洲最猛黑人xxxx黑人猛交| 99久久亚洲精品影院| 亚洲美女一级毛片| 欧美第一页在线| 日韩成人高清无码| 女人18毛片久久| 看你懂的巨臀中文字幕一区二区| 91人妻日韩人妻无码专区精品| 91在线激情在线观看| 狠狠做深爱婷婷综合一区| 波多野结衣中文字幕一区| 久久精品丝袜| 欧美特黄一级大黄录像| 中文字幕佐山爱一区二区免费| 日韩精品一区二区三区中文无码| 国产精品丝袜视频| 99re精彩视频| 久久视精品| 亚洲日本在线免费观看| 真实国产精品vr专区| 久久免费精品琪琪| 欧美性久久久久| 国产91精品久久| 亚洲精品久综合蜜| 色综合婷婷| 色老头综合网| 亚洲日韩精品综合在线一区二区| 911亚洲精品| 亚洲狠狠婷婷综合久久久久| 在线中文字幕日韩| 91福利在线看| 无码电影在线观看| 亚洲人人视频| 亚洲欧美日韩另类在线一| 亚洲av色吊丝无码| vvvv98国产成人综合青青| 亚洲自拍另类| 欧美精品成人| 最新亚洲人成无码网站欣赏网| 国产综合亚洲欧洲区精品无码| 亚洲日本精品一区二区| 无码人妻免费| 欧美日本在线一区二区三区| 一级一级一片免费| 国产va欧美va在线观看| 精品久久香蕉国产线看观看gif| 国产91久久久久久| 91蜜芽尤物福利在线观看| 狠狠色丁香婷婷| 91午夜福利在线观看| 久久成人免费| 欧美啪啪一区| 亚洲床戏一区| 亚洲伦理一区二区| 国产成人亚洲精品色欲AV| 99在线观看国产| 在线免费亚洲无码视频| 日韩欧美国产成人| 国产91麻豆视频| 香蕉久久国产超碰青草| 黄色免费在线网址| 国产伦精品一区二区三区视频优播 | 999精品视频在线|