付維明 秦家虎 朱英達(dá)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)通常會(huì)被分布式地存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,例如傳感器網(wǎng)絡(luò)[1?3]和分布式數(shù)據(jù)庫(kù)[4]中等,其中每個(gè)節(jié)點(diǎn)只擁有部分?jǐn)?shù)據(jù).考慮到單個(gè)節(jié)點(diǎn)的存儲(chǔ)容量有限以及保護(hù)數(shù)據(jù)隱私或安全的需求[5?6],通常無(wú)法將所有數(shù)據(jù)都發(fā)送給一個(gè)中心節(jié)點(diǎn),然后利用集中式的方法處理這些數(shù)據(jù),因此開(kāi)發(fā)高效的算法對(duì)分布式存儲(chǔ)的數(shù)據(jù)進(jìn)行挖掘已成為當(dāng)前一個(gè)重要的研究方向[7?12].
變分貝葉斯(Variational Bayesian,VB)推斷[13]是一種功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),被廣泛用于解決實(shí)際問(wèn)題,如識(shí)別文檔主題[14?15],對(duì)數(shù)據(jù)進(jìn)行聚類和密度估計(jì)[16]以及預(yù)測(cè)未知數(shù)據(jù)[17]等.近年來(lái),研究者們已提出很多分布式的VB 算法[3,18?20],然而在大多數(shù)這些算法的每步迭代中,都需要基于整個(gè)數(shù)據(jù)集更新全局參數(shù),這不僅會(huì)導(dǎo)致算法計(jì)算代價(jià)大、效率低,還會(huì)導(dǎo)致算法可擴(kuò)展性差,難以擴(kuò)展到在線學(xué)習(xí)或者流數(shù)據(jù)處理的情況.
隨機(jī)變分推斷(Stochastic variational inference,SVI)[15]的提出使得貝葉斯推斷方法在處理海量數(shù)據(jù)時(shí)具有更高的效率和可擴(kuò)展性.它借用了隨機(jī)優(yōu)化的方法,根據(jù)基于子樣本的噪聲自然梯度來(lái)優(yōu)化目標(biāo)函數(shù),大大減小了每步迭代時(shí)所需的存儲(chǔ)量和計(jì)算量.目前已有一些研究者將其擴(kuò)展為分布式版本,以提高分布式數(shù)據(jù)的處理效率以及將其應(yīng)用于分布式數(shù)據(jù)流的處理[21].具體地,文獻(xiàn)[22]提出了一種有中心的異步分布式SVI 算法,該算法中的中心節(jié)點(diǎn)負(fù)責(zé)收發(fā)全局參數(shù),其余節(jié)點(diǎn)并行地更新全局參數(shù).值得一提的是,這類有中心的算法往往會(huì)存在魯棒性差,鏈路負(fù)載不平衡,數(shù)據(jù)安全性差等缺點(diǎn).在文獻(xiàn)[11]中,交替方向乘子方法(Alternating direction method of multipliers,ADMM)[23]被用來(lái)構(gòu)造兩種無(wú)中心的分布式SVI 算法,克服了有中心的算法的缺點(diǎn),但它們存在每步迭代中全局參數(shù)本地更新所需的計(jì)算代價(jià)大以及不適用于異步網(wǎng)絡(luò)的缺點(diǎn).
本文以SVI 為核心,借用多智能體一致優(yōu)化問(wèn)題中的擴(kuò)散方法[24],發(fā)展了一種新的無(wú)中心的分布式SVI 算法,并針對(duì)異步網(wǎng)絡(luò)提出了一種適應(yīng)機(jī)制.在所提出的算法中,我們利用自然梯度法進(jìn)行全局參數(shù)的本地更新,并選擇對(duì)稱雙隨機(jī)矩陣作為節(jié)點(diǎn)間參數(shù)融合的系數(shù)矩陣,減小了本地更新的計(jì)算代價(jià).最后,我們?cè)诓旌夏P?Bernoulli mixture model,BMM)和隱含狄利克雷分布(Latent Dirichlet allocation,LDA)上驗(yàn)證了所提出的算法的可行性,實(shí)驗(yàn)結(jié)果顯示所提出的算法在發(fā)現(xiàn)聚類模式,對(duì)初始參數(shù)依耐性以及跳出局部最優(yōu)等方面甚至優(yōu)于集中式SVI 算法,這是以往分布式VB 算法所沒(méi)有表現(xiàn)出來(lái)的.
本文其余部分安排如下:第1 節(jié)介紹集中式SVI 算法;第2 節(jié)介紹本文所提出的分布式SVI算法并給出了一種針對(duì)異步網(wǎng)絡(luò)的適應(yīng)機(jī)制;第3 節(jié)展示在BMM 和LDA 模型上的實(shí)驗(yàn)結(jié)果;第4 節(jié)對(duì)本文工作進(jìn)行總結(jié).
SVI 基本模型包含以下這些量:數(shù)據(jù)集x={x1,···,xN},局部隱藏變量y={y1,···,yN},全局隱藏變量β以及模型參數(shù)α.模型的概率圖如圖1所示,其中黑色圓圈代表固定參數(shù),灰色圓圈代表數(shù)據(jù)集,白色圓圈代表隱藏變量,箭頭描述了它們之間的依賴關(guān)系.具體地,α直接影響β,β直接影響局部變量對(duì) (xn,yn).我們假設(shè)全局隱藏變量β的先驗(yàn)分布屬于指數(shù)族分布且具有如下形式:

其中,u(β) 表示自然參數(shù),A(α) 表示歸一化函數(shù);不同局部變量對(duì) (xn,yn) 之間相互獨(dú)立且其分布也屬于指數(shù)族分布,具體形式如下:

圖1 本文考慮的模型的概率圖表示Fig.1 The graphic model considered in this paper

其中f(xn,yn) 表示自然充分統(tǒng)計(jì)量;此外,還假設(shè)上述兩個(gè)指數(shù)族分布滿足共軛條件關(guān)系[25],以使后驗(yàn)分布與先驗(yàn)分布的形式相同.我們的目標(biāo)是根據(jù)觀測(cè)到的數(shù)據(jù)集來(lái)估計(jì)局部隱藏變量的分布,即其后驗(yàn)分布p(y,β|x).
平均場(chǎng)變分推斷是一種用一個(gè)可以因式分解的變分分布去近似后驗(yàn)分布的方法.在上一節(jié)介紹的模型基礎(chǔ)上,我們可以用變分分布q(y,β) 來(lái)近似p(y,β|x),并假設(shè)該變分分布滿足以下條件:

其中,λ和φ={φ1,φ2,···,φN} 是變分參數(shù).此時(shí)需要最小化q(y,β)和p(y,β|x) 之間的Kullback-Leibler (KL)散度來(lái)讓q(y,β) 逼近p(y,β|x),這等價(jià)于最大化

其中,Eq[·]表示在分布q(y,β) 下的期望函數(shù),L(λ,φ)是對(duì)數(shù)證據(jù) lnp(x) 的一個(gè)下界,被稱為Evidence lower bound (ELBO)[15].基于q(y,β)) 可分解的假設(shè),最大化L(λ,φ) 可以利用坐標(biāo)上升法[26]通過(guò)交替更新λ和φ來(lái)實(shí)現(xiàn).下文討論的SVI 以上述平均場(chǎng)變分推斷方法為基礎(chǔ).

如果我們固定φ,則可以把L(λ,φ) 看成是λ的函數(shù),此時(shí)需要求解常用的方法是對(duì)其求(歐氏)梯度,但是用歐氏距離表征不同λ之間的遠(yuǎn)近關(guān)系是不合理的,這是因?yàn)棣藶樽兎謪?shù),我們所關(guān)心的是不同的λ所刻畫(huà)的分布q(y,β) 之間的差異,此時(shí)可以引入自然梯度[15],它表示的是函數(shù)在黎曼空間上的梯度.通過(guò)對(duì)L(λ,φ)關(guān)于φ求自然梯度,可以將平均場(chǎng)變分推斷推廣到隨機(jī)優(yōu)化的版本,即隨機(jī)變分推斷.具體地,我們定義如下的隨機(jī)函數(shù)

其中,I是均勻取值于{1,···,N}的隨機(jī)變量.易知LI(λ)的期望等于L(λ),因此每次均勻地選取一個(gè)數(shù)據(jù)點(diǎn)n時(shí),Ln(λ) 給出了L(λ) 的一個(gè)無(wú)偏估計(jì).根據(jù)隨機(jī)優(yōu)化理論,集中式SVI 的過(guò)程由下面兩步構(gòu)成:
1) 均勻地隨機(jī)選取一個(gè)數(shù)據(jù)點(diǎn)n,并計(jì)算當(dāng)前最優(yōu)的局部變分參數(shù)
2) 通過(guò)

更新全局變分參數(shù)λ.
上述SVI 算法一次迭代只采樣一個(gè)數(shù)據(jù)點(diǎn),其也可以被直接擴(kuò)展成一次采樣一個(gè)數(shù)據(jù)批量(Batch)的版本,詳見(jiàn)文獻(xiàn)[15].
我們考慮一個(gè)由J個(gè)節(jié)點(diǎn)組成的分布式網(wǎng)絡(luò),其中每個(gè)節(jié)點(diǎn)i存儲(chǔ)包含Ni個(gè)數(shù)據(jù)項(xiàng)的數(shù)據(jù)集xi={xi1,···,xiNi},于是整個(gè)網(wǎng)絡(luò)上存儲(chǔ)的完整數(shù)據(jù)集為x={x1,···,xJ},總數(shù)據(jù)項(xiàng)數(shù)為假設(shè)網(wǎng)絡(luò)的通訊拓?fù)涫且粋€(gè)無(wú)向圖G=(V,E),其中V={1,···,J}是節(jié)點(diǎn)集合,E ?V ×V是邊集合,(i,j)∈E表明信息可以在節(jié)點(diǎn)i和節(jié)點(diǎn)j之間直接傳輸,記節(jié)點(diǎn)i的鄰居集合為Bi={j ∈V:(j,i)∈E}.此外,我們還假設(shè)G是連通的,即對(duì)存在至少一條路徑連接節(jié)點(diǎn)i和節(jié)點(diǎn)j.
如果記節(jié)點(diǎn)i的局部隱藏變量為yi={yi1,···,yiNi},記對(duì)應(yīng)的局部變分參數(shù)為φi={φi1,···,φiNi},則ELBO 可以寫(xiě)為

我們借用多智能體一致優(yōu)化問(wèn)題中的擴(kuò)散方法來(lái)發(fā)展分布式SVI 算法.擴(kuò)散方法的基本思想是交替執(zhí)行本地更新和節(jié)點(diǎn)間參數(shù)融合兩個(gè)步驟,從而使所有節(jié)點(diǎn)的參數(shù)收斂到所希望的全局最優(yōu)值或者局部最優(yōu)值.
對(duì)于節(jié)點(diǎn)i,如果定義其局部ELBO 為



注意本地更新只能使每個(gè)節(jié)點(diǎn)的全局變分參數(shù)獨(dú)立地收斂到各自的局部ELBO 的局部最優(yōu)值,我們還要保證每個(gè)節(jié)點(diǎn)學(xué)得的全局變分參數(shù)收斂到一致,即||λi-λj||→0,由于我們已經(jīng)假設(shè)拓?fù)鋱D是連通的,因此只要使||λi-λj||→0,?(i,j)∈E就可以保證所有節(jié)點(diǎn)的全局變分參數(shù)都收斂到一致.為此,根據(jù)擴(kuò)散方法,我們?cè)诿看伪镜馗轮?將每個(gè)節(jié)點(diǎn)的當(dāng)前全局變分參數(shù)發(fā)送給其鄰居節(jié)點(diǎn),然后將當(dāng)前的全局變分參數(shù)與從鄰居節(jié)點(diǎn)接受到的全局變分參數(shù)進(jìn)行融合.上述過(guò)程可以由下面公式描述:

其中,pij是融合系數(shù),我們采用如下的定義

事實(shí)上,如上定義的 [pij]是一個(gè)對(duì)稱隨機(jī)矩陣.當(dāng)?shù)螖?shù)很大的時(shí)候,ρt變得很小,則有分布式SVI 算法退化成由式(15)描述的平均一致性協(xié)同過(guò)程,所以將收斂到所有節(jié)點(diǎn)初始參數(shù)值的平均值.這樣使得訓(xùn)練結(jié)果不會(huì)對(duì)任何節(jié)點(diǎn)的數(shù)據(jù)分布有偏向性.
上節(jié)所述的分布式SVI 算法默認(rèn)是同步執(zhí)行的,即所有節(jié)點(diǎn)在每個(gè)迭代步同步地執(zhí)行本地更新和參數(shù)融合兩個(gè)步驟.但是所有節(jié)點(diǎn)同步執(zhí)行需要使用時(shí)間同步協(xié)議去估計(jì)和補(bǔ)償時(shí)序偏移,這會(huì)帶來(lái)額外的通信負(fù)載.此外,執(zhí)行快的節(jié)點(diǎn)需要等待執(zhí)行慢的節(jié)點(diǎn),這會(huì)大大降低算法的執(zhí)行速度.為此我們?cè)O(shè)計(jì)了一種機(jī)制使所提出的分布式SVI算法適應(yīng)異步通信網(wǎng)絡(luò).具體地,每個(gè)節(jié)點(diǎn)額外開(kāi)辟一塊存儲(chǔ)區(qū)域?qū)⑧従庸?jié)點(diǎn)發(fā)送過(guò)來(lái)的存儲(chǔ)起來(lái).在每個(gè)參數(shù)融合步中,如果在等待一定的時(shí)間后收到了來(lái)自鄰居節(jié)點(diǎn)發(fā)送過(guò)來(lái)的則更新存儲(chǔ)區(qū)域中的的值,然后,用更新后的進(jìn)行本地參數(shù)更新;否則,直接用存儲(chǔ)區(qū)域的值進(jìn)行本地參數(shù)更新.這樣一來(lái),既可以使所提出的分布式算法以異步方式執(zhí)行,又盡可能地保證了算法的性能.
這一節(jié)我們將所提出的分布式SVI 算法(我們稱之為異步分布式SVI)應(yīng)用于BMM 模型和LDA主題模型,并在不同的數(shù)據(jù)集上測(cè)試其性能.并且將其與集中式SVI 算法和dSVB 算法[3]進(jìn)行對(duì)比,其中dSVB 算法被我們以同樣的方式擴(kuò)展成隨機(jī)的版本以方便比較.
我們考慮具有K個(gè)成分的混合多變量伯努利模型.該模型的全局隱藏變量包括:每個(gè)成分k的全局隱藏變量βk,其維度等于數(shù)據(jù)維度,每個(gè)維度的值表示該維度的數(shù)據(jù)值屬于“0”的概率,以及成分的混合概率π={π1,···,πK},其中隱藏變量的先驗(yàn)分布形式如下:

其中,α=[α]K,a和b是固定的超參數(shù),在BMM模型上的實(shí)驗(yàn)中,我們均設(shè)置α=a=b=1.
我們將混合多變量伯努利模型應(yīng)用到MNIST 數(shù)據(jù)集上.在預(yù)處理中,每張圖的每個(gè)像素根據(jù)其像素值被設(shè)為0 或者1,然后每張圖被展開(kāi)成28 × 28=784 維的向量.我們隨機(jī)生成包含50 個(gè)節(jié)點(diǎn),166 條邊的無(wú)向連通網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖2所示,并將訓(xùn)練數(shù)據(jù)平均分給50 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含1 200 條數(shù)據(jù)(整個(gè)MNIST 訓(xùn)練集包含60 000條數(shù)據(jù)).實(shí)驗(yàn)中,設(shè)置K=40,并設(shè)置全局隱藏變量的先驗(yàn)分布為均勻分布.

圖2 通信網(wǎng)絡(luò)拓?fù)鋱DFig.2 The topology of the communication network
圖3 展示了所提出的異步分布式SVI 算法在κ=0.5,τ=10下,每份數(shù)據(jù)分6 個(gè)批次訓(xùn)練200 個(gè)epoch 得到的聚類中心 (由每個(gè)成分k的全局隱藏變量βk的期望所定義的向量對(duì)應(yīng)的圖片) 和相同設(shè)置下集中式SVI 算法得到的聚類中心.由圖3 可知,異步分布式SVI 算法可以充分找到所有潛在的聚類模式,而集中式SVI 則往往不能充分找出所有的聚類模式.
在相同設(shè)置下多次運(yùn)行三種算法得到的所有節(jié)點(diǎn)估計(jì)的ELBO 的平均值以及相校平均值的偏差演化曲線如圖4 所示,可以看到異步分布式SVI 算法相比集中式SVI 算法能夠收斂到更好的值,并且多次運(yùn)行得到的結(jié)果之間的誤差更小,表現(xiàn)更加穩(wěn)定.此外,異步執(zhí)行的方式破壞了dSVB 算法的收斂性,而異步分布式SVI 算法對(duì)異步網(wǎng)絡(luò)具有良好的適應(yīng)性.

圖3 異步分布式SVI 算法和集中式SVI 算法得到的聚類中心Fig.3 Cluster centers obtained by the asynchronous distributed SVI and the centralized SVI
為了研究超參數(shù)κ和τ對(duì)所提出的分布式SVI算法表現(xiàn)的影響,我們?cè)?κ=0.5,τ=1),(κ=0.5,τ=10),(κ=0.5,τ=100),(κ=0.75,τ=10),(κ=1,τ=10)幾組參數(shù)下進(jìn)行實(shí)驗(yàn),所得到的所有節(jié)點(diǎn)ELBO 的平均值的演化曲線見(jiàn)圖5,可以看到在不同的 (κ,τ) 設(shè)置下所提出的異步分布式SVI 均優(yōu)于集中式SVI.
LDA 主題模型是文檔集的概率模型,它使用隱藏變量對(duì)重復(fù)出現(xiàn)的單詞使用模式進(jìn)行編碼,由于這些模式在主題上趨于一致,因此被稱為“主題模型”.其已經(jīng)被應(yīng)用于很多領(lǐng)域,例如構(gòu)建大型文檔庫(kù)的主題導(dǎo)航或者輔助文檔分類.LDA 模型的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,其中變量的說(shuō)明見(jiàn)表1.

圖4 異步分布式SVI 算法、dSVB 算法、集中式SVI 算法的ELBO 的平均值和偏差演化Fig.4 The evolution of the means and deviations of the ELBO for the asynchronous distributed SVI,the dSVB,and the centralized SVI
我們首先在New York Times 和Wikipedia 兩個(gè)數(shù)據(jù)集上驗(yàn)證異步分布式算法在LDA 模型上的性能.首先我們生成一個(gè)包含5 個(gè)節(jié)點(diǎn)7 條邊的網(wǎng)絡(luò),將每個(gè)數(shù)據(jù)集的文檔隨機(jī)分配給各個(gè)節(jié)點(diǎn).在實(shí)驗(yàn)中我們?cè)O(shè)置K=5,并以文檔集的生成概率的對(duì)數(shù)作為評(píng)價(jià)指標(biāo).
圖7 展示了在α=0.2,η=0.2,κ=0.5,τ=10,訓(xùn)練epoch 取40,分布式算法中每個(gè)節(jié)點(diǎn)的批大小取10,集中式算法的批大小取50 的設(shè)置下,異步分布式SVI,集中式SVI 和dSVB 以異步方式分別在兩個(gè)數(shù)據(jù)集上運(yùn)行多次得到的lnp(w)的演化曲線,可見(jiàn)異步分布式SVI 算法表現(xiàn)優(yōu)于另外兩種算法.不同參數(shù)設(shè)置下異步分布式SVI 和集中式SVI 在New York Times 數(shù)據(jù)集上收斂時(shí)的lnp(w)見(jiàn)表2,可見(jiàn)不同設(shè)置下異步分布式SVI 的表現(xiàn)均優(yōu)于集中式SVI.

圖5 不同 (κ,τ) 設(shè)置下異步分布式SVI 和集中式SVI 的ELBO 的平均值演化Fig.5 The evolution of the means of the ELBO for the asynchronous distributed SVI and the centralized SVI under different settings of (κ,τ)

圖6 LDA 模型的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 The Bayesian graphic model of LDA

圖7 異步分布式SVI、集中式SVI 和dSVB 在兩個(gè)數(shù)據(jù)集上的表現(xiàn)Fig.7 Performance of the asynchronous distributed SVI,the centralized SVI,and the dSVB on the two data sets

表1 LDA 模型變量Table 1 Variables in LDA model

表2 不同參數(shù)設(shè)置下異步分布式SVI 和集中式SVI 收斂的值Table 2 The convergent values of the asynchronous distributed SVI and the centralized SVI under different parameter settings
然后我們?cè)趶?fù)旦大學(xué)中文文本分類數(shù)據(jù)集上測(cè)試所提出的異步分布式SVI 算法.該數(shù)據(jù)集來(lái)自復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組,其由分屬20 個(gè)類別的9 804 篇文檔構(gòu)成,其中20 個(gè)類別的標(biāo)簽分別為Art、Literature、Education、Philosophy、History、Space、Energy、Electronics、Communication、Computer、Mine、Transport、Environment、Agriculture、Economy、Law、Medical、Military、Politics 和Sports.在預(yù)處理步驟中,我們首先去除了文本中的數(shù)字和英文并用語(yǔ)言技術(shù)平臺(tái)(Language technology plantform,LTP)的分詞模型對(duì)文本進(jìn)行分詞處理.為了減小訓(xùn)練的數(shù)據(jù)量,我們只讀取每個(gè)類別的前100 篇文檔進(jìn)行訓(xùn)練.圖8 展示了在K=20,α=0.2,η=0.2,κ=0.5,τ=10,分布式算法Batch size(批大小)取2,集中式算法batch size 取100 的設(shè)置下,異步分布式SVI 和集中式SVI 分別在復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集上運(yùn)行多次得到的lnp(w)的演化曲線,可以看到異步分布式SVI 收斂速度慢于集中式SVI,但是最終得到的 lnp(w) 值優(yōu)于集中式SVI.

圖8 異步分布式SVI 和集中式SVI 在復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集上的表現(xiàn)Fig.8 Performance of the asynchronous distributed SVI and the centralized SVI on the Chinese text classification data set of Fudan University
圖9 展示了在表3 所示的超參數(shù)組合設(shè)置下異步分布式SVI 和集中式SVI 在復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集上訓(xùn)練100 個(gè)epoch 得到的 lnp(w) 的值的對(duì)比,其中橫坐標(biāo)為集中式SVI 得到的lnp(w)的值,縱坐標(biāo)為對(duì)應(yīng)超參數(shù)設(shè)置下異步分布式SVI 得到的 lnp(w) 的值.可以看到大部分?jǐn)?shù)據(jù)點(diǎn)都位于左上方,表明大部分情況下異步分布式SVI都優(yōu)于集中式SVI.并且注意到當(dāng)batch size 取1 時(shí)異步分布式SVI 表現(xiàn)最差,在(κ=0.5,τ=1,batchsize=1)的設(shè)置下其表現(xiàn)不如集中式SVI.我們認(rèn)為這是由于當(dāng)batch size 太小時(shí),分布式SVI的收斂速度過(guò)慢造成的.

圖9 不同超參數(shù)設(shè)置下異步分布式SVI 和集中式SVI 在復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集上表現(xiàn)Fig.9 Performance of the asynchronous distributed SVI and the centralized SVI on the Chinese text classification data set of Fudan University under different hyperparameter settings

表3 超參數(shù)取值表Table 3 The values of hyperparameters
本文針對(duì)無(wú)中心的分布式網(wǎng)絡(luò),基于擴(kuò)散方法提出了一種新穎的分布式SVI 算法,其中采用自然梯度法進(jìn)行本地更新以及采用對(duì)稱雙隨機(jī)矩陣作為信息融合系數(shù),并且為其設(shè)計(jì)了一種針對(duì)異步網(wǎng)絡(luò)的適應(yīng)機(jī)制.然后將其應(yīng)用于BMM 和LDA 主題模型.在不同數(shù)據(jù)集上的實(shí)驗(yàn)均表明所提出的算法確實(shí)適用于異步分布式網(wǎng)絡(luò),而且其在發(fā)現(xiàn)聚類模式和對(duì)抗淺的局部最優(yōu)方面的表現(xiàn)優(yōu)于集中式SVI算法.