畢 凱,王曉丹,邢雅瓊(空軍工程大學防空反導學院,陜西 西安710051)
基于改進BPSO的聚類選擇性集成
畢 凱,王曉丹,邢雅瓊
(空軍工程大學防空反導學院,陜西西安710051)
首先針對離散二進制粒子群(binary particle swarm optimization,BPS O)容易陷入局部收斂的問題,提出一種改進的BPS O算法。在分析高斯密度函數對尺度敏感性的基礎上,利用粒子群與全局最優粒子的一致性動態調節尺度參數,并利用密度函數對稱區間的定積分確定全局最優粒子的變異概率。而后將聚類的選擇性集成抽象為組合優化問題,利用聚類成員有效性和差異性的加權組合定義適應度并以改進BPS O的進化過程實現聚類的選擇性集成。最后基于標準數據集和圖像數據集驗證算法的有效性。
聚類選擇性集成;離散二進制粒子群;高斯密度函數;圖像分割
網址:w w w.sys-ele.co m
聚類集成是指無監督情況下對同一數據集多種不同聚類結果的決策級融合。由于具有魯棒性、新穎性、穩定性、并行性以及可擴展性等優點[1],使其一經提出便受到普遍關注,已成為當前聚類研究的重要方向并成功應用于圖像分 割[2]、文本分類[3]、特征提取[4]、生物工程[5]等諸多領域。
文獻[6]于2002年首次提出選擇性集成學習的概念,并通過理論分析和實驗表明具有較好分類性能和較大差異性的基分類器更有利于構造高性能的強分類器。與有監督集成學習類似,聚類的選擇性集成已被提出并廣泛研究。聚類法和排序法是當前常用的兩種聚類選擇性集成方法[7]。聚類法[7-8]首先以差異性作為劃分依據,通過聚類算法使差異性較小的聚類成員劃為同類,而差異性較大的聚類成員分為異類,而后在各類別中選擇有效性最高的聚類成員用于集成。排序法[9-10]則利用線性組合將有效性和差異性統一為適應度,并依據適應度的大小對全體聚類成員進行排序,而后利用適應度最高的聚類成員用于集成。
需要指出的是,上述聚類選擇性集成方法雖然取得了一定研究進展,但仍存在以下問題:①聚類法中聚類算法的選擇。聚類算法通常基于特定的數據結構假設,當真實數據與假設相符時能夠獲得良好的劃分結果,當不符時劃分結果與實際相差甚遠。全體聚類成員的空間結構通常是未知的,這將使聚類算法的選擇具有較大盲目性;②排序法中利用任一聚類成員與其余全體聚類成員間的平均差異性描述差異性,但選擇出聚類集合的整體差異性利用該描述存在一定誤差;③無論是聚類法還是排序法都需要確定選擇規模,而選擇規模通常與實際問題、全體集成規模和聚類成員的質量等問題有關,因而人為設定選擇規模稍欠合理。
為解決上述問題,本文將聚類的選擇過程看作是組合優化問題,提出一種基于離散二進制粒子群(binary particle swarm optimization,BPS O)的聚類選擇性集成方法。首先為避免陷入局部最優解,給出一種基于改進高斯變異的離散粒子群進化算法,而后利用聚類成員有效性和差異性的加權組合定義適應度,并基于改進離散粒子群的進化過程實現聚類的選擇性集成。
1.1 BPSO
粒子群優化算法(particle swarm optimization,PSO)[11]是Kennedy和Ebethart于1995年提出的一種基于群體智能的隨機尋優算法。通過對鳥群社會行為進行模擬,在多維解空間中利用一定規模的可行解構成粒子群,并通過粒子間的相互作用,對解空間進行智能搜索,從而發現最優解。由于具有原理簡單、易于實現、收斂速度快、群體搜索、協同搜索以及通用性強等優點,近年來相關研究發展迅速。
設搜索空間為d維,群體中第i個粒子的位置為Xi= (xi1,xi2,…,xid),速度為Vi=(vi1,vi2,…,vid),它經歷過的最佳位置為Pi=(pi1,pi2,…,pid),群體經歷過的最佳位置為Pgbest=(pg1,pg2,…,pgd)。粒子分別按式(1)和式(2)更新自己的位置和速度:

式中,ω為慣性權重,較大時適于對解空間進行較大范圍搜索,較小時適于進行小范圍搜索;k為迭代次數;r1,r2為(0,1)之間的隨機數;c1,c2為加速因子,通常取2。每一維的位置和速度都被限制在一定的范圍內,粒子飛行過程中如果位置和速度超過邊界范圍則取邊界值。Pi和Pgbest不斷更新,最后輸出的Pgbest就是全局最優解。
BPSO是PSO的離散二進制版本,于1997年由Kennedy 和Ebethart提出[12],開啟了PS O算法在離散問題領域的應用。在二進制編碼中,BPS O限制粒子位置只能取0或1,需要指出的是,二進制粒子群算法中速度向量不再是位置變化,而僅表示概率,即每一維分量的取值為1或0的概率,引入模糊函數sigmoid:

利用式(4)替代式(2),有

式中,rand為[0,1]間的隨機數,通過分析可以發現當最大飛行速度大于10時,sig(v)將趨近于0,為防止該函數趨近于0,可將速度限制于[-4,4]區間內[13]。
1.2 改進BPSO
為避免BPS O可能陷入局部最優,出現所謂的早熟現象,文獻[14]通過自適應擾動慣性因子來增強粒子群跳出局部最優的能力,文獻[15]提出通過增加粒子群的多樣性,以達到擺脫群體陷入局部極值的可能。需要指出的是,上述文獻均基于連續PS O算法易陷入局部極值的問題提出,而離散PS O的進化過程與連續PS O存在較大區別[16]。
分析BPS O的進化過程可以看到,粒子通過跟蹤個體極值Pi和群體極值Pgbest來更新自己,當某一粒子發現一個局部最優值,則其他粒子將迅速向其靠攏,此時粒子群可能陷入局部最優。因而可以考慮通過對Pgbest進行適當擾動以達到跳出局部極值并提高算法精度的目的[17]。
高斯變異是標準進化規劃中常用的變異算子[18],標準高斯分布密度為N(0,1),期望為0,方差為1。對于個體X=(x1,x2,…,xd),經過變異后得到一個新的個體X′= (x′1,x′2,…,x′d),其變異過程可描述為

考慮高斯概率密度函數的一般形式

式中,μ∈R,σ∈R+。密度函數p(x)的圖形如圖1所示。觀察可知,μ決定了密度函數的位置,σ的取值對高斯密度函數的形狀具有重要意義。σ越小函數圖像越收攏,x以較高概率分布于x=μ附近,σ越大則函數圖像越發散,x的分布則相對發散。不考慮密度函數的位置,本文令μ=0。

圖1 高斯概率密度函數
由式(6)可知,x在全體實數范圍內取值,而在BPS O中變異本質上是以一定的概率取反,為實現變異進行如下討論。
令F(x)表示變異概率

分析可知,對于任意的x∈(0,+∞),F(x)∈(0,1)。對于確定的x,F(x)為σ的單調減函數,當σ→0時,F(x)→1,當σ→+∞時,F(x)→0。考慮到BPS O進化過程的不同變異需要,這里定義動態的σ。

式中,λ為縮放系數,用于控制σ(k)的變化范圍;ξ為略小于1的數,xij==pgj用于判斷二者是否相等,若相等取值為1,否則取值為0。分析式(8)可知,在進化的初始階段,k值較小且各粒子與全局最優解的一致性較弱,因而σ(k)取值較小使Pgbest具有較高的變異概率,進而使種群可在較曠闊空間內進行搜索。隨著進化過程不斷進行,1-ξk取值趨近于1,各粒子不斷向全局最優解靠攏,σ(k)取值不斷增加,使得變異概率降低,避免過度變異而錯過全局最優解。基于上述分析并參考式(4),則全局最優解Pgbest的變異操作可表示為

此外,考慮到慣性權重ω對進化過程的非線性影響,采用文獻[19]的策略,采用非線性方法自適應調整慣性權重ω。具體公式為

綜上改進的BPS O算法流程可表示如下。
算法1 改進的BPS O
輸入 最大迭代次數km ax;粒子群規模T;收斂閾值d;加速因子c1、c2;慣性權重ωm ax,ωmin;變異次數n;縮放系數λ;積分區間x。
輸出 最優解Pgbest。
步驟1 隨機初始化速度和各粒子位置;
步驟2 計算適應度,標記各粒子為經歷過最佳位置Pi,將適應度最高粒子標記為全局最佳位置Pgbest;
步驟3 判斷算法是否滿足收斂條件(最大適應度或最大迭代次數要求),若滿足轉向步驟7;
步驟4 利用式(10)計算慣性權重,利用式(1)更新粒子飛行速度,利用式(3)、式(4)更新粒子位置;
步驟5 計算各粒子適應度,若Pi和Pgbest優于歷史最佳位置,則更新Pi和Pgbest;
步驟6 利用式(7)~式(9)對Pgbest進行變異,并計算適應度,若優于則更新Pgbest,并轉向步驟3,否則直接轉向步驟3;
步驟7 輸出算法最優解Pgbest。
2.1 聚類選擇性集成的問題描述
聚類集成通常可描述為:設數據集合Y={y1,y2,…,yN},N為數據規模,Π={π1,π2,…,πM}為數據集Y上M個獨立的聚類結果,其中πi={ci1,ci2,…,ciki}為聚類成員,ki為類別數。對于任意y,若y∈cij則表示該數據點在第i個聚類成員中類別為j。聚類集成本質上是利用合理的方法對M個獨立聚類結果的一致性分析和決策。
聚類成員有效性和差異性對于集成結果具有十分重要的影響。有效性用于保障聚類成員的基本正確率,全集成結果、聚類成員的全部結果等集成趨勢通常被作為有效性評價的客觀標準[7 9]。此外還有方法通過分析聚類結果與數據集合的空間結構相似性確定其有效性,如輪廓指標(Silhouette index)、Dunn指標、Davies-Bouldin指標、Gap統計等[10]。差異性其目的在于使各聚類成員的錯誤相互獨立,通過集成使正確劃分不斷積累而錯誤劃分相互抵消。調整的蘭德指數(adjusted rand index,A RI)、規范化互信息(normalized mutualinformation,N MI)、信息熵(entropy)、條件熵(conditional entropy)、Double Fault Measure、Coincident Fai lure Diversity、Measurement of Inter-Rater Agreement等通常被用于描述聚類成員間差異性。
有效的聚類選擇性集成通常基于有效性和差異性的綜合考慮,如文獻[8]利用重采樣技術(resampling technique,R T)通過對比聚類算法在整體數據集和隨機數據子集的分類一致性確定該聚類成員的有效性,利用Rand index計算任意聚類成員與其他聚類成員的差異性之和,文獻[9]中利用N MI和A RI評價聚類成員的有效性,同時利用N MI計算任意兩聚類成員間的差異性,文獻[10]在對多種內部評價方法進行分析的基礎上給出了一種組合有效性評價方法,并將其與基于Jaccard的差異性方法聯合選擇聚類成員。
2.2 基于改進BPSO的聚類選擇性集成
聚類的選擇性集成過程可抽象為0-1組合優化問題,1表示聚類成員被選擇,0表示聚類成員未被選擇。對于規模為M的聚類集成,其選擇問題的規模為2M,雖然利用分支定界法能夠求得全局最優組合,但算法復雜度較高,難以應用于實際問題。這里利用算法1所述改進的BPSO算法,通過離散粒子群進化過程實現聚類成員的選擇。
如第2.1節所述,有效性和差異性對集成結果具有重要影響。對于聚類算法,由于缺乏必要的先驗信息,通常難以準確評價其有效性。這里令π*表示全體聚類成員的集成結果,假設π*能夠表示更為合理的數據類別劃分,考慮利用π*作為聚類有效性評價的參考劃分,利用N MI度量任意聚類成員πi與π*間一致性,則有效性可描述為

其值越大表示πi與π*的一致性越高,即πi的有效性越高,其值越小則表示πi的有效性越低。同樣考慮N MI描述選擇出聚類成員子集的整體差異性

Π′為規模為M′的聚類成員子集,πi,πj∈Π′。與有效性描述相反,D(Π′)其值越小表示聚類成員子集的差異性越大,反之則差異性越小。通過對聚類有效性和差異性的加權線性組合,以獲取單一目標的集成適應度函數,其表示為

式中,α為有效性和差異性的權重調節因子,用于平均二者的影響,文獻[8]指出其值取0.5更有利于獲得較好選擇集成結果。
在BPSO算法中,初始種群通常隨機產生,因此初始的最優粒子也是隨機的,這可能使得它一開始就嚴重偏離最優粒子,延緩進化速度。如果粒子群一開始就掌握了一個較優解,使得粒子群一開始就朝著比較合理的方向進行搜索,這樣必然會縮短粒子群的進化過程。因此在粒子群的初始化階段,可利用式(11)計算全體聚類成員的有效性,將有效性最高的m個聚類成員標記為選擇,以保證初始進化的較合理方向。綜上基于改進BPSO的聚類選擇性集成過程可描述如下。
算法2 基于改進BPS O的聚類選擇集成
輸入 數據集合、聚類成員生成方法G、集成方法E、集成規模M、平衡因子α、初始選擇規模m及算法1相關參數。
輸出 選擇性集成結果。
步驟1 利用方法G生成規模為M的全體聚類成員πi,利用集成方法E(如文獻[1]中基于相似分割的聚類算法(cluster-based similarity partitioning algorithm,CSPA)、變換圖算法(meta-clustering algorithm,M CL A)、超圖劃分算法(hypergraphpartitioning algorithm,H GPA)等求取全集成結果π*;
步驟2 利用式(11)計算全體聚類成員πi的有效性;
步驟3 標記有效性最高的前m個聚類成員位置為1,并初始化全局最優解Pgbest,隨機初始化T-1個粒子;
步驟4 利用算法1求解全局最優解Pgbest;
步驟5 選擇Pgbest所對應聚類成員,利用集成方法E進行求解,獲得選擇性集成結果。
為驗證本文所提聚類選擇集成方法的有效性,分別在標準數據集和圖像數據集進行實驗。
3.1 標準數據集實驗
實驗數據為11組U CI標準數據集,其詳細描述如表1所示。

表1 實驗數據描述
通過對譜聚類(nystrm spectral clustering,NSC)算法進行采樣和尺度參數擾動生成差異性聚類成員,采樣規模為50,尺度參數擾動范圍為[0.1,0.6]。改進BPSO中令最大迭代次數為100,初始速度為0,群體規模為30,加速因子均取2,慣性權重分別為0.9和0.4,變異次數為30,縮放系數為10,積分區間為1,初始選擇規模為20。集成算法采用文獻[1]中描述的CSPA和M CLA,全集成規模為50,平衡因子α為0.5。以集成結果與標準類標簽的F M(Fowlkes Mal lows,F M)指標作為評價標準

對于兩劃分π1,π2,a表示既屬于π1中同一聚類,又屬于π2中同一聚類的樣本對個數,b表示屬于π1中同一聚類,但不屬于π2中同一聚類的樣本對個數,c表示不屬于π1中同一聚類,但屬于π2中同一聚類的樣本對個數。F M指標越大,表明兩劃分結果越接近,反之亦然。
實驗1 首先就改進BPSO算法的收斂性和有效性進行分析,實驗數據包括Iris、Ecol i、Sonar、Ionosphere 4個數據集,對比算法包括BPSO、混沌BPSO1(chaotic BPSO,CBPSO1)和CBPSO2[20],實驗結果如圖2所示。

圖2 多種離散粒子群算法在4個數據集上適應度與迭代次數關系
分析圖2可以看到,在4個標準數據集上,與BPSO、CBPSO1和CBPSO2相比,本文所提改進的離散粒子群算法—gBPSO能夠發現更優的Pgbest;收斂速度方面,BPSO與CBPSO1相當,gBPSO次優,CBPSO2收斂速度最快,但可以看到CBPSO2較快的收斂速度是由于其陷入局部最優解無法跳出而得到的。綜上可見本文所提方法更能夠兼顧收斂性和有效性。
實驗2 為驗證本文所提聚類選擇性集成方法的有效性,在表1所示標準數據集上進行驗證,考慮到M C L A較高的有效性,實驗中均以M C L A全集成結果作為有效性參考,利用CSP A和M C L A的全集成和選擇性集成結果分別如表2和表3所示,由于CSP A僅適用于規模小于1 000的數據集,因而表2未給出Seg ment數據集實驗結果。表2和表3中全集成方法(all cluster ensemble,A E)為全集成結果,選擇聚類集成算法(select cluster ensemble,SCE)為文獻[7]中利用集成適應度排序的聚類選擇性集成,基于協方差的聚類集成算法(cluster select ensemble based on covariance,CSE V)為文獻[22]中基于協方差矩陣的聚類選擇性集成,BPSO、CBPSO1、CBPSO2、gBPSO分別為利用不同的粒子群算法進行選擇性集成的結果,選擇規模均為20,表中數據均為20次獨立重復實驗的均值,最優選擇集成結果被加粗。

表2 標準數據集聚類選擇性集成結果(CSPA)

表3 標準數據集聚類選擇性集成結果(M CL A)
分析上述實驗結果,首先將選擇性集成結果與全集成結果進行對比可以看到,SC E、CSR V、BPS O、CBPS O1、CBPS O2、gBPS O 6種選擇性集成方法分別在6/6、6/6、6/7、7/ 5、6/7、7/9個數據集上取得優于全集成的聚類結果,表明對聚類成員的適當選擇是進一步提高聚類集成精度的有效途徑。進一步,將本文所提方法與其他5種選擇方法進行對比可以看到,gBPS O在5/4個數據集上取得最優聚類選擇集成結果,在2/2個數據集上取得次優聚類選擇集成結果,優于其他選擇性集成方法。
綜上,基于標準數據集的實驗結果顯示本文所提gBPSO不僅具有較快的收斂速度和全局尋優性能,同時將其應用與聚類的選擇性集成也取得了較高的分類正確性。
3.2 圖像數據集實驗
為進一步驗證本文所提選擇性集成方法的正確性,在圖像數據集上進行分割實驗,實驗結果如圖3所示。

圖3 分割實驗圖像
實驗3 合成紋理圖像分割,實驗圖像如圖3(a)所示,為一5類合成紋理圖像,圖像大小為256×256。利用11×11中值濾波器、2種高斯差分(difference of Gaussian,D O G)濾波器和6種高斯偏移差分(difference of offset Gaussian,D O O G)濾波器(見圖4)共提取9維特征信息。

圖4 D O G和D O O G濾波器示意圖
利用N SC、N SC+M C L A、N SC+SC E+M C L A(選擇規模為20)、N SC+gPS O+M C L A進行分割,上述集成算法中利用隨機采樣和擾動尺度參數生成聚類成員,采樣規模為100,尺度擾動范圍[0.1,0.6],全集成規模為30,其他參數設置與3.1節相同,圖像分割結果如圖5所示。

圖5 紋理圖像分割結果
在圖5中將利用改進粒子群算法進行聚類選擇性集成的分割結果(如圖5(d)所示)與其他方法的分割結果進行對比可以看到,選擇后的分割結果不僅能夠一定程度上消除分類誤差(如圖中下方區域),而且能夠更好描述分割的邊界區域。
實驗4 SA R圖像分割,實驗圖像如圖3(b)所示,為美國華盛頓特區波托馬克河的局部描述,圖像大小為150× 150,圖中主要地物包括河流、植被以及人工建筑。對該圖像提取基于3層非下采樣小波分解的10維能量特征組成特征空間[21],為更好描述圖像信息,觀測窗口為7×7。這里固定譜聚類尺度參數為0.1,通過差異性采樣生成不同的分類結果,采樣規模為100,全集成規模為30,圖像分割結果如圖6所示。

圖6 SAR圖像分割結果
分析圖6,首先將3幅集成分割圖像(b)(c)(d)與單聚類分割圖像(a)進行對比,可以看到集成分割能夠將河岸人工建筑物區分開來,究其原因,采樣數據點的質量對于N SC聚類結果具有重要影響,當對圖像中人工建筑物的采樣不足時,可能造成對其的錯分,將多次基于隨機采樣的分類結果進行集成,能夠有效避免單次采樣的不足,具有更好的圖像分類能力;進一步對比3幅集成圖像可以看到,圖6(c)在河流中心島嶼的分類中存在明顯的雜斑,且對于河岸建筑的分類較為粗糙,整體效果劣于圖6(b)和圖6(d),而圖6(d)與圖6(b)對于河岸的分類效果相當,但在河流中心島嶼中橋梁和島邊緣的錯分上,圖6(d)明顯優于圖6(b),可見本文方法對于圖3(b)具有更好的分割效果。
本文首先針對BPS O易于陷入局部極值,利用高斯密度函數上對稱區間的定積分表示變異概率并通過擾動全局最優粒子以實現跳出矩陣最優的目的。考慮到高斯密度函數的尺度敏感性,利用迭代次數和粒子群與全局最優的一致性自適應調節尺度參數。而后將聚類的選擇性集成問題抽象為組合優化問題,定義聚類成員的有效性、差異性以及適應度函數,通過粒子群的進化過程實現聚類成員的選擇。實驗結果驗證了本文方法的有效性。
[1]Strehl A,G hosh J.Cluster ensem bles-a knowledge reuse framework for combining multiple partitions[J].Journal of Machine Learning Research,2002,3(3):583-617.
[2]Jia J H,Liu B X,Jiao L C.Soft spectral clustering ensem bleapplied to image segmentation[J].Frontiers of Computer Science in China,2011,5(1):66-78.
[3]Lu Z M,Li C,Zhang Q.A document cluster ensemble spectral algorithm based on affinity propagation[J].Journal of Harbin Engineering University,2012,33(7):899-905.(盧志茂,李純,張綺.近鄰傳播的文本聚類集成譜算法[J].哈爾濱工程大學學報,2012,33(7):899-905.)
[4]Hong Y,K wong S,Chang Y,et al.Unsupervised feature selective clustering ensembles and population based incrementallearning algorithm[J].Pattern Recognition,2008,41(9):2742-2756.
[5]H u X,Park E,Zhang X.Microarray gene cluster identification and annotation through cluster ensemble and E M-based informative textual summarization[J].IE E E Trans.on Information Technology in Biomedicine,2009,13(5):832-840.
[6]Zhou ZH,W u J X,Tang W.Ensem bling neural networks:many could be better than all[J].ArtificialIntelligence,2002,137(1-2):239-263.
[7]Fern X Z,LinW.Cluster ensem ble selection[J].Statistical Analysis and Data Mining,2008,1(1):128-141.
[8]Zhang C X,Zhang J S.A survey of selective ensem ble learning algorithm[J].Chinese Journal of Com puters,2011,34(8):1399-1410.(張春霞,張講社.選擇性集成學習算法綜述[J].計算機學報,2011,34(8):1399--1410.)
[9]H ong Y,Sam K,W ang H L,et al.Resam pling-based selective clustering ensembles[J].Pattern Recognition Letters,2009,30 (3):298-305.
[10]Naldi M C,Carvalho A C,Campello R J.Cluster ensemble selection based on relative validity indexes[J].Data Mining& Knowledge Discovery,2013,27(2):259-289.
[11]Kennedy J,Eberhart R C.Particle swarm optimization[C]∥Proc.of the IE E E International Conference on N eural Networks,1995:1942-1948.
[12]Kennedy J,Eberhart R C.A discretebinary version of the particle swarm algorith m[C]∥Proc.of the World Multiconferenceon Systemics,Cybernetics and Inform atics,Piscata way,1997:4104-4109.
[13]Fan K,Zhang R Q,Xia G P.Solving a class of job-shop schedul ing problem based on improved BPSO algorithm[J].Systems Engineering-Theory&Practice,2007,27(11):111-117.(樊坤,張人千,夏國平.基于改進BPSO算法求解一類作業車間調度問題[J].系統工程與理論實踐,2007,27(11):111-117.)
[14]Alberto GV,Rafael P.Introducing dynamic diversity into a discrete particle swarm optimization[J].Computer and Operation Research,2009,36(3):951-966.
[15]Zhang C S,Sun J G,Ouyang D T.A self-adaptive discete particle swarm optimization algorithm[J].Acta Electronica Sinica,2009,37(2):298-304.(張長勝,孫吉貴,歐陽丹彤.一種自適應離散粒子群算法及其應用研究[J].電子學報,2009,37(2):298-304.)
[16]Tao X M,W ang Y,Zhao C H,et al.Discrete particle swarm optimization based on double-scale cooperationm utation[J]. Journalof H arbin Engineering University,2011,32(12):1617 -1623.(陶新民,王妍,趙春暉,等.雙尺度協同變異的離散粒子群算法[J].哈爾濱工程大學學報,2011,32(12):1617-1623.)
[17]Yao X,W ang X D,Zhang Y X,et al.Feature selection algorith m using PSO with adaptive mutation-basedtdistribution[J].Systems Engineering and Electronics,2013,35(6):1335-1341.(姚旭,王曉丹,張玉璽,等.基于自適應t分布變異的粒子群特征選擇方法[J].系統工程與電子技術,2013,35(6):1335-1341.)
[18]Zhou F J,W ang X J,Zhang M.Evolutionary progra m ming using mutations based on thetprobability distribution[J].Acta Electronica Sinica,2008,36(4):667-671.(周方俊,王向軍,張民.基于t分布變異的進化規劃[J].電子學報,2008,36(4):667-671.)
[19]Gao Y L,Ren Z H.Adaptive particle swarm optimization algorithm with mutation operator[J].Com puter Engineering and Applications,2007,43(25):43-47.(高岳林,任子暉.帶有變異算子的自適應粒子群優化算法[J].計算機工程與應用,2007,43(25):43-47.)
[20]Chuang L Y,Yang C S,W u K C,et al.Gene selection and classification using taguchi chaotic binary particle swarm optimization[J].E xpert Systems with Applications,2011,38(10):13367-13377.
[21]Kersten P B G,Lee J S,Ainsworth T L.U nsupervised classification of polarimetric synthetic aperture radar images using fuzzy clustering and E M clustering[J].IE E E Trans.on Geoscience and Remote Sensing,2005,43(3):519-527.
[22]Lu X Y,Yang Y,W ang H J.Selective clustering ensemble based on covariance[C]∥Proc.of the11th International Workshop,2013:179-189.
Cluster ensemble selection based on improved BPSO
BI Kai,W A N G Xiao-dan,XIN G Ya-qiong
(School of Air and Missile Defense,Air Force Engineering University,Xi’an 710051,China)
At first,as binary particle swarm optimization(BPS O)relapses into local extremism easily,an improved BPS O is proposed.By analyzing the scale sensitivity of Gaussian density function,the scale parameter is regulated based on the consistency between particle swarm and the global optimal particle.The mutation probability of the global optimal particle is determined by the definite integral in symmetric interval of the Gaussian density function.Then,the cluster ensemble selection is modeled as a combinatorial optimization problem.The fitness of each cluster memberis defined by weighted co m position of effectiveness and difference,and the cluster ensemble selection is carried out based on the mimproved BPS O.Finally,experiments on standard dataset and image dataset show that the proposed method is effective.
cluster ensemble selection;binary particle swarm optimization(BPS O);Gaussian density function;image segmentation
T P 391
A
10.3969/j.issn.1001-506 X.2016.03.33
1001-506 X(2016)03-0692-07
2015-01-28;
2015-06-17;網絡優先出版日期:2015-09-01。
網絡優先出版地址:http://w w w.cnki.net/kcms/detail/11.2422.T N.20150901.0928.006.html
國家自然科學基金(60975026,61273275)資助課題
畢 凱(1985-),男,博士研究生,主要研究方向為智能信息處理、機器學習。
E-mail:bk3039633@163.com
王曉丹(1966-),女,教授,博士研究生導師,主要研究方向為智能信息處理、機器學習。
E-mail:sh milyqq520@163.com
邢雅瓊(1986),女,博士,主要研究方向為智能信息處理、機器學習。
E-mail:sh milyds520@163.com