999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大規模數據集譜聚類并行優化算法

2021-10-20 10:44:44郝笑弘尹青山
機械設計與制造 2021年10期
關鍵詞:實驗

郝笑弘,尹青山

(1.山西水利職業技術學院,山西 太原030032;2.吉林大學軟件學院,吉林 長春130012)

1 引言

計算機技術的快速發展和網絡帶寬的不斷擴展,海量多樣化數據成為當前數據處理的常態,面對海量數據,如何挖掘出最有價值信息成為研究的熱點,聚類作為數據挖掘的重要手段和研究方向,通過廣泛的探索性分析和數據內在聯系識別,達到相似特征數據的歸類,從而提示數據的隱藏價值[1]。譜聚類以非線性核距離作為聚類相似判斷依據,適用于非凸等任意形狀的數據,且能夠取得全局最優解[2]。但傳統譜聚類計算代價與存儲開銷阻礙了其在大規模數據集中的應用,且數據規模越大,這種性能瓶頸越明顯。

為此,文獻[3]兼顧視角內劃分質量與視角間協同,通過多代表點策略和多視角代表性保持對多樣化大規模數據集進行一致性約束,并通過加權系數最大化與拉格朗日乘子實現數據的譜聚類,相比于傳統譜聚類,改進算法在聚類時間和存儲優化上具有一定的優勢;文獻[4]選用非負矩陣分解對多視角數據進行處理,以獲得各視角的潛在特征矩陣,然后引入正交約束以優化局部特征,通過數據加權調整缺失數據的聚類貢獻影響,最后通過分塊處理以緩解大規模數據的內存需求;文獻[5]以Nystr?m近似采樣降低大規模數據的相似度計算復雜度,有利于聚類效率的提高,通過對采樣過程的自適應優化要,進一步提高譜聚類在大規模數據集上的聚類效果;文獻[6]將樣本映射至高維函數核空間,通過領域信息建立系統加權濾波器和二維直方圖,以此獲得核空間的快速迭代,算法對大規模數據和高斯噪聲具有較好的適應性和魯棒性;

并行框架的廣泛應用為譜聚類在大規模集上的使用提供了新的思路,文獻[7]通過自適應格網劃分與加權以及信息熵提高密度聚類的準確性,然后結合MapReduce框架對改進后的密度聚類時行局部簇并行優化,從而加快局部簇的生成與合并,有效提高算法的處理速率;文獻[8]基于MapReduce的并行計算框架通過分片局部簇計算和全局簇增量合并對DBSCAN算法進行并行優化,以提高DBSCAN算法對大規模數據集的適用性,但算法的數據分塊效率不高,且局部簇合并較為復雜;文獻[9]改進Spark框架中占用內存較大的top操作,并通過自底向上的聚類策略提高層次聚類算法的區域性,提出基于Spark框架的并行圖過濾聚類,其聚類效果優于其他相關并行策略;文獻[10]以Hadoop和Spark雙并行框架對密度聚類進行降低計算復雜度優化,并給出在兩種并行框架下的數據分塊策略,但算法的簇合并法效率不高[11]。

為引,在已有研究基礎上,提出基于并行框架和Nystrom采樣相結合的改進譜聚類算法,算法在自適應相似矩陣計算基礎上,通過數據分塊和單向節點并行,提高算法相似矩陣的計算效率,通過Nystrom加權抽樣逼近,減少拉普拉斯矩陣特征向量的計算復雜度,最后通過KD樹結構進一步減少k-mean聚類過程的距離計算,從而降低了傳統譜聚類的計算復雜度,提高了聚類效率,仿真實驗驗證了算法的有效性。

2 譜聚類并行優化

2.1 譜聚類算法流程

譜聚類算法采用無向圖思想,將數據集中的數據視為無向圖中的節點,而數據之間的相似度,則表示為節點間的權重,然后根據權重規則將無向圖劃分為不同的子圖,通過子圖內的邊的高權重與子圖間邊的低權重優化實現數據的聚類分析。譜聚類最優劃分求解通常依賴拉普拉斯矩陣,其流程為:

(1)輸入初始類數k及相似矩陣S∈Rn×n,然后建立數據集的相似圖,計算邊的權重矩陣W;

(2)計算圖的拉普拉斯矩陣L,并給出其前k個特征向量組成的矩陣對V的每一行時行規范化處理,使其范數值為1,得到矩陣U=[uij],其中,

(3)設yi∈Rk對應矩陣U的i列,i=1,2,…,n,則通過k-means算法對yi∈Rk進行聚類,聚類結果為C1,C2,…,Ck。

2.2 自適應相似矩陣并行計算

在進行無向圖劃分時,需要先通過高斯核函數度量數據之間距離,進而形成數據的相似性連接圖,相似圖對應一個相似矩陣,通常數據挖掘需要處理多樣化數據,因而相似圖通常采用全連接圖,這樣由數據距離值計算無向圖的邊權值為:

式中:Aij-兩數據xi和xj之間的連接邊權值;σ-數據鄰域范圍控制的尺度參數,用以調整兩數據之間的相異度;d(xi,xj)-兩個數據xi和xj之間距離。

根據文獻中self-Tunin聚類思想[11]可得到數據xi到xj的相異度xj到xi的相異度,則可以得到相似函數的參數自適應形式,即

式中:σi-當前數據xi與其鄰域的距離均值,用于描述當前數據的鄰域密度,σ-σi均值數據密度差值,σmax-的最大值權值因子,用以調整高斯核函數。

對于大規模數據集,上述自適應相似矩陣的計算量巨大,為此基于并行框架,在數據分塊基礎上,將不同數據塊分發到框架的并行計算節點上,并行計算各節點內數據的相似度,然后根據框架節點序號,依次計算兩節點內數據之間的相似度值,為減少數據重復計算,當前序號下的節點內數據,僅與比其序號值大的節點內數據計算相似度值。

由相似矩陣A={Aij}可以構建正則化Laplacian矩陣L為:

式中:D={Di,j}-對角矩陣,其計算式為:

可以證明,對于Ai,j≥0,其L矩陣對稱且顯半正定,這說明,當其局部聚類與其他局部聚類中的樣本不相關時,L矩陣中將存在非零塊對角陣,此時L的前k個最小特征值對應的特征向量組成矩陣V,再對V進行k-means等聚類,即可得到最終的譜聚類。

L矩陣的并行化計算過程,可以通過L′=D-1/2×L和L′×D-1/2兩個并行化過程實現,L′=D-1/2×L并行計算過程如圖1所示,L′×D-1/2采用相似的并行計算過程。

圖1 矩陣L的并行化計算過程Fig.1 Parallel Computing Process of Matrix L

2.3 近似特征向量并行計算

針對大規模數據集,傳統譜聚類采用的前k個特征向量組成的降維矩陣仍需要巨大的計算量,為此,采用Nystr?m采樣方法進行特征向量的低秩逼近。

設數據集規模為n,隨機抽樣點數為m,則有( )n-m個數據為未抽樣數據,則數據集的相似矩陣可表示為:

式中:A-抽樣數據間的相似矩陣;B-抽樣數據與其他數據間的相似矩陣;C-未被抽樣的數據間的相似矩陣,由于式(6)中未被抽樣數據的數據量遠大于抽樣數據,Nystr?m算法采用A和E來近似表示K:

Nystrom采樣方法通過矩陣的低秩逼近,僅需計算少量采樣數據進行相關計算,避免了大規模數據集中未被采樣數據的使用,從面極大程度降低算法的復雜度。但傳統采樣方法未充分考慮不同抽樣數據的重要性,使得采樣數據對最終結果的貢獻度難以保證,為此采用加權采樣形式,其加權核矩陣為:

設矩陣L的特征分解表示為L=?λ?T。式中:λ-特征值組成的對角陣,由A=?AλA?AT可得:

根據式(9)通過低秩逼近計算矩陣L的特征值及其對應的特征向量,即:

近似特征向量的計算流程,如圖2所示。

圖2 近似特征向量計算流程Fig.2 Similar Eigenvector Calculation Process

2.4 K-means并行計算

KD樹通過查詢當時節點最近鄰的數據點進行距離比較,從而避免數據點之間的距離計算,實現快速節點匹配,為此,在譜聚類的k-means算法對特征向量進行聚類過程中,引入KD樹作為特征矩陣的數據存儲結構,并建立聚類中心KD結構,然后利用KD樹自有的最近鄰查詢實現數據點與其距離最小的聚類中心點的歸類,從而有效解決數據距離迭代計算的冗余,其過程如圖3所示。

圖3 基于KD樹結構的快速k-means計算流程Fig.3 Fast K-means Calculation Process based on KD Tree Structure

3 算法性能實驗驗證

為驗證文中算法在大規模數據集聚類方面的有效性,實驗構建計算機集群,以進行并行分布式計算,選取UCI庫中的Waveform集、Pendigits集和Forest集三個數據集作為實驗數據集,并將數據集分別擴展為大規模數據集,以聚類準確率和標準化互信息作為聚類性能評價指標,實驗中并行框架采用Spark V2.3.0,開源MPI V1.8。

3.1 算法聚類性能比較實驗

為測試文中算法(簡記為ImpSC,采樣比例為10%)的聚類性能,實驗選取原始譜聚類(簡記為TrSC)、并行k-means算法(簡記為Pkmeans)、隨機抽樣譜聚類(簡記為RadSC)和特征自適應選擇聚類算法(簡記為AflC)作為實驗比較算法,實驗中在每個實驗數據集上對進行20次實驗,取實驗結果的平均值,結果如表1所示。

表1 各算法的聚類性能比較結果(%)Tab.1 Performance Comparison of each Algorithm(%)

從表1實驗結果中可以看出,算法在各個大規模數據集上都取得較好的聚類準確率,其聚類結果與原始譜聚類相近,但略有優勢,主要因為相似矩陣的參數自適應設置,使其更適于不同數據集的數據特征,從而驗證了算法的聚類性能和相似矩陣自適應計算的有效性。

3.2 算法計算復雜性實驗

加速比是檢驗改進算法的并行化能力的重要指標,為此,將Waveform集的數據規模人工擴充0.6G、1G、2G和3G,然后在不同節點下分析算法的加速比,實驗結果如圖4所示,圖中實驗結果為多次實驗結果的平均值。從實驗結果可以看出,當數據規模在0.6G時,由于數據規模較小,隨著節點數增加,算法在處理數據分塊和數據之間的通信方面占用資源較大,因而算法的加速比不高,甚至節點較多時,出現一定的下降,但隨著數據規模增大,算法的加速比快速增大,主要因為數據規模越大,數據分塊及節點通信占用的次源比重變小,而算法的并行運算優勢凸顯,從而驗證改進算法更適于大規模數據集應用。

圖4 不同節點數下的算法加速比Fig.4 Speedup Under Different Number of Nodes

4 總結

為解決傳統譜聚類算法在應用于大規模數據上時,復雜度較高且資源占用較大,導致算法聚類效果不好甚至無法聚類的問題,提出基于并行框架和Nystrom采樣相結合的改進譜聚類算法,算法在自適應相似矩陣計算基礎上,通過數據分塊和單向節點并行,提高算法相似矩陣的計算效率,通過Nystrom加權抽樣逼近,減少拉普拉斯矩陣特征向量的計算復雜度,最后通過KD樹結構進一步減少k-mean聚類過程的距離計算,從而降低傳統譜聚類的計算復雜度,提高了聚類效率,仿真實驗驗證了算法的有效性。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 色婷婷啪啪| 久久香蕉国产线看观看精品蕉| 亚洲日韩精品综合在线一区二区| 国产在线八区| 欧美国产日韩在线观看| 亚洲区视频在线观看| 人妻一区二区三区无码精品一区| www中文字幕在线观看| 亚国产欧美在线人成| 国产黄色爱视频| 免费无遮挡AV| 久久免费视频6| 亚洲国产精品人久久电影| 中国一级特黄大片在线观看| 91青青草视频在线观看的| 国产欧美专区在线观看| 亚洲男人的天堂在线观看| 久久精品国产精品一区二区| 综合人妻久久一区二区精品 | 色综合狠狠操| 男人的天堂久久精品激情| 欧洲欧美人成免费全部视频| 欧美一级片在线| 在线无码九区| 喷潮白浆直流在线播放| 久久精品丝袜| 色首页AV在线| 欧美在线中文字幕| 99热这里只有精品久久免费| 不卡无码网| 国产精品三区四区| 91精品国产综合久久香蕉922| 怡红院美国分院一区二区| 中日无码在线观看| 亚洲永久免费网站| 国产丝袜精品| 国产成人1024精品| 国产一区二区精品福利| 色妞www精品视频一级下载| 欧美一级爱操视频| 欧美无遮挡国产欧美另类| 国产精品人莉莉成在线播放| 天天综合网色| 国产精品毛片一区视频播| 中文国产成人精品久久| 欧美人与动牲交a欧美精品| 漂亮人妻被中出中文字幕久久| 国产精品9| 日韩激情成人| 一级不卡毛片| 嫩草在线视频| 久久久久人妻一区精品| 国产一区二区精品高清在线观看| 中文字幕 日韩 欧美| 97久久人人超碰国产精品| 日韩欧美在线观看| 成人亚洲视频| 亚洲一级毛片免费观看| 真实国产乱子伦高清| 欧美色图第一页| 怡春院欧美一区二区三区免费| 3344在线观看无码| a级毛片免费播放| 在线色国产| 亚洲 欧美 日韩综合一区| 亚洲国产综合精品一区| 91丝袜乱伦| 一本一本大道香蕉久在线播放| 欧洲日本亚洲中文字幕| 国产成人AV男人的天堂| 成人午夜福利视频| 日本久久网站| 国产玖玖视频| 三级视频中文字幕| 日本91视频| 国产主播喷水| 精品色综合| 国产免费观看av大片的网站| 亚洲成a人片| 亚洲国产成人综合精品2020 | 亚洲午夜福利精品无码| 亚洲中文制服丝袜欧美精品|