999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵更新權重的數據自適應聚類研究

2023-08-19 09:59:48張福華劉麗朱俊東朱再新余大權
電子設計工程 2023年16期
關鍵詞:方法

張福華,劉麗,朱俊東,朱再新,余大權

(安徽明生恒卓科技有限公司,安徽 合肥 230000)

近年來,信息技術不斷發展,互聯網信息技術、工業信息技術、通信信息技術等行業迅速崛起,這些行業產生了大量的數據。在當前階段,主要是通過自適應聚類對數據進行整合。數據通常以靜態的形式存放在數據庫中,以便隨時提取。但由于信息產生方式、性質以及數據庫的存儲量是有限的,數據的存放只能是短暫性的,并不能長期存放在數據庫中,而在應對大量的數據產生時,數據庫無法永久保存所有數據,因此數據的自適應聚類便成為解決該問題的方式。

為了解決上述問題,一些學者進行了數據自適應聚類相關研究。文獻[1]提出了基于信息熵加權的空間聚類算法,通過引入信息熵權重約束模式,完成對數據的自適應聚類,但此方式只適用于少量信息的多次自適應聚類,在應對大量數據時仍無法很好地進行聚類,導致聚類準確性變差。文獻[2]提出了基于信息流加權的集成分類算法,通過引入集成分類算法賦予數據更高的權重,并根據每個數據類別特征構建分類器,以此完成數據的自適應聚類,但此方式對于大量雜亂的數據無法做到精準聚類,實際應用效果并不好。

針對目前聚類方法的漂移點篩選能力和抗干擾能力較弱的問題,設計了一種基于信息熵更新權重的數據自適應聚類方法,并通過實驗對該方法的有效性進行了驗證。

1 基于信息熵的數據屬性加權

利用信息熵的加權對混亂數據進行自適應聚類,在構建信息熵的加權機制前,設計一種混亂數據相異性度量方式[3-4]。

由于所研究的數據為混亂數據,因此采用K-P算法統計當前數據集中相似數據出現的頻率,并設定模糊類中心,以此能夠更加直觀地度量數據之間的相異性。

根據信息熵權重建立模糊類中心,計算公式如式(1)所示:

其中,xi表示第i個數據集;C表示數據集數據的所屬類別。

而數據集中的單一對象也可表示為模糊類中心的形式,該式為模糊類中心一種特殊的表示形式[5-6]。

信息熵具有兩種形式,分別為數值型與分類型,針對數值型的數據屬性進行加權時,需應用到二階Renyi 熵,Renyi 熵具有良好的計算特性[7-8]。假設X是由獨立分布的N個數據對象組成的數據集合,計算熵值f(X)如式(2)所示:

其中,Wi為parzen 窗口函數,通常為高斯核函數。通過parzen 窗口估計法得到的熵通常為正數,上述定義給出的類內熵值反映了在聚類分化結果中某一類的值在不同屬性數據情況下的分布狀態,即一個類的類內熵越小,聚類過程的數據屬性權重越大[9-10]。

互補信息熵計算公式如式(3)所示:

根據以上分析可知,通過信息匹配得到數據熵,在完成數據聚類之后確定信息的不同屬性,根據不同屬性實現數據分離,從而實現數據屬性加權。

2 基于信息熵更新權重的數據自適應聚類

在完成基于信息熵的數據屬性加權后,對數據進行自適應聚類,聚類流程如圖1 所示。

圖1 基于信息熵更新權重的數據自適應聚類流程

根據圖1 可知,聚類過程首先構建一個數據自適應聚類器,然后完成聚類模型更新,同時進行基礎聚類器更新和權重更新實現數據自適應聚類。

構造一個數據自適應聚類器流程,假設E為一個由k個基礎聚類器y組成的自適應聚類器,設S表示數據總量,將S平均分成大小相等的數據塊B,此時自適應聚類器開始初始化,當一個新的數據塊到達時。若數據塊中的所有數據都能夠被識別,則可將該數據塊轉變為一個基礎聚類器,當基礎聚類器的個數未達到閾值k時,將不斷轉化可識別的數據塊為基礎聚類器,直到基礎聚類器的數量達到k個[11-12]。自適應聚類器由多個基礎聚類器組成,若要建立一個性能完好的自適應聚類器,則需要保證基礎聚類器具有多樣性與準確性。滿足基礎聚類器的多樣性條件是數據塊都建立在不同維度的子空間中,因此每個數據塊的維度與空間特征都是隨機的。

為了解決數據不穩定的問題,需要使用IEWU算法對自適應聚類器進行更新,更新分為基礎聚類器的更新以及基礎聚類器權重的更新兩部分。

由于IEWU 算法的中心思想與自適應聚類器的構建過程相似,因此在相似數據的數量達到一定程度時便可組建一個數據塊,通過數據塊得到一個基礎聚類器。基礎聚類器的權重隨著數據塊屬性與性能的變化而變化,以此解決數據不穩定問題。數據塊的大小決定了基礎聚類器的性能。較大的數據塊可以組建成性能更好的基礎聚類器,分類性能更佳。因此在基礎聚類器更新過程中,需要篩選出較大的數據塊來提升基礎聚類器的性能[13-14]。

由于使用IEWU 算法構建了一個混合類型的自適應聚類器,因此在IEWU 算法應用過程中,需要不利用新的基礎聚類器來替換舊的基礎聚類器,并需要對已有的基礎聚類器進行學習,結合信息熵對每個基礎聚類器的權重進行更新。通過此方式可以篩選出性能更好的基礎聚類器,提高整個自適應聚類器在面對不穩定數據時的處理能力[15]。信息熵為此次研究的重要參數,利用IEWU 算法計算信息熵的計算公式如下:

式中,H表示信息熵;P表示聚類器參數。采用IEWU 算法可求得當前數據屬性的信息熵值,由于信息熵能夠表示聚類結果的不確定性,因此信息熵越大,聚類結果的不確定性越強。當利用IEWU算法所求得的信息熵足夠小時,即可判定當前聚類結果準確。由于不同數據的信息熵都不相同,因此采用動態自適應的方式對信息熵進行更新,信息熵更新閾值計算公式如下:

式中,em為信息熵更新閾值;et為信息熵的平均值;en為信息熵的最小值,et與en的值會隨著數據屬性的不斷變化而發生改變。當IEWU 算法所求得的信息熵值小于em時,則信息熵更新停止。

通常基礎聚類器剛建立時會被賦予最高的權重值,隨著更多數據塊的到來,每個基礎聚類器會根據信息熵的閾值判斷自身是否處于性能較好的基礎聚類器,并實時調整自身權重,使得性能較好的基礎聚類器能夠被識別出,不斷淘汰性能較差的基礎聚類器[16]。

自適應聚類器的聚類結果由所有列舉出的聚類器進行加權投票,其中IEWU 算法還使用了拋棄策略,由于基礎聚類器的性能有好壞之分,性能較差的基礎聚類器由于其不穩定性,參與投票后更容易導致聚類結果更加不準確,因此參與投票的基礎聚類器都是性能較優的。給予一個固定的權重閾值,該算法只將性能在權重閾值以上的基礎聚類器加入投票的排列之中,以此實現數據的自適應聚類[17]。

3 實驗研究

為了驗證所提出的基于信息熵更新權重的數據自適應聚類方法的實際應用效果,進行了相關實驗測試。在實驗過程中,選用此次研究的自適應聚類方法和傳統的基于人工合成的自適應聚類方法、基于數據分析的數據自適應聚類方法進行實驗對比。

為了更好地保證實驗效果,同時選用RanTree、SEAg、poker 三個不同的數據塊進行實驗對比,探究不同數據塊下的聚類準確性。得到的實驗結果如圖2-圖4 所示。

圖2 RanTree數據塊下聚類準確率

根據圖2 可知,由于RanTree 數據塊的信息環境極其不穩定,因此三種聚類方法的聚類準確率存在明顯差異。對于RanTree 數據塊,與實驗對比方法相比較,所提出的聚類方法始終保持著較高的聚類準確性。此次提出的聚類方法通過引入信息熵進行數據聚類,在不平穩的環境下也能夠很好地適應外界變化,而傳統的聚類方法在聚類過程中,容易受到外界因素影響,在不穩定的環境下可能出現準確率上升或下降的問題,難以完成快速適應,甚至會出現數據漂移,導致聚類準確率下降。

與RanTree 數據塊相比,SEAg 數據塊更加穩定,通過分析圖3 可以發現,三種聚類方法的準確率都相對較高,但是在遇見漂移點時,三種聚類方法的準確率都有所下降,此次提出的聚類方法聚類準確率僅有2%~5%的下降,而傳統的基于人工合成的自適應聚類方法準確率下降超過20%,基于數據分析的數據自適應聚類方法準確率下降超過50%,由此可見,所提出的聚類方法抗干擾能力更強。

圖3 SEAg數據塊下聚類準確率

根據圖4 可知,poker 數據塊存在的漂移點極少,但是聚類過程容易受到外界干擾因素影響,因此三種聚類方法在前期的聚類準確率都相對較低,但是隨著聚類時間的增加,此次所提出的聚類方法通過信息熵更新權重消除外界干擾,聚類準確率大大增加,而傳統方法依舊難以滿足精準聚類要求,導致聚類質量下降。

圖4 poker數據塊下聚類準確率

在上述基礎上,為了進一步驗證三種方法的聚類性能,比較了三種方法的數據聚類時間,比較結果如表1 所示。

表1 數據聚類時間比較

分析表1 中的數據可知,隨著實驗數據量的增加,不同方法的數據聚類耗時均呈現上升趨勢,當實驗數據量達到100 GB 的情況下,三種方法的聚類時間均達到最大值。其中信息熵更新權重聚類法的聚類時間最大值為1.25 s,平均值為0.71 s;人工合成聚類法的聚類時間最大值為1.91 s,平均值為1.29 s;數據分析聚類法的聚類時間最大值為2.56 s,平均值為1.58 s;基于信息熵更新權重的數據自適應聚類方法的聚類時間更短,效率更高。

4 結束語

該文以解決當前聚類方法的漂移點篩選能力和抗干擾能力較弱的問題作為研究目標,設計了一種基于信息熵更新權重的數據自適應聚類方法。通過混亂數據相異性度量完成數據屬性加權,構建基礎聚類器,利用多個基礎聚類器構建自適應聚類器,以此達到自適應聚類數據的最終目標。實驗表明,此次提出的基于信息熵更新權重的自適應聚類方法解決了當前方法中存在的問題,能夠在數據自適應聚類領域得到廣泛應用,以此提升數據的聚類質量。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 伊人久久综在合线亚洲2019| 日本人真淫视频一区二区三区| 玖玖精品视频在线观看| 日韩国产一区二区三区无码| 国产精品女在线观看| 国产精品hd在线播放| 日韩久久精品无码aV| 国产精品手机在线播放| 午夜性刺激在线观看免费| 青青草原国产一区二区| 国产精品人成在线播放| 91精品啪在线观看国产| 国产精品美女在线| 亚洲天堂久久久| 不卡视频国产| 丝袜高跟美脚国产1区| aa级毛片毛片免费观看久| 性视频久久| 日本成人福利视频| 国产福利拍拍拍| 亚洲欧美h| 中文字幕有乳无码| 亚洲不卡影院| 色香蕉网站| 这里只有精品免费视频| www.国产福利| 一本久道久综合久久鬼色| 香蕉久久永久视频| 狼友av永久网站免费观看| 中文字幕欧美日韩高清| 国产精品美女免费视频大全| 无码中文AⅤ在线观看| 日本不卡在线视频| 91免费片| 91免费在线看| aaa国产一级毛片| 欧美成人免费午夜全| 日韩精品无码免费一区二区三区| 成年人福利视频| 日韩欧美亚洲国产成人综合| 亚洲91在线精品| 欧美日韩资源| 亚洲日韩精品无码专区| 亚洲精品天堂自在久久77| 亚洲九九视频| 国产精品主播| 黄色国产在线| 九色视频在线免费观看| 亚洲a级毛片| 国产9191精品免费观看| 婷婷激情亚洲| 欧美啪啪网| 成人午夜网址| 九九免费观看全部免费视频| 国产91九色在线播放| 亚洲精品午夜无码电影网| 天天摸天天操免费播放小视频| 日本不卡在线视频| 女人18毛片水真多国产| 亚洲欧洲一区二区三区| 思思热在线视频精品| 欧美日韩亚洲综合在线观看 | 她的性爱视频| 在线观看91精品国产剧情免费| 五月婷婷丁香综合| 国产成人亚洲欧美激情| 91在线无码精品秘九色APP| 99re在线视频观看| 日韩一区二区三免费高清 | 国内精品自在自线视频香蕉| 国产经典在线观看一区| 福利在线不卡| 国产亚洲第一页| 久久精品无码专区免费| 欧美午夜在线播放| 中日韩一区二区三区中文免费视频 | 午夜精品久久久久久久无码软件| 99精品欧美一区| 国产精鲁鲁网在线视频| 女人18毛片久久| 91久久国产综合精品| 欧美亚洲综合免费精品高清在线观看|