999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于量子C均值聚類分析的數據異常檢測方法

2018-03-31 12:22:42李萍
電腦知識與技術 2018年6期

李萍

摘要:數據庫海量數據集需要數據異常檢測方法具有高效的數據挖掘能力,基于聚類的異常數據檢測中聚類算法對初始聚類中心較為敏感,算法穩定性差.針對以上問題,提出了基于量子c均值聚類分析的異常數據檢測方法。算法引入量子機制的高效并行計算能力,將其與C-means聚類算法相結合應用于數據點異常檢測中,不僅克服了聚類算法對初始聚類中心敏感的問題,還具有量子模式的高效運算能力;仿真實驗表明,算法在檢測異常數據的準確性和效率上均優于傳統基于聚類的異常檢測算法。

關鍵詞:量子;C均值;聚類分析;數據異常檢測

中圖分類號:TP18;TP301.6 文獻標識碼:A 文章編號:1009-3044(2018)06-0198-02

大數據和云計算技術尤其是云存儲發展,使得數據庫中的信息量成指數的增長,數據庫的重要性和價值也日益體現。數據庫海量數據中只有部分數據有意義和價值,甚至會存在極少數的異常數據,這些異常數據可能對所屬數據集的價值造成不可預估的危害,因此,異常數據的挖掘成了數據庫及數據挖掘領域的具有重要意義的研究方向,受到了大量的學者和研究人員的廣泛關注。

異常數據挖掘發展至今,出現了許多經典方法。Breunig在文獻提出一種基于密度對異常點進行檢測的LOF(LocalOut-her Factor)算法。算法賦予每一個數據點一個離群因子,用來衡量數據的偏離水平進而表征一個數據對象偏離度的數值,缺點是對序列數據和低密度數據對象不能很好的度量。在鄧玉潔等人提出一種基于聚類分析的異常點檢測方法中,存在對初值敏感并易陷入局部最優的缺點。針對以上問題,本文結合數據庫數據規模大、要求異常數據挖掘高效的特點,在基于聚類的數據異常檢測的基礎上,結合量子機制改進聚類算法的聚類性能,提出了基于量子K均值聚類分析的數據異常發現方法。仿真實驗表明,算法在異常數據挖掘的準確性和效率上均優于傳統的聚類異常數據檢測算法。

1聚類數據庫異常檢測原理

基于聚類分析的異常數據檢測中,要求相同特征的數據對象聚集在一起形成數據簇,簇與簇之間盡量不相似。聚類的目的是尋找具有相同特征、緊密相關的數據,而異常數據檢測則要找到與大多數據對象偏離的數據,因此將基于聚類的異常數據檢測方法定義為:通過聚類將數據對象按特征值分成很多簇,然后將那些偏離任何一個簇的數據對象定義為異常點。

基于聚類的異常數據檢測的主要思想在于偏離其他簇的小規模簇的異常點的定義。因此,必須要明確定義異常點簇與其他簇的遠離程度以及小規模簇的具體規模。在這個過程中,首先確定一個最小距離,然后嚴格按照這個距離對數據對象進行聚類,如果當前聚類中存在大于該距離的數據,那偏離數據簇,即是異常點。其次,再根據聚類結果構造出最小掃描樹,作為森林的一員。當聚類規模較少時,生成樹的節點也比較少,這部分樹就稱為異常點。

2量子C均值聚類數據異常檢測方法

算法基本思想:對大型數據集進行聚類,C均值算法能夠進行高效分類,性能明顯優于層次聚類算法,但是C均值算法具有聚類算法的通病,即對初始聚類中心敏感,而且易陷入局部最優,算法不穩健。而量子計算用于高效并行計算能力,量子計算模式在計算速度上大大超越了圖靈機模型,適合于海量數據的處理。因此,結合量子計算的高性能和c均值聚類的優點,提出量子C均值聚類算法,并將其應用與異常數據的檢測。

C-means聚類算法對初始聚類中心非常敏感,結合David提出的量子聚類算法中量子機制對初始數據不敏感的特性,將其引入到C-means聚類算法中,形成量子C-means聚類算法(CQC),并將該算法運用到海量數據下的異常數據挖掘中,基于量子機制的C均值聚類算法描述如下。在傳統聚算法中,與聚類中心屬于一簇的數據樣本是采用歐式距離來度量的,為了統一樣本各維的單位,消除量綱的影響,采用馬氏距離(馬氏距離消除了量綱的影響)來度分類。馬氏距離定義如下其中S為數據樣本的協方差矩陣。CQC算法描述如下:

上述量子C均值聚類算法中需要調節的參數有兩個σ和ε,其中σ是一個需要多次實驗選取的經驗值,滿足ε∈[0,2],ε是一個精度調節參數。

在得到數據的聚類結果后,根據基于聚類的異常數據檢測的主要思想,與實現定義的異常點簇與其他簇的遠離程度以及小規模簇的具體規模進行比較分析,挖掘、檢測出數據異常點。

3實驗分析

采用傳統聚類挖掘算法和CQC算法對相同的數據集進行異常數據點挖掘實驗,實驗結果如表2所述。表中實驗a數據來源于Ecoli數據集,包含8個異常數據。實驗b數據來源wine數據集包含6個異常數據。

從表2檢測結果可以看出,與傳統聚類算法檢測異常數據相比,CQC算法對異常數據的檢測準確率較高,且挖掘速度較快。

為了研究CQC算法針對不同規模數據集時的異常數據的檢測性能,將傳統聚類算法與CQC檢測算法對實驗1中包含10000到90000條規模數據集進行實驗,各算法的執行時間對比如下:

從執行結果可以發現,數據量較低(少于30000)時,兩種算法的執行時間均不超過2MS,但是隨著數據規模的增長(數據量達到90000條時),CQC算法執行效率明顯優于傳統聚類算法。

上述實驗數據均表明:基于C均值聚類分析的數據異常檢測算法挖掘準確度高,效率性高。

4結論

本文采用量子機制與C-means聚類算法融合形成量子C均值聚類算法,并其代替C均值算法用于異常數據點的檢測。該算法利用量子計算的高效并行計算能力以及對數據初始聚類中心不敏感的特征,解決了C-means聚類算法聚類時對初始數據中心敏感、穩定性差等問題。仿真結果表明,該算法較基于傳統聚類算法的異常數據檢測方法在異常數據點挖掘準確率和效率上均有一定的優勢。

主站蜘蛛池模板: 五月天丁香婷婷综合久久| 婷婷亚洲视频| 国产激情在线视频| 日韩免费中文字幕| 国产精品精品视频| 国产成人av一区二区三区| 国产小视频网站| 欧美翘臀一区二区三区| 2021精品国产自在现线看| 亚洲国产成人无码AV在线影院L| 久久99这里精品8国产| 国产成人综合久久精品尤物| 97视频在线观看免费视频| 99视频精品全国免费品| 亚洲国产成人自拍| 欧美国产在线一区| 国产欧美日韩另类精彩视频| 国产成人资源| 亚洲激情99| 六月婷婷精品视频在线观看| 欧美.成人.综合在线 | 999精品在线视频| 2022精品国偷自产免费观看| 美女扒开下面流白浆在线试听 | vvvv98国产成人综合青青| 免费毛片在线| 四虎永久在线视频| 制服丝袜一区二区三区在线| 中文字幕久久亚洲一区| 免费一级毛片完整版在线看| 国产一在线| 丰满人妻久久中文字幕| 四虎国产精品永久在线网址| 91青青草视频在线观看的| 国产91麻豆免费观看| 99精品视频在线观看免费播放| 午夜国产理论| 亚洲第一精品福利| 欧美精品二区| 日本高清视频在线www色| 青青青伊人色综合久久| 91久久偷偷做嫩草影院电| 97视频免费在线观看| 色婷婷啪啪| 国产麻豆精品在线观看| 亚洲免费黄色网| 亚洲欧美综合在线观看| 成人亚洲视频| 欧美特黄一级大黄录像| 一级成人欧美一区在线观看 | 国产人成网线在线播放va| 18黑白丝水手服自慰喷水网站| 国产欧美日韩18| 精品偷拍一区二区| 国产v精品成人免费视频71pao| 毛片基地视频| 欧美自慰一级看片免费| 国产白浆视频| 青草娱乐极品免费视频| 无码精品一区二区久久久| 成人一级免费视频| 久久伊人操| 精品视频在线一区| 综合色在线| 欧洲欧美人成免费全部视频 | 丝袜久久剧情精品国产| 精品91自产拍在线| 国产欧美日韩综合在线第一| 草草影院国产第一页| 国产一区二区三区在线观看免费| 亚洲二三区| 99精品国产自在现线观看| 四虎综合网| 国产精品视频3p| 国产十八禁在线观看免费| 在线观看欧美国产| 日韩在线视频网站| 成人国产精品2021| 99精品免费欧美成人小视频| 九色在线观看视频| 国产在线无码av完整版在线观看| 国产特一级毛片|