999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯的大數(shù)據(jù)異常值檢測(cè)模型研究

2020-03-30 03:19:04周梁琦章權(quán)魏莉
電腦知識(shí)與技術(shù) 2020年1期

周梁琦 章權(quán) 魏莉

摘要:隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進(jìn)步,數(shù)據(jù)規(guī)模越來越大、處理難度也逐漸加大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會(huì)干擾后續(xù)的挖掘、預(yù)測(cè)與分析。因此,有必要對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)的準(zhǔn)確性。但由于數(shù)據(jù)量過大,大數(shù)據(jù)常常不具備明顯的分布特征,然而對(duì)非典型特征的數(shù)據(jù)進(jìn)行建模是一個(gè)挑戰(zhàn),因?yàn)橥评頃?huì)變得更加困難。以空氣質(zhì)量大數(shù)據(jù)為例,研究了如何將不具備明顯分布特征的大數(shù)據(jù),利用獨(dú)立的高斯分布混合分布描述此類數(shù)據(jù)。在前期研究的高斯混合模型+神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上優(yōu)化了均值和協(xié)方差的選取,使得結(jié)果更加準(zhǔn)確。這對(duì)于異常數(shù)據(jù)檢測(cè)具有重要意義,更大程度地提高檢測(cè)的準(zhǔn)確性。

關(guān)鍵詞:異常值檢測(cè);貝葉斯聚類算法;高斯混合模型;神經(jīng)網(wǎng)絡(luò);模型融合

中圖分類號(hào):TP3-05 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)01-0207-03

1概述

隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進(jìn)步,數(shù)據(jù)發(fā)生了“大爆炸”。人們將這種海量數(shù)據(jù)稱之為“大數(shù)據(jù)”,數(shù)據(jù)規(guī)模越大、處理難度越大,但如果能夠有效地組織和使用大數(shù)據(jù),對(duì)其進(jìn)行科學(xué)的挖掘,產(chǎn)生的價(jià)值將會(huì)更大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會(huì)干擾后續(xù)的挖掘、預(yù)測(cè)與分析。因此,有必要對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)的準(zhǔn)確性。

空氣質(zhì)量數(shù)據(jù)在實(shí)際監(jiān)測(cè)過程中,由于樣品的采集、分析和采樣地點(diǎn)的偶發(fā)事件、各種環(huán)境要素本身的時(shí)空變化以及本身的數(shù)據(jù)特點(diǎn)等一系列因素的影響,導(dǎo)致數(shù)據(jù)常常不具備明顯的分布特征。所以本文以空氣質(zhì)量大數(shù)據(jù)為例,提出一種基于貝葉斯優(yōu)化的聚類模型。

2研究現(xiàn)狀

在大數(shù)據(jù)下,人們產(chǎn)生的數(shù)據(jù)量激增,為人們分析利用數(shù)據(jù)提供了大而廣的數(shù)據(jù)來源,然而這些數(shù)據(jù)往往呈現(xiàn)結(jié)構(gòu)復(fù)雜、噪聲多等特性,傳統(tǒng)的數(shù)據(jù)異常值檢測(cè)方法已經(jīng)難以進(jìn)行有效的數(shù)據(jù)分析,這已成為人們深度挖掘大數(shù)據(jù)潛在價(jià)值的阻礙。

現(xiàn)有方法對(duì)具有非典型特征的大數(shù)據(jù)異常值檢測(cè),在實(shí)際應(yīng)用中往往出現(xiàn)效率低或準(zhǔn)確性差等問題。如何提高大數(shù)據(jù)異常值檢測(cè)的效率和準(zhǔn)確性,對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析以及預(yù)測(cè)具有重要意義。異常值檢測(cè)最先是在統(tǒng)計(jì)學(xué)方向出現(xiàn)的,接著,Knorr等將其應(yīng)用到了數(shù)據(jù)挖掘領(lǐng)域中。

對(duì)于已有的異常值檢測(cè)方法基本能夠按下面的標(biāo)準(zhǔn)分成三大類別:

以數(shù)據(jù)的分布為基礎(chǔ)來檢測(cè)離群值,這個(gè)方法一開始就以所已知的數(shù)據(jù)滿足一個(gè)已有的概率模型或者概率分布,接著按照數(shù)據(jù)點(diǎn)與假定的分布中的點(diǎn)是否一致來檢測(cè)異常值。但是由于實(shí)際中的數(shù)據(jù)很難準(zhǔn)確得到其概率分布,因此這種方法在應(yīng)用上有比較大的局限。

以數(shù)據(jù)間的距離為基礎(chǔ)來檢測(cè)離群值,這個(gè)方法一開始是由Knott與Ng一起提出,他們認(rèn)為,若是一個(gè)數(shù)據(jù)與集合里的絕大部分?jǐn)?shù)據(jù)間的距離都比之前設(shè)定的閾值大,那么它便是一個(gè)異常數(shù)據(jù)。該方法的不足的地方就是比較難確定基準(zhǔn)值和距離。

以數(shù)據(jù)密度為依據(jù)來檢測(cè)離群值,這個(gè)方法最早被Breunig提出來,通過衡量一個(gè)對(duì)象與它周圍對(duì)象的無關(guān)程度來判斷是否為離群點(diǎn)。該方法能夠探測(cè)到包括基于距離方法探測(cè)不到的所有異常值,但它仍有一些問題,比如方法中涉及的參數(shù)確定問題。

為了彌補(bǔ)異常值檢測(cè)算法的不足,后來的很多學(xué)者發(fā)展了很多不一樣的算法來改善異常值算法。姜立明[4]等人利用聚類算法來對(duì)模糊集的進(jìn)行降維和對(duì)單元格邊長選擇了加權(quán)處理,運(yùn)用了一種基于單元格的離群值挖掘方法,該算法對(duì)高維數(shù)據(jù)具有良好的延展性,可是還是要人為設(shè)定參數(shù)。曾穎等人通過對(duì)數(shù)據(jù)流進(jìn)行聚類算法來減少數(shù)據(jù)量,對(duì)聚類之后的數(shù)據(jù)采用凝聚聚類算法檢測(cè)異常值。胡云等人利用了粗糙理論來分析異常數(shù)據(jù),進(jìn)行異常數(shù)據(jù)的檢測(cè),并使用了一種新的方法,該方法充分采用屬性歸約技術(shù)來去除多余屬性,并通過對(duì)以近鄰為基礎(chǔ)的異常加權(quán)因子的計(jì)算,來最終判斷異常數(shù)據(jù)的集合。徐衡分別研究了寶雞市空氣質(zhì)量于氣象因素之間的關(guān)系,并分別建立了回歸方程,并提出了相應(yīng)的空氣治理辦法及措施。沈勁等人對(duì)廣東省順德區(qū)進(jìn)行空氣質(zhì)量分析,并建立了基于氣象因子聚類和多遠(yuǎn)回歸的方程來預(yù)測(cè)空氣污染物濃度。

雖然已有一些學(xué)者從不同方面對(duì)大數(shù)據(jù)的異常值檢測(cè)方法進(jìn)行了研究,但是由于大數(shù)據(jù)的復(fù)雜性,使得模型需要設(shè)置大量參數(shù)并且參數(shù)難以確定。

針對(duì)大數(shù)據(jù)異常值檢測(cè),以空氣質(zhì)量大數(shù)據(jù)為例,研究空氣質(zhì)量數(shù)據(jù)下異常值檢測(cè)的特點(diǎn),綜合分析各種方法的優(yōu)劣,擬使用貝葉斯及神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行聚類及優(yōu)化,提高異常值檢測(cè)的準(zhǔn)確性和效率。

3模型及方法

3.1數(shù)據(jù)分析

本文使用我國某一城市2014-2018年度空氣PM2.5一天24小時(shí)監(jiān)測(cè)的污染數(shù)據(jù)。在本次研究中,相關(guān)PM2.5數(shù)據(jù)來源于大數(shù)據(jù)網(wǎng)站。數(shù)據(jù)分布如圖1所示,可以看出數(shù)據(jù)大致集中在7到8個(gè)區(qū)域。

通過對(duì)數(shù)據(jù)的大致分析,本文選取混合高斯模型作為基礎(chǔ)模型對(duì)數(shù)據(jù)進(jìn)行異常值的處理。

3.2貝葉斯混合高斯模型

本文所采用混合高斯模型,其目的是利用數(shù)據(jù)的密度進(jìn)行初步聚類,使得數(shù)據(jù)體現(xiàn)出明顯的分布特征,以便于后續(xù)對(duì)數(shù)據(jù)進(jìn)行合理聚類,剔除其中的可疑或不合理的數(shù)據(jù),使被監(jiān)測(cè)的空氣質(zhì)量狀況能夠得到真實(shí)反映。

此模型中由于對(duì)均值和協(xié)方差的計(jì)算會(huì)花費(fèi)大量的時(shí)間、費(fèi)用,因此,在優(yōu)化時(shí)通常希望在少量代價(jià)下得到滿意解,貝葉斯優(yōu)化側(cè)重于減少評(píng)估代價(jià),保證其能夠僅經(jīng)過少數(shù)次目標(biāo)函數(shù)評(píng)估即可得到近優(yōu)解。在最優(yōu)化采集函數(shù)的前提下,貝葉斯優(yōu)化能夠在理論上保證最終收斂。這是因?yàn)榈^程中每次迭代都采樣最有“潛力”的點(diǎn)進(jìn)行評(píng)估,只要保證足量的迭代次數(shù),算法最終一定會(huì)收斂到全局最優(yōu)解。

3.3基于cNN的空氣質(zhì)量數(shù)據(jù)異常檢測(cè)模型

由于氣候數(shù)據(jù)之間存在明顯的關(guān)聯(lián)性,因此不能從單一方面說明某個(gè)數(shù)據(jù)是異常值,必須建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。BP神經(jīng)網(wǎng)絡(luò)算法具有強(qiáng)大的非線性映射,但是在樣本數(shù)量大、復(fù)雜性高等情況下存在訓(xùn)練速度慢、誤差大和時(shí)間復(fù)雜度高等缺點(diǎn)。貝葉斯聚類能夠?qū)?shù)據(jù)進(jìn)行模塊化分類,將高相似度數(shù)據(jù)聚集在數(shù)據(jù)集中,并且不同數(shù)據(jù)集之間差異較大,為了彌補(bǔ)BP神經(jīng)網(wǎng)絡(luò)算法的缺點(diǎn),將聚類后的數(shù)據(jù)集作為訓(xùn)練樣本。結(jié)合上述兩種算法,能夠取長補(bǔ)短,避免單獨(dú)應(yīng)用一種算法的局限性,更好地改善訓(xùn)練質(zhì)量。

BP神經(jīng)網(wǎng)絡(luò)由輸入層、若干個(gè)隱層和輸出層組成,層與層之間是全連接的,每一個(gè)連接弧連接兩個(gè)神經(jīng)元,并賦有權(quán)值作為前一層神經(jīng)元對(duì)后一層神經(jīng)元的影響程度,每一層內(nèi)部的任意兩個(gè)節(jié)點(diǎn)都是互不相連。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過方向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值。

3.4融合模型整體結(jié)構(gòu)

針對(duì)空氣質(zhì)量數(shù)據(jù),將混合高斯模型和神經(jīng)網(wǎng)絡(luò)融合。首先,對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行聚類處理,然后將聚類后數(shù)據(jù)集作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。通過比較網(wǎng)絡(luò)的輸出值和真實(shí)值實(shí)現(xiàn)數(shù)據(jù)的異常檢測(cè),達(dá)到目的,總體設(shè)計(jì)模型如圖3所示。

4實(shí)驗(yàn)仿真

將空氣質(zhì)量大數(shù)據(jù)放入模型中訓(xùn)練,得到訓(xùn)練后的數(shù)據(jù)特征。如圖4均值分布情況所示,這里均值分布等同于之后神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)簇的個(gè)數(shù)。

單一的神經(jīng)網(wǎng)絡(luò)與貝葉斯高斯混合模型的效果進(jìn)行比較,結(jié)果如圖5所示。圖中藍(lán)色的線是神經(jīng)網(wǎng)絡(luò)的正確率,黃的線是貝葉斯高斯混合模型+神經(jīng)網(wǎng)絡(luò)的正確率。

5結(jié)論

為了解決大數(shù)據(jù)中異常數(shù)據(jù)的影響,提出了一種貝葉斯優(yōu)化的異常值檢測(cè)模型。通過貝葉斯推理,對(duì)混合高斯模型中均值及協(xié)方差的選取進(jìn)行了優(yōu)化,降低了模型的使用難度及成本;同時(shí)本方法相對(duì)于單個(gè)模型提升了準(zhǔn)確率,加快了收斂速度,得到了更好的檢測(cè)效果。但cNN模型的構(gòu)建是一個(gè)耗時(shí)的工程,如果能更快地確定參數(shù),將大大降低成本,提高效率,這將是未來的優(yōu)化方向。

主站蜘蛛池模板: 免费一极毛片| 午夜国产大片免费观看| 国产精品视屏| 日韩午夜福利在线观看| 欧美精品亚洲精品日韩专区| 欧美视频二区| 国产呦视频免费视频在线观看| 手机精品视频在线观看免费| 黄网站欧美内射| 久久网综合| 色婷婷狠狠干| 欧美.成人.综合在线| 日韩在线第三页| 亚洲成人网在线播放| 日本午夜网站| 波多野结衣在线一区二区| 日韩无码黄色| 免费国产无遮挡又黄又爽| 国产无码精品在线播放 | 亚洲手机在线| 国产精品蜜芽在线观看| 女人18毛片一级毛片在线 | 99精品热视频这里只有精品7| 国产麻豆精品在线观看| 亚洲欧美另类专区| 国产精品久久久久婷婷五月| 在线亚洲小视频| 国产制服丝袜91在线| 永久免费精品视频| 亚洲一区国色天香| 美女免费黄网站| 日本一区二区不卡视频| 国产欧美日韩资源在线观看| 亚洲天天更新| 免费三A级毛片视频| 最新亚洲av女人的天堂| 欧美一区二区三区不卡免费| 精品人妻系列无码专区久久| 91探花国产综合在线精品| 在线欧美a| 欧美日韩亚洲国产主播第一区| 国产在线观看一区二区三区| a级毛片一区二区免费视频| 欧美激情视频二区三区| 毛片视频网| 最新加勒比隔壁人妻| 久久96热在精品国产高清| 一区二区日韩国产精久久| 亚洲精品自拍区在线观看| 国产欧美又粗又猛又爽老| 国产一二三区在线| 中文字幕永久视频| 亚洲看片网| 97综合久久| 午夜a级毛片| 亚洲最大福利网站| 日本国产精品一区久久久| 超碰精品无码一区二区| 日本爱爱精品一区二区| 在线欧美国产| 日韩在线永久免费播放| 在线亚洲小视频| 人妻夜夜爽天天爽| 精品国产香蕉在线播出| 97视频免费在线观看| 亚洲天堂区| 萌白酱国产一区二区| 青青青视频91在线 | a级毛片在线免费观看| 国产本道久久一区二区三区| 国产Av无码精品色午夜| 91精品专区国产盗摄| 亚洲国产亚洲综合在线尤物| 国产精品55夜色66夜色| 成人国产精品网站在线看| 国产网友愉拍精品| 国产xx在线观看| 亚洲日韩在线满18点击进入| 國產尤物AV尤物在線觀看| 玖玖免费视频在线观看| 国产第二十一页| 在线一级毛片|