999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中離群點檢測的非參數(shù)方法研究

2013-09-18 10:30:56李志云
微型電腦應用 2013年8期
關鍵詞:檢測方法模型

李志云

0 引言

離群點檢測(又稱為異常檢測)是找出其行為很不同于預期對象的過程。這種對象稱為離群點或異常。除欺詐檢測外,離群點檢測在許多應用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測、圖像處理、傳感器/視頻網(wǎng)絡監(jiān)視和入侵檢測。

離群點檢測和聚類分析是兩項高度相關的任務。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點檢測則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點檢測和聚類服務于不同的目的。

1 離群點

假定使用一個給定的統(tǒng)計過程來產(chǎn)生數(shù)據(jù)對象集。離群點(outlier)是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象,好像它是被不同的機制產(chǎn)生的一樣,如圖1所示:

圖1 區(qū)域R中的對象是離群點

大部分對象都粗略地服從高斯分布。然而,區(qū)域 R中的對象顯著不同。它不太可能與數(shù)據(jù)集中的其他對象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對象是離群點。

離群點不同于噪聲數(shù)據(jù)。噪聲是被觀測變量的隨機誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點分析)中不是令人感興趣的。離群點是有趣的,因為懷疑產(chǎn)生它們的機制不同于產(chǎn)生其他數(shù)據(jù)的機制。因此,在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種機制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設,并且證明檢測到的離群點顯著違反了這些假設。離群點通常可以分成3類:全局離群點、情境(或條件)離群點和集體離群點。離群點檢測方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領域?qū)<姨峁┑摹⒖梢杂脕順?gòu)建離群點檢測模型的標號,對離群點檢測方法進行分類;一類是根據(jù)各方法關于正常對象和離群點的假定,對各方法分組。如果可以得到專家標記的正常和離群點對象實例,則可以使用它們建立離群點檢測模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無監(jiān)督方法。如果對離群點檢測方法對離群點與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點檢測方法分為3類:統(tǒng)計學方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計學方法提出一種非參數(shù)方法檢測離群點。

2 離群點檢測的非參數(shù)方法

非參數(shù)方法并不假定先驗統(tǒng)計模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個數(shù)和性質(zhì)都是靈活的,不預先確定。

可以使用直方圖作為非參數(shù)統(tǒng)計模型來捕獲離群點。使用直方圖表示了每個顧客事務的購買金額,圖中60%事務的購買金額為0~1000美元。按直方圖所示,一個購買金額為7500美元的事務可能被視為離群點,因為只有 1-(60%+20%+10%+6.7%+3.1%)=0.2%事務的購買量超過5000美元。另一方面,購買量為385美元的事務可以看做正常的,因為它落入包含60%事務的箱中,如圖2所示:

圖2 每個事務購買量的直方圖

使用直方圖檢測離群點的步驟如下:

第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個直方圖,該直方圖可以是一元的,也可以是多元的。

第二步:檢測離群點。為了確定一個對象o是否是離群點,可以對照直方圖檢查它。在最簡單的方法中,如果該對象落入直方圖的一個箱中,則該對象被看做正常的,否則被認為是離群點。

使用直方圖作為離群點檢測的非參數(shù)模型的一個缺點是,很難選擇一個合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對象都會落入空的或稀疏箱,因而被誤識別為離群點。這將導致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點對象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導致很高的假負例率和低召回率。

為了解決這些問題,可以采用核密度估計數(shù)據(jù)的概率密度分布。把每個觀測對象看做一個周圍區(qū)域中的高概率密度指示子。一個點上的概率密度依賴于該點到觀測對象的距離。使用核函數(shù)對樣本點對其鄰域內(nèi)的影響建模。核函數(shù)K()是一個非負實數(shù)值可積函數(shù),滿足如下兩個條件,如公式(1)、公式(2)

一個頻繁使用的核函數(shù)是均值為0,方差為1的標準高斯函數(shù):

設x1,…,xn是隨機變量f的獨立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:

其中,K()是核函數(shù);h是帶寬,充當光滑參數(shù)。

一旦通過核密度估計近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計的密度函數(shù) f來檢測離群點。對于對象 o,f(o)給出該對象被隨機過程產(chǎn)生的估計概率。如果f(o)大,則該對象可能是正常的;否則,o可能是離群點。這一步通常與參數(shù)方法的對應步驟類似。

4 總結(jié)

離群點檢測的統(tǒng)計學方法由數(shù)據(jù)學習模型,以區(qū)別正常的數(shù)據(jù)對象和離群點。使用統(tǒng)計學方法的一個優(yōu)點是,離群點檢測可以是統(tǒng)計上無可非議的。當然,僅當對數(shù)據(jù)所做的統(tǒng)計假定滿足實際約束時才為真。通常,非參數(shù)方法對數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。

[1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2012

[2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點檢測算法[J]. 計算機仿真.2013(2)269-271

[3]劉耀宗,張宏等. 基于小波密度估計的數(shù)據(jù)流離群點檢測[J]. 計算機工程.2013(2)178-179

[4]古平,劉海波等. 一種基于多重聚類的離群點檢測算法[J]. 計算機應用研究.2013(3)751-753

[5]趙潔. 統(tǒng)計模型中幾種異常點檢測方法簡介[J].吉林教育. 2013(14)10-12

[6]李龍姣,程國達. 基于直方圖和 FP增長的高維空間離群點挖掘[J].計算機與現(xiàn)代化.2013(1)47-49

[7]王玉琳,薛安榮. 基于橢球模型的無線傳感器網(wǎng)絡的局部離群點檢測[J].計算機應用研究.2013(2)547-549

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 青草91视频免费观看| 91久久国产综合精品女同我| 最新亚洲av女人的天堂| 日韩精品专区免费无码aⅴ| 亚洲乱码视频| 久久久久久午夜精品| 精品1区2区3区| 麻豆国产精品| 91亚洲精选| 免费不卡视频| 欧美日韩va| 99热这里只有精品在线播放| 99ri国产在线| 欧美成人看片一区二区三区| 午夜a级毛片| 好吊日免费视频| 成人免费一区二区三区| 亚洲Va中文字幕久久一区| 午夜精品一区二区蜜桃| 精品丝袜美腿国产一区| 成人在线不卡视频| 日本人妻一区二区三区不卡影院| 国产呦精品一区二区三区下载 | 国产精品美乳| 亚洲欧洲一区二区三区| 日韩高清成人| 亚洲乱亚洲乱妇24p| 人妻中文久热无码丝袜| 四虎国产永久在线观看| 91精品专区| 亚洲欧美不卡视频| 国产精品成人第一区| 91国内在线观看| 91亚洲精选| 精品久久综合1区2区3区激情| 亚洲欧美在线综合一区二区三区| 欧日韩在线不卡视频| 国产在线第二页| 日韩A级毛片一区二区三区| 亚洲视频在线网| 人妻丝袜无码视频| 这里只有精品在线播放| 久久婷婷五月综合97色| 亚洲日韩精品欧美中文字幕| 亚洲性影院| 色天天综合久久久久综合片| 99热这里只有成人精品国产| 思思热在线视频精品| 玖玖精品视频在线观看| 波多野结衣一二三| 久久人与动人物A级毛片| 国产精品毛片在线直播完整版| 国产精彩视频在线观看| 日韩精品一区二区三区免费在线观看| 精品乱码久久久久久久| 久视频免费精品6| 成人午夜久久| 亚洲美女久久| 一区二区三区在线不卡免费| 精品视频一区在线观看| 免费又爽又刺激高潮网址| 国产美女视频黄a视频全免费网站| 免费看黄片一区二区三区| 欧美丝袜高跟鞋一区二区| 极品私人尤物在线精品首页| 中文字幕免费视频| 亚洲综合狠狠| 国产99视频精品免费视频7| 国产一级二级在线观看| 免费看美女毛片| 色综合日本| 欧美成人精品一区二区 | 日韩视频精品在线| 91精品啪在线观看国产60岁| v天堂中文在线| 午夜福利免费视频| 欧美国产在线一区| 黄色一级视频欧美| 日韩一区精品视频一区二区| 91无码国产视频| 成人日韩视频| 日韩在线第三页|