999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不確定數據流上的離群點檢測處理

2020-04-17 08:54:52朱斌鐘毓靈王習特白梅
湖南大學學報·自然科學版 2020年2期

朱斌 鐘毓靈 王習特 白梅

摘? ?要:提出了一種快速不確定數據流上的離群點檢測算法. 采用分層次劃分思想給出了適用于流式數據的索引構建方法,并為索引結構中的葉子結點增加了部分存儲信息,使得在數據更新時新流入的數據點可以利用中間結果信息直接完成批量過濾,降低計算成本. 通過分析離群概率值求解的遞推規律,給出了一種全新的離群概率值求解方案,該方案可以最大可能地避免全近鄰集合的迭代計算,減少了大量的非離群點計算代價,從而加快處理速度. 實驗結果表明,快速不確定數據流上的離群點檢測算法能夠有效地提高檢測效率.

關鍵詞:離群點;不確定數據流;滑動窗口;過濾策略;分層次劃分

中圖分類號:TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標志碼:A

Abstract:This paper proposed a Fast Outlier Detection algorithm Over Uncertain Data Streams (FOD_OUDS). Firstly,an index inspired by hierarchical ideas was designed to manage uncertain data stream,and some storage information was added for the leaf nodes in the index structure,so that the newly inflowed data points can directly perform batch filtering by using the intermediate result information when the data is updated,thereby achieving the purpose of reducing the calculation cost. Secondly,by analyzing the recursive rules of outlier probability values in calculation,a novel outlier probability value solution scheme was presented,which can avoid as much as possible the calculating cost of nearest neighbor set,reduce the processing cost of a large number of inliers,thus speeding up processing. At last,a large amount of experiments show that the FOD_OUDS algorithm can effectively improve the detection efficiency.

Key words:outliers;probabilistic data stream;sliding window;filtering strategy;hierarchical division

離群點檢測是數據管理領域的熱點問題之一[1], 廣泛應用于工業損毀、金融詐騙和環境監測等應用場景中,離群點被認為是數據集合中顯著區分于其他數據點的數據對象[2]. 目前,因為基于距離的離群點定義[3]能夠直觀反映離群點本質而得到廣泛的應用,其具體描述為:對于數據集合中任意數據點p,若p在半徑r范圍內的鄰居個數少于k個,那么p被認為是離群點.

近年來,數據以高速度高容量的流式形式應用于工業生產、社會生活中,在這規模龐大、速度極快的流式數據里面,不確定性數據廣泛存在于其中[4]. 數據的不確定性主要分為屬性級不確定與存在級不確定,本文主要關注存在級不確定數據[5]. 目前,傳統的離群點檢測算法尚無法滿足諸多現實需求, 以氣象監測系統為例,傳感器不間斷地采集局部氣溫、氣壓和紫外線指數等環境信息并以流的形式傳輸到數據庫中,實時識別出離群點(異常氣象信息),可以有效地防范自然災害. 但是,受到傳感器精度及周圍環境等因素影響,產生的數據流具有流速較快、規模較大及不確定性等數據特點,使得傳統解決方案無法直接應用到上述問題中[5]. 因此,設計出一種高效的不確定數據流上的離群點檢測算法成為本文的主要研究目標.

文獻[6]首次給出了存在級不確定數據中的離群點定義,并提出了DPA算法用以解決集中式環境中的離群點檢測問題. 隨后,文獻[7]在文獻[6]的基礎上將研究內容擴展至不確定數據流環境中,利用網格索引結構管理不確定數據,并采用動態規劃思想來求解離群概率值用以避免可能世界的空間膨脹. 但因該算法在批量過濾時不可避免地需要近鄰空間的查詢,這就使得在處理多維數據時具有一定的局限性,另外,由于其忽略了離群概率值求解的遞推規律,使其在概率值求解中也無法避免冗余計算. 文獻[8]也關注于該研究問題并提出了PCUOD算法,該算法通過估算數據點的離群概率范圍進行概率剪枝,從而減少了必要的計算成本. 但是,由于PCUOD算法中的界限估算方法在近鄰數目急劇增加時會產生失效的情況,從而也造成了一定的局限性. 總之,目前相關解決方案中仍存在諸多不足,無法高效地滿足現實應用的需求.

本文主要研究快速不確定數據流上的離群點檢測算法(Fast Outlier Detection algorithm Over Uncertain Data Streams,FOD_OUDS),旨在提高算法的執行效率. 主要貢獻包括以下幾個部分:

1)采用分層次劃分思想給出了不確定數據流環境中索引的構建方法,利用這種索引結構可以克服傳統索引對多維數據管理的局限性. 與此同時,本文通過對索引結構中的葉子子塊增加部分存儲信息,可以快速地完成新到達數據點的批量過濾,極大地減少了數據更新過程中的計算代價.

2)通過深入分析離群概率值求解的遞推規律

后,提出了一種新的離群概率值求解方法. 該方法盡最大可能地避免了全近鄰集合的迭代計算,從而極大地減少了冗余計算.

3)利用大量的對比實驗,驗證本文所提出的

FOD_OUDS算法的有效性.

1? ?不確定數據流離群點檢測算法

1.1? ?問題描述

本文主要研究不確定數據流環境中基于距離的離群點檢測問題. 首先,給出不確定數據流中基于距離的離群點定義;然后,簡要描述在基于計數的滑動窗口上的處理流程. 表1列出了本文使用的符號及其含義.

綜上所述,FOD_OUDS算法在針對不確定數據流環境中的離群點檢測問題上的檢測時間更短并且過濾性能更優,從而驗證了本文提出的FOD_OUDS算法的有效性與高效性.

3? ?結? ?論

本文針對不確定數據流環境中的離群點查詢問題,提出了FOD_OUDS算法. 首先,采用分層次劃分思想給出了索引構建策略,使其具備良好的過濾性能. 然后,在分析了不確定數據點的離群概率值求解的遞推規律后,提出了優先過濾非離群點的概率值求解方法,從而加快了過濾速度. 其次,給出了動態維護的更新方法,以減少更新過程中的必要計算代價,從而提高了算法的運算效率. 最后,通過實驗驗證了FOD_OUDS算法具有較高的查詢效率與較好的過濾性能.

參考文獻

[1]? ? SADIK S,GRUENWALD L,LEAL E. Wadjet:Finding outliers in multiple multi-dimensional heterogeneous data streams[C]//2018 IEEE 34th International Conference on Data Engineering. Paris,France:IEEE,2018:1232—1235.

[2]? ? HAWKINS D M. Identification of outliers[J]. Biometrics,1981,37(4):27—41.

[3]? ?KNORR E M,NG R T. Algorithms for mining distance-based outliers in large datasets[C]// Proceedings of the 24th International Conference on Very Large Data Bases. New York:Springer,1998:392—403.

[4]? ? 吳杰,衣枚玉,張金輝,等. 大數據下的結構性態監測信息管理系統設計與應用[J]. 湖南大學學報(自然科學版),2016,43(9):76—81.

WU J,YI M Y,ZHANG J H,et al. Design and application of an information management system for structural behavior monitoring based on big data technology[J]. Journal of Hunan University(Natural Sciences),2016,43(9):76—81.(In Chinese)

[5]? ? 周傲英,金澈清,王國仁,等. 不確定性數據管理技術研究綜述[J]. 計算機學報,2009,32(1):1—16.

ZHOU A Y,JIN C Q,WANG G R,et al. A survey on the management of uncertain data[J]. Chinese Journal of Computers,2009,32(1):1—16. (In Chinese)

[6]? ? YU H,WANG B,XIAO G,et al. Distance-based outlier detection on uncertain data[J]. Journal of Computer Research and Development,2010,47(3):474—484.

[7]? ? WANG B,YANG X C,WANG G R,et al. Outlier detection over sliding windows for probabilistic data streams[J]. Journal of Computer Science and Technology,2010,25(3):389—400.

[8]? ?CAO K Y,WANG G R,HAN D H,et al. Continuous outlier monitoring on uncertain data streams[J]. Journal of Computer Science & Technology,2014,29(3):436—448.

[9]? ? 鐘毓靈,王習特,白梅,等. FODU:不確定數據集中快速離群點檢測方法[J]. 計算機工程與應用,2019,55(19):105—114

ZHONG Y L,WANG X T,BAI M,et al. FODU:A fast outlier detection approach on uncertain data sets[J]. Computer Engineering and Applications,2019,55(19):105—114. (In

主站蜘蛛池模板: 国产毛片网站| 99er这里只有精品| 亚洲V日韩V无码一区二区| 久久精品91麻豆| 日韩AV无码免费一二三区| 欧美精品啪啪一区二区三区| 黄片在线永久| 亚洲无码91视频| 久久综合九色综合97网| 5555国产在线观看| 亚洲精品人成网线在线| 女人一级毛片| h网址在线观看| 中文字幕av一区二区三区欲色| 手机在线免费毛片| 精品人妻无码中字系列| 欧美精品H在线播放| 91青青草视频| 国产亚洲精品自在久久不卡 | 久久伊人操| 九九免费观看全部免费视频| 男女性色大片免费网站| 日韩无码白| 久久精品亚洲中文字幕乱码| 国产一二三区在线| 久久美女精品国产精品亚洲| 国内精品九九久久久精品| 欧美在线三级| 亚洲无码精品在线播放| 久久精品亚洲热综合一区二区| 国产成人亚洲精品无码电影| 2021国产v亚洲v天堂无码| 亚洲最新网址| 亚洲天堂成人| 精品国产成人三级在线观看| 69视频国产| 亚洲福利片无码最新在线播放| 国产精品亚洲а∨天堂免下载| 久久精品午夜视频| 亚洲精品777| 激情六月丁香婷婷| 婷婷亚洲最大| 免费av一区二区三区在线| 日本不卡在线视频| 国产一区二区视频在线| 亚洲中文精品人人永久免费| 色婷婷在线影院| 日韩国产黄色网站| 国产成人区在线观看视频| 国产成人亚洲日韩欧美电影| 亚洲国产av无码综合原创国产| 久久久久国产精品熟女影院| 免费无码在线观看| 国产一级妓女av网站| 99热这里只有精品5| 又粗又硬又大又爽免费视频播放| 99ri精品视频在线观看播放| 情侣午夜国产在线一区无码| 色婷婷丁香| V一区无码内射国产| 99久久国产综合精品2023| 亚洲精品成人片在线观看| 久久精品亚洲中文字幕乱码| 在线观看国产黄色| 国产精品va免费视频| 国产剧情国内精品原创| 日韩精品一区二区三区swag| 国产精品成| 91热爆在线| 亚洲精品无码久久久久苍井空| 日韩欧美国产区| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美性爱精品一区二区三区| 欧美成人日韩| 在线亚洲精品福利网址导航| 国产成人精品一区二区不卡| 好吊色妇女免费视频免费| 色偷偷男人的天堂亚洲av| 国产美女叼嘿视频免费看| 91成人在线免费观看| 亚洲性影院| 亚洲综合久久成人AV|