999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SimHash的數(shù)據(jù)流分層遺忘概要結(jié)構(gòu)

2019-07-16 03:14:59未春鳳趙淑賢
電腦知識與技術(shù) 2019年15期

未春鳳 趙淑賢

摘要:數(shù)據(jù)流處理的關(guān)鍵是應(yīng)用高效的單趟掃描算法,創(chuàng)建數(shù)據(jù)流的概要結(jié)構(gòu)。現(xiàn)有的概要結(jié)構(gòu)存在著重構(gòu)誤差較大的缺點。作者針對這個問題,結(jié)合數(shù)據(jù)流分層遺忘概要結(jié)構(gòu),采用simHash算法提取數(shù)據(jù)流中的概要信息,形成一種新的數(shù)據(jù)流分層遺忘概要結(jié)構(gòu)(simHash-Based Hierarchical Amnesic Synopsis,SH-HAS)。本文將SH-HAS結(jié)構(gòu)用在CUP99和Covertype數(shù)據(jù)集上,實驗驗證了該結(jié)構(gòu)的可靠性和穩(wěn)定性。

關(guān)鍵詞:數(shù)據(jù)流;概要結(jié)構(gòu);simHash;分層遺忘

中圖分類號:TP311 ? ? ? ?文獻標識碼:A

文章編號:1009-3044(2019)15-0006-02

隨著計算機網(wǎng)絡(luò)和各類電子設(shè)備的應(yīng)用,越來越多的數(shù)據(jù)以流的形式出現(xiàn),這種新的數(shù)據(jù)形式被稱為數(shù)據(jù)流[1]。數(shù)據(jù)流具有實時性、有序性、高速性、演化性、無限性等特性[2]。這使得傳統(tǒng)的數(shù)據(jù)挖掘方法不能直接應(yīng)用到數(shù)據(jù)流上。

因為數(shù)據(jù)流具有無限到達的特性,導(dǎo)致現(xiàn)有的計算機系統(tǒng)不能存儲全部的數(shù)據(jù)流。針對這一問題,學(xué)者提出了建立數(shù)據(jù)流的概要結(jié)構(gòu),以便保存數(shù)據(jù)流的概要信息和根據(jù)該結(jié)構(gòu)提供數(shù)據(jù)流的近似處理結(jié)果。數(shù)據(jù)流概要結(jié)構(gòu)是存儲數(shù)據(jù)流概要信息的一種結(jié)構(gòu),旨在使用較小的數(shù)據(jù)規(guī)模代表全體數(shù)據(jù),稱為概要結(jié)構(gòu)(synopsis structure)[3]。現(xiàn)有的數(shù)據(jù)流概要結(jié)構(gòu)主要通過直方圖、抽樣、小波、隨機投影和散列方法獲取數(shù)據(jù)流的概要信息。

分層遺忘概要(Hierarchical Amnesic Synopsis,簡稱HAS)[4],是陳華輝提出的一種基于數(shù)據(jù)流遺忘特性的概要結(jié)構(gòu)構(gòu)造框架。其他學(xué)者在這方面也進行了許多的研究,例如文獻[5-7]。這些方法能有效地獲取數(shù)據(jù)流概要信息,但存在著重構(gòu)誤差較大的缺點。

simHash算法由Google的工程師于2007年提出,在文檔去重和文本相似度檢索等領(lǐng)域。學(xué)者將SimHash算法用于數(shù)據(jù)的相似性檢索[8-10],并取得了較好的效果。

SimHash算法既可以高效地壓縮原始數(shù)據(jù),又是一種降維方法。本文利用simHash算法在數(shù)據(jù)壓縮方面的高效性,結(jié)合數(shù)據(jù)流的HAS結(jié)構(gòu),提出一種基于simHash的數(shù)據(jù)流分層遺忘概要結(jié)構(gòu)(simHash-Based Hierarchical Amnesic Synopsis,簡稱SH-HAS)。該算法的主要思想為:采用simHash算法提取數(shù)據(jù)流上新到的數(shù)據(jù)子序列的概要信息,創(chuàng)建對應(yīng)的數(shù)據(jù)節(jié)點并添加到SH-HAS結(jié)構(gòu)中;當SH-HAS結(jié)構(gòu)中某層的數(shù)據(jù)節(jié)點個數(shù)達到上限,則將當前層節(jié)點相加成K個節(jié)點并插入該結(jié)構(gòu)的上一層;隨著數(shù)據(jù)流的到來,動態(tài)調(diào)整該結(jié)構(gòu)。本文將該結(jié)構(gòu)用在CUP99和Covertype數(shù)據(jù)集上,實驗驗證了該結(jié)構(gòu)的可靠性和穩(wěn)定性。

1基于simHash的數(shù)據(jù)流分層概要結(jié)構(gòu)

simHash算法[9]屬于前述方法中的散列方法。它既是一種數(shù)據(jù)相似度計算方法,又是一種數(shù)據(jù)維度削減方法,用以解決數(shù)據(jù)流維度高和數(shù)據(jù)無限的問題。

1.1 分層概要結(jié)構(gòu)

數(shù)據(jù)流除了具有前述的特點外,其數(shù)據(jù)的影響是隨時間衰減的,表現(xiàn)為近期的數(shù)據(jù)價值更大。在分層概要結(jié)構(gòu)中,數(shù)據(jù)所處的層數(shù)越低,說明數(shù)據(jù)到達的時間較晚;層數(shù)越高說明數(shù)據(jù)到達的時間較早。

1.2 數(shù)據(jù)定義

在SH-HAS結(jié)構(gòu)中數(shù)據(jù)節(jié)點[P(D)]=[ts,n,X,Γ],其中[ts]為該數(shù)據(jù)節(jié)點的時間戳,記錄D中最后一個數(shù)據(jù)的到達時刻;n為D中數(shù)據(jù)個數(shù)[D];[X]為D中數(shù)據(jù)的均值;[Γ]表示采用simHash算法計算出的數(shù)據(jù)概要信息。

1.2.3 SH-HAS結(jié)構(gòu)的動態(tài)維護

隨著數(shù)據(jù)的到達,為了使SH-HAS結(jié)構(gòu)中保存的信息能無限接近真實的數(shù)據(jù)流,需要對此結(jié)構(gòu)進行動態(tài)更新維護。數(shù)據(jù)流上的SH-HAS結(jié)構(gòu)的動態(tài)維護算法如圖1所示。算法的空間和時間復(fù)雜性在文獻[4]中已經(jīng)被證明,在此不再贅述。

2 實驗及分析

2.1 數(shù)據(jù)集及評價標準

本文使用UCI(University of California Irvine)[11]的機器學(xué)習(xí)庫中的KDDCUP99和Covertype數(shù)據(jù)集作為實驗數(shù)據(jù)集,并使用相對重構(gòu)誤差來評價實驗結(jié)果。

設(shè)有數(shù)據(jù)序列[D=(X1,X2,...,Xn)],設(shè)[D']為重構(gòu)得到的重構(gòu)數(shù)據(jù)集,其相對重構(gòu)誤差定義為式(1):

其中符號[∥x∥]表示向量x的2范數(shù)。

2.2 實驗及結(jié)果分析

2.2.1實驗設(shè)置

實驗中修改MOA系統(tǒng)lancher文件模擬數(shù)據(jù)流的到達,將數(shù)據(jù)流上每2000條數(shù)據(jù)劃分為一個子序列。本文實驗比較了Sampling、Histogram和SH-HAS方法在數(shù)據(jù)流上的相對重構(gòu)誤差。

2.2.2實驗結(jié)果及分析

因為篇幅有限,在此僅列出數(shù)據(jù)集Covertype上的部分實驗結(jié)果。圖2分別截取了一部分實驗數(shù)據(jù),記載了將Sampling、Histogram、SH-HAS方法應(yīng)用在Covertype數(shù)據(jù)集的相對重構(gòu)誤差。從圖2中可以看出, SH-HAS方法較Sampling、Histogram方法相對重構(gòu)誤差明顯降低。

3結(jié)語

本文針對現(xiàn)有數(shù)據(jù)流概要結(jié)構(gòu)存在著重構(gòu)誤差較大的缺點,采用simHash算法提取數(shù)據(jù)流中的概要信息,形成一種新的數(shù)據(jù)流分層遺忘概要結(jié)構(gòu)(SH-HAS)。該結(jié)構(gòu)采用simHash算法提取數(shù)據(jù)流上新到的數(shù)據(jù)子序列的概要信息,創(chuàng)建對應(yīng)的數(shù)據(jù)節(jié)點并添加到SH-HAS結(jié)構(gòu)中;當SH-HAS結(jié)構(gòu)中某層的數(shù)據(jù)節(jié)點個數(shù)達到上限,則將當前層節(jié)點相加成K個節(jié)點并插入該結(jié)構(gòu)的上一層;隨著數(shù)據(jù)流的到來,動態(tài)調(diào)整該結(jié)構(gòu)。實驗結(jié)果表明SH-HAS結(jié)構(gòu)可以大大減小相對重構(gòu)誤差。下一步可開展基于SH-HAS結(jié)構(gòu)的數(shù)據(jù)流相似性判斷和分類等處理方法的研究。

參考文獻:

[1] 黃樹成,曲亞輝.數(shù)據(jù)流分類技術(shù)研究綜述[J].計算機應(yīng)用研究,2009,10:3604-3609.

[2] 李南.概念漂移數(shù)據(jù)流分類算法及應(yīng)用[D].福建師范大學(xué),2013.

[3] 龍門,夏靖波,張子陽.基于概要數(shù)據(jù)結(jié)構(gòu)的網(wǎng)絡(luò)異常檢測方法[J].計算機應(yīng)用與軟件,2011,04:186-188.

[4] 陳華輝.基于遺忘特性的數(shù)據(jù)流概要結(jié)構(gòu)及其應(yīng)用研究[D].復(fù)旦大學(xué),2008.

[5] Pang C,Zhang Q,Zhou X,et al.Computing unrestricted synopses under maximum error bound[J].Algorithmica,2013,65(1):1-42.

[6] Pham D S,Venkatesh S,Lazarescu M,et al.Anomaly detection in large-scale data stream networks[J]. Data Mining and Knowledge Discovery,2014,28(1):145-189.

[8] Graham Cormode;S.Muthukrishnan.An Improved Data Stream Summary:The Count-Min Sketch and Its Applications[A].2004

[10] Xu X,Gao C,Pei J,et al.Continuous similarity search for evolving queries[J].Knowledge and Information Systems,2014:1-30.

[11] http://www.ics.uci

【通聯(lián)編輯:唐一東】

主站蜘蛛池模板: 亚洲二三区| 欧美va亚洲va香蕉在线| 原味小视频在线www国产| 国产美女自慰在线观看| 精品夜恋影院亚洲欧洲| 无码一区中文字幕| 色播五月婷婷| 日韩在线播放中文字幕| 亚洲综合在线最大成人| 免费一级成人毛片| 欧美精品综合视频一区二区| 久久国产免费观看| 欧美性猛交一区二区三区 | 波多野一区| 久久a级片| 国产日韩精品欧美一区喷| 国产好痛疼轻点好爽的视频| 97成人在线观看| 欧美一区二区精品久久久| 国产视频久久久久| 欧美午夜在线观看| 玖玖精品在线| 永久免费无码日韩视频| 欧美成人a∨视频免费观看 | 好紧太爽了视频免费无码| 亚洲大尺度在线| 欧美一级在线播放| 亚洲欧美成人网| 欧美精品1区2区| 欧美在线精品一区二区三区| 婷婷激情亚洲| 国产精品无码翘臀在线看纯欲| 久久黄色毛片| 福利在线不卡| 国产精品观看视频免费完整版| 一级毛片免费高清视频| 亚洲AV无码不卡无码| 99久久精品免费视频| 成人福利在线免费观看| 麻豆精品在线播放| 国产欧美日韩免费| 久久久久无码精品| 一边摸一边做爽的视频17国产| 国产第一页第二页| 欧美成人怡春院在线激情| 91久久大香线蕉| 香蕉99国内自产自拍视频| 久久久久亚洲av成人网人人软件| 四虎在线高清无码| 四虎亚洲精品| 九色视频最新网址| 中文字幕人妻av一区二区| 久久国产精品娇妻素人| av午夜福利一片免费看| 免费播放毛片| 欧美日韩导航| 久久一日本道色综合久久| 欧美日韩激情在线| 精品午夜国产福利观看| 69国产精品视频免费| 久久国语对白| 无码福利日韩神码福利片| 色亚洲激情综合精品无码视频| 日本免费精品| 制服丝袜一区| 精品国产一区二区三区在线观看 | 99热这里只有精品在线播放| 日本一区二区三区精品视频| 亚洲资源站av无码网址| 国产91透明丝袜美腿在线| 青青青国产视频手机| 国产精品30p| 久久综合结合久久狠狠狠97色| 欧美精品二区| 亚洲无线国产观看| 韩国v欧美v亚洲v日本v| 国产理论最新国产精品视频| 国产内射在线观看| 欧美精品啪啪一区二区三区| www.91中文字幕| 国产人成在线视频| 久久精品91麻豆|