999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于能量過濾的不確定時間序列數據清洗方法

2019-09-12 10:41:42孫紀舟李建中
智能計算機與應用 2019年4期

孫紀舟 李建中

摘 要: 精確度是數據科學領域研究的重要方面,對后續數據處理等過程都有至關重要的影響。利用多個傳感器返回的多個時間序列可提升時間序列數據的精確度,稱為不確定時間序列,這多個時間序列樣本在真實數據上下隨機波動。已有關于時間序列的研究大多直接在不確定時間序列上提出新算法,其缺點是算法復雜度通常較高,直接對不確定時間序列進行清洗,獲得盡可能接近真實的數據有重要意義。本文提出基于能量過濾的方法對不確定時間序列進行清洗,實驗結果表明與已有方法相比,本文方法在效果和效率上都更優。

關鍵詞: 不確定時間序列;能量過濾;數據清洗

文章編號:2095-2163(2019)04-0001-06 中圖分類號:TP391.41 文獻標志碼:A

0 引 言

時間序列數據在日常生活和工業生產中無處不在,例如氣象學中的溫度、濕度、風速、PM2.5;醫學中的心跳、血壓、體溫;以及經濟學中的股票指數、恩格爾系數以及其它描述宏觀經濟形勢的指數等。這些數據都是隨時間變化的數值型數據。由于環境干擾、傳感器的精度不夠、獲取數據時的舍入等原因,時間序列數據通常是不精確的,距離真實數據總有一些誤差。而這些誤差往往給人們的日常生活、醫療中的病情診斷及監控以及政府部門的決策等帶來負面影響。

為了盡可能降低誤差帶來的影響,常用的解決方法就是對同一時間序列數據采集多個樣本,每個樣本都在真實數據周圍隨機的上下波動,對這些樣本求平均值,或者直接在這些樣本上設計新算法,都能在一定程度上解決誤差帶來的影響。求平均值的方法最簡單快速,但結果精確度不夠高;設計新算法的思路能夠獲得更高的精度,但往往有著很高的時間復雜度。

結合時間序列平滑的特性以及隨機噪聲的波動特性,本文給出一種基于能量過濾的時間序列清洗算法。根據給定的時間序列樣本,計算出數據中噪聲所占能量的比重,根據這個比重找出一個頻率閾值,并將傅里葉變換之后高于該閾值的部分過濾掉,所得結果更加平滑且接近真實數據,在Top-k查詢問題上和已有算法做了實驗對比,結果顯示在效果上本文算法較好,而時間效率上本文算法遠遠優于已有算法。

1 問題描述

1.1 時間序列

1.2 不確定時間序列

在很多實際情況中,收集到的數據往往是不精確的,比如采集溫度數據的傳感器,本身有一定的誤差,為降低誤差,對同一時刻的數據收集多個數據樣本,以提高測量精度。 因此本文給出的不確定時間序列模型描述如下:

(1)不同時刻值的誤差是獨立同分布的隨機變量;

1.3 不確定時間序列的清洗

關于不確定時間序列的已有研究中,都致力于提出新的模型和算法對不確定時間序列數據進行搜索、聚類和Top-k查詢等。而相關問題在確定時間序列上的研究已經十分成熟,為了使這些方法能夠直接用在不確定時序數據上,本文主要研究如何對不確定數據進行清洗(或者還原),使之變為盡可能接近真實數據的確定時間序列。下面給出不確定時間序列的清洗問題。

2 基于能量過濾的清洗方法

由于數據點之間的相關性在頻域表現比較明顯,因此本文考慮在頻域進行降維,從而達到清洗數據的目的。其直觀思想是,時間序列數據在頻域上分布極不均勻。即有些頻率上的數據分布很集中(高能區域),而有些頻率上只有很少數據信息(低能區域),而不確定數據中的噪聲在各個頻率上的分布相對均勻。因此,在低能區域,噪聲數據占據主導地位,直接將其舍棄掉雖然會丟失一部分有用信息,但同時丟掉了更多的垃圾信息,使得整體的數據質量得到提升。 該方法的優點主要包括:

(1)大大減少了數據量,每個時間點的數據由m維降低到1維,并且在頻域上只需要保留很少的數據(例如在實驗中,長度為2 k的數據在頻率域只需要保留100個左右的數據點);

(2)大大提升了數據質量,通過自適應的選取一個能量閾值,本文的方法能夠去掉盡可能多的噪聲,保留盡可能多的有用信息,從而使最終的估計結果盡可能地接近真實數據,實驗部分也對此進行了驗證。

2.1 離散傅里葉變換

即在某個頻率上,臟數據的能量的期望等于真實數據能量期望與噪聲能量期望之和。

2.3 噪聲能量的估計

由于不同時刻的數據都是由同一個傳感器收集的,因此不同時刻的隨機噪聲也是獨立同分布的。每個時刻有m個樣本,均由隨機變量s+Ns中采樣得到,其中s是真實值但未知,隨機變量Ns是傳感器的隨機誤差。由于s是常數不影響方差,因此s+Ns和Ns的方差相等,由概率論知識可知,m個樣本的樣本方差是對s+Ns方差的無偏估計,即是對Ns方差的無偏估計。 由于時間序列很長,因此在每個時間點上的數據估計Ns并求平均,根據大數定律容易得出,如此求得的方差幾乎等于傳感器隨機誤差的方差:

2.4 算法

至此,可給出基于能量過濾的時間序列清洗算法:

3 實驗驗證

最后在真實數據集和合成數據集上對本文算法和其它算法做一對比。

3.1 實驗環境

本文算法代碼用JAVA語言實現,硬件環境是主頻3.60GHz的8核Intel i7處理器,內存大小為8GB,硬盤大小1TB的臺式機,底層操作系統是Windows 7。

3.2 實驗數據

本實驗采用的數據集為UCR數據集,UCR是時間序列數據研究中最常用的數據集,樣本及噪聲的生成均采用文獻[1]中的方法。

3.3 算法對比

本實驗主要與一個最近的關于不確定時間序列數據上Top-k查詢的算法[1]Holistc-PkNN做對比。該算法解決的問題是,給定一個不確定時間序列數據集,研究如何從該數據集中快速找出與查詢序列Q距離最近的不確定時間序列。該方法是針對不確定時間序列上的老問題設計的新算法,其最大缺點是雖然設計了很多提高性能的優化技術,但時間開銷依然很高。

主站蜘蛛池模板: 成人亚洲国产| 中文一级毛片| 国产成人亚洲精品蜜芽影院| 亚洲免费福利视频| 国产不卡国语在线| 日本少妇又色又爽又高潮| 97成人在线观看| 成年网址网站在线观看| 中文无码影院| 国产午夜人做人免费视频中文| 国产精品护士| 精品午夜国产福利观看| 免费看一级毛片波多结衣| 亚洲AV色香蕉一区二区| 国产AV无码专区亚洲A∨毛片| 尤物成AV人片在线观看| 自偷自拍三级全三级视频 | 免费黄色国产视频| 高h视频在线| 免费毛片在线| 九色综合视频网| 国产偷倩视频| 国产在线麻豆波多野结衣| 久久国产av麻豆| 中文字幕无码中文字幕有码在线| 2020国产在线视精品在| 欧美国产三级| 无码专区在线观看| 中文字幕久久波多野结衣| 精品综合久久久久久97超人该| 亚洲无线国产观看| 欧美一级夜夜爽| 亚洲欧美成人| 久久不卡精品| 又大又硬又爽免费视频| 亚洲中文字幕在线精品一区| 亚洲精品在线91| 国产精品久久久久久久伊一| 精品午夜国产福利观看| 97se亚洲| 国产杨幂丝袜av在线播放| 97在线免费视频| 女人毛片a级大学毛片免费| 91最新精品视频发布页| 欧美日本二区| 久久熟女AV| 日韩欧美视频第一区在线观看| 婷婷色一二三区波多野衣| 久草视频中文| V一区无码内射国产| 99热这里只有精品国产99| 亚洲无码A视频在线| 国产对白刺激真实精品91| 天天综合网站| 国产免费羞羞视频| 国产乱子伦一区二区=| 在线观看国产小视频| 综合亚洲网| 九色在线观看视频| 欧美第一页在线| 中文字幕2区| 精品国产aⅴ一区二区三区| 98超碰在线观看| 国产在线98福利播放视频免费| 亚洲天堂区| 99热这里只有成人精品国产| 天堂中文在线资源| 亚洲天堂高清| 一本色道久久88综合日韩精品| 一级全黄毛片| 美女潮喷出白浆在线观看视频| 永久成人无码激情视频免费| 亚洲高清中文字幕| 亚洲一区网站| 一级黄色网站在线免费看| 亚洲一区二区约美女探花| 一级毛片在线播放免费| 最新国产午夜精品视频成人| 国产一二视频| 国产在线小视频| 免费日韩在线视频| 丁香婷婷激情网|