999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種前兆觀測(cè)時(shí)序特征量的數(shù)據(jù)檢測(cè)方法

2015-02-15 01:05:20王秀英張聰聰王成亮
關(guān)鍵詞:特征

王秀英 張聰聰 王成亮

1 中國(guó)地震局地殼應(yīng)力研究所,北京市安寧莊路1號(hào),100085

2 邯鄲市地震局,邯鄲市叢臺(tái)路496號(hào),056008

地震前兆觀測(cè)數(shù)據(jù)是進(jìn)行地震預(yù)報(bào)和各種地球科學(xué)研究的基礎(chǔ)。隨著數(shù)據(jù)應(yīng)用研究的深入,前兆觀測(cè)系統(tǒng)不斷改善,前兆觀測(cè)數(shù)據(jù)的觀測(cè)精度和采樣率不斷提高,導(dǎo)致觀測(cè)數(shù)據(jù)量激增[1]。由于前兆觀測(cè)過(guò)程中觀測(cè)數(shù)據(jù)會(huì)受到各種干擾和影響,工作人員需對(duì)由干擾導(dǎo)致的“問(wèn)題數(shù)據(jù)”進(jìn)行預(yù)處理。另外,在進(jìn)行數(shù)據(jù)的常規(guī)方法或特定方法應(yīng)用之前,也需對(duì)問(wèn)題數(shù)據(jù)進(jìn)行先期處理,以滿(mǎn)足不同方法對(duì)數(shù)據(jù)的要求。由于前兆觀測(cè)數(shù)據(jù)量巨大,問(wèn)題數(shù)據(jù)的定位靠人工檢查,不僅缺少判別的客觀性,效率也很低。由于觀測(cè)數(shù)據(jù)的連續(xù)變化,基于這些數(shù)據(jù)提取的常用統(tǒng)計(jì)特征量均值、方差等也在不斷變化,變化的特征量不能反映不同時(shí)段數(shù)據(jù)總體特征,也無(wú)法利用它們進(jìn)行比較、分析和判斷,常規(guī)的均值、方差等特征量數(shù)據(jù)判別方法在用于地震前兆觀測(cè)數(shù)據(jù)分析時(shí)也不適用。因此,需要研究更有效的方法來(lái)進(jìn)行此項(xiàng)工作。

本文基于大數(shù)據(jù)挖掘的思路,設(shè)計(jì)一種利用信息熵值作特征量檢測(cè)地震前兆觀測(cè)數(shù)據(jù)的方法,可以快速?gòu)拇罅繑?shù)據(jù)中檢測(cè)出問(wèn)題數(shù)據(jù),大大縮短數(shù)據(jù)預(yù)處理中非正常數(shù)據(jù)的定位時(shí)間。

1 前兆數(shù)據(jù)特征值提取方法

數(shù)據(jù)特征量提取方法設(shè)計(jì)中,借鑒信息領(lǐng)域信息熵的概念,通過(guò)前兆觀測(cè)數(shù)據(jù)信息熵的定義來(lái)提取前兆觀測(cè)數(shù)據(jù)的特征值。

1.1 信息熵

Shannon[2]將信息熵定義為:離散隨機(jī)事件出現(xiàn)概率的不確定性。一個(gè)系統(tǒng)越有序,信息熵就越低;越混亂,信息熵就越高。所以,信息熵是系統(tǒng)有序化程度的一個(gè)度量。

假設(shè)X是一個(gè)離散隨機(jī)變量,它的取值范圍R={x1,x2,…,xn}是有限可數(shù)的。設(shè)pi=P{X=xi}為事件xi的發(fā)生概率,則X的信息熵定義為[2]:

由信息熵定義知[3],對(duì)于地震前兆觀測(cè)時(shí)間序列,如果數(shù)據(jù)變化完全隨機(jī)無(wú)規(guī)律,則每個(gè)事件出現(xiàn)的概率大致相等,其信息熵值最大;相反,如果數(shù)據(jù)變化簡(jiǎn)單規(guī)律,則某類(lèi)事件出現(xiàn)的概率較大,其他類(lèi)事件出現(xiàn)的概率較小,表現(xiàn)為信息熵越小;如果觀測(cè)數(shù)據(jù)為一個(gè)常數(shù),則某類(lèi)事件的出現(xiàn)概率為1,其他類(lèi)事件的出現(xiàn)概率為0,最終的信息熵值為0。因此,信息熵可以反映觀測(cè)數(shù)據(jù)的變化特性,通過(guò)檢驗(yàn)信息熵?cái)?shù)據(jù)的變化可以檢測(cè)數(shù)據(jù)的變化。這樣,通過(guò)一個(gè)特征量使數(shù)據(jù)整體的變化特性得以反映,從而簡(jiǎn)化時(shí)間序列數(shù)據(jù)的檢測(cè)。

1.2 地震前兆數(shù)據(jù)信息熵提取

地震前兆觀測(cè)數(shù)據(jù)大多序列較長(zhǎng),重復(fù)數(shù)據(jù)較少。因此,在進(jìn)行信息熵特征量提取之前必須對(duì)觀測(cè)時(shí)間序列進(jìn)行有效降維[4]。

對(duì)時(shí)間序列X用符號(hào)化方法降維及計(jì)算信息熵的具體操作步驟如下:

1)計(jì)算序列X的均值。

2)將序列中每一個(gè)觀測(cè)值xi與序列均值比較,xi≥時(shí),取值1;xi<時(shí),取值0。

3)得到一個(gè)與原序列等長(zhǎng)的0、1序列。

4)將序列符號(hào)化。根據(jù)符號(hào)化字符數(shù)長(zhǎng)度的要求,將01序列按不同長(zhǎng)度截取。如符號(hào)化字符數(shù)取16時(shí),0、1序列截取長(zhǎng)度為4,每個(gè)長(zhǎng)度為4的0、1序列可以確定一個(gè)字符,這樣原來(lái)長(zhǎng)度為1 440的時(shí)間序列,降維后成為長(zhǎng)度為360的字符序列。

5)統(tǒng)計(jì)各字符出現(xiàn)的概率,按式(1)計(jì)算信息熵。

通過(guò)符號(hào)化方法可降低數(shù)據(jù)序列的維度。至于序列長(zhǎng)度降低的程度,需要依據(jù)數(shù)據(jù)序列的特征及要提取的特征選擇合適的取值。

2 實(shí)際數(shù)據(jù)應(yīng)用

為說(shuō)明信息熵對(duì)數(shù)據(jù)整體情況的反映,以地震前兆臺(tái)網(wǎng)產(chǎn)出的觀測(cè)數(shù)據(jù)為例進(jìn)行驗(yàn)證。

圖1為云南省云龍地震臺(tái)水平擺傾斜觀測(cè)北南分量2008~2012得到的信息熵曲線(xiàn),信息熵計(jì)算中字符長(zhǎng)度取值4。可以看到,該測(cè)項(xiàng)的信息熵值大致在0.7~0.8,存在一些信息熵值很大和很小的點(diǎn);2008、2009和2011年信息熵?cái)?shù)值變化較平穩(wěn),2010年變化則較為劇烈,2012和2013年更甚,尤其是2013年,信息熵?cái)?shù)據(jù)極不穩(wěn)定,變化非常劇烈,偏離正常值更小的情況非常多。

圖1 云南省云龍地震臺(tái)水平擺傾斜觀測(cè)北南分量2008~2012年觀測(cè)數(shù)據(jù)信息熵曲線(xiàn)Fig.1 Informational Entropy Curve of the north-south tilt observation of horizontal pendulum from 2008to 2012at Yunlong station,Yunnan province

對(duì)這些信息熵值明顯偏離正常變化范圍的點(diǎn),利用其日變時(shí)序曲線(xiàn)進(jìn)行檢查。

2.1 信息熵值小于正常變化范圍

篩選2008~2013年得到的信息熵?cái)?shù)據(jù),信息熵值≤0.6的數(shù)據(jù)共有44條,其中2008年2條、2010年2條、2011年4條、2012年6條、2013年30條。這44條信息熵值對(duì)應(yīng)的觀測(cè)數(shù)據(jù)時(shí)序曲線(xiàn)全部對(duì)應(yīng)單點(diǎn)大幅突跳或大幅短時(shí)臺(tái)階的情況(圖2)。

其中圖2(a)的短時(shí)段數(shù)據(jù)跳躍從時(shí)間上與汶川地震發(fā)震時(shí)間對(duì)應(yīng),應(yīng)是汶川地震的地震波造成的觀測(cè)數(shù)據(jù)異常,而且幅度非常大。圖2(b)~(d)存在明顯的單點(diǎn)突跳或短時(shí)段數(shù)據(jù)臺(tái)階,由于幅度較大,導(dǎo)致原始曲線(xiàn)形態(tài)無(wú)法反映。作為對(duì)比,圖2(e)是該測(cè)項(xiàng)正常形態(tài)的日變曲線(xiàn)。圖2(e)與(a)~(d)中各條曲線(xiàn)對(duì)比可以確定,圖2(a)~(d)中的時(shí)序曲線(xiàn)確實(shí)存在偏離正常情況的變化,而這種變化通過(guò)信息熵?cái)?shù)據(jù)也得以反映。圖2(e)正常曲線(xiàn)形態(tài)的觀測(cè)數(shù)據(jù)計(jì)算所得信息熵為0.73,屬于圖1中大多數(shù)信息熵值的變化范圍;另外幾個(gè)信息熵值都遠(yuǎn)遠(yuǎn)小于正常信息熵值的變化范圍,圖2(a)~(d)曲線(xiàn)反映了這些數(shù)據(jù)的確存在異常變化。

經(jīng)逐一對(duì)比,在2008~2013年所得信息熵?cái)?shù)據(jù)中篩選44個(gè)明顯偏小的信息熵值,對(duì)應(yīng)日觀測(cè)時(shí)序數(shù)據(jù)全部存在明顯的非正常變化。

2.2 信息熵值大于正常變化范圍

篩選2008~2013年計(jì)算信息熵中數(shù)值≥0.9的數(shù)據(jù),共382個(gè),其中2008年14個(gè)、2009年10個(gè)、2010年39 個(gè)、2011年11 個(gè)、2012年27 個(gè)、2013年90個(gè)。382個(gè)信息熵對(duì)應(yīng)的觀測(cè)數(shù)據(jù)時(shí)序曲線(xiàn)全部存在偏離正常的情況。偏離情況大致可以分為:1)正常形態(tài)上存在短時(shí)較大幅度干擾;2)短時(shí)大幅度干擾導(dǎo)致原曲線(xiàn)形態(tài)壓縮改變;3)有異于常規(guī)的形態(tài)呈現(xiàn);4)觀測(cè)數(shù)據(jù)有連續(xù)高頻干擾存在;5)連續(xù)隨機(jī)干擾及較大幅度的突跳,導(dǎo)致曲線(xiàn)形態(tài)改變;6)基本形態(tài)存在連續(xù)小幅度干擾和相對(duì)較大幅度的突跳。圖3為幾類(lèi)比較典型的觀測(cè)數(shù)據(jù)異常曲線(xiàn)形態(tài)。

由圖3可知,信息熵值較大時(shí),觀測(cè)數(shù)據(jù)異于正常形態(tài)的情況多種多樣。這說(shuō)明信息熵值增加時(shí),數(shù)據(jù)中無(wú)規(guī)律變化的成分增加。信息熵值的突然大幅變化可以反映其代表的觀測(cè)時(shí)序數(shù)據(jù)發(fā)生較大變化或受到較大干擾。

圖2 信息熵異常小值及正常值對(duì)應(yīng)觀測(cè)數(shù)據(jù)時(shí)序曲線(xiàn)Fig.2 Daily observation data curves corresponding to the very small and normal informational entropy values

圖3 信息熵異常大值對(duì)應(yīng)觀測(cè)數(shù)據(jù)時(shí)序曲線(xiàn)Fig.3 Daily observation data curvescorresponding to the very large informational entropy values

由計(jì)算實(shí)例可知,對(duì)于信息熵值明顯偏離正常變化范圍的情況,對(duì)應(yīng)的數(shù)據(jù)都存在比較嚴(yán)重的問(wèn)題,這說(shuō)明信息熵的確有反映原觀測(cè)時(shí)間序列某些特性的能力。對(duì)于信息熵值介于明顯偏大和明顯偏小區(qū)間的數(shù)據(jù),即信息熵值介于[0.6,0.9]的數(shù)據(jù),大部分表現(xiàn)為正常形態(tài),少量處于正常范圍內(nèi)的數(shù)據(jù)有局部小的干擾。雖然這種干擾從曲線(xiàn)形態(tài)上可以明顯看到,但由于幅度較小,持續(xù)時(shí)間較短,無(wú)法在信息熵中得以反映。但總的表現(xiàn)規(guī)律為,信息熵較大時(shí)(大于0.9),數(shù)據(jù)曲線(xiàn)形態(tài)表現(xiàn)較復(fù)雜;信息熵較小時(shí),曲線(xiàn)形態(tài)更趨簡(jiǎn)單,符合信息熵對(duì)數(shù)據(jù)特性的描述。

3 分析與討論

分析表明,信息熵具有反映數(shù)據(jù)總體變化特征的能力,利用信息熵可以快速發(fā)現(xiàn)存在較大異常變化的數(shù)據(jù)。對(duì)2008~2013年6a每日觀測(cè)數(shù)據(jù)的信息熵計(jì)算提取,在Intel Core 2 Quad CPU,2.66GHz主頻的計(jì)算機(jī)上,用時(shí)約2′29″。對(duì)于如此巨大的數(shù)據(jù)量,如果以人工逐日查看曲線(xiàn)的方式進(jìn)行檢測(cè),在短時(shí)間內(nèi)根本無(wú)法完成。

信息熵之所以能夠反映觀測(cè)數(shù)據(jù)的某些形態(tài)變化,與該方法中數(shù)據(jù)的降維符號(hào)化方法相關(guān)。當(dāng)數(shù)據(jù)中有幅度特別巨大的突跳時(shí),即使持續(xù)時(shí)間很短,也可能造成均值的改變,進(jìn)而影響符號(hào)化過(guò)程,最終在信息熵?cái)?shù)值中得以反映。另外,如果數(shù)據(jù)較原有形態(tài)發(fā)生了較大改變,也會(huì)導(dǎo)致符號(hào)化后各符號(hào)出現(xiàn)的概率發(fā)生變化,最終使得信息熵值改變。所以,為了降維所選取的符號(hào)化方法在信息熵計(jì)算過(guò)程中非常關(guān)鍵。計(jì)算實(shí)例所用方法是一種最簡(jiǎn)單的方法。具體應(yīng)用時(shí),可以結(jié)合應(yīng)用目的和所用數(shù)據(jù)的特征設(shè)計(jì)不同的符號(hào)化方法[5-6],以反映不同的曲線(xiàn)變化特征,從而達(dá)到快速檢測(cè)某些數(shù)據(jù)特性變化的目的。

信息熵值可以作為一個(gè)數(shù)據(jù)序列的特征量使用。地震前兆觀測(cè)測(cè)項(xiàng)眾多,數(shù)據(jù)在量綱和量級(jí)上都存在很大差異,觀測(cè)數(shù)據(jù)無(wú)法直接比較,采用統(tǒng)計(jì)中的均值或方差等特征量也不能解決這個(gè)問(wèn)題。另外,由于觀測(cè)數(shù)據(jù)量級(jí)的差異,即使同一觀測(cè)測(cè)項(xiàng)不同,觀測(cè)點(diǎn)的數(shù)據(jù)也不能直接比較。而信息熵值無(wú)量綱,且能反映數(shù)據(jù)樣本的某些變化特征,可以利用信息熵特征量,對(duì)不同前兆觀測(cè)測(cè)項(xiàng)或者同一觀測(cè)測(cè)項(xiàng)不同觀測(cè)地點(diǎn)觀測(cè)數(shù)據(jù)進(jìn)行直接比較,解決前兆觀測(cè)數(shù)據(jù)無(wú)法直接對(duì)比的問(wèn)題。

文中給出的信息熵計(jì)算是基于原始觀測(cè)數(shù)據(jù)序列的,為了突出某些變化特征,可以先行對(duì)原始序列進(jìn)行轉(zhuǎn)換,如差分等操作,再進(jìn)行信息熵計(jì)算提取,以突出反映更多的數(shù)據(jù)內(nèi)部特性。

應(yīng)用示例中僅給出了信息熵值明顯偏離正常變化范圍的情況,對(duì)應(yīng)的觀測(cè)數(shù)據(jù)都存在比較明顯的非正常變化。對(duì)于信息熵值介于其間的情況,其中也存在一些數(shù)據(jù)異常的案例,但由于異常數(shù)據(jù)持續(xù)時(shí)間較短、幅度較小,通過(guò)信息熵?cái)?shù)據(jù)無(wú)法反映。所以,利用信息熵值法處理一些特別嚴(yán)重的問(wèn)題數(shù)據(jù),效果較好。

4 結(jié) 語(yǔ)

信息熵方法對(duì)于前兆觀測(cè)時(shí)序數(shù)據(jù)具有比較好的檢測(cè)效果,可以快速定位問(wèn)題數(shù)據(jù),而且該方法對(duì)于所有前兆觀測(cè)數(shù)據(jù)都適用,不存在學(xué)科或觀測(cè)測(cè)項(xiàng)處理方法上的差別,尤其適用于目前前兆數(shù)據(jù)中心數(shù)據(jù)量巨大的情況。

[1]周克昌,趙剛,王晨,等.中國(guó)地震前兆臺(tái)網(wǎng)觀測(cè)技術(shù)系統(tǒng)整合[J].中國(guó)地震,2013,29(2):270-275(Zhou Kechang,Zhao Gang,Wang Chen,et al.Upgrade and Integration of the Precursor Observation Network of China[J].Earthquake Research in China,2013,29(2):270-275)

[2]Shannon C E.A Mathematical Theory of Communication[J].The Bell System Technical Journal,1948,27(7):379-423

[3]王棟,朱遠(yuǎn)甡.信息熵在水系統(tǒng)中的應(yīng)用研究綜述[J].水文,2001,21(2):9-14(Wang Dong,Zhu Yuanshen.Informational Entropy and the State-of-the-Art of Its Application in Hydrology,Water Resources and Water Environment[J].Hydrology,2001,21(2):9-14)

[4]李海林,楊麗彬.時(shí)間序列數(shù)據(jù)降維和特征表示方法[J].控制與決策,2013,28(11):1 718-1 722(Li Hailin,Yang Libin.Method of Dimensionality Reduction and Feature Representation for Time Series[J].Control and Decision,2013,28(11):1 718-1 722)

[5]任江濤,何武,印鑒,等.一種時(shí)間序列快速分段及符號(hào)化方法[J].計(jì)算機(jī)科學(xué),2005,32(9):166-169(Ren Jiangtao,He Wu,Yin Jian,et al.A Fast Time Series Segmentation and Symbolization Method[J].Computer Science,2005,32(9):166-169)

[6]鐘清流,蔡自興.基于統(tǒng)計(jì)特征的時(shí)序數(shù)據(jù)符號(hào)化算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(10):1 857-1 864(Zhong Qingliu,Cai Zixing.The Symbolic Algorithm for Time Series Data Based on Statistic Feature[J].Chinese Journal of Computers,2008,31(10):1 857-1 864)

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線(xiàn)性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 欧美成一级| 亚洲三级影院| 91亚洲免费视频| 在线播放91| 久久男人视频| 在线无码私拍| 中文字幕无线码一区| 丁香五月婷婷激情基地| 成人精品免费视频| 凹凸国产分类在线观看| 韩日免费小视频| 伦伦影院精品一区| 一本久道热中字伊人| 男女男免费视频网站国产| 国产成人一区免费观看| 四虎成人在线视频| 亚洲人妖在线| 视频二区欧美| 亚洲色欲色欲www网| 刘亦菲一区二区在线观看| 国产小视频在线高清播放| 中文字幕亚洲乱码熟女1区2区| 三上悠亚一区二区| 熟妇丰满人妻| 国产精品福利导航| 无码专区在线观看| 欧美高清三区| 天天摸天天操免费播放小视频| 国产高清无码麻豆精品| 色综合网址| 伊人精品视频免费在线| 青草视频网站在线观看| 思思99热精品在线| 在线亚洲小视频| 成人精品视频一区二区在线 | 日韩精品一区二区三区中文无码| 天天操精品| 精品久久777| 岛国精品一区免费视频在线观看 | 婷婷综合亚洲| 久久黄色毛片| 亚洲91精品视频| 国产主播一区二区三区| 欧美综合区自拍亚洲综合天堂| 在线看免费无码av天堂的| 免费一级毛片完整版在线看| 亚洲欧美另类久久久精品播放的| 在线永久免费观看的毛片| 久久精品人人做人人综合试看| 中文字幕欧美日韩| 欧美性猛交一区二区三区| 亚洲区第一页| 国产精品永久不卡免费视频| 这里只有精品免费视频| 久久夜夜视频| 欧美中文字幕在线视频| 亚洲黄网视频| 亚洲第一黄片大全| 无码国内精品人妻少妇蜜桃视频| 国模极品一区二区三区| 亚洲综合色吧| 欧美午夜网站| 国产麻豆福利av在线播放| 9cao视频精品| 国产精品林美惠子在线观看| 四虎成人精品| 国产在线啪| 亚洲小视频网站| 国产真实二区一区在线亚洲| 国产91线观看| 日韩欧美中文亚洲高清在线| 国产大片喷水在线在线视频| 国产嫩草在线观看| 精品少妇人妻一区二区| 伊人天堂网| 全午夜免费一级毛片| 一级毛片无毒不卡直接观看| 精品国产自| 久久超级碰| 午夜精品久久久久久久99热下载| 欧美色综合网站| 91娇喘视频|