陸百川,郭桂林,肖汶謙,張 海,張 凱,鄧 捷
(重慶交通大學 交通運輸學院,重慶 400074)
基于多尺度主元分析法的動態(tài)交通數(shù)據(jù)故障診斷與修復
陸百川,郭桂林,肖汶謙,張 海,張 凱,鄧 捷
(重慶交通大學 交通運輸學院,重慶 400074)
針對動態(tài)交通數(shù)據(jù)的故障問題,提出了一種改進的多尺度主元分析(MSPCA)方法及數(shù)據(jù)修復模型。利用小波包多尺度分解將每個變量一次分解成逼近系數(shù)和多個尺度的細節(jié)系數(shù),并在各個尺度矩陣建立相應的主元分析模型。以模型統(tǒng)計量控制限為閾值,對小波系數(shù)重構得到綜合主元分析模型,并將故障數(shù)據(jù)分離出來。利用數(shù)據(jù)修復模型以及根據(jù)時間相關性和空間相關性計算出各組數(shù)據(jù)的相關系數(shù),并估算出故障數(shù)據(jù)的真實值。最后給出了各種仿真結果。
交通運輸工程;多尺度主元分析;故障診斷;數(shù)據(jù)修復;小波包
隨著信息技術的發(fā)展及各種交通檢測器的廣泛應用,為智能交通系統(tǒng)提供了大量交通數(shù)據(jù)。同時人們又發(fā)現(xiàn),由于電磁波干擾、硬件故障以及每種檢測器檢測原理本身的限制等因素,首先要對原始數(shù)據(jù)進行合理的預處理,特別要對故障數(shù)據(jù)進行有效的診斷與修復。
在傳感器的故障診斷中,主元分析(Principal Component Analysis,PCA )是一種常用的分析方法[1]。雖然PCA是一種不依賴于數(shù)學建模的方法,可以檢測海量的數(shù)據(jù),從而得到數(shù)據(jù)主元子空間和殘差子空間,但是PCA只適用于分析故障僅存在單一尺度或頻率段上的樣本數(shù)據(jù),屬于單尺度建模。然而在實際傳感器檢測到的數(shù)據(jù)中,故障往往發(fā)生在不同的時頻范圍內(nèi),即樣本數(shù)據(jù)本質上是多尺度的,所以傳統(tǒng)PCA無法適用于這種情況下的過程監(jiān)測與故障診斷分析。為此,許多學者又提出了多尺度主元分析(MSPCA)模型。B.R.BAKSHI[2]提出將主元分析去除變量間關聯(lián)、小波分析提取測量決定性特性以及去除測量自相關的優(yōu)勢相結合,并在各尺度上計算小波系數(shù)的PCA模型。
MSPCA雖然能夠檢測出數(shù)據(jù)的故障,但只是定性分析,并不能對其進行定量處理,使得采集的數(shù)據(jù)仍然不能真實的反應出實際的交通狀況。因此,對數(shù)據(jù)的修復就顯得尤為關鍵。劉亮平等[3]雖然提出了常見的數(shù)據(jù)故障類型—數(shù)據(jù)丟失和數(shù)據(jù)異常,但它僅僅考慮了連續(xù)交通流的情況,而在城市道路中,交通流通常會被交叉口處的信號燈或其它突發(fā)的交通事件打斷。因此,它只適用于某些特定的路段,可移植性較差。熊浩等[4]通過減少人工干預產(chǎn)生的誤差,但PDF梯度法只適用于低維樣本空間的分類,在維數(shù)較高時,這種算法則不能準確的將樣本空間聚類。
筆者針對動態(tài)交通數(shù)據(jù)的故障問題,提出了一種基于改進的多尺度主元分析方法的故障診斷及數(shù)據(jù)修復模型。利用小波包將原信號進行多尺度分解,建立相應的主元分析模型;再根據(jù)時間相關性和空間相關性估算出故障數(shù)據(jù)的真實值。最后對實際檢測到的交通數(shù)據(jù)進行了仿真分析,證明了提出的故障診斷與修復模型的有效性。
采用小波分析對故障數(shù)據(jù)進行檢測,利用小波變換對原信號進行加窗,實現(xiàn)時域定位,并對窗內(nèi)的信號進行頻譜分析,同時得到時域和頻域的信息。令f(t)為一個有限能量信號,則該信號的離散小波變換可以定義為:
(1)
式中:ψa,b為小波變換的母函數(shù)或基函數(shù),且:
(2)
式中:a為尺度因子;b為位移因子。
基于上面的思想,一個有限能量信號x(t)進行尺度為J的小波包分解后,結果為:
(3)
(4)
式中:cj,k為小波包系數(shù);ψj,k,n為具有尺度參數(shù)j,位移參數(shù)k和頻率參數(shù)n的小波包的基函數(shù)。

(5)
(6)

故障數(shù)據(jù)的檢測是根據(jù)待檢測數(shù)據(jù)的小波包能量與正常信號同頻段小波包能量的差值來計算的,即:
(7)

基于PCA的故障分離思想就是利用海量歷史正常數(shù)據(jù)來建立主元子空間和殘差子空間,再將待檢數(shù)據(jù)投影到該空間內(nèi)。判斷數(shù)據(jù)是否發(fā)生故障,許多學者都采用T2這個指標來描述故障是否發(fā)生,有式(8):
(8)
式中:Λ=diag{λ1,…,λA}為置信度為a的T2的控制限。
還有的學者使用SPE指標來確定故障,當SPE位于控制限內(nèi)時,認為過程是正常的??刂葡薜挠嬎愎綖椋?/p>
(9)
根據(jù)交通數(shù)據(jù)的噪聲分析以及故障的多尺度特性的分析中可以發(fā)現(xiàn),在實際的交通數(shù)據(jù)監(jiān)測過程中,噪聲的分布是隨機的,其強度也具有時變性,然而MSPCA在處理超出統(tǒng)計控制限的小波系數(shù)時,在該尺度上以固定的閾值對小波進行重構,但忽略了噪聲信號的時變性,因此部分噪聲信號就會被誤判成故障信號,導致故障誤報現(xiàn)象。
同時,為了能解決MSPCA建模固定、主元子空間以及SPE、T2參數(shù)單一的問題,筆者借鑒了自適應PCA的主元遞歸的思想,對傳統(tǒng)MSPCA進行了改進,改進內(nèi)容如下3點:
1)對交通流數(shù)據(jù)進行分段處理。
2)將小波分解改為小波包分解,提高模型的分辨率。
3)利用小波包能量差法對故障信息進行檢測。
歷史數(shù)據(jù)是交通狀態(tài)預測的基礎,無故障交通數(shù)據(jù)是準確交通預測的根本保障。前文已經(jīng)介紹了如何診斷故障數(shù)據(jù),下面將具體介紹如何對故障數(shù)據(jù)進行修復。
其基本思想是:
(10)

數(shù)據(jù)丟失極大的影響了后續(xù)交通狀態(tài)預測或分析,為了得到更準確可靠的交通信息,對丟失數(shù)據(jù)的修補是不可或缺的。
對于二維隨機變量(X,Y),用R來表示他們之間的相互關系的特征[5],如式(11):
(11)
式中:cov(X,Y)為X,Y的協(xié)方差;σx,σy分別為X,Y的方差。
相關系數(shù)R與相關程度的關系如表1。

表1 相關系數(shù)R與相關程度的關系
3.1 基于時間相關性的數(shù)據(jù)修復
時間相關性是指交通流在時間上存在相關性,居民出行是有一定規(guī)律的,如在工作日,居民出行符合潮汐現(xiàn)象;在周末,居民出行時間則相對分散。
1)前n周歷史數(shù)據(jù)平均趨勢
(12)
2)T-1時刻和T+1時刻數(shù)據(jù)的平均值
(13)
3)由前n個數(shù)據(jù)預測T時刻的值
(14)
3.2 基于空間相關性的數(shù)據(jù)修復
空間相關性是指交通流在空間上存在相似特性,相鄰路段或上下游之間存在一定的關系,利用這種關系即可估算出待測路段T時刻的流量值:
(15)

利用時間相關性和空間相關性計算出相關系數(shù)R,再根據(jù)R值來判斷某組歷史數(shù)據(jù)與T時刻的相關程度,并選定相應的歷史數(shù)據(jù),從而推算出當前T時刻的流量值。
選取重慶某交叉口線圈檢測器一周數(shù)據(jù)(2012-06- 04—10)作為實驗數(shù)據(jù)來源。該交叉口每個車道停車線前有一個線圈,共8個線圈。每個檢測器一天約產(chǎn)生555個數(shù)據(jù),即每天數(shù)據(jù)量大小為555×8。選取3號線圈6月5日的數(shù)據(jù)作為故障診斷模型的待檢測數(shù)據(jù),并人為的在300~400之間加入兩處故障,然后利用這周數(shù)據(jù)在時間和空間上的相關性對故障數(shù)據(jù)進行修復。
4.1 數(shù)據(jù)故障診斷分析處理
將待檢測信號進行尺度為3的小波包分解后,分別計算每一個尺度下小波包能量與其對應正常數(shù)據(jù)同尺度下同節(jié)點之間的能量差。對發(fā)現(xiàn)較明顯異常的節(jié)點,即發(fā)現(xiàn)故障信息所在位置后,對該段信號的節(jié)點數(shù)據(jù)矩陣進行PCA建模,結果如圖1~圖3。

圖1 改進的MSPCA T2監(jiān)控Fig.1 Improved MSPCA T2supervision diagram

圖2 改進的MSPCA SPE監(jiān)控Fig.2 Improved MSPCA SPE supervision diagram

圖3 改進的MSPCA SPE貢獻Fig.3 Improved MSPCA SPE contribution plots
改進的MSPCA模型可以有效地對數(shù)據(jù)進行降噪處理,在故障診斷中誤報情況明顯降低,并且從T2控制限監(jiān)控圖和SPE控制限圖中也可以明顯的找到兩處故障點所在位置。分別計算出誤報率、漏報率、準確率,與PCA、自適應PCA、MSPCA模型相比,各個模型的準確度,如表2。

表2 故障檢測結果準確度對比
4.2 數(shù)據(jù)修復分析處理
居民的日常出行是有規(guī)律可尋的,在工作日或周末交通流量的趨勢都大致相同;而在相鄰路段或上下游之間,交通流量也基本一致。利用它們在時間上和空間上的相關性,可以用來推算出待檢測路段的交通流量。
分別從6月4—10日的相同時段選取7個數(shù)據(jù),根據(jù)式(11)計算其兩兩之間的相關系數(shù)R,再分別按照時間相關性和空間相關性選擇相關度較高的那組數(shù)據(jù)來推算出6月5日的故障數(shù)據(jù),在用空間相關性計算相關度時采用的是線圈3和線圈4(線圈3與線圈4是相鄰車道上的檢測器)的數(shù)據(jù)。

表3 根據(jù)時間相關性和空間相關性計算的相關度
注:相關度正值表示同向變化,負值表示反向變化。
由表3可以看出,根據(jù)時間相關性在工作日(6月4— 8日)檢測器檢測到的數(shù)據(jù)相關度都較高,于周末的數(shù)據(jù)相關度則相對較低,甚至兩組數(shù)據(jù)朝相反的方向變化,這與實際情況吻合。而根據(jù)空間相關性,各組數(shù)據(jù)之間的相關度與是否是工作日或周末無關,具有較高的隨機性。
改進的MSPCA模型已經(jīng)確定了故障數(shù)據(jù)的大概位置,然后利用數(shù)據(jù)修復模型對故障數(shù)據(jù)進行修復,分別根據(jù)時間相關性和空間相關性來推算故障數(shù)據(jù)的真實值,其結果如圖4。

圖4 根據(jù)時間相關性和空間相關性修復后曲線Fig.4 Modifying curve based on time correlation and spatial correlation

表4 根據(jù)時間相關性和空間相關性數(shù)據(jù)處理前后對比結果
注:由于篇幅有限只對其中4個丟失的數(shù)據(jù)進行分析。
由表4可以看出,根據(jù)時間相關性修復后的數(shù)據(jù)誤差較小,更接近于真實值。雖然根據(jù)空間相關性計算出的數(shù)據(jù)誤差較大,但它也具有一定的參考價值,也能夠粗略的推算出交通流量,分析交通流量的大致趨勢。在某些情況下,可以結合時間相關性和空間相關性,綜合考慮時空關聯(lián)性來對數(shù)據(jù)進行修補,從而為交通分析提供數(shù)據(jù)基礎。
對檢測器采集到的動態(tài)交通數(shù)據(jù)進行了故障診斷和數(shù)據(jù)修復的研究。首先利用改進的MSPCA模型對海量的離線交通數(shù)據(jù)進行故障診斷,并將故障數(shù)據(jù)分離出來;然后采用數(shù)據(jù)修復模型,根據(jù)各組數(shù)據(jù)之間的相關性,選擇相關度較高的數(shù)據(jù)來推算出故障數(shù)據(jù)的真實值。經(jīng)過仿真實驗可以得出,提出的改進MSPCA故障診斷模型及數(shù)據(jù)修復模型能有效的檢測出問題數(shù)據(jù),并最大程度對其進行修復,使得采集到的數(shù)據(jù)能真實的反映道路交通狀態(tài),從而為決策者和規(guī)劃者提供了可靠的、準確的交通數(shù)據(jù)。
[1] DUNIA R,QIN S J,EDGAR T F,et al.Identification of faulty sensors using principal component analysis [J].AICHEJournal,1996,42(10):2797-2812.
[2] BAKSHI B R.Multi-scale PCA with application to multivariate statistical process monitoring [J].AicheJournal,1998,44(7):1596-1610.
[3] 劉亮平,賈利民,秦勇,等.交通流數(shù)據(jù)的采集與數(shù)據(jù)故障的檢驗[J].物流技術,2010,29(8):47-49. LIU Liangping,JIA Limin,QIN Yong,et al.Data collection and failure detection of traffic flow [J].LogisticsTechnology,2010,29 (8):47-49.
[4] 熊浩,李衛(wèi)國,宋偉,等.概率聚類技術應用于變壓器 DGA 數(shù)據(jù)故障診斷[J].高電壓技術,2008,34(5):1022-1026. XIONG Hao,LI Weiguo,SONG Wei,et al.Application of density-based clustering technology in diagnosis of DGA data of transformer [J].HighVoltageEngineering,2008,34(5):1002-10026.
[5] 金逸文.城市快速路交通流數(shù)據(jù)的修復方法研究[D].上海:上海交通大學,2008. JIN Yiwen.ResearchonRepairMethodsforUrbanExpresswayTrafficFlowData[D].Shanghai:Shanghai Jiaotong University,2008.
[6] 賀力克,聶平由.時序數(shù)據(jù)故障點檢測方法分析比較及應用[J].湖南師范大學(自然科學學報),2012,35(2):35-40. HE Like,NIE Pingyou.Comparison and application of fault point detection method used in time series data analysis [J].JournalofHunanNormalUniversity(NaturalScience),2012,35(2):35-40.
[7] 夏陸岳,潘海天,周猛飛,等.基于改進多尺度的丙烯聚合過程監(jiān)測與故障診斷[J].化工學報,2011,62(8):2312-2317. XIA Luyue,PAN Haitian,ZHOU Mengfei,et al.Process monitoring and fault diagnosis of propylene polymerization based on improved multiscale principal component analysis [J].CIESCJournal,2011,62(8):2312-2317.
[8] 陸百川,張凱,馬慶祿,等.基于數(shù)據(jù)驅動的數(shù)據(jù)故障診斷模型[J].重慶交通大學學報(自然科學版),2014,33(5):111-115. LU Baichuan,ZHANG Kai,MA Qinglu,et al.Data fault diagnosis model based on data-driven [J].JournalofChongqingJiaotongUniversity(NaturalScience),2014,33(5):111-115.
[9] 姜桂艷,江龍暉,張曉東,等.動態(tài)交通數(shù)據(jù)故障識別與修復方法[J].交通運輸工程學報,2004,4(1):121-125. JIANG Guiyan,JIANG Longhui,ZHANG Xiaodong,et al.Malfunction identifying and modifying of dynamic traffic data [J].JournalofTrafficandTransportationEngineering,2004,4(1):121-125.
Fault Diagnosing and Modifying of Dynamic Traffic Data Based on MSPCA
LU Baichuan, GUO Guilin, XIAO Wenqian, ZHANG Hai, ZHANG Kai, DENG Jie
(College of Traffic & Transportation, Chongqing Jiaotong University, Chongqing 400074, P.R.China)
In order to handle the problem of fault in dynamic traffic data, an improved multi-scale principal component analysis (MSPCA) and a data modifying model were proposed. Firstly, using wavelet packet multi-scale decomposition, the individual variable was decomposed into approximation coefficients and detail coefficients of multiple scales and the corresponding principal component analysis models in various scale matrices were established. Using the model statistical magnitude as the threshold value, the comprehensive principal component analysis model was obtained by reconstructing wavelet coefficients and the fault data was separated. Secondly, using the data modifying model and correlation coefficients of each set of data calculated out by the time correlation and spatial correlation, the true value of the fault data was estimated. Finally, various simulation results were given.
traffic and transportation engineering; multi-scale principal component analysis (MSPCA); fault diagnosing; data modifying; wavelet packet
2014-09-25;
2014-10-30
重慶交通大學研究生教育創(chuàng)新基金項目(20130111)
陸百川(1961—),男,江蘇南通人,教授,博士,博士生導師,主要從事交通信息工程及控制方面的研究。
郭桂林(1989—),男,重慶人,碩士研究生,主要從事交通信息工程及控制方面的研究。E-mail: knight_guo@126.com。
10.3969/j.issn.1674-0696.2016.01.26
U495
A
1674-0696(2016)01-134-04