陸百川,郭桂林,肖汶謙,張 海,張 凱,鄧 捷
(重慶交通大學 交通運輸學院,重慶 400074)
基于多尺度主元分析法的動態交通數據故障診斷與修復
陸百川,郭桂林,肖汶謙,張 海,張 凱,鄧 捷
(重慶交通大學 交通運輸學院,重慶 400074)
針對動態交通數據的故障問題,提出了一種改進的多尺度主元分析(MSPCA)方法及數據修復模型。利用小波包多尺度分解將每個變量一次分解成逼近系數和多個尺度的細節系數,并在各個尺度矩陣建立相應的主元分析模型。以模型統計量控制限為閾值,對小波系數重構得到綜合主元分析模型,并將故障數據分離出來。利用數據修復模型以及根據時間相關性和空間相關性計算出各組數據的相關系數,并估算出故障數據的真實值。最后給出了各種仿真結果。
交通運輸工程;多尺度主元分析;故障診斷;數據修復;小波包
隨著信息技術的發展及各種交通檢測器的廣泛應用,為智能交通系統提供了大量交通數據。同時人們又發現,由于電磁波干擾、硬件故障以及每種檢測器檢測原理本身的限制等因素,首先要對原始數據進行合理的預處理,特別要對故障數據進行有效的診斷與修復。
在傳感器的故障診斷中,主元分析(Principal Component Analysis,PCA )是一種常用的分析方法[1]。雖然PCA是一種不依賴于數學建模的方法,可以檢測海量的數據,從而得到數據主元子空間和殘差子空間,但是PCA只適用于分析故障僅存在單一尺度或頻率段上的樣本數據,屬于單尺度建模。然而在實際傳感器檢測到的數據中,故障往往發生在不同的時頻范圍內,即樣本數據本質上是多尺度的,所以傳統PCA無法適用于這種情況下的過程監測與故障診斷分析。為此,許多學者又提出了多尺度主元分析(MSPCA)模型。B.R.BAKSHI[2]提出將主元分析去除變量間關聯、小波分析提取測量決定性特性以及去除測量自相關的優勢相結合,并在各尺度上計算小波系數的PCA模型。
MSPCA雖然能夠檢測出數據的故障,但只是定性分析,并不能對其進行定量處理,使得采集的數據仍然不能真實的反應出實際的交通狀況。因此,對數據的修復就顯得尤為關鍵。劉亮平等[3]雖然提出了常見的數據故障類型—數據丟失和數據異常,但它僅僅考慮了連續交通流的情況,而在城市道路中,交通流通常會被交叉口處的信號燈或其它突發的交通事件打斷。因此,它只適用于某些特定的路段,可移植性較差。熊浩等[4]通過減少人工干預產生的誤差,但PDF梯度法只適用于低維樣本空間的分類,在維數較高時,這種算法則不能準確的將樣本空間聚類。
筆者針對動態交通數據的故障問題,提出了一種基于改進的多尺度主元分析方法的故障診斷及數據修復模型。利用小波包將原信號進行多尺度分解,建立相應的主元分析模型;再根據時間相關性和空間相關性估算出故障數據的真實值。最后對實際檢測到的交通數據進行了仿真分析,證明了提出的故障診斷與修復模型的有效性。
采用小波分析對故障數據進行檢測,利用小波變換對原信號進行加窗,實現時域定位,并對窗內的信號進行頻譜分析,同時得到時域和頻域的信息。令f(t)為一個有限能量信號,則該信號的離散小波變換可以定義為:
(1)
式中:ψa,b為小波變換的母函數或基函數,且:
(2)
式中:a為尺度因子;b為位移因子。
基于上面的思想,一個有限能量信號x(t)進行尺度為J的小波包分解后,結果為:
(3)
(4)
式中:cj,k為小波包系數;ψj,k,n為具有尺度參數j,位移參數k和頻率參數n的小波包的基函數。

(5)
(6)

故障數據的檢測是根據待檢測數據的小波包能量與正常信號同頻段小波包能量的差值來計算的,即:
(7)

基于PCA的故障分離思想就是利用海量歷史正常數據來建立主元子空間和殘差子空間,再將待檢數據投影到該空間內。判斷數據是否發生故障,許多學者都采用T2這個指標來描述故障是否發生,有式(8):
(8)
式中:Λ=diag{λ1,…,λA}為置信度為a的T2的控制限。
還有的學者使用SPE指標來確定故障,當SPE位于控制限內時,認為過程是正常的。控制限的計算公式為:
(9)
根據交通數據的噪聲分析以及故障的多尺度特性的分析中可以發現,在實際的交通數據監測過程中,噪聲的分布是隨機的,其強度也具有時變性,然而MSPCA在處理超出統計控制限的小波系數時,在該尺度上以固定的閾值對小波進行重構,但忽略了噪聲信號的時變性,因此部分噪聲信號就會被誤判成故障信號,導致故障誤報現象。
同時,為了能解決MSPCA建模固定、主元子空間以及SPE、T2參數單一的問題,筆者借鑒了自適應PCA的主元遞歸的思想,對傳統MSPCA進行了改進,改進內容如下3點:
1)對交通流數據進行分段處理。
2)將小波分解改為小波包分解,提高模型的分辨率。
3)利用小波包能量差法對故障信息進行檢測。
歷史數據是交通狀態預測的基礎,無故障交通數據是準確交通預測的根本保障。前文已經介紹了如何診斷故障數據,下面將具體介紹如何對故障數據進行修復。
其基本思想是:
(10)

數據丟失極大的影響了后續交通狀態預測或分析,為了得到更準確可靠的交通信息,對丟失數據的修補是不可或缺的。
對于二維隨機變量(X,Y),用R來表示他們之間的相互關系的特征[5],如式(11):
(11)
式中:cov(X,Y)為X,Y的協方差;σx,σy分別為X,Y的方差。
相關系數R與相關程度的關系如表1。

表1 相關系數R與相關程度的關系
3.1 基于時間相關性的數據修復
時間相關性是指交通流在時間上存在相關性,居民出行是有一定規律的,如在工作日,居民出行符合潮汐現象;在周末,居民出行時間則相對分散。
1)前n周歷史數據平均趨勢
(12)
2)T-1時刻和T+1時刻數據的平均值
(13)
3)由前n個數據預測T時刻的值
(14)
3.2 基于空間相關性的數據修復
空間相關性是指交通流在空間上存在相似特性,相鄰路段或上下游之間存在一定的關系,利用這種關系即可估算出待測路段T時刻的流量值:
(15)

利用時間相關性和空間相關性計算出相關系數R,再根據R值來判斷某組歷史數據與T時刻的相關程度,并選定相應的歷史數據,從而推算出當前T時刻的流量值。
選取重慶某交叉口線圈檢測器一周數據(2012-06- 04—10)作為實驗數據來源。該交叉口每個車道停車線前有一個線圈,共8個線圈。每個檢測器一天約產生555個數據,即每天數據量大小為555×8。選取3號線圈6月5日的數據作為故障診斷模型的待檢測數據,并人為的在300~400之間加入兩處故障,然后利用這周數據在時間和空間上的相關性對故障數據進行修復。
4.1 數據故障診斷分析處理
將待檢測信號進行尺度為3的小波包分解后,分別計算每一個尺度下小波包能量與其對應正常數據同尺度下同節點之間的能量差。對發現較明顯異常的節點,即發現故障信息所在位置后,對該段信號的節點數據矩陣進行PCA建模,結果如圖1~圖3。

圖1 改進的MSPCA T2監控Fig.1 Improved MSPCA T2supervision diagram

圖2 改進的MSPCA SPE監控Fig.2 Improved MSPCA SPE supervision diagram

圖3 改進的MSPCA SPE貢獻Fig.3 Improved MSPCA SPE contribution plots
改進的MSPCA模型可以有效地對數據進行降噪處理,在故障診斷中誤報情況明顯降低,并且從T2控制限監控圖和SPE控制限圖中也可以明顯的找到兩處故障點所在位置。分別計算出誤報率、漏報率、準確率,與PCA、自適應PCA、MSPCA模型相比,各個模型的準確度,如表2。

表2 故障檢測結果準確度對比
4.2 數據修復分析處理
居民的日常出行是有規律可尋的,在工作日或周末交通流量的趨勢都大致相同;而在相鄰路段或上下游之間,交通流量也基本一致。利用它們在時間上和空間上的相關性,可以用來推算出待檢測路段的交通流量。
分別從6月4—10日的相同時段選取7個數據,根據式(11)計算其兩兩之間的相關系數R,再分別按照時間相關性和空間相關性選擇相關度較高的那組數據來推算出6月5日的故障數據,在用空間相關性計算相關度時采用的是線圈3和線圈4(線圈3與線圈4是相鄰車道上的檢測器)的數據。

表3 根據時間相關性和空間相關性計算的相關度
注:相關度正值表示同向變化,負值表示反向變化。
由表3可以看出,根據時間相關性在工作日(6月4— 8日)檢測器檢測到的數據相關度都較高,于周末的數據相關度則相對較低,甚至兩組數據朝相反的方向變化,這與實際情況吻合。而根據空間相關性,各組數據之間的相關度與是否是工作日或周末無關,具有較高的隨機性。
改進的MSPCA模型已經確定了故障數據的大概位置,然后利用數據修復模型對故障數據進行修復,分別根據時間相關性和空間相關性來推算故障數據的真實值,其結果如圖4。

圖4 根據時間相關性和空間相關性修復后曲線Fig.4 Modifying curve based on time correlation and spatial correlation

表4 根據時間相關性和空間相關性數據處理前后對比結果
注:由于篇幅有限只對其中4個丟失的數據進行分析。
由表4可以看出,根據時間相關性修復后的數據誤差較小,更接近于真實值。雖然根據空間相關性計算出的數據誤差較大,但它也具有一定的參考價值,也能夠粗略的推算出交通流量,分析交通流量的大致趨勢。在某些情況下,可以結合時間相關性和空間相關性,綜合考慮時空關聯性來對數據進行修補,從而為交通分析提供數據基礎。
對檢測器采集到的動態交通數據進行了故障診斷和數據修復的研究。首先利用改進的MSPCA模型對海量的離線交通數據進行故障診斷,并將故障數據分離出來;然后采用數據修復模型,根據各組數據之間的相關性,選擇相關度較高的數據來推算出故障數據的真實值。經過仿真實驗可以得出,提出的改進MSPCA故障診斷模型及數據修復模型能有效的檢測出問題數據,并最大程度對其進行修復,使得采集到的數據能真實的反映道路交通狀態,從而為決策者和規劃者提供了可靠的、準確的交通數據。
[1] DUNIA R,QIN S J,EDGAR T F,et al.Identification of faulty sensors using principal component analysis [J].AICHEJournal,1996,42(10):2797-2812.
[2] BAKSHI B R.Multi-scale PCA with application to multivariate statistical process monitoring [J].AicheJournal,1998,44(7):1596-1610.
[3] 劉亮平,賈利民,秦勇,等.交通流數據的采集與數據故障的檢驗[J].物流技術,2010,29(8):47-49. LIU Liangping,JIA Limin,QIN Yong,et al.Data collection and failure detection of traffic flow [J].LogisticsTechnology,2010,29 (8):47-49.
[4] 熊浩,李衛國,宋偉,等.概率聚類技術應用于變壓器 DGA 數據故障診斷[J].高電壓技術,2008,34(5):1022-1026. XIONG Hao,LI Weiguo,SONG Wei,et al.Application of density-based clustering technology in diagnosis of DGA data of transformer [J].HighVoltageEngineering,2008,34(5):1002-10026.
[5] 金逸文.城市快速路交通流數據的修復方法研究[D].上海:上海交通大學,2008. JIN Yiwen.ResearchonRepairMethodsforUrbanExpresswayTrafficFlowData[D].Shanghai:Shanghai Jiaotong University,2008.
[6] 賀力克,聶平由.時序數據故障點檢測方法分析比較及應用[J].湖南師范大學(自然科學學報),2012,35(2):35-40. HE Like,NIE Pingyou.Comparison and application of fault point detection method used in time series data analysis [J].JournalofHunanNormalUniversity(NaturalScience),2012,35(2):35-40.
[7] 夏陸岳,潘海天,周猛飛,等.基于改進多尺度的丙烯聚合過程監測與故障診斷[J].化工學報,2011,62(8):2312-2317. XIA Luyue,PAN Haitian,ZHOU Mengfei,et al.Process monitoring and fault diagnosis of propylene polymerization based on improved multiscale principal component analysis [J].CIESCJournal,2011,62(8):2312-2317.
[8] 陸百川,張凱,馬慶祿,等.基于數據驅動的數據故障診斷模型[J].重慶交通大學學報(自然科學版),2014,33(5):111-115. LU Baichuan,ZHANG Kai,MA Qinglu,et al.Data fault diagnosis model based on data-driven [J].JournalofChongqingJiaotongUniversity(NaturalScience),2014,33(5):111-115.
[9] 姜桂艷,江龍暉,張曉東,等.動態交通數據故障識別與修復方法[J].交通運輸工程學報,2004,4(1):121-125. JIANG Guiyan,JIANG Longhui,ZHANG Xiaodong,et al.Malfunction identifying and modifying of dynamic traffic data [J].JournalofTrafficandTransportationEngineering,2004,4(1):121-125.
Fault Diagnosing and Modifying of Dynamic Traffic Data Based on MSPCA
LU Baichuan, GUO Guilin, XIAO Wenqian, ZHANG Hai, ZHANG Kai, DENG Jie
(College of Traffic & Transportation, Chongqing Jiaotong University, Chongqing 400074, P.R.China)
In order to handle the problem of fault in dynamic traffic data, an improved multi-scale principal component analysis (MSPCA) and a data modifying model were proposed. Firstly, using wavelet packet multi-scale decomposition, the individual variable was decomposed into approximation coefficients and detail coefficients of multiple scales and the corresponding principal component analysis models in various scale matrices were established. Using the model statistical magnitude as the threshold value, the comprehensive principal component analysis model was obtained by reconstructing wavelet coefficients and the fault data was separated. Secondly, using the data modifying model and correlation coefficients of each set of data calculated out by the time correlation and spatial correlation, the true value of the fault data was estimated. Finally, various simulation results were given.
traffic and transportation engineering; multi-scale principal component analysis (MSPCA); fault diagnosing; data modifying; wavelet packet
2014-09-25;
2014-10-30
重慶交通大學研究生教育創新基金項目(20130111)
陸百川(1961—),男,江蘇南通人,教授,博士,博士生導師,主要從事交通信息工程及控制方面的研究。
郭桂林(1989—),男,重慶人,碩士研究生,主要從事交通信息工程及控制方面的研究。E-mail: knight_guo@126.com。
10.3969/j.issn.1674-0696.2016.01.26
U495
A
1674-0696(2016)01-134-04