胡肖勤,呂海俠,康 瑾,李 玲
(陜西工業(yè)職業(yè)技術(shù)學(xué)院公共課教學(xué)部 陜西 咸陽 712000)
在車輛行駛的過程中,汽車傳感器會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)以流的形式記錄汽車的各項(xiàng)指標(biāo)(位置、速度、油耗等),具有規(guī)模性、多樣性、高速性和價(jià)值性的特點(diǎn),即大數(shù)據(jù)的“4V”特性[1]。其中,車輛行駛速度是駕駛?cè)诵袨椤④囕v性能、外部環(huán)境和道路工況等因素共同影響的結(jié)果,而不當(dāng)?shù)男旭偹俣纫彩窃斐山煌ㄒ馔獾年P(guān)鍵因素之一,所以對于速度數(shù)據(jù)的研究應(yīng)用必不可少。在對數(shù)據(jù)做分析應(yīng)用之前,需要對由車載終端傳回的原始數(shù)據(jù)做一定的預(yù)處理。這是因?yàn)樵跀?shù)據(jù)記錄、傳回的過程中,不可避免會(huì)出現(xiàn)因機(jī)器、人為、環(huán)境等各種主客觀因素造成的數(shù)據(jù)質(zhì)量問題,如存在不完整、奇異、冗余、不一致等“臟數(shù)據(jù)”。所以,采用合理的技術(shù)和研究方法來清洗掉這些“臟數(shù)據(jù)”,得到“干凈數(shù)據(jù)”,可有效提高采集數(shù)據(jù)的數(shù)據(jù)質(zhì)量,進(jìn)而提升數(shù)據(jù)挖掘質(zhì)量,減少噪聲對數(shù)據(jù)的影響,增強(qiáng)結(jié)果的可靠性。
近年來,小波分析理論在數(shù)學(xué)領(lǐng)域中得到了迅速發(fā)展,同時(shí)也因其具備良好的視頻特性,而在實(shí)際生活中廣泛應(yīng)用。從數(shù)學(xué)的角度,可將小波去噪問題歸類為函數(shù)逼近問題,即根據(jù)衡量準(zhǔn)則在由小波母函數(shù)構(gòu)成的函數(shù)空間中尋找原始信號的最佳逼近,實(shí)現(xiàn)去噪的目的。
常用的小波去噪方法有小波模的極大值法、小波分解與重構(gòu)法和小波閾值法。其中小波模極大值去噪法是由Mallat提出的,該方法是根據(jù)主信號和變化在各尺度上的小波系數(shù)濾波器濾除噪聲,較為穩(wěn)定,不需要知道噪聲的方差,適于處理含有白噪聲且奇異點(diǎn)較多的信號[2]。隨后,Mallat在構(gòu)造正交小波基時(shí),首次提出了多分辨分析理論,該算法即為小波分解與重構(gòu)的快速算法,適于解決含有確定的噪聲頻率的信噪分離問題。小波閾值法又稱為小波閾值收縮法,是前兩種方法的發(fā)展與延伸,該方法是一種基于最小均方差的非線性去噪方法,通過在不同尺度上動(dòng)態(tài)的選取閾值,基本能實(shí)現(xiàn)噪聲的完全消除,同時(shí)保留初始信號的峰值特點(diǎn),具有普遍適用性,且運(yùn)算速度相對較快,所以本文主要采用小波閾值法進(jìn)行去噪處理。
建立含噪聲的信號模型:
其中,y表示含噪聲的信號,f(t)為有效信號,e為滿足N(0,σ2)高斯分布的白噪聲。
在實(shí)際應(yīng)用中,無法直接從含噪聲的信號y中提取出有效信號f(t),需采用變換方法。本文提及的小波變換就是一種發(fā)展成熟、行之有效的方法。該方法是一種信號的時(shí)間—頻率(尺度)分析方法,具有多分辨分析的特性。其在時(shí)間—頻率都具有表征信號在局部特征的能力,在低頻部分,具有較高的頻率分辨率和較低的時(shí)間分辨率;在高頻部分,具有較低的頻率分辨率和較高的時(shí)間分辨率,適用于提取信號的局部特征及分析非平穩(wěn)信號。
通常有效信號會(huì)表現(xiàn)為較為平穩(wěn)或頻率較低的信號,含噪聲的信號大多包含在頻率較高的信息中[3]。因此,在對含噪聲的信號進(jìn)行處理時(shí),首先需要對原始信號y進(jìn)行小波分解,含噪聲的信號一般包含在分層后的高頻部分,然后就可以基于設(shè)定的閾值對小波系數(shù)進(jìn)行濾除,最后重構(gòu)信號得到不含噪聲的信號。
1994年,美國斯坦福大學(xué)的Donoho教授和Johnostne教授首次提出小波閾值收縮法[4],其基本思想是將原始信號利用Mallat算法進(jìn)行小波變換,然后選擇產(chǎn)生的小波系數(shù)。信號產(chǎn)生的小波系數(shù)中蘊(yùn)含著重要的信號信息,可通過合理的閾值選擇對小波系數(shù)做大小區(qū)分,因?yàn)橛行盘柦?jīng)小波分解后的小波系數(shù)較大,而噪聲的小波系數(shù)較小,即認(rèn)為大于閾值的小波系數(shù)是有效信號產(chǎn)生的,小于閾值的小波系數(shù)是噪聲產(chǎn)生的,認(rèn)為大于閾值的小波系數(shù)是有效信號產(chǎn)生的,小于閾值的小波系數(shù)是噪聲產(chǎn)生的,所以直接將小于閾值的小波系數(shù)置零,就可以達(dá)到去噪的目的。
小波閾值去噪主要分為小波分解、閾值處理和重構(gòu)3個(gè)步驟,見圖1。其中第1步小波分解涉及小波基函數(shù)及分解層數(shù)的選取,第2步閾值處理涉及閾值的選取,這3類參數(shù)選取的合理性直接影響著最后的去噪效果及去噪速度。
信號的小波分解過程中,首先需要確定小波基函數(shù)φ(t),常見的小波基函數(shù)包括sym小波簇、db小波簇、morlet小波簇等。理想的小波滿足以下幾個(gè)條件。
(1)緊支性。因函數(shù)φ(t)∈L1(R),∫|φ(t)|dt<∞,即φ(t)具有速降性。尤其,小波中的“小”是指φ(t)具有局部非零的特點(diǎn),利于信號能量的集中。
(2)高消失矩。若∫tpφ(t)dt=0,0≤p<q,則稱小波函數(shù)具有q階消失矩。消失矩越高,小波系數(shù)為零的值越多,有利于數(shù)據(jù)壓縮和消除噪聲。
(3)正交性。通過正交小波基函數(shù)進(jìn)行多尺度分解得到的各子頻帶部分分別落在相互正交的L2(R)的子空間中,使得各子頻帶之間的相關(guān)性較小,有利于后期的小波重構(gòu)。
(4)對稱性或反對稱性。構(gòu)造緊支的正則且具有線性相位小波基函數(shù),可以避免對信號小波分解與重構(gòu)時(shí)的相位失真。
由表1可知,以上條件基本無法同時(shí)滿足。考慮sym小波簇和db小波簇具備緊支柱、正交性及高消失矩,能夠較好地實(shí)現(xiàn)信號重構(gòu),所以在實(shí)際的應(yīng)用過程中,sym小波簇和db小波簇在去噪處理中應(yīng)用較為廣泛。

表1 幾種常見小波基函數(shù)特性
然后進(jìn)行分解層數(shù)L的確定,分解層數(shù)的選取對濾波去噪模型的精準(zhǔn)度有直接影響。L的取值越大,噪聲和有效信號表現(xiàn)的不同特征越明顯,區(qū)分度越大,有利于后期的信噪分離。但是分解層數(shù)越大,重構(gòu)得到的信號失真越嚴(yán)重,以致于影響到最終的去噪結(jié)果,所以在應(yīng)用過程中需要進(jìn)行利弊權(quán)衡,根據(jù)噪聲的類型及水平,進(jìn)行大量測試實(shí)驗(yàn),通過對比分析,選擇合適的分解層數(shù)。小波分解迭代過程見圖2。
閾值處理是直接影響最終去噪效果的關(guān)鍵一步,主要體現(xiàn)在閾值門限的確定和閾值函數(shù)的選取上。
在小波域,有效信號對應(yīng)的小波系數(shù)較大,噪聲對應(yīng)的系數(shù)較小,換言之,若閾值選取的較小,小波系數(shù)則保留得較多,這樣保留下的有效信息則較多,同時(shí)噪聲可能也較多地被保留下來;若閾值選取的較大,噪聲可能消除得越徹底,但同時(shí)也可能會(huì)丟失很多有用的信息。因此,合理的閾值大小對最終的去噪效果至關(guān)重要。
目前較為常用的閾值門限確定方法有無偏風(fēng)險(xiǎn)估計(jì)閾值(rigrsure)、極大極小閾值(minimax)、固定閾值(sqtwolog)和啟發(fā)式閾值(heursure)[5]。一般來講,當(dāng)噪聲在信號的高頻段分布較少時(shí),常用無偏風(fēng)險(xiǎn)估計(jì)和極大極小閾值估計(jì),它們能將微弱的有效信號保留下來。當(dāng)需要較強(qiáng)去噪能力的閾值時(shí),則選擇固定閾值和啟發(fā)式閾值。結(jié)合數(shù)據(jù)特點(diǎn),本文選擇的是固定閾值,其計(jì)算公式如下:
式(2)中N為信號長度,σ為噪聲方差。噪聲方差可通過第j層分解后Nj個(gè)高頻系數(shù){wj,k},j=1,2,...,L;k=1,2,...,Nj的中值來估計(jì):
確定了閾值門限后,還需要確定閾值函數(shù),通過合適的閾值函數(shù)可以對含有高斯噪聲的小波系數(shù)進(jìn)行過濾,保留有效信號的小波系數(shù)。常用的閾值函數(shù)有硬閾值函數(shù)[4]和軟閾值函數(shù)[6],其函數(shù)圖像見圖3。
閾值函數(shù)是修正小波系數(shù)的規(guī)則,不同的閾值函數(shù)代表著不同的小波系數(shù)處理策略。圖3中,(a)為硬閾值函數(shù)wh,(b)為軟閾值函數(shù)ws,其計(jì)算公式分別如下所示。
硬閾值函數(shù)處理可以很好地保留局部特征信息,但可能會(huì)造成信號的附加震蕩,產(chǎn)生跳躍點(diǎn),丟失信號原始的平滑性;軟閾值函數(shù)處理則相對平滑,得到的小波系數(shù)整體連續(xù)性較好,但可能會(huì)造成邊緣模糊等失真的現(xiàn)象。因?yàn)楸疚目紤]的數(shù)據(jù)具有連續(xù)性,所以選用軟閾值函數(shù)進(jìn)行小波系數(shù)濾除處理。
當(dāng)信號分解完畢之后,就可以通過舍棄不需要的w︿j,k,實(shí)現(xiàn)對信號的去噪處理。當(dāng)w︿j,k分量被修改完成后,則通過建立重構(gòu)算法,就可以得到去除噪聲的重構(gòu)信號。小波重構(gòu)流程見圖4。
從某數(shù)據(jù)平臺獲取一車輛2019年10月11日—2019年10月25日之間的車速數(shù)據(jù),見圖5。選用小波基函數(shù)sym8進(jìn)行7層分解,并使用固定閾值和軟閾值函數(shù)進(jìn)行閾值處理,最后通過重構(gòu)得到其去噪后的數(shù)據(jù),見圖6。
通過圖5和圖6對比可以看出,小波閾值去噪對數(shù)據(jù)的整體趨勢和分布沒有大的改變。進(jìn)一步結(jié)合圖7觀察,可以看出,在數(shù)據(jù)上下震蕩厲害的區(qū)域,小波去噪能對其進(jìn)行較好的趨勢擬合,消除噪聲影響,同時(shí)保留原本數(shù)據(jù)正常區(qū)域的信息(即去噪前后數(shù)據(jù)基本不變),即驗(yàn)證了小波閾值去噪對速度數(shù)據(jù)做預(yù)處理是可行且有效的。
實(shí)驗(yàn)結(jié)果表明,在選取了合適的小波基函數(shù)、分解層數(shù)、閾值門限和閾值函數(shù)后,小波閾值去噪方法能較好地對車載終端上傳的車速數(shù)據(jù)進(jìn)行去噪處理,去噪后的數(shù)據(jù)不僅保留有原始的變化趨勢和分布規(guī)律,還很好地對局部“震蕩”區(qū)域進(jìn)行了趨勢擬合,消除噪聲數(shù)據(jù)影響,達(dá)到了較為理想的預(yù)處理效果,具有一定的實(shí)用價(jià)值。