趙媛媛 季潔



摘 要:針對國省干線公路采集的交通數據存在缺失值的情況,文章提出了基于拉格朗日插值法的缺失數據恢復方法。首先,找出缺失數據所在位置以及所屬時間段;其次,采集該位置和該時間段的歷史平均交通數據;再次,利用拉格朗日插值法對缺失數據進行填補;最后,比較正常數據算出的插補值與真實數據,評價插補的結果。試驗結果顯示,該方法簡單、方便、易實現,可以完成對簡單的公路數據缺失值的恢復,確保數據在交通控制、路網規劃等應用中的可靠性。
關鍵詞:拉格朗日插值法;缺失值;交通數據
1? ? 研究背景
對國省干線的交通狀況進行分析時,需要利用各種先進的交通信息采集技術采集國省干線上的交通數據,并對采集到的數據進行相應的處理和應用,如集成、抽樣、壓縮、存儲、發布等[1]。這些數據中隱含的交通時空分布規律對有關部門在交通控制、路網規劃等方面有著較大的參考和利用價值[2]。
然而,由于交通采集設備故障、施工損壞、環境和氣象惡劣等因素的存在,會導致所采集到的交通數據有缺失的現象。數據缺失降低了數據的質量,對利用數據進行交通運行狀況分析、交通控制、路網規劃等均會產生不利的影響。面對海量的交通數據,數據缺失不可避免,因此需要選擇合適的方法對缺失數據進行處理,以此來保證數據的質量,保證數據在交通控制、路網規劃等方面的可用性。
2? ? 現狀分析
目前,常用的缺失值處理方法大致有兩種:刪除和填充。(1)刪除數據即剔除存在缺失的一組數據,從而保證保留的數據是完整的。這種方法簡單但需犧牲某些數據屬性,而各個數據間存在著一定的關聯,直接剔除可能會對數據的分析結果造成不利影響,數據刪除不常用于缺失值處理。(2)填充數據即選取合適的數據填補缺失數據,以保證數據集的完整性,利用數據填充的方法可以獲得較優質的數據分析結果。針對國省干線交通數據的缺失值,可以借助已采集的正確數據進行異常數據的差值處理,因為拉格朗日差值法有著簡單、方便、易實現的優點,所以將其用于國省干線簡單缺失數據的恢復可以取得較理想的結果。
拉格朗日插值法廣泛應用于各個領域的數據處理,取得了較好的效果。楊皓翔等[4]運用拉格朗日插值法減少了邊坡位移監測數據的誤差對新陳代謝模型預測精度的影響。丁閃閃等[7]運用平均法和拉格朗日插值法對交通數據采集過程中的異常數據進行修正,結果表明,拉格朗日插值法相較于傳統的平均法準確性更高。陳飛等[8]提出了基于拉格朗日插值的方法來實現射頻信號衰減的修正,在保證修正數據準確度的前提下既減少了修正的工作量又降低了系統后期維護的難度。秦利剛[9]將拉格朗日插值法運用于頻譜分析中,不但克服了因頻率漂移造成數據點采樣不足的問題,還克服了拉格朗日插值算法在頻譜分析中的應用的泄漏問題。蔡文等[9]利用改進型的拉格朗日插值算法改善了視頻分割處理圖片失真的問題,實驗表明改善后的拉格朗日算法即重心拉格朗日算法具有明顯優越性。綜上所述,拉格朗日插值法在各個領域的數據處理方面均取得了較好的效果,因此,選擇拉格朗日插值法恢復國省干線的缺失數據。
3? ? 方法原理
3.1? 算法原理
拉格朗日插值法基本原理:在插值點的附近選取若干合適的節點,構造一個簡單的插值函數y=p(x),要求構造的插值函數穿過選取的節點。在所選數據區間用插值函數作為原來函數f(x)的值,使得f(xi)=p(xi),i=1,2,3,…,n成立。由此可見,插值法的實質是根據已知的節點數據或線圖上某些已知點的數據構造一個既簡單又能夠保證精度的插值函數p(x),并利用該插值函數快速獲取原函數在對應位置的數據,這種利用若干節點來構造插值函數的方法稱為拉格朗日插值法[3]。
對于原函數f(x)分別有給定的n+1個取值點,分別為(x0,y0),(x1,y1), … ,(xn,yn),其中,x對應自變量的位置,y為原函數f(x)在該點的取值。解設任意兩個不同的xj都互不相同,以下拉格朗日差值法填補缺失值的步驟。
第一步:求已知n+1個點對的拉格朗日基本多項式lj(x)(或稱插值基函數)。其表達式為:
拉格朗日基本多項式lj(x)的特點是在xj上取值為1,在其他的點xi(i ≠j)上取值為0。
第二步:求已知n+1個點對的拉格朗日差值多項式L(x)。其表達式為:
第三步:將缺失的函數值對應的點代入插值多項式得到缺失值的近似值L(x),完成缺失數據的填補任務。
3.2? 算法流程
面對海量的交通數據,利用拉格朗日插值法進行缺失值填補需要借助于計算機,其具體算法流程如圖1所示。
3.3? 拉格朗日插值法在國省干線缺失值中的使用
在面對公路的交通數據缺失時,拉格朗日插值法的具體使用步驟如下:
第一步,確定缺失數據所在的位置(路段)以及缺失情況。
第二步,確定缺失數據對應的時間段。
第三步,根據缺失數據的特征,采集缺失數據對應的指定時間段(點)和路段的歷史(平均)交通數據。
第四步,利用拉格朗日插值法填補缺失值,先構造拉格朗日多項式,對指定數據進行插值。其中,指定路段、時間段(點)作為自變量xi,歷史(平均)交通數據作為因變量即插值函數值f(xi)。
第五步,驗證插值效果:取正常數據作為測試集,對測試集采用相同的方法進行插值,結合真實數據,對測試集的插值進行誤差檢測,評價插值效果。選取均方誤差(MSE)、均方根誤差(RMSE)以及平均絕對百分比誤差(MAPE)作為評價指標。誤差越小,插值效果越好,反之亦然。以下為各評價指標的含義。
均方誤差MSE(Mean Square Error):
均方根誤差RMSE(Root Mean Square Error):
平均絕對百分比誤差MAPE(Mean Absolute Percentage Error):
其中,yi表示真實值,表示預測值,n表示樣本容量。
4? ? 實例分析
為驗證拉格朗日插值法對缺失值修復的效果,從完整無缺失的路段中隨機選取部分值作為缺失數據,采用拉格朗日插值法進行數據恢復,并對所得結果與實際值進行比較。
本文選取了南京G235東壩下行段全月數據為例進行說明,將每日中午12時的小客車速度作為缺失值,利用其余時段速度的已知值對該值進行修復,得到的結果如圖2—3所示,總體誤差指標如表1所示。
結果表明,拉格朗日插值結果與真實值的均方誤差在可接受范圍內,平均絕對百分比誤差小,拉格朗日插值法在缺失數據恢復工作中效果較好。
5? ? 結語
文章基于拉格朗日插值法對國省干線的交通數據缺失值進行填補,并結合具體實例驗證了拉格朗日插值法對于缺失值填補的有效性。對于一些簡單的缺失值,拉格朗日插值法簡單、方便、易實現,且拉格朗日插值法公式的結構整齊緊密,為理論研究提供了便利。利用拉格朗日插值法填充國省干線交通數據的缺失值,可以提高數據的質量,也確保了數據在交通控制、路網規劃等應用中的可靠性。
[參考文獻]
[1]耿彥斌,于雷,趙慧.ITS數據質量控制技術及應用研究[J].中國安全科學學報,2005(1):82-87.
[2]韓衛國,王勁峰,胡建軍.交通流量數據缺失值的插補方法[J].交通與計算機,2005(1):39-42.
[3]林昌華,楊巖.拉格朗日插值法在工程設計及CAD中的應用[J].重慶理工大學學報。2013(12):34-37.
[4]楊皓翔.基于拉格朗日插值法的新陳代謝模型在邊坡位移監測中的應用[J].安全與環境工程,2017(2):33-38.
[5]胡玄子,陳小雪.數據處理中缺失數據填充方法的研究[J].湖北工業大學學報,2013(5):82-84.
[6]徐小麗.拉格朗日插值法在工程應用中的算法實現[J].林區教學,2010(1):17-19.
[7]丁閃閃,季錦章.基于小波分析和拉格朗日的交通異常數據處理[J].公路與汽運,2015(169):59-63.
[8]陳飛,朱坤,賈建兵,等.基于拉格朗日插值法的ATS射頻信號衰減修正研究[J].海軍航空工程學院學報,2018(1):45-48.
[9]秦利剛.拉格朗日插值算法在頻譜分析中的應用[J].電子世界,2014(5):112.
[10]蔡文,吳黎明.改進型的拉格朗日插值在視頻分割處理的實現[J].自動化與信息工程,2014(2):29-32.
[11]HE R,ZHANG L W,HE X X.Interval recognition algorithm of the pavement surface condition based on lagrange interpolation method[J].Mathematical Problems in Engineering,2020(1):1-8.
(編輯 姚 鑫)