999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

公交場景下數據質量提升策略研究

2024-01-07 05:31:48淑燕
無線互聯科技 2023年22期
關鍵詞:實驗信息質量

淑燕,熊 文

(云南師范大學 信息學院,云南 昆明 650000)

0 引言

數據質量對數據價值至關重要。高質量數據能夠準確反映現實情況,為決策提供有力支持。而低質量數據會對信息社會造成困擾,影響數據挖掘結果,產生不利影響[1]。根據Gartner最近的調查結果,糟糕的數據質量會造成平均每年1 500萬美元的損失[2]。在美國,因數據質量問題而導致的年度總成本超過3萬億美元[3]。因此,清洗臟數據以提升數據質量至關重要,是保證后期數據挖掘和分析準確性的前提。

1 相關研究工作

基于以上現狀,本文借鑒文獻[4]研究大數據治理的思路,以中國知網(CNKI)、Web of Scienc(WOS)、IEEE、ACM和Springer為來源數據庫,以 “數據質量”和“數據治理”為檢索詞,時間范圍“2010年—2022年”,進行文獻的檢索(檢索時間2023年05月07日),統計分析后得到如圖1所示結果。

圖1 2010—2022年數據質量相關文獻分布

通過文獻計量分析可以得出如下結論:

(1)數據質量問題得到廣泛關注。由圖1可知,相關研究文獻在總體分布上呈現出上升趨勢,數據質量問題已然成為國內外學術界關注的焦點。目前,國內研究與國外仍有一定的差距,這啟發研究人員需在數據質量方面投入更多的研究。

(2)數據質量相關問題缺乏清晰、系統的概述。由文獻計量分析的結果得知,盡管國內外對數據質量的研究有了一定成果的積累,但研究內容普遍集中在描述某類數據質量問題或某種清洗策略,并沒有對相關問題進行較為全面、系統的梳理。

(3)數據質量的應用性不足,交通領域的相關研究還有所欠缺。目前的研究多以概念性、描述性和定性分析為主,偏重于理論的概括總結,針對數據質量面臨的實際問題,還缺少相關的實踐案例支撐。

2 數據質量問題歸納

基于以上研究,統計文獻所列出的數據質量問題,通過歸納、整理將臟數據定義為:數據冗余、數據缺失、數據異常、數據錯誤、數據沖突和數據稀疏這6類數據質量問題,具體內容如表1所示。

表1 數據質量問題的歸納和定義

3 數據質量分析

3.1 數據集

本研究使用國內某城市真實的交通數據為研究對象,數據采集時間2021年7月至2022年2月。數據集大小為364.6 GB,包含公交刷卡表、二維碼表、進出站表、藍牙表、Wi-Fi、GPS和靜態數據表在內的7個交通數據表。

3.2 數據質量問題

(1)數據異常。經過數據探查,發現GPS數據中存在大量的數據異常,圖2是對所有異常點偏離距離的統計,縱軸表示偏離距離的范圍區間。

圖2 異常點偏離距離分布

(2)數據缺失。經過數據探查,發現進出站表中存在大量的數據缺失問題。以08360路線上的車牌號為“A001**”的樣本為例,2022-01-01 08:02:16至2022-01-01 09:05:47時間段內,缺少停站編碼為08360102至08360107之間的進出站數據。

4 數據質量提升方法

4.1 HNFC

HNFC具體流程如下:首先,檢測是否存在超過經緯度合理區間的范圍異常,有則刪除范圍異常數據。然后,根據瞬時速度閾值檢測GPS跳躍異常。如果兩GPS點的瞬時速度超出閾值,則認為該數據屬于跳躍異常。最后,對檢測到的跳躍異常數據進行修復,這一步可以通過使用中值濾波來實現。中值濾波算法可以根據周圍正常數據的分布情況,對異常數據進行修復。

評價指標如下。

(1)范圍異常過濾率(RFR):衡量算法過濾掉范圍異常數據的能力。公式為:

(1)

(2)跳躍異常修正率(JCR):衡量算法修正跳躍異常數據的能力。公式為:

(2)

其中,rangeE為檢測到的范圍異常數據;jumpE為檢測、修復的跳躍異常數據;totalD為GPS總數據量。

4.2 MDFC

MDFC具體流程如下:首先,通過檢查進出站表中停站編碼屬性的連續性,判斷是否存在缺失數據。之后,對于缺失的進出站數據,填充停站編碼、路線和方向等信息,然后根據靜態信息表,填充站點名稱、經度和緯度等信息。此時,只有進出站的時間信息還未得到修復。最后,結合公交車的GPS數據,完成對進出站時間信息的修復。

評價指標[5]如下。

(1)使用缺失修復比率(MRR)作為路線名、停站編碼、行駛方向、站點名、經度和緯度修復的檢驗指標。其中MRR如公式(3)和公式(4)所示。

(3)

(4)

其中,xk,o為缺失數據的真實值;xk,r為數據的修復值;δxk,o,xk,r描述修復正確與否,當修復值與真實值相等即修復正確時計數為1,修復錯誤時計數為0。

(2)平均相對誤差(ARE)作為時間修復的可信程度,其數值越小,說明修復值與真實值之間的差距越小,修復的準確性越高。其中ARE如公式(5)所示:

(5)

5 數據質量提升實驗

5.1 HNFC實驗結果分析

數據異常清洗實驗則選取2022年2月的20 353.610萬條GPS數據為研究對象。首先對GPS數據按照車牌號進行分組,然后按照時間戳對組內的數據進行排序。該方法共檢測到503.905萬范圍異常數據以及457.299萬條跳躍異常數據。實驗結果表明,HNFC范圍異常過濾率RFR為2.48%,跳躍異常修正率JCR為2.25%。

5.2 MDFC實驗結果分析

數據缺失清洗實驗則選取08360路線上車牌號“A002**”于2022-01-07 07:35:06至2022-01-07 08:33:17時間段內一次完整的進出站數據為研究對象。該路線完整進出站數據共包含28個站點,隨機去除[02,05]和[18,21]之間的公交車進出站信息,然后使用上述MDFC的方法對缺失的進出站信息進行修復。統計得到MRR達到100%,ARE穩定在1%以下。到站時刻修復的結果如圖3所示。

圖3 MDFC時間信息修復對比

6 結語

本文首先運用計量分析方法對近年來數據質量相關的研究進行了較為系統性的探討和梳理,歸納出6類數據質量問題。其次,以一個真實的公交大數據平臺為例,文章探討了公交場景下的數據異常和數據缺失問題,研究了HNFC、MDFC的數據質量提升方法。實驗結果表明,HNFC可過濾掉2.48%的范圍異常,修正2.25%的跳躍異常。MDFC可以保證進出站時刻的平均誤差穩定在1.0%以下。這證明了本文所述數據質量提升方法的有效性。

猜你喜歡
實驗信息質量
記一次有趣的實驗
“質量”知識鞏固
質量守恒定律考什么
做個怪怪長實驗
做夢導致睡眠質量差嗎
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲男人天堂2020| 99久视频| 天堂中文在线资源| 国产迷奸在线看| 91视频免费观看网站| 精品91视频| 色妞永久免费视频| 老司机午夜精品网站在线观看| 欧美黄网站免费观看| 伊人天堂网| 国产成人在线无码免费视频| 国产95在线 | 91视频区| 99尹人香蕉国产免费天天拍| 欧洲高清无码在线| 国产精品真实对白精彩久久| 亚洲天堂视频在线观看| 日本亚洲最大的色成网站www| 夜夜爽免费视频| 中文字幕天无码久久精品视频免费| 亚洲中久无码永久在线观看软件| 色偷偷av男人的天堂不卡| 国产资源免费观看| 无码专区在线观看| 操操操综合网| 久久精品亚洲热综合一区二区| 国产一级在线观看www色 | 欧美另类精品一区二区三区| 五月天在线网站| 青青草综合网| 呦系列视频一区二区三区| 朝桐光一区二区| 色综合久久88色综合天天提莫| 亚洲男人在线天堂| 欧美va亚洲va香蕉在线| 天堂av综合网| 91亚洲精品第一| 日韩小视频在线观看| 香蕉视频在线观看www| 九色视频在线免费观看| 蜜芽一区二区国产精品| 99久久精品视香蕉蕉| 在线播放91| 国产女人18水真多毛片18精品| 91国内外精品自在线播放| 亚洲国产天堂久久综合226114| 秋霞一区二区三区| 福利在线一区| 囯产av无码片毛片一级| 午夜a视频| 国产成人免费手机在线观看视频| 欧美第一页在线| 91精品在线视频观看| 米奇精品一区二区三区| 久久综合激情网| 亚洲一区无码在线| 99精品国产高清一区二区| 性色在线视频精品| 欧美亚洲日韩不卡在线在线观看| 99久久精品无码专区免费| 精品五夜婷香蕉国产线看观看| 亚洲婷婷六月| 色视频国产| 女人毛片a级大学毛片免费| 日韩欧美91| 国产激情国语对白普通话| 成人精品在线观看| 精品无码视频在线观看| 国产精品13页| 国产乱子伦精品视频| 欧美三级视频在线播放| 国产精品亚洲天堂| 国产国拍精品视频免费看| 国产又粗又猛又爽| 国产精品第一区在线观看| 亚洲黄色视频在线观看一区| 亚卅精品无码久久毛片乌克兰| 国产美女在线免费观看| 波多野结衣二区| 国产无遮挡裸体免费视频| 亚洲日韩AV无码一区二区三区人| 日韩大片免费观看视频播放|