999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RFID冗余數據清洗方法研究

2018-04-09 01:13:39
福建質量管理 2018年6期
關鍵詞:檢測

 

(重慶交通大學 重慶 400074)

引言

數據清洗是整個數據分析與挖掘過程中必不可少的一個環節,其結果會直接影響到模型效果和最終的結論,據大數據分析與挖掘項目統計,數據清洗通常會占據分析與挖掘過程的50%~80%的時間。

本文針對RFID冗余數據,提出了一種處理冗余數據的方法,提高RFID數據的時序性和精確性。RFID冗余數據通常包括兩類:重復數據和相似數據。重復數據是指采集到的信息完全相同的數據。相似數據是指雖然數據有部分信息不同,但所指向的內容是相同信息的數據。這兩種數據存在不僅僅占用存儲空間,造成數據庫負載越來越龐大,而且還會導致后期在處理數據挖掘方面,出現大幅度的偏差。因此,有必要對RFID冗余數據進行判別與刪除,提高數據的質量。

一、RFID冗余數據處理方法

判斷RFID數據是否存在冗余,根據冗余RFID數據存在的特征,關鍵是判斷被檢測到車牌號碼、過車時間和RFID檢測基站。當在采集到的RFID的數據中,車牌號碼、過車時間和RFID檢測基站完全相同,即可認為這些數據為重復數據,有必要對這些數據進行刪除。而當采集到RFID數據中車牌號碼和檢測基站相同,過車時間雖不相同,但過車時間相差較短。因為通常同一輛車不可能在很短的時間內(五分鐘內)兩次或者多次通過同一個檢測基站,而且RFID檢測基站在讀取數據時也需要花費一定的時間,采集的數據必定會產生一定的時間差,則認為這些數據為相似數據。因此相似數據也為冗余數據,也有必要對其刪除。

本文在處理冗余數據時,采用逐條記錄對比的方法,對RFID數據進行逐條對比車牌號碼、過車時間和RFID檢測基站。采用Java程序編寫的代碼實現冗余數據的判別。主要是對數據記錄進行按照以下步驟進行邏輯判別:

(1)通過jdbc連接數據庫,將數據庫中的數據按照車牌號碼、RFID檢測站和過車時間字段順序進行數據排序;

(2)讀取第一條數據,獲取數據記錄中車牌號碼(VehicleID1)、RFID檢測站名稱(C_P_Name1)和(Time1);

(3)循環讀取下一條數據,獲取數據記錄中的車牌號碼(VehicleID2)、RFID檢測站名稱(C_P_Name2)和(Time2);

(4)判斷車牌號碼VehicleID1是否等于VehicleID2、RFID檢測站名稱C_P_Name1是否等于C_P_Name2和過車時間Time1是否等于Time2,若三者全部相等,即為相同數據。若前兩者相等,對時間Time2與Time1時間作差,判斷兩者的時間差是否在5min時間內,若在5min時間內,可以認為這兩條數據為相似數據。將相同數據和相似數據進行輸出到兩個不同的表中。

(5)將車牌號碼、RFID檢測基站名稱和過車時間進行替換,進入(3)進行循環。

二、計算冗余率

通過以上邏輯過程對RFID交通數據進行冗余判斷,可以獲取出數據記錄中的冗余數據。通過獲取每天的冗余數據,統計每天的冗余數據量記為,采用下列公式計算每天檢測數據的冗余率:

(1)

ωi——冗余數據占有率;

ERundei——第i天的冗余數據記錄總條數。

Ni——第i天的記錄刪除錯誤數據后的總條數;

三、實驗數據處理

在把錯誤數據刪除之后,再獲取數據記錄中的重復數據,通過聯合車牌號碼、檢測點名稱和檢測時間判斷記錄中的數據是否存在重復。根據RFID檢測器的數據規律特性,相同車輛在同一地點相似時間(5min)段內只會出現一條數據。本文首先對HDFS上每天的數據記錄按照車牌號碼、檢測點名稱和檢測到的時間進行排序。在得到的排序結果后,判斷每一條數據中的車牌與下一條數據中的車牌是否相同。在相同的車牌號碼的情況下,再去判斷檢測點名稱是否相同。在檢測點名稱相同的情況下,判斷兩條記錄的時間差是否大于5min。在Hadoop平臺中通過Java編寫代碼一步步循環判斷,可以獲取每天記錄中冗余的數據。其實驗過程通過編寫代碼實現。

通過判斷每天數據中的冗余數據,計算出每天RFID檢測數據的冗余率,可以作出冗余數據占每天正確數據的比率變化趨勢圖,如圖1所示。

圖1 冗余數據占有率變化趨勢

通過對一個月冗余數據的占有率對比分析,可以看出冗余的數據在所占正確數據的比例比較小,約占1.40%。故在挖掘交通特性時,為了提高數據的總體精確性,對冗余數據可以保留第一條后,將其他的記錄直接刪除。

四、結論

經過本文逐條數據篩選的方法對冗余數據進行處理判斷,可以提高數據的精確性,本文在對RFID數據冗余判斷,可以提高1.4%的精度,同時對后期的數據挖掘精度也有了較大的提高。

【參考文獻】

[1]谷峪,李曉靜,呂雁飛.基于RFID應用的綜合性數據清洗策略[J].東北大學學報(自然科學版).2009,30(1):34-37.

[2]王妍,石鑫,宋寶燕.基于偽事件的RFID數據清洗方法.計算機研究與發展[J].2009,46(suppl):270-274.

[3]周奕辛.數據清洗算法的研究與應用[D].山東:青島大學,2005.

[4]僧理.Hadoop的重復數據清理模型研究與實現[D].湖南:南華大學,2010.

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 亚洲欧美国产视频| 国产精品伦视频观看免费| 九九视频免费看| 免费看a毛片| 国产无码精品在线播放| 被公侵犯人妻少妇一区二区三区| 永久免费无码日韩视频| AV无码无在线观看免费| 91探花国产综合在线精品| 国产精品久线在线观看| 另类综合视频| 国产香蕉在线视频| 色噜噜在线观看| 呦女亚洲一区精品| 国产精品福利在线观看无码卡| 福利在线不卡| 亚洲欧洲日韩国产综合在线二区| 国产91在线|中文| 国产综合无码一区二区色蜜蜜| 青青操视频免费观看| 日韩精品毛片| 国内精自线i品一区202| 亚洲视频a| 国产精品欧美日本韩免费一区二区三区不卡 | 日本在线国产| 欧美www在线观看| 亚洲成人免费看| 亚洲AⅤ永久无码精品毛片| 五月婷婷丁香综合| 一本色道久久88| 国产成人精品高清在线| 亚洲第一页在线观看| 久久综合伊人 六十路| 九九热视频精品在线| 亚洲综合香蕉| 国产在线啪| 亚洲日韩第九十九页| 69av在线| 午夜欧美理论2019理论| 无码内射在线| 精品视频一区二区三区在线播| 日本国产精品| 日本欧美精品| 高潮毛片免费观看| av一区二区三区高清久久| 人妻无码一区二区视频| 老司机精品一区在线视频| 色哟哟国产精品一区二区| 国产网站免费看| 天天做天天爱夜夜爽毛片毛片| 国产日本欧美在线观看| 国产人免费人成免费视频| 成人在线观看一区| 99在线免费播放| av在线无码浏览| 欧美国产日韩另类| 色网站在线免费观看| 国产二级毛片| 黄片在线永久| 色综合中文字幕| 亚洲一区国色天香| 久久伊人久久亚洲综合| 91日本在线观看亚洲精品| 国产一级无码不卡视频| 色成人亚洲| 伊人婷婷色香五月综合缴缴情| 成年人福利视频| 欧美a网站| 日本一区二区不卡视频| 爽爽影院十八禁在线观看| 精品国产91爱| 三上悠亚精品二区在线观看| 手机在线免费毛片| 小说区 亚洲 自拍 另类| 国产一级毛片在线| 日韩成人免费网站| 久久国产精品麻豆系列| www中文字幕在线观看| 午夜福利亚洲精品| 精品1区2区3区| 免费无码一区二区| 国产精品99在线观看|