999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

交通大數據質量控制架構與清洗方法

2024-02-02 15:23:40席加熠沈凱龍沈湘萍
黑龍江交通科技 2024年1期
關鍵詞:質量

席加熠,詹 璐,沈凱龍,沈湘萍

(1.中交信捷科技有限公司,北京 100011;2.北京北大千方科技有限公司,北京 100085;3.天翼云科技有限公司,北京 100007)

1 引 言

隨著人工智能、云計算以及物聯網等先進技術的快速發展,大數據逐漸成為落實“交通強國”建設、推動“數字交通”發展的新型生產要素和推動交通行業數字化轉型的核心驅動[1-2]。國內外專家學者針對數據質量控制方法開展了一系列研究,但大多聚焦于通過人工智能算法識別、處置動態交通數據流中的數據重復、數據缺失問題[3-8],對覆蓋領域廣、數據種類多的綜合交通大數據中心往往難以適用,所以迫切需要構建一套科學合理、貼近業務的交通大數據清洗治理方法論,以指導交通大數據中心提升數據質量。針對上述問題,融合信息技術與管理制度,結合業務實際提出了一套交通大數據質量控制方法論,為配置數據質量校驗規則和實現數據清洗治理提供指導,實現業務流程的優化再造和數據質量的全面提升。

2 數據質量控制架構

綜合交通運輸大數據中心既是數據流轉的底座,也是業務協同的中樞,涉及與眾多行業企業、業務處室及相關管理單位的數據對接匯聚,數據質量的提升也需要多方配合。因此,針對結構化交通數據“采集-盤點-校驗-清洗”全生命周期構建數據質量控制架構,見圖1。

(1)數據采集:通過數據抽取工具和數據采集服務協議兩種方式分別從數據源頭單位對接獲取行業數據,實現數據融合。

(2)數據盤點:按照行業領域、性質和特征梳理數據資源,支撐個性化校驗清洗策略的制定。

(3)數據校驗:采用自動化和人工兩種校驗方式,識別交通數據資源中存在的規范性、完整性、準確性、一致性、時效性和可訪問性問題。

(4)數據清洗:以自動化處置為主,人工清洗為輔,增加、刪除、修改識別到的數據質量問題。

(5)數據質量管理:成立專項數據治理工作組,統一領導業務處室規范數據質量控制工作,協調處置技術手段無法解決的數據質量問題。

3 交通數據分類

(1)行業領域:按照數據來源、數據適用場景等條件,將交通大數據劃分為地面公交、共享單車、軌道交通、出租(含網約)等領域,支持追溯數據源頭,驗證數據質量問題產生的原因并要求相關單位整改。

(2)數據性質:將各領域數據表分為基礎數據和動態數據兩類,以區分數據清洗頻率。其中基礎數據指人員信息、證件信息、企業信息等變化頻率不高的數據,動態數據指位置、訂單、流量等實時產生的高頻變化數據。

(3)數據特征:細化到字段級別,以能否還原交通運輸行業運行情況為判斷依據,將數據分為還原型和描述型,從而確定不同數據的清洗治理粒度及方法。其中,ID、編號、經緯度、速度、時間等能夠反映運營態勢、還原出行鏈條的關鍵字段均屬于還原型數據,姓名、里程、金額、數量等用于完善相關信息的字段則屬于描述型數據。

4 數據質量校驗

參考《信息技術數據質量評價指標》(GB/T 36344-2018)[9]中數據質量評估維度,結合業務實際設計數據質量校驗標準。采取人工校驗與自動化校驗相結合的方式校驗數據質量問題,人工校驗是自動化校驗的前提,通過定期定量人工核驗數據質量問題的方式積累數據質量問題分析規則,再配置到Python、SQL等專業軟件工具中自動清洗處置。數據質量校驗方法及標準如表1所示。

表1 數據質量校驗

5 數據清洗治理

結合數據中心持續對接、每日更新的數據傳輸特點,采用循序漸進、不斷積累的方式清洗后續接入的新數據,不對存量數據進行處理,通過積累治理后數據不斷降低數據庫中臟數據占比,直至不再影響業務使用。數據清洗治理既包括管理制度,也包括技術處置。

5.1 數據治理機制

考慮到數據中心非數據源頭的工作實際,針對數據質量問題產生原因不明或數據中心無法處置的問題,構建清洗治理管理機制,成立專項組織機構,協調數據源頭單位處置。

(1)數據治理組織機構。

建議交通運輸管理部門成立數據治理專項工作小組,統一領導數據質量提升工作。來自行業企業的數據,經工作小組確認,交由相關業務處室協調確認問題產生的原因,并提出整改要求;來自省交通運輸廳及其他行業外管理部門的數據,則由工作小組發函確認。

(2)數據治理工作流程。

①數據對接:數據中心通過協議、接口等方式從源頭單位獲取數據。

②數據校驗:基于數據質量問題分析規則開展數據校驗工作,識別存在的數據質量問題。

③數據清洗:通過技術手段實現數據清洗轉換,并將治理后數據保存入庫。同時,梳理形成無法處置的問題數據清單,提交至數據治理專項工作小組。

④數據抽樣:定期從治理后數據中抽取樣本,人工查驗是否存在尚未發現的數據質量問題,進一步補充數據質量規則庫。同時,梳理無法確認的問題數據清單,提交至數據治理專項工作小組。若連續數次未發現新的數據質量問題,則判斷規則完善,暫停數據抽樣工作。

⑤問題確認:數據治理專項工作小組歸納整合無法確認、無法處置的問題數據清單,并分發至相關責任單位協調解決。

⑥規則補充:根據數據源頭單位返回情況,補充修改數據質量規則庫,以支持次日的數據校驗工作及清洗治理工作。

5.2 數據清洗技術

數據中心中動態數據變化頻率較高,采用增量接入方式不斷產生新的數據記錄,因此必須對每條傳入的數據都做校驗清洗。靜態數據變化頻率偏低,采用全量傳輸方式對接的數據可能完全一樣,因此僅對新增數據校驗治理,以節省數據中心算力。

還原型數據中,每一條記錄均代表著交通運輸行業中人、車、企的一次關鍵行為或一項關鍵信息,是追蹤行業走向、還原業務態勢的核心要素。故需要明確還原型數據中存在的所有質量問題,并給出相應的治理方案。

描述型數據則是進一步豐富人、車、企、事件特征的補充要素,可以在還原型數據治理完全后,酌情改善數據質量。

六類數據質量問題的清洗方法如下。

(1)數據規范性:基于SQL Sever數據庫管理系統及SQL語句,參照大數據中心的數據標準,采取統一加工轉換的方式修改字段名稱及類型,替換數據字典,實現標準化處理。

(2)數據完整性:依托SQL Server數據庫管理系統,以編號、身份證號等唯一標識為索引關聯同一主體含義相同的字段,若全部為空值則提交至數據治理專項工作小組協調處置;若其他數據表中相同字段有值,則直接關聯填充。數據接入不完整情況在數據抽樣階段整理至問題數據清單,由數據治理專項工作小組負責補充接入。

(3)數據一致性:在標準化處理時統一數據庫中同義字段命名和格式;使用SQL語句,以唯一標識為索引關聯相同含義的字段,若存在數據缺失則直接填充;若記錄內容不同,無法確定正確項目,則錄入無法處置的問題數據清單,與源頭單位協調后處理;與業務邏輯不相符的數據記錄,也交由源頭單位協調后處理。

(4)數據準確性:與行業實際不相符、格式不正確的還原型數據,需提交至無法處置的問題數據清單,與源頭單位確認清洗路徑;與行業實際不相符或格式混亂的描述型數據,可直接采用置空刪除的方式處置。若可以明晰的、簡單的數據格式問題,則直接由數據中心調換統一格式,如刷卡金額存在“400”、“600”等明顯有誤數據,則轉換為“4”、“6”。重復數據以保留最新記錄,刪除舊記錄為準。

(5)數據時效性:數據時效性問題均需歸納至問題數據清單,由數據治理專項工作小組協調確認。

(6)數據可訪問性:將斷開的數據傳輸鏈路歸納至問題數據清單,由數據治理專項工作小組協調確認。無法調用的數據表,則交由數據中心工程師檢查確認。

6 實例驗證

以成都市2022年6月至2022年10月的軌道交通數據為例驗證研究成果,數據內容包括地鐵票卡類型、地鐵刷卡數據、地鐵站點信息、地鐵線路信息、地鐵線路客流信息、地鐵線網客流信息、地鐵站點客流信息。

6.1 數據質量校驗

樣本中數據質量問題如表2所示,部分數據質量問題范例如表3、表4所示。

表2 軌道交通領域數據質量問題

表3 問題6數據質量問題

表4 問題7數據質量問題

6.2 數據清洗治理

針對表2中識別的數據質量問題,分別采用如下方法清洗治理。

(1)數據轉換:采用標準化處理的方式,統一替換地鐵票卡類型表和地鐵刷卡數據表中的數字代碼(對應表2中序號1、4)。

(2)數據關聯驗證:以地鐵刷卡信息中首條和末條非員工卡刷卡記錄推斷線路運營時間,輔以網絡信息驗證后,將運營時間填充到地鐵站點信息表中(對應表2中序號2)。

(3)問題歸集驗證:將數據質量問題歸納整理,形成問題數據清單提交至軌道集團驗證。經確認,軌道集團補傳地鐵閘機、遺漏地鐵站點位置信息,修正明顯異常的數據刷卡記錄,并調整線網預測客流算法和數據傳輸鏈路,保證傳輸數據穩定準確(對應表2中序號3、5、6、8、10)。

(4)數據刪除:按照數據中心工作需求,將非運營時段的累計客流均置為0(對應表2中序號7)。

(5)修改校驗規則:經確認,軌道集團偶爾會補傳清分數據導致清分日期明顯晚于出站日期,屬正常業務工作,故修改相應校驗規則(對應表2中序號9)。

數據清洗治理成效范例如表5、表6所示。

表5 問題6治理后數據

表6 問題7治理后數據

經清洗治理,除補傳數據導致的入庫延遲外,90.9%的軌道數據質量問題均得到校正,后續傳入數據質量明顯提高,相同數據質量問題未重復出現。

7 結 語

經過多年信息化建設,各地市的綜合交通運輸大數據中心基本跨過數據采集匯聚階段,向業務賦能邁進。交通數據質量的控制與清洗治理作為數據應用關鍵,已經成為交通數字化轉型的重要研究方向。

從數據匯聚者角度出發,提出了交通數據質量控制架構,提煉歸納了6個數據質量校驗維度并進一步給出了數據質量校驗路徑。同時,從管理和技術兩個角度入手,分析了提高綜合交通運輸大數據中心數據質量的方法論。以成都市城市交通運輸數據為例,驗證了數據質量校驗規則方法的可行性和數據清洗治理路徑的適用性。受限于數據匯聚者的身份,綜合交通運輸大數據中心更多依靠源頭單位處置數據質量問題,還需進一步探索采用先進技術自行清洗治理的方法,以提高數據清洗效率。

猜你喜歡
質量
聚焦質量守恒定律
“質量”知識鞏固
“質量”知識鞏固
質量守恒定律考什么
做夢導致睡眠質量差嗎
焊接質量的控制
關于質量的快速Q&A
初中『質量』點擊
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
你睡得香嗎?
民生周刊(2014年7期)2014-03-28 01:30:54
主站蜘蛛池模板: 国产成人三级在线观看视频| 亚洲日本www| 国产成人综合亚洲欧洲色就色| 香蕉综合在线视频91| 国产三级韩国三级理| 中文字幕在线不卡视频| 18禁影院亚洲专区| 久久精品无码中文字幕| 国产欧美日韩在线一区| 国产精品分类视频分类一区| 国产香蕉在线| 99在线视频免费| 欧美啪啪网| 久久情精品国产品免费| 亚洲成人黄色在线观看| 亚洲另类色| 亚洲欧美另类中文字幕| 国产资源免费观看| 日韩无码黄色网站| 中国国语毛片免费观看视频| 欧美亚洲国产视频| 99久久精品国产精品亚洲| 久久6免费视频| 午夜一级做a爰片久久毛片| 久久99久久无码毛片一区二区| 精品国产自在现线看久久| 91精品啪在线观看国产91| 91午夜福利在线观看精品| 朝桐光一区二区| 国产丝袜啪啪| 九九久久99精品| 亚洲成人一区二区三区| 国产精品55夜色66夜色| 国产肉感大码AV无码| 四虎影视8848永久精品| 国产精品久久久久鬼色| 无码高潮喷水在线观看| 国产亚洲视频中文字幕视频| 午夜久久影院| 91探花国产综合在线精品| 99热这里只有精品5| 国产欧美精品一区aⅴ影院| 亚洲综合中文字幕国产精品欧美| a级毛片一区二区免费视频| 亚洲精品制服丝袜二区| 一级香蕉视频在线观看| 国产一二三区在线| 久久香蕉欧美精品| 亚洲男人的天堂在线观看| 亚洲AⅤ波多系列中文字幕| 亚洲中文久久精品无玛| 在线观看欧美国产| 国产精品人人做人人爽人人添| 成人免费一区二区三区| 国产精品永久免费嫩草研究院| 日韩第一页在线| 中国黄色一级视频| 国产探花在线视频| 992Tv视频国产精品| 久久香蕉国产线| 久久久久久久97| 亚洲av无码片一区二区三区| 欧美国产日本高清不卡| 色偷偷综合网| 最新国产麻豆aⅴ精品无| 日本精品中文字幕在线不卡| 亚洲中文字幕在线精品一区| 丁香六月综合网| 91久久偷偷做嫩草影院电| 亚洲天堂自拍| 久久天天躁狠狠躁夜夜2020一| 无码aaa视频| 欧美一级高清视频在线播放| 色精品视频| 91丝袜乱伦| 自偷自拍三级全三级视频| 69免费在线视频| 国产免费久久精品44| 欧美人与牲动交a欧美精品| 欧美日本在线观看| 欧美福利在线| 色成人综合|