席加熠,詹 璐,沈凱龍,沈湘萍
(1.中交信捷科技有限公司,北京 100011;2.北京北大千方科技有限公司,北京 100085;3.天翼云科技有限公司,北京 100007)
隨著人工智能、云計算以及物聯網等先進技術的快速發展,大數據逐漸成為落實“交通強國”建設、推動“數字交通”發展的新型生產要素和推動交通行業數字化轉型的核心驅動[1-2]。國內外專家學者針對數據質量控制方法開展了一系列研究,但大多聚焦于通過人工智能算法識別、處置動態交通數據流中的數據重復、數據缺失問題[3-8],對覆蓋領域廣、數據種類多的綜合交通大數據中心往往難以適用,所以迫切需要構建一套科學合理、貼近業務的交通大數據清洗治理方法論,以指導交通大數據中心提升數據質量。針對上述問題,融合信息技術與管理制度,結合業務實際提出了一套交通大數據質量控制方法論,為配置數據質量校驗規則和實現數據清洗治理提供指導,實現業務流程的優化再造和數據質量的全面提升。
綜合交通運輸大數據中心既是數據流轉的底座,也是業務協同的中樞,涉及與眾多行業企業、業務處室及相關管理單位的數據對接匯聚,數據質量的提升也需要多方配合。因此,針對結構化交通數據“采集-盤點-校驗-清洗”全生命周期構建數據質量控制架構,見圖1。
(1)數據采集:通過數據抽取工具和數據采集服務協議兩種方式分別從數據源頭單位對接獲取行業數據,實現數據融合。
(2)數據盤點:按照行業領域、性質和特征梳理數據資源,支撐個性化校驗清洗策略的制定。
(3)數據校驗:采用自動化和人工兩種校驗方式,識別交通數據資源中存在的規范性、完整性、準確性、一致性、時效性和可訪問性問題。
(4)數據清洗:以自動化處置為主,人工清洗為輔,增加、刪除、修改識別到的數據質量問題。
(5)數據質量管理:成立專項數據治理工作組,統一領導業務處室規范數據質量控制工作,協調處置技術手段無法解決的數據質量問題。
(1)行業領域:按照數據來源、數據適用場景等條件,將交通大數據劃分為地面公交、共享單車、軌道交通、出租(含網約)等領域,支持追溯數據源頭,驗證數據質量問題產生的原因并要求相關單位整改。
(2)數據性質:將各領域數據表分為基礎數據和動態數據兩類,以區分數據清洗頻率。其中基礎數據指人員信息、證件信息、企業信息等變化頻率不高的數據,動態數據指位置、訂單、流量等實時產生的高頻變化數據。
(3)數據特征:細化到字段級別,以能否還原交通運輸行業運行情況為判斷依據,將數據分為還原型和描述型,從而確定不同數據的清洗治理粒度及方法。其中,ID、編號、經緯度、速度、時間等能夠反映運營態勢、還原出行鏈條的關鍵字段均屬于還原型數據,姓名、里程、金額、數量等用于完善相關信息的字段則屬于描述型數據。
參考《信息技術數據質量評價指標》(GB/T 36344-2018)[9]中數據質量評估維度,結合業務實際設計數據質量校驗標準。采取人工校驗與自動化校驗相結合的方式校驗數據質量問題,人工校驗是自動化校驗的前提,通過定期定量人工核驗數據質量問題的方式積累數據質量問題分析規則,再配置到Python、SQL等專業軟件工具中自動清洗處置。數據質量校驗方法及標準如表1所示。

表1 數據質量校驗
結合數據中心持續對接、每日更新的數據傳輸特點,采用循序漸進、不斷積累的方式清洗后續接入的新數據,不對存量數據進行處理,通過積累治理后數據不斷降低數據庫中臟數據占比,直至不再影響業務使用。數據清洗治理既包括管理制度,也包括技術處置。
考慮到數據中心非數據源頭的工作實際,針對數據質量問題產生原因不明或數據中心無法處置的問題,構建清洗治理管理機制,成立專項組織機構,協調數據源頭單位處置。
(1)數據治理組織機構。
建議交通運輸管理部門成立數據治理專項工作小組,統一領導數據質量提升工作。來自行業企業的數據,經工作小組確認,交由相關業務處室協調確認問題產生的原因,并提出整改要求;來自省交通運輸廳及其他行業外管理部門的數據,則由工作小組發函確認。
(2)數據治理工作流程。
①數據對接:數據中心通過協議、接口等方式從源頭單位獲取數據。
②數據校驗:基于數據質量問題分析規則開展數據校驗工作,識別存在的數據質量問題。
③數據清洗:通過技術手段實現數據清洗轉換,并將治理后數據保存入庫。同時,梳理形成無法處置的問題數據清單,提交至數據治理專項工作小組。
④數據抽樣:定期從治理后數據中抽取樣本,人工查驗是否存在尚未發現的數據質量問題,進一步補充數據質量規則庫。同時,梳理無法確認的問題數據清單,提交至數據治理專項工作小組。若連續數次未發現新的數據質量問題,則判斷規則完善,暫停數據抽樣工作。
⑤問題確認:數據治理專項工作小組歸納整合無法確認、無法處置的問題數據清單,并分發至相關責任單位協調解決。
⑥規則補充:根據數據源頭單位返回情況,補充修改數據質量規則庫,以支持次日的數據校驗工作及清洗治理工作。
數據中心中動態數據變化頻率較高,采用增量接入方式不斷產生新的數據記錄,因此必須對每條傳入的數據都做校驗清洗。靜態數據變化頻率偏低,采用全量傳輸方式對接的數據可能完全一樣,因此僅對新增數據校驗治理,以節省數據中心算力。
還原型數據中,每一條記錄均代表著交通運輸行業中人、車、企的一次關鍵行為或一項關鍵信息,是追蹤行業走向、還原業務態勢的核心要素。故需要明確還原型數據中存在的所有質量問題,并給出相應的治理方案。
描述型數據則是進一步豐富人、車、企、事件特征的補充要素,可以在還原型數據治理完全后,酌情改善數據質量。
六類數據質量問題的清洗方法如下。
(1)數據規范性:基于SQL Sever數據庫管理系統及SQL語句,參照大數據中心的數據標準,采取統一加工轉換的方式修改字段名稱及類型,替換數據字典,實現標準化處理。
(2)數據完整性:依托SQL Server數據庫管理系統,以編號、身份證號等唯一標識為索引關聯同一主體含義相同的字段,若全部為空值則提交至數據治理專項工作小組協調處置;若其他數據表中相同字段有值,則直接關聯填充。數據接入不完整情況在數據抽樣階段整理至問題數據清單,由數據治理專項工作小組負責補充接入。
(3)數據一致性:在標準化處理時統一數據庫中同義字段命名和格式;使用SQL語句,以唯一標識為索引關聯相同含義的字段,若存在數據缺失則直接填充;若記錄內容不同,無法確定正確項目,則錄入無法處置的問題數據清單,與源頭單位協調后處理;與業務邏輯不相符的數據記錄,也交由源頭單位協調后處理。
(4)數據準確性:與行業實際不相符、格式不正確的還原型數據,需提交至無法處置的問題數據清單,與源頭單位確認清洗路徑;與行業實際不相符或格式混亂的描述型數據,可直接采用置空刪除的方式處置。若可以明晰的、簡單的數據格式問題,則直接由數據中心調換統一格式,如刷卡金額存在“400”、“600”等明顯有誤數據,則轉換為“4”、“6”。重復數據以保留最新記錄,刪除舊記錄為準。
(5)數據時效性:數據時效性問題均需歸納至問題數據清單,由數據治理專項工作小組協調確認。
(6)數據可訪問性:將斷開的數據傳輸鏈路歸納至問題數據清單,由數據治理專項工作小組協調確認。無法調用的數據表,則交由數據中心工程師檢查確認。
以成都市2022年6月至2022年10月的軌道交通數據為例驗證研究成果,數據內容包括地鐵票卡類型、地鐵刷卡數據、地鐵站點信息、地鐵線路信息、地鐵線路客流信息、地鐵線網客流信息、地鐵站點客流信息。
樣本中數據質量問題如表2所示,部分數據質量問題范例如表3、表4所示。

表2 軌道交通領域數據質量問題

表3 問題6數據質量問題

表4 問題7數據質量問題
針對表2中識別的數據質量問題,分別采用如下方法清洗治理。
(1)數據轉換:采用標準化處理的方式,統一替換地鐵票卡類型表和地鐵刷卡數據表中的數字代碼(對應表2中序號1、4)。
(2)數據關聯驗證:以地鐵刷卡信息中首條和末條非員工卡刷卡記錄推斷線路運營時間,輔以網絡信息驗證后,將運營時間填充到地鐵站點信息表中(對應表2中序號2)。
(3)問題歸集驗證:將數據質量問題歸納整理,形成問題數據清單提交至軌道集團驗證。經確認,軌道集團補傳地鐵閘機、遺漏地鐵站點位置信息,修正明顯異常的數據刷卡記錄,并調整線網預測客流算法和數據傳輸鏈路,保證傳輸數據穩定準確(對應表2中序號3、5、6、8、10)。
(4)數據刪除:按照數據中心工作需求,將非運營時段的累計客流均置為0(對應表2中序號7)。
(5)修改校驗規則:經確認,軌道集團偶爾會補傳清分數據導致清分日期明顯晚于出站日期,屬正常業務工作,故修改相應校驗規則(對應表2中序號9)。
數據清洗治理成效范例如表5、表6所示。

表5 問題6治理后數據

表6 問題7治理后數據
經清洗治理,除補傳數據導致的入庫延遲外,90.9%的軌道數據質量問題均得到校正,后續傳入數據質量明顯提高,相同數據質量問題未重復出現。
經過多年信息化建設,各地市的綜合交通運輸大數據中心基本跨過數據采集匯聚階段,向業務賦能邁進。交通數據質量的控制與清洗治理作為數據應用關鍵,已經成為交通數字化轉型的重要研究方向。
從數據匯聚者角度出發,提出了交通數據質量控制架構,提煉歸納了6個數據質量校驗維度并進一步給出了數據質量校驗路徑。同時,從管理和技術兩個角度入手,分析了提高綜合交通運輸大數據中心數據質量的方法論。以成都市城市交通運輸數據為例,驗證了數據質量校驗規則方法的可行性和數據清洗治理路徑的適用性。受限于數據匯聚者的身份,綜合交通運輸大數據中心更多依靠源頭單位處置數據質量問題,還需進一步探索采用先進技術自行清洗治理的方法,以提高數據清洗效率。