詹曉林 張笑宇 曾晶 宋昊陽 駱丹 張歡
摘要:在數字政府一體化建設的大背景之下,對于數據的采集、清洗提出了更高的要求。數據的預處理在整個政務數據處理的過程中尤為關鍵,不僅能夠為政策制定提供更加精確的支持,還有助于推動政務服務更加高效智能化。本文主要針對數據預處理中存在的核心問題,著重介紹了幾種在數據采集以及數據清洗中運用的方法,從而更好地應對日益復雜的數字化治理挑戰,實現政府數據管理的現代化轉型。
關鍵詞:數字政府一體化;數據預處理;數據采集;數據清洗
引言
在當今數字化時代,隨著數字政府一體化建設進程的不斷深入,數據預處理的重要性愈發顯著。其中,數據采集作為獲取原始信息的過程,在數據生命周期中扮演著關鍵角色;數據清洗則起到了過濾器的作用,是篩選、消除、修改冗余和錯誤數據的重要步驟。本文將從數據采集和數據清洗兩方面出發,深入探討在數字政府一體化建設中所使用的數據預處理技術。
1. 政務數據預處理中存在的痛點
當前數字政府的建設相較以前已經有了長足的進步和發展,隨著網絡的不斷發展和廣泛使用,數字政府平臺的使用率激增,數據從靜態的收集轉向實時和動態的收集,從單向管理轉向雙向、有規律的更新和互動。然而,在數據預處理階段也存在資源整合困難的數據壁壘問題,例如,數據難以開放共享、數據利用率低等,導致了高價值的政務數據資源難以得到有效開發利用[1]。
2. 政務數據處理
政務數據從采集到最終使用的過程中涉及內、外部數據收集、存儲、處理、共享、分發等多個環節,如圖1所示。
數據預處理在整個流程中起著至關重要的作用,可以接入各類業務系統、子系統、外部管理系統,以及終端感知的物聯網和互聯網。這個階段可以獲取所有需要被整合利用的數據,并在早期階段進行數據清洗等基礎的數據處理,為后續的數據開發和使用帶來便利。
2.1 數據采集
政務數據采集過程存在分散、獨立、源端多樣性、跨網絡傳輸等特點,為此設計了多類型定制化的數據采集方法,為政務數據資源的采集、數據處理標準的規范、數據資源池的構造提供了必要的支持。
2.1.1 數據采集:對于需要批量采集的數據,根據數據來源的不同有兩種采集方式。
(1)數據庫采集:當數據源為關系型數據庫,如常見的Oracle、MySQL等,或數據源和大數據中心在同一個網絡中時可以采用這種方式[2]。
(2)FTP文件傳輸:當數據源為FTP服務器,對于非結構化的文本、圖片等數據,可以采用這種方式。
2.1.2 數據接入:對于需要實時接入的數據,通過Flink、Spark-streaming等組件實現實時數據的匯集
諸如定位信息、視頻信息等需要實時傳輸的數據,利用消息總線或SOCKET等技術來構建前端的數據接收部分,將收集的數據處理轉化為統一格式的文件發送給平臺[3]。
2.1.3 網絡爬蟲:基于機器學習、自然語言處理等最新技術
綜合采用基于特征評分及啟發性規則的抽取技術,實現網頁內容采集的智能化和自動化,采集數據時不需要編寫腳本式或規則式的包裝器,只需要指定抽取字段即可自動剔除網頁噪聲,如廣告、導航條等干擾元素并提取有用信息,從而實現智能采集網頁內容[4]。
2.1.4 在線填報:針對政務系統需要面向的業務存在大量的非規則性數據收集需求,通過在線填報系統快速定制填報頁面滿足數據采集需求
在線填報采用J2EE的B/S體系結構,支持所有主流部署環境和數據庫平臺。靈活的報表設計器、自動數據庫管理機制、報表制度自動調整等大量領先設計思想和技術,確保了系統具有良好的業務適應性和擴充性,不但可滿足用戶當前的報表處理業務需要,更能滿足其不斷變化的報表應用需求。
2.2 數據清洗
在實際的業務處理過程中,采集到的數據通常是臟數據。臟數據通常指的是存在以下幾種問題的數據:
(1)數據缺失。通常是指屬性值為空的情況。
(2)數據噪聲。通常是指數據值不合理的情況。
(3)數據不一致。通常是指數據前后存在矛盾的情況。
(4)數據冗余。通常是指數據量或者屬性數目超出數據分析需要的情況。
(5)數據集不均衡。通常是指各個類別的數據量相差懸殊的情況。
(6)離群點/異常值。指的是采集到的數據中遠離數據集中區域的那部分數據。
(7)數據重復。在采集中多次被采集,在數據集中多次出現的數據。
數據清洗的目的是從原始數據中去除不準確、不完整、重復或不必要的數據,確保數據的質量以及準確性。在數據的初步清洗過程中,常用的技術包括缺失值處理、異常值檢測和處理、數據類型轉換、規范化處理、數據一致性檢查、數據合并和去重處理、數據歸一化處理、數據驗證、時間序列數據清洗以及數據可視化處理[5]。在以往的數據流轉過程中,數據清洗占整個分析過程的50%~80%時間。對低質量數據的清洗難度大,可以通過對低質量數據進行采集過程中的清洗和預處理的方法來提升自動數據清洗能力,從而提升數據采集的質量和效率,采用基于組件的可視化數據清洗流程,結合數據挖掘和機器學習等處理方法,實現高效、智能化的數據清洗預處理。
數據清洗可以根據各個變量的取值范圍和相互關系,對數據的合理性進行檢查,對超出正常范圍或邏輯上不合理的數據進行記錄,以便進行進一步的核實與糾正。對于在數據收集階段出現的無效數據以及缺失的數據,運用估計、整列刪除、變量刪除等方式進行處理。根據數據的不同可以將數據清洗歸納出不同的方法[6]。
3. 數據處理技術在政務系統中的應用
數據采集將結合運行日志的數據進行整體的分析和處理,實現各基層站點與平臺的技術對接,獲取所有資源的使用數據。在方式上可以采用調用各基層站點數據接口或者采用發布出數據收集接口的方式,由基層站點進行數據傳遞等方式進行數據的采集。
3.1 網絡爬蟲技術在政務輿情監測系統中的應用
網絡爬蟲技術能夠提供穩定的數據抓取代理,能夠對互聯網海量信息進行自動抓取、自動分類、主題檢測、專業聚焦等處理,完成用戶對于網絡輿情監測和新聞專題追蹤等信息需求。
將互聯網爬取的數據采集方法應用到輿情預警系統中,用戶可以按需自主布控監控預警的關鍵詞,系統爬取的信息命中預警關鍵詞后暫存到輿情監測模塊中。例如,可以設置的爬取規則對網站進行數據爬取采集,如表1所示。
將不同來源的數據匯集到綜合數據平臺,對數據進行改造,依據預定的規則,將其轉化為可反復利用的信息資源服務。通過服務總線和消息組件支持多路徑消息的進入和出口,使得各種各樣的消息在總線上流動,實現在不同部門和機構之間的信息共享,為平臺全方位、深入地分析和監管數據提供便利,使其能夠實時獲知運行狀態并做出智能應對,為正確的輿論引導提供分析依據。
3.2 數據清洗轉換
3.2.1 數據清洗方案設計
由于數據的多源異構性,導致出現數據質量差、不可融合、不可用、不可聯等問題,必須制定一套完整的數據清洗轉換規范來處理臟數據[7]。將數據清洗轉換劃分為清洗重復數據、清洗缺失數據以及清洗不合理數據三類并且分別設計清洗方式。
3.2.1.1 清洗重復數據
主要目標是避免數據的重復。如果一個數據表內有多條記錄的每個字段的值完全一樣,或者這個數據表有主鍵或者唯一ID,但其中只有部分字段的值在兩條或以上的記錄中重復,那么就需要用數據清洗方法來保證數據的獨特性。
3.2.1.2 清洗缺失數據
主要針對數據記錄中存在的缺失和空白值數據的處理。根據業務需求,檢測出的空字段將以填補、刪除、歸入問題庫等各種方式進行處理。
對于數據清洗中會出現的數據缺少問題,可以采用以下四種方法解決:
(1)數據刪除。對于缺失數據的記錄占比較小的情況,對記錄進行直接刪除。
(2)自動補全。數據中心具備數據補全功能,能夠對數據清洗后的數據進行數據補全工作,對存儲系統和數據庫上的海量、高頻率數據集進行數據校驗,去除非法數據,實現對缺漏的數據進行自動補齊。由于生產庫本身就存在部分數據字段屬性值的缺失,對于缺失的數據屬性,數據補全功能按照某些規則填充,比如公司辦公地址為空,默認使用工商注冊地址填充;家庭住址為空的話,默認按照身份證注冊地址填充,可以利用均值填充,也可以根據實際情況,根據過往的數據通過公式自動計算填補。例如,景區門店銷售額數據缺失,就可以參考過往景區的客流量數據根據公式進行計算[8]。
(3)手動填補。對于缺少的數據進行重新采集,或根據領域知識進行修補。
(4)關聯回填。兩個或兩個以上數據集之間通過某種信息建立關聯關系之后,根據實際業務的需要,可以對這兩個數據集中的數據進行相互補充。
3.2.1.3 清洗不合理數據
主要負責處理數據記錄中的不符合邏輯、違法數據。對于數據記錄中出現的不合理情況可采用以下兩種方式解決。
(1)數據命名轉換:通過比對標準數據元和實際數據表中的數據項,如果比對結果一致,則不需要轉換處理,如果比對結果不一致,要按照標準規定的命名進行轉換。
(2)標準地址轉換:對地址要素不完整、文字表達不一致的地址信息進行標準化處理。依托公安的標準化地址庫及互聯網公開的POI地址信息庫,形成相關的地址標準基礎庫,對采集的地址信息進行標準化處理。
數據清洗是一個反復迭代的過程,數據清洗中的產物包括標準化數據和問題數據。標準化數據為原始庫數據按照數據標準清洗、加工后的數據;數據清洗、加工過程中產生的臟數據則作為問題數據暫時保留在資源庫中,便于溯源和提升數據質量。
3.2.2 數據清洗技術在圖片數據中的應用
可以將AI技術運用到圖片數據的清洗過程。對于采集到的圖片數據提供清洗功能,包括去除相似或重復圖片、去除小目標圖片、去除過暗圖片、去除過爆圖片、去除模糊圖片等清洗功能[9]。支持自定義清洗策略參數,支持創建清洗任務選擇“生成新版本”“覆蓋原有版本”,同時提供被清洗數據的列表以及清洗原因。
結語
在本文中,我們對于幾種數據采集和數據清洗方案以及其在數據處理中的關鍵作用進行了研究。
在數據采集方面,網絡爬蟲技術作為一種數據采集工具為大量獲取互聯網上的特定數據提供了有效手段。在未來,為適應不斷擴張的互聯網以及網頁的多樣化,互聯網爬蟲技術在自適應爬取算法以及與人工智能的結合方面存在廣闊的發展空間。
在數據清洗方面,根據臟數據的類型,分別設計有針對性的清洗方案,能夠有針對性地解決數據中存在的數據重復、缺失和不合理等問題。將AI識別技術運用到圖像數據的清洗中,能夠降低人工干預的成本并且提高效率,在未來的研究中,可以進一步探索數據清洗與機器學習和人工智能的結合,實現更高效率、更高準確性、類型更加廣闊的數據清洗。
數據采集、數據清洗作為數據的預處理,在政務數據的處理流程中起著舉足輕重的作用。對數據的收集整合以及清理,可以消除在數據集中整合時遇到的分散、孤立、多源、跨部門和跨網傳輸等難題,從而為政務數據資源的整合、標準化處理以及數據資源池的建立提供依托。
參考文獻:
[1]國務院辦公廳.國務院辦公廳關于印發全國一體化政務大數據體系建設指南的通知(國辦函〔2022〕102號)[A/OL].(2022-10-28)[2023-8-20].https://www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm?eqid=edc23cad00032216000000066465a1f0.
[2]晏立,閻蔚明,陶躍華,等.基于JDBC數據庫時間獲取方法[J].計算機系統應用,2008,(12):139-141.
[3]郭棟,胡清,李國濤,等.基于Flink組件的流量鏈接分析方法及系統:CN202210525481.2[P].2022-08-30.
[4]馮明遠.深度網絡信息爬取關鍵技術研究與實現[D].杭州:浙江大學,2011.
[5]唐懿芳,鐘達夫,嚴小衛.基于聚類模式的數據清洗技術[J].計算機應用,2004,(5):116-119.
[6]劉政宇.基于大數據的數據清洗技術及運用[J].數字技術與應用,2019,37(4):92,94.
[7]杜少卿.基于關聯依賴的數據清洗方法研究[D].鄭州:鄭州輕工業大學,2023.
[8]樊峰峰.大規模數據清洗關鍵技術研究[D].西安:西北工業大學,2020.
[9]李政文,杜文菊,饒妮妮.基于不準確圖像數據清洗的分類方法研究[J].信號處理,2022,38(7):1547-1554.
作者簡介:詹曉林,本科,高級工程師,研究方向:信息通信工程建設、智慧城市規劃、建設工程實施;張笑宇,本科,研究方向:智慧城市規劃咨詢設計、智慧校園信息化建設;曾晶,碩士研究生,高級工程師,研究方向:管理咨詢、信息通信工程咨詢規劃設計、IT咨詢;宋昊陽,碩士研究生,工程師,研究方向:智慧城市、企業IT、物聯網咨詢規劃;駱丹,博士研究生,研究方向:自然語言處理、深度學習、技術產品研發;張歡,博士研究生,研究方向:網絡安全技術規劃、數據安全、信息化咨詢規劃。