李萍?朱春琴?魏房忠?孫毅

摘要:隨著“數字政府”建設的不斷推進,在政務服務、社會治理、政務運行等場景中不斷深化應用,政務數據共享交換對實時性、高效性、靈活性有了更高的要求。結合傳統政務數據共享交換平臺的架構,分析了傳統數據共享交換方式面臨的短板與不足,重點對“統一數據資源目錄+CDC”、實時流處理技術、API整合封裝等新興技術路線進行了研究、分析和比較,以探索新形勢下實現政務數據高效共享的新方式。希望能為相關從業者提供借鑒。
關鍵詞:高效共享交換;CDC;實時流;API整合封裝
一、前言
當前,數字化轉型在社會各行業如火如荼地開展?!皵底终苯ㄔO從規劃到落地,由此帶來了政務服務“一件事”、社會治理“一類事”、政務運行“一體事”等場景應用,政務數據共享的意愿更加強烈、需求更加靈活、時效性要求更高。傳統“T+N”離線采集或交換模式往往會面臨著交換鏈路長、實施環節多、交換效率低等問題,難以滿足實時性要求。
在政務服務領域,實現政務服務事項清單標準化、政務服務精準化和政務服務便捷化[1],讓企業和群眾辦事“少跑腿”,讓數據“多跑腿”[2],加快數據匯聚共享,制定政務數據共享服務管理辦法,優化一體化大數據共享交換體系[3],是現在比較迫切的需求。因此,為滿足“數字政府”新形勢下政務數據共享開放的需要,開展政務數據高效共享交換的研究,探索新技術實現方式,顯得尤為必要。
二、政務數據共享交換的現狀
(一)共享交換平臺
現行政務數據共享交換平臺通常主要由統一數據資源目錄、數據交換系統、政務信息共享網站等系統組成,平臺架構如圖1所示。
(1)統一數據資源目錄
統一數據資源目錄是實現政務信息資源共享和業務協同的基礎,是各政務部門之間信息共享的依據,統一數據資源目錄通過掛接各類數據資源,以目錄為紐帶實現數據資源的特征描述和數據的定位獲取。
(2)數據交換系統
數據交換系統作為政務信息資源交換的基礎設施和通用系統,提供統一的政務數據共享交換通道,具備政務數據歸集和政務數據訂閱交換等功能。
(3)共享網站
共享網站作為大數據管理部門信息發布和政務信息資源服務的綜合性門戶,面向各政務部門業務工作人員,提供政務數據資源檢索和政務數據共享申請等功能。各政務部門既是數據提供部門,也是數據使用部門。
(二)共享交換流程
政務數據共享交換流程主要包含了歸集、注冊、申請、共享等步驟。
(1)歸集?;跀祿粨Q系統歸集各數據提供部門提供的政務數據,涉及庫表、文件、API服務接口等類型資源。
(2)注冊。數據提供部門在統一數據資源目錄中完成目錄注冊、資源掛接等發布工作,形成本部門對外共享開放的數據資源目錄。
(3)申請。數據使用部門通過共享網站進行數據資源的檢索,針對有使用需求的數據資源發起共享申請。
(4)共享。申請流程經數據提供部門審核通過后,由數據交換系統響應本次共享請求,實現數據從數據提供部門到數據使用部門的交換。
(三)共享交換方式
政務數據共享交換通常采用“前置機庫表”方式和“API服務接口”方式。
(1)“前置機庫表”方式
“前置機庫表”在各數據提供部門推送數據至共享交換前置庫后,由大數據主管部門對數據進行匯聚整理,再對外提供共享服務。這種方式必須由數據提供部門進行大量工作配合,往往需增加人工操作、系統改造工作量大、成本高,導致數據匯聚困難,實時性不高[4]。在有新的業務需求時,數據提供部門需要配置新的推送任務,把數據從業務系統同步到共享交換前置庫。
在支撐辦理跨部門、跨系統事項時,如果以這種方式開展多部門、跨層級數據交換,則會凸顯數據交換鏈路長、實施環節多、交換時效性不高等問題。繼而出現數據同步不及時,辦理等待時間長等問題,企業和群眾辦事體驗比較差。
(2)“API服務接口”方式
“API服務接口”方式是指數據提供部門通過預先定義函數,制定輸入、輸出參數和訪問協議等指定內容,對外提供數據服務的一種共享方式。由于API的輸入和輸出參數相對固定,當新的業務需求出現時,需要數據提供部門開發新的API,而無法復用現有API的能力進行二次開發或編排,也無法對多個API進行關聯整合,實現跨部門、跨業務聯合查詢。
(四)共享交換工作演進
之前,政務數據共享交換的任務以完成數據批量歸集、集中匯聚為主。在現階段,政務數據共享交換的工作重點已經發生轉移,一方面要求提高數據共享交換的效率,確保數據鮮活度,減少辦事等待時間;另一方面要求通過數據流動促進業務協同,實現跨部門、跨地域、跨層級的業務對接。
三、政務數據高效共享技術研究
為滿足政務數據高效共享的要求,在技術選型研究時,既要滿足新的業務需求,提高數據共享交換效率,同時又要減少對現有平臺技術架構和接入部門的影響,為此,本文提出“統一數據資源目錄+CDC”、實時流處理、API整合封裝等技術方案。
(一)“統一數據資源目錄+CDC”技術
CDC(Change Data Capture,變化數據捕獲)是在數據庫級別實現數據增量抽取的解決方案,是業界成熟的實時數據變化捕獲技術。CDC通過日志記錄事務的開始、提交以及撤銷等一系列屬性,以事務為單位對掃描記錄進行交叉記錄,同時為每個事務建立相關的鏈表以更好地將日志記錄整合在一起[5],完成對數據變化捕獲。
CDC是對現有政務數據共享交換體系非常好的一個補充。利用它可實現實時數據共享交換,結合現有統一數據資源目錄和共享網站功能,在與CDC程序之間增加了一個適配層,實現統一數據資源目錄和共享網站與CDC的有機串聯。適配層實現以下兩個核心功能。
(1)業務銜接貫通:實現統一數據資源目錄、共享網站與CDC程序的集成,為統一數據資源目錄提供CDC類型的數據源,并響應共享網站的實時數據共享訂閱請求,將實時數據推送到數據訂閱方。
(2)數據實時打通:驅動CDC程序從數據提供部門獲取實時數據,并向數據訂閱部門推送,實現數據的實時共享交換。
“統一數據資源目錄+CDC”的數據共享交換,首先不需要數據提供部門把數據從業務系統定期推送到共享交換前置庫;同時,數據提供部門也能按現有的政務數據共享交換流程,自主控制數據共享的范圍,能精確到表級或字段級,保障他們作為數據擁有者的權利。減少了數據流轉環節,提升了數據共享的時效性,也會在一定程度上減少對前置機的使用;另外也可提升由于時間戳造成的數據錯誤或丟失問題,提高數據共享交換質量。這種方式只需對現有共享交換的技術框架和業務流程進行細微地改造,易于快速地在各級政務部門落地實施。
但此方式也存在一定的局限性,首先只適用于庫表數據交換,無法對文件、API等類型數據變化進行捕獲,其次要求數據提供部門提供具備讀取數據庫日志的訪問權限。
(二)實時流處理技術
大數據時代的到來使單節點的計算模式已經不能滿足數據處理的需求,分布式數據處理與存儲系統(如Hadoop)逐步成為大數據平臺首選的架構,但基于Hadoop架構的大數據平臺主要基于靜態數據文件的并行處理,雖然在海量數據吞吐、計算、存儲方面有極高的效率,但是實時性較差,屬高吞吐高并發,高時延的架構[6]。
為滿足業務場景實時性要求,在數據采集、數據傳送、數據處理和數據加載等環節中,需根據場景特點,應用不同的流數據處理技術,以實現高速實時的流式數據處理分析。提高數據共享交換效率進行研究。
(1)數據采集
通過實時流組件,對數據量大、實時性高的數據進行歸集,可提升數據歸集效率。對于日志類數據,使用Flume(高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統)進行實時采集;對于數據庫類數據則使用CDC等數據庫事務日志解析工具實時捕獲數據的變化。
(2)數據傳送
將采集的數據寫入Kafka(高吞吐量的分布式發布訂閱消息系統)中,利用Kafka的低延遲、高吞吐特性,下游消費者可以實時、高速地讀取Kafka中的消息,減少延遲。
(3)數據處理
Flink(分布式流數據流引擎)從Kafka中讀取到數據,可以利用強大的流處理能力對數據進行實時計算,同時實現對數據的輕度治理,如字段填充、數據清洗、數據轉換等。
(4)數據加載
根據數據特點及業務需求,將數據存放到合適的組件,提升數據應用效率。如全量數據可存放在HBase(分布式的、面向列的數據庫),快速高并發訪問的熱點數據可存放在Redis(基于內存亦可持久化的日志型、Key-Value數據庫)。
實時流處理技術適用于數據量大、時效要求高的業務,在部署時需要考慮結合業務特點選取相應的組件,配備相應的軟硬件資源,滿足實時流處理分析效率。
(三)API整合封裝技術
API(Application Programming Interface,應用程序接口)整合封裝是指對各數據提供部門提供的一個或多個API服務接口進行二次圖形化編排開發,并對每個API服務接口的返回結果做一定的數據處理,比如過濾、關聯和合并等,最終整合成一個全新結果返回給前端。API整合封裝技術能提升API服務接口復用性,并提供圖形化拖拉拽的“零代碼”操作界面,降低對開發人員的技術要求,同時提高開發效率。
API整合封裝技術,通過三個步驟來實現對API服務接口進行封裝:
(1)首先是數據源采集,通過API整合封裝技術提供的數據庫、API等多種數據源的適配器,采集各類源數據,封裝轉換為應用模型;
(2)其次是模型關系和圖譜構建,根據應用模型間的關系,構建模型圖譜;
(3)最后是場景化構建,根據業務需求,在模型圖譜中選擇適合的模型,通過圖形界面拖拉拽方式,進行場景化構建。
例如,在構建“人才安居房資格核實”的業務場景中,條件為人員年齡在40歲以下、學歷本科以上、社保交納年限在5年以上,之前需要分別查詢人員基本信息、學歷信息、社保信息三個API服務接口,并對返回數據分別進行核實。利用API整合封裝技術,對這三個API服務接口進行源數據采集,并通過身份證號碼進行關聯,配置對應的條件,設定輸入和輸出參數,最終實現以一個API服務接口滿足新增業務的需求。
API整合封裝技術通過圖形化編排,能減少開發工作量,提升現有API服務接口復用率和共享效率。但此技術有一定的限制,在對多個API服務接口進行編排時,API服務接口間要有關聯的關系,并且對API服務接口的參數格式也有一定要求。
四、結語
優化政務數據共享交換平臺技術架構,促進政務數據高效共享交換,可加快數據在各級部門間橫向和縱向流動,提升發揮數據在政務服務、社會治理、政務運行等場景中的作用,幫助各級政府建立起協同高效的數字政務運轉體系,全面激活數據要素潛能,推動“數字政府”建設邁上新臺階。
參考文獻
[1]國辦函〔2016〕108號,《國務院辦公廳關于印發“互聯網+政務服務”技術體系建設指南的通知》
[2]國辦發〔2018〕45號,《國務院辦公廳關于印發進一步深化“互聯網+政務服務”推進政務服務“一網、一門、一次”改革實施方案的通知》
[3]2020年江蘇省深化“放管服”改革工作要點[EB/OL].
[4]吳應良,肖炯恩.電子政務治理理論框架下的政務數據共享創新研究[J].電子政務,2018(10):51-59.
[5]曾遠柔,方鵬.以數據庫日志為基礎的變化數據捕獲分析[J].中國高新區,2017(23):192.
[6]朱奕健,張正卿.基于通信運營商數據的大數據實時流處理系統[J].中國新通信,2016(3):100-103.
作者單位:江蘇省大數據管理中心