尚珂全?李俊?羅昊煒



摘要:數字化轉型凸顯了數據中臺的價值。為服務數字檢察,從數據中發現檢察監督線索,有效支撐“個案辦理-類案監督-系統治理”,擬建設數據中臺以支撐檢察業務相關數據的匯聚、治理和應用。本文探討了檢察特色數據中臺構建路線及其架構設計,并結合“先傷后保”保險詐騙這一典型案例,詳細闡述了數據中臺支撐的檢察業務的服務流程。
關鍵詞:數字檢察;數據中臺;數據治理;數據倉庫
一、引言
在大數據時代,無論是線上虛擬社區,還是線下支付場景,數據分布無處不在,隨著物聯網的推廣和普及,信息會以難以想象的速率在更快速地膨脹。
最早發現數據使用價值的是廣告領域。在美國,沃爾瑪精明的專業銷售人員利用計算機采集、分析用戶的注冊信息、購買行為、購買地點、購買頻率等數據,為用戶進行消費行為畫像,從而將用戶喜好的商品廣告精準地送到用戶最容易觸達的地方。后來,隨著IBM、甲骨文等計算機公司的崛起,存儲成本的降低和數據工具的多樣化,使得數據的商業化價值被大中型企業所觸及、挖掘,并用于流水線自動化、企業決策等多方面[1]。
當前,數據已成為政府、企業的核心資產,并被視為一種基礎能力,數據的質量和規模一定程度決定了政府的執政能力、企業的管理能力甚至是盈利能力[2]。在今年年初的政府機構改革中,國家數據局正式成立,這表明國家對實施數據發展戰略的決心,并進一步證明了國家對數據作為新的生產要素和資源屬性的深刻認識。
相應的,隨著大數據時代不斷深入,數據中臺已成為政府部門、大中型企業建設的重要方向。即使對數據中臺有較大的需求,但在面對具體應用場景時,則又面臨不知道如何建設,不知道哪些功能可用、哪些不可用等一系列問題。
根據最高人民檢察院“數字檢察”工作的部署,各地要根據實際情況建設數據中臺,用以支撐“數字檢察”對數據服務的高要求。數據中臺的建設應依托檢察業務,遵循“業務主導、數據整合、技術支撐、重在應用”的原則。檢察系統的數據中臺應以提供具有檢察特色的數據服務為目標,為檢察大數據法律監督和業務辦案全流程提供支持。
二、背景
(一)數據中臺發展歷程
1991年,Bill Inmon提出數據倉庫的概念,這一概念被視為大數據的雛形階段。Bill Inmon在其著作《建立數據倉庫》一書中定義了數據倉庫的概念,隨后又給出了更為精確的定義:數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。面向主題、集成、時間相關、不可修改成了數據倉庫的四要素。
數據倉庫的下一階段是數據湖(Data Lake),這一概念最早是在2011年由CITO Research的CTO和作家Dan Woods共同提出的。數據湖被定義為以原始格式存儲數據的存儲庫或系統,它按照原樣存儲數據,而無需事先對數據進行結構化處理。一個數據湖可以存儲結構化數據、半結構化數據、非結構化數據和二進制數據。
隨著大數據技術的不斷完善,成熟的數據湖體系已經非常接近于數據中臺的概念,它同樣具備了大數據存儲、處理、分析和機器學習等能力。亞馬遜是最早建設數據湖體系的公司,也是國外建設最完善數據湖體系的公司。
大數據的成熟階段就是數據中臺階段。嚴格地說,數據中臺是一個相對“中國特色”的概念,屬于對完備大數據湖體系的本地化和擴充。數據中臺的發展歷程如圖1所示。
(二)數據中臺概念
數據中臺的概念最早由阿里巴巴提出:“數據中臺是數據+技術+產品+組織”,是企業開展新型運營的一個中樞系統。具象地說,它是一套解決方案,而從抽象的角度看,它是一種新型的運營理念。可以看出,數據中臺在數據湖的基礎上擴展了組織和管理層面的體系,將大數據從由產品堆疊的解決方案上升到“業務+數據”全過程管理的機制。
通俗意義上的數據中臺是指通過數據技術,對海量數據進行采集、計算、存儲和加工,輸出標準數據后進行存儲,形成大數據資產層,結合數據模型、算法服務、數據產品、數據管理,為需求應用提供數據服務的一套體系[3]。
數據中臺旨在提升數據的使用效率,其核心在于基于海量數據提升整體運行效率,促進政企單位更好地利用數據,更快地讓數據產生價值[4]。
數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,并通過資源打包整合,再通過接口進行開放,提供“一站式”數據服務。按照功能模塊劃分,數據中臺通常包括兩個部分:數據倉庫和數據應用。
1.數據倉庫
數據倉庫有一套標準的數據資源體系,分為三層:貼源層、基礎層和主題層。貼源層主要負責從各個信息系統匯集數據;基礎層負責對匯集的數據進行清洗和加工,形成符合業務形態的數據資源模型;主題層根據業務需求導向,將數據組織為具體業務場景所需要的數據結構,深化數據服務價值,全面實現純數據到業務服務的轉換,實現數據融通。
2.數據應用
根據所面向的實體業務的特點,數據應用提供諸如數據建模、數據統計分析、數據地圖、定制化數據產品等服務,這一部分的主要目標是幫助業務解決具體問題,通過數據驅動的方式提升業務產品的質量和效果。
(三)檢察特色數據中臺
檢察大數據法律監督,是檢察機關利用大數據分析和挖掘技術構建監督模型,實現從單個案件到類案辦理,實現辦理一案、治理一片,進而促進社會矛盾的溯源治理,是檢察機關的一種履職創新方式。顯然,數據應用是大數據法律監督的核心,而這需要依賴于檢察特色數據中臺的構建。
縱覽數據中臺的概念及其發展歷史,可以得出一個結論:數據中臺沒有建造的通用公式,要在抽象業務特點的基礎上進行深度結合,才能發揮好數據中臺的核心價值。
圍繞“數據”價值,數據中臺的重點在于夯實數據基座,沉淀內外部數據資源,探索數據在檢察辦案尤其是類案辦理方面的應用,從而深入挖掘數據價值,為溯源治理提供服務。全面支撐檢察業務應用,需要在實現路徑上滿足以下需求[5]:
1.數據匯聚需求
基于檢察機關核心辦案業務系統“檢察業務應用系統”,匯聚檢察機關內部數據(存量數據和增量數據)。引入業務應用(例如當前比較迫切的“大數據法律監督模型”業務應用)必需的外部數據,包括但不限于政法協同數據、城市大數據中心共享的委辦局政務數據、互聯網數據等,形成數字檢察數據湖。
2.數據治理需求
數據治理針對匯聚之后的數據開展清洗、融合、服務、共享等數據治理全生命周期管理,保障沉淀的檢務數據的完整性、準確性以及唯一性。通過數據資源編目、數據標準管理、元數據管理、數據質量管理和數據治理工具等能力以及過程中建立起來的數據地圖和數據血緣關系結構,完成以四大檢察十大業務為核心的檢察大數據倉庫建設,從“人、案、物、組織”等維度為業務系統提供數據應用支持。數據治理,建立完備的數據處理能力服務支撐是核心。
能力支撐服務:數據能力服務主要提供數據智能分析的能力服務,例如:自然語言處理(NLP)能力、語音識別能力(OCR)文書要素提取能力、案件知識圖譜構建能力等。
數據治理服務:圍繞全流程在線辦理體系的建設需求,依托數據匯聚和治理基礎平臺提供的基礎工具和能力,提供數據采集、數據清洗、數據加工、數據資產編目、數據智能分析和數據標簽等數據治理實施服務。
數據標簽化服務:數據治理需求中,比較重要的基礎需求包括數據業務標簽化。數據業務標簽化是指將數據面向檢察辦案業務進行標簽化,圍繞“人、物、案、組織、知識”等主題建立通用標簽和圍繞“四大檢察”全量業務建立數據標簽,通過標簽,多角度、多層次地以檢察辦案業務的視角管理海量的數據并梳理數據之間的關系。
數據治理過程的產出是形成貼近業務的數據主題層。在數據主題層上,根據服務業務場景和統計分析場景的不同再拆分為主題庫和專題庫。
3.數據應用需求
隨著數據資源的不斷積累,以及檢察業務人員對利用大數據辦案的認識逐漸提高,當前全國檢察機關的重要數據應用需求之一就是“大數據法律監督”。在最高檢的統一規劃下,全國各地正大力推進大數據法律監督工作,并提升相應的技術支撐手段。大數據法律監督顧名思義,就是利用大數據技術輔助檢察機關履行法律監督職責,大數據技術是基礎手段,法律監督是業務目的。在大數據法律監督需求中,需要建立一個“業務建模平臺”,該平臺主要面向不懂技術的一線辦案檢察官,通過圖形化的操作方式,可以降低使用建模工具的專業要求和使用難度,使檢察官經過簡單培訓后即可上手操作[6]。
三、檢察數據中臺架構
(一)外部資源
放眼外部環境,數字中國的建設規劃在2019被納入十四五規劃,數字檢察需要融合并借力這個大背景的優勢。城市大數據中心集中優勢資源,按照“集約高效、共享開放、安全可靠、按需服務”的原則,建立了覆蓋全市的電子政務云,實現了市委辦局基礎設施共建共用、信息系統整體部署、數據資源匯聚共享、業務應用有效協同。
數據中臺的建設應盡可能依托城市大數據中心的云上環境、設備資源和工具服務:在降低建設成本的同時,實現與其他單位的數據資源共享,并將數字檢察的建設納入數字城市整體規劃中,為后續全市數據上鏈共享等打下牢固的基礎。
(二)網絡環境
依托地方的網絡資源和部分本地的設備資源,檢察機關已經構建了四網同步運轉的信創網絡環境,包括檢察業務網、工作網、政務外網和互聯網。檢察業務網用于涉密系統的部署運營,與其他三個網絡保持物理隔離;檢察工作網是當前信息化項目的主要部署網絡,也是內部數據產生和匯聚的地方;政務外網主要用于對接外部委辦局等單位;互聯網則主要面向于公眾服務的信息發布、電子文書送達等。依托城市電子政務云的安全交換設備和跨網交換能力,實現了除業務網之外的邏輯互通、數據融通和安全暢通。這進一步優化了各類系統、會議和遠程視頻應用的性能。
盡管網絡拓撲聯通,但是根據數據分級分類原則,內部數據屬于重要數據,涉案信息不能在政務外網上流轉,更不能流入互聯網環境。因此,數據中臺需要采用分布式結構,以確保數據的安全性和隱私性。
(三)工具箱環境
在市委辦公廳的統一規劃下,城市大數據中心為市級機關免費提供了政務外網PAAS上的工具箱產品,其中包含了數據治理工具。這些工具不僅可以提供存儲服務,也可以完成數據匯聚、清洗、加工、歸檔等一系列數據治理開發工作。
(四)架構設計
基于以上資源和環境,綜合考慮需求滿足度、可擴展性和經費等因素,本次全流程全息在線辦案系統的數據中臺采用了“兩張網絡,兩個子平臺”的組織架構,整體架構如圖2所示。
1.政務外網
在政務外網,建設數據子平臺,面向外部數據的匯聚、清洗、加工和編目存儲。技術路線采用城市大數據中心提供的存儲產品(MaxCompute)建設數據存儲倉庫,并利用數據匯聚和治理工具(DataWorks)構建數據治理的整套流程,最終經過治理好的外部數據通過交換平臺傳輸到檢察工作網。
2.檢察工作網
在檢察工作網,建設數據子平臺,面向內部數據的匯聚、清洗、加工、編目存儲,進而與已經治理、編目完備的外部數據共同構成大數據基座。技術路線使用RDS數據庫建設底層數據倉庫,自研數據治理工具用于構建數據治理、標簽化、數據全息檔案以及檢務檢索分析等能力。同時,還將使用事件感知引擎搭建業務建模平臺。
3.微服務體系
整體架構采用微服務體系搭建,并在此基礎上建設統一、開放、安全的API開發和管理平臺。每個服務運行進程獨立,服務之間采用輕量級的通信機制,實現檢察機關內各應用及與其他外部單位應用之間的接口服務調用。同時,實現服務調用鏈分析,自動分析服務依賴的壓力點、易故障點和瓶頸點,以實現業務的隔離解耦、敏捷運維。平臺提供統一的訪問入口,具備限流、熔斷、降級、認證和授權、負載均衡等能力,具有對整個服務調用鏈的全鏈條監控和日志分析能力,支持跨部署點接口服務和路由管理。
4.數據匯聚
堅實的數據基座需要源源不斷的高質量數據流入。其中,內部數據是檢察業務大數據應用的基本數據;外部數據是大數據法律監督成案不可或缺的必要因素。數據匯聚的主要目標是建立豐富且高質量的檢察數據倉庫[7],通常稱為“檢察數據湖”,如圖3所示。
“檢察數據湖”的建設重點在于數據采集的過程。數據采集主要是將不同來源的異構數據通過ETL等方式統一采集、處理、存儲。數據采集中主要考慮數據來源、數據采集方法、數據存儲方式等[8]。
(1)數據來源:數據的來源豐富多樣,可以根據提供數據組織單位的不同進行分類,包括內部數據與外部數據。外部數據可進一步細分為大數據中心數據、其他委辦局數據以及其他途徑數據。
(2)數據采集方法:提供關系型數據庫數據接入,支持類型包括MySql、SqlServer、Oracle、PostgreSQL、DB2、達夢、瀚高、人大金倉、神舟通用;也支持流式數據的直接對接。提供半結構化數據接入,支持類型包括XML、JSON;提供非結構化數據接入,類型包括目錄文件;提供API數據接入,支持第三方接口數據代理發布、大數據庫表代理發布成API接口。
(3)數據存儲方式:整個檢察業務累積下來的數據(不包括視頻文件),整體信息量已經累積了近2PB,包括視頻文件的話可能會快速增長到10PB甚至更大。數據存取業務存在頻率和實時性要求不同的場景,僅僅使用傳統的關系型數據庫已經無法滿足建設要求,因此需要使用混合、分布式大數據存儲體系來滿足數據倉庫的要求。
對于非結構化數據,利用OSS對象存儲進行保存;對于數據量大的結構化數據,使用大數據套件如Hadoop2.0等進行降維存儲;若數據量較小,則使用傳統關系型數據庫存儲;對于數據并發量較大的場景,使用Redis等作為中間Cache;此外,使用Kafka作為數據存取調度的任務管理框架。
5.能力支撐平臺
數據中臺在工作網建設通用共享能力平臺,用以支撐數據治理過程和上層的業務應用的各類流程,共計十種,如圖4所示。
OCR語音識別、NLP自然語言處理等的AI算法應用能力的統一接入、發布,處理結構化的數據,語音、圖像、視頻等,將輔助全流程辦案等多個檢察業務系統,提高業務應用效率。實現共性通用應用能力的統一管理、統一賦能,形成標準化的通用能力輸出模式,節約計算資源,提升檢察的智能化水平。
能力平臺結構如圖4所示。能力平臺的模型中心可對各類上架的能力模型進行有效的分類,并提供統一管理、統一部署、統一調度,實現從模型到應用的統一化發布、運行、共享和管理。同時,對能力模型提供一致的標準化鏡像、監控、API,保證業務的一致性。對于導入的源能力模型,模型中心可提供基于能力模型底層的加速、遷移、發布等能力,提升能力模型到應用場景的性能,提升使用的效率。
能力平臺可以統一管理和調度能力模型應用所需的物理資源,實現資源的最優化利用。平臺將各個業務系統所需的通用原子能力統一管理、統一部署和資源統一調度,提供豐富的通用能力產品服務,市區兩級檢察院各應用系統可以根據實際需求按需調用。平臺基于實際業務需求,讓通用能力在云一邊-端自由流動。
6.建模工具平臺
數據建模是數據應用的必備甚至是核心功能之一,其架構如圖5所示。數據建模是數據中臺使用者通過直觀手段使用數據,挖掘數據價值的重要模塊。提供統一的數據建模能力,就要在平臺內置可自動適配不同計算引擎的SQL算子,同時支持各類大數據計算引擎自定義的特性,如MapReduce、UDF等,覆蓋絕大部分數據處理需求。平臺應具備多模型并發能力,能夠支持全市范圍內檢察模型的同時運行。
該平臺具備離線模型智能優化能力,可以自動適配Odps、Hive、Spark、Trino多個計算引擎的SQL算子,運行時可復用歷史緩存結果,剔除不必要節點,并自動識別可合并節點,從而節約計算資源,提升整體性能。在實時計算領域,平臺采用低資源流式計算將實時計算常用的業務場景進行封裝,提供豐富的系統算子,包括分組聚合、維表關聯、空間計算等,支持動態語言編程的自定義算子,能夠快速地構建實時業務鏈路。
7.其他支撐工具
除了以上核心模塊,還需要一些底層工具來支撐和管理整套體系。
(1)日志收集工具
采用ElasticSearch+Logstash+Kibana分布式收集日志技術,收集各個應用系統的日志,實現對應用系統的操作分析和狀態監控的統一處理。
(2)數據遷移工具
采用ETL工具,該工具是覆蓋數據集成邏輯的設計、開發、調試、部署、運行、管理、監控各個生命周期不同階段的集成開發工具,可實現對數據集成流程的開發和部署,也可對數據集成的運行過程進行實時監視,以及對集成流程歷史數據進行分析。
(3)消息中間件
采用RabbitMQ作為消息中間件,實現跨綜合平臺和各部署子系統之間可靠、即時的消息(信令)傳輸,支持異步、同步消息通知方式,并提供緩沖限流、高峰分流、海量消息堆積處理能力。
(4)服務控制組件
采用Sentinel工具,提供輕量級的開源控制臺,它提供機器發現、健康情況管理和監控、規則管理和推送的功能。通過收集Sentinel客戶端發送的心跳包,判斷機器是否在線;通過Sentinel客戶端暴露的監控API,定期拉取并且聚合應用監控信息,最終可以實現秒級的實時監控。
(5)負載均衡組件
采用Spring Cloud Ribbon,提供一系列完善的配置,如超時,重試等。通過Load Balancer獲取服務提供的所有機器實例,Ribbon會自動基于某種規則(如輪詢,隨機)調用這些服務。
四、應用案例
以“先傷后保”保險詐騙模型為例,詳細闡述使用本技術路線搭建的數據中臺是如何打通數據鏈條,深挖數據價值,賦能檢察業務,支撐“個案辦理-類案監督-系統治理”的。
(一)模型背景
在保險范疇內,只有先參保繳費,后發生事故才能獲得理賠。但上海執行著一項“先傷后保”的惠民政策:用人單位應當自用工之日起30日內為職工辦理社會保險登記,如果職工剛入職就發生工傷事故,企業只要是在其入職30日內參保并繳費的,依然可以申請工傷理賠。
然而在實踐中,“先傷后保”這項惠民安企的好政策卻被不法分子所利用,甚至滋生出“工傷黃牛”地下產業鏈。通過走訪調查,發現該現象絕非個案,在工傷保險領域可能存在其他騙保案件,遂以此構建業務模型作為全市大數據賦能法律監督的重點項目。
(二)模型簡介
匯聚社保中心所有工傷理賠案件的參保繳費時間、受傷時間和入職時間等數據,篩選出參保繳費時間在入職時間30天內且參保繳費時間比受傷時間晚的案件,即為“先傷后保”類型的案件。然后,以這些案件為索引分析相關的單位名稱、工商注冊地、受傷從業人員姓名、身份證號、參保時間、繳費情況、受傷時間、事故發生地和理賠金額,當超過預警值的時候即將其視為“先傷后保”保險詐騙的潛在線索。接著,通過調取涉案企業的前科劣跡和當事人的銀行流水信息進一步縮小線索核查范圍,從而產出最終線索集。
(三)數據中臺支撐
本案例是一個典型的利用數據中臺將內外部數據結合,產生有效監督線索(挖掘數據關聯價值,產生數據服務)的案例:
在政務外網上,社保中心的數據中臺通過數據匯聚工具被存儲到政務外網建設的數據倉庫中,經過初步清洗加工,去除臟數據后,轉移到工作網環境。
在工作網內,數據進入檢察數據湖,并與內部相關的前科數據以及調取到的銀行流水數據一同上傳到建模中心。在建模中心,檢察官根據數據碰撞規則搭建相應的模型,輸出最終的線索,并且記錄模型,實現類似案件的監督功能。
以上就是本數據中臺支撐起大數據法律監督的一個完整鏈條。
五、結束語
綜上,本數據中臺的技術路線選型及架構設計基本滿足了“數字檢察”的現實需要,有效支撐了“個案辦理-類案監督-系統治理”,為數據的匯聚、加工和利用構建了可行的路徑。同時,在安全性方面,依托城市大數據中心對政務云資源提供的專業化運維管理機制,在產品上盡可能地使用了大數據中心的授權工具,降低了建設成本,也可以從系統和管理兩個方面均做到安全可靠。
參考文獻
李廣乾.什么是數據中臺[J].中國信息界,2019(12):72-75.
張洪丹,趙艷強.數據中臺在政務APP中的搭建與應用[J].互聯網周刊,2021(10):50-52
劉俊良.新時代數據中臺研究與設計[J].電子世界,2020(4):119-119.
[4]王曉波.基于數據中臺的產業數據治理系統的設計與實現[J].電腦知識與技術,2022(18):22-28.
[5]穆義龍.淺議數據中臺在公安大數據建設中的應用[J].法制與經濟,2020(10):27-28.
[6]湖州市人民檢察院課題組.大數據法律監督平臺與技術應用相關問題[J].中國檢察官,2022(23):7-10.
[7]劉三平.數據中臺建設對企業數據貫通的技術研究[J].電子技術與軟件工程,2021(2):189-190
[8]朱曾珍.大數據驅動的檢察系統流程再造研究[D].哈爾濱:哈爾濱工業大學,2019:37-40.