文/鄭有為 計敏 唐樸謙
上海市公共資源交易中心(以下簡稱“交易中心”)于2020 年12 月24 日正式揭牌成立,標志著上海市全市公共資源“一網交易”總門戶開通。上海市成立該公共資源交易中心的目的是進一步落實《全國公共資源交易平臺系統評價考核辦法》,全面提升數據質量,建設開發數據互聯互通系統,搭建以大數據為依托的全新治理體系。自交易中心開通以來,上海市公共資源交易市場上的數據質量實現了質的提升,引領上海市在全國考核中名列前茅。
《全國公共資源交易平臺系統評價考核辦法》(發改辦法規〔2018〕8 號)明確指出,全國公共資源交易平臺系統考核評價指標可劃分為以下五項一級指標:上傳數據準確性、上傳數據覆蓋面、數據上傳及時性、數據上傳全面性以及運行維護情況。
交易中心的首要任務是與各交易分中心共同建立“全新”的數據互聯互通體系。因此,交易中心必須保證工程建設分中心、土地交易分中心等四大核心交易領域數據互通。2020年7 月,交易中心正式啟動數據互聯互通系統開發建設工作,該系統由Java(計算機編程語言)編寫,簡稱HLHT 系統,即互聯互通的首字母合寫。HLHT系統的數據流處理架構主要由以下四個組件構成(見圖1)。

圖1 HLHT 系統數據流架構
1. 數據文件日志化組件(Logging Module)
各交易分中心在調用由交易中心提供的互聯互通數據接口的同時,采用《公共資源交易平臺系統數據規范(V2.0)》中的數據模型封裝了與每一個數據集對應的XML 文檔;將采集到的數據以XML 格式存儲在非結構化數據處理組件的數據庫中;將每一次接口請求記錄與XML 文檔的索引統一存放在“交換記錄”(hlht.exchange_record)數據集中。
2. 數據入庫持久化組件(Persistence Module)
交換記錄是數據進一步加工處理的重要基礎。通常,數據入庫持久化組件會按索引定時抽取交換記錄中各交易分中心的數據集,并針對其內容分別做配置分發和數據落庫處理,例如:將解析后的XML 文檔落庫于“生產環境業務”(hlht.business_database)數據庫;由工程建設分中心上傳的招標項目數據集將落庫存放于“招標項目”(hlht.tender_project)數據集中。
3. 數據上報對象化組件(Transaction Module)
數據持久化入庫后就可以直接被前端業務功能調用,如發布官網公告等。而在數據通過前置機上報國家信息中心環節,HLHT 系統的數據上報對象化組件會將業務數據整合在一起并生成上報對象,再將這些對象的上報記錄統一存放在“國家消息”(hlht.nation_message)數據集中。
4.上報同步可控化組件(Sync Module)
“國家消息”應做到多維度同步可控,以確保工作人員可以根據實際需要精準推送實戰場景。例如,當上報對象完成初始化且同步狀態(nation_message.sync_status) 為0、成功上報至前置機時,該條記錄的同步狀態將設置為1,以實時掌握每一條數據的前置機上報狀態。
基于HLHT 系統,交易中心的數據團隊在三個月內完成了四大核心領域以及兩類新興交易領域(碳排放權和藥品采購)的全覆蓋任務。此外,由于交易分中心開發資源不足,短期內無法實現符合國家公共資源數據標準要求的接口支持,為更好地完成前置機遷移的切換上報①將國家信息中心的數據前置機從上海市經濟信息中心遷移至上海市公共資源交易中心。,交易中心果斷增投人力資源,采用非接口直接寫庫的方式進行對接。其間,數據團隊重新編寫了一個數據轉換模塊以替代數據文件日志化模塊,確保后續三個模塊能夠正常處理數據流。2020 年10 月,交易中心順利完成前置機遷移任務,并在之后的8 個月內實現了六類其他交易領域的全覆蓋:公共拍賣、技術交易、農業要素、無形資產、國企采購以及機電招標。自2021年5 月起,交易中心在覆蓋交易領域的考核中獲得滿分成績并保持至今。
國家信息中心對數據上傳全面性的考核非常嚴格,不僅要考核交易中心的上報數據,也會同步校驗四大核心領域分中心的數據全面性。例如,政府采購分中心在官網上共發布100 條業務數據公告,但由于其與交易中心在數據業務邏輯方面存在差異,最終也許只有98 條數據可以完成同步,那么剩余的2 條未同步數據就有可能導致交易中心被判定為數據全面性不合格(每缺失1 條數據扣2 分)。
對于成立不久的交易中心來說,這無疑是一項非常艱巨的挑戰。以政府采購分中心為例,在應對考核期間,該分中心正處于從老系統向新系統切換的過渡階段,以致其與交易中心數據同步的難度進一步增加。因此,自2021 年起,交易中心的數據團隊就啟動了數據底座項目立項前的探索準備工作。其間,數據團隊基于數據底座的數據湖率先啟動了獨立的CACP(全面性自動檢測程序)項目(見圖2)。數據團隊一方面利用爬蟲工具獲取了各分中心官網公示的所有業務數據;另一方面,利用采集工具入湖各分中心,通過HLHT 系統上報的數據,實時運行程序進行數據比對并生成比對結果。隨后,數據底座以郵件的方式自動將比對結果推送到各分中心數據責任人的郵箱。同時,相關工作人員也會在微信工作群確認缺失數據詳情,由分中心在第一時間優化數據同步邏輯,每日定期匯報進展,以此確保相關數據在24 小時內能夠及時、全面同步。自CACP 項目上線運行以來,交易中心數據上傳全面性滿分成績保持至今,并且在交易中心將CACP 程序逐漸拓展覆蓋至所有交易領域后,其數據上傳及時性也在2022 年取得滿分成績。

國家信息中心對上傳數據準確性的考核同樣嚴格,其中,數據采納準確率是從數據元層面考察數據質量的關鍵指標,應填必填。數據標準則明確了業務數據應向社會公開的必傳屬性,如果必傳屬性為空值,那么交易中心的數據采納準確率就會成為扣分項。數據三碼準確率是在數據采納準確率的基礎上,針對投資項目監管碼、統一交易標識碼以及統一社會信用碼進行專項質量考核的重要指標。以統一交易標識碼為例,交易中心必須采用國家標準規定的生成規則,并確保統一社會交易標識碼的長度符合規范要求。
針對數據底座,數據團隊啟動了獨立項目“QD-XSD”,即在數據文件日志化組件的上下游同步應用XSD(XML 模式定義)技術,使上游實時校驗上報數據,屏蔽數據源不明的垃圾數據,下游實時生成質量報告,進而實現數據元的質量分析與質量提升。XSD 是XML生態系統的重要組成部分,可確保XML 文檔的數據結構符合數據模型的定義,并校驗文檔內容是否符合數據標準和數據規范要求。其間,數據團隊將每一個XSD 文檔同需要驗證的XML 文檔按照對應數據集進行關聯,并使用XSD 處理器驗證XML 文檔是否符合規則。如果驗證結果顯示XML 文檔符合規則,那么該文檔有效;否則,XML 文檔的數據記錄及相關屬性就會被程序化地納入質量報告及異常明細,以供數據團隊后續進行數據質量分析。在QD-XSD 項目中,數據質量體系的整體架構是先按交易領域分類,再按質量需求分類,最后聚焦某個交易領域下某類質量需求的異常情況進行深入分析。如圖3 所示,在三碼準確率的質量檢查提取異常明細中,與三碼有關的數據集將通過程序自動聚合各交易領域的異常數量,并按三碼類型進行分類統計和可視化分析。統一交易標識碼前期由各分中心按照規則自主生成,數據準確性較為不穩定。在交易中心向全市分中心推行一網交易賦碼服務后,統一交易標識碼的數據質量顯著提升。在HLHT 系統中,統一社會信用碼主要在QD-XSD 項目中發揮作用,如引入第三方平臺和全國公共資源交易主體查詢接口,進行質量檢查和質量提升等。自QDXSD 項目上線運行以來,交易中心在數據上傳準確性方面的考核已經系統性地獲得滿分40分的目的。
本文概述了交易中心數據質量提升的實踐歷程。由數據團隊構建的HLHT 系統既具有獨特性也具有可借鑒性與通用性,可以為全國非實體整合的省級公共資源交易中心提供參考。其中,融合數據底座的CACP 項目為交易中心建立滿足數據上傳全面性、數據上傳及時性考核要求的一體化質量監測體系提供了保障;運營數據底座的DQ-XSD 項目則為數據質量實現數據上傳準確性的滿分考核目標創造了有利條件。更重要的是,以數據底座為基石,由HLHT 系統、CACP 項目以及DQXSD 項目構成的三維數據治理體系不僅為交易中心數據質量的提升做出了歷史性貢獻,也為數字化轉型驅動公共資源“一網交易”高質量發展打下了堅實基礎。[1]如圖4 所示,自成立以來,交易中心在國家考核中的排名已經由2020 年的近30 位躍升至全國榜首,并持續保持優異成績。

(特別鳴謝:廣聯達科技股份有限公司上海團隊對數據互聯互通系統開發的支持與合作;特別鳴謝上海智子信息科技股份有限公司、阮備軍博士和朱建秋博士在聯交所數據底座項目數據治理與數字技術中給予的大力支持)