付宏燕
(國家信息中心,北京 100045)
公共資源交易是要素市場化配置的重要內容,屬于政務公開范疇。公共資源交易大數據來源于地方交易平臺的交易業務活動,以及各交易領域主管部委的收集或統計。數據要素的特殊屬性,要求加強數據資源的開放共享;數據越多價值越大,越分享價值越大,越跨行業、區域價值越大[1]。推動海量公共資源交易數據的連接、交互和有序流動,促進多主體、多場景使用,可產生無可限量的經濟和社會價值。在國家公共資源交易服務平臺的建設中,用服務思維代替項目思維,以交易數據業務特征為出發點,完成全國各地、各部委公共資源交易數據的完整歸集和交換共享,按需同步更新,是發揮數據價值最大化的必要環節。作為該政務大數據工程的組織實施者,本人還原其數據交換設計思路和實施難點,希望對不同行業構建政務大數據的整合共享提供參考。
在所有應用場景中,市場主體是交易活動的發起者、組織者,也是交易行為的直接參與者、實現者,而交易行為通過不同階段的數據體現。因此,公共資源交易數據歸集與交換內容應圍繞市場主體的交易活動進行,表達出從入場登記到成交的全周期,覆蓋相對成熟的交易領域,如圖1所示。

圖1 公共資源交易數據歸集領域與交換內容示意圖
目前國家公共資源交易服務平臺正式運行,完成了工程建設招投標、政府采購、土地使用權出讓、礦業權出讓、國有產權交易五個領域的數據從各省和各領域主管部委向國家級平臺的歸集,并面向社會提供服務,進一步挖掘交易數據的業務價值,如交易信息公開對市場主體招投標的參考價值、數據流動共享對簡化招投標流程的價值、交易市場主體行為動態趨勢等。
一是源頭多樣業務特征明顯,數據海量實時更新;應用驅動數據共享內容,體系結構動態擴展。全國600多個地市級交易系統生產的電子化數據形態各異,招標公告、中標公示等在地市、省、國家各級媒介均要求數據生成當天發布。五交易領域僅2021 年成交的項目數量已超110 萬個,呈現出逐年遞增趨勢。隨著2019 年底《公共資源交易目錄指引》的印發,以及加強公共資源交易全流程電子化的要求,海洋資源交易、林權交易、排污權交易、碳排放權交易、用能權交易等越來越多領域納入電子化范圍[2],要求現有公共資源交易數據體系具有動態擴展能力。
二是數據質量暫不盡如人意,確權與定位困難重重;數據交換雙向需求不同,多種時間標識易混難辨。目前源頭提供的數據存在各種問題,如金額填成手機號碼、萬元與元不分、來源平臺混亂等,對于后續應用造成很大困擾。數據源頭的確權、錯誤數據的定位、錯誤信息的反饋都有一定難度,閉環效果不理想[3]。數據在國家層面主要支撐宏觀的統計、分析、對比、決策、監督等應用,在地方層面多用于簡化微觀的交易業務過程;多種時間標識分別代表不同業務含義,如中標時間、發布時間、上傳時間,前兩者表示業務交易時間和公示時間,后者為校驗核對的數據時間戳。
按照“運用大數據加強公共服務”的戰略[4],設計圖2 所示公共資源交易數據交換共享整體架構,由數據來源層、數據交換層、數據歸集層、數據治理管理層、數據應用層構成,從來源逐層逼近公共服務應用,各層均遵循統一的公共資源交易平臺系統數據規范,以及數據安全要求。

圖2 全國公共資源交易數據交換共享整體架構圖
數據來源層包含地方和中央范圍的交易數據。地方數據由地市級電子交易系統產生,按數據規范抽取轉換后實時推送至31省級電子服務系統,省級通過數據交換層的接口交換實時傳輸至國家公共資源交易服務平臺;中央數據由財政部、自然資源部、商務部、國資委等通過庫表交換完成。數據歸集層完成對國家平臺緩存庫數據的存儲、校驗、反饋、考核等事項,并將結果反饋給數據來源;數據治理管理層對原始數據進行質量提升后形成基礎庫,再結合交易業務需求重新組織數據結構,形成主題庫、主體庫、共享庫、標簽庫等,支撐最上層的服務應用。
地方數據的明顯特點是異地來源多樣、數據格式多樣、省平臺技術架構多樣、省側和國家側數據庫類型多樣。針對以上特點,設計圖3 所示的地方多來源數據接口交換模式,實現在同一網絡環境中多來源數據的自動采集和校驗,支持兩側不同數據庫類型,實時交換傳輸。

圖3 地方多來源數據接口交換模式示意圖
該模式包含接口程序、數據交換軟件、前置機。接口程序多省復用,根據省平臺主流的B/S架構、J2EE和.NET提供標準API接口和WebService接口服務,部署在省平臺側,實現數據校驗、上傳、異常反饋、數據獲取等功能。省平臺上傳數據時,調用接口程序先啟動數據一次校驗,將長度異常反饋省交換庫告警,并將數據打包成XML格式自動寫入省前置機,觸發數據交換軟件傳輸到國家前置機,寫入國家平臺緩存庫,此時完成數據解析執行二次校驗,攔截不符合規范的異常數據反饋到省前置機,正常數據則寫入國家平臺基礎庫。
接口程序充分利用代碼字典表達不同信息,如3~4位數字組合表示不同類型的表,其中第1、2位區分交易領域,第3 位區分交易階段,第4 位表示該領域為新增;用0、1、2 表示數據的新增、修改、刪除;用3 位數字100-999區分校驗異常的不同類型和錯誤,用0開頭的4 位數字組合區分來源平臺等,所有代碼組合均滿足擴充設置,支持交易領域的隨時增加。接口程序可實時核查省平臺某時間段的數據上傳量、成功量、失敗量、失敗原因;數據交換軟件可實時核查某時間段省前置機的數據量、國家前置機的數據量,及兩側的交換數據比對。
中央范圍交易數據來源于各交易領域主管部委,特點是部委已完成校驗治理,數據質量高,無須轉換,但均需從互聯網擺渡到政務外網,再經前置機交換至國家公共資源交易服務平臺,部委側和國家平臺側數據庫類型不同但數據結構一致。針對以上特點,設計圖4部委來源數據的庫表交換模式。這種模式為庫表的點對點交換,以數據源側數據為準,接收方不做校驗。

圖4 部委來源數據庫表交換模式示意圖
該模式復用每個部委已配備的整合共享前置機和數據交換軟件。通過配置庫表交換任務,設置部委交換庫、國家平臺緩存庫,開通數據傳輸端口,由實時插入部委交換庫的數據觸發交換任務,進行數據的自動傳輸。交換軟件雙側表結構必須設置主鍵和交換時間字段。主鍵標識數據的唯一性,用以監測、定位核查;交換時間應設到秒級,是交換軟件判斷是否自動傳輸的標識字段,也是核對數據量的時間參考。
數據下行共享時,國家平臺向地方提供治理過的主體成交記錄數據,質量高且完全符合規范。不同省、地市對數據的需求、用途各不相同,因此國家平臺提供rest 接口服務模式,地方按需調用或者直接集成在系統中支撐業務。該接口服務支持地市級交易平臺直接調用,也支持通過省級交易平臺逐級調用,由國家平臺控制資源使用方的日調用量和峰值,并監測接口運行情況。
數據規范是交換共享的依據和約束,適用于全國公共資源交易平臺系統間交換共享交易數據[5]。為了保障數據的一致性和可用性,地方來源數據均需在上傳前按照規范抽取約定的內容,完成格式的統一,如字段類型、金額單位、交易時間的轉換,數值小數點的取舍等,只有通過國家平臺按規范設置的校驗規則,才能成功交換到國家平臺存入基礎庫。數據規范體現出不同交易領域的業務特性,也具有不同交易領域的通用性和擴展性。
為了標識地方數據的唯一性和來源省份、交換時間等特征,接口程序設計了由區域碼、時間碼、流水號共25位組成的數據交換標識碼,其中二位數字組合表示31 省和兵團的區域碼,用年、月、日、分、秒、毫秒共17 位數字表示數據傳輸交換的時間碼,從000001~999999的六位數字構成不重復交換順序碼。除了交換標識作用,該碼對于數據治理管理層、應用層的數據分類、統計、多維分析、分省業務判斷等也具有重要參考意義。
部委來源數據的庫表交換模式中,通過跟蹤數據量來判斷交換過程正常與否,通過主鍵定位異常數據。交換異常的反饋集中在兩個環節,一是部委側跨網交換,網閘對于大對象的長文本存在傳輸失敗現象,需要定時跟蹤;二是監測環節中數據量不一致時,應從后往前核查,補充丟失數據。
從來源層到應用層,數據安全貫穿始終。網絡層面,所有數據的交換傳輸均通過國家電子政務外網完成,充分利用政務外網安全設備和策略保障。數據層面無敏感信息,交易業務數據均屬公開范圍,但當批量數據相互關聯時可產生較大的業務價值,故在應用層采用了日訪問量限制、每分鐘訪問量限制等反爬策略,若監測到某IP 地址訪問次數達到上限,列入黑名單自動封鎖三小時。
合理應用區塊鏈的去中心化、防篡改等特點,可以解決交易數據交換共享中的確權或溯源問題,推動數據質量提升。然而,區塊鏈的高資源消耗也應充分考慮。作為分布式賬本技術,區塊鏈要在鏈上多個節點的本地存儲完整的歷史數據,顯然海量且冗余的交易數據,不宜都上鏈占用大量資源;數據上鏈時的簽名、哈希計算、打包等,以及對應的解析、恢復等操作,計算開銷也必不可少。所以,什么數據上鏈、上什么鏈、怎么結合已有基礎設施是該技術應用的關鍵。
結合交易數據特點,應選擇有價值需求、有共享需求、有協同處理需求、有審計需求的數據按規范格式化處理后上鏈。因政務外網已有級聯式網絡,故采用基于政務外網的地市、省、國家三級組成的聯盟鏈;鑒于交易數據的海量和區塊鏈的高資源消耗,采用數據上行仍按原模式傳輸合并鏈上監測互驗、數據下行根據鏈上需求開放共享的模式。
數據上行時,地方源頭單位僅選擇監測日志和增刪改記錄,將哈希值結合來源平臺、簽名打包上鏈傳輸,可完成數據的確權、追溯、變動、審核;鏈上日志點對點廣播給對應省平臺和國家平臺節點,不做全鏈廣播以減少網絡負荷。數據下行時,將市場主體成交記錄、交換日志的哈希值,由國家平臺節點上鏈做全鏈廣播,并將地方節點的共享需求與應用情況同步上鏈,方便數據按需流動和后期使用跟蹤分析。這種模式將成本、效率和安全取得相對平衡。
截止目前,接口交換和庫表交換模式已在全國形成穩定的數據動態更新和同步機制,交換收集公共資源交易數據量超2 億條,按年涉及交易項目超100 萬個、交易額超19萬億元、主體80萬家左右,推動了全國公共資源交易數據樞紐為社會需求服務,以及交易數據要素在全國范圍的流動,提升了公共資源交易業務協同效率。強化公共資源交易數據業務特征的交換共享模式,對于不同行業實現政務大數據的整合共享具有一定參考價值。隨著區塊鏈等新技術在交易領域的研究,提升源頭數據質量的創新交換共享模式將會帶來更多碰撞。