近年來,浙江省全力推動一體化智能化公共數據平臺建設,形成省市縣三級貫通,并與國家平臺實現互聯的數據平臺體系。通過統一的數據平臺實現了數據生產、存儲、加工、治理、共享、開放的一體化,促進公共數據資源“用起來”“動起來”“活起來”

近年來,浙江省全力推動一體化智能化公共數據平臺建設,形成省市縣三級貫通,并與國家平臺實現互聯的數據平臺體系。通過統一的數據平臺實現了數據生產、存儲、加工、治理、共享、開放的一體化。
強大的數據平臺是數據“用起來”的支撐。目前,數據平臺有40 萬—50萬臺PC 機用戶,它們既是數據來源,也是數據用戶。后臺有接近萬臺物理服務器,整個服務體系服務超過1 億用戶,包括205 萬名浙江省有關工作人員,包括黨委、人大、政府、政協、公共服務單位人員等。平臺歸集了全省的公共數據,成為數據要素“用起來”“動起來”“活起來”的基礎。數據服務,更多是數據流服務,是動態服務,也有靜態的數據產品。但動態化的數據流服務是數據服務的主流。研究分析數據產品和數據服務時,要摒棄傳統靜態化思維,要有數字化、網絡化的線上思維。
統一的目錄管理體系是數據“用起來”的保障。構建全省統一的公共數據目錄,將黨委、人大、政府、政協、兩院、公共事業等所有單位的數據進行歸集,形成“一套目錄、兩級建設、三級運營”數據資源管理系統,已累計編制目錄數據項287.3 萬項,其中省級28.4 萬項、市縣級258.9 萬項,基本實現應編目盡編目,實現全省公共數據資產“一本賬”管理。
批量歸集和“數據高鐵”是數據“動起來”的兩大路徑。一是通過批量共享,按時間、分批量將每個單位的數據都歸集到一個數據倉庫里,目前集中共享數據占數據使用場景的一大半。二是建設“數據高鐵”,即數據實時交換系統,任何一個系統出現數據變化(包括新增和變化)時,都通過“數據高鐵”實現同步更新,有效促進數據“動起來”。需要強調的是,數據的集中并不一定意味著安全風險的上升,分散的數據更容易產生風險。
分級分類是數據“用起來”的基礎。數據產品與一般產品不同,歸集后不能直接使用,需要針對不同數據產品進行分級分類管理。按照全國信安標委《網絡安全標準實踐指南——網絡數據分類分級指引》,浙江制定了《數字化改革 公共數據分類分級指南》地方標準,將所有字段按照L1、L2、L3、L4 分成四類。比如人口戶籍數據表(如圖1),身份證號碼、姓名等字段列為敏感(L4),泄露之后可能對人的名譽造成傷害的字段列為較敏感(L3)。

圖1 人口戶籍數據表
數據共享與開放是數據“用起來”的核心。數據共享主要包括批量共享、接口共享等兩種方式,其中批量共享是定時把更新的數據批量共享數據需求方,接口共享可以實現數據的實時調用。截至目前,浙江省平臺開發接口5007 個,2022 年1 月至今被調用801.1 億次。數據開放主要是依托一體化智能化公共數據平臺建設全省統一數據開放網站,11 個地市建立數據開放分站點,包括注冊實名后即可申請直接下載或接口服務的無條件開放,以及需要申請審核的有條件開放兩種方式。
授權運營是公共數據發揮價值的重要方式。制度層面,浙江省大數據局正在積極推動《浙江省公共數據授權運營管理暫行辦法》制定工作,將著力解決“誰來授權、授權給誰、怎么授權、授權什么、授權數據怎么用、如何安全監管和激勵評價”等六方面問題。技術層面,在線使用是數據要素與其他商品的重要區別,目前浙江正在一體化平臺架構體系里開發建設授權運營域系統,包括省、市兩級授權運營域。數據交易場所可以在授權運營域中建設節點,從而實現交易所、用戶與公共數據平臺之間的數據流通。
數據安全是數據“用起來”的底線思維。整個數據價值利用中最重要的是底線思維,即確保數據安全。目前,浙江省大數據局正在圍繞“進不來、拿不走、看不懂、改不了、賴不掉”等“五個不”,進行技術能力、管理體系和運營體系的建設。聚焦“五個不”,通過重點數據表設置分類分級、權限管控、數據加密、數據脫敏、數據水印等七大能力,推進重點數據表全鏈路防護。
公共數據平臺在確保公共數據安全前提下,實現高質量數據供給,促進數據受控高效流通使用,推動可信數據賦能,激活數據要素價值。公共數據平臺通過數據知識化管理,為政務大模型提供海量高質量數據支撐。政務大模型通過提供智能化、多樣化服務,提升公共數據平臺智能化水平。
現在大模型火爆發展,但真正用起來需要解決兩大問題,一是價值觀的對齊,使用不同數據訓練出來的模型可能會具有完全不同的價值觀。二是確保數據安全,需要進行私有化部署,這其中既涉及新開發大模型的產權歸屬問題,還涉及公共數據運營需要破解的問題。當前的大模型基本都是語言模型,需要經過一定時間訓練應用才能真正發揮作用。直接依據互聯網數據新開發的大模型,沒有精準優質數據的支撐,是無法直接支撐嚴肅的業務活動的。
下一步,圍繞激活數據要素價值,浙江省大數據發展管理局將主要開展兩方面工作。一是以“一機制、四清單”為抓手,完善需求征集分析機制,做好回流數據質量治理清單、數據產品開發清單、重點開放數據需求清單、數源單位數據治理及業務數字化建議清單等“四清單”管理;二是建立健全公共數據全鏈路防護體系,依托浙江省公共數據平臺建設自然語言處理、知識圖譜兩大能力中心,探索建設政務大模型,提升平臺智能化水平。