□ 課題組
數字化改革是指統籌運用數字化技術、數字化思維、數字化認知,把數字化、一體化、現代化貫穿到黨的領導和經濟、政治、文化、社會、生態文明建設全過程各方面,對省域治理的體制機制、組織架構、方式流程、手段工具進行全方位、系統性重塑的過程,從整體上推動省域經濟社會發展和治理能力的質量變革、效率變革、動力變革,在根本上實現省域整體智治、高效協同。
公共數據是指國家機關、法律法規規章授權的具有管理公共事務職能的組織以及燃氣、水務、電力、公共交通、民航、鐵路等公共服務運營單位在依法履行職責和提供公共服務過程中獲取、產生的數據資源。
公共數據統計化是指利用公共數據輔助或完全替代政府統計調查,關鍵是在統計報表制度設計階段將行政記錄等公共數據確定為統計調查內容,并保持統計調查指標口徑與行政記錄一致。
首先,公共數據融入現代統計數據生產體系已成為一個重要命題。黨的十八屆五中全會首次提出實施“國家大數據戰略”,同年《促進大數據發展行動綱要》發布?!笆濉币巹澖ㄗh提出“實施國家大數據戰略,推進數據資源開放共享?!薄秶医y計局大數據應用工作方案(2021年修訂)》提出在核算、工業、能源、投資等領域廣泛使用部門行政記錄、互聯網電子化數據等大數據作為常規統計調查數據的補充。這就提出了一個重要命題:如何將公共數據融入現代統計數據生產體系,實現與政府統計產品的高度契合。
其次,數字化改革為釋放公共數據的“統計價值”創造了條件。隨著浙江數字化改革的縱深推進,省市縣數以億計的公共數據向公共數據平臺匯聚,為直接或間接應用于統計調查提供了可能。截至目前,已建立全省統一的公共數據資源目錄,累計編制目錄數據項178.3 萬項。省公共數據平臺累計歸集數據761.7億條,涉及醫療衛生、社保就業等20 余個領域。統一建設人口綜合庫、法人綜合庫、電子證照庫、信用信息庫、自然資源和空間地理信息庫等五大基礎庫等。利用一體化智能化公共數據平臺大數據分析處理能力,以提供數據接口和批量共享方式,累計共享調用數據471.98 億次。同時,全省已開放1.88 萬個公共數據集、57.4 億條數據。
同時,公共數據統計化意義重大。主要表現為:有利于豐富數據獲取來源,甚至替代傳統統計調查方式,比如住戶調查中,可以直接調取樣本中低保戶的低保補助收入;有利于依托行政記錄驗證基層統計數據,比如可以利用企業用電量等指標評估制造業PMI(采購經理指數)與相關經濟指標的擬合度,有利于減輕統計調查負擔,降低工作成本;如直接將行政記錄用于統計調查,有利于提高數據的時效性;比如直接利用各地公共數據平臺時時更新的房地產交易數據。
課題組對國家調查隊系統承擔的各個統計調查專業開展了問卷調查,經匯總和梳理分析,目前在統計調查各環節對公共數據均有需求,獲取方式不一。
設定統計調查抽樣框需要相關公共數據作為支撐。比如:畜牧業調查需要使用“農普”數據選定抽樣框;住戶調查和勞動力調查需要使用鄉、村行政區劃設置等數據選定抽樣框;企業調查樣本框更新和擴樣需要使用名錄庫相關數據。此類支撐數據獲取方式一般由相關部門直接提供或向相關部門索取。
一些公共數據可直接成為政府統計產品。比如:房地產價格調查直接使用住宅銷售網簽備案數據;政府定價或指導定價的規格品包括水、電、燃氣、教育服務等價格數據是消費價格調查數據來源。目前,此類數據的獲取方式一般有兩種,一是由相關部門直接提供,二是通過調查員直接采集。
評估校驗統計調查數據需要引進相關公共數據作為“因子”。如糧食調查數據評估需要使用耕地面積增減、規模戶補貼發放等情況;現有住戶調查評估辦法引入GDP、“兩項薪酬”等作為評估指標;工業生產者價格調查使用重要生產資料市場價格變動情況等評估價格走勢。此類數據獲取方式一般有三種,一是由相關部門直接提供;二是通過公共數據平臺等查詢;三是利用生意社、卓創咨詢等網站收集的數據,比如大宗商品價格走勢等。
統計分析時使用的公共數據種類較多,范圍較廣。比如住戶調查統計分析常使用農村電子商務、培訓崗位人數等數據;勞動力調查常使用城鎮登記失業率、高校畢業生及就業情況等數據。此類數據既可通過公共數據平臺、網站等各種平臺查詢,也可從統計年鑒、部門內部資料等獲取。
目前浙江省正全面打造并基本建成省市縣一體化智能化公共數據平臺。課題組以麗水市為例,選取部分調查專業的數據需求,在公共數據平臺發起數據需求申請,測試數據獲取路徑,場景化探索公共數據在統計調查中的應用。
分別選取公積金中心《住房公積金個人繳存信息》、稅務局《個人所得稅自行納稅申報信息(A表)》、醫保局《職工醫保年度賬戶信息》《醫保待遇報銷信息》共四個數據目錄進行需求整理,經比對《住戶收支與生活狀況調查方案》(2021年)發現相關數據可進一步利用。公積金個人繳存數據目錄中通過“個人繳存比例”和“個人繳存基數”測算出的“個人月繳存額”,可應用于“轉移性支出-個人繳納的住房公積金”的數據比對;個稅數據目錄中應納稅額、減免稅額、應補(退)稅額等指標,可應用于“轉移性支出-繳納所得稅”的數據比對;醫保數據目錄中的醫保支出費用可應用于“轉移性收入-報銷醫療費”的數據比對,通過與醫保局工作人員對接,相關數據可按月統計。(表1)

表1 住戶調查所需的部門數據情況
經與以上三個數源部門對接,均表示相關數據目錄有歸集數據,但由于獲取的是個人賬戶信息,首先需要個人身份授權,后續還需通過部門內部審批流程才能確定是否能提供。常用的方式有兩種,一是提供住戶調查樣本的身份證件信息,由數源部門定期將相關數據項進行推送;二是讓數源部門開放相應數據查詢接口,通過調用數據進行匹配查詢。
選取自然資源局、農業農村局、氣象局等三個數源單位進行需求對接。
1.自然資源部門每年利用衛星遙感、云計算等技術,統籌利用現有資料,開展遙感監測,組織實地調查舉證,更新縣級國土利用數據庫,形成年度國土變更調查成果(《土地利用現狀地類圖斑》),這一主題數據可以應用到耕地等基礎數據核實中。根據保密要求,使用相關圖斑信息需要簽訂保密協議,并按照規定使用。
2.農業農村局的種子目錄如《種業直報-冬小麥種子生產供需情況調查信息》《春夏播種子企業備種情況統計信息》等數據可用于糧食產量監測調查關于糧食生產總體趨勢變化評估等,且相關數據均可獲取并使用。(表2)

表2 糧食產量調查數據評估所需的農業農村部門數據情況
3.氣象局目前有《氣象災害預警信號信息》主題接口,可應用于糧食產量調查農情趨勢評估,為糧食單產增減提供參考。該數據目錄無條件開放提供,通過數據接口的方式自動推送至需求部門相應的業務系統。(表3)

表3 糧食產量調查數據評估所需的氣象部門數據情況
選取發展改革委、商務局相關數據目錄進行需求對接。
1.《重點監測企業運行預期指數信息》主要為季度數據,該數據目錄通過對重點工業企業開展問卷調查,形成相關統計數據和分析報告。該部門數據內容可用于采購經理調查趨勢評估,相關數據可提供政府部門內部研究使用,但不對外使用。
2.商務局《商務經濟情況表》中關于進出口總額指標有助于采購經理調查相關指數趨勢評估,該數據目錄為月度數據,可直接獲取使用。
雖然《統計法》對獲取部門有關統計資料有明確規定,但是在實際操作中,仍存在不少困難。如《個人信息保護法》第二十三條明確:個人信息處理者向其他個人信息處理者提供其處理的個人信息的,應當向個人告知接收方的名稱或者姓名、聯系方式、處理目的、處理方式和個人信息的種類,并取得個人的單獨同意。當前,數據的價值得到越來越廣泛的重視,人們對個人隱私的重視程度也日益增加,如何界定統計部門可獲取的數據范圍,是公共數據創新應用的關鍵環節和難點所在。
一方面,各個統計部門自成“一派”數據采集處理結構方式影響數據共享。調查隊系統除農民工監測與住戶調查共用調查村(社區)網點外,其余專業均采用獨立的調查方式以及填報平臺,如同樣是入戶PDA 調查,月度勞動力、農民工等采用不同軟件系統。統計局和調查隊之間聯網直報平臺重復建設、數據未共享的問題更為突出。另一方面,統計部門與其他部門間未形成高效便捷的數據共享應用機制。如部門數據共享主要通過郵件、浙政釘等方式,未實現在線集中安全存放。
各部門的統計分類標準、內涵、體系不盡相同,導致相關數據要求和統計口徑不完全統一,造成數據互不銜接、公共數據無法有效利用。一是不同的取數方式、取數時間影響公共數據的利用率,如“重點監測企業運行預期指數”為季度指標,而PMI 是月度指標;二是不同調查方法、報送體系導致相關公共數據難以高效利用,如“種業直報-相關種子信息”數據來源方式與統計調查部門的抽樣調查或取數方式不同;三是部門間數據上報時間不同,在數據利用時間上會有較大的滯后性。
《個人信息保護法》第十三條規定:“為履行法定職責或者法定義務所必需的,個人信息處理者可以處理個人信息。”《統計法》第二十二條規定:“縣級以上人民政府有關部門應當及時向本級人民政府統計機構提供統計所需的行政記錄資料?!币獜呢炌ㄟ@兩個法律相關條款出發,以修訂《統計法》為契機,賦予統計部門收集行政記錄的資格、權利和義務,明確相關部門向統計機構提供個人信息等行政記錄的內容和要求。
在統計標準方面,需各級各地各部門嚴格使用《統計分類標準和目錄匯編》,構建跨部門、跨專業的“大標準”體系,將行政記錄等轉換為標準化數據,解決數據互通性、銜接性問題。在統計制度方法方面,要立足推動行政記錄、文本、圖像、音頻等數據的統計應用,修訂統計制度方法。比如,由政府定價或指導價的水電等價格,可修訂制度方法,直接利用數據平臺獲取數據。
一是探索開展匿蹤私密查詢。在使用個體身份信息從公共數據平臺等外部數據平臺獲取相關數據時,運用不經意傳輸技術(Oblivious Transfer-OT)進行匿蹤私密查詢,實現隱私保護前提下,滿足數據需求。二是強化公共數據的加密保護。如替換使用安全可靠的https 協議,使用商用密碼對數據進行加密保護,實現傳輸過程數據泄露風險最小化。三是廣泛運用多方安全計算、聯邦學習等前沿信息技術,打消數據鏈的不同環節對數據歸屬、數據安全和隱私保護的顧慮。
將國家及地方聯網直報平臺、省市縣各級公共數據平臺等各類數據平臺,通過應用接口或多方安全計算等數據獲取或分析處理方式,整合各級、各部門統計數據資源,通過聯邦機器學習、人工智能等技術監控數據質量問題。實現以平臺為依托統一各類統計數據口徑,統一應用接口標準,一體化完成統計數據處理,并實現數據處理全鏈路跟蹤,使各個處理環節更加標準化、規范化、制度化,提高統計數據的一致性、可靠性、重用性。
公共數據是一座“富礦”,統計調查部門應以推進數字化改革為導向,以建設統計大數據應用中心為契機,加快部署建設統計云。至2025年基本建成綜合統計數據應用平臺并與公共數據平臺完成對接,逐步轉變單純依靠“我布置、你填報”的傳統數據采集方式,部分數字化程度較高的統計調查專業優先實現完全的公共數據統計化;至2035年建成“統計標準全面統一、綜合統計數據應用平臺與公共數據平臺互聯互通、各部門各專業數據互相融合”的數字化、實時化、智能化數據采集共享系統,各統計調查專業全面實現公共數據統計化,統計工作方式從依靠有目的的調查采集全面轉向對數據的分析挖掘。