章燕寶
隨著大數據、物聯網、5G、人工智能等新一代信息技術的發展,數據不僅成為社會經濟發展的新型生產要素,更是國家基礎性、戰略性資源。 各級政府部門及履行公共管理和服務職能的企事業單位在依法履職過程中采集和產生的數據資源,無論在數據規模、質量及種類上都占有核心優勢。 加快政府公共數據資源開放,鼓勵社會機構和個人開發利用公共數據成為各國的共同選擇。2009 年美國率先提出“開放政府”計劃并搭建全球首個政府數據公開平臺Data.gov,此后,英國、法國、德國、加拿大等國家也紛紛制定和實施本國的政府數據開放計劃。 2013 年G8 峰會上領導人共同簽署的《開放數據憲章》,標志著開放政府數據成為全球共識。
相比之下,我國數據開放起步的時間較晚,2015 年國務院在《促進大數據發展行動綱要》中提出穩步推動公共數據資源開放,正式拉開公共數據開放的序幕。2020 年4 月,國家發布《關于構建更加完善的要素市場化配置體制機制的意見》,提出加快培育數據要素市場,推進政府數據開放共享。 與國外由國家統一頂層設計、 自上而下推動不同,我國公共數據開放是地方先行。 2018 年,中央網信辦、國家發改委、工信部聯合印發《公共信息資源開放試點工作方案》,確定在北京、上海、浙江、福建及貴州五地開展公共信息資源開放試點,此后數據開放在我國各省市如雨后春筍般迅速鋪開。 截至2020 年4 月,我國已有130 個省級、副省級、地級政府上線了數據開放平臺。 全國開放數據集總量從2017 年的8398 個迅速增長到2019 年的71092 個,增幅近8.5 倍[1]。
為推動廈門公共數據開放,2019 年, 廈門大數據安全開放平臺正式上線, 成為構建大數據開放應用生態的重要載體。 本文首先梳理廈門公共數據開放取得的成效和開放特點, 然后采用比較分析方法,對標國內先進省市,找出廈門公共數據開放存在的不足, 并對推進公共數據持續開放提出若干建議措施。
數據開放的基礎是數據共享。 2003 年,廈門市在全國率先開展政務信息資源跨部門共享協同,經過17 年持續推進,廈門成為全國首個政務數據互聯互通共享無障礙城市。 實現了市直及6個行政區所有單位的全覆蓋,建立了市民、法人、空間、證照、信用、健康、交通、旅游及公共安全等相關數據資源庫,實現人口、工商、社保、醫保、就業、民政、交通及空間規劃等主要業務數據的實時動態共享。目前信息資源目錄已超過11000 個,為數據開放奠定了堅實基礎。 2017 年3 月,廈門市出臺《廈門市促進大數據發展工作實施方案》,提出構建政產學研用多方聯動、 協調發展的大數據產業生態體系。 2019 年5 月,廈門市大數據安全開放平臺正式上線。 截至2020 年6 月,該平臺共開放數據集709 個,服務接口302 個,應用12 個,算法8 個,總訪問量473190 人次,用戶總數2831人。
(1)重視安全可控
廈門市大數據安全開放平臺率先在全國引入“數據安全屋”技術,實現數據所有權與使用權分離,做到開放數據“可用不可見”,解決了政府數據開放“最后一公里”問題。 平臺還搭建了基于區塊鏈技術的統一第三方授權平臺, 并與廈門大學法學院合作共同擬定數據使用與保密承諾書、 數據授權等協議,確保數據開放過程合規合法。
(2)突出需求導向
廈門以應用為驅動,優先開放與市場主體、民眾利益相關的數據, 成功對接了以信用數據為主體的銀聯普惠金融、 信易貸和以選址模型為主的商業選址等典型場景。以普惠金融平臺為例,通過將脫敏后的個人及企業數據、 金融機構業務數據和金融風險評估算法模型放入“數據安全屋”,運算輸出信貸風險評估報告, 不僅為金融機構審批決策提供依據,極大提高銀企信貸撮合成功率,還極大減少貸款人多頭開具證明。
(3)打造數據生態圈
廈門以開放平臺為載體、以數據為牽引,通過網站引流、公眾號海報裂變等多種形式,吸引數據服務、模型算法開發、大數據應用開發企業和機構入駐平臺,構建“開放+安全+生態+服務”的數據開放生態。 截至2020 年6 月, 已有來自北京、深圳、上海、杭州及廈門本地的高校、企業事業單位、科研機構等75 家單位加入生態圈。
(4)利用比賽促開放
2019 年廈門成功舉辦“中國人工智能·多媒體信息識別技術競賽”, 賽后開放了9 類20 條訓練數據, 在技術層面和數據層面均有力地促進廈門數據開放工作的進展。 2020 年舉辦“智繪交通,數創未來”為主題的專題競賽,以“揭榜掛帥”機制為牽引,通過開放定向交通數據,征集解決方案和算法模型,用數據提升政府社會治理能力。
雖然廈門具有數據基礎好、起點高的優勢,但由于啟動時間晚,在已搭建數據開放平臺的86 個地級(含副省級)市中,廈門排名第48[1],仍有較大的發展和進步空間。
關于地方政府公共數據開放績效的評價,學者們已經開展了較為豐富的研究[2-4]。 其中,以復旦大學數字與移動治理實驗室聯合國家信息中心數字中國研究室構建的準備度、平臺層、數據層、利用層4 個維度16 級評估指標體系最為完整,基本涵蓋了現有研究的主要指標。同時,該機構還定期對各城市開放情況進行量化評價, 這為本文構建分析指標和尋找對標省市提供了參考。 鑒于本研究的目的是發現廈門公共數據開放存在的不足,并不涉及對不同城市進行比較排序,因此本文剔除了有效成果數量等利用層指標,從準備度、平臺層和數據層3 個維度構建對比指標, 并將對應層次排名前二的省級城市和地市級(含副省級)城市作為比較對象。

表1 對比指標和對標省市
(1)準備度4
從表2 可發現,廈門與上海、浙江、福州、貴陽相比在準備度上差距較大。 首先,在組織保障上,廈門同上海較為相似,均由經(工)信部門負責,但在職責方案中,廈門僅提出推動政務資源共享和業務協同,并未就數據開放相關工作提出方向。 其次,在政策法規、標準規范、工作計劃/實施方案等方面,對標的省市幾乎都有較為完善的系統規劃。 其中,《上海市公共數據開放暫行辦法》是我國第一部針對公共數據開放的地方政府規章, 而福州不僅出臺了數據開放管理暫行辦法、政務數據資源共享開放考核辦法,還細化了工作方案,每年發布政務數據開放計劃。 相較之下,廈門的頂層設計和制度保障較為薄弱,仍有很大的進步空間。

表2 準備度比較

表3 平臺層比較
(2)平臺層
從表3 可見,上海、浙江、深圳、貴陽、廈門在平臺建設中既有相似之處又各具特點。 以數據發現為例,上海、浙江、深圳、貴陽均在平臺首頁提供按領域、主題、部門或場景等分類的數據導航,且上海還在首頁顯示最近更新的數據集、API 和APP, 而廈門大數據安全開放平臺除了提供按主題分類的數據導航, 首頁更多展示的是開放平臺技術架構和數據開放生態模型, 雖能突出安全開放、生態合作理念,但對用戶而言還需通過一級菜單才能發現數據,且未提供開放資源目錄,不利于直接索引數據。此外,對標省市還在關聯數據自動檢索、利用成果提交展示、建議反饋公示等方面提供了許多特色做法。
(3)數據層
截至2020 年8 月, 廈門開放數據總量共11.56 萬條,同深圳3.32 億條、貴陽144.64 萬條相比,差距很大。就數據質量、開放范圍而言,廈門已開放數據未能入選優質數據集[5],在14 個常見數據集、5 個關鍵數據集中廈門僅有7 個和2 個,而浙江、山東已開放了全部常用數據集,深圳和貴陽則開放了所有關鍵數據集。 此外, 在廈門開放的805 項數據目錄中,數據量≤3 的有556 項,低價值數據占比69.1%。 在數據規范方面,浙江、山東、深圳、 貴陽不僅提供CSV、XML、JSON 等可機讀數據格式,還提供RDF 下載格式,對單個數據集還提供了詳細的元數據和API 調用說明, 有助于數據利用者發現和鏈接相關數據資源, 實時調用海量數據。
(1)組織保障
公共數據開放涉及眾多政府部門, 利益、安全、隱私等多種因素交雜,不愿、不敢、不會開放問題多,協調難度大。建議成立市公共數據開放領導小組,建立跨部門統籌協調機制,定期發布數據開放計劃, 將部門開放數據的評議結果與部門績效考核相結合,不斷提高數據治理意識。
(2)法規政策
廈門亟需加快數據開放相關立法工作, 對開放流程、平臺建設、安全保護、考核監督等方面做出明確規定和要求, 為促進和規范廈門數據開放和利用提供法制保障。
(3)制度設計
組建由大數據和各行業領域專家組成的公共數據開放專家委員會,發揮專業力量優勢,圍繞數據開放原則、體制規范、數據分級標準、數據使用責任與權益等關鍵要素,盡快出臺實施細則,制定相關地方標準和技術規范。
(4)資金保障
公共數據開放已經成為數據時代信息化發展的重要項目。在未來新型智慧城市建設中,建議主管部門將信息化工作重心從開發應用轉向數據治理,將原用于此類應用的預算向數據開放傾斜,加大對公共數據開放的支持力度。
(1)數據發現
建議在平臺首頁發布最新更新的數據集、API和APP。加快梳理廈門數據開放資源目錄,將普通開放、授權開放、不能開放的政府數據目錄向社會公布。 充分應用人工智能技術增設關聯數據推薦功能,實現數據預覽及可視化分析等。
(2)利用成果
發揮好大數據安全開放創新應用大賽作用,引導各類主體基于開放數據開展科技研究、 產品開發、數據加工等活動,不斷豐富成果類型、數量和主題覆蓋面。推動比賽成果應用轉化,成立項目推廣小組,協助參賽團隊與相關需求政府部門、企業、投資機構對接,促成項目落地。 加大利用成果宣傳展示,支持各類用戶在平臺提交成果,對市場價值顯著的利用成果進行示范展示。
(3)用戶體驗
建議平臺增設互動交流專區,拓展需求調查、問卷調查、人工或智能客服等功能,對用戶反饋的數據錯誤、權益申訴及各類意見建議,設定響應期限,并及時在平臺公示核實結果和咨詢答復。針對操作指南、數據申請、生態合作、聯系我們等高頻需求,在平臺首頁增設導航欄直連入口,提升用戶的獲得感、體驗感。

圖片來自網絡
(1)數據總量
數據開放主管部門要加大對重點行業、 領域數據開放工作的指導, 每年依據經濟社會發展需要,確定年度公共數據開放重點,各開放主體制定相應開放清單,明確開放數據類型、更新頻率等內容,不斷提升數據集的數量、容量、主題覆蓋面和部門覆蓋面。
(2)數據質量
加快推進醫療、交通、社保、就業、教育、氣象及環境等民生保障服務相關領域的公共數據資源開放。 瞄準當前常用數據集和關鍵數據集的缺失部分,補齊公共車輛位置、道路運輸、交通執法、建筑企業資質等類別數據資源。
(3)數據規范
廈門利用“安全屋”技術打造了“可用不可取”的數據開放模式, 但該模式主要服務于研究類數據需求,而目前市場廣泛需要的是服務類數據,該類數據需要API 接口提供海量實時數據, 建議在加強對API 接口監督的前提下, 降低申請和調用API 接口的難度,為開放數據提供豐富的元數據信息和詳細的使用指南。
注
1 優質數據集是指數據容量大、社會需求高的數據集。 《中國地方政府數據開放報告》(2020 上半年)對國內各地開放平臺所有可下載數據集, 按數據容量、下載量進行排序,最終選出排名前1%的數據集作為優質數據集,共467 個。
2 常見數據集來源于《中國地方政府數據開放報告》(2020 上半年),包括企業登記注冊、行政許可處罰、食品生產經營抽檢等14 類數據。
3 關鍵數據集來源于《中國地方政府數據開放報告》(2020 上半年),包括企業注冊登記、公交車輛位置、道路運輸從業資格、氣象預報預警、疫情防控5 類數據。
4 對比指標內容、 數據的查詢時間為2020 年8 月下旬至9 月上旬,下同。