王藝楓
【摘要】:從數據層面和平臺層面層面考察各個地方政府數據平臺的數據資源建設情況、平臺服務情況和使用情況進行比較研究,分析政府數據開放的現狀和不足,為我國建設全國性的政府數據開放平臺提供經驗和建議。通過調查分析,發現各地方政府數據開放平臺存在發展地區發展不均衡、數據集開放程度差異較大、用戶授權協議描述不全面、數據集的瀏覽檢索方式單一、元數據標準不統一等5個問題,同時為全國統一的政府數據開放平臺的建設提出了建議。
【關鍵詞】:政府數據開放 開放數據 政府數據開放平臺 大數據
1 引言
政府數據開放是繼政府信息公開之后政府加深政務公開、提高政府服務效率、促進政府信息資源共享和公眾對政府信息資源利用的一項重大舉措。政府數據開放是指政府在其政務活動中產生、收集和擁有的數據,這些數據是不受著作權、專利權,以及其他管理機制所限制,以機器可讀的形式開放給社會公眾,任何人都可以免費獲取和自由使用。
2 研究目的
我國政府數據開放還處于起步階段,選取幾個具有代表性的地方政府數據開放平臺,依據政府數據開放的原則、標準對選取的地方政府數據開放平臺的進行分析研究。主要從數據層面和平臺層面建立評估指標,考察各個地方政府數據平臺的數據資源建設情況和平臺服務情況進行比較研究,分析各地政府數據開放平臺的現狀和不足,為我國建設全國統一的政府數據開放平臺提供經驗和建議。
3 研究方法
3.1 研究范圍和樣本選擇
本次研究選取了部分我國政府數據開放平臺作為研究對象。篩選得到符合要求的政府數據開放平臺共27個。從27個政府數據開放平臺中選取具有代表性和滿足研究條件的平臺共16個作為研究樣本。
3.2 評估框架和指標
本研究在結合前者研究的基礎上,選擇一些易于考察、獲取和比較的指標作為評估指標。整體上分為對“數據、平臺”兩個層面上對各政府數據開放平臺之間和同一個平臺中不同主題資源之間使用的情況進行比較分析。
4 研究發現
4.1 數據層面
4.1.1 有用性
4.1.1.1 數據集總量
數據集通常是一組數據的集合,數據集的內容通常以表格形式出現,所對應的是數據庫中的表。每列表代表一個特定的變量,并且每個行對應于一個的數據樣本。政府數據開放平臺的數據集通常是可供下載的數據文件或者可以調用的API接口。
4.1.1.2 數據格式與機器可讀
機器可讀數據是可由計算機程序自動讀取和處理的數據或元數據格式。機器可讀格式包括RDF、XML、JSON、CSV、XLS等格式。對各地政府數據開放平臺開放的數據格式分析得出,基本上所以的數據開放平臺都提供了可供用戶下載的數據格式,使用的格式包括CSV、XLS、XLSX、JSON、XML、TXT、RAR、ZIP、PDF、JPG、DOC、網頁鏈接和空間數等據格式類型。
4.1.1.3 元數據
本次研究選取DC元數據和W3C發布的針對開放數據的DCAT元數據的部分元素作為基本元數據來比較各政府數據開放平臺的元數據提供情況。主要使用的元數據元素有名稱、主題、描述、關鍵字、提供方、獲取權限、發布日期、更新日期、更新頻率、下載量、瀏覽量、格式、字節大小、語種、標識符等15種基本元數據元素。目前我國政府數據開放平臺的元數據主要以描述性元數據為主,元數據的機器可讀性和互操作性相對較低。
4.1.2 可獲取性
4.1.2.1 自由下載
各地政府數據開放平臺大部分都要求需要登錄才能下載數據資源,只有少部分的平臺不需要登錄,可以直接下載數據。
4.1.2.2 提供API接口
政府數據開放平臺除了提供可下載的數據資源外,還提供部分數據集的API接口。用戶可以調用API接口開發相關的程序和應用軟件,是開放數據資源產生新的價值。選取的16個政府數據開放平臺中有12平臺開放了API接口,整體上來說大部分平臺都提供了API接口和使用說明并且形成了一定的規模,大部分平臺的API接口的調用需要向平臺提交申請。
4.1.3 開放授權
開放授權是指通過法律上保證數據的開放性,目前我國還沒有出臺關于數據開放權的法律,但各地的政府數據開放平臺都在網站的使用協議、網站聲明、免責條款或服務協議中對開放數據的使用進行了授權和約束。
4.1.3.1 免費獲取
目前我國已上線運行的政府數據開放平臺還沒有對用戶收費的項目,提供閱讀網站的使用協議、網站聲明或免職條款可以看出大部分的政府數據開放平臺都對用戶免費獲取數據資源作了說明,但是各平臺的免費范圍有所不同,可分為永久免費、現階段免費和為未明確免費期限三種。
4.1.3.2 非歧視性
只有部分政府數據開放平臺的授權協議中提到了非歧視性,其余的政府數據開放平臺未明確說明非歧視性。大部分的政府數據開放平臺都需要用戶注冊登錄后才能下載數據資源,只有少部分的平臺可以直接下載資源,注冊用戶和未注冊用戶之間的區別也是一種歧視性的存在。
4.1.3.3 自由使用
部分平臺的中聲明用戶享有基于平臺提供的數據進行商業性或非商業性的開發活動、享有增值利用或自由使用的權利。其余各平臺為申明用戶自由使用的限度,但限制用戶有償轉賣或用于商業用途。
4.1.3.4 自由傳播與分享
對于用戶的自由傳播和分享權利了大多數平臺的開放授權協議都依據現有的著作權法、專利法等相關的知識產權法進行了約束。部分平臺授權協議以知識產權法為依據限制用戶復制、傳播的權利可能會違背數據開放的原則。
4.2 平臺層面
4.2.1 易用性
4.2.1.1 檢索與瀏覽方式
檢索功能是用戶能夠通過【關鍵詞】的查找快速找到所需要的數據資源,基本上每個政府數據開放平臺都提供了使用【關鍵詞】對全部數據資源的檢索。
良好的瀏覽方式能夠幫助用戶方便快捷的找到數據資源,按照數據的主題或來源部門的分類方式進行瀏覽,同時還要按照數據發布日期、更新日期、瀏覽量和下載次數進行排列的功能。
4.2.1.2 數據預覽功能
數據預覽是用戶在下載數據前,可以在線查看數據集的全部或者部分內容,根據情況決定是否下載數據,這種功能功能能夠把數據集的一些不能通過標題等描述方式的內容呈現給用戶,使用戶能夠發現自己想要的數據資源。
4.2.1.3 數據統計分析與可視化工具
數據統計分析是政府數據開放平臺提供的對數據級的總量、分布、使用等情況的統計分析,可能幫助用戶了解平臺數據資源的構成情況和使用情況。
4.2.1.4 數據應用
政府數據開放平臺不但提供開放下載的數據資源,還展示了一些利用開放數據資源開發的應用產品。
4.2.2 交流互動
大部分平臺都提供了交流互動的功能,比如咨詢建議、問卷調查、需求調查等交流互動方式。還有的平臺提供了對數據資源的評價功能,比如給數據資源的滿意度進行打分或者評論。
6 建議
6.1 加快數據開放立法工作
數據開放的立法應當立足于開放數據的基本原則,充分保障用戶在免于授權許可的條件下自由使用、傳播、分享數據的權利,保障用戶面授歧視的情況下獲取數據。制定數據產權保護、數據開放、隱私保護相關政策法規和標準體系;制定政府數據開放、互聯網信息服務管理、數據權屬、數據管理等相關立法。
6.2 以用戶需求作為數據集開放的導向
政府數開放平臺的數據集開放要以用戶需求為導向,采用需求調查和數據申請的形式,充分了解用戶迫切需要的數據類型和數據格式。分析用戶的偏好和潛在需求,提前制定好符合用戶需求的數據集開放計劃。通過網站和社交媒體上的互動交流,采集公眾需求,不斷改進完善自身工作,并為基于政府開放數據開發的應用提供充分的展現平臺,從而激勵社會的數據利用。
6.3 使用機器可讀格式和開放格式
政府數據開放平臺應當盡可能的提供以機器可讀格式和開放格式的數據集,盡可能的為每個數據集提供至少一個機器可讀格式。如果原始數據集不是機器可讀格式或開放格式,就需要進行必要的格式轉換,將原有格式轉換成XLS或CSV等機器可讀格式或開放格式。
6.4 完善用戶授權協議
各地的政府數據開放平臺都在網站的使用協議、網站聲明、免責條款或服務協議應當詳細說明用戶的權利與義務,制定出滿足用戶對數據集自由使用、傳播、和復制的使用需求的授權協議。政府數據開放的初衷是利用已有的數據集來創造出新的價值,如果對自由使用的權利進行限制,這就違背了政府數據開放的初衷,不利于數據產生新的價值。
6.5建立統一規范的元數據標準
我國政府應建立規范化和標準化的政府開放數據元數據,借鑒和參考國外政府數據開放平臺成熟的元數據方案,依據W3C發布的針對政府數據開放的DCAT元數據的建立我國政府數據開放統一通用的元數據標準,從而提高政府數據開放的元數據描述質量,實現數據資源之間的互操作性。
7 結束語
我國政府數據開放仍處于起步階段,而且已經有了幾年發展的成果和經驗,上述研究發現的幾個問題都是目前我國地方政府數據開放平臺建設存在的不足,但是我國地方政府數據開放平臺一些較好的發展模式和建設方式,在建設全國統一的政府數據開放平臺時可以借鑒和學習。