










[摘 要]目前我國還未建成國家級的政府數據開放平臺,也無法實現各省市開放政府數據的跨地區共享和互操作。通過調查分析我國現有的開放政府數據門戶網站,借鑒美國、英國、歐盟的開放政府數據目錄體系,提出統一的元數據標準和標識符編碼規則,并運用SKOS技術實現各地區數據主題的語義關聯。為解決我國各地區開放政府數據門戶網站存在的元數據標準不統一、目錄分類方式少和主題分類不一致等問題,結合實際情況提出我國開放政府數據目錄體系的構建方案。
[關鍵詞]開放政府數據 目錄體系 元數據標準 SKOS 語義關聯 主題分類
[分類號]G203;D63
大數據時代,開放政府數據運動在全球興起,公眾越來越認識到開放政府數據的重要性,開放政府數據不僅幫助市民參與政府工作,而且幫助我們每個人做好日常決策。構建政府數據的開放、管理、查詢、獲取和再利用的官方平臺,建設開放數據目錄的“一站式”門戶網站是各國在開放政府數據運動中普遍采取的關鍵舉措[1]。2009年5月21日,美國上線全球第一個國家數據門戶網站(Data.gov)[2];歐盟于2012年12月和2015年11月上線歐盟開放數據門戶(European Union Open Data Portal, ODP)和歐洲統一的開放數據門戶(www.europeandataportal.eu)。截至2019年4月,我國已有82個地方政府推出政府數據開放平臺,其中省級地方政府13個、副省級與地市級地方政府69個[3],但尚未建成國家級開放政府數據門戶網站,在全國范圍內對某類數據的查找仍然存在困難,也無法實現各省市開放政府數據跨地區的共享和互操作。目錄管理是開放數據門戶網站的核心,能夠幫助提供用戶數據集的查找、顯示和利用等服務[4],國務院于2015年頒布的《促進大數據發展行動綱要》[5]和于2017年印發的《政務信息系統整合共享實施方案》[6]均強調各級政府要“制定政府數據共享開放目錄,依法推進數據資源向社會開放”。
開放政府數據有著數據集數量多、涉及內容廣、增長速度快、表現形式各異、存在分散等特點,會降低用戶獲取數據的準確度、相關度和速度。通過建設目錄體系可以全面梳理整合數據,基于統一的標準描述開放政府數據和編制目錄,建立科學規范的分類體系,有序組織數據,便于數據的存儲、導航、檢索和應用。
在學術文獻數據庫檢索我國開放政府數據的元數據、開放政府數據分類及開放政府數據目錄相關主題文獻,發現目前學者在開放政府數據目錄技術方面已有一些研究,也初步提出了我國開放政府數據核心元數據推薦標準和方案。如趙蓉英等[7]以Data.gov.uk為研究對象,從文件結構、元素組成及規則等方面歸納總結元數據標準。司莉等[8]分析了Data.gov中的元數據標準,為我國開放政府數據的元數據標準制定提供參考。黃如花等[9]調研英國、美國、加拿大、澳大利亞、新西蘭、歐盟的政府數據開放門戶的元數據描述規范,統一元數據格式并提出元數據元素集草案。Krishnamurthy等[10]提出Data.gov存在允許人們訪問的統一數據目錄,其同時擁有多種目錄分類方式,如主題、數據集類型、標記、格式和組織類型等,能夠幫助公眾更好地搜索、瀏覽和下載數據集。Gligorijevi[í] [c]等[11]分析英國、美國和澳大利亞等8個開放政府數據平臺中的數據集分類情況,通過形式化的概念來分析生成一個共享概念化的數據結構,并將其作為知識庫對未分類的開放數據集進行分類。高國偉等[12]對政府開放數據資源分類的問題和特征進行分析,通過構建自組織的分類框架來構建開放政府數據的分類目錄。于夢月等[13]分析Data.gov的目錄聚合功能,劉汪洋等[14]分析了Data.gov.uk的目錄聚合功能,研究開放政府數據的元數據標準在開放政府數據目錄聚合上的應用成果,為我國制定開放政府數據的元數據標準和建設國家級開放政府數據門戶網站提供參考。
綜上,我國開放政府數據目錄體系的研究還處于起步階段,應借鑒美國、英國、歐盟等開放政府數據水平較高的政府數據門戶建設的成功經驗,設計并建成我國開放政府數據目錄體系,為我國國家級開放政府數據門戶網站的建設奠定基礎。
1 開放政府數據目錄體系框架
開放政府數據是政務信息資源的一個新分支,我國開放政府數據目錄體系建設可以借鑒政務信息資源目錄體系建設的經驗。2017年7月,國家發展改革委 中央網信辦印發了《政務信息資源目錄編制指南(試行)》,用于指導國家政務信息資源目錄的編制和各地政務信息資源目錄的編制、管理等[15]。政務信息資源目錄體系早已從前期理論研究階段進入建設實施階段,并且在政務信息資源開發利用及部門協同辦公方面發揮重大作用[16]。借鑒政務信息資源目錄體系框架設計出開放政府數據目錄體系框架,目錄體系標準包括元數據、數據分類和標識符編碼等。元數據是描述開放政府數據屬性的數據,便于數據的發現、使用和管理;分類標準規定開放政府數據分類方法和原則,規范的分類體系方便數據管理,用戶可以多途徑查找數據;標識符編碼標準規范開放政府數據標識符的編碼結構和分配原則,保證每個數據集的唯一性。開放政府數據目錄體系概念模型見圖1,技術結構見圖2。
我國國家級開放政府數據門戶網站負責存儲和管理開放政府數據主目錄,地方開放政府數據門戶網站則存儲和管理相關分目錄。同時應建立主題目錄,國家級政府部門和地方政府部門直接在目錄中心注冊、保存和維護相關核心元數據,用戶通過目錄中心提供的目錄進行查詢和檢索,目錄體系管理結構見圖3。
2 國外開放政府數據目錄體系
許多開放數據水平較高的國家已經建成開放政府數據目錄體系,有著統一的分類標準,目錄分類方式多樣,用戶可以多角度快速查詢到所需數據。元數據在提高開放政府數據的可發現性上起著很大作用,能幫助用戶理解和選擇數據集,有希望達成語義化、標準化和機器可讀,被廣泛使用的元數據標準方案有萬維網聯盟(World Wide Web Consortium,W3C)的數據目錄詞匯表(Data Catalog Vocabulary,DCAT)、美國的開放政府數據項目(Project Open Data,POD)和歐盟的DCAT應用綱要(DCAT-AP)。
其中DCAT是W3C的正式標準[17],得到美國、英國、加拿大、澳大利亞等多國政府數據開放門戶的使用,適用于多種元數據文檔[18]。DCAT是RDF詞匯表,支持數據目錄之間的互操作性,可用于描述數據集,提高開放數據集的可發現性,使應用程序能從多個數據目錄中讀取數據集的元數據。
2.1 美國開放政府數據目錄體系
美國開放政府數據目錄體系提供了較全面的目錄分類方式,能夠滿足用戶多樣的查詢需求,目錄體系中包括主題目錄、主題分類目錄、數據集類型目錄、標簽目錄、格式目錄、組織類型目錄、組織目錄、發布者目錄、機構目錄等。主題目錄是最基本的目錄分類方式,美國開放政府數據主題目錄下的分類包括農業、氣候、消費者、生態系統、教育、能源、金融、健康、當地政府、制造業、海事、海洋、公共安全、科學和研究這14個主題。數據集類型目錄則將數據集分為地理和非地理數據,美國有通用的地理元數據標準用于地理數據集。格式目錄中提供了48種數據資源格式,基本滿足用戶的應用程序的各種使用需求。組織目錄、發布者目錄和機構目錄提供了各部門和一些地區的開放數據,Data.gov利用基于“元數據采集”的目錄聚合機制將部門和地方的數據自動聚合到該門戶上供用戶瀏覽和使用[19]。
2.2 英國開放政府數據目錄體系
英國開放政府數據目錄體系中包括主題目錄、發布者目錄和文件格式目錄。主題分類目錄中包括商業和經濟、犯罪與司法、防御、教育、環境、政府、政府開支、健康、制圖、社會、小鎮和城市、運輸這12個一級目錄,并且在一級目錄下提供具有更詳細信息的二級目錄。Data.gov.uk還提供基于地圖搜索查詢的數據集,本質上是提供按地區分類的數據,這種分類方式的優勢是使地區的大小范圍可以根據所需要求控制,使得查詢更加智能化。只需要對所需數據所屬的地區區域進行選擇,地圖抓取數據工具就能將所選區域記錄下來并轉換成機器可識別的數據提交給地區分類目錄。英國還開放了不同領域的數據,走在了世界前列,如“開放合同數據”,既是開放政府數據的重點領域,也是國際反腐敗開放數據的突破口[20]。
2.3 歐盟開放政府數據目錄體系
歐洲統一開放數據門戶包括捷克、德國、法國等35個國家的開放數據,目錄體系包括國家目錄、門戶目錄、主題目錄、關鍵詞目錄、格式目錄、許可目錄。主題目錄包括農業、漁業、林業和食品,經濟和金融,教育、文化和體育,能源,環境,政府和公共部門,健康,國際問題,正義、法制和公共安全,地區和城市,人口與社會,科學和技術,交通等13個主題。
為規范元數據取值和幫助目錄體系更好地發揮其作用,歐盟出臺了多語種敘詞表——EuroVoc,它能夠將索引詞匯的術語標準化,允許更準確地數據檢索,還能在不同語言表達的相同概念之間建立語言等價性,允許以文檔列表的語言對文檔進行索引,并以用戶的語言進行搜索。EuroVoc包括概念敘詞表、領域敘詞表、語言敘詞表、關系敘詞表、范圍和歷史注釋敘詞表、詞典敘詞表和同義詞敘詞表。EuroVoc被建模為SKOS和SKOS-XL類和屬性的直接擴展,重用并重新聲明部分都柏林核心屬性,并將其與15個敘詞表間建立概念映射,一個詞匯的給定概念與不同詞匯中的概念具有一定程度的對應關系。SKOS可以把海量無序化數據進行組織分類,運用SKOS編碼技術對開放政府數據分類法中的語義關系進行準確描述,使其具有數據交換和機器可處理的能力。
3 我國開放政府數據的元數據
3.1 我國開放政府數據元數據調研
我國地方政府已經開始制定政府開放數據元數據標準,用于指導門戶中元數據的使用。目前,廣東、山東和貴州三省已經出臺地方政府開放數據元數據標準。雖然我國地方開放政府數據門戶網站能提供基本元數據信息,但仍存在元數據標準不統一、重要元數據項缺失和元數據質量低等問題,通過調研開放數林指數報告中我國82個地方政府數據開放平臺中的元數據(其中5個平臺無法訪問或查詢不到數據集信息),得到元數據信息如圖4所示,柱形圖上標明的數字代表元數據元素項出現的次數,次數在5次以下的沒有進行展示。
3.2 元數據方案設計
調研中發現元數據信息越完善,開放數據使用效率越高。開放政府數據元數據的設計需滿足數據集的可訪問性和數據目錄間的互操作性,應按照DCAT標準提供DCAT中核心的元素項,并選擇性提供另外一些有利于開放政府數據發現、理解和使用的元數據元素項。將我國地方開放政府數據現有的元數據元素項和DCAT標準中的核心元數據元素項進行映射,得出擬推薦的元數據方案,見表1。
機器可讀的元數據格式在元數據實際使用中非常重要,XML、RDF格式的元數據機器可讀且支持元數據的互操作,XML、RDF和JSON格式作為編碼元數據的有效方式已被美國、英國等國家采納。如果我國地方政府都提供這種格式的元數據,應用程序就能做到跨多個數據目錄的讀取和解析,從而自動查找、選擇數據集,向目錄體系的建設邁出一大步。
4 我國開放政府數據分類目錄
我國地方開放政府數據門戶網站有各自的分類目錄,通過調查分析發現普遍存在的分類目錄有主題目錄、機構(部門)目錄、(資源)類型目錄、評分目錄、地市(地區)目錄等,表2是部分地區開放政府數據門戶網站的分類目錄。
我國地方開放政府數據門戶網站分類目錄少,分類角度不全面,分類標準不一致,與美國、英國等國家的多個分類目錄相比無法更靈活地滿足用戶的查找需求。下面將提出符合我國實際情況的幾種分類目錄。
4.1 主題目錄
按主題分類是多種目錄分類方式中最普遍且被用戶使用最多的分類方式,各地主題分類標準不一致,對相同語義的主題采用了不同的命名方式,給建設國家級開放政府數據主題目錄帶來困難。調查我國地方開放政府數據的主題分類方式,整理我國部分地區開放政府數據的主題目錄,如表3所示。
結合我國地方政府開放政府數據主題目錄分類的25個類目,借鑒美國、英國和歐盟等國家的主題目錄,進行我國開放政府數據目錄體系中主題目錄的建設,可以將我國開放政府數據分為11個主題,分別是經濟、交通、環境、健康、教育與科研、政府、民生、農業、司法、宗教、娛樂。這11個主題包含且對應了以上25個類目。以北京市開放政府數據門戶主題目錄為例,我國國家級開放政府數據目錄體系主題目錄和北京市開放政府數據主題目錄對應情況如表4所示。
表4 主題目錄對應情況
[序號 我國國家級開放政府數據主題目錄 北京市開放政府數據
主題目錄 1 經濟 經濟建設 2 交通 交通服務 3 環境 環境與資源保護 4 教育與科研 教育科研 5 健康 醫療健康 6 政府 政府機構與社會團體 7 民生 生活安全 社會保障 勞動就業 生活服務 房屋住宅 企業服務 8 農業 農業農村 9 司法 — 10 宗教 宗教信仰 11 娛樂 旅游住宿 餐飲美食 文體娛樂 消費購物 ]
由于我國開放政府數據平臺并沒有自上而下進行建設,地方平臺數據集主題存在差異,直接通過數據集主題進行整合存在困難,應利用SKOS技術對主題目錄進行語義化描述[18]。隨著語義網和關聯數據的不斷發展,SKOS被廣泛應用于術語集成與映射,解決不同知識組織系統的互操作問題,將各類術語資源向敘詞表和分類表進行映射[21],為用戶提供一站式服務,彌合不同知識組織工具之間的語義縫隙。用SKOS對主題詞表進行語義描述早就成為主流,國外學者已經完成了《美國國會圖書館主題詞表》和EuroVoc的SKOS轉化實驗[22-24],我國也實現了《中國分類主題詞表》的SKOS表示[25]。采用SKOS技術將地方政府數據開放平臺中的主題詞和我國國家級開放政府數據的主題目錄映射起來,將實現全國范圍內的數據整合。
SKOS詞匯表提供以下映射構造子“鏈接”兩個KOS中的詞匯,包括skos:exactMatch、skos:closeMatch、skos:broadMatch、skos:narrowMatch、skos:relatedMatch。其中skos:exactMatch表示兩個術語的“意義”一致,可相互替換,且具有傳遞性;skos:closeMatch表示兩個術語的“意義”基本一致,可相互替換,但不具有傳遞性;skos:exactMatch是skos:closeMatch的子屬性。SKOS的映射構造能夠用于關聯集之間的鏈接構建,將地方開放政府數據的主題映射到我國國家級開放政府數據門戶網站的主題目錄中,以便快速準確地查詢到某個主題的開放政府數據。以“環境”這一主題為例,描述國家級和地方開放政府數據門戶網站中數據主題的映射關系,關系模型如圖5所示。
利用SKOS技術將地方開放政府數據門戶網站主題目錄對應的主題詞鏈接到總結出來的11個主題詞上,實現所需主題的數據查詢、獲取和利用,最終實現主題目錄的建設。
4.2 地區目錄
在我國國家級開放政府數據門戶網站中建立地區分類目錄,將目錄中的地區直接鏈接到對應的地方政府開放數據門戶上。目前我國很多省市已經建成地方政府數據開放平臺,而且山東省和貴陽市的開放數據平臺已經包含地區目錄,能夠初步聚合下級開放數據平臺中的數據,應在此基礎上建成國家級開放政府數據地區目錄,更好地發揮地方開放政府數據的價值。
4.3 機構(部門)目錄
將部門劃分成中央和地方兩大類,再進行具體政府部門的細分,用戶可以按部門對數據進行查找。由于我國地方政府部門數量較多,地方部門的數據應實行集中分布式查找。如某用戶想要查找北京市公安局的開放政府數據,可以先通過地區分類目錄查詢到北京市開放政府數據門戶網站,再通過其部門分類目錄查找到北京市公安局的開放政府數據(如圖6所示)。
4.4 數據集格式目錄
美國政府開放數據門戶的數據目錄(https://catalog.data.gov/dataset)把數據集按資源格式進行分類,包括HTML、PDF、XML、CSV、Originator data format、ZIP、JSON、WMS、TIFF、SID、RDF、JPEG、API等。英國開放政府數據門戶(https://data.gov.uk)中的數據集分類格式包括PDF、CSV、HTML、ODS、WMS、XLS、XLSX、XML。目前我國開放政府數據廣泛使用的數據格式有CSV、XLS、XLSX、XML、JSON、RDF、API等。應構建目錄體系中的數據集格式目錄并鼓勵提供多種格式的數據集,方便用戶通過數據集的格式對數據進行查找。
4.5 評分目錄
目錄體系還可以包含數據綜合評價目錄,在數據及時更新的基礎上采用開放政府數據的“五星評級模型”[26],使用戶可以通過評價的星級查找自己所需級別的數據。
(1)一星級別:以“開放許可”將數據發布到Web上,格式不限,可以是紙質文件的掃描件或PDF文檔等;
(2)二星級別:發布為機器可讀的結構化數據,如Excel電子表格;
(3)三星級別:發布為非專有格式,如CSV;
(4)四星級別:采用W3C開放標準,其特征為通過URI來表示事物;
(5)五星級別:將數據鏈接到其他數據集。
5 我國開放政府數據標識符編碼規則
建立目錄體系就是要采集和管理元數據,應對每個開放政府數據集規定唯一固定的標識符編碼,便于數據的檢索、查詢和定位,使其發揮更大的價值。筆者調研我國77個地方開放政府數據門戶中的元數據,發現僅有24個平臺提供標識符這一元數據元素項,而且提供的標識符也未遵循統一規范。如浙江省政府數據開放平臺(data.zjzwfw.gov.cn)的“道路運輸證”數據集(http://data.zjzwfw.gov.cn/jdop_front/detail/data.do?iid=3946amp;searchStri-ng=道路)和深圳市政府數據開放平臺(opendata.sz.gov.cn)的“城市道路信息”數據集(https://opendata.sz.gov.cn/data/dataSet/toDataDetails/29200_00403085)的標識符編碼分別為30701600003032/259和29200/00403085。用戶無法從這兩個數據集的標識符中得到潛在信息,因為兩者未遵循統一的規則,影響了標識符自身的價值。
借鑒政務信息資源的標識符編碼規則[27],筆者提出我國開放政府數據元數據的標識符編碼參考規則,標識符編碼應由前段碼、間隔符和后段碼組成。前段碼為機構編碼共8位,前6位表示地區,后兩位表示機構,中央機構前6位都是0,后段碼長度不限,標識符的表現形式如圖7所示。
6 結語
目錄體系是開放政府數據門戶網站的核心和基礎,筆者通過設計統一的元數據標準、目錄分類方式和標識符編碼等標準來構建我國開放政府數據目錄體系,以期有效推動我國開放政府數據平臺的建設和升級。該方案仍存在一些不足,如元數據標準的實施、元數據存在的質量問題和實際建設中遇到的問題等,還需要進一步地研究。
參考文獻:
[1] 張涵,王忠.國外政府開放數據的比較研究[J].情報雜志,2015(8):142-146,151.
[2] 汪慶怡,高潔.面向用戶服務的美國政府開放數據研究及啟示——以美國Data.gov網站為例[J].情報雜志,2016(7):145-150.
[3] 人民網.《2019中國地方政府數據開放報告》暨“中國開放數林指數”[EB/OL].[2019-05-24].http://gz.people.com.cn/n2/2019/0524/c391492-32976531.html.
[4] Ku?era J, Chlapek D, Ne?asky M. Open Government Data Catalogs: Current Approaches and Quality Perspective[C].Technology-Enabled Innovation for Democracy, Government and Governance,2013(26):152-166.
[5] 國務院關于印發促進大數據發展行動綱要的通知[EB/OL].[2015-09-05].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[6] 國務院辦公廳關于印發政務信息系統整合共享實施方案的通知[EB/OL].[2017-05-18].http://www.gov.cn/zhengce/content/2017-05/18/content_5194971.htm.
[7] 趙蓉英,梁志森,段培培.英國政府數據開放共享的元數據標準——對Data.gov.uk的調研與啟示[J].圖書情報工作,2016(19):31-39.
[8] 司莉,趙潔.美國開放政府數據元數據標準及啟示[J].圖書情報工作,2018(3):86-93.
[9] 黃如花,林焱.國外開放政府數據描述規范的調查與分析[J].圖書情報工作,2017(20):37-52.
[10] Rashmi Krishnamurthy,Yukika Awazu. Liberating data for public value: The case of Data.gov[J]. International Journal of Information Management,2016(4):668-672.
[11] Milena Frtuni? Gligorijevi?,et al.Open data categorization based on formal concept analysis[C].IEEE Tronsactions on Emevging Topics in Computing, 2021(2):571-581.
[12] 高國偉,龔掌立,李永先.基于自組織的政府開放數據資源分類模式[J].圖書館學研究,2017(23):31-35.
[13] 于夢月,等.美國政府開放數據的元數據標準及其啟示:目錄聚合的視角[J].情報雜志,2017(12):145-151.
[14] 劉汪洋,等.英國政府開放數據的目錄聚合機制及對我國的啟示[J].圖書館,2019(4):53-59.
[15] 趙潤娣.我國政府數據開放分類分級研究——基于開放政府數據平臺教育類數據的調查[J].現代情報,2021(4):90-100.
[16] 張曉娟,任文華.我國政務信息資源目錄體系研究述評[J].圖書與情報,2017(2):48-54.
[17] W3C.Data Catalog Vocabulary(DCAT)[EB/OL].[2014-01-16].http://www.w3.org/TR/vocab-dcat/.
[18] W3C.SKOS Core Guide[EB/OL].[2012-12-13].https://www.w3.org/2004/02/skos/.
[19] 孫小荃,翟軍.中美兩國政府開放數據的元數據比較研究[J].圖書館雜志,2021(11):39-47.
[20] 翟軍,等.反腐敗視角下英國政府開放合同數據的實踐與啟示[J].圖書館,2021(3):72-79.
[21] 宋培彥.基于知識組織的術語服務體系研究[J].圖書情報工作,2012(22):6-11.
[22] Harper C A.Encoding library of congress subject headings in SKOS:authority control for the semantic web[C].Proceedings of the 2006 International Conference on Dublin Core and Metadata Applications: Metadata for Knowledge and Learning.Dublin Core Metadata Initiative,2006:89-94.
[23] Summers E,et al.LCSH,SKOS and linked data[C].Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications. Dublin Core Metadata Initiative,2008:25-33.
[24] 石澤順,肖明.基于網絡敘詞表的圖情學科SKOS構建與可視化研究[J].情報學報,2018(3):274-284.
[25] 劉麗斌,等.《中國分類主題詞表》的SKOS描述自動轉換研究[J].中國圖書館學報,2009(6):56-60.
[26] 翟軍.關聯政府數據原理與應用——大數據時代開放數據的技術與實踐[M].北京:電子工業出版社,2016.
[27] 彭言海.基于云計算的政務信息資源共享交換與整合平臺的研究與實現[D].鄭州:鄭州大學,2017.
孫小荃 女,1997年生。碩士,助教。研究方向:開放政府數據、目錄體系、元數據標準。
(收稿日期:2022-12-12;責編:鄧鈺。)