王國碩 譚蓉 陳彥均
【摘 要】國內數據集眾多,為了有效檢索數據集亟需面向基于垂直檢索的數據集檢索平臺。本文從數據集數據源形成,和國內的數據集數據源分布情況進行分析,并對數據集檢索存在的問題進行思考,同時為需要數據集的工作者提供參考。
【關鍵詞】數據集;數據開放;數據集檢索
數據集是由數據組成的集合,隨機器學習而興起,在數據驅動的時代,數據從未如此重要,不但應用于機器學習等領域,也是各學科的科學研究者的重要數據來源。
數據集在數據集檢索平臺出現之前,需要去各個網站進行站內檢索,費時費力。但是除了檢索公開的數據集外,想要獲得大量的數據非常困難。2012年,科瑞唯安公司推出數據集引用統計和共享平臺,主要分享科研過程中產生的數據集,依托著名文獻庫WebOfScience得到廣泛傳播。2018年9月,Google推出數據集檢索平臺(Dataset Search)的測試版,2020年1月才正式上線,搜索范圍涵蓋媒體、網站上存在的數據集。
國內目前數據集平臺很多,尚缺少全網數據集的檢索,這里針對數據集檢索中數據源的問題進行淺析。
一、數據集的形成
數據集的形成早期依賴于科研過程中產生,后隨著我國數據應用技術的提升和應用范圍的擴大,產生了各種政府、商業領域的大量數據集。
數據集形成多種多樣,為了了解數據集檢索中信息源的形成根源,這里以國內外媒體在COVID-19疫情期間大量引用的霍普金斯大學的疫情儀表板為例。疫情儀表板依托的就是疫情的數據集,且來自各個國家。疫情數據雖然在各個平臺包括國內的騰訊、阿里以及世界衛生組織都有發布,但任一時間,經常會看到各平臺的數據不盡相同。也就是各平臺相對獨立,并不是互相聯通,各自有自己的數據采集過程。在2020年1月份啟動的時候,霍普金斯大學獲取各個國家的數據,主要還是依賴手工整理,更新的數量通常每天進行早晚兩次,2月份采用半自動化采集。數據源包括多個國家政府衛生部門,以及數據匯總網站,包括1point3acres(一畝三分地論壇),Worldometers.info,BNO,和COVID跟蹤項目(檢測和住院),依靠當地衛生部門和當地媒體報道的組合,其中,中國的數據來自于丁香園社區。
經過分析后,數據集檢索中面臨的幾個問題:1.數據集在形成的過程中就分屬各個部門、網站甚至各個國家,最后也分屬在各個平臺上,沒有統一的檢索平臺,對很多科研人員查找數據造成困難。例如霍普金斯大學選擇在github上進行開放。2.通過例子可以看出,一份數據集通常包含了很多科研工作人員大量的心血,特別是涉及商業領域的數據集,如何開放,哪些免費也是要考慮的問題。3.疫情數據除了在github上獲取,也會在其他網站找到數據集,但是很多不能確定是否權威,還有數據集質量的問題,很多數據集如果只是簡單的清洗分本無法使用。
針對目前國內數據集的情況,在沒有統一數據集檢索平臺的時候,優先考慮現有數據集分布在哪些網站里。
二、國內數據集的信息源
(一)政府機構
從2014年廣東省成立了大數據管理局并發布廣州市政府數據統一開放平臺之后,截至2019年上半年,我國已有82個各級的政府部門發布了數據開放平臺,比2018年增加了78.2%,我國的《促進大數據發展行動綱要》中明確提出“推動政府數據開放共享”。所以,政府開放數據是大勢所趨。從省級到低級,開放了各種數據平臺,均提供了數據集下載的功能。
以成都市公共數據開放平臺(http://www.cddata.gov.cn)為例,2018年5月平臺正式開通。截至2020年7月,共開放1649個開放目錄,1708個開放數據集,涉及57個部門,具體105873807條數據,5106個數據文件,86個API,13個應用。平臺提供了兩種方式獲取數據資源,分別是下載數據和在線調用API。平臺已經提供的數據來源于各政府部門,可以通過各類數據的元數據文件查看了解其來源,每類數據都有其固定的更新周期,各部門會根據數據的更新周期進行更新。
以具體數據集來看,例如“設計企業(市政)信用排名”數據集信息,該數據開放狀態為普遍開放,來源部門為成都市住房和城鄉建設局,數據量達到314894條,提供四種格式的下載,分別是XLS、XML、JSON、CSV。該數據集共包含10個字段,分別是主鍵、唯一標識、企業名稱、組織機構碼或統一社會信用代碼、今日得分、今日排名、發布時間、提供日期、60日平均得分、60日排名,其中今日得分是定量數據。以具體一條數據來看,數據內容詳細,沒有缺失字段。
(二)科研機構
早期的數據集分享主要集中在科研機構的科學數據集和學術文獻分享的數據。這一類數據集的應用收到開放數據運動的影響。開放數據的想法是,任何人都應可以自由使用某些數據,并在不受版權、專利或其他限制的情況下隨意重新發布。”政府,組織和機構發布可以完全訪問數據的開放數據已經在我國積極推進,如果科研機構也開放更多的科研數據,提供有組織,有據可查和及時的數據公開方式,它將具有巨大的社會經濟價值,并有助于個人和社區做出更好的決策,對職能部門的監督只是表面功能之一,更大的價值在于可以推進社會對數據進行創新性應用,這一點更符合“數據是拿來用的“的思維。
以中國科學院數據云門戶的資源學科創新平臺(http://www.data.ac.cn/info/)為例,共開放180個數據集,涵蓋了基礎地理數據、生態環境數據、社會經濟數據、典型全球數據等類別,以黃河泥沙水文數據集為例,雖然數據字段豐富,但是存在下載渠道沒有及時維護的情況。通過平臺的整體來看,大數據驅動的資源學科創新示范平臺是面向重大科學問題和國家發展戰略布局、經濟社會重大需求的重要平臺,國內的科研機構也在積極推進科研數據的開放,只是數據集的具體下載等需求的滿足需要逐步進行完善。
(三)商業機構
商業機構也是數據集下載的重要途經,多樣性較強。既有政府推動的項目也有企業的自行探索。例如,貴陽大數據交易所就是2014年在貴州省政府、貴陽市政府的支持下掛牌運營,是我國乃至全球第一家大數據交易所貴陽大數據交易所,但是主要面向企業提供數據集的交易服務。
國內存在一些致力的數據集服務的網站,該類多為近幾年出現的創業公司提供的服務,以數據超市網站(http://www.data-shop.net/)為例,該平臺的數據由定制的爬蟲程序采集于互聯網,所有數據均為網站公開的非隱私數據,任何人均可看到,以數據集的形式提供。該類數據的商業性應用更強,相當于節省了用戶批量采集數據的時間,代替用戶進行爬蟲實施與部署,直接提供數據集,大部分是付費服務,需要用戶進行權衡。
很多商業網站提供免費的致力于機器學習的數據集,例如百度的paddle和阿里的天池平臺。以阿里的天池平臺為例,截至2020年7月,提供的數據集有40個,注重數據量和時效性。例如,平臺提供2019-nCoV 新型冠狀病毒基因測序數據、中文糖尿病標注數據集、優酷視頻增強和超分數據集,囊括的多領域的數據集。綜合來看,創業公司的網站提供多面向市場以爬蟲為主要獲取途徑的商業數據集,而有機器學習研究背景的公司會提供數據量較大適合深度學習領域應用的數據集
三、國內數據集檢索的思考
綜合上面的分析,針對國內數據集檢索提出一些下列思考
(一)需要一個數據集垂直檢索平臺
國內的數據集廣泛分布在政府機構、科研機構、商業機構和媒體以及開源網站上,構建一個垂直檢索平臺,專注于數據集在全網的搜索,將提高檢索效率,同時讓更多有價值的數據集得到應用。垂直檢索平臺的構建從國外經驗來看,一般適合擁有搜索引擎技術且數據資源豐富的公司來實施。目前全世界范圍內也在探索,但是各數據集檢索的平臺也在日益完善,從數據集的質量和數量上穩步提升,國內可以借鑒可參考。
(二)數據集檢索需要規范元數據的著錄標準
可政府開放數據早期遇到的難題相同,各個部門各自為戰,各自存儲了大量的數據,但是整合到同一個政府數據開放平臺遇到的最大挑戰就是元數據的朱璐標準不統一的問題,大幅降低了數據整合的效率。一個面向全網的數據集的垂直檢索平臺同樣面臨這樣的問題,而且是各個類型的機構,數據集的元數據標準想統一難度更大。但是可以像都柏林核心元數據標準一樣,將幾個核心字段加以描述,同時有利于數據集的檢索,更容易被用戶發現,這樣可以驅動數據集的提供者提高元數據的著錄質量。
(三)知識產權問題
涉及到數據開發,都會考慮到哪些應該開放的問題,特別是商業領域的數據,需要加強知識產權意識,科研數據集也應該明確數據集所有者的權利,規范應享有的基本權利。良好的知識產權保護體系更有利于數據集檢索的實施與數據集的利用。可以參考全世界范圍內推廣的知識共享許可協議(簡稱CC協議),將其應用于數據集的存儲領域,將有利于數據集檢索的實施,更快鎖定信息源并知曉數據集所有者該享有的權益。
【參考文獻】
[1]楊波趙揚焦紅.國際主要科學數據集檢索平臺對比研究[J].情報工程,2020(01):22-33
[2] 徐咪咪.我國政府開放數據的元數據標準主題研究[J]. 江蘇科技信息.2020(02):7-9
[3] Mapping COVID-19[EB/OL].[2020/1/23][2020/07/02]. https://systems.jhu.edu/research/public-health/ncov.