999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析國內(nèi)數(shù)據(jù)集檢索的數(shù)據(jù)源

2020-09-10 00:23:52王國碩譚蓉陳彥均
客聯(lián) 2020年8期

王國碩 譚蓉 陳彥均

【摘 要】國內(nèi)數(shù)據(jù)集眾多,為了有效檢索數(shù)據(jù)集亟需面向基于垂直檢索的數(shù)據(jù)集檢索平臺。本文從數(shù)據(jù)集數(shù)據(jù)源形成,和國內(nèi)的數(shù)據(jù)集數(shù)據(jù)源分布情況進(jìn)行分析,并對數(shù)據(jù)集檢索存在的問題進(jìn)行思考,同時為需要數(shù)據(jù)集的工作者提供參考。

【關(guān)鍵詞】數(shù)據(jù)集;數(shù)據(jù)開放;數(shù)據(jù)集檢索

數(shù)據(jù)集是由數(shù)據(jù)組成的集合,隨機(jī)器學(xué)習(xí)而興起,在數(shù)據(jù)驅(qū)動的時代,數(shù)據(jù)從未如此重要,不但應(yīng)用于機(jī)器學(xué)習(xí)等領(lǐng)域,也是各學(xué)科的科學(xué)研究者的重要數(shù)據(jù)來源。

數(shù)據(jù)集在數(shù)據(jù)集檢索平臺出現(xiàn)之前,需要去各個網(wǎng)站進(jìn)行站內(nèi)檢索,費(fèi)時費(fèi)力。但是除了檢索公開的數(shù)據(jù)集外,想要獲得大量的數(shù)據(jù)非常困難。2012年,科瑞唯安公司推出數(shù)據(jù)集引用統(tǒng)計和共享平臺,主要分享科研過程中產(chǎn)生的數(shù)據(jù)集,依托著名文獻(xiàn)庫WebOfScience得到廣泛傳播。2018年9月,Google推出數(shù)據(jù)集檢索平臺(Dataset Search)的測試版,2020年1月才正式上線,搜索范圍涵蓋媒體、網(wǎng)站上存在的數(shù)據(jù)集。

國內(nèi)目前數(shù)據(jù)集平臺很多,尚缺少全網(wǎng)數(shù)據(jù)集的檢索,這里針對數(shù)據(jù)集檢索中數(shù)據(jù)源的問題進(jìn)行淺析。

一、數(shù)據(jù)集的形成

數(shù)據(jù)集的形成早期依賴于科研過程中產(chǎn)生,后隨著我國數(shù)據(jù)應(yīng)用技術(shù)的提升和應(yīng)用范圍的擴(kuò)大,產(chǎn)生了各種政府、商業(yè)領(lǐng)域的大量數(shù)據(jù)集。

數(shù)據(jù)集形成多種多樣,為了了解數(shù)據(jù)集檢索中信息源的形成根源,這里以國內(nèi)外媒體在COVID-19疫情期間大量引用的霍普金斯大學(xué)的疫情儀表板為例。疫情儀表板依托的就是疫情的數(shù)據(jù)集,且來自各個國家。疫情數(shù)據(jù)雖然在各個平臺包括國內(nèi)的騰訊、阿里以及世界衛(wèi)生組織都有發(fā)布,但任一時間,經(jīng)常會看到各平臺的數(shù)據(jù)不盡相同。也就是各平臺相對獨(dú)立,并不是互相聯(lián)通,各自有自己的數(shù)據(jù)采集過程。在2020年1月份啟動的時候,霍普金斯大學(xué)獲取各個國家的數(shù)據(jù),主要還是依賴手工整理,更新的數(shù)量通常每天進(jìn)行早晚兩次,2月份采用半自動化采集。數(shù)據(jù)源包括多個國家政府衛(wèi)生部門,以及數(shù)據(jù)匯總網(wǎng)站,包括1point3acres(一畝三分地論壇),Worldometers.info,BNO,和COVID跟蹤項(xiàng)目(檢測和住院),依靠當(dāng)?shù)匦l(wèi)生部門和當(dāng)?shù)孛襟w報道的組合,其中,中國的數(shù)據(jù)來自于丁香園社區(qū)。

經(jīng)過分析后,數(shù)據(jù)集檢索中面臨的幾個問題:1.數(shù)據(jù)集在形成的過程中就分屬各個部門、網(wǎng)站甚至各個國家,最后也分屬在各個平臺上,沒有統(tǒng)一的檢索平臺,對很多科研人員查找數(shù)據(jù)造成困難。例如霍普金斯大學(xué)選擇在github上進(jìn)行開放。2.通過例子可以看出,一份數(shù)據(jù)集通常包含了很多科研工作人員大量的心血,特別是涉及商業(yè)領(lǐng)域的數(shù)據(jù)集,如何開放,哪些免費(fèi)也是要考慮的問題。3.疫情數(shù)據(jù)除了在github上獲取,也會在其他網(wǎng)站找到數(shù)據(jù)集,但是很多不能確定是否權(quán)威,還有數(shù)據(jù)集質(zhì)量的問題,很多數(shù)據(jù)集如果只是簡單的清洗分本無法使用。

針對目前國內(nèi)數(shù)據(jù)集的情況,在沒有統(tǒng)一數(shù)據(jù)集檢索平臺的時候,優(yōu)先考慮現(xiàn)有數(shù)據(jù)集分布在哪些網(wǎng)站里。

二、國內(nèi)數(shù)據(jù)集的信息源

(一)政府機(jī)構(gòu)

從2014年廣東省成立了大數(shù)據(jù)管理局并發(fā)布廣州市政府?dāng)?shù)據(jù)統(tǒng)一開放平臺之后,截至2019年上半年,我國已有82個各級的政府部門發(fā)布了數(shù)據(jù)開放平臺,比2018年增加了78.2%,我國的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》中明確提出“推動政府?dāng)?shù)據(jù)開放共享”。所以,政府開放數(shù)據(jù)是大勢所趨。從省級到低級,開放了各種數(shù)據(jù)平臺,均提供了數(shù)據(jù)集下載的功能。

以成都市公共數(shù)據(jù)開放平臺(http://www.cddata.gov.cn)為例,2018年5月平臺正式開通。截至2020年7月,共開放1649個開放目錄,1708個開放數(shù)據(jù)集,涉及57個部門,具體105873807條數(shù)據(jù),5106個數(shù)據(jù)文件,86個API,13個應(yīng)用。平臺提供了兩種方式獲取數(shù)據(jù)資源,分別是下載數(shù)據(jù)和在線調(diào)用API。平臺已經(jīng)提供的數(shù)據(jù)來源于各政府部門,可以通過各類數(shù)據(jù)的元數(shù)據(jù)文件查看了解其來源,每類數(shù)據(jù)都有其固定的更新周期,各部門會根據(jù)數(shù)據(jù)的更新周期進(jìn)行更新。

以具體數(shù)據(jù)集來看,例如“設(shè)計企業(yè)(市政)信用排名”數(shù)據(jù)集信息,該數(shù)據(jù)開放狀態(tài)為普遍開放,來源部門為成都市住房和城鄉(xiāng)建設(shè)局,數(shù)據(jù)量達(dá)到314894條,提供四種格式的下載,分別是XLS、XML、JSON、CSV。該數(shù)據(jù)集共包含10個字段,分別是主鍵、唯一標(biāo)識、企業(yè)名稱、組織機(jī)構(gòu)碼或統(tǒng)一社會信用代碼、今日得分、今日排名、發(fā)布時間、提供日期、60日平均得分、60日排名,其中今日得分是定量數(shù)據(jù)。以具體一條數(shù)據(jù)來看,數(shù)據(jù)內(nèi)容詳細(xì),沒有缺失字段。

(二)科研機(jī)構(gòu)

早期的數(shù)據(jù)集分享主要集中在科研機(jī)構(gòu)的科學(xué)數(shù)據(jù)集和學(xué)術(shù)文獻(xiàn)分享的數(shù)據(jù)。這一類數(shù)據(jù)集的應(yīng)用收到開放數(shù)據(jù)運(yùn)動的影響。開放數(shù)據(jù)的想法是,任何人都應(yīng)可以自由使用某些數(shù)據(jù),并在不受版權(quán)、專利或其他限制的情況下隨意重新發(fā)布。”政府,組織和機(jī)構(gòu)發(fā)布可以完全訪問數(shù)據(jù)的開放數(shù)據(jù)已經(jīng)在我國積極推進(jìn),如果科研機(jī)構(gòu)也開放更多的科研數(shù)據(jù),提供有組織,有據(jù)可查和及時的數(shù)據(jù)公開方式,它將具有巨大的社會經(jīng)濟(jì)價值,并有助于個人和社區(qū)做出更好的決策,對職能部門的監(jiān)督只是表面功能之一,更大的價值在于可以推進(jìn)社會對數(shù)據(jù)進(jìn)行創(chuàng)新性應(yīng)用,這一點(diǎn)更符合“數(shù)據(jù)是拿來用的“的思維。

以中國科學(xué)院數(shù)據(jù)云門戶的資源學(xué)科創(chuàng)新平臺(http://www.data.ac.cn/info/)為例,共開放180個數(shù)據(jù)集,涵蓋了基礎(chǔ)地理數(shù)據(jù)、生態(tài)環(huán)境數(shù)據(jù)、社會經(jīng)濟(jì)數(shù)據(jù)、典型全球數(shù)據(jù)等類別,以黃河泥沙水文數(shù)據(jù)集為例,雖然數(shù)據(jù)字段豐富,但是存在下載渠道沒有及時維護(hù)的情況。通過平臺的整體來看,大數(shù)據(jù)驅(qū)動的資源學(xué)科創(chuàng)新示范平臺是面向重大科學(xué)問題和國家發(fā)展戰(zhàn)略布局、經(jīng)濟(jì)社會重大需求的重要平臺,國內(nèi)的科研機(jī)構(gòu)也在積極推進(jìn)科研數(shù)據(jù)的開放,只是數(shù)據(jù)集的具體下載等需求的滿足需要逐步進(jìn)行完善。

(三)商業(yè)機(jī)構(gòu)

商業(yè)機(jī)構(gòu)也是數(shù)據(jù)集下載的重要途經(jīng),多樣性較強(qiáng)。既有政府推動的項(xiàng)目也有企業(yè)的自行探索。例如,貴陽大數(shù)據(jù)交易所就是2014年在貴州省政府、貴陽市政府的支持下掛牌運(yùn)營,是我國乃至全球第一家大數(shù)據(jù)交易所貴陽大數(shù)據(jù)交易所,但是主要面向企業(yè)提供數(shù)據(jù)集的交易服務(wù)。

國內(nèi)存在一些致力的數(shù)據(jù)集服務(wù)的網(wǎng)站,該類多為近幾年出現(xiàn)的創(chuàng)業(yè)公司提供的服務(wù),以數(shù)據(jù)超市網(wǎng)站(http://www.data-shop.net/)為例,該平臺的數(shù)據(jù)由定制的爬蟲程序采集于互聯(lián)網(wǎng),所有數(shù)據(jù)均為網(wǎng)站公開的非隱私數(shù)據(jù),任何人均可看到,以數(shù)據(jù)集的形式提供。該類數(shù)據(jù)的商業(yè)性應(yīng)用更強(qiáng),相當(dāng)于節(jié)省了用戶批量采集數(shù)據(jù)的時間,代替用戶進(jìn)行爬蟲實(shí)施與部署,直接提供數(shù)據(jù)集,大部分是付費(fèi)服務(wù),需要用戶進(jìn)行權(quán)衡。

很多商業(yè)網(wǎng)站提供免費(fèi)的致力于機(jī)器學(xué)習(xí)的數(shù)據(jù)集,例如百度的paddle和阿里的天池平臺。以阿里的天池平臺為例,截至2020年7月,提供的數(shù)據(jù)集有40個,注重數(shù)據(jù)量和時效性。例如,平臺提供2019-nCoV 新型冠狀病毒基因測序數(shù)據(jù)、中文糖尿病標(biāo)注數(shù)據(jù)集、優(yōu)酷視頻增強(qiáng)和超分?jǐn)?shù)據(jù)集,囊括的多領(lǐng)域的數(shù)據(jù)集。綜合來看,創(chuàng)業(yè)公司的網(wǎng)站提供多面向市場以爬蟲為主要獲取途徑的商業(yè)數(shù)據(jù)集,而有機(jī)器學(xué)習(xí)研究背景的公司會提供數(shù)據(jù)量較大適合深度學(xué)習(xí)領(lǐng)域應(yīng)用的數(shù)據(jù)集

三、國內(nèi)數(shù)據(jù)集檢索的思考

綜合上面的分析,針對國內(nèi)數(shù)據(jù)集檢索提出一些下列思考

(一)需要一個數(shù)據(jù)集垂直檢索平臺

國內(nèi)的數(shù)據(jù)集廣泛分布在政府機(jī)構(gòu)、科研機(jī)構(gòu)、商業(yè)機(jī)構(gòu)和媒體以及開源網(wǎng)站上,構(gòu)建一個垂直檢索平臺,專注于數(shù)據(jù)集在全網(wǎng)的搜索,將提高檢索效率,同時讓更多有價值的數(shù)據(jù)集得到應(yīng)用。垂直檢索平臺的構(gòu)建從國外經(jīng)驗(yàn)來看,一般適合擁有搜索引擎技術(shù)且數(shù)據(jù)資源豐富的公司來實(shí)施。目前全世界范圍內(nèi)也在探索,但是各數(shù)據(jù)集檢索的平臺也在日益完善,從數(shù)據(jù)集的質(zhì)量和數(shù)量上穩(wěn)步提升,國內(nèi)可以借鑒可參考。

(二)數(shù)據(jù)集檢索需要規(guī)范元數(shù)據(jù)的著錄標(biāo)準(zhǔn)

可政府開放數(shù)據(jù)早期遇到的難題相同,各個部門各自為戰(zhàn),各自存儲了大量的數(shù)據(jù),但是整合到同一個政府?dāng)?shù)據(jù)開放平臺遇到的最大挑戰(zhàn)就是元數(shù)據(jù)的朱璐標(biāo)準(zhǔn)不統(tǒng)一的問題,大幅降低了數(shù)據(jù)整合的效率。一個面向全網(wǎng)的數(shù)據(jù)集的垂直檢索平臺同樣面臨這樣的問題,而且是各個類型的機(jī)構(gòu),數(shù)據(jù)集的元數(shù)據(jù)標(biāo)準(zhǔn)想統(tǒng)一難度更大。但是可以像都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)一樣,將幾個核心字段加以描述,同時有利于數(shù)據(jù)集的檢索,更容易被用戶發(fā)現(xiàn),這樣可以驅(qū)動數(shù)據(jù)集的提供者提高元數(shù)據(jù)的著錄質(zhì)量。

(三)知識產(chǎn)權(quán)問題

涉及到數(shù)據(jù)開發(fā),都會考慮到哪些應(yīng)該開放的問題,特別是商業(yè)領(lǐng)域的數(shù)據(jù),需要加強(qiáng)知識產(chǎn)權(quán)意識,科研數(shù)據(jù)集也應(yīng)該明確數(shù)據(jù)集所有者的權(quán)利,規(guī)范應(yīng)享有的基本權(quán)利。良好的知識產(chǎn)權(quán)保護(hù)體系更有利于數(shù)據(jù)集檢索的實(shí)施與數(shù)據(jù)集的利用。可以參考全世界范圍內(nèi)推廣的知識共享許可協(xié)議(簡稱CC協(xié)議),將其應(yīng)用于數(shù)據(jù)集的存儲領(lǐng)域,將有利于數(shù)據(jù)集檢索的實(shí)施,更快鎖定信息源并知曉數(shù)據(jù)集所有者該享有的權(quán)益。

【參考文獻(xiàn)】

[1]楊波趙揚(yáng)焦紅.國際主要科學(xué)數(shù)據(jù)集檢索平臺對比研究[J].情報工程,2020(01):22-33

[2] 徐咪咪.我國政府開放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)主題研究[J]. 江蘇科技信息.2020(02):7-9

[3] Mapping COVID-19[EB/OL].[2020/1/23][2020/07/02]. https://systems.jhu.edu/research/public-health/ncov.

主站蜘蛛池模板: 91网红精品在线观看| 婷五月综合| 超碰aⅴ人人做人人爽欧美| 亚洲天堂网2014| 国产乱子伦手机在线| 国产欧美在线视频免费| 精品日韩亚洲欧美高清a | 一本久道久综合久久鬼色| 国产欧美视频在线观看| 日韩专区第一页| 热99精品视频| 亚洲欧洲自拍拍偷午夜色无码| 国产精品美乳| 国产乱人伦AV在线A| 中文字幕亚洲精品2页| 人人妻人人澡人人爽欧美一区| 99热6这里只有精品| 青青久视频| 国产欧美精品一区aⅴ影院| 91精品啪在线观看国产| 一级看片免费视频| 国内丰满少妇猛烈精品播| 免费无码一区二区| 国产主播喷水| 日韩小视频在线播放| 亚洲日本中文综合在线| 国产三级a| 全裸无码专区| 国产成人高清在线精品| 免费女人18毛片a级毛片视频| 99久久精品免费视频| 国产视频欧美| 最近最新中文字幕免费的一页| 午夜国产理论| 国产精品网拍在线| 国产乱人伦精品一区二区| 欧美啪啪一区| 欧美亚洲国产精品第一页| 51国产偷自视频区视频手机观看 | 99这里只有精品免费视频| 日本人妻一区二区三区不卡影院 | 欧美特黄一级大黄录像| 国产欧美日韩va| 波多野结衣的av一区二区三区| 国产极品美女在线播放| 国产精品女在线观看| 国产福利不卡视频| 青青草原国产免费av观看| 国产情侣一区二区三区| 国模粉嫩小泬视频在线观看| 久久九九热视频| 精品91自产拍在线| 又黄又湿又爽的视频| 亚洲自拍另类| 色综合激情网| 99视频有精品视频免费观看| 国产精品成人AⅤ在线一二三四| 视频二区欧美| 欧美亚洲一二三区| 国产经典在线观看一区| 99国产精品一区二区| 99精品视频在线观看免费播放| 亚洲综合极品香蕉久久网| 中文纯内无码H| 国产精鲁鲁网在线视频| 日本AⅤ精品一区二区三区日| 性色生活片在线观看| 91精品小视频| 韩国v欧美v亚洲v日本v| 国产九九精品视频| 久久精品人人做人人综合试看 | 国产黄网永久免费| 中文字幕2区| 97久久人人超碰国产精品| 国产精品成人免费视频99| 国产日本一区二区三区| 在线观看无码a∨| 久久99热66这里只有精品一| 在线色国产| 伊人婷婷色香五月综合缴缴情| 国产精品成人免费视频99| 一本色道久久88|