999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開放政府數據質量評估研究進展及啟示*

2018-12-14 01:34:34陶晨陽李曉彤
圖書館 2018年12期
關鍵詞:評價質量

翟 軍 陶晨陽 李曉彤

(大連海事大學航運經濟與管理學院 遼寧大連 116026)

隨著“開放政府數據”(Open Government Data, OGD)行動的發展,越來越多的數據發布到Web上,相應的質量問題也顯現出來。例如,美國Data.Gov上的Gun Offenders(槍支犯罪者)數據集曾存在數據不完整、不一致等質量問題[1];英國《計算機周刊》的專家對政府開放支出等數據集的4 200萬條記錄進行分析,發現其中含有大量“臟數據”:人為錯誤、格式和編碼問題等,導致公眾難以理解和使用數據[2]。

目前,我國開放數據及元數據的質量狀況也不容樂觀。楊瑞仙等[3]選取7個代表性的地方政府數據開放平臺與美國比較,發現存在數據格式非機器可讀和實用性低等質量問題;孫璐等[4]指出,從幾個開放數據網站上嘗試下載數據,只有60%能夠成功下載;于夢月、翟軍等[5-6]對元數據的研究表明,我國各地方政府的元數據存在取值不規范、缺失重要的元數據項等不足。

各國政府為保障和提高OGD的質量均采取了一系列措施,其核心是各種“質量評估系統”。美國白宮的“開放數據項目”(Project Open Data)開發了“儀表板”在線系統,評估和監測各聯邦機構的元數據質量及對M-13-13指令的執行情況[7]。英國內閣辦公室要求開放數據集要經歷“開放數據證書”(Open Data Certificate,ODC)質量評估工具(certificates.theodi.org)的評估過程,并將結果公布在網站Data.Gov.UK[8]。歐盟的“開放數據監測器”(Open Data Monitor,ODM)項目對歐洲各國173個數據門戶中的規模總量達1 472 GB的數據資源的質量進行評估和監測,結果展示在網站www.opendatamonitor.eu[9];于2015年11月上線的歐洲統一的數據門戶(www.europeandataportal.eu)包含“元數據質量儀表板”(Metadata Quality Dashboard)板塊,實時監測73個數據目錄的元數據質量狀況。

澳大利亞昆士蘭大學的Sadiq S等[1]認為“開放數據應質量優先于數量”,但還存在著三方面的挑戰,即“對數據質量維度的共同理解”“支持用戶的質量感知”及“加強數據質量與使用之間的聯結”。當前,“質量評估”是OGD研究的主要領域之一[10],相應成果提供了應對這些挑戰的方案并有力支撐了各國的質量管理實踐。

1 研究現狀

OGD質量評估可以分為兩個層次:宏觀和微觀。前者主要針對國家層面展開整體評價和對比分析,除了數據質量因素,還包括數據集的數量、政策和法律基礎、平臺服務、數據使用和效果等因素[11]。著名的有開放數據晴雨表、全球開放數據指數等,后者針對開放數據平臺中的每個數據集及其元數據開展質量的多維評估,以提升數據質量為目標。本文重點關注微觀層次的數據質量(含元數據質量)評估(Data Quality Assessment,DQA)。

1.1 國外

“開放數據門戶”(Open Data Portal)是以目錄管理為核心的軟件平臺,向用戶提供數據集的查找、展示和獲取等服務[12]。數據目錄(Data Catalog)是“元數據的集合”,而元數據是描述數據集的結構化數據。

J.Attard 等[13]指出“元數據質量”是提高開放數據可發現性的關鍵,是決定OGD成敗的最重要因素之一。德國學者K.J.Reiche等[14-16]通過8個度量指標:完整性、加權的完整性、準確性、信息量、可讀性、URL有效性、內在精度和開放許可,對德國、英國、加拿大和墨西哥等14個國家數據門戶的元數據記錄質量進行了評價,所采用的自動化方法依賴于CKAN平臺的元數據API。類似地,盧森堡大學的S.Kubler等[17]在歐盟H2020計劃項目資助下,采用AHP方法對44個國家的146個“開放數據門戶質量”(Open Data Portal Quality,ODPQ)進行綜合排序,前三名的網站分別來自荷蘭、加拿大和英國。該方法的基礎是CKAN平臺構建的五個元數據質量指標:核心元數據的存在性、記錄完整性、開放性、資源可獲取性和溯源信息。奧地利學者J.Umbrich等[18-19]建立各平臺(CKAN、Socrata和OpenDataSoft等)元數據到W3C標準DCAT(Data Catalog Vocabulary)的映射,有效屏蔽了平臺間的差異,成功地對260個網站、110萬個數據集的元數據質量進行了定期(以7天為周期)自動評價,評價結果公布在data.wu.ac.at/portalwatch。其評價體系包含5個維度(存在性、合規性、可獲取性、準確性和開放性)下的18個指標,既面向元數據記錄、也面向元數據模式,又增加了體現開放數據原則的維度——開放性。可見,元數據質量評估以自動評價方法為主,向著通用框架的方向發展:指標更加全面與不依賴特定的軟件平臺。

同時,元數據質量評估是對開放數據平臺進行綜合評估的基礎。西班牙學者A.S.Martín等[20]將平臺的“質量指數”(Quality Index,QI)分解為3個子指數:功能指數、內容指數和語義指數,其中語義指數的四個指標之一是元數據質量水平。捷克學者R.Máchová等[21]建立的數據門戶質量評估的“基準框架”共有4個維度(技術、搜索與訪問服務、用戶交互和數據集描述)下的28個指標,其中數據集描述維度下的10個指標涉及到各種元數據項,如Title、Publisher和License等。

數據本身的質量是另一個研究焦點。巴西學者M.I.S.Oliveira等[22]對巴西國內的13個數據門戶進行對比分析,評估了CSV數據集的數據稀疏性(即完整性)、記錄重復性及模式定義的規范性等,發現了記錄重復、字段定義不一致等質量問題。意大利都靈理工大學的A.Vetrò等[2]以意大利為背景,在SPDQM(Square-Aligned Portal Data Quality Model)基礎上建立了7個維度(準確性、完整性、時效性和溯源等)和14個度量指標的評估框架,評價粒度細致到數據集中的記錄與單元。荷蘭代爾夫特理工大學的A.Zuiderwijk等[23]在下一代開放數據平臺中引入“數據質量指示器”功能模塊,以促進開放數據的再利用。數據質量評估也是各種綜合評估的基礎。例如,在政府的開放性評價中,塞爾維亞學者N.Veljkovi?等[24]從開放數據的八項原則出發,重點關注數據的完整性、原始性、及時性、機器可讀性及開放許可等。葡萄牙學者P.L.Rui[25]認為數據質量是政府數據披露(Data Disclosure)的關鍵特征,包括準確性、一致性、完整性、及時性和可獲取性等子屬性。英國倫敦布魯內爾大學的K.Kapoor等[26]將數據質量列為政府數據可用性(Usability)的關鍵特征之一。

1.2 國內

2014 年12月2日,全國信息安全標準化技術委員會成立大數據標準工作組,啟動了大數據領域(含開放數據)標準的研制工作,目前在研究的12項標準包括“信息技術數據質量評價指標”[27]。夏義堃[28]的研究成果認為“數據質量問題(數據重疊和不準確等)是OGD風險的重要來源”,提出的風險管理流程包括“建立政府數據開放的質量保障體系與評估體系”。李平等[29]認為數據質量是開放數據成功應用的基礎,包括數據的高價值性、一致性、可機讀性和持續性等。

臺灣高雄大學的C.S.Lin等[30]對臺灣省內的3個開放數據網站質量進行評估,13個指標包括元數據、API、數據格式、可用性、隱私保護和開放許可等。鄭磊等[31-32]基于國情,提出“基礎”“數據”“平臺”三大層面共13個維度的OGD評估框架,數據質量是維度之一。馬海群等構建了六維度的政府開放數據網站服務質量測量的結構方程模型[33]和基于用戶滿意度理論的政府開放數據質量評價指標體系[34],數據質量指標包括準確性、全面性、一致性和及時性。武琳等[35]構建的城市開放政府數據平臺服務績效評估體系中,數據質量是7個二級指標之一,含有4個三級指標:數據完整性、元數據描述、數據格式和授權許可。譚必勇等[36]從開放政府數據平臺的宏觀功能結構出發,對我國10個代表性開放平臺數據質量從可用性、可讀性、全面性、及時性和開放性等7個指標進行評價,每個指標分為三個等級,在綜合等級上“上海”和“青島”排名最高(都是一級)。

同國外相比,這些工作的不足是選取的維度和指標偏少,對數據質量的描述不全面、粒度較大,對元數據質量重視不夠,也缺乏細粒度的評價案例和實際應用的評價系統。

2 評估指標

為完成數據質量評估(DQA),需要合適的評估指標、方法和工具,而構建維度和指標體系是上述研究工作的核心內容。質量維度(Dimension)是數據特征或數據需求的一個方面(如準確性、開放性等),需要分解為可測量的一系列度量指標(Metric)[37]。借助一定的方法或工具,每個指標能夠根據評估對象被賦予一個明確的值——一個語言值或數值,常用的是布爾值(0或1)和百分比。

2.1 元數據

表1 元數據質量的評估指標——模式層

目前,OGD的元數據質量的評估指標已相當完善,本文從兩個層次(模式層和實例層)[38]對其進行歸納,結果分別見表1和表2。可見,在22個指標中已有50%在歐盟、英國或美國的“質量評估系統”中得到了應用;除了信息量、記錄的正確性和地理范圍等指標難以計算外,大部分指標的計算較為簡單,可由程序自動完成,比如URL的有效性可以通過“正則表達式”自動驗證等[19]。

表2 元數據質量的評估指標——實例層

2.2 數據集

目前提出的主要的數據集質量評估指標見表3,也分為模式層和實例層兩個層次。其中,可追溯性維度下的兩個指標與表1中的“日期”指標重復,模式的可理解性也是通過元數據實現的。數據集的開放性是開放數據的核心屬性,其評價歸為元數據范疇(見表2),沒有出現在表3中。元數據的一些質量屬性,如表2中的資源可用性、開放性等,實質上也反映了數據集的相應質量屬性。

從表3可見,對數據集模式定義的評估指標比較少,表明這方面的研究才剛剛起步。實際上,在傳統的數據庫領域存在著“模式的質量決定著數據的質量”這一規則[38],在開放數據領域也應重視數據和元數據在模式層次的質量問題及其對數據質量的影響。

表3 數據集質量的評估指標

(注:資料來源于參考文獻第2、22、24—25、30、32、34—36條。)

3 對我國的啟示

提升和保障數據質量是我國政府數據共享開放工程的主要任務之一[10]。我國目前的研究成果偏向于對數據平臺的整體評價,還缺乏對平臺內數據和元數據等的細粒度質量評價。在開展我國OGD數據質量評估工作時,應著重從以下三方面借鑒國際先進經驗。

3.1 選擇多元評估對象

數據質量是一個多維和主觀的概念,與背景、環境和應用場景密切相關。不同于其他領域,OGD質量評估的對象呈現出多元化的特點。W3C Web數據最佳實踐(Data on the Web Best Practices,DWBP)工作組在對各國開放數據實踐全面調研和深入分析基礎上,在元數據、開放許可、數據質量等方面提煉了35個最佳實踐(Best Practice, BP),于2017年1月31日發布為正式推薦標準[39],其中提出的開放數據的結構模型如圖1所示。在將“數據集”發布到Web的同時,相應的“元數據”和“詞匯表”也應同時發布出來,這里的“詞匯表”通常是數據集的模式定義,或者是元數據模式定義的一部分[6],用以規范元素的取值。因此,數據集、元數據和詞匯表應是數據質量評估的三個基本對象,在此基礎上可以進一步開展“數據目錄”(即門戶網站或軟件平臺)質量的綜合評價。

圖1 開放數據的結構模型

在我國,除了元數據和數據本身,數據模式定義也被越來越多的數據門戶網站開放出來,如上海(www.datashanghai.gov.cn)、廣州(datagz.gov.cn/data)和哈爾濱(data.harbin.gov.cn)等。但在各字段(數據項)的格式定義中,均采用“文本”類型,沒有區分日期型和數值型等,為數據質量管理帶來隱患。同時,不同于國外將數據訪問的API (Application Programming Interface)作為一種數據資源,我國各網站將API接口服務處理為與數據集并列的開放對象。因此,數據集(含元數據和模式定義)與API(含元數據和參數定義)應是我國開放數據細粒度質量評估的基本對象。

3.2 重視元數據標準規范的作用

各國的元數據標準規范在OGD建設和質量評估中起到了關鍵性的作用。美國白宮的“開放數據項目”(Project Open Data)開發了元數據方案POD v1.1(Project Open Data Metadata Schema v1.1),已被24個聯邦機構和43個地方政府采用。美國行政管理預算局(Office of Management and Budget,OMB)要求各聯邦機構依據POD v1.1定期報送“企業數據清單”和“開放數據清單”,并對其質量進行評估和監測。在W3C DCAT的基礎上,歐盟開發了元數據方案DCAT-AP(DCAT Application Profile),通過它評估各國的元數據質量。英國的ODC收集每個數據集的DCAT元數據評價其質量和可信度[9]。J.Umbrich等建立的通用評估框架借助DCAT解決了各平臺元數據的異構問題[19]。

對標準規范的遵從程度是質量評估的基本準則。2013年11月,上海市質量發布地方標準《政務信息資源共享與交換實施規范第1部分:目錄元數據》,用以規范政府部門數據資源開放清單的編制[6]。2016年9月28日,貴州省技術監督局發布《政府數據資源目錄第1部分:元數據描述規范》等四項地方標準。這些標準應成為我國元數據質量評估的基礎。同時,國家數據開放網站www.data.gov.cn的建設,迫切需要全國統一的元數據標準和通用的質量評估體系,以促進和保障地方政府的數據目錄聚合到全國統一的平臺上。

3.3 建設自動化的質量評估與監測系統

質量改進是一個持續的漸進過程,需要定期開展質量評估和監測工作,找出質量問題并采用應對措施。隨著OGD的發展,數據集的數量和規模迅速增長。為此,自動化的質量評估與監測系統得到普遍重視,其運行方式分為兩種:嵌入到開放數據平臺(如歐盟)與獨立運行(如美國和英國)。

以濟南市為例,在對其開放數據網站(www.jndata.gov.cn)中數據集的調查發現,無論是元數據、還是數據本身都存在各種維度下的一些質量問題,詳見表4。該網站于2017年7月25日正式開通,發布了325個數據集。到12月25日已有894個數據集,而到2018年1月初已增長到1 010個。顯然,建設質量評估系統是質量管理成熟度提升的必由之路,也只有自動化的方式才能實時監測最新的質量狀況。

表4 濟南市開放數據存在的質量問題

由于我國各地的開放數據網站大多沒有提供元數據API,使得程序不能以一致、便捷的方式獲取元數據記錄。這時需要網頁抓取技術,但由于各地網站的組織方式不同,需設計不同的抓取方案,增加了獨立運行的自動評估系統的復雜性。

4 結語

世界各國的實踐表明,開放不等同于高質量。在開放的同時,數據發布者應確保數據是可信的和可發現的,即保障數據質量和元數據質量。國內外面向OGD數據質量評估的研究方興未艾,以應對“對質量維度的共同理解”等挑戰。本文對其進行了梳理,提煉出了主要的評估維度和指標,結合我國實際,分析了可以借鑒的經驗。

下一步的工作是構建適應國情的數據質量評估和監測體系,并應用到我國開放政府數據的實踐中。

(來搞時間:2018年3月)

猜你喜歡
評價質量
“質量”知識鞏固
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
質量守恒定律考什么
做夢導致睡眠質量差嗎
關于質量的快速Q&A
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
石器時代與質量的最初萌芽
主站蜘蛛池模板: 亚洲精品无码AⅤ片青青在线观看| 国产成人久久综合777777麻豆| 国产精品成人一区二区不卡| 欧美一区日韩一区中文字幕页| 国产69精品久久| 久久久精品无码一区二区三区| 亚洲第一精品福利| 国产丝袜91| 欧美区一区| 日韩午夜福利在线观看| 欧美综合区自拍亚洲综合绿色| 美女无遮挡免费视频网站| 本亚洲精品网站| 欧美.成人.综合在线| 国产亚洲欧美另类一区二区| 亚洲国产中文欧美在线人成大黄瓜| 国产综合欧美| 永久免费AⅤ无码网站在线观看| 色视频国产| 国产精品亚洲va在线观看| 蜜桃视频一区二区| 国产福利影院在线观看| 国产精品福利尤物youwu| 伊人狠狠丁香婷婷综合色| 亚洲欧美日韩中文字幕一区二区三区 | 中文成人在线视频| 人妻丝袜无码视频| 欧美精品一二三区| 久久伊伊香蕉综合精品| 一区二区午夜| 国产97视频在线观看| 91精品国产丝袜| 激情亚洲天堂| 久久精品人人做人人爽电影蜜月| 亚洲三级视频在线观看| 男女猛烈无遮挡午夜视频| 91精品aⅴ无码中文字字幕蜜桃 | 日本人妻丰满熟妇区| 日韩一区精品视频一区二区| 国产精品手机在线播放| 野花国产精品入口| 青青草原国产一区二区| vvvv98国产成人综合青青| 亚洲国内精品自在自线官| 成人国产三级在线播放| 国产91高跟丝袜| 中文国产成人精品久久| 幺女国产一级毛片| 最新国产你懂的在线网址| 91人妻在线视频| 日韩欧美国产区| 99久久精品免费观看国产| 婷婷午夜影院| 亚洲国产精品日韩av专区| 在线免费无码视频| jizz在线免费播放| 操操操综合网| 国产在线观看精品| 日本欧美视频在线观看| 国产一区二区在线视频观看| 欧美综合区自拍亚洲综合绿色| 久久黄色一级视频| 在线观看国产精美视频| 日韩高清成人| 亚洲一区毛片| 国产超碰一区二区三区| 真实国产乱子伦视频| 欧美国产综合色视频| 国产成人久视频免费| 在线国产毛片手机小视频| 91精品伊人久久大香线蕉| 四虎永久在线精品国产免费| 欧美日本在线一区二区三区| 国产小视频免费观看| 久久久久久久蜜桃| 九色国产在线| 色视频久久| 久久亚洲中文字幕精品一区| 国产粉嫩粉嫩的18在线播放91| 日本精品视频一区二区| 日韩天堂视频| 中文字幕久久波多野结衣 |