黃國彬 陳麗



摘 ? 要:文章調研了目前國內外科學數據質量評估框架的研究現狀,對英國、美國和澳大利亞國家科學數據平臺數據質量框架和三大主要的國際組織發布的數據質量評估框架進行了比較研究。通過對各框架內容的剖析和數據質量維度的比較分析,找出了不同評估框架在各維度上的差異性和一致性。
關鍵詞:科學數據;數據質量評估;質量框架;對比分析
中圖分類號:G311 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2021013
Comparative Study on the Foreign Framework of Scientific Data Quality Assessment
Abstract To understand the foreign research status of scientific data quality assessment framework for domestic scholars to scientific data quality assessment framework to provide the reference and reference, this article research the present domestic and foreign research situation of the scientific data quality assessment framework, in Britain, the United States and Australia's national science data platform data quality framework and three main data released by the international organization has carried on the comparative research on quality assessment framework. Through the analysis of the content of each frame and the comparative analysis of data quality dimensions, the difference and consistency of different evaluation frameworks in each dimension are found.
Key words research data; data quality assessment; quality framework; comparative analysis
1 ? 引言
科學數據的質量對科學研究至關重要,可以說科學數據在一定程度上決定了研究的質量,因此,科學數據的質量評價研究對于科學研究和數據共享具有重要意義。國外對數據質量評估的研究更多是針對目前各領域中的數據質量問題進行討論并提出相關建議。國內在數據質量評估方面的研究主要是以現有的數據質量評估框架為研究對象進行總結和分析或者分類,如學者程開明[1]、袁滿[2]等;也有學者通過研究國際上較成熟的數據質量評估框架,借鑒其經驗并闡述了對我國構建數據質量評估框架的啟示,如學者朱松[3]、許滌龍[4]、常寧[5]、童銘紅[6]等。
考慮到數據質量評估框架的通用性和對本研究的可借鑒性,本研究選擇了國際貨幣基金組織數據質量評估框架、經合組織統計活動質量框架、歐盟統計局統計質量保證框架三種框架作為研究樣本。根據re3data統計,全球已注冊的科學數據平臺已經近2000個。這些科學數據發布平臺大多數都有對數據質量的規范和標準,但具體要求的維度和內容不同,詳細程度也不同。考慮到平臺對數據質量的規范內容和這些平臺涉及的學科綜合性、數據發布平臺的認可度和重要性,本研究選取了國際上規模較大、認可度較高的五個科學數據平臺的數據質量評估內容作為樣本進行研究,分別是美國政治與社會研究校際聯合數據庫、英國數據檔案、數字管理中心、澳大利亞國家數據服務中心、數據治理研究所。本研究以上述8個框架為樣本進行內容分析,結合科學數據的特點,參考學者Wang和Strong等[7]提出的數據質量框架維度,通過比較分析法對其包含的數據質量維度、應用情景等進行研究,發現他們的差異性和一致性,進一步總結經驗和啟示。
2 ? 數據樣本內容概述
2.1 ? ?國際組織數據質量評估框架
2.1.1 ? 國際貨幣基金組織數據質量評估框架DQAF
DQAF通過將國家統計實踐與最佳實踐(包括國際公認的方法)進行比較,為評估數據質量提供了一種結構[8]。DQAF評估由六部分組成,保證數據質量的先決條件是DQAF框架首要考慮的問題,包括法律和制度環境、必要的資源、相關性問題。DQAF進一步分析了數據質量的五個維度:客觀性、方法健全性、準確性和可靠性、適用性、可訪問性(見表1)。
為節省篇幅,本文后續部分用編號A代替DQAF數據質量評估框架。
2.1.2 ? 經合組織統計活動質量框架
OECD(經濟合作與發展組織)成立于1948年,負責管理美國資助的馬歇爾計劃,以重建受戰爭蹂躪的大陸。經合組織統計數據質量的提高是經合組織的主要目標之一,其統計數據涵蓋范圍的領域廣泛,從經濟學到健康和教育,從稅收和農業到環境,從遷移和創新到生活質量。
OECD統計活動質量框架有四個要素:質量及其尺寸的定義,確保擬議的新統計活動質量的程序,定期評估現有統計活動質量的程序,經合組織統計活動的一系列廣泛原則和質量。這四大要素涵蓋了統計生產過程所有階段的準則(見表2)。
為節省篇幅,本文后續部分僅用編號B代替OECD統計活動質量框架。
2.1.3 ? 歐盟統計局統計質量保證框架QAF
歐盟統計局(ESS)成立于1953年,以滿足歐盟共同體的要求。歐盟統計局的關鍵作用是向其他總干事提供統計數據,并向委員會和其他歐洲機構提供數據,以便他們可以定義、實施和分析社區政策[9]。歐盟統計局的使命是為歐洲提供高質量的統計數據。歐洲統計局的質量保證框架確定了可能的活動、方法和工具,可以在制定、制作和傳播歐洲統計數據時為實施“行為準則”提供指導和證據(見表3)。
為節省篇幅,本文后續部分僅用編號C代替ESS統計質量保證框架QAF。
2.2 ? ?科學數據平臺數據質量評估框架
2.2.1 ? ICPSR的數據質量評估框架
ICPSR(Inter-University Consortium for Political and Social Research,政治與社會研究校際聯合數據庫)于1962年由美國密歇根大學社會研究中心建立,是國際上重要的學術研究數據資料庫,也是世界上最大的社會科學數據中心。ICPSR的目的是收集和保存社會科學研究數據資源,并提供公平公開且合理的使用,以加強數據資源的有效利用,包括政治學、人口學、社會學等學科,提供的數據包含了數據的原始文件、數據描述文件,以及其他相關文檔[10]。
ICPSR的數據質量評估包含在ICPSR的數據管理計劃中,是針對數據的提供者提出的,其內容也包含了對數據消費者(或使用者)較為重要的質量維度,如數據完整性、可訪問性、及時性、訪問安全性、可追溯性等(見表4)。ICPSR的數據質量規評估主要是用于評估社會科學研究數據,但由于其對數據質量規定的維度有一定的普適性,并不是針對某一具體學科數據形式的詳細定義,因此對其他科學數據的質量保證也有參考意義,可以在一定程度上用于其他學科的科學數據質量評估。
為節省篇幅,本文后續部分僅用編號D代替ICPSR的數據質量評估框架。
2.2.2 ? UKDA的數據質量評估框架
UKDA(UK Data Archive,英國數據檔案)成立于1967年,英國數據檔案館位于埃塞克斯大學,是一個獲取、策劃和提供最大的社會科學和人文數據集的卓越中心。UKDA擁有豐富的數據資源,其數據涉及環境保護、社會科學、人文科學等多個領域[11]。UKDA是英國數據服務的主要合作伙伴,為研究人員提供支持、培訓和訪問英國最大的社會、經濟和人口數據集。
UKDA為研究人員提供了數據管理清單,數據發布必須按照清單的要求來進行。這份數據管理清單包含六個部分:數據規劃,文檔化,格式化,存儲,保密、道德和同意,版權分享。每個部分還有更詳細的要求(見表5)。UKDA對數據質量的規定和評估要求也包含在該清單中,UKDA還針對定性數據和定量數據使用不同級別的質量控制,包括數據集維度檢查、元數據檢查、數據有效性檢查等。其數據涉及環境保護、社會科學、人文科學等多個領域。
為節省篇幅,本文后續部分僅用編號E代替UKDA的數據質量評估框架。
2.2.3 ? DCC的數據質量評估框架
DCC(The Digital Curation Centre,數字管理中心)是國際公認的數字管理專業中心,專注于建立研究數據管理的能力和技能[12]。
DCC專注于數據存儲、管理、保護和共享,數據涉及范圍廣,幾乎沒有學科限制。DCC數據質量評估主要針對研究人員和數據管理人員,分為以下七部分:與使命的相關性、科學或歷史價值、唯一性、不可復制性、成本效益、文檔完整性、重新分配的可能性。
為節省篇幅,本文后續部分僅用編號F代替DCC的數據質量評估框架(見表6)。
2.2.4 ? ANDS的數據質量評估框架
ANDS(The Australian National Data Service,澳大利亞國家數據服務中心)由澳大利亞政府通過國家合作研究基礎設施戰略(NCRIS,National Collaborative Research Infrastructure Strategy)資助。自2008年正式成立以來,ANDS一直支持澳大利亞各地的眾多研究數據項目,它還在國際研究數據界發揮了重要作用。ANDS的旗艦服務是澳大利亞研究數據發現門戶網站,用戶可以在其中查找,訪問和重復使用來自澳大利亞研究組織、政府機構和文化機構的研究數據[13]。
ANDS的數據質量評估依據FAIR數據原則。FAIR數據原則于2015年在荷蘭萊頓的洛倫茲中心研討會上起草,依次涵蓋四項原則:可查找、無障礙、互操作、可重復使用(見表7)。
為節省篇幅,本文后續部分僅用編號G代替ANDS的數據質量評估框架。
2.2.5 ? DGI的數據質量評估框架
DGI(The Data Governance Institute,數據治理研究所)由DGI數據治理框架的主要作者Gwen Thomas于2003年創立,它是業界公認的第一名,世界各地的從業者一直在基于DGI數據治理框架和支持材料報告他們的計劃。DGI于2004年推出了DGI數據治理框架,以響應對分類、組織和溝通涉及對企業數據做出決策和采取行動的復雜活動的新方法的需求。使用該框架使數據戰略專家,數據治理專業人員,業務利益相關者和IT領導者能夠共同合作,制定有關如何管理數據,實現數據價值,最小化成本和復雜性,管理風險以及確保合規性不斷增長的決策法律,法規和其他要求[14]。
DGI數據治理框架中的數據質量評估依據DGI數據治理指導原則。該原則包括以下八個組成部分:誠信、透明度、可審計性、問責制、管家、檢查和平衡、標準化、變革管理(見表8)。
為節省篇幅,本文后續部分僅用編號H代替DGI的數據質量評估框架。
3 ? 評估框架內容比較分析
3.1 ? ?框架應用情景分析
框架應用情景是指框架在應用過程中涉及的相關對象和使用情景,包括框架產生的背景(或目的),框架評價的數據對象,框架的具體評價內容,框架的使用者等。通過調研各框架的發布機構或平臺的信息以及對框架內容的梳理,筆者發現,由于不同的科學數據平臺或機構需要處理的數據內容的不同,其所發布的數據質量評估框架的應用場景也不盡相同,如框架適用的學科數據有哪些,框架涉及的數據質量評估維度是針對數據發布者還是使用者等。根據框架發布者的背景信息和框架內容,筆者總結了框架內容來源(背景)、數據涵蓋學科、評估內容和適用對象四個方面進行對比,得到內容特點和適用性(見表9)。
從框架提出的背景來看,框架A、B、C都是國際組織已經公開發布的有一定獨立性的數據質量評估框架,框架D、E、F、H則是依托于平臺的數據管理規范。從框架涵蓋的學科來看,由于各組織和數據平臺提出的數據質量框架都是為了對其自身涉及的數據進行質量規范,因此本研究中把組織和平臺涉及的數據學科作為其對應框架的數據涵蓋學科。由表9可知,只有框架D和E的數據涵蓋學科有一定限制,框架D的數據涵蓋學科是包括了政治學、人口、社會等社會科學,框架E則是環境保護、社會科學、人文科學等。其余框架均對數據學科沒有明確的限制。從評估內容來看,各框架的評估內容分4-8個部分不等,框架A、B、C、D、G更多的是對數據本身的質量維度要求,而框架E、F、H還增加了涉及數據管理過程的相關要求。更詳細的數據質量評估維度的分析在5.2中。從適用對象來看,8個框架的提出大多是針對數據生產者或數據提供者,但所有框架也同時對數據使用者或管理者適用。
3.2 ? ?數據質量評估維度分析
通過對大量研究的總結分析發現,目前對數據質量框架的研究中,學者Wang和Strong[7]提出的數據質量框架包含的數據質量維度是最為廣泛和權威的。該框架已被不同國家的許多大型企業和政府機構所采用,許多研究人員也將其作為研究對象或參考。該框架選擇了20個對消費者使用數據較為重要的質量維度,后來將其減少至15個,并劃分四大類別。這些數據質量維度的選擇基于以下目標:數據使用者必須能夠訪問數據;消費者必須能夠解釋數據;數據必須與消費者相關;消費者必須找到準確的數據(見表10)。本研究選擇以此框架中包含的數據質量維度作為參考,研究科學數據質量評估框架。
筆者在研究了三個成熟的數據質量評估框架以及五個科學數據平臺對數據的質量要求內容后,以Wang等提出的數據質量評估框架維度為參考,根據對8個科學數據質量評估框架的具體內容分析,整理得到差異性比較結果(見表11)。
由差異性比較結果表可以看出,三個較成熟的數據質量評估框架涉及的數據質量維度大多數是相同的,如可信度、準確度、相關性、及時性、可訪問性等。綜合其他五個框架來看,數據質量對可信度、準確度、可追溯性、相關性、一致性、可訪問性、成本效益等數據質量維度有較為普遍的要求,而對客觀性、增值、易于操作、訪問安全等維度的要求則較少,八個平臺的數據質量要求都沒有對適當的數據量、靈活性、簡明表示三個數據質量維度的要求。結合不同平臺的服務對象和學科數據內容分析,可信度、準確度、相關性、一致性和可追溯性以及可訪問性、成本效益可以看作是對數據質量的基本要求。
下面根據四大類共20個維度對數據質量評估框架的內容分別進行梳理,將各框架中的內容與每個大類相應的指標一一對應。
3.2.1 ? 數據準確性
數據的準確性即數據提供者必須提供準確的數據,以便使用者能找到和利用準確的數據。數據準確性包括了數據必須是正確的、客觀的、來自有信譽的來源等內容。科學數據的準確性是保證科學研究能得到正確結論的重要前提,因此對科學數據準確性維度的評估是數據評估的基本要求。
(1)可信度。可信度是指數據的可信程度和可靠性。框架A中有明確的專業性與透明度指標要求,框架B中的可信性要求還包含了三個方面:統計問題的透明和專業,數據發布避免在時間和內容上的政治干擾和數據使用者對數據的懷疑有相應的處理方法和程序。框架F則要求數據有研究領域當前價值的權威證據。框架H也有明確的誠信要求,規定數據治理參與者通過彼此的交易來實踐誠信,在討論與數據相關的決策的驅動因素、約束、選項和影響時,是真實的和即將到來的。而其他框架中則沒有明確提及可信性要求。
(2)準確度。準確度是指數據經過認證,準確可靠,無瑕疵,誤差小。8個數據質量規范有5個涉及到對準確度的要求,準確度也是數據質量控制的重要內容,對數據質量起決定性作用。框架A要求原始數據和統計方法可靠,統計數據充分反映實際情況;框架B和C也有明確的準確度指標要求,框架B主要是在數據標準、數據輸入和評估精度方面作要求,框架C則更細致,在變異系數、單位回答率等統計指標上有要求。另外5個框架的數據質量規定對準確度的要求內容則比較模糊,框架D只提及會在數據過程中保證質量,框架H則要求數據的真實透明(見表12)。
(3)客觀性。客觀性是指數據是公正、客觀的。表中8個數據質量規范只有框架A明確提及到對客觀性的要求,其他框架中對客觀性的要求不明確或是融入到了可信度與準確度要求中。
(4)完整性。完整性是指數據的寬度、深度和范圍是完整的。框架A、C和F對完整性的要求主要是在源數據和文檔記錄上,這一點和可追溯性也相關聯。
(5)可追溯性。可追溯性是指數據有良好的文檔記錄、易于追蹤,可驗證。可追溯性對于數據的使用也有重要作用,數據的可追溯性保證了數據是可以由使用者根據數據的相關記錄和文檔進行驗證的。框架D、E、F、G、H都有對可追溯性的要求。框架A要求有源數據、中間數據及統計結果的評估和驗證,框架B要求提供數據說明、目錄和收集方式,框架E和H都要求有數據文檔與可驗證、可審計,框架F則要求數據資源出處與元數據創建和使用的背景。
(6)聲譽。聲譽是指數據的聲譽、權威問題。數據是否有一定的聲譽和權威性,決定了數據在使用中能否有效支撐科學研究的理論實踐。但在表12中,8個框架只有D和E涉及到聲譽維度,對數據的存檔和數據存留與銷毀有相關要求。
(7)各種數據源。數據源是指數據有各種明確的數據源。對數據來源有特殊要求的數據,如要保證數據的唯一性,只有在這個數據集中能獲取相應數據,則要求有明確的數據源,但對數據源有具體要求的只有框架E和F。
在數據準確性的評估中,8個框架有至少3個框架的評估內容包含可信度、準確度、完整性和可追溯性,說明機構組織和科學數據平臺在進行數據質量評估的時候,將這些維度作為基礎要求;對數據客觀性、聲譽和數據源維度的要求則比較少,只有個別評估框架中有相關內容。
3.2.2 ? 數據相關性
數據相關性主要是從數據使用者角度出發,即數據與使用者的使用數據的相關性,能夠讓數據使用者在研究和決策中有效使用數據。數據相關性包含了數據是相關的、及時的、易于操作的等內容(見表13)。
(1)增值。增值是指數據提供的競爭優勢,為運營帶來數據增值。只有框架F在規范中提到要有對未來潛在利益的評估。其他框架在這方面都沒有明確要求。
(2)相關性。相關性是指數據是可應用的,相關的,有趣的,有用的。相關性的評定更多的是從數據使用者的角度,判斷數據與研究的相關程度和可應用性。框架A、B、C、F都把相關性作為大類指標進行要求,框架A在把相關性放在了質量的先決條件指標中,框架B對相關性的要求側重于數據與客戶需求的相關性,框架C的相關性要求則是統計上的數據可得率,框架F對相關性的要求與B類似,相關性評估的對象是用戶需求和研究內容。
(3)及時性。及時性是指數據收集和發布的及時,時效性。表中只有框架A和C的質量規范內容涉及到對及時性維度的要求。由于數據平臺對數據內容和保存時限的要求不同,部分數據可能要求是較新的、發布及時的,但有的數據跟發布時間和使用時限無關。
(4)易于操作。易于操作是指數據可用于多種用途,易操作、易連接、易修改,數據可集成。表中只有框架G明確提出了對這一維度的要求,數據需要使用社區商定的格式、語言和詞匯表,元數據還需要使用社區商定的標準和詞匯表,并包含使用標識符的相關信息的鏈接。
(5)適當的數據量。數據量適當且適合使用。選擇的8個框架均沒有明確規定對數據量的要求。
(6)靈活性。靈活性是指數據是可適應的,靈活的,可擴展的。由于DCC是國際專業數據平臺,對數據適用的廣泛性有一定的要求,因此框架F中包括了對靈活性維度的要求,而其他框架都沒有涉及。
在數據相關性的評估中,只有相關性一個維度是在大多數的框架中有涉及,而增值、及時性、易操作等維度只有個別框架將其列入數據質量評估內容,但對于科學數據而言,數據的及時性或時效性也是評價其質量的重要方面。
3.2.3 ? 數據可理解性
數據可理解性即數據的發布者用數據使用者可理解的語言描述和表示數據,且數據內部表示是一致的。數據可理解性包括了可解釋性、易于理解、具象一致性和簡明表示(見表14)。
(1)可解釋性。可解釋性是指數據可解釋、可翻譯。可理解性維度表中只有框架B、E、G涉及到對可解釋性的要求。框架B對可解釋性的要求分為三點:提供源數據覆蓋的概念、定義和方法;提供數據準確性的評估或分析以及提供基于數據的解釋性分析。框架E要求有描述和上下文文檔來解釋數據含義、數據收集方式以及創建方法,框架G的可解釋性要求則包含在互操作和可重復使用中,要求有明確數據描述可清晰的機器可讀。
(2)易于理解。易于理解是指數據容易理解,清晰可讀。表中只有框架E涉及到對易于理解的要求,明確規定在數據管理清單中指明相關文檔確定他人是否能夠理解數據并正確使用。
(3)具象一致性。一致性是指數據以相同的格式持續地、一致地表示和呈現。一致性涉及到已經存在的數據集內部數據的一致性,還涉及數據集在后續的更新過程中是否保持一致性。框架D、E、G、H對一致性的要求都是在數據描述與數據格式上,要求有按照固定格式和標準來組織數據。框架A對一致性的要求包含在適用性里,要求統計數據是一致性的并且遵循可預測的修訂政策。框架B的一致性要求包含三方面:使用共同的概念、定義和分類;數據處理使用共同的方法和系統;對抗和和解的數據集可能會發生沖突。框架C和F的質量規范內容則沒有涉及到一致性維度。
(4)簡明表示。簡明表示是指數據表示簡明緊湊,組織良好美觀,數據格式規范。由于不同學科對數據格式和類型的要求不同,數據質量評估框架并不能對數據格式進行細致規定,這一點在表中的各個框架中也沒有體現。
在數據可理解性的評估中,可解釋性和具象一致性是比較重要的維度,而易于理解和簡明表示維度的評估在8個框架中則很少涉及。由于科學數據的使用對象是科研人員而不是普通大眾,這一對象對該學科領域有一定的專業知識和理解能力,因此在科學數據的易于理解和簡明表示上不做重點要求。
3.2.4 ? 數據可訪問性
數據可訪問性即數據生產者和發布者允許數據被他人以一定的手段和方式獲取、使用。這也就意味著數據在一定程度上成為共享數據,因此數據可訪問性還涉及到數據的存放和訪問帶來的成本效益,以及訪問過程的安全問題(見表15)。
(1)可訪問性。可訪問性是指數據是可訪問的、可檢索的,訪問速度,數據是可用的、最新的,可訪問性也是數據得以共享和使用的重要評價指標。可訪問性維度表中6個數據質量框架都涉及到了對可訪問性的要求,可訪問性要求不僅包括了數據的可獲取性、可讀性,還包括了對數據重用的要求。
(2)成本效益。成本效益是指數據收集和整理的成本與使用效益。數據的收集和保存都需要成本和資金,因此對數據成本效益的估算在數據的質量評估中也具有重要作用。可訪問性維度表中有5個框架都涉及到了成本效益維度,但大多數都只要求了對數據保存的成本預算和控制,以及是否有相應資金和資金來源,因此只涉及到成本并不涉及效益,只有DCC明確提及了要對數據的未來潛在效益進行評估。
(3)訪問安全。訪問安全是指數據不能被競爭對手訪問,數據具有專有性質,訪問數據可受到限制。對于需要一定保密性的數據會考慮到訪問安全問題,這一點只有框架D有明確規定,其他框架對安全性的要求多為法律層面,涉及到數據版權、隱私等問題,但都沒有明確提出訪問的安全性。
在數據可訪問性的評估中,可訪問性和成本效益是大多數框架都考慮到的內容,這源于科學數據共享帶來的價值,因此數據的可訪問性十分重要;而科學數據的產生、保存和共享都需要付出一定的成本,因此各框架也都比較重視對科學數據成本效益的評估。
4 ? 結語
通過數據質量評估維度的比較分析,筆者發現,各個框架對數據質量的要求內容除了涉及到表9的數據質量維度,還幾乎都提到了數據的版權或知識產權問題、數據涉及的隱私問題、數據涉及的道德和法律問題、數據保留期等問題。如框架A把法律和制度環境列入了質量的先決條件中,并且包含了對職業道德標準的要求;ICPSR的數據管理計劃的要素中包含了安全(包括機密、權限、限制和禁運)、知識產權、存檔和保存、道德和隱私、法律要求等問題;UKDA還把保密、道德和同意與版權作為兩個大類指標進行數據質量要求。可見這些指標在數據質量評估中的重要性,弄清楚這些問題對數據發布者和使用者來說都具有重要意義。
目前國內外在科學數據領域的研究成果較為豐富,國外在數據質量評估問題上的研究也比較成熟,尤其是對統計數據的質量評估研究更多,這源于國家政府或者國際機構的數據很多都是統計數據,統計數據在一定程度上關系著社會和經濟的發展,我國也有不少學者針對政府統計數據、統計數據做了數據質量評估研究,成果顯著。在科學研究中,基礎數據起著決定性作用,而科學研究對一個國家的發展、社會的進步、國家的國際地位等都有關鍵性的作用,因此我們應該更加重視科學數據質量。筆者在研究過程中發現,國外許多國家都有很多大型的科學數據共享平臺,特別是英國、美國、澳大利亞,并且許多平臺都對自己的數據有一定的質量要求。目前中國的科學數據共享平臺發展還不夠成熟,國內主要的科學數據平臺是中科院科學數據共享工程中開發的多個學科數據共享平臺,包括基礎科學、地震科學、人口與健康科學等多個學科數據共享服務平臺等,以及社會科學數據庫:中國人民大學中國調查與數據中心、復旦大學社會科學數據平臺、北京大學開放研究數據平臺。由于平臺的限制,科學數據的發布、共享和使用效率都有很大的提升空間。國內對科學數據質量評估的研究還處于一個不成熟階段,學者們提出的有效的科學數據質量評估框架是有限的,其適用范圍也不夠廣泛,此后還需要更多相關研究,以促進科學研究的發展和科學數據的共享。
參考文獻:
[1] ?程開明.三種國際統計質量管理框架的比較及啟示[J].統計研究,2011,28(4):74-79.
[2] ?袁滿,劉峰,曾超,等.數據質量維度與框架研究綜述[J].吉林大學學報(信息科學版),2018,36(4):91-98.
[3] ?朱松,高喜燕.國外統計數據質量評估框架、方法及對我國的借鑒[J].西部金融,2014(10):78-81.
[4] ?許滌龍,龍海躍.歐盟數據質量評估框架及其對我國的啟示[J].統計與決策,2013(8):4-7.
[5] ?常寧.IMF的數據質量評估框架及啟示[J].統計研究,2004,21(1):27-30.
[6] ?童銘紅,虞波.國際統計數據質量管理框架的思考和實踐[J].現代經濟信息,2013(24):92-93.
[7] ?Wang R Y,Strong D M.Beyond Accuracy:What Data Quality Means to Data Consumers[J].Journal of Management Information Systems,1996,12(4):5-33.
[8] ?Data Quality Assessment Framework[EB/OL].[2019-05-20].https:// www.imf.org/ externa/ np/sta/dsbb/2003/eng/dqaf.html.
[9] ?Quality Assurance Framework of the European Statistical System[EB/OL].[2019-05-20].https://ec.europa.eu/eurostat/documents/64157/4392716/ESS-QAF-V1-2final.pdf/bbf5970c-1adf-46c8-afc3-58ce177a0646.
[10] ?ICPSR.Data Management & Curation[EB/OL].[2019-05-20].https://www.icpsr.umich.edu/ icpsrweb/content/datamanagement/dmp/framework.html.
[11] ?UKDA.The UK's largest collection of digital research data in the social sciences and humanities[EB/OL].[2019-03-20].https://www.ukdataservice.ac.uk/manage-data.
[12] ?DCC.Digital curation standards[EB/OL].[2019-05-20].http://www.dcc.ac.uk/resources/ standards.
[13] ?ANDS.The FAIR data principles[EB/OL].[2019-06-01].https://www.ands.org.au/working-with-data/fairdata.
[14] ?DGI.Goals and Principles for Data Governance[EB/OL].[2019-03-20].http://www.data governance.com/adg_data_governance_goals.
作者簡介:黃國彬,男,北京師范大學政府管理學院副教授,研究方向:信息法學、信息分析;陳麗,女,北京師范大學政府管理學院碩士研究生,研究方向:信息分析、信息資源管理。