999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據下的數據質量評價指標體系研究

2024-05-13 00:00:00嚴晗?朱啟貴
上海管理科學 2024年1期
關鍵詞:數據質量評價指標大數據

摘 要:大數據時代下,數字經濟進入一個發展的黃金時代,與此同時數據質量也成為日益突出的問題。文章借鑒信息技術的生命周期管理理論,從數據生產者、數據管理者和數據消費者的視角,進一步構建大數據的數據質量評價指標體系評價數據質量,包括數據源質量、數據內在質量、數據外在質量和數據價值質量四個維度。最后,基于研究結果,得出結論并提出建議。

關鍵詞:數字經濟;大數據;數據質量;評價指標

中圖分類號:F222 文獻標志碼:A" " " " ""文章編號:1005-9679(2024)01-00-05

Research on Big Data Quality Evaluation Index System

YAN Han ZHU Qigui

(Antai College of Economics - Management" "Shanghai Jiaotong University,Shanghai 200030,China)

Abstract:In the era of big data,the digital economy has entered a golden age of development,at the same time,data quality has become an increasingly prominent problem. Based on the life cycle management theory of information technology,this paper constructs a data quality evaluation index system of big data from the perspectives of data producers,data managers and data consumers. Different data quality evaluation dimensions are adopted for analysis,including data source quality,data intrinsic quality,data extrinsic quality and data value quality. Finally,conclusions are drawn and relevant suggestions are put forward.

Key words:digital economy;big data;data quality;evaluation index

近年來隨著互聯網、移動互聯網、物聯網、5G等信息通信技術及產業的不斷發展,全球數據量呈爆發式增長態勢。數據作為和土地、資本、勞動力、技術一樣的生產要素,在數字經濟不斷深入發展的過程中,地位愈發凸顯,數字經濟也已經成為中國經濟發展的重要引擎之一,數據質量問題也受到政府部門、企業、社會公眾和學術界的共同關注。2021年,中共中央辦公廳、國務院辦公廳印發了《關于更加有效發揮統計監督職能作用的意見》,對切實提高統計數據質量提出了明確的要求。盡管對于大數據質量問題的研究不斷增加,但是國家尚未出臺統一的大數據質量評價標準,學界對此的研究也不統一。

1 相關概念界定及辨析

1.1 大數據定義

關于大數據的準確定義,從字面上理解,其最本質的特點在于數據量“大”,除此之外,還包括獲取、管理及處理時的復雜性。大數據具有明顯的時代特征,習慣上將其總結為4個“V”:規模性(volume)、高速性(velocity)、多樣性(variety)和價值稀疏性(value)。根據維基百科的定義,大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據的這些特征,使其有更大可能產生數據質量問題,即出現不一致、不精確、不完整、過時等問題或者描述同一實體的數據出現沖突(簡稱為實體不同一)等錯誤。

1.2 數據質量內涵

對于數據質量評價指標的構建,首先需要界定數據質量的內涵。學界對大數據質量進行了研究,Merino(2016)等認為大數據質量不同于傳統數據質量,大數據質量是依托于技術棧、使用場景應用的一種綜合評價。Arazy和Kopak(2011)認為數據質量是在特定信息用戶的使用環境下,對可獲取信息滿足其期望的有用性或可用性的主觀評價,因此這些以數據生產者或管理者為主體視角進行的數據質量評價,僅考慮了數據的價值,未考慮數據的使用。因此,大數據質量評價是基于不同數據參與主體對于大數據的采集、存儲、處理、傳輸、交換和銷毀等數據生命周期,每個環節滿足用戶需求的主觀和客觀相結合的一種評價。

大數據的數據質量貫穿大數據整個生命周期,包括數據采集、存儲、處理、傳輸、交換和銷毀等過程,開展大數據質量定義、過程控制、監測、問題分析和整改、評估與考核等一系列管理活動,可提高數據質量以滿足業務要求,確保研究結論的科學性和準確性。

2 大數據質量相關文獻綜述

2.1 大數據質量的評價模型

大數據的質量評價是多維度的,評價指標不一,雖然存在一些普適性的大數據資源質量評價指標體系,如ISO20000(2005)和ISO8000-117(2023)等,但國際通用的數據質量主要基于信息技術視角。

國際上通常將數據質量歸納為如下幾個方面:準確性、一致性、透明度、代表性、完整性、安全性、持續性。大數據質量的研究理論主要分為幾個方面:(1)基于數據生命周期理論進行研究。Cai等(2015)基于數據的固有特征和用戶滿意度,將數據質量的評價維度分為可得性、可用性、可靠性、相關性和數據滿意度等去評價。黃永鑫(2018)提出了“3As”模型,該模型利用上下文充分性、操作充分性和時間充足性這3個數據質量特征來評估大數據的使用質量水平。莫祖英(2018)提出從原始質量、過程質量和結果質量來評估大數據質量較為科學全面,明確大數據質量度量指標。李曉彤等(2018)提煉出7個質量維度和可度量的評價指標,包括完整性、準確性、一致性、時效性、唯一性、可理解性和開放性。胡千代和王芳(2021)構建了包含數據源、數據集、數據環境三大維度和可靠性、規范性、真實性、準確性、適配性等15個指標的政府數據質量評價指標體系。(2)部分學者基于數據質量的影響因素去評估,認為流程、技術和管理三個維度綜合影響數據質量(Wang,1996;辛金國和張亮亮,2017;Aggarwal,2017)。(3)此外,還有一部分學者,基于數據質量的感知價值進行維度的劃分。左文進等(2022)將大數據資源質量分為內涵價值、服務價值、期望價值、聲望價值和潛在價值五個維度。通過對前人研究的梳理,不難發現,大多數研究基于數據的生命周期、數據質量影響因素或者客戶感知價值和產品層次理論進行指標維度的分解,因為缺乏統一的評價標準,學者們對此看法不一。

2.2 大數據質量評價方法

大數據質量評價方法,主要分定性研究和定量研究的方法。關于定性研究,國內外學者主要通過案例分析的方法,如Al-Hajjar等(2015)、Merino等(2016)。關于定量研究,通常利用綜合評價和聚類思想。多數學者采用定性定量相結合的評價,主要做法是在定性評價方法的基礎上引入數學手段,定性問題通過人工設定的標準進行目標模型的構建,評分的過程則是通過定量研究開展,都是針對事先建立的指標體系,具有部分數理統計的特征,如德爾菲法、模糊綜合評估法(劉桂鋒等,2021)、層次分析法(王琳和姚飛飛,2023)等。莫祖英和鄺苗苗(2020)提出了基于用戶視角的政府開放數據質量評價指標體系,并采用層次分析法計算指標權重,構建了政府開放數據質量的模糊評價模型。周艷紅(2020)利用專家打分法構建模型,計算出大數據質量的影響因素。左文進等(2022)運用因子分析方法基于用戶感知的問卷數據對大數據的數據質量進行綜合評價。巫思敏等(2022)構建一種基于數據生命周期的政府大數據質量評價體系,然后使用熵權法進行實證分析。不難發現,大量的數據質量評價方法,主要通過定性研究、定量研究進行,而定量研究主要利用綜合評價和聚類的思想進行。

綜上所述,大數據質量評價方法相對比較統一,但是大數據的評價指標構建相對比較復雜,學界也基于不同的理論進行相關評價指標的構建,但是缺乏數據參與者的視角,所以構建的指標體系就比較多樣化。文章借鑒信息技術的生命周期管理理論,從數據生產者、數據管理者和數據消費者的視角,評價大數據的數據質量,采用不同的數據維度進行分析,包括數據源質量、數據內在質量、數據外在質量和數據價值質量等。

3 大數據質量評價指標體系構建

根據Strong等(1997)的信息技術生命周期理論,數據質量評價主要圍繞數據市場主要參與者進行,文章基于數據生命周期理論,將大數據質量評價分為四個維度,即數據源質量、數據內在質量、數據外在質量和數據價值質量,主要分為4個一級指標、9個二級指標、27個三級指標,如表1所示。

3.1 數據源質量評價指標

數據源的質量,主要分為數據元質量和可獲取性質量。數據元質量是原始數字的質量,而可獲取性質量,評價的是獲取原始數據的便利性。

在數據元質量評價中,有以下幾點要求:(1)準確性。顧名思義,準確性是指數字真實性和變量真實性。(2)可信度,用來衡量數據權威性,一手的數據網站數據或者官方發布的數據往往更具權威性。(3)客觀性,指數據是一種客觀存在,是對其易篡改性的有益補充。數據是對客觀事物的某一時刻記錄下來的可以予以鑒別的符號,最終通過某種可視化的數據形式來展現,如文字、圖片、動畫、聲音或視頻等。(4)完整性,用來衡量數據的完備性,包括數據屬性的完整性和某個數據值的完整性。通常在大數據生產過程中,會出現空缺值,傳統數據分析中,當缺失率超過20%時,變量的質量就明顯下降,雖然現代統計學對于缺失值的處理已經很發達,但是缺失值過多,勢必導致數據信息質量降低。

數據可獲得性質量,是評價大數據的可獲取性。(1)數據源可取得性,評價數據是否可以準確取得,現實生活中,很多事件并未被以信息數據的形式所刻畫,因此很難獲得。(2)安全性,一方面指數據獲取的安全性,即可以通過某種手段安全地采集到數據;另一方面,指數據采集手段的合規安全性,如不能非法采集客戶隱私數據。此外,絕大多數的網站聲明中,均有限制爬蟲機器人的聲明條款,因此任意采集會對合規安全性存在巨大威脅。(3)透明性,即數據獲取手段的透明性。數據的獲取有時通過物理硬件獲取,有時候通過專業的采集軟件獲取,所采用的手段是否透明規范合法,也同樣關系到數據的質量。(4)穩定性,評價的是數據源的穩定性,指數據源的安全穩定,確保其能源源不斷地提供所需數據;另一方面,是指數據本身的穩定性,即數據獲取不會波動很大。

3.2 數據內在質量

數據內在質量,強調數據本身所具有的價值質量,包括數據規模質量、數據結構質量和數據時效質量。

數據規模質量主要通過數量級、全面性兩方面去衡量。(1)數量級,評價數據整個規模的大小,衡量時間維度、采集樣本維度數據規模的大小或者占據硬盤空間的大小。(2)全面性,衡量的是數據覆蓋的范圍,與數據的完整性有很大的差別。數據全面性指的是數據采集點的遺漏情況。例如,我們要采集員工行為數據,而只采集了員工上班打卡和下班打卡的數據,上班時間員工的行為數據并未采集,或者沒有找到合適的方法來采集,那么這個數據集就是不全面的。

數據的結構質量,注重衡量數據的可使用性,避免數據孤島的產生。(1)多樣性,評價的是結構的多樣性,主要表達的是數據集之間的關系,如主表和子表之間的結構關系。(2)可銜接性,評價的是數據之間的可關聯性,數據的關聯性是指各個數據集之間的關聯關系。現實生活中,很難單獨使用一個數據集進行相關事項的研究,因此需要通過主鍵拼接其他的數據集進行分析。

數據時效質量,評價數據的更新速度和及時性。對于一些需要實時或近實時數據的應用,時效性非常重要。及時更新的數據可以提供更準確和可靠的信息,有助于快速做出決策和分析。(1)實時性,指在某一特定時間段內收集的信息,并立即可用于分析和決策的數據。在項目管理方面,實時數據是至關重要的。這是大數據的優勢,大數據能夠低成本快速獲得需要的數據。(2)可操作性,評估的是數據可以加工的質量,對于時效性要求比較高的數據,需要實時渠道數據,對于大數據能夠實時讀取或者實時加工滿足時效性的要求。(3)可追溯性質量,評價數據從采集到存儲等過程中涉及的主體、時間等元數據信息能夠被追蹤的程度。

3.3 數據外在質量

數據外在質量,指數據在表達形式方面的質量,即是否能有效反映數據內容、便于用戶使用。評價數據外在質量的維度,包括數據表達質量與數據易用性質量。

數據表達質量的評價,包括以下幾個維度:(1)一致性。數據一致性,表示描述同一實體的同一屬性的值在不同的系統或數據集中是否一致,數據的表達形式是否一致,主要包括數字與圖片格式等。(2)機器可讀性,衡量數據的便捷程度,結構化的數據,往往比非結構化的數據更具可讀性,但隨著圖像識別、語音識別等人工智能技術的發展,相關非結構化的數據也更具可讀性。

數據易用性質量,主要評價數據的可利用性。(1)標準化。數據標準化,即數據是否采用統一的數據標準,如日期、空值表達等,數據在瀏覽、下載時是否提供多種、通用格式。(2)可視化,即對分析結果進行可視化展現。數據可視化可以化冗長為簡潔,化抽象為具體,化深奧為形象,使用戶更易理解主題和觀點。

3.4 數據價值質量

數據價值質量,主要是針對數據被應用的價值評價,主要包括數據深度價值質量和數據廣度價值質量。

數據深度價值質量,主要評價單位大數據的價值度,如數據出現冗余,則導致信息重復,進而導致數據的價值密度較低。(1)相關性,主要衡量數據與數據消費者需求的關聯性程度。(2)可用性,即數據可供數據消費者使用的程度。(3)價值性,指滿足消費者的需求、實現其價值的大小,即數據的效用。

數據廣度價值質量,主要衡量大數據滿足不同消費者的覆蓋面。(1)可理解性,數據結構合理、內容簡潔明了,便于數據使用者與其需求關聯。數據的廣度價值越大,說明其可被使用的場景越多。(2)通用性,適配于不同消費者的普適性價值,評價數據的價值廣度。

不同的數據角色參與者,關注的焦點不一致,如圖1所示。文章對相應的二級指標進行分解發現:數據生產者,更關注數據元質量,而忽略其他數據維度;數據管理者,除了關注數據源質量,更關注數據本身的內在價值和外在價值;數據的消費者,注重最終的場景使用價值。而對于單個指標而言,數據元質量,各市場參與主體均有所關注。

4 結論

文章嘗試從三大數據參與者的視角,基于數據生命周期理論,從數據源質量、數據內在質量、數據外在質量和數據價值質量,構建了大數據的數據質量評價指標體系,利用定性研究的方法,從不同的維度進行了大數據數據質量的評價。

在實際大數據生產過程中,大數據生產者只注重數據源質量和數據的可獲取性,而缺乏對于數據內在質量和外在質量的把控,更少關注數據價值,因而,常出現數據生產者提供的數據與消費者需求的數據存在巨大的“鴻溝”。而另一方面,數據消費者更多關注數據的內容質量,而缺乏對數據源質量的把控,這很容易導致出現一些錯誤的結論。因此,對于數據質量的評價,需要站在多個參與用戶的角度進行客觀評價。根據上述研究過程和結論,提出以下政策啟示:

(1)重視大數據的數據質量,去粗取精科學分析決策,有效科學快速地識別數據中的臟數據。大數據的稀疏性特征,決定了數據的價值密度較低,如何在龐大的數據中,快速提取出有效的信息變量,對學界提出了挑戰。

(2)確定大數據資源數據質量標準,加快相關制度的建立。制度是行動的指南針,數字經濟時代,數據成為一種重要生產要素,是國家核心戰略資源和社會重要財富。大數據的開發和挖掘,需要以數據質量標準作為依據,因而確定大數據資源質量標準對大數據產業發展具有指導性作用。

參考文獻:

[ 1 ] 周天成.大數據時代下的工業互聯網信息安全研究[J].上海管理科學,2021,43(6):110-112,119.

[ 2 ] MERINO J,CABALLERO I,RIVAS B,et al. A data quality in use model for big data[J]. Future Generation Computer Systems,2016,63: 123-130.

[ 3 ] ARAZY O,KOPAK R. On the measurability of information quality[J]. Journal of the American Society for Information Science and Technology,2011,62(1): 89-99.

[ 4 ] CAI L,ZHU Y. The challenges of data quality and data quality assessment in the big data era[J]. Data Science Journal,2015,14: 2.

[ 5 ] 黃永鑫,郭彥辰.大數據的數據使用質量評價研究[J].電子技術與軟件工程,2018(23):173-174.

[ 6 ] 莫祖英.大數據質量測度模型構建[J].情報理論與實踐,2018,41(3):11-15.

[ 7 ] 李曉彤,翟軍,鄭貴福.我國地方政府開放數據的數據質量評價研究:以北京、廣州和哈爾濱為例[J].情報雜志,2018,37(6):141-145.

[ 8 ] 胡千代,王芳.政府數據質量評價指標體系構建研究[J].科技情報研究,2021,3(3):17-34.

[ 9 ] WANG R Y,STRONG D M. Beyond accuracy: what data quality means to data consumers[J]. Journal of Management Information Systems,1996,12(4): 5-33.

[10] AGGARWAL A. Data quality evaluation framework to assess the dimensions of 3V’s of big data[J]. International Journal of Emerging Technology and Advanced Engineering,2017,7(10): 503-506.

[11] 辛金國,張亮亮.大數據背景下統計數據質量影響因素分析[J].統計與決策,2017(19):64-67.

[12] 左文進,賀小剛,聞傳震,等.大數據資源質量評價指標體系構建研究:基于用戶感知視角對圖書館大數據的分析[J].價格理論與實踐,2022(8):55-58.

[13] AL-HAJJAR D,JAAFAR N,AL-JADAAN M,et al. Framework for Social Media Big Data Quality Analysis. In: Bassiliades,N.,et al. New Trends in Database and Information Systems II. Advances in Intelligent Systems and Computing,vol 312. Springer,Cham.

[14] 劉桂鋒,聶云貝,劉瓊.數據質量評價對象、體系、方法與技術研究進展[J].情報科學,2021,39(11):13-20.

[15] 王琳,姚飛飛.中國政府數據開放成熟度評價指標體系構建與應用研究[J].農業圖書情報學報,2023,35(1):56-72.

基金項目:國家社會科學基金重大項目“完善住戶部門資產負債表體系建設研究”(20amp;ZD136);國家社會科學基金重大項目“完善經濟社會發展考核評價體系研究”(14ZDA013)

作者簡介:嚴晗(1989—),男,江蘇如皋人,上海交通大學安泰經濟與管理學院博士研究生,研究方向為能源經濟、經濟統計;

朱啟貴(1964- ),男,安徽合肥人,上海交通大學安泰經濟與管理學院、上海交通大學高級金融學院特聘教授、二級教授、博士生導師,研究方向為貨幣銀行、國民經濟核算與分析、經濟統計、國民經濟理論與政策、可持續發展。

猜你喜歡
數據質量評價指標大數據
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
第三方物流企業績效評價研究綜述
商(2016年33期)2016-11-24 23:50:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
基于UML的高校思想政治教育工作評價系統的分析與研究
公共文化服務體系評價指標的國際經驗與啟示
中國市場(2016年38期)2016-11-15 00:01:08
資源型企業財務競爭力評價研究
中國市場(2016年33期)2016-10-18 13:33:29
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
主站蜘蛛池模板: 久久精品中文无码资源站| 青青青伊人色综合久久| 黄色成年视频| 国产精品浪潮Av| 极品尤物av美乳在线观看| 国产一区二区三区免费观看| 亚洲浓毛av| 国产精品亚洲欧美日韩久久| 亚洲国产成人麻豆精品| 欧美精品不卡| 亚洲伊人天堂| 亚洲综合九九| 亚洲国产日韩在线成人蜜芽| 福利视频久久| 国产精品无码影视久久久久久久 | 国产xxxxx免费视频| h视频在线观看网站| 国产精品人人做人人爽人人添| 国产精品成人免费综合| 久青草免费视频| 亚洲高清无码久久久| 欧美日韩一区二区在线播放| 97超级碰碰碰碰精品| 国产微拍精品| 国产爽妇精品| 无码国产偷倩在线播放老年人| 国产精品大白天新婚身材| 国产永久在线视频| 欧美日本一区二区三区免费| 少妇露出福利视频| 久久久91人妻无码精品蜜桃HD| 97se亚洲| 在线观看免费国产| 亚欧美国产综合| 国产精品所毛片视频| 久久精品国产999大香线焦| 五月激激激综合网色播免费| 五月婷婷亚洲综合| 婷婷午夜天| 91在线播放国产| 亚洲香蕉在线| 四虎永久免费地址在线网站| 国产丝袜一区二区三区视频免下载| 亚洲 成人国产| 国产视频自拍一区| 国产手机在线ΑⅤ片无码观看| 国产免费羞羞视频| 欧美天堂在线| 亚洲高清无码久久久| 女同国产精品一区二区| 国产人成在线观看| 人妻无码中文字幕第一区| 91免费观看视频| 无码日韩视频| 99久久精彩视频| 午夜不卡视频| 国产精品手机在线观看你懂的 | 国产成人精品免费av| 十八禁美女裸体网站| 秋霞国产在线| 国产又色又爽又黄| 99久久这里只精品麻豆| 欧美国产成人在线| 免费观看欧美性一级| 亚洲三级成人| 国产乱论视频| 亚洲国产午夜精华无码福利| 久久精品国产一区二区小说| 一级毛片高清| 国产精品性| 九色视频一区| 在线日本国产成人免费的| 蜜桃视频一区| 色综合国产| 欧美成人区| AV老司机AV天堂| 国产欧美日韩综合一区在线播放| 中文字幕在线免费看| 国产福利2021最新在线观看| jizz国产视频| 亚洲日本中文字幕天堂网| 97视频精品全国在线观看|