
【摘 要】如今,大數據是一種不斷增長的技術。大數據有很多用途;人工智能、醫療保健、商業等等。因此,有必要對所獲取的大量數據進行預處理與分析,以確保使用和生成的數據具有更高的質量。如果想擁有較高質量的大數據,那么它的獲取規則、管理架構等條件必須得到滿足。本文從數據本身、數據管理、數據處理和數據用戶的角度出發,提出了需要測量的主要大數據質量因素。這項研究強調了質量因素,這些因素在以后可能會用于創建不同的大數據質量模型。
【關鍵詞】大數據、數據質量、回歸規模
1 引言
大數據概念已經使用了這么多年,研究人員在1944年以“信息爆炸”的名義開始注意到它。在信息技術領域,“大數據”一詞最早是在1980年由Charles Telly使用的。Tim O'Reilly在2005年定義了我們今天所知道的術語“大數據”。這一術語將于2013年出現在牛津詞典中。此后,許多研究者從定義、應用、技術、工具和質量等方面對“大數據”進行了討論。而現在的大數據是一個術語,用來描述一個企業或系統日常的大量數據,它可以是結構化的、半結構化的或非結構化的。
軟件質量是軟件開發的一個基本過程。它是“軟件產品滿足既定需求的程度;然而,質量取決于這些既定需求準確表示涉眾需求、愿望和期望的程度”。數據,作為任何軟件產品的四大支柱之一,它必須盡可能高質量,以確保它不會在系統中產生任何故障或失效。本文主要對大數據的質量因素和問題進行了討論,以幫助大數據生產者,分析師和用戶衡量他們的大數據質量。
2 大數據基本特征
如今,大數據涉及許多領域,如社交媒體、人工智能、機器學習、醫療保健、電力和核系統等等。2001年,Doug Laney[8]提出了大數據的三大主要特征,后來被稱為“大數據的三個V”:
1、容量(Volume):大數據,顧名思義,是需要處理和存儲的海量數據;
2、速度(Velocity):是通過系統移動數據的速度。面對如此龐大的數據量,移動數據是一個巨大的挑戰;
3、多樣性(Variety):大數據是不同類型數據(圖像、視頻、音頻、文本等)的巨大集合。此外,收集的數據的格式和呈現方式也不同。
大數據的特點和應用提出了大數據質量問題。任何將要使用它的應用程序都必須確保數據具有高質量標準,這是生成良好質量系統的強制性要求。主要考慮大數據的質量因素與傳統數據集相同。此外,一些額外的質量因素,處理大量的數據,如數據管理和修復。
在以往的研究中,大多數研究者都討論了傳統數據的質量因素。然而,傳統數據與大數據有許多相似的質量因素,它們在質量應用和度量上存在差異。
在文獻[2-3]中,研究人員描述了網站數據的六個質量評估標準:權威性、準確性、客觀性、通用性、覆蓋率/預期受眾和交互/交易特征。另一位研究人員討論了網絡數據質量,并與用戶進行測試,以確定每種數據的重要性級別。另一位研究人員提出了六個質量指標,包括貨幣、可用性、信息噪音比、權威性、流行性和凝聚力,以進行調查。文獻[4]中引入了一個新的質量模型,稱為IQIP(Identify,Quantify,Implement,and Perfect)。他們總結了最常見的不同的數據質量/信息質量框架。該模型作為一種管理互聯網爬蟲搜索引擎質量相關算法的選擇和實現的方法。
3 大數據質量挑戰
大數據的準確性、完整性、冗余性、可讀性、可訪問性、一致性、信任度是主要的數據和大數據質量因素。每個因素都與一個或多個必須滿足的質量標準相關聯,以滿足質量因素。
此外,對于大數據開發人員來說,還有一些特性需要討論,這些特性是:準確性;數據源的多樣性和處理的復雜性是評估大數據質量的一個挑戰。可變性;大數據類型和格式的變化可能導致質量的巨大差異。可能需要額外的工作和資源來識別、處理和過濾低質量的數據,以減少工作量和成本增加數據的有用性。價值;大數據在處理和過濾大數據時所傳遞的價值是什么?這個問題是大數據分析師面臨的主要挑戰。大數據質量的衡量不僅僅是數據質量,數據質量管理(DQM)也是一個必須考慮的質量挑戰,DQM在大數據質量度量中起著關鍵的作用,大數據生命周期的每個階段都必須根據一些質量規則來衡量。
大數據的生存周期圖如圖1所示,而DQM有五個主要步驟,可總結如下:
1)人員:項目經理、組織變革經理、業務/數據分析師是任何數據質量管理的關鍵角色;
2)數據分析:數據審查、比較、報告和統計分析,以檢查數據的準確性或找到使用可用數據的最佳方法;
3)定義數據質量:在此階段創建并定義數據的質量規則;
4)數據報告:刪除和報告所有泄露數據;
5)數據修復:在這個階段,修復和更改數據的最佳方法。
大數據生命周期也引入了質量因素和需要衡量的問題。因此,大數據的質量因素包括關注數據本身以及大數據管理和用戶需求的因素。
外國學者曾做過一項關于大數據的品質因素研究,在這項研究中,這些品質因素被分為四類,取決于他們的視角,這些類別是:
數據透視圖:關注數據質量因素,這些與通常的數據質量因素非常相似;
管理視角:如何從管理的角度處理數據;
處理和服務視角:如何使用和分析數據;
最后是用戶視角:如何將這些大數據交付給目標用戶并使其可視化。
一個國外的研究小組曾經也進行了四個獨立的、特定領域的大數據應用案例研究。這些案例研究是對大數據收集中遇到的數據質量問題是否與傳統規模的數據收集中遇到的數據質量問題在原因、表現形式或檢測方面有本質不同的問題進行的初步調查。這項研究從多個層面探討了影響大數據質量的幾個因素,包括收集、處理和存儲。這項研究的主要發現強調了影響大數據的主要因素在于在保持數據完整性的同時處理大數據的局限性和復雜性。這些關注點比數據的來源、處理以及用于準備、操作和存儲數據的工具更重要。數據質量對于所有的數據分析問題都非常重要。從研究結果來看,“關于大數據的真相”是在大數據分析項目中沒有根本上新的“數據質量”問題。不過,一些“數據質量”問題表現出規模回報效應,在大數據分析中或多或少變得明顯。大數據質量因不同類型的大數據和不同的大數據技術而異。
4 結論
在本文中,主要對大數據質量因素進行了討論。得出大數據的質量不僅與數據本身有關,而且還受到數據管理、數據處理和服務以及使用這些數據進行決策的用戶的影響。因為數據的重要性不僅僅在于數據本身,但事實上,如何使用、保護、呈現和使用數據才是正確的方法。在未來,將使用所述大數據質量因素來產生不同的大數據質量模型,這些模型將用于以不同的術語衡量大數據應用的大數據質量。
參考文獻:
[1]亓林芳.談全面提高統計數據質量[J].合作經濟與科技,2021(07):132-133.
[2]J. E. Alexander and M. A. Tate,Web Wisdom;How to Evaluate and Create Information Quality on the Webb:L. Erlbaum Associates Inc.,1999.
[3]L. Cai and Y. Zhu,The Challenges of Data Quality and Data Quality Assessment in the Big Data Era vol. 14,2015.
作者簡介:
衛鑫,2001年生,漢,研究方向:大數據質量分析
(作者單位:西南科技大學城市學院)