莫祖英

〔摘要〕大數據的規模性、高速性和數據來源的多樣性,使數據更可能產生不一致和沖突,這會導致大數據質量問題。本文在界定大數據質量內涵及其維度的基礎上,分析大數據處理流程中數據收集、數據預處理、數據存儲、數據處理與分析、數據可視化及應用等環節對大數據質量的影響及關鍵因素,構建大數據流程的質量影響模型,并提出大數據質量保障的建議與措施。
〔關鍵詞〕數據質量;大數據流程;質量影響模型;影響因素
DOI:10.3969/j.issn.1008-0821.2017.03.013
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2017)03-0069-04
〔Abstract〕The large scale,high-speed and diversity of data sources in big data,make it more likely to have inconsistency and conflict,which lead to quality issues of big data.In this article,the paper defined connotation of big data quality and its dimensions,and then analyzed the influence that data collection,data preprocessing,data storage,data processing and analysis,data visualization and its application in the procedure of big data processing exerted on big data quality and key factors;finally,the paper constructed a quality influencing model in big data process,and put forwards suggestions on quality assurance of big data.
〔Key words〕data quality;big data process;quality influencing model;influence factors
大數據時代,強調對總體數據的處理與分析,關注事物之間的相關關系,以及對發展趨勢的分析預測。大數據的規模性、高速性和數據來源及形式上的多樣性,使數據更可能產生不一致和沖突,這些都會導致大數據質量問題,因此需要對大數據進行質量管理。大數據主要由社交網絡、移動計算、監控設備和傳感器等信息源產生,包括用戶多媒體服務數據、服務系統監控與管理數據、用戶行為數據、服務市場環境和客戶關系數據等。大數據的來源復雜性和類型多樣性造成價值密度低、提取難度大等特點,同時也給大數據質量管理帶來了困擾。
在大數據質量的相關研究中,宗威等[1]在分析大數據特點的基礎上,提出了大數據環境下數據質量的重要性及其挑戰,并分別從大數據流程、大數據技術和大數據管理3個視角提出如何保證大數據質量,尤其在大數據流程方面,主要從數據收集、存儲和使用3個階段提出了質量保證的建議。胡雄偉等[2]提出大數據中的數據質量問題涉及數據收集、使用、發布的整個過程,貫穿數據管理工作的始終,并分析了美國頒布的《數據質量法》中的3個數據質量原則——數據質量標準、質量管理流程和數據質量救助機制。Vijay Khatri等[3]設計了大數據治理的5個決策領域,包括數據準則、數據質量、元數據、數據訪問和數據生命周期。Sharma等[4]提出有效的數據資產管理,必須涉及元數據管理(Meta Data)、數據質量(Data Quality)、數據標準、數據架構、數據權限(Right)、數據安全性(Safety)、數據生命周期(Data Lifecycle)、主數據管理(Master Data Management)等各個方面。王宇德[5]提出利用信息架構原則和實踐,實現大數據與企業數據的靈活集成,達到大數據治理的目標。其中大數據信息架構的主要原則是通過價值、成本和風險透鏡將數據視為資產,并確保數據的時效性、質量和準確性;由于大數據的質量和準確性要求存在巨大差異,需要對其進行合適的取舍以滿足實際需求。馬曉亭[6]以圖書館大數據為研究對象,提出為保證圖書館大數據的價值分析與服務質量,需進行大數據質量管理,如管理員從全局層面挖掘數據間的相關關系,加強對讀者閱讀行為、閱讀關系和閱讀社交輿情等大數據資源的質量管理,注重大數據質量管理中的用戶隱私保護等,實現以讀者個性化需求為中心的圖書館大數據價值發現。本文將在界定大數據質量內涵及其維度的基礎上,分析大數據處理流程中數據收集、數據預處理、數據存儲、數據處理與分析、數據可視化及應用等環節對大數據質量的影響及其因素,構建大數據流程的質量影響模型,并提出大數據質量保障的建議與措施。
1大數據質量的界定
11大數據質量
美國著名咨詢公司麥肯錫給出的大數據定義(2011)是“數據規模超出典型數據庫軟件工具收集、存儲、管理和分析能力的數據集”,維基百科給出的定義是“大數據指所涉及的數據量規模巨大到無法通過人工在合理的時間內達到截取、管理、處理并整理成為人類所能解讀的信息”。由此可見,大數據區別于傳統數據的本質特征在于大數據已超出了傳統常規軟件的數據處理能力,只有采用新平臺、新技術才能有效處理的數據集,因而催生了大數據技術、大數據平臺和大數據應用等的發展。
業界普遍認可的國際數據公司IDC定義的大數據具有4V特征,即數據量大、數據類型繁多、處理速度快和價值密度低。其中數據量大和數據類型繁多是大數據的表現形式,而處理速度快和價值密度低是大數據處理過程和結果的體現。大數據通常是由網站、傳感器、系統等設備自動生成,故具有真實性特征。大數據類型多樣,既包括結構化數據、非結構化數據和半結構化數據,又包括系統生成的數據、傳感器產生的數據和社交媒體數據等;從數據格式上看,包括文本數據、圖片數據、數值數據、音頻視頻數據等類型。
基于以上大數據的定義和特征,對大數據質量進行分析。借鑒Juran提出的質量就是“適合于使用”這一定義,那么大數據質量即是大數據中適合于進行數據分析、處理、預測等使用過程并滿足用戶需求的特征。大數據處理流程主要包括數據收集、數據預處理、數據存儲、數據分析與挖掘、數據展示(可視化過程)、大數據應用等環節,數據質量貫穿于整個大數據流程,故可將大數據質量分為原始質量、過程質量和結果質量。大數據原始質量是指數據采集過程中采集到的原始大數據的質量,包括數據完整性、一致性、準確性、時效性等方面;大數據過程質量指經過數據預處理、數據存儲等環節后的大數據質量,它為大數據分析與挖掘提供準備,其質量高低直接關系到大數據分析結果的價值;大數據結果質量指經過數據分析與挖掘、數據展示后產生的最終結果的質量,包括分析結果的價值性、直觀性等,與用戶的需求與感知有關。大數據應用是直接檢驗大數據結果質量的重要環節。
12大數據質量維度
根據大數據質量的內涵及大數據特征可知,大數據質量維度包括以下幾個方面:
121數據真實性
大數據是由系統、傳感器、網站等設備自動生成的,它真實記錄了數據對象的變化狀態及其運行方式,體現了原始大數據的真實性質量。根據Yuri Demchenko等人提出的大數據5V特征,真實性特征主要包括數據的可信性、真偽性、來源和信譽、有效性和可審計性等特征。值得注意的是,大數據主要存在于虛擬網絡環境下,一些惡意攻擊性的“數據污染”會影響組織決策,需要采取必要的措施保證其真實性和客觀性,它是實現大數據價值挖掘與趨勢預測的前提。
122數據完整性
主要指大數據采集的完整性,包括數據采集時間段的完整性、數據屬性值的完備性、數據值的無缺失等方面。大數據的一個主要特征就是通過大量數據甚至是海量數據來全面、完整地刻畫事物,并通過海量數據分析獲取事物的本質與規律,故數據完整性也是實現大數據價值的重要質量屬性。
123數據一致性
主要包括同構/異構來源數據的一致性、數據格式的一致性、數據編碼的一致性等方面[7],可在預處理階段通過數據不一致檢測技術進行過濾,以確保數據的一致性。數據一致性是實現數據準確性的前提,也是保障大數據分析結果質量的重要屬性。
124數據準確性
既包括采集到的原始大數據的準確性,也包括經過預處理的過程大數據的準確性,還包括大數據分析結果的準確性,即在整個大數據采集、處理、分析、顯示等過程中均涉及數據的準確性特征。數據準確性是決定大數據分析結果價值大小的關鍵屬性。不同的大數據應用對數據準確度的要求也不盡相同,這取決于應用目標與決策需求。
125數據時效性
大數據是信息的一種,同樣具有生命周期性。時效性指大數據在時間方面的質量,即數據時效性越高,則數據分析結果的準確性越高。大數據的時效性主要體現在原始大數據和結果大數據兩個方面。原始大數據的時效性,指超出一定時間范圍的原始大數據在分析與預測結果上會出現數據“過期”問題,即預測結果與事實不符。而且,由于大數據多是由機器、系統、網站等自動采集或存儲的,其產生速度快、流通快,時間上呈現連續性特征,使原始大數據具有更強的時效性。因此時間越近的原始大數據,其分析與預測的結果越接近事實。結果大數據的時效性指大數據的分析預測結果只在一定時間范圍內有效,故需要持續地數據更新與預測,以保證預測結果數據的價值性。
126數據安全性
包括數據來源的安全性、數據存取的安全性、權限管理、訪問控制等方面,數據安全性是實現大數據分析處理與預測的基本要求,對大數據的可用性、真實性和機密性具有保障作用。
127數據可用性
包括兩個方面:一是經過采集、預處理并進行存儲的過程數據可用于大數據分析、預測而獲取有價值信息的屬性;二是經過一系列大數據處理而得到的結果數據可實現大數據應用的屬性。即過程數據和結果數據的可用性。過程數據的可用性指可用于進一步的數據分析與處理,實現大數據價值;結果數據的可用性是可將分析結果用于管理決策、趨勢預測等,是大數據分析結果的價值轉化過程。
128數據價值性
即經過大數據分析處理后的最終結果數據的價值性,這一價值性主要體現在大數據應用上,接受應用實踐的檢驗。通過對海量數據的分析處理,大數據預測結果相比于傳統的抽樣調查結果,其準確性和可信性要高,同樣其數據價值也更高。大數據分析與預測結果的價值由企業應用實踐和用戶感知來衡量。
129易于理解性
指大數據處理結果的展現是否便于用戶理解與使用,主要體現在大數據的結果質量方面,與用戶感知相關。
2基于處理流程的大數據質量影響分析
大數據處理流程主要包括數據收集、數據預處理、數據存儲、數據處理與分析、數據展示/數據可視化、數據應用等環節,其中數據質量貫穿于整個大數據流程,每一個數據處理環節都會對大數據質量產生影響作用。通常,一個好的大數據產品要有海量的數據規模、快速的數據處理、精確的數據分析與預測、優秀的可視化圖表以及簡練易懂的結果解釋,本節將基于以上環節分別分析不同階段對大數據質量的影響及其關鍵影響因素。
21數據收集環節
數據收集是獲取原始大數據集合的過程。大數據通常由不同數據源產生,且由機器自動生成,然后通過網絡傳輸到指定的位置,這是一種大數據生成即收集的方式;或者由企業或組織根據自身需求,有針對性地從各種來源收集所需數據,如用戶的各種數據等。總之,數據收集需從不同數據源實時地或及時地收集各種類型數據,并發送給存儲系統或數據中間件系統進行后續處理。數據收集可分為設備數據收集和Web數據爬取兩種,由各種數據收集軟件和網絡爬蟲完成。數據收集環節對大數據質量的真實性、完整性、一致性、準確性、時效性、安全性等維度均產生影響作用。
211數據源
在數據收集過程中,數據源會影響大數據質量的真實性、完整性、一致性、準確性和安全性。大數據的數據源主要指各種網站、系統、傳感器設備等,這些數據源的安全運行、防止惡意攻擊與篡改是保障大數據真實性、準確性和安全性質量的重要條件。同時,數據源運行的穩定性、無間斷性是保障大數據完整性的重要條件。不同數據源之間的統一編碼、相互協調是保障同構或異構大數據的一致性質量的重要前提,它要求數據源之間的同步與協作。故在數據收集環節,數據源是影響大數據真實性、完整性、一致性、準確性和安全性質量的重要因素之一。
212數據收集方式
數據的實時收集方式可有效保障大數據的時效性質量,確保大數據分析與預測結果的時效性和價值性。設備收集多為實時的數據收集,且以流式數據進行采集、處理與分析,從而確保大數據的時效性質量。對于Web數據,多采用網絡爬蟲方式進行收集,這需要對爬蟲軟件進行時間設置以保障收集到的數據時效性質量。故數據收集方式是影響大數據時效性質量的重要因素之一。
213數據收集技術
數據收集技術在這一階段是非常重要的技術因素,收集技術的好壞直接決定了數據收集的速度和質量。通常數據收集分為兩種——設備數據收集和互聯網數據爬取,常用的收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網絡爬蟲,如Heritrix、Nutch等[8],這些軟件是大數據發展與應用的重要一環,也是英特爾、Facebook、谷歌等公司可以獲取大量數據的直接原因。故數據收集技術是影響大數據原始質量的重要因素之一。
22數據預處理與存儲環節
221數據預處理
大數據采集過程中通常有一個或多個數據源,這些數據源包括同構或異構的數據庫、文件系統、服務接口等,易受到噪聲數據、數據值缺失、數據沖突等影響,因此需首先對收集到的大數據集合進行預處理,以保證大數據分析與預測結果的準確性與價值性。大數據的預處理環節主要包括數據清理、數據集成、數據歸約與數據轉換等內容,可以大大提高大數據的總體質量,是大數據過程質量的體現。
數據清理技術包括對數據的不一致檢測、噪聲數據的識別、數據過濾與修正等方面,有利于提高大數據的一致性、準確性、真實性和可用性等方面的質量;數據集成則是將多個數據源的數據進行集成,從而形成集中、統一的數據庫、數據立方體等,這一過程有利于提高大數據的完整性、一致性、安全性和可用性等方面質量;數據歸約是在不損害分析結果準確性的前提下降低數據集規模,使之簡化,包括維歸約、數據歸約、數據抽樣等技術,這一過程有利于提高大數據的價值密度,即提高大數據存儲的價值性。數據轉換處理包括基于規則或元數據的轉換、基于模型與學習的轉換等技術,可通過轉換實現數據統一,這一過程有利于提高大數據的一致性和可用性。總之,數據預處理環節有利于提高大數據的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大數據預處理中的相關技術是影響大數據過程質量的關鍵因素。
222數據存儲
在大數據存儲中,分布式存儲與訪問是其關鍵技術,它具有高效、經濟、容錯性好等特點。分布式存儲技術與數據存儲介質的類型和數據的組織管理形式直接相關。數據存儲介質的類型主要有內存、磁盤、磁帶等,數據組織管理形式主要包括以行、列、鍵值、關系等進行組織,不同的存儲介質和組織管理形式對應于不同的大數據特征和應用。
分布式文件系統,它是大數據領域最基礎、最核心的功能組件之一,其關鍵在于實現分布式存儲的高性能、高擴展和高可用性。文檔存儲,支持對結構化數據的訪問,支持嵌套結構、二級索引,以實現數據的高效查詢。列式存儲可減少數據存取量、提高數據處理效率。鍵值存儲可有效減少讀寫磁盤的次數,但不提供事務處理機制。圖形數據庫可實現事物之間相關關系的存儲,并使用圖模型來映射這些網絡關系,實現對真實世界中各種對象的建模存儲。內存存儲是將數據庫的工作版本放在內存中,其設計目標是提高數據庫的效率和存儲空間的利用率??傊?,不同的數據存儲技術具有不同的特征與優勢,它們對于提高大數據的時效性、安全性、可用性和準確性等質量維度具有重要影響。
23數據處理與分析環節
231數據處理
大數據的分布式處理技術與存儲形式、業務數據類型等相關,針對大數據處理的主要計算模型有MapReduce分布式計算框架、分布式內存計算系統、分布式流計算系統等。MapReduce是一個批處理的分布式計算框架,可對海量數據進行并行分析與處理,它適合對各種結構化、非結構化數據的處理。分布式內存計算系統可有效減少數據讀寫和移動的開銷,提高大數據處理性能。分布式流計算系統則是對數據流進行實時處理,以保障大數據的時效性和價值性??傊?,無論哪種大數據分布式處理與計算系統,都有利于提高大數據的價值性、可用性、時效性和準確性。大數據的類型和存儲形式決定了其所采用的數據處理系統,而數據處理系統的性能與優劣直接影響大數據質量的價值性、可用性、時效性和準確性。因此在進行大數據處理時,要根據大數據類型選擇合適的存儲形式和數據處理系統,以實現大數據質量的最優化。
232數據分析
大數據分析技術主要包括已有數據的分布式統計分析技術和未知數據的分布式挖掘、深度學習技術。分布式統計分析可由數據處理技術完成,分布式挖掘和深度學習技術則在大數據分析階段完成,包括聚類與分類、關聯分析、深度學習等,可挖掘大數據集合中的數據關聯性,形成對事物的描述模式或屬性規則,可通過構建機器學習模型和海量訓練數據提升數據分析與預測的準確性。數據分析是大數據處理與應用的關鍵環節,它決定了大數據集合的價值性和可用性,以及分析預測結果的準確性。在數據分析環節,應根據大數據應用情境與決策需求,選擇合適的數據分析技術,提高大數據分析結果的可用性、價值性和準確性質量。
24數據可視化與應用環節
數據可視化是指將大數據分析與預測結果以計算機圖形或圖像的直觀方式顯示給用戶的過程,并可與用戶進行交互式處理。數據可視化技術有利于發現大量金融、通信、商業等業務數據中隱含的規律性信息,以支持管理決策。數據可視化環節可大大提高大數據分析結果的直觀性,便于用戶理解與使用,故數據可視化是影響大數據可用性和易于理解性質量的關鍵因素。
大數據應用是指將經過分析處理后挖掘得到的大數據結果應用于管理決策、戰略規劃、市場營銷等的過程,它是對大數據分析結果的檢驗與驗證,大數據應用過程直接體現了大數據分析處理結果的價值性和可用性。大數據應用對大數據的分析處理具有引導作用。在大數據收集、處理等一系列操作之前,通過對應用情境的充分調研、對管理決策需求信息的深入分析,可明確大數據處理與分析的目標,從而為大數據收集、存儲、處理、分析等過程提供明確的方向,并保障大數據分析結果的可用性、價值性和用戶需求的滿足。
3大數據流程的質量影響模型
由以上分析可知,大數據質量與其整個數據流程有關,影響大數據質量的重要因素包括數據源、數據收集方式與技術、預處理技術、存儲系統與技術、數據處理系統、數據分析技術、數據可視化技術等,技術性是大數據質量影響因素的主要特征。它們的影響關系如圖1所示。
由圖1可知,大數據流程中的前期處理環節對大數據質量的影響較大,尤其是大數據收集和預處理階段,影響最大。而在大數據質量的各維度中,數據可用性、數據準確性和數據價值性受大數據處理流程的影響較大,這說明通過對大數據流程的管理與控制,可有效保障大數據的可用性、準確性和價值性。
最后,根據以上分析,提出保障大數據質量的建議與措施,主要包括:
1)大數據采集中的數據保護和數據源甄別。在數據采集過程中,尤其是對他人數據的采集中,企業應注意不收集、統計敏感信息以保護用戶隱私;同時,需注意對數據來源進行甄別和驗證,保證數據的真實性和有效性。
2)大數據存儲中的技術保障手段。可參考傳統的信息技術手段,以保證數據的可用性、完整性和私密性。如通過冗余設置以保障數據的可用性,采用校驗技術保障數據的完整性,使用訪問控制技術、安全審計功能保障數據安全性等。
3)大數據處理分析中的質量保障措施??赏ㄟ^對大數據讀寫操作的權限設置實現安全性管理,通過對不同分析策略產生的結果進行相互驗證來保障分析結果的準確性和可用性,通過不斷優化分析策略以提高大數據處理的性能和效率。
4)大數據可視化中的結果安全性保護。可通過設置訪問控制、認證授權等策略對分析結果進行保護。
5)大數據處理流程的全局管理。大數據處理流程經過了數據采集、預處理、存儲、處理與分析、可視化等一系列環節,在這些環節中要注重全局管理和不同環節之間的協調與連貫。如數據存儲形式的選擇要考慮采集到的大數據類型、后期分析處理可用的數據處理系統,以及分析結果的準確性和可用性,以實現大數據質量的最優化。
總之,在大數據浪潮下企業是否能把握機遇,數據質量和數據治理正成為重要的工具和手段。大數據商業價值在于不斷開發與分析,這一過程中離不開數據質量管理與治理的持續與循環,以保障大數據價值的挖掘。
參考文獻
[1]宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013,(5):38-43.
[2]胡雄偉,張寶林,李抵飛,等.大數據研究與應用綜述(上)[J].標準科學,2013,(9):29-34.
[3]Vijay Khatri,Carol V.Brown communications of the ACM[J].January,2010,53(1):148-153.
[4]Sharma S,Tim U S,Wong J,et al.A brief review on leading big data models[J].Data Science Journal,2014,13(0):138-157.
[5]王宇德.企業大數據治理研究[J].互聯網天地,2014,(1):20-24.
[6]馬曉亭.基于用戶服務價值的圖書館大數據價值分析與服務質量保證研究[J].圖書館,2014,(5):95-98.
[7]桑尼爾·索雷斯.大數據治理[M].北京:清華大學出版社,2014.
[8]中國電子技術標準化研究院.大數據標準化白皮書V20[EB/OL].http:∥www.cesi.ac.cn/cesi/guanwanglanmu/biaozhunhuayanjiu/2015/1224/12264.html,2015-12-29.
(本文責任編輯:郭沫含)