陳文娟
【摘 ?要】數據質量是人們生活和企業發展的信息基礎,推動著社會主義現代化的進程。大數據環境下的企業管理、數據存儲和使用都發生了相應變化。通過數據傳播和分析,企業可以就行業狀態和國際趨勢第一時間作出判斷和部署,提高企業競爭力。所以,論文通過對大數據特點的分析,列舉出大數據時代下數據質量存在的問題,并據此提出相應的創新方案,使大數據更好地應用和服務于現代企業。
【Abstract】Data quality is the information basis of people's life and enterprises' development, which promotes the process of socialist modernization. In the big data environment, enterprise management, data storage and use have changed accordingly. Through data dissemination and analysis, enterprises can make judgment and deployment in the first time according to the industry status and international trend, so as to improve the competitiveness of enterprises. Therefore, through the analysis of the characteristics of big data, this paper lists the problems existing in data quality in the big data era, and puts forward corresponding innovation schemes based on these, so that big data can be better used in modern enterprises and serve them.
【關鍵詞】大數據;數據質量;管理分析
【Keywords】big data; data quality; management analysis
【中圖分類號】TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2020)09-0098-02
1 引言
網絡信息技術的快速發展和應用,改變了人們獲取信息和交流工作的方式,將人們帶入大數據時代。但是,隨著社會發展的快速變化和數據的高速更新,對數據的一致性和穩定性提出了更高的要求。所以,本文從流程環節、技術角度、管理方面三個維度進行研究,推動數據質量的管理,以應對大數據環境的挑戰。
2 大數據的特點
2.1 量大
TB、PB、EB、ZB是目前數據儲存方面的專業計量單位,從TB到PB的跨越說明了數據體量不斷增長的發展趨勢[1]。據相關報告統計,部分企業的數據存儲量已經超過7EB字節,用戶在相關媒體設備上也有了6EB字節以上的新數據。還有報告指出,部分企業的日常交易數據高達2.5PB/h,社會整體數據量已經達到2.5EB/d,幾乎呈幾何式增長。可以說,當今社會處處都充斥著數據,這也是時代賦予企業的重大特征。
2.2 高速
大數據時代背景下,前一秒有用的信息可能下一秒就會“過期”,數據處于不斷更新和完善的狀態,這也是企業大數據發展和數據質量保障必須面臨的問題[2]??梢哉f,互聯網上每秒鐘都在產生數據,且增長速度飛快,整體存儲量也在不斷擴大。
2.3 多樣化
各行各業、不同設施設備每天都在產生數據,如社交平臺上的文字、圖片、視頻,各信息系統中的實時數據等。隨著網絡信息技術的發展和新型產業的興起,數據來源還在不斷擴大。在數據類型方面,非結構化數據的出現豐富了數據方式,同時,對傳統的存儲技術和分析方式也提出了更高要求。
3 大數據時代下數據質量存在的問題與對策
3.1 流程環節
數據質量管理包括收集、存儲和使用三個環節,這也是一條數據完整的生命周期,所以流程環節的數據質量挑戰也分為以下三個方面:
第一,在數據收集環節,大數據的獲取渠道通常較為復雜,數據結構也呈多元化趨勢發展,企業要保障這一復雜環境下大數據的有效性和完整性,就需要較大的人力和物力支出。因為大數據的數量龐大及獲取的渠道不盡不同,各信息間的差異性、矛盾性問題較為凸顯。一般情況下,如果數據量較小,可以利用相應的篩選程序或人力資源進行數據的檢測和定位,找到存在的問題數據,但是隨著數據量持續擴大,這種方式顯然是不合適的。獲取環節數據的完整性、一致性是后期信息使用的重要保證,也是目前行業內面臨的最大挑戰。此外,數據“有效期”是數據質量管理中亟待解決的問題。
第二,在數據存儲環節,目前的數據呈現非結構化、非系統化發展趨勢,原有的數據庫技術和數據存儲設備已經與大數據存儲出現脫軌現象。在相關數據研究中,結構化數據是目前采取的主要運行模式,與之匹配的是傳統的數據存儲架構,而非結構化數據則不能直接進行存儲,而是需要先進行結構轉化以適應存儲條件,這不僅增加了數據存儲的時間,而且可能受轉換方式的影響,破壞數據完整性和一致性。此外,非結構化的數據量正不斷增長,隨著視頻、圖片、音頻等形式的迅速發展,非結構化數據在整體運營數據中的占比高達九成,數據結構的改變決定了存儲架構隨之進行創新和變革。
第三,在數據使用環節,數據收集和存儲的目的是最后階段的分析和使用。大數據環境下,存在多數人對同一數據的選取、分析、整合和應用,這一階段環環相扣,任一操作出現問題,都會改變大數據庫中的信息有效性,進而影響企業的重大決策和方針制定。例如,企業對收集的數據沒有及時進行處理和應用,作出重大決定時這些數據就可能“過期”了,這樣制定的方案是不具有指導意義的。所以,企業應該著眼于數據的使用價值,在有效期內及時分析和應用,最大限度地發揮數據的價值,實現最后環節的質量把控,為企業搶先占領市場和提高自身競爭力提供信息支持。
3.2 技術角度
數據技術的發展和創新改變了數據的收集、存儲和使用方式,為大數據質量保障提供技術支持。通過高效的數據分析和預測,市場情況、行業狀態和企業發展現狀都被直觀、具體地反映出來,進而優化企業的決策和發展方式。但是如果數據質量得不到保障,這些優勢都無法實現,甚至出現錯誤決定,為企業帶來巨大的經濟損失。
一般規模較小的企業,流通的數據量也相對較少,所以大多數配備是關系型數據庫。大數據背景下,數據不僅具有量大的變化,其結構類型也表現出多樣化特點,非結構化數據的占比越來越高,由原來的單一化、簡單化趨向復雜化、融合化,利用傳統技術完成掃描和檢測工作,所花費的時間往往較長,這就對數據技術的創新和管理提出了更高要求。所以大數據環境下,企業發展和運行需要更高效的處理速度和分析能力,需要通過改變原有的數據庫技術、數據分析技術,來應對大規模數據的處理,以實現最短時間內完成檢測和識別任務,進而達到數據質量保障的目標。
大數據變革在國際上掀起了技術創新的浪潮,處于發展前端的數據公司就特別提出,非結構化數據和新型數據分析技術的引進將會成為企業提高自身競爭力的重要方式。相較國外,我國的技術革新起步較晚,大部分企業的規模和數據技術都相對落后,數據類型以結構化數據為主,使用的是與之匹配的存儲、分析技術,對新的數據類型與數據分析技術的應用較少。
3.3 管理方面
數據質量不僅受到技術力量的影響,而且與企業管理的方向和重視程度有關。例如,高層管理者對相關技術研發的支持力度、技術分析人員的專業素養等。
第一,在企業高層管理者方面。企業管理者要轉變落后的思想觀念,了解和重視大數據的發展,結合社會發展方向和企業經營狀況制定相關的戰略規劃,健全管理制度和優化工作流程來確保大數據相關項目的開發和推進。如果企業管理者未能洞察大數據的價值和市場前景,在相應的政策扶持、資金支持、人員配備方面就會比較滯后,出現已經發現數據漏洞但是無力保證的局面,不僅會影響大數據效用的發揮,而且可能使企業流失掉大量客戶,阻礙企業的可持續發展。所以,企業的重視和支持是大數據質量得以保障的重要動力。
第二,在專業數據管理人員方面。大數據屬于前沿科技,對專業人才的知識儲備和技能要求比較高,同時,要求其了解企業的各項業務和管理政策,如經常提到的首席數據官(Chief Data Officer,CDO),CDO在大數據開發和應用、數據質量管理方面發揮著重要作用。企業應該引進CDO來管理大數據項目的運行,根據行業發展情況和國際趨勢來制定并實施一系列的活動和方案。就國內目前的大數據發展情況而言,企業規模和數據處理量都相對較少,利用數據挖掘技術創造經濟價值的情況也比較少,所以,大部分企業未重視相關人才的引進和儲備,以至于數據規模較大的企業的管理成效一直較低,組織架構分散,部門地位被動化。此外,CDO的專業度較高,需要各種技能集于一身,屬于稀缺類人才,在國內人才市場中處于缺失狀態。國內企業的人才重視程度低、相關專業人才短缺都直接影響著大數據質量的管理和保障。
4 結語
數據質量管理工作是大數據應用的信息基礎和工作順利進行的重要保障。但是在目前發展中還存在較多需要改進的地方,如管理方面的疏忽、技術人才的缺失、數據生命周期的把控等。所以,本文列舉出數據質量在流程環節、技術角度、管理方面三個維度受到的挑戰,通過為數據質量管理提供技術和人力支持來營造安全的發展環境。
【參考文獻】
【1】戚斌.大數據時代下數據質量的挑戰[J].信息記錄材料,2018,19(06):74-75.
【2】肖杰.大數據時代下數據質量的挑戰與應對策略研究[J].數字化用戶,2018,24(52):147.