陳 媛/文
21世紀被稱為信息的世紀、數據的世紀?,F如今幾乎每個行業都在廣泛使用大數據,大數據所展現的滲透性作用和功效十分突出,能夠有效提升統計數據價值和效果。政府以及企業在大量的數據中,淘到自己需要的高質量信息,能夠保障統計數據足夠及時、足夠準確、足夠可靠,為制定合理決策提供建議與支持。也正是因為有了這樣的背景,大數據優勢和機遇才會展現得淋漓盡致。不過大數據本身的電子化易處理、多元、實時、非結構化、海量的特點會放大原本數據質量上本來并不突出的問題,有些時候會帶給數據質量十分重大的災難影響?,F如今統計部門已經將目光和視角放在了解決數據質量問題,其意義十分重大。
從全面數據質量管理理論的角度來看,對于統計數據質量有影響的關鍵點在于數據流程、數據技術和數據管理三個部分。
從流程的角度切入來看,大數據系統非常復雜,能夠為不同階段、不同生命周期的數據提供相應處理能力。接下來將會從數據的收集、數據的存儲、數據的使用展開影響要素分析,并判斷這些因素如何影響到數據質量。
1.數據搜集環節。一直以來,統計工作在不斷調整和優化自己的數據整理、搜集方法,通過完善統計標準,確保統計數據的質量足以應對使用要求。這里包括統計報表的統一、各種調查模式的結合、統計方法的拓展等等。大數據環境下,社交協作、傳感器、智能設備等技術的增加,使得數據來源變得非常復雜。各種非結構數據、半結構數據的主要來源就是各種傳感器、媒體論壇、社交系統。面對如此龐大且種類差異巨大的數據,必然會出現數據矛盾性和差異性問題。此情此景使得數據源中往往很難做到從容應對數據定位、數據檢測。大量數據的出現會讓統計數據的廣度呈現無限接近數據總體。拓展的統計數據范圍,從理論角度來看能夠提高數據統計準確度。不過從實踐結果可以看到的是,在數據接觸面越來越大的同時,需要處理的問題也會不斷增加。問題挖掘難度更大,統計數據質量不易提高。此外大數據的另外一個特點是實時。實時性數據搜集說的就是在數據生成以后,直到數據使用期間,這是一個非常短的流程。實時獲得的數據才能夠體現數據使用有效性,發揮數據本身價值和作用。
2.數據存儲環節。在大數據背景下,數據存儲的價值十分關鍵,能夠為數據分析提供高效支持。提前將數據按照特定的格式分成不同的組別和類型。大數據最大的特點就是訪問接口多、高性能、高可用性、高拓展性。過去單一的數據資源、數據結構并不足以支撐大數據使用要求。為保障數據存儲有效性,就需要用到專用的存儲數據裝置和數據庫技術。當前最常用的主要是SAN、NAS、DAS這三種架構,以上三種架構在使用中效果很不錯。在面對非結構化與半結構數據的時候,傳統存儲有著十分冗長的轉換過程。先將數據變為結構化數據,隨后對這些數據做處理和存儲。轉化數據的過程中,有可能會出現轉化失效問題,直接影響到最后的數據完整性和準確性。數據形式最后會出現翻天覆地的變化。不少圖片、視頻一類的非結構數據最后都會成為影響傳統數據的重要障礙、重大問題。為了最大化數據效益,就需要有機結合傳統結構化數據和非結構化數據,打造和大數據時代相契合的數據庫,保障數據高品質發展。此外維護數據庫同樣對于保障數據質量意義重大。對此數據庫管理者需要按照大數據本身特征做數據存儲方式的合理化設計,發揮數據庫價值,展現數據庫作用。設計數據庫和存儲數據的關聯十分密切。存儲方式的不合理會使得過多存儲空間被浪費和占用,影響后期數據使用。甚至不少情況是失真數據和錯誤數據,都會影響到數據整體質量。管理數據庫的工作人員一定要充分考慮這些因素。大數據相較于傳統數據的轉換更加復雜,會出現很多問題,也需要充分考慮。
3.數據使用環節。開發與使用數據才能夠展現大數據本身作用與價值。應用數據的人非常多,不少人需要對數據更新和提取,只要有其中任何一個人的工作出現問題,都會直接影響到其他人的數據使用質量,導致最后的結果和預期設定出現重大偏差。大數據瞬息萬變、規模十分龐大,要準確把握、合理分析,才能夠最大化數據價值。絕不能允許數據出現過期現象。大數據時代下,一定要處理好統計數據銜接性要求。信息共享、信息平臺、信息技術的協同發展和分析才能夠改善信息孤島問題,充分開發數據價值。除此之外處理統計數據和技術手段的過程中,銜接性有效與否也會成為大數據整合與集成處理的關鍵點。在復雜且紛繁的數據面前,要呈獻給用戶簡單易懂的統計結果。大數據憑借可視化技術,能夠展現更精準、高品質的統計數據。統計大數據契合了實用性追求,因為數據存在非結構化、半結構化、異構和數量激增的情況,所以需要充分考慮用戶需要?;跀祿旧淼耐诰蚣夹g和強大集成能力,定向挖掘海量數據,做好分析,為決策提供支持。
基于技術角度看,對于數據質量有影響的主要包括三個條件,也就是數據分析、數據檢測識別、數據庫。借助于大數據技術和大數據分析技術,能夠為企業提供準確預測能力,為企業制定準確決策提供幫助和支持,展現大數據真正價值。
1.數據分析。在大數據時代背景下,大數據分析這項技術可以從容應對統計數據的實時性、多樣性、海量困境和難題。大數據分析這項技術在統計體系中展現出來巨大的優勢、巨大的價值。挖掘算法能夠有效改善不同格式和類型數據的問題,對統計方法進行補充和推進。依靠預測分析技術提升統計準確性和時效性。
2.數據檢測。因為統計數據當中的適用性、及時性和準確性做不到量化。往往需要人們用直觀判斷方式解決。所以依靠公眾的條件做數據質量提升十分困難。基于生命周期角度探索數據檢測能夠更好地監督和反饋每一個環節所出現的統計數據,解決和彌補數據漏洞。在查缺補漏中對癥下藥,解決問題。完善和開發數據算法,打造合適的數據統計技術、檢測技術。比如質量反饋和綜合評價體系。
3.數據庫技術。面對大數據時代背景,如今企業所呈現的數據是指數性增長的。數據資源的增加所展現的不僅是量的發展,同時結構也發生了翻天覆地的變化。大數據最大的特點就是十分復雜。應用傳統檢測方式識別和處理數據,會消耗非常多的時間和成本。從這一角度可以看到的是傳統數據在現如今的大數據時代下已經不再適用。過去的存儲設備也很難應對新時期的挑戰。企業有必要結合自身條件,配置性能更好的設備,要引進現代化技術,做好數據識別和檢測,發揮數據應有作用。
目前大數據仍舊處于探索和起步階段。國內的大數據存儲技術、分析技術需要更多的資源學習。不少企業當前還在用傳統方法解決大數據問題,容易出現不少的偏差,難以發揮大數據最大的優勢和價值。此外國內當前十分關注的數據分布存儲、并行計算技術有著很多優勢。不過卻并沒有發揮智能化工具和大數據特點優勢。管理者有必要按照實際條件做數據庫設計,配備智能檢測技術,保障數據質量和數據效果。
基于管理維度角度來看,對于管理來說,影響數據分析質量的包括管理者認知度、數據庫人員配備、統計制度、統計標準。
1.管理認知度。管理人員一定要明確大數據價值和重要性,予以大數據建設更多重視。只有這樣才能夠讓大數據在未來獲得更好的發展環境,推進大數據建設。企業管理者如果不關心大數據價值,就會影響到大數據使用。
2.人員配備。從大數據特點看來,其本質特征就是復雜,所以無法有效管理。面對此情此景,就需要擁有同時掌握企業業務和能夠解決技術難題的優秀復合人才。只有這樣才可以保障數據質量,發揮大數據本身應有價值和作用。大數據視角下,需要這樣的人才,進一步挖掘大數據價值。
3.統計標準和體制。大數據時代下,統計制度改革成為很重要的工作。提升數據質量時需要政府的支持。如果政府部門不具備獨立性,那么最后的統計質量就會受到影響。這里的統計數據和管理考核、企業績效、政府政績關聯密切。以上因素很容易影響到統計數據。政府在統計環節負責對數據進行收集和整理,最后發布結果。假設該過程并不透明,沒有深度分析和挖掘數據,就無法展現數據的利用價值。統計部門和民間組織、企業需要充分交流,做好數據共享。目前國內統計標準和國際標準存在差距,沒有及時更新是需要注意的問題。
大數據背景下,必須做好統計制度體系的完善,充分銜接政府、企業以及民間機構,做好數據資源的協同分析和共享工作,確保各部門能夠共享資源、共享信息,發揮信息最大化價值,提升統計數據的作用和質量。要堅持政府統計獨立性,改變過去的統計隸屬關系問題。要建立垂直管理系統,做好地方政績和干部考核完善,落實實事求是追求,確保統計數據足夠客觀、足夠合理。