王櫻潼
中圖分類號:F253.3 文獻標識:A 文章編號:1674-1145(2019)6-147-02
摘 要 大數據在當今時代背景下占據著主導性的地位,若大數據由于數據質量不夠精準而導致最終決策錯誤將帶來毀滅性的后果,本文將分析大數據以及數據質量的基本特征,基本特點以及在容易出現問題的方面以大數據為根本對數據質量進行驗證研究。并對大數據以及數據質量會出現問題的方面一一列舉出來并提出解決方案。
關鍵詞 大數據 數據質量 特點 性質 問題 原因
一、大數據與數據質量
“大數據”是必要新處置模式才氣具備更強的決議計劃力、洞察發明力和流程優化本領來順應海量、高增長率和多樣化的信息資產。——研究機構Gartner
一種規模大在獲得、存儲、辦理、闡發方面大大超越了傳統數據庫軟件東西本領規模的數據調集。——麥肯錫全球研究所
而且,它從發生便具備海量的數據范圍、快速的數據流轉、多樣的數據類型和代價密度低四大特色和5V特色(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低代價密度)、Veracity(真實性)。“大數據”中的“大”并不僅僅代表著數據量之大,也代表了其潛在的數據價值之大。根據研究顯示,更多增強企業生產能力和競爭能力的機會以及巨大的潛在商業價值均來自于有效地管理、使用大數據。例如在制造領域,大數據被嵌入在產品中的傳感器所傳輸,可以為企業開發新型的售后服務項目,以及為開發下一代新產品提供了數據基礎。又如在醫療領域,患者的臨床和行為數據往往是最能體現患者需求的數據,對此數據進行有效的分析,可以更深入地了解患者的病癥并對其病癥做出更準確的判斷,給予更舒適的護理計劃。
而大數據的潛在價值又是怎樣做才能被挖掘出來呢?隨著云時代的到來,大數據與云計算逐漸形成一種密不可分的關系,大數據作為企業決策的基礎不能只有單純的數據量,更有配合適當的分析模型以及相應的技術手段,對大量數據進行有效的深加工深處理,才可挖掘出大數據的潛在價值。往往潛在價值中的信息更容易幫助企業作出相關決策發揮大數據的真正效用。
作為大數據必然用有著龐大的數據量,而如此龐大的數據量自然無法用單臺的計算機進行處理,只能采用分布式架構,對海量數據進行分布式數據挖掘,這是它所擁有的獨一無二的特色。但若是沒有云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術,它也無法發揮它原本的作用更無法為企業帶來優勢。
以云時代為背景,大數據的快速發展很有可能成為新一輪的技術革命。隨著互聯網的快速普及,信息技術逐漸和人類生活相互融合,導致全球的數據呈現爆發增長,海量聚焦的一面。而數據作為本世紀最珍貴的財產,并不比石油遜色半分。在信息化發展到目前這一階段,大數據對經濟發展、社會秩序、國家治理、人民生活都有著不同程度的影響。在當前這個局勢下,數據就等于主動權,世界各國都把推進經濟數字化作為實現創新發展的重要動能,在技術研發、數據共享、安全保護等方面進行前瞻性布局。
“數據質量:數據對其在操作、決策支持和規劃中扮演角色的適應程度。”——維基百科
數據質量作為信息系統的主要組成部分,它的質量問題是影響信息系統運行的關鍵因素,信息系統扶植的成敗也取決于數據質量的黑白。根據“垃圾進,垃圾出(garbage in,garbage out)”這一原理,若是想讓信息系統的建設取得預期效果,達到理想的目標,就應保證有良好的數據質量,能夠準確反映客觀事實,對信息系統所提供的數據具有可信度,可靠度和真實度。如果是據質量達不到標準值,不管數據分析的工具如何先進,模型如何合理,算法如何優良,都達不到預期目標。在充滿著“垃圾”的環境里得到的也都是沒有意義的垃圾信息,對后續將要做出的政策的制定和實行都有著毀滅性影響。而高質量的數據來源于數據收集,因此,信息系統數據質量的管理便顯得尤為重要。成立一個有用的數據質量管理體系是進步數據質量的一個體例,可以使數據質量獲得有用的進步,使“垃圾”數據盡量多的削減,使挖掘出的數據信息盡量多的到達精準,進而使政策的擬定和實施更可以或許到達目標。使“垃圾”數據盡可能多的減少,使挖掘出的數據信息盡可能多的達到精準,進而使政策的制定和實行更能夠達到目的。
按照數據質量問題估算查詢拜訪表現:數據毛病每一年對美國工業界造成的經濟損失信占GDP的6%。在醫療事故中因數據統計而出現的決策性失誤導致了近98000名患者喪失生命,在金融企業中因數據質量問題導致的信用卡欺詐失察在2008年即造成48億美元的損失。由此可見,數據質量對大數據產生毀滅性的影響進而影響進一步所做出的判斷與決策,更使決策在實施時出現偏差導致無法挽回的后果。
二、出現問題的原因以及發展趨勢下的解決方案
(一)出現問題的原因
1.由于大數據的規模較大且環節較多,在獲取、存儲、傳輸和計算的過程中容易出現很多錯誤,而又因為數據量的龐大是我們無法采用人工錯誤檢測與修復或簡單的程序匹配處理,所以,大數據容易出現不精準這一問題。
2.由于大數據的高速性,整個過程更容易產生不一致數據,并且由于目前經濟以及國內形勢發展迅速,市場龐大,廠商眾多,直接產生的數據便有很多遺漏、出錯以及有偏差等數據的產生也為整個人工錯誤檢測與修復帶來了巨大的困難。
3.在數據搜集時,大數據的多樣性來歷也致使了數據質量的誤差。來源于眾多地區、結構均不相同、數據量大且都不統一的數據源之間存在著沖突、不一致和相互矛盾的現象。隨著時代的進步,生活節奏的加快,生產源頭也不斷增加,產生數據的來源便多不勝數,系統的更新升級以及應用技術的更新加快也間接的導致了相同的或是不同的數據源之間都有可能存在著沖突以及不一致的現象,而數據的整理以及集成都由很多組的人員來操作,這也加大了數據質量的誤差以及出錯率。
(二)發展趨勢下的解決方案
在當前數據資源化的背景下企業必須要依靠大數據提前制定大數據營銷戰略方案,對市場有足夠的敏銳度,與云計算的深度結合、科學理論的變革以及數據科學的建立都將被大數據進一步影響,也是大數據走到今天所帶來的影響與達到的效果。而近幾年,數據大量泄露,安全措施已出現問題,客戶以及企業本身的信息得不到保障導致很多企業由于數據的泄露而被迫倒閉。可近幾年,數據管理成為核心競爭力,直接對財務表現產生巨大影響。數據管理在近幾年逐步成為企業焦點競爭力,企業數據的辦理焦點逐步由戰略性計劃、應用數據資產和持續發展的空間所構成,而數據質量則是讓企業持續發展的主要指標,數據質量不達標將致使企業焦點競爭力弱化,管理焦點逐步散漫,終究使企業破產。企業數據的管理核心逐漸由戰略性規劃、運用數據資產以及持續發展的空間所組成,而數據質量則是讓企業持續發展的重要指標,數據質量不達標將導致企業核心競爭力弱化,管理核心逐漸渙散,最終使企業破產。在當下這個環境背景下,可以從完整性,一致性,準確性和及時性四個方面來評估數據質量,通過量化指標我們可以了解到當前的數據質量,以及采取修正措施后的修正程度。而對于海量的數據,質量指標無法通過人工來獲取,我們需要有一個對應的流程以及精確的步驟,并將每一步會出現的差錯幾率降到最小,在保證數據完整,一致的前提下確定精準及時的數據來分析并構成大數據,得出大數據中隱含的信息,為企業助力。
三、利用大數據驗證數據質量
大數據經過一系列的程序會看出隱藏在數據中的信息,若是數據質量不夠高或是過程不夠精準都會對最終結果產生不可估量的影響。而用大數據最后得出的結論或是決策來驗證數據質量是再適合不過的了。
首先,若數據質量出現問題,那么最后的決策便會出現偏差,在實施的時候更是會導致無法挽回的后果。而在實施之前先用結果對數據質量進行驗證便會減少出問題的幾率,也會減少出現無法挽回的后果的幾率,在當今時代,大數據作為企業的核心,更是不能出半點差錯,而數據質量則對大數據有著至關重要的作用。
其次,每個企業都有著自己固定的數據源但是從不同的數據源中傳出的數據有可能會產生不一致以及對沖。所以有可能本公司的大數據結論與國家政府的大數據結論出現不一致的現象。所以應先根據得出的決策進行驗證研究,在確保數據質量的前提下,將垃圾數據篩除,重新建立大數據,重新得出結論以及決策。
最后,由大數據來反驗證數據質量可以說是驗證數據質量最精準的方式了,在大數據的慧眼下,數據質量的一切小毛病都將無處遁形,為了更精準的數據質量,為了更準確的做出決策,為了使決策更完好的實施,用大數據對數據質量進行驗證研究是必不可少的,在當今環境下,大數據的比拼逐漸激烈化,只有掌握最精準的數據,才能做出最精確的決策,才能在當今時代立穩腳跟,否則,被淘汰、被落下甚至于倒閉推出都不是沒可能的。
四、結語
根據上文所述,數據質量對大數據來說至關重要,良好的數據質量可以使企業更上一層樓,而“垃圾”數據則將會影響大數據的隱含信息并對最終得出的結論產生不可估量的影響,帶來無法挽回的后果。所以,我們應盡快解決數據質量的問題,使數據質量有一定的保障,利用大數據對數據質量進行驗證是最能體現數據質量的方法,決策經過驗證后便會更加完善得體,實施時也會減少出現意外的概率。
參考文獻:
[1]張翠紅,劉毅.財務管理[M].西南財經大學出版社,2017(7).
[2]李建中,王宏志.數據質量:大數據的新側面[N].科技日報.