崔倩
摘 要:大數據已經成為一種基礎性新資源,已初顯潛在的價值和巨大的變革之力。本文介紹了大數據的定義、特征,分析了大數據的應用和發展趨勢。
關鍵詞:大數據;大數據時代;應用
引言:
隨著新一代信息技術的發展和應用,尤其是互聯網、物聯網、移動互聯網、社交網絡等技術的發展,人類產生的數據成倍增長,數據種類繁多,數據在寬帶網絡中高速流動,數據的待開發價值越來越大,我們正在進入一個大數據時代,大數據應用也成為當前最為熱門的信息技術應用領域。
一、什么是大數據
(一)大數據的定義
大數據(Big Data)指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力,以及海量、高增長率和多樣化的信息資產。
(二)大數據的特征
大數據的“大”是一個動態的概念。以前10GB的數據是個天文數字,而今在地球、基因、空間科學等領域,TB級的數據已經很普遍。關于大數據的特征,雖然有多種解讀,但業界一般認為,大數據具有4V特征:Volume(數據量大)、Variety(數據類型多樣)、Velocity(處理速度快)和最重要的Value(價值密度低)。
1.數據量大(Volume)
大數據的體量大,數據集合的規模不斷擴大,已經從GB到TB再到PB級,甚至已經開始以EB和ZB來計數。例如,一個中型城市的視頻監控頭每天就能產生幾十TB的數據。有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200PB。國際知名咨詢機構IDC(International Data Corporation)的研究報告預測,未來十年全球大數據將增加50倍,管理數據倉庫的服務器的數據將增加10倍。
2.數據類型多樣(Variety)
大數據類型繁多,包括結構化、半結構化和非結構化數據。以往產生或處理的數據類型較為單一,大部分是結構化數據。而現代互聯網應用呈現出非結構化數據大幅增長的特點,非結構化數據越來越成為數據的主要部分。據咨詢機構IDC的調查調查報告顯示,企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。
3.處理速度快(Velocity)
大數據往往以數據流的形式動態、快速地產生,具有很強的時效性,用戶只有把握好對數據流的掌控才能有效利用這些數據。另外,數據自身的狀態與價值也往往隨時空變化而發生演變,數據的涌現特征明顯。業界對大數據的數據處理速度有一個稱謂——“1秒定律”,即要在秒級時間范圍內給出分析結果,超出這個時間,數據就失去價值了。這個速度要求是大數據處理技術與傳統的數據挖掘技術最大的區別,這也充分說明了大數據需要具備快速處理的能力。
4.價值密度低(Value)
數據總體的價值巨大,但是價值密度很低。價值密度的高低與數據總量的大小成反比,數據規模越大,真正有價值的數據相對越少。以常規的監控視頻為例,連續24h的視頻監控中,有用的數據可能僅有數秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。
也有機構在4V之外定義第5個V:真實性(Veracity)指的是當數據的來源越來越多元時,這些數據本身的可靠程度如何、能否反映真實情況、質量是否合格,都需要關注。若數據本身就有問題,那分析得到的結果也不會正確。
二、大數據的應用
1.洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
2.Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
3.統計學家內特?西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
4.麻省理工學院利用手機定位數據和交通數據建立城市規劃。
5.梅西百貨的實時定價機制,根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。
6.醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資金來做大數據分析。
三、大數據的發展趨勢
(一)數據的資源化
資源化是指大數據成為企業和社會關注的重要戰略資源,并已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。
(二)與云計算的深度結合
大數據離不開云處理,云處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。
(三)數據科學和數據聯盟的成立
未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基于數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之后,數據共享將擴展到企業層面,并且成為未來產業的核心一環。
(四)數據泄露泛濫
未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防范。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而并非在數據保存的最后一個環節,僅僅加強后者的安全措施已被證明于事無補。
(五)數據管理成為核心競爭力
數據管理成為核心競爭力,直接影響財務表現。當“數據資產是企業核心資產”的概念深入人心之后,企業對于數據管理便有了更清晰的界定,將數據管理作為企業核心競爭力,持續發展,戰略性規劃與運用數據資產,成為企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對于具有互聯網思維的企業而言,數據資產競爭力所占比重為36.8%,數據資產的管理效果將直接影響企業的財務表現。