
數據可以產生價值嗎?十年前,很多人恐怕會對這個問題給予否定或者模棱兩可的答案。在那時的觀念和技術發展水平下,對于IT一知半解的人們還沒有完全了解數據的本質。大家承認數據本身的價值,卻并不了解如何利用數據。
不過,在今天這個大數據(Big Data)時代,幾乎沒有人會對數據的價值生產能力產生懷疑了。越來越多的人認識到,數據將會成為未來一個非常重要的虛擬資產。
但是培育數據讓其產生價值卻不是一個容易的事情。大數據由此應運而生,這一當前最為熱門的概念集合了多種技術為一體,開發出了一套全新方法,以便捷快速地處理數據。因此大數據并不是一種單獨的技術,相對而言我們可以將其稱之為一套技術集合。
為什么需要大數據?
在當今IT業界中大數據是炙手可熱的一個名詞,其以簡單的語法構成通俗易懂地詮釋了什么才是龐大和復雜的數據集。大數據之所以會如此流行,是因為其契合了IT業界的發展與應用趨勢。
最為廣泛流傳的對大數據的解釋莫過于4個V——海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value),而這恰恰是當前社會對數據的需求組成。為了更好地發展業務,一直以來企業、組織和機構都在對結構化數據進行梳理和統計。不過隨著IT應用在業務中的逐漸深入,決策者們發現他們需要收集的數據不僅存在于銷售年報這樣的傳統信息中,而且還同樣存在于網絡日志、傳感器網絡、社交網絡、影音文件、互聯網搜索索引、詳細通話記錄、醫療記錄、攝影檔案、視頻檔案以及電子商務等內容之中。
這些內容有著多種多樣的載體和類型,數據增長和迭代速度極快,相互之間還會存在不同的關聯。最終,會積累下非常龐大的體量。近兩年吸引了大量投資的視頻監控領域,就是大數據內容的一個重要應用實例。其不僅擁有較大的數據規模,產生速度驚人,同時非結構化的數據組成使得很難利用傳統IT技術對其進行處理。不過,由于其與日常生活、工作的密切相關性,視頻監控數據又具有而且能夠產生極大的價值。當然,我們也要看到,在龐大的數據量背后,視頻監控數據的價值密度很低。在動輒數十小時的視頻資料中,有時我們需要的僅僅是其中的幾分鐘或者幾秒。但是就是這樣,我們依然需要對其進行長期保存。
來自IDC的調查報告認為,全球的數據資料存儲量到2020年將達到40ZB,而數字信息的主要制造者也將從現有的成熟市場轉移至新興市場。比如說,各種物聯網傳感器產生的數據量占比將從2005年的11%增長到2020年的40%。
傳統的關系型數據庫沒辦法將這些內容加以消化。從應用角度,業界需要大數據這樣的概念指導,為企業、組織和機構開發出一套全新方法和一系列技術,使得決策者們不僅能夠處理傳統數據,同時可以便捷地分析和應用這些新興數據,而不是僅僅進行儲存。
大數據的技術構成
在大數據概念中,目前還沒有哪項單一技術能夠滿足所有應用需求。這些大數據技術或針對數字營銷數據進行優化,或分析社交網絡數據,再或者主要用已知數據來預防未知的風險,其應用領域比較具有針對性。
我們可以將一套完整的大數據平臺拆分成幾個不同的技術領域。從宏觀上來看,大數據平臺包含了三個重要的技術部分。
首先是數據交易技術。這一部分技術所從事的工作,是對一些傳統的關系型數據或者非結構化數據進行處理,這些數據包括ERP應用、數據倉庫應用、在線交易處理(OLTP)等。
數據交互是第二類組成部分,其也是成長最迅速的一類大數據技術。數據交互技術主要是對社交網絡、物聯網設備和傳感器、地理定位、影像文件、互聯網點擊、電子郵件等應用產生的數據進行處理。
最后是對數據的處理。在這一部分中,包含了技術架構、計算方式等內容。知名的Hadoop平臺就是其中的一份子。
另一方面,從微觀層面,我們可以將大數據平臺再進行更加細致的剖析。
1. 數據存儲 數據存儲是大數據平臺的根本,也是所有大數據技術中產品種類最多的一個組成部分。沒有了存儲平臺,數據也就沒有了載體。在數據存儲的組成中,包括了高性能的內核式分布存儲系統、用戶級的分布式存儲以及業務級別的數據存儲。這其中不乏LustreFS、Hadoop HDFS這樣的知名產品。
2. 數據同步 這一部分技術主要用于將基礎架構產生的數據內容進行轉換,以完成數據處理、系統監控等方面的操作。
3. 數據開發 顧名思義,數據開發技術主要承擔了搭建大數據平臺上層建筑的任務。其中涵蓋了用戶認證、數據鑒權、工作流、數據管理等多方面的任務。
4. 數據呈現 數據可視化是這一部分的一個重要主題。Facebook為了更好地應用大數據技術,特別開發了名為Facebook Insights的產品,將大數據平臺中的單元和屬性抽離出來,以更好地掌控數據資源。
5. 數據計算 這一部分毫無疑問是一個大數據平臺最為重要的技術核心。其承擔了對海量數據進行再加工再處理的任務。一般來說,我們可以將其分為離線計算與實時計算兩種模式。離線計算一般適用于對時間屬性不敏感的應用,相對而言,其技術開發和構建的成本較低。但是由于離線計算需要數據同步技術對數據進行采集,過大的數據量會使得采集過程失敗,因此目前用于離線計算的數據量還不能太大。
相較于離線計算,實時計算處理速度更快,但是其成本很高。目前實時計算大都用于金融、互聯網等行業。
6. 數據挖掘 數據挖掘并不是一個新的技術,目前其發展已經非常成熟。在大數據的概念下,數據挖掘被賦予了新的意義。其所處理的數據類別越來越廣泛,同時為了迎接海量數據,數據挖掘工具的性能也在不斷提升。
在當今這個飛速發展的數字時代,大數據已經成為我們生活中必不可少的一部分。展望未來,圍繞大數據還將有一些新的技術和商業模式誕生。數據將成為如同服裝、汽車、家電或者是食物一樣的商品,成為人們選購的對象。同時,精通大數據相關技術的數據科學家,也會成為一個新興的職業類型,在新時代中扮演重要的角色。