□ 胡 輝
(一)大數據的概念。“大數據(mega data)”即是指海量的數據。人們對什么是大數據并沒有統一的定義,大數據即意味著極度的復雜,目前人們對于大數據的定義主要有以下三種說法:一是任何超過一臺計算機能夠處理的龐大數據即為大數據;二是一個個大而復雜、難以用現有數據庫系統處理的數據;三是大數據即是具備各種復雜數據類型的海量的數據。無論大數據的定義如何,公認的大數據應該具有如下3V特征:
1.Volume。即數據體量巨大,對大數據而言,GB、TB(1TP=1024GB)已不足以表示數據量,現在某些企業級的數據量已經進入PB(1PB=1024TB),甚至是EB(1EB=1024PB,據統計,到目前為止,人類印刷品的數據量約為200PB)級了。
2.Variety。即數據類型多樣,大數據中不僅僅有結構化的數據如傳統數據庫文件、文本文件,還有大量非結構化的數據,如音頻、視頻等文件。
3.Velocity。即處理速度快,一方面數據量本身在不斷增長,另一方面訪問和使用數據的用戶也在不斷增加,要求數據信息處理的反應時間也要盡可能縮短。
(二)大數據的來源。大數據的來源是多方面的,就技術和社會層面而言,主要由三個方面構成:
1.來自交易平臺。從電子商務到電子政務的發展,從ERP(企業資源技術系統)到OLTP(在線交易處理系統),無論是傳統的結構化數據或是非結構化數據正以前所未有的速度迅速增長。
2.來自交互平臺。這一方面的數據來源于各種論壇、社交網站,如 YouTube、Facebook、微信、QQ 等的文本、照片、視頻,人們每時每刻不斷用各種方式不斷表達自我、分享喜悅。
3.來自處理平臺。各種平臺都需要數據管理系統,常見的方式是使用各種管理工具處理來自各客戶端的各種數據。
(一)數據挖掘技術概述。數據挖掘是一門涉及統計、信息處理、數據庫技術等方面知識的綜合技術,它并不是這幾年才出現的技術,而是在計算機性能提高,網絡帶寬增大,應用需求迫切的情況下迅速發展并進入公共視線的。數據挖掘通常與計算機科學關系較為密切,現在提到更多的是大數據挖掘,是已有的海量數據中的知識發現,通常應用于統計、在線分析、情報檢索、機器學習、專家系統和模式識別等多個方面。
(二)數據挖掘在各行業中的應用。數據挖掘技術如今已經在各行各業中得到廣泛應用,如在冶金產品質量控制中用于質量精準控制;在電子商務的應用中從網頁的設計、客戶關系管理、網絡營銷三個角度預測并優化;在商業數據分析中按企業既定業務目標,對大量數據進行深沉次分析,支持商業決策活動;在金融領域、在資本市場,通過大數據挖掘,給交易者提高準確及時的預測,為內部風險控制和監管提供更加準確和透明的風險信息;在科研如基因序列分析的關鍵技術研究中,使研究人員更易從浩瀚的生物序列中發現知識和解釋生命的奧秘;在軟件工程中,從軟件的開發和管理工程出現的海量數據中快速找出影響軟件開發的大問題,縮短開發周期,減少BUG;在客戶關系管理中,通過數據挖掘可以及時準確地了解客戶的偏好和需求,向客戶提供個性化服務,與客戶建立長久、穩定、良好的溝通關系,建立一種良好的新型客戶管理機制。
(一)分布式數據庫概述。分布式數據庫(DDBS)的設計思路是將原來集中的數據庫數據,通過計算機和高速網絡分散到多個存儲元,通過全局性調度管理數據庫集管理,形成邏輯上統一,實際上分散的數據庫形式。通過這種形式,可以提高數據庫的存儲容量和高并發性,提高訪問效率和訪問量,分布式數據庫的體系結構圖如圖1所示。

圖1 分布式數據庫體系結構圖
隨著大數據時代的到來,傳統的關系型數據庫也逐步從集中存儲轉變到分布式存儲,從集中式運算轉變到分布式計算。數據庫相關應用也逐步在使用D非關系型數據庫,如NoSQL文檔型數據庫。分布式數據庫技術也得到了快速的發展,傳統的關系型數據庫開始從集中式模型向分布式架構發展,基于關系型的分布式數據庫在保留了傳統數據庫的數據模型和基本特征下,從集中式存儲走向分布式存儲,從集中式計算走向分布式計算。
(二)分布式數據庫技術的特點。由于存儲和處理大數據的需要,數據庫需要具有物理分散布置、局部場地自治和場地間協調的特點,分布式數據庫不僅具備這些特點,還具備靈活的體系結構、分布式管理機構;較好的經濟性能;較高的系統可靠性高、可用性、可擴展性好;但是由于分布式數據庫需要較多的異步操作和網絡操作,必然會增大系統開銷,特別在網絡通訊和協調計算方面尤為突出,另外由于數據來源不一致,可能會導致復雜的數據結構和大量的預處理操作,而且由于數據不單單在本地處理,可能還存在較為明顯的數據安全問題。
(一)云計算概述。云計算是客戶/服務器(B/S)模式的一種轉變,“云”一般用來比喻網絡即網絡上的虛擬化資源,云計算是一種通過網絡,按流量付費使用數字資源的一種模式,它具有分布式、虛擬化、并行計算、網絡存儲等特征,是計算機和網絡高度融合的產物。云計算的概念最早出現在1980年,2006年時又由Google首席執行官埃里克·施密特(Eric Schmidt)正式提出,經過了電廠模式、效用計算、網格計算和云計算四個階段才發展成熟,現在隨著網絡帶寬增大,網絡數據爆炸式增長,網絡大數據處理技術升級,云計算正逐步被普及和應用。
(二)云計算技術大數據背景下的應用。云計算和大數據是兩個不同的事物,簡單來說,云計算是硬件資源的虛擬化,而大數據是海量數據的高效處理。從技術上看,云計算和大數據密不可分,就是事物都具有兩面性一樣,大數據意味著不可能使用一臺計算機進行處理,而大數據的存儲、處理都需要云計算的分布式環境、分布式數據庫、虛擬化等技術的支持,在大數據背景下,云計算已發展了很多具體應用,如云物聯,云游戲、移動云服務、云存儲等。
大數據因為種種原因引起人們的廣泛關注,各大公司和開發者們投身于新技術的研發,大數據以Hadoop以及“NO SQL”為主的Mongo和Cassandra等數據庫技術在不斷展現,目前市場上超過25萬個開源技術已經出現,大數據的應用會越來越廣、越來越精確,本文僅就大數據背景下的主要信息處理技術作粗淺分析,希望能為大數據的引用起到有益引導。
[1]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,4:168 ~171
[2]《中國電子科學研究院學報》編輯部.大數據時代[J].中國電子科學研究院學報,2013,1:27~31
[3]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機技術與發展,2013,1:146 ~149
[4]楊澤民.數據挖掘中關聯規則算法的研究[J].軟件,2013,34(11):71 ~72
[5]韓少鋒,陳立潮.數據挖掘技術及應用綜述[J].機械管理開發,2006,2
[6]鐘瑛,張恒山.大數據的緣起、沖擊及其應對[J].現代傳播(中國傳媒大學學報),2013,7