周健
[摘 要]未來將是大數據的時代。大數據產業主要涉及數據生成、存儲、處理分析、應用四個環節,具體來看,包含硬件設備、處理分析環節、綜合處理、語音識別、視頻識別、商業智能軟件、數據中心建設與維護、IT咨詢、方案實施、信息安全等領域。
[關鍵詞]大數據;數據采集;數據管理
[DOI]10.13939/j.cnki.zgsc.2015.45.105
隨著計算機和信息技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的數據呈爆炸性增長。動輒達到數百TB甚至數十至數百PB規模的行業、企業大數據已遠遠超出了現有傳統的計算技術和信息系統的處理能力。因此,尋求有效的大數據處理技術、方法和手段已經成為現實世界的迫切需求。世界權威IT信息咨詢分析公司IDC研究報告預測:全世界數據量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。而且,大量新數據源的出現導致數據結構的多樣變化,非結構化、半結構化的數據呈爆發式增長。這些信息背后產生的大量數據遠遠超越了目前人力所能處理的范疇,大數據時代正在來臨。
1 大數據的特征
大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。”業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。
1.1 數據體量巨大(Volume)
截至目前,人類生產的所有印刷材料的數據量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業的數據量已經接近EB量級。
1.2 數據類型繁多(Variety)這種類型的多樣性也將數據分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
1.3 價值密度低(Value)價值密度的高低與數據總量的大小成反比。以視頻為例,一部1小時的視頻,在連續不間斷的監控中,有用數據可能僅有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。
1.4 處理速度快(Velocity)這是大數據區別于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業的生命。
一個基本的大數據處理流程,可以概括為四步,分別是采集、導入和預處理、統計和分析,以及挖掘。
2 大數據的采集方法
2.1 系統日志采集方法
對于系統日志采集,很多互聯網企業都有自己的海量數據采集工具,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,它們均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。
2.2 網絡數據采集方法:對非結構化數據的采集
網絡數據采集可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。可以通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。對于網絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。
2.3 其他數據采集方法
對于企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。
3 大數據存儲(導入)和管理
3.1 并行數據庫
并行數據庫系統大部分采用了關系數據模型并且支持SQL語句查詢,在無共享的體系結構中進行數據操作的數據庫系統。
3.2 NoSQL數據管理系統
NoSQL指的是“Not Only SQL”,即對關系型SQL數據系統的補充。NoSQL最普遍的解釋是“非關系型的”,強調鍵值存儲和文檔數據庫的優點,而不是單純地反對關系型數據庫。它采用簡單數據模型、元數據和應用數據的分離、弱一致性技術,使NoSQL能夠很好地應對海量數據的挑戰。
3.3 云存儲與云計算
在云計算概念上延伸和發展出來的云存儲,是一種新興的網絡存儲技術,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。云存儲是一個以數據存儲和管理為核心的云計算系統。
3.4 實時流處理
所謂實時系統,是指能在嚴格的時間限制內響應請求的系統。流式處理就是指源源不斷的數據流過系統時,系統能夠不停地連續計算。所以,流式處理沒有嚴格的時間限制,數據從進入系統到出來結果可能是需要一段時間。然而,流式處理唯一的限制是系統長期來看的輸出速率應當快于或至少等于輸入速率。否則,數據會在系統中越積越多。
4 大數據的分析
數據分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。如果是一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
5 大數據的挖掘與展示
大數據技術不在于掌握龐大的數據信息,而是將這些含有意義的數據進行專業化處理,將海量的信息數據在經過分布式數據挖掘處理后將結果可視化。數據可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息。依據數據及其內在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。這樣就對數據可視化軟件提出了更高的要求。數據可視化應用軟件的開發迫在眉睫,數據可視化軟件的開發既要保證實現其功能用途,同時又要兼顧美學形式。例如,標簽云、聚類圖、空間信息流、熱圖等。
大數據成為推動經濟轉型發展的新動力。以數據流引領技術流、物質流、資金流、人才流,將深刻影響社會分工協作的組織模式,促進生產組織方式的集約和創新。大數據成為重塑國家競爭優勢的新機遇。在全球信息化快速發展的大背景下,大數據已成為國家重要的基礎性戰略資源,正引領新一輪科技創新。大數據還成為提升政府治理能力的新途徑。大數據應用能夠揭示傳統技術方式難以展現的關聯關系,推動政府數據開放共享,促進社會事業數據融合和資源整合,將極大提升政府整體數據分析能力,為有效處理復雜社會問題提供新的手段。
參考文獻:
孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].算機研究與發展,2014(1).