摘 要:信息時代一個顯著的特點就是每時每刻都在產(chǎn)生著數(shù)據(jù),這些數(shù)據(jù)可能是簡單的數(shù)字,即結(jié)構(gòu)化數(shù)據(jù),也可能是圖像錄音等形式多樣的非結(jié)構(gòu)化數(shù)據(jù),對于從事科學計算的信息產(chǎn)業(yè)相關人才來說,如何在海量的數(shù)據(jù)中快速抽取和整理出預期的有效信息是幾年來的一個熱點問題及研究方向。本文通過淺析大數(shù)據(jù)的由來及定義,介紹相關產(chǎn)業(yè)的發(fā)展狀況及需求,深入淺出的介紹一個屬于數(shù)據(jù)的信息時代。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)處理;分布計算;數(shù)字圖像
中圖分類號:TP311.13;F416.6 文獻標識碼:A 文章編號:1674-7712 (2014) 14-0000-01
一、大數(shù)據(jù)盤點
(一)大數(shù)據(jù)概念。數(shù)字化對我們來說并不陌生,數(shù)碼相機,數(shù)字電視等產(chǎn)品已成功的取代了傳統(tǒng)模擬市場,而被稱為計算機的電腦從其誕生以來就在追求一個高速計算的目標。大數(shù)據(jù)(Big data),最早出現(xiàn)可追溯到Apache org的開源項目Nutch,顧名思義數(shù)據(jù)量之多,規(guī)模之大,信息之豐富。谷歌MapReduce和Google File System的發(fā)布,預示著大數(shù)據(jù)不再單單指數(shù)據(jù)的規(guī)模,還涵蓋了數(shù)據(jù)的處理速度之快,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)即為大數(shù)據(jù)的四大特點。當然,這里的數(shù)據(jù)并不是日常生活中所指的簡單數(shù)字,而是指一切蘊含有用信息的數(shù)據(jù)形式。來自美國互聯(lián)網(wǎng)中心的統(tǒng)計資料表明,目前世界上90%的數(shù)據(jù)都是近幾年才產(chǎn)生的。面對這樣一個數(shù)據(jù)急速膨脹的時代,大數(shù)據(jù)的概念更加深入人心。
(二)大數(shù)據(jù)時代的到來。從物聯(lián)網(wǎng)到云計算到如今的大數(shù)據(jù),IT世界從來就不缺乏新概念,每一個新概念的提出都預示著一項顛覆性技術(shù)的到來,必將影響各個行業(yè),帶領他們走向信息時代的改革。全球最著名的管理咨詢公司麥肯錫公司的創(chuàng)始人James O’McKinsey說:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè),成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”這正表明了一個大數(shù)據(jù)時代的到來。2012年2月出版的《紐約時報》則用一篇專欄來報到了一個已經(jīng)到來的大數(shù)據(jù)時代。
1.物聯(lián)網(wǎng)的概念。基于計算機及網(wǎng)絡基礎的物聯(lián)網(wǎng)(IOT,Internet of Things),即物物相連的互聯(lián)網(wǎng),通過DCM(Devices、Connect、Manage)三層框架實現(xiàn)了從末端到連接再到管理的一體化服務。RFID射頻傳感技術(shù)以及無處不在的感應、采集設備為物聯(lián)網(wǎng)采集了海量的實時數(shù)據(jù),而嵌入式與非嵌入式系統(tǒng)則對這些數(shù)據(jù)進行存儲和處理,以達到科學控制,從真正意義上實現(xiàn)了周圍一切事物(人對物,物對物)的智能管理化。
2.云計算的概念。脫離于實體單一機存儲和運算、基于互聯(lián)網(wǎng)的云計算(Cloud Computing),對于許多人來說是抽象的,實際上這里的“云”是對網(wǎng)絡一種形象比喻,我們知道在網(wǎng)絡圖中Internet用一朵云來表示。這是一種基于分布式的新型計算形式,運營商擁有的上萬臺的服務器為數(shù)據(jù)計算提供了超強的能力,不必依賴于本地計算機或遠程服務器支持用戶隨時隨地不受空間的對數(shù)據(jù)進行處理和整理,同時具有高可靠性,實現(xiàn)了軟硬件的共享。通過SPI(SaaS、PaaP、IaaS)三大模式提供服務,通過云存儲來管理運算中的數(shù)據(jù),這種依靠網(wǎng)絡的分布式計算方式大大提升了計算機的計算能力。
3.大數(shù)據(jù)時代的必然性。由此我們可以得出這樣一個結(jié)論,物聯(lián)網(wǎng)從物體采集來了有效的數(shù)據(jù),云計算為數(shù)據(jù)提供了好的計算提取可能,那么繼物聯(lián)網(wǎng)與云計算之后,大數(shù)據(jù)時代的到來必然之勢。當社交網(wǎng)絡中每分鐘發(fā)布的信息達到幾百萬,瀏覽的數(shù)據(jù)達到幾千萬,對于個體消費者來說不希望自己被淹沒,而對于企業(yè)和互聯(lián)網(wǎng)運營商來說這些海量數(shù)據(jù)蘊藏著巨大商機,掌握著未來發(fā)展趨向與命脈。有效的利用數(shù)據(jù),快速的提取信息并作出判斷,是人們交給計算機的使命。
二、大數(shù)據(jù)具體應用實例分析
早期的計算機主要應用于軍事,現(xiàn)如今早已廣泛應用于各行各業(yè),超市購物,銀行存款,網(wǎng)上瀏覽,辦公計算,我們的日常生活與計算機密切相關。但是對于計算機本身來說,所有的圖像、視頻、音頻都是以0、1的二進制形式進行表示和存儲的,因此,一切信息歸根結(jié)底都是對數(shù)據(jù)進行有效處理。
從醫(yī)學影像,到人臉識別,數(shù)字圖像處理是目前非常有發(fā)展前景的一個方向。然而是否今天所取得的科技成果已足夠應對瞬息萬化的社會了呢?當然遠遠不夠。這里以周克華案件為例,簡單介紹目前技術(shù)不足之處,以理解大數(shù)據(jù)研究的必要性。
(一)視頻監(jiān)控中數(shù)據(jù)的處理。重慶持槍搶劫犯周克華曾在過去的幾年中連續(xù)作案,地區(qū)跨度大,手段兇殘,金額數(shù)目巨多。作案后的周克華逃到了湖南省長沙市岳麓區(qū),在此躲避警方追蹤長達3個多月,就是這么一個大活人,每天活動于各個場所,在大街小巷遍布監(jiān)控的城市,卻能輕巧的躲避警方的追蹤,在帶給人們恐慌與驚嚇的同時實在令人乍舌,感慨科技力度實在不夠。這里面一個重要原因就是監(jiān)控不能夠有效的識別人物。也就是說,監(jiān)控只是能夠捕捉到周克華,卻無法識別出他。從長達幾十萬分鐘的影像資料中找出周克華,追蹤其行跡要依靠警方的眼里,不得不說是一項體力活與技術(shù)活。而周克華又是一個善于偽裝的人,對于不同的走路姿勢、裝扮,要想找出他真可謂大海撈針。
可見,如果計算機不能夠及時的處理采集到的數(shù)據(jù),從中提取出有效信息,將給我們的生活帶來巨大不便,相關技術(shù)就還有很大的發(fā)展空間與發(fā)展必然性。
(二)大數(shù)據(jù)所帶來的影響。相比于真正意義上的大數(shù)據(jù),幾十萬分鐘的視頻資料可謂蒼蠅芝麻。在電子商務市場中,每個上網(wǎng)瀏覽者所產(chǎn)生的數(shù)據(jù)信息無不蘊含著巨大的商業(yè)機密。分析每個人的行跡、愛好,為其量身定做合理推薦及體驗功能,必將使商家占領先機;在航空軍事方面,火箭與衛(wèi)星的每一次成功都提供了成功的驗證,每一次失敗都留下了珍貴的經(jīng)驗,從這些實驗數(shù)據(jù)中匯總,才能更快進步;在醫(yī)學領域,為每個body建立數(shù)字化檔案,模擬機體運轉(zhuǎn),病毒機理,將給病人帶來新的希望,這些數(shù)據(jù)圖書館將使醫(yī)學發(fā)展邁上新臺階。
參考文獻:
[1]Viktor Mayer-Sch?nberger,Kenneth Cukier.盛楊燕,周濤,譯.大數(shù)據(jù)時代:生活?工作與思維的變革[M].杭州:浙江人民出版社,2013.
[2]Anand Rajaraman,Jeffrey David Ullman.王斌,譯.大數(shù)據(jù)·互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[作者簡介]段海夢(1993.09-),女,河南洛陽人,本科在讀,研究方向:計算機科學與技術(shù)。