李留越
大數據時代已經來臨,帶來了信息科學技術發展的深刻變革,并對社會生產和人民生活的方方面面產生了巨大影響。全球范圍內,世界各國均高度重視大數據技術的研究和產業發展,紛紛把大數據上升為國家戰略加以重點推進。我國的互聯網企業和學術機構正加大技術、資金和人員投入力度,加強對大數據關鍵技術的研發和應用。大數據已經不是那么遙不可及,它的影響力和作用力正在迅速觸及社會的每個角落,所到之處,有對傳統行業的沖擊,也有基于大數據技術的產業革新,都讓人們深切感受到了大數據技術的影響力以及作用力。
據預測,到2020年,全球包含PC、平板電腦、智能手機等聯網設備將超過300億臺。實際上,隨著物聯網技術與可穿戴設備的飛速發展,終端設備會遠遠大于這個數量。大量終端設備會產生巨大的數據量,數據內容的種類也會變得多種多樣,比如大量的普通文本數據、醫療影像數據以及越來越多城市攝像頭所記錄下的視頻數據,還有最近比較火的短視頻應用所產生的大量視頻數據等等。大數據,指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據技術有四大特點:Volume(大體量)、Variety(多樣性)、Velocity(時效性)和Veracity(準確性),人們將其總結為4V特征。
一般而言,大數據處理有三種模式:離線計算、在線處理和流計算。Hadoop是目前使用較為廣泛的離線計算應用框架,在線處理和流計算尚未形成廣泛使用的開源生態環境。說到大數據我們首先要關注的是Google公司,Google公司的三大核心技術MapReduece、GFS和BigTable奠定了大數據分布式處理的基礎。MapReduece是一種編程模型,用于大規模數據的并行計算。在Google公司三大核心技術的基礎上,Apache社區開發的開源軟件Hadoop是實現MapReduece計算模型的分布式并行編程框架。Hadoop還提供一個分布式文件系統(HDFS)及分布式數據庫(Hbase),將數據部署到各個計算節點上。Hadoop的獨特之處在于它的編程模型簡單,用戶可以很快地編寫和測試分布式系統。2008年以來,Hadoop逐漸被互聯企業廣泛接受,這一開源的生態系統已成為大數據處理的主流和事實標準。
當前,對大數據的處理分析技術正成為新一代信息技術融合應用的節點。移動互聯網、物聯網、社交網絡、數字家庭、電子商務等是新一代信息技術的應用,這些應用不斷產生大量數據。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到應用中去,將創造出巨大的經濟和社會價值。可能有些人還沒意識到大數據的作用,總覺得這種技術很遙遠,但是大數據技術已經融入了我們的生活。比如現在很火的抖音短視頻APP,很多年輕人的手機里面都有這個APP,用的時間久了你就發現這個手機軟件會根據你的喜好給你推薦視頻,這正是對于大數據處理分析技術的應用。當你使用了一段時間這個軟件之后,它收集了你點贊的視頻,然后經過后臺的分析,把相關的視頻推薦給你,這樣你使用這個軟件的時間就會變長,就會給軟件的制作者帶來收益。
對于大數據處理與分析技術的應用還體現在生活的很多方面。在社會管理方面,我們的政府會根據全國的就業信息來分析目前經濟形式和企業的經營問題。解決十幾億人的吃飯問題是我們國家經濟發展的首要任務,國家對就業形式的全面了解有利于制定相關的政策來解決相應的問題,但是整個國家的就業信息非常龐大,這個時候就需要大數據處理與分析技術來解決這個難題。首先我們要對全國就業信息進行采集,然后將所有采集到的數據利用分布式文件系統存儲在很多臺機器上。利用相關的經濟學原理,分析我們所采集到的數據之間的邏輯關系,然后在一些優秀的大數據平臺如Hadoop、Spark等上編寫相應的數據分析程序,最后將程序部署到我們的存儲數據的機器上,開始我們的數據分析并且將最終的結果匯總,得出我們想要的結論。大數據處理與分析技術不像傳統的抽樣調查,大數據分析是對所有數據的計算,不是對部分數據的分析,這樣我們利用大數據處理與分析得到的結論比傳統的抽樣調查得到的結果更準確。除此之外,通過對全國就業信息的分析,我們不僅僅可以得出國家經濟形式相關的結論,我們還可以利用其中的數據來判斷當前比較熱門的行業有哪些,預計哪些行業將會給就業者帶來無限機遇。
在這個信息時代,我們每個人每天都會產生各種各樣的數據,例如我們的出行信息、購物信息、身體健康狀況等信息,利用這些數據為我們的生活帶來便利是大數據處理與分析技術所要做的。生老病死是人的客觀規律,在治理疾病方面,我們的大數據處理與分析技術有著非常廣泛的應用。在醫療行業,大數據技術的應用有比較效果研究、臨床決策系統和遠程病人監護等等。通過全面分析病人特征數據和療效數據,然后比較多種干預措施的有效性,可以找到針對特定病人的最佳治療途徑。研究表明,對同一病人來說,醫療提供方不同,醫療護理方法不同和效果不同,成本上也存在很大差異。精確分析包括病人體征數據、費用數據和療效數據在內的大型數據集,可以幫助醫生確定臨床上最有效和最具有成本效益的治療方法。
在我們的日常生活當中,我們最常見的應用大數據處理與分析技術應當是天氣預報,我們每個人都會很關心天氣信息,天氣與我們的生活息息相關。以前我們收看天氣預報,我們基本上只能看到未來三天的天氣信息,并且這些天氣信息有可能出錯。但是現在不同了,我們在天氣預測這方面引入了大數據技術,我們不僅可以查看未來一周甚至15天的天氣信息,還可以查看未來24小時內每個時間段的天氣信息,并且現在天氣信息的準確率非常高。大數據技術在我們的生活中的應用已經無處不在,只是如果我們不去深入了解,我們就不知道這其中深藏著對大數據技術的應用。我們生活中的購物網站的智能推薦、我們的智能設備對身體健康狀態的檢測、手機上地圖軟件的實時路況及路徑推薦等等,這些都運用到了大數據技術。
大數據技術已經融入我們的生活,在眼下這個“深刻變革、深刻變動、深刻調整、深刻變化”的時代,我們更需要學習科學技術,保證自身不會被這個時代淘汰。大數據時代已經來臨,新的時代,新的挑戰,需要我們更加好好學習。