喬明中
摘 要:大數據是物聯網、云計算、移動互聯網之后的又一大技術變革,大數據蘊含著豐富的信息,往往具有巨大的經濟和社會價值,有助于為人們更深入地認識事物和做出判斷,已成為信息社會的寶貴財富。文章通過對大數據的研究和特點,分析了大數據的應用和挑戰。
關鍵詞:大數據;價值;應用;挑戰
前言
近年來,隨著博客、微博、云計算、網絡等通信手段的應用與發展,以及視頻監控、智能終端迅速普及,加上遍布各處的傳感器,引發數據的爆炸性增長模,用GB、TB或PB(1PB=1024TB),EB(1EB=1024PB)作數據量單位已不適合,需要用ZB(1ZB=1024EB)、YB(1YB=1024ZB)等為計量單位。大數據和傳統的數據管理方法給人們的生活帶來了巨大的挑戰,但也有很多方便。
1 大數據的概念
1.1 概念
大數據是一個比較抽象的概念,從字面上看,它代表了一個巨大的數據量。大數據是使用常用的軟件工具來捕獲、管理和處理數據,所耗時間超過一個可容忍時間的數據集合。大數據把大量的數據,通過快速收集、篩選、整合、處理與分析,獲得一個非常有價值的結論,以支持預期和服務決策。
1.2 特征
與傳統的數據相比,大數據具有獨特的特征,也被稱為“4V”特征。
1.2.1 大量化(Volume):在大數據時代,數據量以PB,EB,ZB等為存儲單位,數據存儲量大,計算量也很大。
1.2.2 多樣化(Variable):數據類型的種類繁多,不僅包含數據表一類的結構化數據,也有半結構化的數據如文本、網頁、圖像、視頻等信息,各種數據之間交互十分頻繁和普遍。
1.2.3 快速化(Velocity):數據生成,存儲和變化速度極快。
1.2.4 價值化(Value):數據正在成為一種新型的資產,是形成和提高競爭力的基礎,通過分析和大計算,它可以產生更多的價值。
1.3 區分數據庫和大數據
數據庫同大數據本質上是不同的。兩者在數據來源、數據處理與數據思維等方面有根本性區別:數據庫比較小,處理對象的基本單位以MB為多,而大數據的基本單位是GB、TB、PB等;數據庫通常只有少數簡單數據,大數據往往包含各種結構化、半結構化或非結構化數據;大數據的模式會不斷演變且在數據出現后才能確定,傳統數據庫只有確定模式之后才會有數據。
2 大數據應用
美國把大數據作為事關國家戰略和國家核心競爭力的問題,在2012年3月,奧巴馬政府推出了《大數據研究與發展倡議》,政府出資約2億美元啟動該方案。據美國咨詢公司ganner預測,2015年在全球創建了440萬個大數據工作崗位。
2.1 大數據來源
有三種:豐富的WEB數據庫資源配置;物理信息系統,如智能電網,智能城市;科學實驗和觀測數據,如生物數據,高能物理實驗數據和空間觀測數據等。
2.2 大數據處理的處理流程和處理模式
處理大數據是基于適當工具,根據一定的標準將對異構數據源提取和集成,再使用適當的數據分析技術,分析存儲數據和提取有用的知識,并把最終結果傳遞給最終端用戶。主要處理模式包括批處理和流處理兩種類型,流處理是直接處理,而批處理為先存儲再處理。
2.3 大數據在各行業中的應用
大數據的研究數據已被廣泛應用于推薦系統、商業智能、決策支持等許多領域。
2.3.1 對大數據深度分析,挖掘消費偏好和用戶行為,進而實現網絡優化和精準營銷。
2.3.2 進行大數據的分類、存儲、挖掘及決策支持,維持單位和部門日常的管理,抽調競爭優勢和促進可持續發展。
2.3.3 利用大數據分析與挖掘,發現隱藏的威脅,促進信息安全部門找到應對新的安全威脅的方法。
2.3.4 使用大數據來做出決策。在大數據時代,發揮計算機系統的數據分析和數據挖掘功能,可在很多領域做出科學的決策。
3 大數據面臨的挑戰
大數據為人們的生活和工作帶來便利,同時也面臨著嚴峻的挑戰。
3.1 數據預處理挑戰
數據數量的增加未必意味著數據價值同樣增加,因為往往會包含大量無用的數據。所以,數據的預處理是數據分析前要完成的工作。數據清洗過程既要過濾掉無效的信息,又不能濾掉有用的信息。
3.2 大數據時代的算法要做調整
大數據往往是實時的,需要調整算法來適應云計算的框架要求。
3.3 數據安全問題
數據安全威脅在大數據時代隨時可發生。大數據提供了一種新的網絡支持資源,通過網絡,恐怖分子可以入侵到生活的各個方面作,對社會安全構成潛在威脅。目前,我國對大數據的保護很有限,惡意使用數據的情況時有發生。
3.4 異質性問題
大數據時代,數據異構性要求數據集成中進行數據轉換,這是一個難以管理而又復雜的程。
3.5 大數據的存儲和處理能力的挑戰
大數據的數據量增長迅猛,存儲技術面臨新的挑戰。
3.6 大數據人才挑戰
大數據的質量將嚴重影響系統,并影響最終決策的準確性。麥肯錫的一項研究顯示,每年美國大約有14到19萬名數據科學家缺口。目前,我國能進行數據分析和數據挖掘的大數據人才更為奇缺。
4 結束語
大數據時代的到來,改變了我們對數據的理解和看法。如何在海量數據中提取和利用信息,提高其個人及部門決策能力,是擺在人們面前的重大課題。借鑒發達國家的先進經驗,培養大數據人才,構建大數據平臺,充分挖掘大數據的全面價值。這是我們面對的一項重要任務。
參考文獻
[1]林衛民.大數據促進教學的有效性[J].中國教師,2014.
[2]劉建偉,周楓.基于大數據的數字檔案館信息服務模式研究[J].云南檔案,2014.
[3]曹 遐,董亮.大數據商業世界新藍海[J].上海信息化,2013.
[4]許曄.大數據時代來襲 中國宜加緊布局[J].創新科技,2014.
[5]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1).