霍夢蘭
【摘 要】大數據是繼云計算、物聯網之后信息領域的最新熱點,隨著全球數據量爆炸式增長,大數據時代已經來臨。本文首先對大數據的概念、特征及其相關技術進行了介紹,然后分析了目前大數據在發展研究過程中所面臨的問題和挑戰,最后提出了大數據時代的應對策略和發展建議。
【關鍵詞】大數據;關鍵問題;應對策略
21世紀,隨著網絡和計算機全面融入社會生活,人們每天都面臨海量信息,信息爆炸積累到了一個可以引發變革的程度,大數據正是這個時候出現的一個新概念。2011年6月,麥肯錫全球研究院(MGI)發布了題為《大數據:下一個創新、競爭和生產力的前沿》的研究報告,率先提出“大數據時代已經到來”,從經濟角度引發全球范圍對大數據的關注。隨后,2012年3月,美國的奧巴馬政府發布《大數據研發倡議》,宣布投資2億美元啟動大數據研究和發展計劃,這一舉措標志著美國把發展大數據提升到國家戰略層面,從而對未來的科技與經濟發展帶來深遠影響。目前,大數據像能源和材料一樣,成為一種戰略資源,受到日益廣泛的關注。如何利用數據資源發掘知識、提升效益、促進創新,使其為國防安全、政府管理、企業決策乃至個人生活服務,是大數據技術的追求目標。
在此背景下,本文簡要分析了大數據的概念和基本特征,并對其關鍵技術進行了介紹,然后重點分析了大數據時代所面臨的機遇、問題和挑戰,并針對這些問題,提出了應對策略和建議。
1 大數據的概念及基本特征
大數據,顧名思義是一個數據的集合,而且這個數據的集合特別大。和信息學領域大多數新興概念一樣,大數據至今尚無確切、統一的定義。在維基百科中,關于大數據的定義為“難以用常規的軟件工具在容許的時間內對其內容進行抓取、管理和處理的數據集合”;IDC對大數據的定義為“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值,而設計的新一代架構和技術”。規模大是大數據的標志之一,但大數據之所以難處理不僅在于規模大,更大的挑戰是其隨時間的變化快和類型的多樣性。
通常,大數據的基本特征可以用4個V來總結,即Volume(數據規模大)、Variety(數據類型多)、Value(價值密度低)、Velocity(處理速度快),具體如下:
(1)數據規模大(Volume)。即所需收集、存儲、分發的數據規模遠超傳統管理技術的管理能力。據統計,到目前人類生產的所有印刷材料的數據量約為200PB,歷史上全人類說過的所有的話的數據量大約是5EB(1EB=1000PB)。而當前,普通個人計算機硬盤的容量就為TB量級,一些大企業的數據量已經接近EB量級,可稱海量、巨量乃至超量,傳統的數據管理技術已經無法處理。
(2)數據類型多(Variety)。這種數據分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括微博、日志、音頻、視頻、圖片、地理位置信息等多種類型的數據,這對數據的處理能力提出了更高的要求。
(3)價值密度低(Value)。價值密度的高低與數據總量的大小成反比。大數據的價值密度很低,例如一段幾小時的連續監控視頻,可能有重大價值的數據僅僅只有一兩秒。因此,如何更迅速地完成數據的價值挖掘是目前大數據背景下亟待解決的難題。
(4)處理速度快(Velocity)。數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理;相應的處理工具亦在快速發展和演進。
大數據技術是指設計用于高速收集、發現和分析從多種類型的大規模數據中提取經濟價值的新一代技術和體系。其本質是一種數據分析的前沿技術,與傳統的海量數據處理技術不同的是,它除了數據規模呈現幾何級數增長的特征之外,還包括所有數據類型的采集、分類、處理、分析和展現等多個方面,從而最終實現從大數據中挖掘潛在巨大價值的目的。
解決大數據問題涉及數據存儲、合并壓縮、清洗過濾、格式轉換、統計分析、知識發現、可視呈現、關聯規則、分類聚類、序列路徑和決策支持等多個方面的技術。其中,關鍵的技術主要還是對海量數據的存儲和計算處理等,特別是對數據的分類,根據用途需求的不同,篩選出對于某一個領域某一個用途有意義、有價值的一系列數據,拋棄相對而言無用的數據。
2 大數據時代的問題與挑戰
作為一個新生領域,大數據概念提出以來,引起了業界和各國政府的高度關注,大數據理念和技術得到較為廣泛的研究和應用。但是,我們應該看到大數據有其兩面性:一方面它催生新型科技公司、吸納科技人才就業;許多大型科技企業抓住這一新機遇,紛紛投入巨資發展大數據處理技術,積極推出面向大數據的產品和服務,搶占大數據市場先機。另一方面它對人類的數據駕馭能力提出了新的挑戰。個人、企業甚至國家面臨個人隱私危機、重構信息安全、競爭力差距拉大、數據產權爭端等諸多矛盾,只有解決這些基礎性的挑戰問題,才能充分利用這個大機遇,讓大數據充分發揮的最大價值與貢獻。
2.1 技術問題
目前,大數據的運用還面臨多種技術難題,主要包括:大數據的去冗降噪技術;大數據的新型表示方法;高效率低成本的大數據存儲;大數據的有效融合;非結構化和半結構化數據的高效處理;適合不同行業的大數據挖掘分析工具和開發環境;大幅度降低數據處理、存儲和通信能耗的新技術等等。這些技術問題的復雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,而當前技術的技術還難以用傳統的方法描述與度量,處理的復雜度很大。
大數據對于現有系統的存儲、傳輸和計算提出了很多挑戰,現有數據中心技術難以滿足大數據需求,存儲能力的增長遠遠趕不上數據的增長,設計最合理的分層存儲架構已成為信息系統的關鍵,整個IT架構的革命性重構勢在必行。
2.2 觀念問題
數據增值的關鍵在于整合,但自由整合的前提是數據的開放。目前,數據的全社會開放與共享還很難,這讓數據質量大打折扣。在大數據的時代,開放數據的意義,不僅僅是滿足公民的知情權,更在于讓大數據時代最重要的生產資料、生活數據自由地流動起來,準確全面地應用起來,以推動知識經濟和網絡經濟的發展。然而戰略觀念上的缺失、政府機構協調困難、企業對數據共享的認識不足及投入不夠、科學家對大數據的渴望無法滿足等都是大數據在當前我國發展應用中不得不面對的困難。
另一方面,越大的數據并非就是越好的數據。對數據的盲目依賴會導致思維和決策的僵化。當越來越多的事物被量化,人們也容易陷入只看重數據的誤區里。如何避免成為數據的奴隸,也已經成為一個迫在眉睫的問題。
2.3 隱私問題
大數據時代,互聯網絡的發展使得獲取數據十分便利,給信息安全帶來了巨大的挑戰。當前,數據安全形勢不容樂觀。首先,隨著社交網絡和電子商務的興起,個人隱私更容易通過網絡泄露,將個人的相關數據足跡聚集起來分析,可以很容易獲取個人的相關信息,隱私數據就可能暴露。在國家層面,大數據可能給國家安全帶來隱患,如果在大數據處理方面落后,就可能導致數據的單向透明。因此,在大數據時代有效地管理隱私既是一個技術問題,又是一個社會問題,如何在推動數據全面開放、應用和共享的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大數據時代的一個重大挑戰。
2.4 社會生態
數據開放是社會管理創新的一種有效手段和助推器。一方面,通過數據開放,促進社會層面的制度創新,權力分散化,實現多中心社會;另一方面,與軟件開源相結合,數據開放可以實現大眾創新,讓普通公眾都擁有創新機會和條件,大數據時代的基本特征及安全挑戰,對政府制訂規則與監管部門發揮作用提出了新的挑戰。因此,大數據將對國家治理模式、企業的決策、組織和業務流程、個人生活方式都會產生巨大的影響,涉及與政治、經濟、社會、法律、科學等等的交叉影響問題,相關問題值得深入研究。
3 大數據時代的應對策略
針對上述大數據時代所面臨的問題,提出以下幾點應對策略和建議:
3.1 加強技術創新
針對大數據時代的基本特征,包括IBM、EMC、HP、Microsoft等在內的IT巨頭,紛紛加速收購相關大數據公司進行技術整合,尋找數據洪流大潮中新的立足點,涉及人工智能、機器學習等新技術的創新應用,已初顯效益。建議加大對大數據關鍵技術研發的資金投入,將大數據時代全方位創新工作與移動互聯網、云計算等技術進行融合,推動基于大數據的各種技術創新,搶占發展大數據技術的先機。
3.2 加強領域合作
加強各個領域之間的合作關系,加強企業商業智能、社會服務、市場營銷等各大領域的合作。同時,建立數據共享聯盟和多領域數據共享平臺,將數據共享將擴展到企業層面,使得企業服務于民眾和政府,政府推動企業的發展,激勵市場的需求。
3.3 加大人才培養
大數據的發展離不開人才的需求,大數據時代產生一批新的就業崗位,如數據分析師、數據科學家、數據工程師,具有豐富經驗的數據分析人才成為稀缺資源,加強大數據人才的培養也是大數據發展的重點之一。高校可以根據社會的需求培養具有大數據思維和創新能力的復合型人才,企業可以根據企業自身的需要對企業內部人員進行教育培訓,另外可以通過招聘引進一些具有大數據經驗的人士,引導員工職業發展,采用員工激勵制等,鼓勵員工不斷地學習提升自我。
3.4 增強數據安全
大數據使用的關鍵在于數據分析和利用,但數據分析技術的發展,對用戶隱私產生極大的威脅。因此,如何來保護大數據的安全是重要組成部分,可以通過以下幾個方面加強數據安全:一是制定相關法律法規。大數據的挖掘與利用應當有法可依,需要制定相應的規則和法律來保護公民和國家的信息安全,防止數據被非法交易、倒賣、竊取、泄漏或者纂改;二是改進數據安全相關技術。需要科研人員通過技術改進,不斷加強數據權限管理技術和數據加密技術,提高大數據下的數據安全。
4 結束語
隨著社交網絡、物聯網、云計算的飛速發展,非結構化數據呈指數級快速增長,大規模生產、分享、應用數據的大數據時代已經來臨。本文從大數據的概念出發,分析大數據的典型特征,討論大數據時代可能的面臨的核心問題和挑戰,最后討論了給出了初步應對策略和建議。
大數據已經成為目前廣泛關注且亟待解決的熱點問題,并逐漸開始影響社會的發展與人們的日常生活,只有正確認識大數據時代的價值,迎接大數據面臨的挑戰并及時應對,才能在大數據時代領域處于不敗之地。
【參考文獻】
[1]維克托·邁爾-舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2012.
[2]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013,34(2):10-17.
[3]胡雄偉,張寶林,李抵飛.大數據研究與應用綜述(下)[J].標準科學,2013,11:29-33.
[4]袁露,肖志勇,王映龍.論大數據的現狀及其發展研究[J].教育教學論壇,2014(44):86-87.
[5]鄔賀銓.大數據時代的機遇與挑戰[J].求是,2013,4:47-49.
[責任編輯:湯靜]