趙方亮 劉德路 趙學軍

摘要:2015年,國家印發《促進大數據發展行動綱要》以來,多個部門和省市出臺大數據相關政策,有的地方政府還設置了大數據管理部門,為大數據戰略實施營造了良好環境。現對大數據的概念、應用、挑戰等三個方面的相關文獻進行梳理和總結,為相關部門和政府充分實施與利用大數據提供借鑒和參考。
關鍵詞:互聯網;大數據;文獻綜述
中圖分類號:F270? ? 文獻標識碼:A
文章編號:1005-913X(2019)11-0134-03
一、引言
隨著數據獲取和計算機技術的進步,大數據已成為一種新的國家戰略資源,引起政府和社會各界廣泛關注。根據國際數據公司(International Data Corporation,IDC)統計和預測,人類產生并存儲下來的數據在2009年已達到0.8ZB,2013年就已突破4.4ZB。[1]數據總量仍快速增長,預計到2020年數據總量將突破44ZB,為2013年的10倍,到2025年可能達到163ZB。大數據已經滲透到各行各業之中,成為重要的生產因素,對人類必將產生重大而深遠的影響。Nature(2008)闡述了在數據驅動的研究背景下,解決大數據問題所需的技術以及面臨的一些挑戰。Science(2011)圍繞科研中大數據的問題展開討論,說明大數據對于科學研究的重要性。
鑒于大數據對經濟、社會和科技等領域擁有著巨大的價值,世界發達國家投入大量人力和財力,相繼制定了促進大數據產業發展的政策法規。2012年3月美國政府發布了《大數據研究和發展倡議》,投資2億以上美元啟動“大數據發展計劃”。2012年5月英國建立了世界首個非營利的開放數據研究所(The Open Data Institute,ODI),為英國部門、學術機構等方面提供“孵化環境”。2013年8月澳大利亞政府信息管理辦公室發布了《公共服務大數據戰略》,推動公共行業利用大數據分析進行服務改革,使澳大利亞在該領域躋身全球領先水平。2016年5月,聯合國的Global Pulse倡議項目發布報告,闡述大數據時代各國特別是發展中國家在面臨數據洪流的情況下所遇到的機遇與挑戰,同時還對大數據的應用進行了初步解讀。
我國政府高度重視大數據的研究與應用,2015年9月,國務院出臺了《促進大數據發展行動綱要》,系統部署大數據發展規劃,明確提出建設數據強國。2015年10月,黨的十八屆五中全會首次提出“實施國家大數據戰略”,將大數據上升為國家戰略。2017年10月,“數字經濟”寫入中央政府工作報告,黨的十九大報告提出了“建設數字中國”和“大數據和實體經濟深度融合”。從而掀起了全面開展大數據研究,推動大數據的技術應用,提升大數據領域的自主創新能力和核心競爭力,促進我國經濟轉型和經濟發展都具有重要的意義。
二、大數據的概念
全球著名的管理咨詢公司麥肯錫也是大數據研究先驅者之一,在其研究報告《大數據: 創新、競爭和生產力的下一個前沿領域》給出大數據的定義:大數據是指大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據對象集合。同時強調,大數據不一定要求數據量達到TB級別。國際數據公司(IDC)從四個方面描述大數據,即數據規模最大、數據快速動態可變、類型豐富和巨大的數據價值,具有這些特征的數據集合稱為大數據。維基百科(http: ∥en. wikipedia. org /wiki /Bigdata)給出的定義是在合理的時間內,無法通過現有軟、硬件體系結構對數據資料進收集、存儲和處理,并幫助決策者進行決策服務。[2]
大數據概念較為寬泛,除了具備數據量大外,還具有數據的多樣性,關鍵是利用信息技術和處理模式,無法在一個合理時間范圍內得到所需要的信息資源。既要關注大數據本身的特點,還要關注大數據具備的功能特性。
大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。[3]目前按照國際數據公司所提的“4V”模型描述大數據的特征,即容量大、類型多、速度快、價值高。
(一)容量大
當前數據正以前所未有的速度聚集和增長,數據存儲單位逐漸被PB、EB、ZB、YB所替代。在電商、社交網絡、能源、制造業和服務業等領域都已積累了TB級、PB級甚至EB級的數據量。
(二)類型多
大數據另一個重要的特征就是數據類型多樣化,數據存在形式包括結構化數據、半結構化數據和非結構化數據。2012年,非結構化數據占整個互聯網數據量的75%以上,相信在今后數據存儲方面仍然以非結構化數據為主。大數據時代數據分析的重點為非結構化數據的處理技術和模型研究。
(三)速度快
大量的數據快速產生,信息價值稍縱即逝。想要從高速、體量大的數據中獲取有效信息,必須配備高速的大數據分析處理器,滿足實時性需要,大數據分析主要包括在線分析和離線分析。
(四)價值高
大數據擁有大量有價值信息,通過提煉信息和數據分析,在無序數據中建立關聯可以獲得大量高價值的、非顯而易見的隱含知識,能夠在更高的層面和視角幫助用戶提高決策力,洞察未來創造出更大的價值和商機,對社會、經濟和科技等方面具有重要的戰略意義。
三、大數據的應用
新一代信息技術的快速發展、信息化程度的不斷提升、物聯網的廣泛應用等現象,體現了人類社會已經進入大數據時代,現在人們每天的衣食住行都與大數據相關。在大智移云技術的推動下,公用事業、市政管理、城鄉環境、健康醫療、社會救助、養老服務、勞動就業、社會保障、文化教育、交通旅游等領域沉淀了大量的數據資源,大數據技術會在越來越多領域得到廣泛應用,通過云計算、物聯網與大數據技術深度融合,對大數據進行采集、存儲、挖掘與分析,有效提升了大數據管理各個流程的技術水平,促進大數據應用成本減少和介入門檻降低。大數據將成為人類認識世界和改造世界、推動智能化的有效工具,大數據的未來發展空間將更加廣闊。
《促進大數據發展行動綱要》中提出了推動大數據發展和應用的總體目標:打造精準治理、多方協作的社會治理新模式;建立運行平穩、安全高效的經濟運行新機制;構建以人為本、惠及全民的民生服務新體系;開啟大眾創業、萬眾創新的創新驅動新格局;培育高端智能、新興繁榮的產業發展新生態。[3]
四、大數據的挑戰
大數據時代的數據總量快速增長,伴隨著對數據管理的巨大挑戰。通過對大數據管理流程的梳理,總結出大數據管理中正面臨著六個方面的挑戰,分別是專業化人才、大數據集成、大數據分析、數據安全性、軟硬件協同和管理易用性。
(一)專業化人才
大數據時代,組織需要大量既精通業務又能數據分析的人才(嚴霄鳳等,2013)。目前,美國面臨大數據管理人才、大數據經理人和分析師缺口近200萬人,在我國數據工程師也是稀缺人才,大數據對我國相關專業人才的培養模式以及現有人才的儲備提出了嚴峻的挑戰。
(二)大數據集成
大數據的廣泛性使得各類數據越來越多地分布在不同的數據管理系統中,便于數據分析所需而進行數據的集成。數據集成在大數據獲取過程中扮演著“融會貫通”的角色,可分為傳統數據集成和跨界數據集成。在數據采集過程中,由于數據可能來自于自治的數據源,因此難以確保數據的模式、模態、語義等一致。
(三)大數據分析
數據分析是用適當的統計分析方法對集成的大量數據進行分析,將其加以匯總和理解并消化,以求最大化地開發數據的功能,發揮數據的作用。大數據分析不是簡單的數據分析延伸,針對大數據規模大、更新速度快、來源多樣性、價值密度低等性質給大數據分析帶來了一系列挑戰(周鳴爭等,2018)。
(四)數據安全性
當今社會網絡化和信息化的快速發展導致數據爆炸式增長,數據的價值越來越重要,大數據隱私和安全逐漸被重視起來。數據安全主要包括兩個層面:一是數據防護安全,二是數據內容安全。美國“棱鏡門”事件引發世界各國對個人隱私和數據安全的高度關注。大數據在產生、獲取、傳輸及存儲等環節面臨著諸多安全風險,具有強大的數據安全與隱私保護的需求。因此,實現大數據安全性比以往安全問題更為棘手。
(五)軟硬件協同
一方面,硬件異構性帶來的大數據處理難題,因不同時期采購的不同廠商的服務器在系統運行和處理速度方面存在很大的差別,導致整個數據中心的各臺機器之間的性能存在著明顯的差異;另一方面,軟件系統都是依托在計算機硬件體系中,CPU的發展一直遵循著摩爾定律,且其架構已經從單核轉入多核,深入研究如何讓軟件更好地利用CPU多核心之間的并發機制。[4]新型非易失存儲器件的出現,給大數據管理系統帶來新的希望,閃存、PCM等新型硬件具有低能耗特性,這將給現有的大數據處理帶來一場根本性的變革,軟件將不受硬件的絕對限制。
(六)管理易用性
從數據集成到數據分析,直到最后的數據解釋,易用性貫穿整個大數據管理的流程,易用性的挑戰主要有兩個方面:一是大數據時代的數據量大,分析更復雜,得到的結果形式更加多樣化,大數據復雜程度已經超出傳統的關系數據庫。二是大數據已經廣泛滲透到人們生活的各個方面,很多行業都開始有了大數據分析的需求。但是這些行業的絕大部分從業者都不是數據分析的專家,在復雜的大數據工具面前,他們只是初級的使用者。復雜的分析過程和難以理解的分析結果限制了他們從大數據中獲取知識的能力。[4]
五、結論
隨著物聯網、云計算、Web2.0和移動互聯等技術的快速發展,各種應用產生的數據正快速增長,人類社會已經步入大數據時代,這個時代大數據已經成為我國重要的基礎性戰略資源,正引領科技創新和科研變革,通過對大數據的應用將創造出巨大的商業和社會價值。我國充分利用數據規模優勢,實現數據質量和應用水平同步提升,挖掘和釋放數據資源的潛在價值,有利更好發揮數據資源的戰略作用,適應世界各國在大數據領域所展開的新一輪競爭。
參考文獻:
[1] 徐 明.大數據時代的隱私危機及其侵權法應對[J].中國法學,2017(1):130-140.
[2] 周鳴爭,陶皖等.大數據導論[M].北京:中國鐵道出版社,2018.
[3] 國務院關于印發促進大數據發展行動綱要的通知[EB/OL].http://www.gov.cn/zhengce/content/2015-09/
05/content_10137.htm, 2015-08-31.
[4] 孟小峰,慈 祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(50):146-169.
[責任編輯:紀姿含]