趙保華
(阿壩師范學院,四川汶川 623002)
大數據面臨的問題及挑戰
趙保華
(阿壩師范學院,四川汶川623002)
本文首先對大數據的定義及研究現狀進行了全面論述。同時大數據在存儲、數據安全、數據顯示也面臨各種各樣的問題。大數據在助推各個行業發展的同時也帶來嚴峻的挑戰。最后論文對大數據進行了簡單的展望。
大數據;挑戰;挖掘
隨著云計算、社交網絡等媒體技術的不斷發展,全球各種各樣的數據呈爆炸態勢發展。而數據的存儲單位也由曾經的B、KB、MB、GB、TB發展到了PB、EB、ZB、YB的級別,有關數據顯示,在過去幾年數據的增長量超過了原初幾萬年的數據累積總量,如此即對社會經濟的發展,企業或者組織的管理,以及社會個人生活產生了巨大的轉變推動力。面對跡近龐大的數據量,目前的數據處理軟件已經遠遠不能滿足時下大數據分析和處理工作的發展需求。同時又由研究可知,數據量越大,于其中可挖掘提取的價值也就越大,因此大數據中的問題和機遇始終并存。大數據是繼云計算之后IT界的又一次技術性革命[1]。本文即就這一課題內容展開如下完整全面論述。
1.1大數據定義
對于大數據,業界迄今仍尚未做出一個明確定義。麥肯錫將大數據定義為:無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合[2]。大數據來源于網絡交易數據,無法用現有的技術工具處理。作為已然形成的研究熱點,大數據有如下4個特征:數據類型多樣(variety)、數據處理速度快(velocity)、數據量大(volume)和數據價值密度低(value)。具體可作如下闡析:
1)數據類型多樣。即數據來源多種多樣,現有的數據大多都是結構化的數據,而大數據不但包含了結構化數據,還包含了半結構化和非結構化數據。
2)數據處理速度快。就大數據的分析和處理而言,隨著高性能計算服務的提高,每秒鐘業務處理的速度大幅提高。
3)數據量大。隨著網絡、手機等智能設備的推廣普及,關于人類行為的數據已達到了前所未有的爆炸式增長,目前數據即已達到了PB級別、甚至ZB級別。
4)數據價值密度低。即大數據本身所展現的價值密度非常低。比如監控,在連續若干小時間的監控數據之中,也許僅有幾秒鐘的數據才真正是有價值的。
1.2大數據研究現狀
1980年,大數據的概念思想即已獲得提出。在此后的幾十年,特別是最近幾年,人們對大數據的重視關注也在日漸增加,國際頂尖的學術期刊更陸續出版了關于大數據的系列文章。大數據不但在學術界掀起了研究熱潮,就是政府也對大數據給予了高度重視,例如奧巴馬政府即將大數據提升至戰略地位,助推了大數據研究工作的大范圍開展及成果實現。在國內,已有論文對大數據進行了綜合的討論,同時也對大數據未來提出了合理化建議。隨著大數據階段式研發的開啟與延續,與大數據相關的一些專著則越來越多,大數據正在影響和改變著人們的生活方式、思維方式和管理模式,而大數據的發展也必將帶來新的商業契機。
與傳統數據類似,大數據的處理也包括了數據存儲、數據有效獲取、數據分析和數據展示等技術實現步驟。相應地,大數據面臨的問題也蘊蓄其中。現給出詳細分述,具體如下。
2.1大數據的存儲問題
與傳統數據存儲不同,大數據均來自不同的地方,存放標準各有特色,而且數據類型也呈現為多種多樣,使得無法用結構化方式存放已有的大數據。同時,這些問題也增加了數據集成和整合方面的難度。實時性是大數據的一個顯著特點。所以關于大數據的存放設備也就必然對其實時性和吞吐率加以著重要求與特別考慮。
2.2大數據的獲取
大數據的獲取是指獲取大數據中的有用數據。大數據的核心對象就是數據,這些數據規模巨大,種類繁多,并且包含著頗具研究價值的實用信息,因此數據質量的好壞對大數據分析有著十分重要的影響。也有人提出了不必過于注重數據的質量,在大數據的分析過程中,允許出現少量的錯誤數據,但是若不對其加以限制,一定數量的錯誤數據即有可能導致分析結果完全相反。由此可知,數據獲取技術的效果提升也將在一定程度上促進了大數據的可見性應用研究發展。在實際應用中,并不是數據越多越好,而是要在大量的基礎資源中獲取有用數據,得到的有用數據越多,就有可能更為完備地描述事物的發展態勢。所以,大數據的關鍵就是從大量的原始數據中獲取有益的有用數據。對于傳統數據來說,以某種方式將這些有用數據聚合起來是一件非常簡單的事情,但是對于大數據來說,由于大數據種類繁多,而且又都是非結構化數據,所以在處理時要盡量獲取其中的有效數據,排除一些無關或者錯誤的數據。
2.3數據分析
大數據的核心節點就是數據的分析。大數據處理后的研究結論即是從對大數據的分析過程中得出的。就數據本身來說,這些數據并不具備明顯意義,只有將這些數據關聯特定的應用,并對其實施分析,才能使這些無用數據轉化成為有用數據。在分析大數據的過程中也存在著挑戰因素。數據越多,獲取的有用價值信息可能也就越多,但是數據在獲取價值信息的同時也將帶來干擾因素。所以在數據分析中必須著重考慮分析粒度,如果分析粒度太大,就無法達到理想效果;如果分析粒度太小,很多有用信息就可能會被過濾或排除掉。因此,在數據分析過程中,數據的質和量就需要進行綜合、統一的定制與權衡。
2.4展示數據
數據展示是獲得現實普遍關注的因素。傳統的數據展示就是將處理的結果以文本或者圖表的形式顯示在電腦上,這對少量的數據來說,是完美的解決方案,但是對于大數據來說,卻并不可行。大數據需要用到可視化技術來展示這些數據結果。數據起源技術或者人機交互技術[3],能夠生動描述對數據的分析結果,同時也能夠使用戶理解各類結果的由來。
2.5數據安全
和傳統數據一樣,大數據也存在數據安全的問題。在網絡傳輸中,大數據更易遭受攻擊,原因之一就是大數據包含了大量有價值的信息,從而使其更易成為攻擊焦點。大數據中也或許包含了個人信息,如果大數據泄露,對個人的安全也隨即構成了重大威脅。
3.1機遇
大數據的應用深刻影響著當下的商業模式。大數據是具有高額利潤的大市場,對其的成功運用,則能為企業或單位節省大量的資本。據麥肯錫測算,大數據的應用每年潛在可為美國醫療健康業和歐洲政府分別節省3 000億美元和1 000億歐元,利用個人位置信息潛在可創造出6 000億美元價值[4]。
大數據的應用為信息安全帶來了新的發展機會。大數據背后隱藏著巨大的價值,對數據安全要求極高,由此必將推動信息安全技術的現實迅捷發展,而且更會帶動眾多信息技術和安全產品的提升式進步發展。數據安全貫穿于大數據鏈中的各個環節,云安全技術的發展,即可會為大數據提供穩定安全保證。
綜上可知,大數據的發展必使促進商業的智能化向更高一級別的發展,也必將獲得云計算產業、商業智能化和信息安全技術的整體可見優勢發展。
3.2挑戰
大數據的發展在帶來了機會的同時,卻也在技術、安全和人才方面帶來了更大的挑戰。
大數據的技術解決方案包括了自然語言建模和處理、統計學、復雜數據的分析和處理等等,這些方面都需要專業的技術和管理人才來運作與支撐。從目前情況來看,國內IT人員缺口較大,與大數據的要求產生了巨大的沖突,因此大數據對我國的人才方面提出了嚴峻的挑戰。
另一方面,大數據對信息數據安全也相應提出了高端挑戰。在大數據時代,數據的隱藏價值較高,在數據的分析和共享中,數據信息的安全即已成為人們考慮與關注的重點。所有的數據都是存儲在云端,對于非法用戶和合法用戶難以做到明確區分,如何防止用戶信息遭遇非法篡改或竊取,則又是當下面臨的一個嚴重挑戰。同時,大數據中也具體包含了很多用戶個人信息和上網行為記錄,如何使得這些信息既可為人類服務、又要保證其不致出現非法利用,這也成為大數據時代致力于研究攻關的另一個重要難題。
利用大數據的挖掘分析技術,可以預測未來經濟走勢,由此將可規避不必要的運營風險。隨著各個行業對大數據的巨額投資,將會引來創新式的商業變革。在硬件方面,隨著大數據對實時吞吐的技術指標要求,將會催生一系列的硬件廠商的強勁發展。而在軟件方面,由于大數據對實時分析和挖掘技術的迫切需求,則將引發智能應用市場和挖掘技術的空前的繁榮發展。
不僅如此,隨著大數據的發展,大數據在各行各業的應用也將日趨廣泛。無論是政府單位、零售行業還是制造行業,大數據均將產生高度豐厚的社會價值和經濟價值。
首先,在政府方面,政府通過對大數據的挖掘和分析,能提高政府機構決策的正確性和科學性,同時也能夠大幅縮減政府的預算開支。提高政府決策的權威性,使國家未來遭受的經濟損失降至最低。通過大數據,還可以使政府單位部門進入更加透明、公開和公正。通過大數據的分析,政府能夠更加明確本國國民的意愿,而后據此提供更加貼切的服務,顯著提升人們的幸福指數。
其次,在零售行業,例如美國一些企業通過巨額資本投入,廣泛收集各個門市信息,并提升企業的數據分析能力,而后根據分析的結果再應用到實際銷售中,于是不斷擴大自己的市場,最終獲得了企業利潤的大幅增加,從而保障實現企業發展計劃追求目標。
第三,在制造業方面,傳統的以生產產品為主的模式已經不再適合大數據時代的多元發展,時下眾多企業已經領會了產品個性化定制的重要性,所以,制造業需要充分完善利用大數據,通過對大數據的提取分析,清晰掌握客戶需求,從而生產出符合客戶理想需求的產品,使企業立于不敗之地。
本文對大數據以及研究的現狀進行了完整論述,接下來即對大數據所面臨的問題進行了解析闡述。大數據在帶來挑戰的同時,也必將帶來各式各樣的機遇。隨著大數據時代的來臨,各行各業必將圍繞大數據展開新一輪的激烈競爭,各家企業均要從人才戰略儲備的高度、信息技術安全的角度把握大數據帶來的機遇,同時也要應對大數據帶來的各種挑戰,從而完成企業的潮流轉型和最優發展。
[1]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.
[2]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[3]李芬,朱志祥,劉盛輝.大數據發展現狀及面臨的問題[J].西安郵電大學學報,2013,18(5):100-103.
[4]CHEN Jinchuan,CHEN Yueguo,DU Xiaoyong,et al.Big data challenge:a data management perspective[J].Front.Comput.Sci.,2013,7(2):157-164.
[5]LEE Y,CHUNG W Y,MADNICK S,et al.On the rise of the chief data officers in a world of big data[C]//Information Quality and Data Science Initiative.[S.l.]:Massachusetts Institute of Technology,2012:1-4.
The problems and challenges of Big Data
ZHAO Baohua
(Aba Teachers College,Wenchuan Sichuan 623002,China)
In this paper,the definition of big data and research status are completely discussed firstly.At the same time,a variety of problems are also encountered in such aspects as big data storage,data security,data display.While boosting the development of various industries,big data brings serious challenges.Finally,the future prospect on large data are also provided.
Big Data;challenges;excavate
TP393
A
2095-2163(2016)03-0111-03
2016-05-09
趙保華(1968-),男,碩士,副教授,主要研究方向:計算機及應用、網絡技術、高校信息化。