張超
摘要:隨著互聯網時代的到來,云計算、認知計算、物聯網、大數據等概念層出不窮。其中大數據成為最熱門的領域,大數據應用已經從IT領域,進入到各個行業,例如政府報告、市場營銷等。究竟如何應用大數據,當前大數據應用中有哪些問題。本文嘗試分析大數據應用的技術體系,以及應用中的數據安全、隱私安全以及人力財力方面的潛在風險。
關鍵詞:大數據 數據庫 安全 隱私 獲取
中圖分類號:TN915.03 文獻標識碼:A 文章編號:1007-9416(2016)08-0234-01
隨著互聯網時代的到來,云計算、認知計算、物聯網、大數據等概念層出不窮。其中大數據成為最熱門的領域,大數據應用已經從IT領域,進入到各個行業,例如政府公共服務、市場營銷、科技研發等。美國政府最新發布的大數據計劃,更是將大數據作為美國拉動經濟發展的決定性機會。那么,究竟如何應用大數據,當前大數據應用中有哪些問題呢?本文嘗試分析大數據應用的技術體系,以及應用中的數據安全、隱私安全以及人力財力方面的潛在風險。有的風險,已經成為了威脅人民財產的問題,需要在大數據的收集和管理應用上加以防范。
1 大數據的概念
在It領域,大數據還沒有一個清晰明確的概念。國際咨詢公司麥肯錫是世界上首次應用并提出大數據的公司,之后商業領域和政府領域的應用越來越多。通常,大數據具有幾個核心特點。第一,是數據量巨大,第二,是數據種類多且非結構化,因此不能用傳統的數據分析軟件進行分析和解釋,第三,是數據價值密度低,即龐大的數據雖然展現了數據的全貌,但是有用和目前技術手段下能用的并不多。這三個特性,讓大數據區別于傳統數據。
2 大數據應用技術
大數據的應用,是圍繞數據獲取,數據集成,數據分析和解釋三個核心環節展開的。
在數據的獲取方面,當前主要的技術包括條形碼技術、傳感器技術,以及Web2.0技術。條形碼技術,給幾乎所有的物體,都可以潛入內在ID編碼,隨著物體的流動而不斷的產生新的跟蹤數據。
在數據的分析和解釋層面,目前的技術主要是數據庫系統,數據建模分析軟件。其核心工作是對數據進行清洗和篩選,將有用的數據結構化和信息化。在數據分析層面,A/B測試,聚類分析、集成學習等方式是常見手段。在大數據的解釋層面,技術專家一致努力讓大數據可視化,才能進一步的接近應用,目前常見的可視化手段有標簽云、宇宙星圖以及歷史流圖集中方式。
3 當前大數據應用中的潛在問題
大數據借助最新的科技手段,讓信息前所未有的得到有效收集,展現給人類新的圖景。但是如何更好的應用大數據,仍然面臨巨大的挑戰和潛在的風險與問題。
3.1 大數據的人力與財力投入問題
如前文所說,大數據通過先進的獲取手段,得到了數據的全貌。但是這些數據是種類繁多且非結構化的,這就給數據的分析和應用提出了巨大的挑戰。例如,以為同學使用校園一卡通,從大學一年級進入校園,到大四離開,每一次去圖書館,借還書,食堂吃飯,充值,參加考試,考試成績等,每天都在發生數據。而一名學生大學四年在校園內產生的數據量都是非常龐大的,更不用說所有的在校生。那么這些數據,如何保存,哪些有用,對于數據分析師來說,就是一個考驗。大數據的分析師,不僅要精通數學,統計學,還要理解機器和It技術。目前缺乏大數據分析技術人員,是各大It互聯網公司與政府相關部門的關鍵問題。
第二,龐大數據的儲存,是在數據應用之前必要的功課。雖然現在有云儲存的概念,但是最終所有的數據儲存,仍然依托服務器、硬盤、以及電力系統的基礎物理條件。這些物理條件,都需要投入大量的財力支撐。
因此,要推進大數據的應用,不論是政府還是公司,都需要投入巨大的人力和財力。這對于大數據自身的發展來說,是一個不小的負擔。
3.2 大數據時代的數據安全問題
在大數據時代,無處不在的傳感器、攝像頭,以及個體所持有的各種ID,例如手機號、銀行帳號、社交媒體帳號等,每天都產生大量的個人數據。這些數據中,不少都涉及到個人的財產、家庭狀況、行蹤等隱私信息。這些信息流入大數據,存在嚴重的安全問題。
第一,安全問題,大型互聯網或It公司自身的控制和職業道德。比如支付寶系統,支付寶幾乎掌握著用戶繳納水電費、消費習慣,當下行程,以及銀行賬戶各類信息。如此龐大的人群和如此重要的信息,我們也只能期待巨頭企業的職業道德良好,會管理好每一位消費者的數據,不會泄露或者為了商業目的出售我們的數據。但是,現代泛濫的騷擾電話和短信,就說明了信息的泄露已經出現。
第二,技術層面的瓶頸問題——如何有效的收集數據以及有效的處理數據。大數據是對事物最原始的全貌記錄,數據量規模很大,但是其中有用的信息非常少,因此,對于處理數據來說,數據并不是越多越好。如何提高數據中的有效數據是非常關鍵的。大量的數據中如果僅僅包含了少量的錯誤數據,對分析結果可能不會造成很大的影響。但是如果對錯誤數據沒有有效控制的話,大量錯誤數據的涌入很可能會得到完全錯誤的結果。
第三,各類數據在網絡中儲存和流動,如果被不法分子截獲利用,就會造成普通消費者的經濟損失。在支付寶開通理財業務后,就發生過黑客攻擊賬戶,竊取理財資金的惡性事件。
第四,很多公司的數據,例如客戶資料、員工資料,并非掌握在自己手中,而是委托給第三方的數據管理提供商。也就是很多公司的核心數據,不在自己手里,而是都在第三方手里。這個時候,這些公司的脆弱性和潛在風險就在提高。
總之,雖然大數據作為一個當今人盡皆知的概念,但是其應用仍然處在起步階段。如何更有效率的獲取數據、儲存數據、分析和解釋數據都在技術層面和管理機制層面存在潛在問題與風險。本文認為,大數據的應用人才不足與大數據應用管理監督機制,是問題的核心。從這兩個方面入手,培養大數據人才,并建立大數據應用監督機制,才能促進大數據的健康發展。
參考文獻
[1]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013(S1).
[2]陳水生.新公共管理的終結與數字時代治理的興起[J].理論導刊,2009(04).
[3]張蘭廷.大數據的社會價值與戰略選擇[D].中共中央黨校,2014.