尹妙英
(對外經濟貿易大學,北京 100029)
數據的爆發式增長和社會化趨勢是導致大數據安全的本質原因,從1980年阿爾文·托夫勒提出“大數據”概念到2009年,大數據已成為炙手可熱的話題,截至2013年,大數據分析已成為當前和未來研究的重要方向[1]。大數據指的是無法用常規技術或工具對其進行處理、管理、分析和服務的大數據集合,是海量數據和計算機的完美結合[2]。大數據解決了海量數據收存、管理、計算、分析、應用的問題[3]。企業、政府和科學研究群體促進生成公眾數據集和數據共享[4]。這些數據包括文本數據(即結構化數據、半結構化數據和非結構化數據)、多媒體數據(如視頻數據、圖片數據、音頻數據)及多平臺數據(如通信、社交媒體網站、傳感器網絡、網絡物理系統和物聯網)[5]。Dobre在2014年報道,全世界每天大約產生2.5億億字節的數據,其中90%的數據是非結構化的[6]。Gantz曾推斷到2020年,將產生、模仿和消費超過40萬億千兆字節的數據[7]。與傳統數據相比,大數據含有大量的非結構數據且需要更多的實時分析。大數據的出現及發展促進了經濟的發展,提高了人們的生活水平,同時也帶來了新的挑戰。本文就大數據的應用領域、發展趨勢、安全問題和挑戰進行分析和展望。
2016-06,國務院發布《關于促進和規范健康醫療大數據應用發展的指導意見》,該文件指出健康和醫療大數據是國家戰略資源,大數據的改革可以提高醫療效率,推進醫療保健的深刻變革[8]。隨著國家政策的支持,我國的醫療健康大數據已涵蓋個性化健康管理和保障、醫療服務、醫療機構、食品安全等多方面數據集合。例如通過集合健康數據、生命體征的指標,形成個體化數據庫和電子健康檔案,并通過電子設備,隨時監控血壓、心率等生命體征指標,進行健康管理及疾病提示[9]。另外隨著個性化數據庫的共享,將提高疾病診斷的快速定位以及個體藥品不良反應等反復檢查。
金融行業在大數據應用方面具有天然優勢,金融企業積累了大量高價值的數據[10];金融行業資金雄厚,可以吸引到大數據技術的高端人才,也有能力采用大數據的最新技術[11]。銀行和金融服務公司利用大數據分析來區分欺詐行為和合法商業交易[12]。通過應用分析和機器學習,他們能夠根據客戶的歷史數據檢測其信用情況,以辨別其是否存在欺詐行為。如發現客戶有欺詐行為記錄,系統將建議立即采取行動,比如阻止違規交易等[13]。同時還可以根據數據集定義將客戶分成不同的客戶群,這些數據集可能包括客戶人口統計數據、日常交易以及外部數據等。然后根據客戶的細分市場,找出更適合他們的促銷和營銷活動。另外還可以進行精細化營銷以及風險評估等。
電信行業擁有龐大的數據資源。工信部統計數據顯示,2016年我國電話用戶高達15.3億戶。手機用戶每天產生龐大的話單記錄、信令數據、上網日志等數據。如此大規模的用戶導致運營商每天搜集的數據可達PB級[14]。目前大數據在電信方面的應用主要包括客戶關系的管理、網絡管理、優化和企業運營管理[15],例如提升網絡質量和網絡利用率,引導營銷方向等。
大數據與傳統數據相比主要差異概括為:數據量大,數據種類繁多,處理速度快,價值密度低。而大數據與傳統數據相比優勢為以下幾方面。
傳統數據需要通過人工獲取數據,且需要人工輸入數據,該操作會增加工作量,浪費時間且不能夠保證準確性。而大數據是直接通過儀器收集數據,減少工作量。例如交通數據,沒有電子記錄儀之前需要人工去記錄某個路段是否擁堵、擁堵時間、擁堵距離等,從而進行預測,但是突發狀況、交通事故沒辦法預測。而現在通過儀器記錄數據,不僅能夠實時記錄路況,而且還能進行預測接下來時間哪些路段擁擠、哪些路段暢通,方便人們進行路線選擇。
傳統數據的數據生成是為了某個目的而進行數據收集分析,而大數據是先收集記錄所有數據信息,而后為了某個目的對大數據進行數據價值挖掘,并且所收集的數據信息可以用于各個目的分析,而不用為了目的再去收集數據信息,即大數據的可挖掘性強。例如淘寶數據,通過用戶購買行為判斷用戶現狀,對于孕婦,可根據前幾次購買記錄判斷是否懷孕以及懷孕周期,從而根據不同周期推薦不同商品;另外商家還可以根據銷售記錄判斷是否熱銷,是否補貨,不同季節銷售不同商品等等。
Apache Hadoop、Spark等開源應用程序已經開始主導大數據領域,且這種趨勢將持續下去[16]。調查發現,截止2018年底,預計將有60%的企業運行Hadoop,且其使用量每年增長32.9%左右[17]。
2017年,通過對2 800名從事商業智能工作的專業人士調查預測發現,數據可視化和數據挖掘將成為一個重要趨勢。數據挖掘包括對數據及其之間關聯分析以及數據的展現方式[18]。因此,可視化模型作為數據轉化為可視化方式將成為一種趨勢。另外許多企業研究“歷史”大數據預測未來行為,同時目前最新的研究也為預測行為提供更多的價值,為企業發展方向以及定位提供有利支持。通過數據分析可以應用于互聯網中,例如提高零售、重塑醫療等。
機器學習是計算機的一種培訓過程,目前用于各種活動,比如實時廣告、模式識別、欺詐檢測和醫療保健等。未來,它將變得更智能、更快、更高效。廣告公司的業務發展總監Ronald Van Loon表示:“數字業務現在需要走向自動化”。機器學習算法從大量結構化和非結構化數據中學習,例如文本、圖像、視頻、聲音、肢體語言和面部表情,為機器開啟了一個新的維度,從醫療保健系統到視頻游戲和自動駕駛汽車,各種應用程序層出不窮[19]。另外機器學習還可以應用于教育行業、醫療保健、人工智能等。
隨著社會信息化和網絡化的快速發展,數據呈爆炸式增長,大數據時代已經全面開啟。大數據時代機遇和挑戰并存,其引起的安全問題同樣引人深思。大數據面臨的安全問題主要體現在以下幾個方面。
事實證明,大數據如果未被妥善處理,就會泄露用戶隱私。網絡犯罪分子可以通過大數據分析,預測用戶的行為和狀態[20]。目前數據的收集、存儲、管理、使用均不規范,用戶無法確定自己隱私信息的用途,且無法確定自己的隱私是否泄露,因此保護用戶隱私是大數據安全首要解決問題[21]。同時大數據運營過程中,可能會產生假數據。為了故意降低大數據分析的質量,網絡犯罪分子可以偽造數據并將其“傾入”到用戶的數據集中[22]。例如,制造公司使用傳感器數據來檢測生產過程中的故障,網絡罪犯就會侵入系統,讓傳感器顯示虛假的結果,比如錯誤的溫度。這樣,用戶就不會收到預警信號,錯過了挽救嚴重損害問題的機會。
數據來源或者數據的歷史記錄,使大數據安全變得更加復雜。因為大數據是一個巨大元數據的集合,它包含每一個數據項的信息。目前,數據來源是一個大問題[23]。從安全的角度來看,這是至關重要的,因為未經授權的更改源數據可能會產生錯誤的數據集,這將為收集所需的信息增加難度。同時無法跟蹤的數據源可能是查找安全漏洞和虛假數據生成案例根源的巨大障礙。
大數據安全審計有助于發現自身的安全漏洞,但很少有企業去做大數據安全審計[24]。因為處理大數據本身就有許多挑戰和顧慮,安全審計往往會加重這些挑戰。此外,缺乏時間、資源、專業人員,使得這種計安全審計更加不切實際。雖然大數據存在許多安全問題,但這并不意味著應避諱大數據,從此不再與它產生交集。我們應該做的是充分認識大數據安全問題,并盡力去戰勝它,構建一個更加安全的大數據時代。
大數據的優點是毋庸置疑的,但其仍存在一些急需解決的挑戰。一些是由大數據特性引起的,一些是由現有的分析模型和方法引起的,還有一些是由目前的數據處理系統局限性引起的[25]。目前對大數據挑戰的關注點主要集中在如何正確理解大數據定義,如何決策生成和收集數據類型,如何保護個人隱私,以及如何確保大數據安全問題等方面。但數據的復雜性為解決這些問題增加了難度,因此了解大數據的復雜性是亟待解決的問題,是解決大數據問題的關鍵。大數據帶來了許多挑戰和變化,只有不斷追蹤和適應變化,及時做出調整,才能處于不敗之地。