王珺 趙未未
摘 ?要:隨著科技及網絡的普及,大數據發展趨勢勢不可擋。但大數據也帶來了隱私弊病。文章將圍繞大數據所引發的行為分析問題進行探討。
關鍵詞:大數據;大數據來源;大數據存儲;行為分析
前言
隨著科技與網絡時代的到來,新型社交工具以及傳感器的大范圍使用,數據呈現急速發展的趨勢,大數據時代隨之到來。大數據(big data),是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。比較具有代表性意義的大數據定義為3v定義,即規模性(volume)、多樣性(variety)、高速性(velocity)。這里就大數據來源、存儲對于大數據所引發的行為分析存在的問題進行淺析。
1 大數據來源
隨著互聯網發展,各種信息發布平臺的不斷推出,數據產生方式發生了巨大轉變。由此,數據的規模、類型、模式與數據的關系處理方式以及處理工具發生了變化,完成了數據向大數據的轉變。
數據的產生方式經歷了運營式系統階段到用戶原創內容階段最終到感知系統階段的演變,即從被動到主動最終到自動的過程。
被動數據(運營系統階段)的產生與運營活動及數據庫的普遍使用密切相關,如超市購物的、醫院就診、學校教育等在想用數據庫中均會產生相關數據;進入web2.0時代,微博、騰訊qq等新型社交工具的產生以及手機、平板電腦等新型移動設備的出現不僅增加了數據產生客體人數,同時使得用戶主動提交自己的行為,并與自己的社交圈進行了實時的互動。因此,主動型數據(用戶原創內容階段)應運而生。而技術的發展,源源不斷的數據產生正式迎來了自動數據(感知系統階段)的時代。眾多機器所配備的連續測量和報告運行裝置,對公眾場合進行全方位監控的微小傳感器等都會自動地、時刻地產生大量的數據。這三類來源不同的數據共同推進了大數據的產生。
2 大數據存儲
在信息迅速增長的當代,數據的形式存在文字、圖像、音頻、視頻等多種形式,計算機也不再是單單用來進行科學計算的工具。多樣化的數據存儲使得數據存儲模式越來越復雜,應運而生的數據庫系統產生于20世紀60年代,以層次和網狀數據庫系統為開端,關系數據模型產生帶動了關系數據庫的發展。然而,隨著web2.0時代對網絡一致性、實時性要求降低,而讀寫要求極大提高,網絡關系數據庫雖使用通用的SQL語言且容易理解、易于維護,卻在互聯網數據膨脹的web2.0時代就已經在數據存儲和處理上顯得有些力不從心了。為充分實現海量數據按不同模式存儲、充分挖掘和利用,NoSQL代替關系型數據庫成為新的數據存儲主流方式。
大數據的存儲是一種數據先于模式的存儲方式,這使得大數據的存儲具有極大靈活性和可擴展性,例如,谷歌引以為傲的文件系統GFS和colossus,Mongodb數據庫等,都在大數據存儲效率方面表現出比較傳統關系型數據庫有極大的優勢。但NoSQL中并沒有嚴格的隱私保護機制,這使得網頁瀏覽者的瀏覽數據和位置數據等隱私極容易泄露。首先,在數據管理人員進行數據分析時,NoSQL并不存在關系數據庫及嚴格的訪問控制機制,這使得用戶隱私有一定可能性被竊取;其次,數據存儲程序又存在種種漏洞,用戶隱私極容易泄漏。
3 大數據分析行為導向
在互聯網發展步入大數據時代后,利用大數據為企業挖掘商業價值成了一種新的趨勢。通過瀏覽網頁過程中用戶的行為,分析出每個用戶的即時需要、潛在需要,來進行精準營銷,在節約資源和成本的前提下提高銷量、完善產品運營,進而挖掘潛在的商業價值,提升企業的競爭優勢。
用戶畫像(Persona)就是大數據分析行為導向的很好例子。用戶畫像是將用戶以屬性標簽的集合為形式制作的用戶虛擬代表。企業將頁面或用戶注冊中所包含的數據利用數據分析平臺進行處理,挑選有用的信息進行標簽化,這使得每一位用戶在網站運營的商家看來都好似看得到的實體。在互聯網的營銷競爭中,用戶畫像為企業提供了網絡用戶足夠多的信息基礎,這可以幫助企業快速找到精準的用戶群和用戶需求,以及更廣泛的反饋信息。例如阿里巴巴的高端APASS用戶畫像。如今的電子商務企業客源模式轉變,由最初的吸引新用戶的加入逐漸轉變為留住老用戶,在盡量節約成本的條件下,阿里正需要了解每一個高端用戶的“本身”,即客戶的社會屬性、生活習慣、消費行為等,利用這些信息進行廣告的精準投放。
然而,這樣的信息分析行為導向的方式并不是絕對安全的。首先,用戶在頁面的輸入有可能會被不良商家或網絡黑客所竊取,例如某人在社交網站上填寫并保存了一個表單,這樣的表單便會被存入網站后臺的數據庫,某一時刻便會被別有用意者所竊取和利用;其次,用戶瀏覽的網頁記錄是許多的“用戶標簽”,它們作為可以利用的用戶屬性,既是商家進行精確營銷的切入點,更是用戶私密信息泄露的突破口;此外,瀏覽網站時產生的地理位置信息為帶有商業目的的商家利用,也會成為網絡不安全因素。
有許多案例佐證,不正當目的的大數據分析會泄露隱私,這里以“棱鏡門”事件為例。2013年6月,斯諾登曝光了美國NSA自2007年就開始實行的棱鏡計劃(PRISM),根據棱鏡計劃,美國NSA能夠透過社交網站、電話公司或搜索引擎網站等窺測到大量個人聊天日志、存儲的數據、語音通信、文件傳輸、個人社交網絡數據,利用正在快速發展的超級計算機和幾乎完備的大數據分析方法,將看似不關聯的數據以超級快的速度加以歸納、計算與分析。雖然美國政府將這樣的大數據搜集的目的歸為反恐,但個人數據隱私的泄漏也是不可避免的。在日常生活中,每個人都避免不了用手機的數據連接功能,若利用不具備良好的隱私保護功能的手機進行數據連接上網時,會產生大量可輕易被獲取的個人數據,如地理位置信息、需求偏好或是行為動向的信息等。電子科技大學互聯網科學中心主任周濤教授介紹了公開的一項最新研究成果:某個手機用戶只要曾出現在4個基站的服務區,利用大數據模型,研究者就能把他從百萬用戶中區分出來,識別他的身份,準確率為95%。這樣的研究結論也證實了“棱鏡門”是現實可行且方便的。
4 結束語
大數據出現即應用帶來了諸多政治、文化及經濟效益。其公開性,高效性與個人隱私問題則存在了很大沖突。需采取有效措施,進行不同效應之間的折中處理,從個人層面、組織層面以及社會層面全面推進大數據隱私問題建設。
參考文獻
[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].2012.
[2]關作森,陳友,李偉基,等.淘寶客戶信息隱私保護的現狀分析與對策研究[J].2013.