位置服務大數據的分析處理方法與隱私保護
王曉艷
(黑河學院計算機科學與信息工程系,黑龍江黑河164300)
摘要:大數據的到來使得社會、科學、生活都發生了巨大的變革,當前基于位置數據服務所產生的位置大數據是大數據的重要研究問題之一。從位置大數據的背景出發,從位置大數據的概念、分析方法、隱私保護等三個方面對位置大數據的研究現狀進行了介紹。
關鍵詞:位置大數據;隱私保護;軌跡數據
作者簡介:王曉艷,碩士,講師,黑河學院。
文章編號:1672-6758(2015)07-0051-3
中圖分類號:TP311
文獻標識碼:A
Abstract:Big Data makes society science and life have taken place great changes. Location Big data is one of the important research problem of big data. Under the background of big data, the paper explained the concept of big data, the analyzing method and the privacy protection and the current situation of the big data study.
隨著社會信息化與網絡化的深入發展,各類數據也在以近乎爆炸式的方式在激增。據有關資料顯示每秒鐘大概有200多萬用戶在使用Google搜索引擎,至2014年底,微信用戶數量同比增長41%,達5億人,所產生的數據量每天超過3.6億。除此之外,銀行業、科技產業、社會服務業等行業也在不斷地產生新的大量的數據。2014年初國際數據公司發布報告稱,全球數字化信息的數量已達4.4ZB,同時這個數據正以每年40%的速度在增長。[1]世界上很多國家都已經宣布大數據時代已經到來,并都在采取發掘和利用大數據的方案和策略。
隨著大數據時代的到來,各種針對大數據的研究和應用也隨之而來。大數據給我們的生活帶來了很多便捷。利用對大數據的發掘分析也為商家提供了更有針對性或者說是個性化的營銷策略。大數據的安全和隱私保護問題也悄然而至。本文將從大數據的一個重要部分——位置大數據的角度分析其應用,并介紹相關應用研究技術和隱私安全技術的研究進展,并對未來的發展方向進行展望。
一位置大數據的研究背景
隨著移動通信網絡和移動定位技術(GPS)的發展,基于位置的服務(LBS)研究也得到了各類企業的重視,例如車聯網應用、手機定位等,這些應用一經推出就被廣泛使用。在智能手機普及的時代,只要你的手機可以聯網,那么利用GPS你就可以在任何一個陌生的地方在無需導游的情況下玩遍全城,甚至可以利用各種基于LBS的應用軟件達到吃住行一條龍的服務,相信讀者在這方面都深有體會。但是LBS絕不是僅僅為我們的日常生活帶來了便利,它也為我們的安全帶來了保障。美國的公眾安全網絡和我國的天網工程都是基于保護公眾安全而構建的。
隨著位置服務的不斷普及,大量的位置數據隨之產生。這些數據數量龐大、但卻“復雜而稀疏”,作為研究人員如何分析處理具有如此特點的位置大數據,成為一個亟需解決的問題。
二位置大數據的相關研究技術
1.位置大數據的相關概念。
(1)位置大數據的定義。含有空間位置和時間標識的地理和人類社會信息數據即為位置數據。[2]這里的空間位置既可以是準確的地理坐標,也可以是具有約定俗成的一些地名、方位等。這里的時間標識可以是具體的時間數值,也可以是上午、下午等人們都理解的時間名詞。
(2)位置大數據的分類。位置大數據可以根據標識信息種類的不同分為地理數據(如土地覆蓋類型、植被覆蓋率、水資源數據、行政界限)、軌跡數據(如各種導航數據、智能手機數據所產生的個人、群體或者車輛的軌跡數據)和空間媒體數據(能夠體現空間位置的數字化的文本、圖像、音頻等媒體數據)。
(3)位置大數據的特點。位置大數據具有典型的數據規模大、變化速度快、數據多樣性、價值密度低和處理速度快等特點。傳統的數據處理技術無法針對大數據進行高效分析和處理,因此近年來關于如何根據大數據的特點進行新的技術變革是學術界普遍探分析和研究的問題,而針對不能類型的大數據有派生出很多更為細致的研究方法和研究理論,下面就以位置大數據為例來探討。
2.位置大數據分析處理方法。
位置大數據的研究涉及到位置數據的采集、處理、計算、存儲以及可視化等一系列技術方法體系的有機結合。
(1)數據采集。根據位置大數據的特點建立滿足其需要(包括精度需求、空間環境的變化等)的數據傳感網絡,以實現位置數據的獲取。如地鐵售票系統、公交卡使用系統、高速公路收費系統等,通過諸如此類的途徑可以實現被動的收集大量用戶位置數據的目的。
(2)數據分析處理方法。位置大數據來源于多種不同的途徑,又由于位置大數據自身的特點使得這些數據集中往往存在著各種各樣的誤差甚至是錯誤,因此,在數據采集之后必須對數據進行預處理,包括數據過濾、數據完善、數據降維、數據離散化等方法,預處理后在用數據挖掘、機器學習等處理方法對位置數據進一步的深入處理和挖掘。對位置大數據處理的目的在于分析數據的精確性和數據間的因果關系,而旨在分析數據間的關聯性。
(3)數據計算和存儲。鑒于位置大數據的特點,可以考慮采用Hadoop等計算框架,建立流媒體、地圖數據、軌跡數據的高效時空索引和分布式分析技術,又由于位置大數據往往具有非關系型數據的特點,則應注重諸如Hbase、BigSQL、芒果數據庫等數據庫存儲技術的使用。
(4)數據可視化方法。在以往的數據處理過程中在顯示其處理結果或者是數據發展趨勢時,常規的方法是利用統計圖來展示,但由于位置大數據規模大、多樣化等特點導致常規的方法無法準確的模擬其發展態勢,因此需要借助一些專門的數據可視化方法來進行展現。如泛在地圖、虛擬現實等。

圖1 位置大數據分析模型
三位置大數據的隱私安全
1.位置隱私保護產生背景。
盡管對于位置大數據的研究與利用已經為人們的生活、國家相關方略政策的制定帶來了顯著地效果,但是現實就是一把雙刃劍,有喜就有憂。在用戶向服務器端發送位置信息的過程中,一些惡意的攻擊者很有可能截取用戶的位置信息,而在服務器端對處理后的信息發布后,惡意的攻擊者也有可能會根據所掌握的背景知識分析出信息的來源也就是用戶的位置,這就引發了研究人員對于位置大數據隱私保護問題的關注。
針對關系型數據庫的隱私保護已經提出了大量的方法如k-匿名、l-多樣性以及通過它們而研究的一些改進算法。然而這些方法不能直接應用在位置大數據的隱私保護中,主要有以下原因:位置隱私保護需要在用戶的位置信息傳送到位置服務器之前就進行保護;位置隱私要保護的不是用戶查詢的信息而是用戶的位置信息,如用戶在使用百度地圖查找附近的公交站時,用戶的查詢信息是公交站點,而我要保護的是用戶的準確位置信息;對于普通數據庫來講在某一時刻數據數據可以看做是靜態的,而針對位置服務所產生的數據和查詢卻是在不斷地變化,因而針對位置大數據需要研究出適應其特點的隱私保護方法。
2.位置隱私保護。
位置信息一般由標識信息和位置信息組成,標識信息用來描述用戶的具體屬性和特征,可以唯一標識一個用戶;位置信息則表示該用戶當前所處的某個具體位置或者是某個時間內的行蹤。(注意,文中所說的用戶可以使單個個體用戶也可以是團體用戶。)

圖2 位置隱私保護體系結構
位置隱私保護的目的是阻止用戶的位置信息被他人獲取。針對用戶在某一時刻的位置隱私保護方法分為兩類:一類是用戶向服務器提交服務請求時,由移動客戶端向服務器提供準確的地理位置信息,但是隱藏用戶的真實標識信息,這種方法服務器可以根據位置信息向用戶提供高質量的位置服務;相反的,第二類是將用戶的標識信息不加隱藏的傳遞給服務器,而將位置信息進行模糊化處理后提供給服務器,也可以達到位置隱私保護的目的。這兩類方法都是針對用戶在某一時刻的隱私保護,而位置數據的一個特點就是變化速度快,所以基于軌跡隱私的保護也是位置隱私保護的一個重要方面。
3.軌跡隱私保護。
前面的隱私保護都是假設在用戶向服務器發送請求信息的過程中,攻擊者不回截取信息,現在我們假設攻擊者可以截取,并通過在不同時刻截取的信息進行分析,從而無論是屏蔽標識信息還是模糊位置信息,攻擊者都可以通過用戶的行動軌跡判斷出用戶在這一時間段內所處的位置范圍,也就是位置隱私泄露。當惡意攻擊者獲取了用戶的位置隱私后會帶來嚴重的后果,如掌握了默認的行蹤可能會給綁架者帶來可乘之機。所以換句話來說,軌跡隱私保護是保護用戶的行蹤不被惡意攻擊者所掌握,隱藏的是用戶在敏感區域內活動的軌跡信息。
針對軌跡隱私保護問題文獻[3][4]中提出了的“靜默區域”的方法,即在鄰近的用戶之間構造混合區域,在進入該區域前后令同一個用戶使用不同的ID,在進入該區域后,所有的用戶在此期間都不向服務器發送任何服務請求信息,那么在此區域無論是服務器還是攻擊者都無法獲得用戶的位置信息,從而增加了將用戶的兩個或以上臨近位置信息連接起來的難度,從而達到了軌跡隱私保護的目的。
通過實驗可以證明,利用混合區域可以有效地保護用戶的軌跡隱私,但是由于用戶在混合區域沒有任何通信,將導致通信時隙的損失,進而導致通信質量的下降,因此此種方法不適用于對通信質量要求高的應用,目前已經有人在此方法的基礎上進行了改進,提出了改進的“靜默區域”[5]方法。該方法可以從時空兩個角度對用戶信息進行匿名處理,既要控制用戶在混合區域的延遲時隙,還要控制用戶的匿名程度,達到軌跡隱私保護的目的,又不會降低通信服務的質量,從而實現了對用戶軌跡隱私更強而有力的保護。
四總結與展望
本文針對位置大數據的研究背景、相關概念、分析處理方法以及位置大數據的隱私安全等問題進行了闡述,并對在位置大數據處理分析、隱私保護等方面的流行方法和技術進行了介紹,旨在為初學者提供關于位置大數據研究的參考。
大數據時代用戶的位置信息可以來自多種領域,通過多種渠道而被采集。通過對位置大數據的分析處理可以為人們的生產、生活、企業的商業運作以及科學研究等方面帶來巨大的便利和收益,然而,由于位置信息中蘊含了用戶的標識信息和位置信息,通過對這些信息的分析就可以掌握用戶的行為習慣和敏感信息,為人們的隱私安全帶來威脅。因此當前對位置大數據的研究主要有兩個方向,一個是基于位置大數據的分析處理研究,另一個是基于位置大數據的隱私保護研究。目前這兩種研究都取得了一定的進展,但是,位置大數據的研究仍然處于新興領域,尤其是位置大數據的隱私保護研究,仍有大量問題需要深入細致的研究。
參考文獻
[1]全球數字化信息的數量6.16ZB:從9個數字看2014年的大事[DB/OL]. http://tech.163.com/14/1230/16/AENO7RF400094ODU.html.
[2]劉經南,等.位置大數據的分析處理研究進展[J].武漢大學學報,2014,39(4):379-385.
[3]Huang L, Matsuu ra K, Yamane H, etal. Enhancing wireles socation privacy using silent period[C]. IEEE Wireless Commu nications and Netw orkin g Conf erence.NL, U. S., 2005.
[4]Huang L, Mat suu ra K, Yamane H, etal. Tow ards modeling wirelesslocat ion pri vacy[C]. Privacy Enhancing Technology. Cavtat, Croatia, 2005.
[5]Huang L, M at suu ra K, Yamane H, etal. Silent Cascade:Ehancing Locati on Privacy Withou t Comm unicat ion QoS Degradation[J]. SPC, 2006:165-180.
Analyzing and Processing Method and Privacy Protection for Big Data of Location Service
Wang Xiaoyan
(Department of Computer Science and Information Engineering, Heihe University, Heihe, Heilongjiang 164300, China)
Key words:big data of location; privacy protection; trajectory data
Class No.:TP311Document Mark:A
(責任編輯:蔡雪嵐)