王旭瑋
[摘要]通信運(yùn)營(yíng)商具有接入用戶的數(shù)量?jī)?yōu)勢(shì),擁有類型豐富的海量用戶數(shù)據(jù),尤以位置數(shù)據(jù)更具分析及結(jié)果應(yīng)用價(jià)值。本文通過分析位置定位、數(shù)據(jù)安全及大數(shù)據(jù)相關(guān)理論,建立基于位置信息的大數(shù)據(jù)安全應(yīng)用模型,為位置數(shù)據(jù)的分析及應(yīng)用提供理論參考。
[關(guān)鍵詞]位置信息 大數(shù)據(jù)挖掘 基站定位
引言:
伴隨云計(jì)算理論研究與實(shí)踐的不斷深入,海量數(shù)據(jù)存儲(chǔ)分析以及基于分析結(jié)果的大數(shù)據(jù)應(yīng)用案例日趨豐富。通信運(yùn)營(yíng)商由于擁有用戶規(guī)模優(yōu)勢(shì),可形成用戶基礎(chǔ)信息、行為記錄、位置數(shù)據(jù)等多類型的原始數(shù)據(jù)記錄,具備部署大數(shù)據(jù)分析及應(yīng)用的數(shù)據(jù)資源優(yōu)勢(shì)。而位置數(shù)據(jù)由于數(shù)據(jù)高價(jià)值性與敏感性并存的特性,導(dǎo)致各運(yùn)營(yíng)商基于位置信息的大數(shù)據(jù)應(yīng)用還處于理論研究與小范圍試點(diǎn)的階段,缺乏系統(tǒng)的理論研究基礎(chǔ)與完整的應(yīng)用推廣模型。
本文通過研究位置信息的來源、數(shù)據(jù)分析及安全保障措施等,提出基于位置信息的大數(shù)據(jù)安全應(yīng)用模型,為位置數(shù)據(jù)的分析及應(yīng)用提供理論參考。
一、位置數(shù)據(jù)的來源
通信運(yùn)營(yíng)商位置信息來源包括信令系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)、自有定位平臺(tái)及網(wǎng)管及日志系統(tǒng)等,具體包括:
1、采集自信令的定位數(shù)據(jù),如采集自MC、GB/IuPS、LTE等信令口的數(shù)據(jù)。通常為傳統(tǒng)的基于基站定位方式(LBS),目前較為成熟的為基于基站CELLID的定位方式。該項(xiàng)數(shù)據(jù)源提供基于COO、RSS、AOA、TOA/TDOA等算法計(jì)算出的用戶實(shí)時(shí)經(jīng)緯度數(shù)據(jù)。2、來自業(yè)務(wù)應(yīng)用系統(tǒng)的定位記錄為提取軟件記錄的用戶位置信息,該項(xiàng)數(shù)據(jù)包含LBS、A-GPS、WLAN等綜合定位后的用戶位置數(shù)據(jù)。3、自有定位平臺(tái)為綜合的定位信息為提取自專業(yè)定位系統(tǒng)產(chǎn)生的位置數(shù)據(jù)。4、網(wǎng)管及日志系統(tǒng)主要是基于通話、上網(wǎng)等行為,通過用戶通信行為的接入點(diǎn)信息而生成的用戶位置數(shù)據(jù)。
二、位置信息的分析
位置數(shù)據(jù)的記錄格式為經(jīng)緯度二維數(shù)據(jù),基于用戶位置數(shù)據(jù)可生成如下三類型分析數(shù)據(jù):
1、靜態(tài)數(shù)據(jù):即某一時(shí)間點(diǎn)內(nèi)的用戶位置數(shù)據(jù),可類比為用戶位置的拍照數(shù)據(jù)。該數(shù)據(jù)記錄為最原始的用戶位置信息。2、動(dòng)態(tài)數(shù)據(jù):即從時(shí)間軸維度記錄的用戶位置數(shù)據(jù),可類比為用戶位置的攝像數(shù)據(jù)。該數(shù)據(jù)形成用戶的軌跡數(shù)據(jù)、停留時(shí)長(zhǎng)數(shù)據(jù)等,為用戶位置數(shù)據(jù)的動(dòng)態(tài)反應(yīng)。3、二階動(dòng)態(tài)數(shù)據(jù):即對(duì)用戶動(dòng)態(tài)數(shù)據(jù)的二次分析后形成記錄數(shù)據(jù),包括常態(tài)化軌跡、非常態(tài)化運(yùn)動(dòng)軌跡、運(yùn)動(dòng)頻次記錄、頻次變化記錄、軌跡速度、區(qū)域密度動(dòng)態(tài)變化趨勢(shì)等。
大數(shù)據(jù)分析的分析建模以上述三類數(shù)據(jù)作為基礎(chǔ),建立分應(yīng)用場(chǎng)景的數(shù)據(jù)模型。
三、位置信息的安全保障
由于位置數(shù)據(jù)的高度敏感性,對(duì)于基于位置數(shù)據(jù)的大數(shù)據(jù)分析的安全保障措施必不可少,具體來說包括以下內(nèi)容:
1、位置數(shù)據(jù)與用戶信息解耦合:在原始位置信息采集以及記錄時(shí)對(duì)原始號(hào)碼通過加擾、模糊、數(shù)據(jù)聚合等技術(shù)進(jìn)行脫敏處理,解除用戶精確信息與位置信息的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)數(shù)據(jù)脫敏。2、位置數(shù)據(jù)與其他數(shù)據(jù)隔離:為避免通過多重?cái)?shù)據(jù)分析實(shí)現(xiàn)精確定位用戶的可能,位置數(shù)據(jù)的提取、采集及存儲(chǔ)需與其余數(shù)據(jù)嚴(yán)格分離,避免與其他數(shù)據(jù)的合并分析。3、做聚類數(shù)據(jù)分析避免個(gè)體數(shù)據(jù)分析:通過數(shù)據(jù)的聚合來避免個(gè)體數(shù)據(jù)的敏感性,數(shù)據(jù)的展現(xiàn)以聚類數(shù)據(jù)的形式展現(xiàn),避免個(gè)體屬性的展現(xiàn)。4、建立不同的數(shù)據(jù)安全域:建立高、中、低三級(jí)數(shù)據(jù)安全域,并嚴(yán)格限制低級(jí)別數(shù)據(jù)域與高級(jí)別數(shù)據(jù)域間的數(shù)據(jù)流向。5、建立安全數(shù)據(jù)傳輸通道:通話數(shù)據(jù)加擾、信道加密、數(shù)據(jù)水印等多種措施建立數(shù)據(jù)域間或域內(nèi)系統(tǒng)間數(shù)據(jù)傳輸?shù)陌踩ǖ溃苊鈹?shù)據(jù)的泄露。
四、基于位置數(shù)據(jù)的應(yīng)用模型
鑒于位置數(shù)據(jù)的敏感性,建立基于位置分析的大數(shù)據(jù)應(yīng)用模型應(yīng)以安全為首要原則,輔以多種技術(shù)措施,建立嚴(yán)謹(jǐn)、高價(jià)值、高效率的應(yīng)用模型。
本模型按照數(shù)據(jù)的產(chǎn)生、分析及應(yīng)用的流向,將應(yīng)用模型分為三個(gè)區(qū)域,高密級(jí)數(shù)據(jù)域主要為原始數(shù)據(jù)的產(chǎn)生及采集行為。該區(qū)域包括產(chǎn)生數(shù)據(jù)的原始系統(tǒng)、數(shù)據(jù)采集系統(tǒng)。該區(qū)域各子系統(tǒng)完成數(shù)據(jù)采集及用戶信息脫敏工作。
中密級(jí)數(shù)據(jù)域?yàn)閿?shù)據(jù)的存儲(chǔ)、分析區(qū)域,該區(qū)域主要完成原始數(shù)據(jù)的存儲(chǔ)、檢索、分析處理等工作。
低價(jià)值數(shù)據(jù)為基于分析結(jié)果的各類應(yīng)用。
各數(shù)據(jù)域間數(shù)據(jù)流向均為單向,即只建立較高密級(jí)的數(shù)據(jù)域向較低密級(jí)數(shù)據(jù)域的寫的權(quán)限,剔除較高密級(jí)數(shù)據(jù)域向低密級(jí)數(shù)據(jù)域的讀權(quán)限以及較低密級(jí)數(shù)據(jù)域向高密級(jí)數(shù)據(jù)域的寫權(quán)限。
五、結(jié)語
基于位置信息的大數(shù)據(jù)分析及應(yīng)用是實(shí)現(xiàn)運(yùn)營(yíng)商存量數(shù)據(jù)增值及變現(xiàn)的重要途徑,應(yīng)用結(jié)果對(duì)于社會(huì)生產(chǎn)、資源規(guī)劃以及經(jīng)濟(jì)運(yùn)營(yíng)等各領(lǐng)域的指導(dǎo)作用也不可忽視。建立具有高安全屬性的大數(shù)據(jù)應(yīng)用系統(tǒng),需綜合應(yīng)用互聯(lián)網(wǎng)、信息安全等各項(xiàng)技術(shù),通過不斷的工作實(shí)踐擴(kuò)展數(shù)據(jù)應(yīng)用的領(lǐng)域、提升數(shù)據(jù)應(yīng)用的安全性。