(山西鐵道職業(yè)技術學院 山西 030013)
隨著社會信息化程度的加深,越來越多的信息被數(shù)據(jù)化,每時每刻都產(chǎn)生著海量的數(shù)據(jù)。有來自機器產(chǎn)生的結構性數(shù)據(jù),包括各種信息系統(tǒng)的運行數(shù)據(jù),日志數(shù)據(jù),環(huán)境傳感器數(shù)據(jù)等;還有來自人類產(chǎn)生的非結構性數(shù)據(jù),包括語音錄音數(shù)據(jù)、圖片和視頻數(shù)據(jù)、各種形式的文字數(shù)據(jù)等等;這些數(shù)據(jù)在沒有“大數(shù)據(jù)”這個概念之前就已經(jīng)長期存在了,這些海量數(shù)據(jù)在被發(fā)現(xiàn)“有價值”的時候,越來越多的人關注到了它。很多企業(yè)和組織抓住了大數(shù)據(jù)所帶來的無限機遇,與此同時,個人或者組織的信息安全也很大程度遭受沖擊。
個人信息的數(shù)據(jù)收集無處不在,信息能夠使人們的生活更方便,但是使用這些數(shù)據(jù)的行為并不透明,導致人們的隱私受到威脅。個人作為用戶去使用商業(yè)公司或組織機構提供的服務時一般都會簽署類似免責聲明“具有法律約束力”的合同類條款,這些條款中一般會包括用戶協(xié)議、隱私政策、cookie 政策。同意這些協(xié)議后代表這些商業(yè)公司可以使用這些數(shù)據(jù)為用戶提供服務,大大小小的商業(yè)公司尤其是互聯(lián)網(wǎng)公司,在給人提供各種各樣的服務,每個人都是受益者,人們在生活中可以隨時隨地找到附近的共享單車;能夠隨時隨地在各個設備終端瀏覽自己的數(shù)字文檔、視頻;還能夠在雙手忙于開車的同時使用AI 語音助手得到自己想要的信息。與此同時,個人產(chǎn)生的信息將不可避免的上傳到這些互聯(lián)網(wǎng)公司。例如:提供共享單車的公司會得到個人用戶的位置信息,對應時間。提供云存儲服務的公司能夠得到所有用戶主動上傳到網(wǎng)絡的各種文字、圖片、視頻等數(shù)字資源。提供AI語音服務的公司會得到用戶所關注的關鍵詞、對應時間以及用戶的語音資料等。
在廣義上個人隱私數(shù)據(jù)需要符合四個要素:時間、地點、人物、事件。通過事件查看器可以查看一個操作系統(tǒng)中的系統(tǒng)日志等,在隱私保護時,只需要把其中的關鍵項屬性進行加密隱藏就可以起到保護的作用,所以對于個人隱私的保護在很多時候也是存在著這樣的思想:采取某些方式保護整體信息中的一部分屬性,那么大部分場景下就起到了保護整體隱私數(shù)據(jù)的作用。例如:去除四要素中的“地點”,屬于位置隱私保護;去除“人物”包括個人基本信息,屬于身份隱私保護;如果把“時間”“地點”“人物”的聯(lián)系進行消除操作,那么就可以起到行為隱私的保護。
在實際中還存在一個關鍵的因素,使個人隱私信息被大概率的暴露。隨著高性能智能化終端的大面積使用,商業(yè)機構和組織借助大數(shù)據(jù),能夠同步獲取用戶的實時位置,聲音,圖像;如果一個人在進行一個“超市購物”的事件,那么所有這個事件涉及的屬性包括支付金額,超市地點,銀行賬戶,消費類型也會同步上傳。這種監(jiān)控個人隱私的行為是不間斷無目的地進行的,就像視頻監(jiān)控一樣,一直不斷地產(chǎn)生大量的持續(xù)的數(shù)據(jù),只有發(fā)生了“事件”才會被重點保護。事實是,除了發(fā)生“事件”以外大量的連續(xù)性的數(shù)據(jù)也是屬于個人隱私的一部分,這種數(shù)據(jù)并不能受到良好的保護。這些數(shù)據(jù)有可能被上傳到服務公司,同時也容易成為網(wǎng)絡犯罪人員進行社會工程學的數(shù)據(jù)對象。
這些散亂的數(shù)據(jù)隨著時間的推移,可能會與其他數(shù)據(jù)聚合在一起作為一種數(shù)據(jù)資源不受控制的被第三方組織獲得并使用[1]。AI 的發(fā)展使得機器能夠對海量的大數(shù)據(jù)進行多維度精準分析。這能夠幫助機構從數(shù)據(jù)中提取有規(guī)律性,高關聯(lián)性的結構性數(shù)據(jù)。例如:如果在終端設備上使用Facebook 賬號訪問一個外部鏈接,那么所有的行為都可能被Facebook 關聯(lián)到用戶的真實身份信息上。Facebook 的8700 萬用戶數(shù)據(jù)被不正當泄露給一家政治咨詢公司Cambridge Analytica(劍橋分析),這家第三方公司使用這些數(shù)據(jù)用于2016 年總統(tǒng)選舉[2]。
個人和設備產(chǎn)生了大量的數(shù)據(jù),但是這些數(shù)據(jù)之外還有一種數(shù)據(jù)可能會成為潛在的風險。在2016 年9 月13 日舉行的“T11 2016暨”TalkingData 智能數(shù)據(jù)峰會上,TalkingData 提出“目前僅有20%的數(shù)據(jù)放在了互聯(lián)網(wǎng)上,80%的數(shù)據(jù)仍然游離在互聯(lián)網(wǎng)之外”。在80%的互聯(lián)網(wǎng)外數(shù)據(jù)中,有部分數(shù)據(jù)是可能會上傳到互聯(lián)網(wǎng)的,但是很大機會是作為垃圾數(shù)據(jù)游離存在的。例如:設備日常的日志數(shù)據(jù),用戶手機中被遺棄的照片、視頻、語音數(shù)據(jù)等。這類數(shù)據(jù)有可能被主動或非主動上傳到網(wǎng)絡。這些數(shù)據(jù)在經(jīng)過機構的處理后可以挖掘出很多組織需要隱藏或保密的信息。下面的一個實例可以說明“游離”的數(shù)據(jù)可以挖掘的信息內(nèi)容。
Twitter 用戶Doxsor 發(fā)布一張圖片顯示一輛軍用車輛(圖1)。一些解密愛好者使用OSINT(open source intelligence)方法對模糊照片進行分析。通過分析照片的特征位置可以找到9 個各點位的特征,第一步,通過最明顯的7 號位置的一個廣告類網(wǎng)址查到了一家拖車公司主要業(yè)務分布在歐洲境內(nèi);第二步,6 號位置的黃色車牌信息也可以作為一個子項圖片進行深度學習圖像識別車牌顏色,代碼格式,車牌內(nèi)容結構以及模糊部位比對后,從公開的歐洲車牌信息中可以發(fā)現(xiàn)屬于塞浦路斯和丹麥;5 號位置的“運輸”字樣作為很多國家通用的標識不能被采納。第三步,在主要信息中通過1 號位置軍用車輛的尾部結構特征可以找到型號為瑞典產(chǎn)CV90 步兵車,并且公開信息中知道這種車輛出口到世界多個國家;第四步,通過三號位的編號結構,對比進口數(shù)量最多的幾個國家(挪威,丹麥)之后,確定這個車輛屬于丹麥軍方;第五步,通過Wikipedia 公開資料查找到CV90 步兵車僅僅發(fā)放給了兩個單位以及駐地;第六步,在通過2 號位置的特征可以搜索到丹麥第二旅的徽章樣式對比。這樣就可以推斷出軍用車輛所屬單位及駐地。

圖1 圖例
要想進一步挖掘出“事件”中的重要信息,還需要在其他的信息點進行支持。分析人員接下來進行第七步,通過9 號位置的路邊陰影部分在車輛右側,結合背景中樹木的茂盛程度以及歐洲區(qū)域,得出結論車輛大致詳細行駛,公路方向大致西偏東;第八步,8 號位的電線桿頂部,類似于電氣化鐵路使用電線桿,推斷所在位置為一條與鐵路平行的公路;第九步,通過4 號位置的藍色路牌“-drup”結尾的地方,結合第六第七第八步得出的推斷,可以在地圖上定位在丹麥Vemmedrup 附近E20 公路,而CV90 可能前往的最近軍營是Slagelse的Antvorskov 軍營[3]。
這個實例中通過6 號位置定位“歐洲”;1 號位置定位“CV90 步兵車”;2 號、3 號及6 號位置定位“丹麥軍隊及駐地”;9 號位置定位“車輛行駛方向及公路方向”;8 號位置定位“在鐵路左側”;4 號位置定位“Vemmedrup 附近E20 公路”;所有信息結合推斷出“CV90 可能前往的最近軍營是Slagelse 的Antvorskov 軍營”。
通過以上實例可以看出一些“游離”的數(shù)據(jù)結合現(xiàn)有網(wǎng)絡中公開的各種信息數(shù)據(jù)資源,再經(jīng)過邏輯推理后是可以對機構和組織的隱私信息產(chǎn)生暴露威脅的。一些人可能處于好奇或者興趣偶然性的拍攝一些照片,主動或者無意間上傳到網(wǎng)絡中,使“游離”信息數(shù)據(jù)被一些組織機構所搜集。分析機構可以在前期使用大量測試數(shù)據(jù)通過卷積神經(jīng)網(wǎng)絡(convolutional neural network)模型進行人工智能深度學習。得到可以使用的模型,就可以輕易的應用到實際的類似照片信息挖掘中。再結合人工識別分析就可以得到“事件”中的重要信息。所以網(wǎng)絡內(nèi)外大量留存的“游離”信息數(shù)據(jù)可以對組織產(chǎn)生極大影響。
個人隱私信息范圍在實際生活中的界定是非常難的。商業(yè)公司在收集數(shù)據(jù)方面往往會超出其業(yè)務所需要的范圍,并且使用“免費提供服務”的名義去鼓勵使用者積極參與。在與用戶簽訂的數(shù)據(jù)信息授權協(xié)議中常常以“默認”、“隱藏”等方式讓其行為合法。在后續(xù)的信息數(shù)據(jù)使用方面,商業(yè)機構或組織對數(shù)據(jù)的收集過程,分析目的,存儲,轉移等行為都是在“黑盒”中進行的,這些行為對用戶是不透明的。4由于政府在公信力方面有天然的優(yōu)勢,所以可以讓政府主導把用戶的數(shù)據(jù)作為公共物品管理。未來社會,數(shù)據(jù)技術突破后,商業(yè)機構及組織可以在政府監(jiān)管下獲取由政府進行去敏感性的數(shù)據(jù)使用接口,數(shù)據(jù)掌握在政府主導的機構中,所有的商業(yè)組織沒有直接讀取原數(shù)據(jù)和存儲數(shù)據(jù)的權利,這樣能夠很大程度解決個人隱私數(shù)據(jù)被不正當使用的行為。
同樣的,“游離”數(shù)據(jù)也會在未來持續(xù)存在很長一段時間,在實行網(wǎng)絡實名制的今天,網(wǎng)絡審查制度能夠很大程度杜絕這些數(shù)據(jù)產(chǎn)生的后續(xù)影響,但是還需要在法治和宣傳教育方面著手,從源頭上杜絕掉這些有意產(chǎn)生敏感數(shù)據(jù)的行為。
大量數(shù)據(jù)分析技術的產(chǎn)生成就了大數(shù)據(jù)時代,為各個組織和個人提供了價值和方便,但是相對的缺乏監(jiān)管和信息安全意識也導致了各種各樣的隱私泄露和安全威脅。針對這些問題,政府應當加強對數(shù)據(jù)存儲、轉移、使用的監(jiān)管,同時要完善信息安全法律法規(guī),加大宣傳引導公民增強信息安全意識,維護網(wǎng)絡信息安全。