何博宇 潘洪志



摘要:隨著大數據技術的迅猛發展,位置軌跡數據的廣泛應用為經濟和社會帶來了巨大的價值。然而,在大數據環境下,位置軌跡的存儲涉及用戶隱私和數據安全等關鍵問題。為了解決傳統存儲系統在面對大規模數據和隱私泄露等挑戰時的不足,文章研究和實現了一種安全的位置軌跡存儲系統,提出了一個安全存儲的架構,包括數據采集、存儲、訪問控制和加密等模塊,旨在分布式存儲環境下實現高效且安全的位置軌跡管理。通過實驗評估,文章驗證了系統在性能、安全性和隱私保護方面的有效性。結果表明,與現有系統進行對比,新系統在保護用戶隱私方面具有顯著優勢。
關鍵詞:位置軌跡;用戶隱私;數據安全;存儲系統;訪問控制
中圖分類號:TP31 文獻標識碼:A
文章編號:1009-3044(2024)10-0077-04
0 引言
在當今數字時代,大數據技術的迅猛發展使得位置軌跡數據成為大規模應用領域的重要組成部分。隨著移動設備和傳感器技術的普及,個體的位置信息不斷被記錄和傳輸,為城市規劃、智能交通、個性化服務等領域提供了豐富的數據資源。然而,大數據應用的不斷深入對位置軌跡的存儲、管理和分析提出了更高要求,特別是在涉及用戶隱私和數據安全的情況下。傳統的位置軌跡存儲系統在面對大規模數據、隱私泄露和數據安全等方面面臨諸多挑戰[1]。位置數據的集中存儲往往成為潛在的隱私泄露點,而傳統系統的安全性機制在大數據環境下顯得愈發不足以應對多變的威脅[2]。因此,為了更好地平衡大數據應用的需求與用戶隱私的保護,本研究致力于提出一種全新、高效且安全的位置軌跡存儲系統。
通過對相關工作的深入研究,我們發現現有系統在位置軌跡安全存儲方面存在一些不足,包括對隱私的忽視、安全性機制的薄弱以及在大規模數據處理方面的性能等問題[3]。鑒于此,本研究旨在設計一種新型的位置軌跡安全存儲系統,以彌補現有系統的不足,實現對用戶隱私的更全面保護,并確保數據在大規模環境中的高效存儲和管理。本文將詳細介紹系統的設計和實現過程,并通過實驗驗證其有效性。這一研究將為大數據環境下位置軌跡存儲的安全性提供新的思路和解決方案,對于推動大數據應用的發展、維護用戶隱私權具有重要的學術和實際價值。
1 相關工作
位置軌跡數據的存儲和安全性問題在大數據環境下備受關注[4]。傳統的位置軌跡存儲系統,如Ha?doop Distributed File System(HDFS) 和一些關系型數據庫系統,盡管在大規模數據處理方面表現出色,但它們在隱私保護方面存在局限[5]。這些系統通常缺乏針對位置數據的細粒度訪問控制和匿名化技術,導致隱私泄露的風險上升。為了解決位置數據的隱私問題,研究者提出了一系列隱私保護技術。差分隱私技術通過在數據中引入噪聲來保護隱私,但其在大規模數據環境下的應用效果仍存在爭議。同態加密技術能夠在數據加密的同時進行計算,但其性能開銷可能限制其在大數據場景的實際應用。在分布式存儲領域,一些系統如Ceph和GlusterFS提供了強大的分布式存儲能力[6]。然而,這些系統在位置軌跡數據的安全性和隱私保護方面未能提供足夠支持,缺乏對用戶隱私的細粒度管理和多層次加密等關鍵特性。隨著大數據應用的廣泛發展,一些國家和地區制定了涉及隱私保護的法規,例如歐洲的通用數據保護條例(GDPR) 和美國的《加州消費者隱私法案》等,對位置數據的合法收集和處理提出了更為嚴格的要求,為研究位置軌跡安全存儲系統提供了法律框架。
盡管已經有一些關于位置軌跡數據存儲和隱私保護的研究,但現有工作在安全性、隱私保護和大規模數據處理方面仍存在不足。本研究旨在借鑒和改進現有工作,設計一種更為全面、高效的位置軌跡安全存儲系統,以適應大數據環境下的復雜需求。
2 面向加密的軌跡安全存儲的系統總體框架設計
傳統數據存儲模型采用集中式存儲結構,數據存儲在單一的高端服務器上。這種架構的擴展性有限,隨著數據量的增長,性能和容量瓶頸問題越來越突出。而分布式存儲系統將數據分散存儲在多臺獨立的x86服務器上,通過通用的存儲協議對外部提供多種存儲接口。這種架構使用若干臺存儲服務器共同分擔存儲壓力,采用IP和IB網絡結構,不僅提高了系統的穩定性,也適應了互聯網數據量增長的趨勢。因此,本文選擇分布式存儲模型來存儲位置軌跡數據,并構建系統總體框架,如圖1所示。
此框架中,用戶通過客戶端向外部發出請求。當正常建立連接后,客戶端發起的相關數據操作會發送到資源調度中心。資源調度中心解析這些請求,并將任務調度到控制節點,再由控制節點下發作業給計算節點執行。這些節點會運行MapReduce作業,計算完成后,通過資源調度中心與HDFS文件系統交互,確認是否有作業要求存儲。HDFS通過在多個服務器上分布式地存儲大文件的數據塊,每個數據塊會有多個副本分散存儲在不同的節點上,以確保數據的持久性和容錯性。在計算節點中,該系統可以運行相關差分隱私算法,在數據聚合或分析過程中加入噪聲,根據數據類型和隱私需求選擇合適的噪聲,以確保其既有效又符合預期的隱私標準。
3 系統詳細設計
3.1 系統拓撲結構
為了滿足大數據環境下大量數據存儲的高可用性,該系統采用了樹型模型作為網絡拓撲結構。該結構中各節點均支持動態增刪節點,當某一控制節點出現故障時,只會影響該節點及其子節點,不會影響其他分支節點的工作。由于故障較易隔離,因此采用此拓撲結構易于管理維護,如圖2所示。
在圖2中,資源調度中心負責將作業下發到控制節點。控制節點根據服務器資源環境對計算節點進行集群安排以完成作業。整體結構呈現為樹型模型,這種結構無須對網絡進行任何改動即可擴充工作站。在系統運行過程中,資源調度中心會監控各節點的資源情況,并根據分類將作業輸送到相應的控制節點。針對不同業務需求,系統生成相應的作業命令,以達到預期的存儲效果??刂乒濣c作為拓撲結構中的重要組成部分,除了負責監控節點資源和下發作業外,還具備數據處理后調度HDFS存儲數據的功能。根據用戶的需求,控制節點能夠實時反饋進度,具有較高的可用性。
3.2 系統描述
本系統采用樹狀分布式存儲架構,由多個節點構成,每個節點均負責存儲和處理位置軌跡數據。通過引入元數據服務器來協調各節點的工作,實現對位置數據的全局視圖和元數據的可追溯性。數據存儲依賴于HDFS的Block存儲機制,采用分塊存儲的方式來確保數據的安全性。通過數據壓縮、去重和脫敏等技術,高效的數據采集和預處理模塊在降低數據體積的同時保護敏感信息,確保數據質量和隱私安全。系統引入了基于角色的訪問控制和細粒度訪問控制機制,結合訪問令牌和身份驗證技術,確保僅授權用戶能夠訪問特定的位置軌跡數據。同時,通過應用同態加密和差分隱私技術,系統在數據傳輸和存儲過程中保護了位置數據的隱私性并降低了其敏感性。系統通過并行計算、負載均衡和分布式緩存等技術優化了性能,具備良好的可擴展性,能夠輕松應對不斷增長的位置軌跡數據和用戶數量。總體而言,本系統設計充分考慮了隱私保護、性能優化和可擴展性等因素,為大數據環境下位置軌跡的安全存儲提供了全面有效的解決方案。
3.3 系統實現
系統實現過程包含架構設計、數據存儲設計、位置軌跡數據采集與預處理、訪問控制和加密、性能優化和可擴展性、元數據管理等步驟。
1) 架構設計。系統采用樹狀分布式存儲架構,由多個節點組成,每個節點負責存儲和處理位置軌跡數據。同時,引入元數據服務器,用以管理位置數據的元信息,并協調分布式系統中的各個節點。
2) 數據存儲設計。數據存儲主要依賴于HDFS的Block存儲機制,通過分塊存儲實現對位置軌跡數據的安全存儲操作。每個節點能夠有效管理自身分配的存儲空間,并實現數據的冗余備份,以確保數據的安全性。
3) 位置軌跡數據采集與預處理。系統實施高效的數據采集模塊,從多個源頭收集位置軌跡數據。通過數據壓縮、去重和脫敏等預處理技術,降低數據體積,同時保護敏感信息,確保數據質量和隱私安全。
4) 訪問控制和加密。引入基于角色的訪問控制(RBAC) 和細粒度訪問控制機制,允許管理員對用戶進行權限管理。采用訪問令牌和身份驗證技術,確保只有合法授權的用戶能夠訪問特定的位置軌跡數據。同時,使用同態加密技術對位置數據進行加密處理,并結合差分隱私技術,提高隱私保護水平。
5) 性能優化和可擴展性。通過并行計算、負載均衡和分布式緩存等技術,優化系統性能,確保系統具備良好的可擴展性,能夠輕松應對不斷增長的位置軌跡數據和用戶數量,保持高效運行。
6) 元數據管理。實現元數據服務器,存儲位置數據的元信息,包括數據的所有者、訪問權限等信息。通過元數據管理,實現對位置軌跡數據的全局視圖和元數據的可追溯性。
4 系統測試結果與分析
物理機采用Intel(R) Core(TM) i7-10700K CPU @3.8GHz,擁有32GB 內存,運行64 位Windows 操作系統,其上裝有9臺CENTOS 7.9.2009虛擬機(Py3.7.9) ,每臺虛擬機配置為2核CPU、1GB內存。本次實驗測試主要是通過Hadoop集群環境模擬,對比在實際環境下傳統存儲方式與利用MapReduce對位置軌跡數據進行差分隱私保護的分布式存儲在存儲效率和數據安全性的差異。實驗數據來源于美國聯邦公路局的NGSIM數據采集項目,作為數據源模擬Hadoop分布式文件系統HDFS的基本操作。在數據存儲過程中,會創建存儲目錄,讀取給定數據源的數據,并將文件數據分割成若干塊進行存儲,每塊的大小由文件大小除以節點數量得出。此外,考慮到噪聲大小對數據的影響可能會干擾測試結果,我們通過對原始數據轉換數組后為每個元素添加拉普拉斯噪聲,并引入動態函數,結合數據的字段數量動態調整噪聲大小值,即由epsilon參數控制。
4.1 測試結果分析
1) 存儲效率對比。實驗通過對比傳統存儲方式與差分隱私分布式存儲的效率,相關測試結果如圖3 所示。
通過隨機抽查,本文對六臺服務器進行測試,在給定相同數據量的前提下,對比了傳統集中式存儲和HDFS分布式存儲的性能。本文利用后臺日志數據,計算了兩種不同架構對額定數據量的存儲處理時間,并進行了對比分析。在實驗中,前兩組服務器進行了單文件存儲測試,而后四組則進行了多文件存儲測試。實驗結果表明,在額定數據量下,HDFS分布式存儲的應用效果更佳,顯著提升了存儲效率,符合系統開發性能要求。
2) 數據安全性對比。實驗測試的主要目的是驗證HDFS+Laplace架構在存儲效率相較于傳統存儲更優的情況下,其數據隱私保護的效果,實驗結果如圖4 所示。
實驗測試主要是通過對比傳統數據隱私保護和差分隱私數據保護在個體數據對總體數據影響的表現占比情況。在測試過程中,我們均保證了數據的有效存儲。傳統數據隱私保護采用匿名化數據加密對數據進行隱私保護,而差分隱私數據保護則通過添加拉普拉斯噪聲對位置軌跡數據進行差分隱私保護。測試結果表明,通過添加噪聲,成功實現了數據隱私安全,顯著降低了個體數據對總體數據的影響,有效滿足了大數據環境下數據存儲的實際需求,并且不會對數據存儲操作的安全性造成負面影響。
當存儲系統的前端和后端運行完畢后,該系統主要利用數據采集模塊對位置軌跡數據進行MapRe?duce分組聚合運算,并進行安全存儲。其中,該系統在后臺頁面添加了動態調整隱私保護強度的功能,主要是為了適應實際環境的需要,并且限制單次允許的最大上傳文件大小,以提高系統穩定性。當用戶在系統前端提供設備數據接口給數據上傳模塊后,后臺將根據數據大小計算預計的存儲時間,用戶可以在存儲效率面板的選項卡中查看存儲完成的預計時間。后臺管理人員在此期間可在數據采集模塊下查看相關數據文件,監測并觀察保護進度。如若出現類似輸出,則表示一切正常,數據正在進行安全計算處理。
5 結束語
本文圍繞位置軌跡數據隱私安全保護存儲系統的設計方案展開探究,主要針對位置軌跡數據在存儲方面的安全管控進行設計。系統選取HDFS分布式存儲作為框架,構建了系統整體框架。該系統以資源調度中心為管理工具,下發作業到控制節點進行差分隱私保護計算,并利用MapReduce對數據進行拉普拉斯噪聲的添加。測試結果顯示,在保證存儲效率明顯優于傳統存儲效率的同時,該系統能夠有效地對數據進行隱私保護,可以作為位置軌跡數據存儲管理工具。
參考文獻:
[1] 李樂彤,田源,胡舜欣,等.基于差分隱私的軌跡保護綜述[J].中國科技信息,2022(24):91-94.
[2] 吳萬青,趙永新,王巧,等.一種滿足差分隱私的軌跡數據安全存儲和發布方法[J].計算機研究與發展,2021,58(11):2430-2443.
[3] 劉雯雯.基于云計算環境下的計算機網絡安全存儲系統的設計與實現[J].電腦知識與技術,2022,18(12):38-40.
[4] 秦呈旖,吳磊,魏曉超,等.位置軌跡相關性差分隱私保護技術研究與進展[J].密碼學報,2023,10(6):1118-1139.
[5] 盛丹丹.基于大數據分析的隱私信息保護系統設計與實現[J].信息安全研究,2023,9(9):914-920.
[6] 王愛兵.基于區塊鏈的社區矯正系統數據分布式安全存儲方法[J].電腦知識與技術,2023,19(28):63-65.
【通聯編輯:代影】