張學軍 何福存 蓋繼揚 鮑俊達 黃海燕 杜曉剛
(蘭州交通大學電子與信息工程學院 蘭州 730070)(xuejunzhang@lzjtu.edu.cn)
近年來,隨著物聯網技術的快速發展和物聯網智能終端設備數量的爆炸式增長,室內定位技術作為室外定位的技術延伸,已被廣泛應用在智慧工業(工廠人員和物資精確定位、危險源監測等)、智慧養老(老人定位監護、健康管理等)、智慧司法(監獄人員定位、司法矯正等)、智慧醫療(院區就診導航、人員定位等)、智慧工地(隧道/地鐵/管廊人員的定位、環境數據采集等)、智慧文博(游客導航、文物防盜等)、智慧倉儲(物資定位、可疑物品追蹤等)等各個領域.隨著城市智能化的發展,室內定位的重要性和價值日益顯現,越來越受到社會的廣泛關注[1-3].對于室外定位技術,其應用場景大多是開放環境,即使定位誤差大到幾十米也不太會影響用戶的體驗.但是,室內定位技術則要求亞米級的定位精度來滿足用戶需求.為了實現室內環境中的高精度定位,研究者開展了一系列室內定位技術的研究,相繼提出了基于WiFi[4-5]、藍牙[6]、RFID[7]、UWB[8]、紅外線[9]、超聲波[10]、電磁[11]等的室內定位技術和系統.其中,基于接收信號強度(received signal strength, RSS)的指紋定位方法(如使用WiFi、藍牙等),因其低成本、低功耗、測量范圍長、具有成熟的基礎設施和易于實現等優勢而逐漸成為室內定位技術的主流趨勢[12],并已培育了眾多的商業應用[13],如Skyhook,Google,Indoo.rs,Wifarer等.
基于指紋的室內定位技術通常利用來自多個無線信標和接入點(access points, APs)的RSS指紋來估計室內環境中用戶或設備的位置[14],它主要依托包含用戶終端和云定位服務器的云架構實現定位[13],其核心是能夠發現指紋和位置之間映射關系的定位算法[14].近年來,機器學習已經被證明是構建映射關系函數的一種有效手段,并在指紋室內定位技術中得到了廣泛應用[2,12].指紋室內定位技術包括離線訓練和在線定位2個階段,離線訓練階段通過從室內場景中預先定義的各個參考點(reference point, RP)收集RSS指紋構建位置指紋數據庫,在線定位階段將實時獲取的RSS指紋與位置指紋數據庫中存儲的指紋進行比較,得到相似度最高的指紋數據所對應的位置來確定目標位置.雖然該方法的定位效果較好,但構建指紋數據庫需要耗費大量的物力、人力.此外,RSS是一種不穩定的信號,易受室內復雜多變環境的影響,致使離線階段采集的信號指紋與在線階段獲取的RSS指紋可能存在偏差,導致這類方法存在較大的定位誤差.為進一步提高室內定位精度、減少指紋數據庫構建難度和應對室內復雜環境變化帶來的不利影響,許多學者結合深度學習(deep learning, DL)和眾包技術開展室內定位方法的研究[1-2,15-17].但是,基于DL的室內定位方法需要大量的帶標簽數據對定位模型進行長時間的訓練.眾所周知,訓練數據量越大、數據類型越多樣化,DL所訓練的定位模型魯棒性會越好.然而,大量RSS指紋的收集耗時且費力,而且來自用戶終端設備的指紋數據包含了許多與個人相關的敏感信息(如位置信息等),如果將這些信息直接發送給不可信的云定位服務器進行模型訓練,可能會引發嚴重的隱私泄露問題[13,18].2017年6月1日開始實施的《中華人民共和國網絡安全法》、2021年11月1日實施的《中華人民共和國個人信息保護法》和2018年5月25日歐盟開始實施的《通用數據保護條例》都對網絡數據安全和個人隱私保護做出了明確的規定和要求,進一步完善了對個人隱私信息的保護.因此,如何在保護用戶個人隱私的同時更好地訓練定位模型是基于DL的室內定位技術面臨的一個重要挑戰.
另一方面,隨著各種室內位置服務的應用和大量智能終端設備的廣泛使用,室內定位服務用戶請求更加頻繁、室內定位環境部署更加快速、定位服務響應需要更加可靠及時、物聯網環境下聯合定位的數據融合更加復雜以及為提高定位精度所帶來的大量數據傳輸和計算,都給使用云架構的基于DL的室內定位技術提出了一些新的挑戰[12,14,19]:1)室內環境中大量物聯網智能終端設備的部署與互聯互通,產生的海量RSS指紋數據被集中傳輸到云服務器上進行定位模型訓練會顯著增加網絡負載,造成數據傳輸擁塞和網絡延遲[20].2)大部分用戶終端設備電池續航能力有限,將大量RSS指紋數據傳輸到云定位服務器,需要消耗大量的電能;同時,由于云定位服務器的集中式處理方式,其運行和維護也需要消耗大量的電能.3)基于云的定位系統無法滿足系統邊緣區域對快速實時定位任務處理的需求.
為了解決上述3個挑戰,一種可行的方法是將基于DL的室內定位系統部署到邊緣計算模式中[19].邊緣計算(edge computing, EC)[21]具有的低延遲、位置感知、分布式且異構、可編程和數據本地化的特點,正好能滿足基于DL的定位系統所帶來的大數據處理、定位延遲、精度提高和隱私保護的需求[22].但是,在邊緣計算場景下,由于資源受限的邊緣計算基礎設施缺乏有效的隱私保護機制,隱私泄露問題仍然很嚴重[18,23-24].在離線訓練和在線定位階段,不可信的云服務器和邊緣服務器仍有可能通過分析來自邊緣設備的RSS指紋數據來獲得用戶的精確位置,從而在WiFi路由器附近很小的范圍定位和跟蹤用戶[24].位置隱私的侵犯可能會造成用戶社會聲譽受損、經濟損失,甚至是身體遭受暴力等[25-26].
目前,大多數室內定位隱私保護的最新方法主要關注在線定位階段的隱私泄露問題,例如基于k匿名的方法[13]、基于加密的方法[25,27]和基于差分隱私的方法[23,28-29].但是,這些隱私保護機制不能完全適用于基于邊緣計算架構的室內定位技術,特別是離線訓練階段,因為它們都需要消耗大量的資源.作為移動EC中的DL模型,聯邦學習(federated learning, FL)[30]已經引起了學術界和工業界的廣泛關注,其主要目的是在保護用戶隱私的同時基于本地數據集構建一個聯合DL模型.聯邦學習模型可以在邊緣節點(如智能手機)上實現,各個邊緣節點在不共享數據的情況下,可以利用本地數據集獨立地進行DL模型訓練,并通過云服務器(如參數服務器)對全局模型進行優化聚合,能有效解決基于DL室內定位系統的數據安全與隱私保護問題.文獻[15]利用聯邦學習構建隱私保護室內定位服務,該方法雖然能夠保證用戶的數據隱私,但是在資源有限的終端設備上執行本地子模型的訓練將會使得終端設備面臨巨大的資源開銷問題.此外,在模型參數聚合時,該方法還會面臨差分攻擊、模型反演攻擊、梯度反向推理攻擊,存在隱私泄露風險[31].
針對以上挑戰,本文提出了一種邊緣計算下指紋室內定位差分私有聯邦學習模型(differentially private federated learning model for fingerprinting indoor localization in edge computing, DP-FLocEC),可以實現在保護原始訓練數據和模型參數隱私的前提下對多方數據進行學習,確保了較高的定位精度和性能.DP-FLocEC基于邊云協作計算模式,利用差分隱私機制結合聯邦學習協議在對用戶RSS指紋數據和模型參數提供ε-差分隱私保護的同時,實現了高精度、低延遲的定位性能.為了解決在資源受限的邊緣服務器上執行DL模型帶來的繁重計算開銷問題,DP-FLocEC構建了基于卷積神經網絡(convolutional neural network, CNN)的輕量級室內定位模型.本文工作的主要貢獻包括3個方面:
1) 提出了基于邊緣計算和聯邦學習的隱私保護室內定位模型訓練及應用架構,全面考慮了邊緣計算環境下室內定位模型訓練及應用過程中的安全問題.在離線訓練階段,考慮到攻擊者具有一定的背景知識,利用差分隱私技術對用戶數據及模型參數進行隱私保護處理,實現多層面可證明的ε-差分隱私保護,使多個參與用戶在不共享私有數據實現定位子模型訓練的同時,抵御模型參數聚合過程當中遭受的差分攻擊、模型反演攻擊、梯度反向推理攻擊等;在線定位階段,利用差分隱私技術將數據進行差分擾動后上傳到邊緣服務器,經邊緣服務器處理后為用戶提供安全、可靠的室內定位服務.
2) 為了提供高精度、低延遲、高可靠的室內定位服務,本文基于CNN構建了一個輕量級的室內定位模型,并在多個數據集上驗證與評估了所提模型的有效性.
3) 在3個真實室內RSS指紋數據集上進行了大量的實驗對比,以評估所提模型的有效性和性能.安全性分析與實驗結果表明,相比已有的集中式和分布式的學習模型,本文提出的聯邦學習模型在提供更全面隱私保護的同時獲得了高可靠的定位服務;相比于已有的MLP,FLoc室內定位模型,本文設計的CNN室內定位模型取得了更好的定位性能.
近年來,人們相繼提出了許多室內定位技術,包括基于紅外線、超聲波、RFID、無線局域網、藍牙、傳感網絡、超寬帶、電磁信號、視覺和聲音等[32],以及由這些技術組合成的混合系統[13].雖然這些技術中大多數都提供了很高的定位精度,但其應用都有嚴重的局限性,難以達到室內定位和導航的要求[5].目前,大型公共場所幾乎已經全面覆蓋WiFi、藍牙網絡,這使得基于RSS指紋的室內定位研究廣受歡迎.一個典型的指紋定位系統是Horus[33],它使用基于統計的方法和來自APs的RSS直方圖進行位置聚類,從而在指紋數據庫中建立指紋的高斯分布.在定位階段,通過與指紋數據庫中指紋的匹配概率來計算定位結果.另一個是基于k近鄰(knearest neighbors,kNN)的指紋定位方法[34].在離線階段,kNN利用從APs收集的RSS指紋來構建指紋數據庫.在實時定位階段,計算和選擇具有最小斯皮爾曼距離的所有目標位置點,并通過kNN算法獲得最終的位置估計.
隨著物聯網技術的快速發展,眾多物聯網智能終端設備在室內環境中的部署與使用[20],產生了海量可用的RSS指紋數據,為了利用這些RSS數據提高室內定位精度和應對室內環境復雜多變、無線信號陰影衰落、多徑效應等因素的不利影響,一些最新的研究提出利用多傳感器數據[5]、信道狀態信息(channel state information, CSI)數據并結合DL算法[1,16-17,35-37]輔助WiFi或藍牙指紋進行室內定位,獲得了比傳統定位方法和系統更高的定位精度和魯棒性.文獻[5]利用智能手機上內置的多種傳感器來估測用戶的軌跡信息,并將其與WiFi指紋信息結合起來建立綜合概率模型,進行用戶位置匹配,確定最近參考點.文獻[1]利用注意力機制并結合CNN和雙向長短時記憶網絡獲取參考點位置區域內的時空緯度上的粗細粒度特征來實現室內定位.文獻[16]利用抽取的磁場強度中心點作為地理標簽特征輔助WiFi指紋進行室內定位,獲得了比較滿意的定位性能.文獻[17]利用CNN提高室內定位性能,將收集到的藍牙RSS信號轉化為指紋圖像并將其輸入到CNN模型中進行分類訓練,同時結合磁場數據來匹配用戶的位置.文獻[35-37]利用細粒度CSI的相位信息結合DL算法進行室內定位,獲得了更高的魯棒性.文獻[11]指出已有的這些室內定位技術都基于預先部署的基礎設施,會帶來很大的設備和管理成本,因此在某些應用場景和條件下是有限的.為此,文獻[11]的作者提出一種新的無需基礎設施的輕量級基于地磁信號的經過門事件探測方法LMDD來幫助提高基于航位推算的室內定位和導航系統的定位精度.然而,所有這些方法都采用基于云架構的集中式學習框架,需要將大量包含用戶敏感信息的RSS數據傳輸到云服務器上進行模型集中訓練,這將會嚴重侵犯用戶的隱私[13,18-19].隨著人們對個人隱私的重視,各個國家都制定了網絡數據安全和隱私保護的相關法律法規來約束和限定這些敏感數據的使用.在這種情況下,數據的安全和隱私泄露嚴重阻礙了機器學習技術在室內定位場景中的應用,成為定位服務健康發展的瓶頸之一.另外,大量的RSS數據集中傳輸到云服務器進行處理也會增加網絡負載、計算資源開銷等問題,造成數據傳輸延遲和網絡擁塞,嚴重影響定位服務的性能和效果.
邊緣計算[21]作為一種新型的分布式計算架構,它能在網絡的邊緣提供強大的實時數據存儲和計算能力,從而降低網絡負載、減少數據處理延遲、提高電池續航能力、減輕云服務器壓力,在解決終端設備資源受限問題的同時保證數據的安全性和私密性[22].將室內定位DL模型部署到邊緣計算框架中是解決傳統基于云架構的室內定位系統存在響應不及時、網絡延遲高、隱私泄露嚴重問題的一種有效策略.文獻[38]提出在互聯網的邊緣使用cloudlet技術部署移動云服務,但是由于WiFi覆蓋范圍有限,使用cloudlet技術是不夠的.文獻[21]指出邊緣能夠使網絡具有低延遲和高帶寬,因為其具有很好的任務卸載技術.文獻[39]指出邊緣計算能夠極大地減少網絡延遲,因此能夠在WiFi網絡中實現計算密集型的應用.但是,在邊緣計算場景下,由于資源受限的邊緣計算基礎設施缺乏有效的隱私保護機制,隱私泄露問題仍然很嚴重[18,23-24,40-42].聯邦學習[18,20-21,30]作為邊緣計算中的DL模型,考慮了去中心化學習方式的數據隱私保護問題,已被廣泛應用在眾多新興的場景,比如眾包系統[15]、室內定位系統[15,43-44]、移動群體感知[45]等.聯邦學習的主要目標是在本地數據集上構建聯合機器學習模型,同時能提供隱私保證[18,46].盡管聯邦學習有一些優勢,比如隱私保護和在終端設備上實現DL,但是當其面對一些新興的應用時(如室內定位服務),容易遭受差分攻擊、模型反演攻擊等,其隱私問題仍然是致命的[18,44-45].幸運的是差分隱私技術[47-48]能有效解決這一問題,它允許分析人員在保證個人隱私得到有效保護的同時執行可信聚合分析[44].在本文中,我們研究如何利用差分隱私技術向室內定位聯邦學習協議的各個操作階段添加合適的噪聲來保護用戶隱私.
目前,只有少量工作用于解決室內定位隱私保護問題,這些工作可總結為基于k匿名的方法[13]、基于加密的方法[25,27]和基于差分隱私的方法[23,28-29].文獻[13]提出了一種基于k匿名的隱私保護定位方法,該方法能夠將用戶的真正位置軌跡隱藏于k-1個假軌跡中,這樣攻擊者不能以高于1/k的概率識別出用戶的位置.然而,攻擊者可以利用一些背景信息區分出用戶的真實位置.為此,文獻[25]提出了一種基于Paillier的WiFi指紋定位隱私保護方法PriWFL,能夠同時保護用戶的位置隱私和位置服務提供商(location service provider, LSP)的數據隱私,但處理過程資源消耗較高.文獻[27]基于PriWFL提出了2種改進策略,在獲得和PriWFL相同精度的情況下,避免了其弱點及相關的隱私泄露風險.但是,這2類基于加密的方法計算和通信開銷大,其有效性有待進一步提升.文獻[23]提出了一種在基于噪聲添加的用戶位置指紋隱私保護方法LoPEC,該方法將AP之間的信號覆蓋關系簡化為無向圖進行位置估計,為了提高定位精度,通常需要3個以上的AP參與計算,由于對其添加噪聲的不確定性過大,合理噪聲的添加是一個挑戰性問題.文獻[28]提出了一種基于差分隱私的隱私保護室內定位方法DP3,它既能保證用戶的位置隱私,又能保護定位服務器的數據隱私.文獻[29]提出了一種用于室內定位的隱私保護范式驅動框架P3-LOC,以解決用戶位置隱私和 LSP數據隱私的問題.P3-LOC使用k匿名和差分隱私技術來為2階段定位范例提供可證明的隱私保護.雖然這些研究工作對室內定位中的隱私保護問題做出了一定的貢獻,但是這些方法主要針對在線定位階段的用戶位置隱私保護,不能保護離線訓練階段的用戶數據隱私.而且,這些方法在面對室內復雜多變環境、陰影衰落、多徑效應等諸多因素的不利影響時,其性能會急劇下降.雖然已有一些定位方法[1,16-17,35-37]使用DL模型來提高定位精度和魯棒性,但是這些方法采用基于云架構的集中式學習框架,存在隱私泄露、高延遲等問題.文獻[49]針對集中式學習模型的隱私泄露問題,提出了基于差分隱私的集中式學習框架Central-DP,各參與者在本地進行子模型訓練,然后將訓練得到的模型參數上傳到云服務器(參數服務器),云服務器利用差分隱私保護技術對模型參數進行擾動來混淆參與者的貢獻.邊緣計算網絡[21]和聯邦學習架構[30]的出現吸引了許多學者的關注.邊緣計算是一種新型的分布式計算架構,能將云計算的部分計算開銷遷移到邊緣節點,并在網絡邊緣提供IT服務環境,其目標是減少延遲、確保高效的網絡運行與服務傳遞.在邊緣計算場景中,雖然不再將用戶數據傳輸到云服務器上,但是邊緣節點計算能力有限且缺乏有效的安全保證機制,仍然存在嚴重的隱私泄露問題,特別是用戶的RSS指紋信息不能得到很好的保護[23].文獻[40-41]對邊緣計算下的隱私保護問題和挑戰進行了詳細的總結,介紹了近年來提出的適用于邊緣計算領域的隱私保護最新研究成果,并就方案的可行性和擴展性進行了深入討論,為邊緣計算下隱私保護提供了有效指導.作為邊緣計算中的DL模型,聯邦學習[30]是一種新興的隱私保護分布式學習解決方案,它解決了傳統機器學習算法的一些問題.文獻[15]提出了利用多層感知機(muti-layer perceptron, MLP)基于聯邦學習框架來構建室內定位模型,使得各用戶的數據在不出本地設備的情況下進行室內定位子模型的訓練,實現數據隱私的保護.文獻[46]提出了本地化的差分隱私聯邦學習模型Local-DP,每個參與者利用差分隱私技術對各自的數據集進行差分擾動,然后進行本地子模型訓練并將得到的模型參數上傳到云服務器,云服務器對這些參數進行聚合后下發給各個參與者,使其進行下一階段的訓練,如此協同訓練與迭代更新,直到得到最優的模型.然而文獻[50]由于沒有考慮到模型參數的隱私,使其容易遭受差分攻擊、模型反演攻擊、梯度反向推理攻擊[31,51]等,而且仍然存在隱私泄露的風險.隨著物聯網技術的長足發展,邊緣設備的計算能力和存儲能力得到很大的提升,這使得邊緣設備和機器學習的結合成為可能.文獻[42]提出了邊緣計算下,機器學習算法ELM結合差分隱私的室內定位隱私保護方法,在保護用戶RSS數據隱私的同時確保了較高的定位精度.文獻[18]提出了一個基于邊緣計算的聯邦學習框架FedMEC,利用移動邊緣計算來提高差分私有聯邦學習的有效性.但是FedMEC僅考慮了用戶數據的隱私保護,依然沒有解決模型參數的隱私保護問題,難以抵御來自攻擊者實施的差分攻擊等.
針對以上挑戰,本文提出一種邊緣計算下指紋室內定位差分私有聯邦學習模型DP-FLocEC,能在保護原始訓練數據和模型參數隱私的前提下對多方數據進行學習,確保較高的定位精度和性能.DP-FLocEC基于邊緣計算架構,利用差分隱私機制結合聯邦學習協議在對用戶RSS指紋數據和模型參數提供ε-差分隱私保護的同時,實現了高精度、低延遲的定位性能.為解決在資源受限的邊緣節點上執行DL定位模型所造成的繁重計算開銷問題,DP-FLocEC構建了基于CNN的輕量級室內定位模型.
聯邦學習主要包括云端模型學習和用戶本地子模型學習2個關鍵部分.云端將預訓練好的全局模型分發給各參與用戶,以幫助用戶訓練微調自己的本地子模型.對于每個用戶,他們在預先訓練好的全局模型幫助下微調自己的本地子模型,使其模型更適合用戶本地數據的一些特性,當所有用戶本地子模型都微調訓練結束之后,模型參數會被上傳到云端進行模型參數融合.隨后,通過不斷迭代訓練,實現模型的深度聚合與優化.云端全局模型的更新可以形式化為
(1)
其中,w代表云端模型參數,K為參與本地子模型訓練的多個用戶.經過若干訓練周期后,更新的云端模型fs(·)可以涵蓋幾乎所有參與者的本地模型,達到了更好的泛化能力.
Dwork[47]于2006年針對統計數據庫的隱私泄露問題提出了差分隱私技術,作為一種數學意義上嚴格定義的隱私保護框架,它在統計學、數據挖掘、社交網絡、機器學習和物聯網等領域得到了廣泛的應用,已經成為當前隱私保護領域最受歡迎的隱私保護方法之一,也是實施邊緣計算環境下數據隱私保護方案的關鍵技術之一.
定義1.ε-差分隱私.設有一個隨機算法M,R是所有可能的輸出構成的集合,D和D′為任意2個相鄰數據集合且|D⊕D′|=|(D∪D′)-(D∩D′)|=1.其中,S?R,如果隨機算法M滿足
Pr[M(D)∈S]≤eε×|D⊕D′|×Pr[M(D′)∈S],
(2)
則稱算法M提供ε-差分隱私保護,其中⊕表示兩集合的對稱差集,ε為隱私預算,Pr[·]表示算法M對數據集D和D′計算結果概率.此定義確保單個記錄的存在或不存在不會顯著影響算法M的輸出.
定義2.全局敏感度.設有函數Q:D→d,Q的全局敏感度Δf定義為
(3)
其中D和D′是2個鄰近的數據集,‖Q(D)-Q(D′)‖1是Q(D)和Q(D′)之間的1-階范數距離,敏感度用來表征刪除數據集中任何記錄引起的最大變化,是確定添加的噪聲量的關鍵參數.
定義3.Laplace機制.對查詢函數f:D→d,其敏感度為Δf,式(4)提供了ε-差分隱私保護.
f′(D)=f(D) +gLaplace(Δf/ε),
(4)
其中gLaplace(Δf/ε)是一個服從Laplace分布的隨機噪聲,b=Δf/ε為尺度參數.Laplace分布的概率密度函數如式(5):

(5)
Laplace機制是實現差分隱私保護的基本機制之一[52].
在實際應用中,ε通常取很小的值,例如0.1,ln2,ln3[48]等.ε越小,添加的噪聲越多,隱私保護強度越高;反之,隱私保護強度越低.理想情況下,當ε=0,此時隱私保護強度達到了最高水平,且對于任意2個鄰近數據集,算法輸出結果的概率分布完全相同,攻擊者無法通過觀察結果的差異性獲得任何關于數據集的有用信息.因此,ε的取值需根據用戶實際隱私需求來調整,以同時滿足輸出結果的可用性與數據的隱私性.
為了方便參考,表1給出了本文主要使用的符號及其描述.

Table 1 Notations and Descriptions
為了解決傳統基于云架構的RSS指紋室內定位方法面臨的挑戰,本文綜合考慮定位性能、隱私保護和資源開銷,提出了一種邊緣計算下指紋室內定位差分私有聯邦學習模型DP-FLocEC,其系統架構如圖1所示.該系統架構是一個3層的邊緣計算框架,它將整個室內定位聯邦學習協議劃分為跨云服務器層、邊緣服務器層和終端設備層,能很好地支持具有多個參與者的聯邦學習協議.假定擁有終端設備的用戶群A,B,C已經分別收集到了大量的室內定位RSS數據,為了能夠享受部署在邊緣服務器上的室內定位服務,他們都自愿參與室內定位聯邦學習協議.同時,他們都盡力防止在整個聯邦學習過程中,將自己的RSS數據泄露給系統中的不可信實體(如邊緣服務器、云服務器等);邊緣服務器在接收到終端設備已經擾動過的RSS數據后進行聚合和本地子模型訓練,并將訓練好的子模型參數共享給云服務器以便獲得最優的全局定位模型;云服務器接收邊緣服務器發送的子模型參數,執行全局模型聚合與協同更新,并將更新后的模型參數下發給各邊緣服務器.室內定位聯邦學習模型分為離線訓練和在線定位2個階段.整個系統框架的具體描述如下:
1) 終端設備.是指聯邦學習參與者擁有的一套智能終端設備(如智能手機、平板電腦、智能監控設備等),具有計算、存儲和通信能力.離線訓練階段,終端設備可用于從室內區域(如大型購中心、地下停車場、展覽廳等)的多個無線傳感器信標(如WiFi、藍牙等)獲取、存儲本地RSS指紋數據集,并獨立地對收集到的RSS數據集進行數據預處理和噪聲添加,然后將擾動后的RSS數據發送給附近的邊緣服務器.同時,在在線定位階段,終端設備度量實時指紋數據并經加噪聲擾動給發送給邊緣服務器來獲得定位服務.
2) 邊緣服務器.是邊緣計算架構的核心實體,通常在用戶場所(如公園、商場、購物中心等)實現,并且可能部署在固定的位置(如基站).它們具有比終端設備更強大的存儲和計算資源,并作為云服務器和終端設備之間的計算單元.邊緣服務器主要執行可信的數據聚合、本地子模型訓練和服務反饋.在離線訓練階段,邊緣服務器先接收由附近終端設備上傳的經過擾動處理后的RSS指紋數據,并將這些指紋數據聚合成包含多個用戶信息的RSS指紋數據.同時,它利用這些聚合數據進行本地定位子模型的可信訓練,并將訓練好的本地子模型參數上傳給云服務器,如此重復迭代,直至模型收斂.在線定位階段,邊緣服務器根據用戶提交的經過加噪聲處理后的實時RSS指紋數據,利用訓練好的定位模型為用戶提供高可信、高精度的室內定位服務.

Fig. 1 Differential privacy federated learning architecture圖1 差分私有聯邦學習架構
3) 云服務器.作為數據中心,具有比邊緣服務器更強大的存儲和計算能力.它接收各邊緣服務器共享的子模型參數,利用聯邦平均優化算法[50]更新全局共享模型參數,并將更新后的模型參數下發給各邊緣服務器進行下一輪迭代訓練,直至獲得最優的訓練模型.為了防止不可信的云服務器通過模型反演攻擊[37]或梯度反向推理攻擊[31,51]推斷出各參與用戶的隱私訓練數據,在聚合、更新全局參數時需要進行隱私保護處理,本文利用差分隱私技術向聯邦學習協議各參與方的模型參數添加合適的Laplace噪聲后再進行全局參數匯總更新來實現隱私保護.

Fig. 2 The structure of indoor localization model圖2 室內定位模型結構圖
在這些實體當中,假定終端設備是可信的,它正確的處理收集到RSS數據并且不會泄露這些RSS數據給其他參與者.另外,本文假定邊緣服務器和云服務器是誠實且好奇的[53],即他們能忠實地執行聯邦學習協議過程并正確計算和發送真實的計算結果.然而,他們對包含在RSS指紋數據中的隱私很好奇并且會盡力去分析并挖掘用戶的隱私.在整個離線訓練過程中,邊緣服務器只與云服務器通信,除了共同維護的全局參數外,它無法獲取其他邊緣服務器的任何信息,保障用戶RSS指紋數據的機密性.除隱私問題外,邊緣計算框架中的聯邦學習協議也會面臨終端設備資源受限的問題.因為執行復雜的DL模型需要巨大的計算開銷,而資源受限的終端設備難以承擔復雜DL模型的訓練過程.因此,如何設計一個不需要太大計算開銷而又不違反聯邦學習機制,同時又能夠保護用戶RSS指紋數據隱私的有效定位模型是DP-FLocEC面臨的一個重要挑戰.
為了確保高的定位精度又能在資源受限的邊緣服務器上實現DL定位模型訓練過程,本文借鑒文獻[17,37],設計并實現了一個輕量級室內定位CNN網絡模型.具體如圖2所示.該模型包含2個卷積層、1個池化層和2個全連接層.其中卷積層對原始RSS指紋數據進行特征提取,池化層對卷積層提取的特征進行壓縮,全連接層用于將壓縮后的特征映射到目標結果.
本文使用TensorFlow來模擬指紋室內定位聯邦學習協議,并選擇Adadelta優化器作為模型的優化方法.因為Adadelta優化器只利用一階信息來動態適應時間的變化,除了普通的隨機梯度下降法之外,它的計算開銷最小,而且該方法不需要手動調整學習率,對噪聲梯度信息、不同的模型結構選擇以及不同的數據模式和超參數選擇都具有很好的魯棒性.雖然聯邦學習因其本地訓練的特性為每個參與者的原始RSS指紋數據提供基本的隱私保護,但是在邊緣環境下,參與者的原始RSS指紋數據,部分本地子模型參數仍然會暴露給不可信的邊緣服務器和云服務器,導致用戶隱私泄露.例如,聯邦學習中的云服務器能夠很容易執行模型反演攻擊來獲得部分參與者隱私訓練數據的分布[37]或通過共享梯度執行梯度反向推理攻擊,在不需要訓練數據集的任何額外信息的情況下完全獲得參與者的隱私訓練數據[31,51].因此,需要設計一個切實可信的隱私保護機制來防止聯邦學習中每個參與者的RSS指紋數據直接暴露給不可信邊緣服務器和云服務器.
差分隱私[47]是一種有效且應用非常廣泛的隱私保護方案,它能夠通過向敏感數據集添加合適的隨機噪聲來提供嚴格的隱私保證.在DP-FLocEC中,我們在將參與者RSS指紋數據發送給不可信邊緣服務器進行本地子模型訓練之前先使用差分隱私技術對其進行差分私有數據擾動以保護用戶的隱私.同時,為了防止不可信云服務器通過共享的模型參數推斷出用戶原始RSS指紋數據,我們在云服務器進行全局參數匯總與更新之前先對共享的本地子模型參數添加合適的Laplace噪聲進行擾動.
DP-FLocEC算法包含3個操作階段:1)差分私有訓練數據特征擾動;2)可信定位模型訓練;3)差分私有全局模型參數優化.設總體隱私預算為ε,由于階段1)和階段3)是差分私有的,我們將ε劃分為2個子隱私預算εs和εc,這樣ε=εc+εs.下面討論離線訓練和在線定位2個階段的隱私保護方法.
3.3.1 離線訓練階段

(6)

算法1.差分私有數據擾動算法.




(7)


算法2.可信定位子模型訓練算法.


③ forepoch=1 toEpochdo
④ forstep=1 toStepdo

⑨ end for
3) 差分私有全局參數優化.該操作階段在云服務器層上進行,云服務器接收邊緣服務器發送過來的各子模型參數,進行全局參數聚合和更新.由于云服務器不可信,在全局參數聚合與更新過程可能會利用模型參數通過模型反演攻擊或梯度反向推理攻擊推斷出用戶的訓練數據[31],為此我們利用差分隱私技術在模型參數聚合和更新前向其添加合適的Laplace噪聲進行擾動,然后再進行全局參數聚合和更新以聯合優化當前的全局模型,并將優化好的模型參數下發給各邊緣服務器,使其進行下一次迭代訓練,直到全局模型趨于收斂.云端差分私有全局參數的更新優化可以形式化為
(8)

算法3.模型參數可信聚合算法.
輸出:聚合后的全局模型參數wglobal.
① 初始化全局模型參數wglobal;
② fori=1 toNdo

⑤ end for
⑥ 將聚合后的全局參數wglobal發送到各個邊緣服務器.
依據定義3,該操作階段滿足εs-差分隱私.εs的大小決定了該操作階段噪聲添加的量,如果εs增大,則添加到該操作階段的噪聲量會減少,模型的精度會增加;而在整體隱私預算ε不變的情況下,分配給差分私有數據擾動階段的隱私預算εc就會降低,從而會增大該階段添加噪聲的量.因此,差分數據擾動和差分私有全局參數優化2個階段聯合決定了隱私預算的分配,一個關鍵原則是適當給對模型精度影響更大的階段分配更多的子隱私預算.然而,為某個階段分配不必要的高隱私預算將會對模型性能產生負面影響,因為它會竊取那個需要高隱私預算階段的效用來保證模型性能.
3.3.2 在線定位階段
在線定位階段,參與用戶i實時收集他感興趣區域內的RSS特征值,并將其發送給已部署在邊緣服務器上優化好的模型獲取定位服務.由于邊緣服務器不可信,用戶在發送RSS度量值時仍需要利用差分隱私技術添加合適的噪聲進行數據擾動.

算法4.客戶端請求定位服務算法.


gLaplace(Δf/εc);

算法5.邊緣服務器服務反饋算法.

輸出:返回給用戶的服務Stype.


③ 將預測結果Stype發送給用戶i.
在本節中,使用差分隱私中序列組合性質和并行組合性質[54]對DP-FLocEC進行安全性分析.
定理1.DP-FLocEC能夠提供ε-差分隱私保護.
證明. 根據算法1~3,DP-FLocEC提供的隱私保護處理主要包括以下3個操作階段:
1) 為了防止用戶數據直接暴露在不可信的邊緣服務器,用戶通過對其終端設備上RSS指紋數據進行擾動,以達到保護用戶數據隱私的目的;
2) 邊緣服務器利用擾動后的數據進行模型訓練,然后將得到的模型參數上傳到云服務器;
3) 云服務器對各邊緣服務器上傳的模型參數進行匯聚,并在參數匯聚時進行差分擾動,從而防止攻擊者針對云服務器實施差分攻擊[55]、模型反演攻擊、梯度反向推理攻擊,實現模型參數的保護.
設算法總的隱私預算為ε,將其劃分為2個子隱私預算εc,εs分別分配給階段1)和階段3),因此ε=εc+εs.階段1)和階段3)在數據集Dc,Ds上的隨機算法為Mc:Dc→R,Ms:Ds→R,且Mc,Ms的隨機過程相對獨立.根據定義1,有
因此DP-FLocEC在階段1)和階段3)分別滿足εc-差分隱私和εs-差分隱私,在階段2)中邊緣服務器接收到的數據是經過階段1)處理后的.因此,在這些數據上進行聚合和計算操作同樣滿足εc-差分隱私.
在階段1)中,?i∈{1,2,…,N},N為參與者個數,設參與者Pi在數據集Di上的隨機算法Mci:Di→R滿足εi-差分隱私,且任意2個隨機算法Mci的隨機過程相互獨立.


由|R⊕S|∈可知,在所有的{1,2,…,N},有且僅有1個其他的相鄰數據集所以,?O?R,使得
eεi×Pr[Mc(D′)=O],
當且僅當εc≥εi時,有
Pr[Mc(D)=O]=eεc×Pr[Mc(D′)=O],

對于算法的整體而言,設隨機算法M:Dc×Ds→R,有M={Mc,Ms},記算法M的輸出為O={rc,rs}.由于算法Mc和Ms的隨機過程相互獨立.因此,對于?O?R,有
Pr[M(D)=O]=Pr[Mc(Dc)=rc]×
Pr[M(D′)=O].

Pr[M(D)=O]=eεc+εs×Pr[M(D′)=O]=
eε×Pr[M(D′)=O].
因此,DP-FLocEC滿足ε-差分隱私,即攻擊者無法通過觀察算法輸出結果的差異性,來實施差分攻擊,也無法利用模型反演攻擊來準確獲取訓練樣本及用戶隱私信息.同時,由于多個邊緣服務器在假定條件下不具有通信能力,即邊緣服務器間相互獨立,數據無法共享,那么攻擊者也無法通過關聯多個邊緣服務器的數據實施鏈接攻擊.因此,在邊緣服務器端,用戶數據和本地子模型參數的數據隱私得以保證.
為了模擬邊緣計算環境下的室內定位聯邦學習協議,本文利用TensorFlow構建室內定位模型,模擬了2個具有相同數據量的邊緣服務器.利用Socket協議實現邊緣服務器與參數服務器間的通信,優化器采用Adadelta,Adadelta不是累積所有過去的梯度,而是根據漸變更新移動窗口調整學習速率,無需設置初始學習率,迭代次數為1 000,批次大小為32.硬件環境為:Inter?CoreTMi7-8750H CPU@2.20 GHz,NVIDIA GeForce GTX1060顯卡,24 GB RAM,6 GB顯存.具體的網絡模型參數如表2所示:

Table 2 The Parameters of Network

續表2
實驗采用Mall[2],Mall-WiFi[2],UJIIndoorLoc[56]3個RSS指紋數據集來評價DP-FLocEC的有效性和性能.其中Mall,Mall-WiFi數據集是在真實環境中,利用智能手機收集,實驗場地的平面布置和藍牙信標部署位置如圖3所示,UJIIndoorLoc為公開數據集.

Fig. 3 The floorplan of experimental sites for collecting data圖3 實驗數據采集環境平面圖
1) Mall數據集和Mall-WiFi數據集.均采自一個31.8 m×14.95 m的購物中心區域,整個區域被劃分為10個子區域.在所有采集位置點附近總共布設了22個BLE信標,可以穩定檢測到來自35個WiFi AP的信號.Mall數據集包含7 000個有效樣本,每個樣本都包含一個區域ID和57維RSS特征(22維藍牙特征和35維WiFi特征).Mall-WiFi數據集同樣包含7 000個有效樣本,但每個樣本只包含一個區域ID和35維WiFi特征.
2) UJIIndoorLoc數據集.采自Universitat Jaume I的一個390m×270m區域的4層建筑,該數據集包含19 937個訓練樣本和1 111個測試樣本,每個樣本包含一個樓層ID和520維的WiFi RSS特征.
通常情況下,RSS在-45~-100 dBm之間,如果AP靠近用戶的終端設備位置,則其信號較強.相反,如果AP遠離終端設備位置,則其信號較弱甚至不可用[57].實驗中將信號強度較弱的RSS設置為-200 dBm,3個數據集在使用前都使用z-score方法進行了歸一化處理.
實驗模擬了2個擁有相同數據量的客戶端,并將數據集按照90%,10%的比例劃分為訓練集與測試集,分別在3個數據集上進行了實驗驗證與分析.
4.3.1 Mall-WiFi數據集上的實驗結果與分析
1) 隱私預算分配對模型性能的影響
為了防止不可信邊緣服務器和云服務器獲取到參與用戶的私有訓練數據,DP-FLocEC分別向用戶RSS數據和模型參數添加了合適的Laplace噪聲對數據進行擾動,但是添加噪聲量的多少勢必會對模型的性能產生影響.由差分隱私的定義知,向模型中添加的噪聲越多,隱私保護的效果就越好,但對模型性能的影響也越大,添加的噪聲越少,對模型性能的影響越小,但是用戶的隱私不能得到很好地保護.因此,隱私預算分配策略對定位模型的性能至關重要.下面通過實驗研究不同隱私預算分配對模型性能的影響.在下面的實驗中,設置模型迭代訓練次數為1 000次,批次大小為32,總隱私預算εtotal=1、將其分配給子隱私預算εs,εc,即εtotal=εs+εc.本組實驗的主要目的就是評估不同的隱私預算分配εs,εc值對模型定位性能的影響.為了簡便,設(εs,εc)={(x,y)|x=j,y=1-j,0.1≤j≤0.9},不同隱私預算分配εs,εc值對模型性能影響如圖4~7所示.

Fig. 4 The training accuracy of different privacy budgets allocation圖4 不同隱私預算分配的模型訓練精度
從圖4~7可以看出,不同的隱私預算分配(εs,εc)值會得到不同的模型定位性能.由差分隱私定義知,隱私預算越小,添加的噪聲越多,對數據的擾動越大,隱私保護效果就越好.反之,隱私預算值越大,添加的噪聲的量越小,對數據的擾動就越小,隱私保護效果就會越差.從圖4~7中也可以看出,隨著訓練迭代次數的增大,定位模型的訓練精度、測試精度在增大,而訓練損失和測試損失在減小.當迭代輪次大于700時,模型的訓練精度(圖4所示)提升比較緩慢,幾乎處于穩定狀態,這說明模型經過700輪次的迭代訓練后提取的信號特征已經能很好地描述整個訓練數據集的整體特征.反觀模型的測試精度(圖6所示)和測試損失(圖7所示)則表現沒有訓練精度(圖4所示)和訓練損失(圖5所示)穩定.這是因為雖然模型經過700輪的迭代訓練,提取的信號特征能代表整個訓練數據集的特征,但其不能代表整個數據集(訓練集和測試集)的特征,測試集僅用來測試訓練后的模型性能,并不會參與到模型訓練的特征學習任務當中,由此測試數據集的特征可能會和訓練好的模型有一定的不匹配性,從而導致模型的測試精度和測試損失出現一定幅度的擺動.另外,從圖4~7中也可以看出,在總隱私預算εtotal=1不變的情況下,隨著εs的增大、εc的減小,對訓練數據的擾動增加、對模型參數的擾動減小,模型的訓練和測試精度在下降、訓練和測試損失在增加,這說明給數據擾動分配過小的隱私預算εc值會對模型學習產生顯著的負面影響.例如,當[εs,εc]=[0.1,0.9]時,表示對模型參數的擾動較大、對數據的擾動較小,此時的訓練精度達到了92.33%、測試精度達到了94.15%訓練損失為0.226 0、測試損失為0.271 9.當[εs,εc]=[0.5,0.5]時,對訓練數據模型參數的擾動程度相同,模型訓練精度達到了90.19%、測試精度達到了91.00%、訓練損失為0.286 9、測試損失為0.351 2.當[εs,εc]=[0.9,0.1]時,表示對數據的擾動很大,而對模型參數的擾動很小,模型訓練精度達到了72.38%、測試精度為52.00%、訓練損失為0.774 6、測試損失為1.318 9.非常有趣的是,圖6和圖7中,當[εs,εc]=[0.9,0.1]時,隨著學習迭代次數的增加,DP-FLocEC模型的測試精度從65.36%快速下降到50%以下、測試損失也由1.1快速上升到1.4,導致模型幾乎不可用.這是因為DP-FLocEC模型訓練時,在數據集上添加了太多的噪聲,使訓練數據與測試數據的分布差別變大,由此模型的訓練精度隨著迭代次數增加而增大,而測試精度由于產生過擬合而下降.為了在隱私保護和模型性能之間取得較好的權衡,后續實驗選取[εs,εc]=[0.5,0.5].

Fig. 5 The training loss of different privacy budgets allocation圖5 不同隱私預算分配的模型訓練損失

Fig. 6 The testing accuracy of different privacy budgets allocation圖6 不同隱私預算分配的模型測試精度

Fig. 7 The testing loss of different privacy budgets allocation圖7 不同隱私預算分配的模型測試損失
雖然上面的隱私預算分配策略從模型效用最大化的角度來看是有益的,但我們也有必要討論它對隱私的影響.由DP-FLocEC算法可知,它的2個私有操作階段差分私有數據擾動和差分私有全局參數分別滿足εs-差分隱私和εc-差分隱私,越高的隱私預算分配將會使該階段RSS數據的特征保持更準確,而越低的隱私預算分配將會使該階段的RSS數據特征得到更多的擾動.正如前面討論的,這2個階段聯合決定了隱私預算分配,一種靈活的分配策略是可以讓用戶根據自己對哪個階段有更敏感的認識來分配隱私預算,用戶認為哪個階段更敏感,則分配更小的隱私,從而產生更大的擾動來保護他的隱私.例如,如果用戶感覺他的RSS數據本身更敏感,那么就給數據擾動階段分配一個小的εc.如果用戶認為全局模型參數更敏感,則分配一個小的εs對其產生更多的擾動.
2) 不同模型的性能比較
為了進一步說明DP-FLocEC的有效性,將之和Central[58],Central-DP[49],Fed[50],Fed-DP[46],FedMEC[18],OPP[44],OJP[44]模型在2種場景下做對比實驗,各方法采用相同的優化函數、迭代次數、批次大小及總的隱私預算.Central,Central-DP,OPP,OJP采用了集中式的學習框架,其中Central方法沒有進行隱私保護處理,而Central-DP,OPP,OJP采用了差分隱私保護策略,Fed,Fed-DP,FedMEC,DP-FLocEC采用了聯邦學習框架,其中Fed沒有采用隱私保護策略,其他3種方法均采用差分隱私保護策略.
場景1:Central-DP在模型參數上的隱私預算εs=1,Fed-DP在數據上的隱私預算εc=1,OPP ,OJP在損失函數和模型輸出上的隱私預算εs=1,DP-FLocEC在訓練數據和模型參數的隱私預算εc=εs=0.5,FedMEC空操作比例μ=5%,噪聲尺度參數b=2.圖8~11給出了不同方法的對比結果.

Fig. 8 The comparison of training accuracy of different models with εtotal=1圖8 εtotal=1時不同模型的訓練精度對比

Fig. 9 The comparison of training loss of different models with εtotal=1圖9 εtotal=1時不同模型的訓練損失對比

Fig. 10 The comparison of testing accuracy of different models with εtotal=1圖10 εtotal=1時不同模型的測試精度對比

Fig. 11 The comparison of testing loss of different models with εtotal=1圖11 εtotal=1時不同模型的測試損失對比

場景2:Central-DP在模型參數上的隱私預算εs=0.5,Fed-DP在訓練數據上的隱私預算εc=0.5,DP-FLocEC在訓練數據和模型參數的隱私預算εc=εs=0.5,OPP ,OJP在模型輸出和損失函數上的隱私預算εs=0.5,FedMEC空操作比例μ=5%,噪聲尺度參數b=2.圖12~13給出不同方法的模型訓練精度與測試精度對比結果.

Fig. 12 The comparison of training accuracy of different models with εc=εs=0.5圖12 εc=εs=0.5時不同模型的訓練精度對比

Fig. 13 The comparison of testing accuracy of different models with εc=εs=0.5圖13 εc=εs=0.5時不同模型的測試精度對比
這種場景下,DP-FLocEC在模型參數和訓練數據上添加噪聲的量和分別在Central-DP,Fed-DP,FedMEC方法對應的模型和訓練數據上添加的噪聲以及OPP,OJP方法在模型輸出和損失函數上添加的噪聲量相同.從圖12、圖13可以看出,DP-FLocEC的訓練精度和測試精度基本與Central-DP和Fed-DP方法的相同,相比于OPP,OJP方法,模型的訓練與測試精度分別下降了5.49%,2.43%,7.73%,4.86%,相比于FedMEC方法,DP-FLocEC則有較大的優勢.由此可見,DP-FLocEC即使在邊緣服務器和云服務器都不可信的情況下,仍能在提供用戶訓練數據隱私保護的同時抵御差分攻擊、模型反演攻擊和梯度反向推理攻擊,并獲得了精確的定位精度.
3) 不同模型的時間性能對比
表3給出DP-FLocEC和其他7種模型的時間性能對比,其中D_PreP表示數據預處理時間、Time_Tr為模型訓練時間、Time_Te為樣本測試時間、Time_Com為通信時間.

Table 3 The Time Comparison of Different Models
從表3可以看出,DP-FLocEC在數據預處理上的時間和Fed-DP相近,高于Central,Fed,OPP,OJP方法,低于Central-DP和FedMEC.由于Central,Fed,OPP,OJP方法沒有考慮到數據的隱私,因此在數據預處理時間低于其他方法.Fed,Fed-DP,FedMEC,DP-FLocEC基于聯邦學習架構,其訓練模型所需的時間比其他2種集中式的學習方法都少.由于各個模型采用的網絡架構相同,因此每個方法的測試時間差別不大.此外,FedMEC方法對模型進行分割,使得可訓練的模型參數減少,極大地降低了時間復雜度與通信復雜度.但是,該方法過于考慮用戶的數據隱私保護,嚴重破壞了數據的原始分布,導致數據的可用性降低.
4.3.2 Mall和UJIIndoorLoc數據集上的實驗結果與分析
為了驗證DP-FLocEC在不同大小數據集上的有效性,分別在包含有520維RSS特征的UJIIndoorLoc數據集和57維RSS特征的Mall數據集上進行了與在Mall-WiFi數據集上相同的實驗.采用模型的訓練精度Acc_Tr、測試精度Acc_Te、訓練損失Loss_Tr、測試損失Loss_Te、數據預處理時間D_PreP、模型訓練時間Time_Tr、樣本測試時間Time_Te及通信時間Time_Com作為評價指標,具體結果如表4所示.
從表4可以看出,DP-FLocEC的模型訓練精度與測試精度在UJIIndoorLoc,Mall數據集上分別達到了95.93%,96.57%,93.53%,94.86%.比FedMEC在UJIIdoorLoc,Mall數據集上的模型訓練精度與測試精度分別高出了0.68%,7.97%,10.97%,10.71%.雖然FedMEC方法對數據提供了更加嚴格的隱私保護,但是卻嚴重破壞了數據的原始分布,使得模型的性能不高.與Central-DP,Fed-DP,OPP,OJP方法相比,DP-FLocEC模型訓練精度與測試精度雖然在UJIIndoorLoc,Mall數據集上分別下降了[0.01%,1.25%],[-0.04%,0.72%],[-0.46%,1.91%],[-0.57%,3.28%],[3.34%,3.74%],[0.87%,1.37%],[3.91%,4.58%],[0.97%,3%],但是DP-FLocEC能夠在保證服務質量略微下降的情況下,同時保證數據及模型參數的隱私.由于沒有對數據進行隱私保護處理,Central,Fed,OPP,OJP方法在UJIIndoorLoc和Mall數據集上的數據預處理上花費的時間最少.此外,由于Fed,Fed-DP,DP-FLocEC基于聯邦學習架構且網絡模型相同,所以模型的訓練與測試時間差別不大.值得注意的是,FedMEC方法在UJIIndoorLoc和Mall數據上的數據處理時間與其他方法相比是最大的、模型訓練花費時間是最小的,雖然FedMEC也是基于聯邦學習架構,但該方法對模型進行了切分,使得可訓練的模型參數變小,模型訓練的速度變快.此外,將特征提取與隱私保護任務分配給資源有限的終端設備,給終端設備計算資源造成了巨大的負擔.另外,在Mall,Mall-WiFi,UJIIndoorLoc數據集上的實驗也說明訓練數據的特征越豐富,DP-FLocEC模型的定位精度越高;而且,在Mall,Mall-WiFi,UJIIndoorLoc數據集上分別取得了91%,94.86%,96.57%的測試精度.這也說明了DP-FLocEC具有很好的實用性和魯棒性.綜上,DP-FLocEC方法能夠在提供高可靠室內定位服務的同時,保護數據及模型參數的隱私,使得室內定位服務應用更加安全、可靠.

Table 4 Comparison of Accuracy, Loss, and Time with Different Models

續表4
4.3.3 不同定位模型的性能比較
為了驗證DP-FLocEC的性能,與Ciftler等人[15]所用的MLP框架以及Liu等人[43]提出的FLoc框架在UJIIndoorLoc數據集上進行比較實驗,由于文獻[15]利用MLP進行室內定位是一個回歸問題,不能與本文的分類任務直接比較.因此,將其轉換成一個分類任務.其中迭代次數為50,批次大小為256,實驗結果如表5所示:

Table 5 Performance Comparison of Different Indoor Localization Models
從表5中可以看出,由于MLP網絡結構比較簡單、FLoc使用了自動編碼器降低RSS數據的維度,使得模型的訓練、測試時間都要優于DP-FLocEC.但是,由于DP-FLocEC使用了CNN來細粒度地提取RSS數據特征,訓練得到的模型能夠充分刻畫數據整體特征,使得DP-FLocEC在模型的測試精度與測試損失方面的性能都要高于MLP和FLoc框架,對測試數據集的分類更準確,但是也造成DP-FLocEC的模型訓練時間遠高于MLP和FLoc框架.總之,基于CNN的DP-FLocEC模型在較快的響應時間內,能夠為用戶提供更加精確、可靠、實時的定位服務.
4.3.4 隱私泄露分析

(9)
本文分別在Mall-WiFi,Mall,UJIIndoorLoc這3個數據集上利用式(9)對DP-FLocEC模型的隱私泄露進行了實驗,結果如圖14所示:

Fig. 14 The analysis of privacy leakage圖14 隱私泄露分析
從圖14中可以看出,在總隱私預算不變的情況下,隨著子隱私預算εs的增大,εc的減小,3個數據集上模型的隱私泄露逐漸上升,當[εs,εc]=[0.9, 0.1]時,在Mall-WiFi數據集上隱私泄露達到最大0.24,而在Mall數據集和UJIIndoorLoc上的隱私泄露值分別為0.0991和0.0083.由于Mall-WiFi數據集僅包含35維的特征,用于模型訓練時易產生過擬合,攻擊者更容易區分出訓練數據,所以隱私泄露會比其他2個數據集高很多.而Mall數據集和UJIIndoorLoc數據集分別包含57維和520維特征,其隱私泄露非常低.這說明隨著數據特征及數量的增大,隱私泄露風險會逐漸降低,這可能是因為數據量及數據特征越大,模型不易過擬合,攻擊者很難區分訓練數據和其余數據.因此,差分隱私機制能很好地保護用戶的RSS數據隱私.從圖14中也可以看出,當[εs,εc]=[0.5,0.5]時,本文方法在Mall-WiFi,Mall,UJIIndoorLoc這3個數據集上的隱私泄露分別為0.0333,0.019,0.0021,考慮到前面討論的隱私預算分配對模型性能的影響,這種分配策略能在隱私保護和模型性能之間取得更好的權衡.
本文提出了DP-FLocEC模型,該模型構建了邊緣計算框架下的聯邦學習協議,降低了云服務器的計算開銷、通信開銷及數據傳輸延遲,同時利用差分隱私技術實現了可證明的隱私保護算法,解決了邊緣服務器和云服務器上定位模型訓練及應用過程中的用戶數據及模型參數隱私泄露問題.為了解決終端設備資源受限問題,DP-FLocEC構建了一個基于CNN的輕量級室內定位模型,在Mall,Mall-WiFi,UJIIndoorLoc數據集上分別取得了91%,94.86%,96.57%的測試精度.實驗結果和安全性分析表明,與基于云架構的集中式模型相比,該機制在提供可證明的隱私保護情況下取得了較高的定位精度、減少了通信開銷;與基于聯邦學習架構的分布式模型相比,該機制在取得幾乎相同定位精度和資源開銷的情況下,提供了更加全面的隱私保護.在未來的工作中,擬構建真實的室內定位及邊緣計算環境,深入研究DL模型隱私保護中的動態隱私分配機制,優化室內定位模型網絡架構,使得DP-FLocEC在提供更加細粒度隱私保護的同時,提高模型的精度,降低模型的訓練、測試時間及通信開銷.
作者貢獻聲明:張學軍是論文核心思想和關鍵算法的提出者,主要負責論文撰寫、修改,指導論文實驗的設計、實現以及結果分析;何福存負責論文撰寫、修改,以及實驗設計、實現與結果統計分析;蓋繼揚、鮑俊達參與論文修改與部分實驗結果分析;黃海燕、杜曉剛參與論文修改與結構設計.