張穎 袁海 張繼東



摘? 要:如何在智慧家庭應用發展、推廣和應用的同時保護家庭信息不被泄露是當前智慧家庭應用研究的熱點之一。針對當前隱私數據保護存在的主要問題,在考慮家庭個體因密切聯系群組特殊性的基礎上,提出一種適合家庭群組的隱私泄露風險評估方法,并重點對利用智慧家庭的隱私泄露風險評估系統進行家庭隱私泄露風險評估的流程進行了闡述,從而為評估智慧家庭應用中潛在的隱私泄露風險水平提供客觀參考依據。
關鍵詞:智慧家庭;隱私泄露;風險評估
中圖分類號:TP309 ? ? ? 文獻標識碼:A 文章編號:2096-4706(2021)01-0143-03
Smart Home Privacy Disclosure Risk Assessment Method and System
ZHANG Ying,YUAN Hai,ZHANG Jidong
(Department of Information and Technology,Tianyi Smart Home Technology Co.,Ltd.,Nanjing? 210012,China)
Abstract:How to protect the family information from being leaked while developing,promoting and applying the smart home application is one of the hot topics in the current smart home application research. In view of the main problems of privacy data protection,this paper proposes a privacy leakage risk assessment method suitable for family groups based on the consideration of the particularity of family individuals because of their close contact with groups,and focuses on the process of family privacy leakage risk assessment using the privacy leakage risk assessment system of smart family,so as to provide an objective reference for the assessment of potential privacy leakage risk level in smart home applications.
Keywords:smart home;privacy disclosure;risk assessment
0? 引? 言
隨著智慧家庭業務的發展,越來越多的智能設備終端通過家庭網關連接到網絡上,通過家庭內外部網絡流動和共享,為用戶提供了更多的智能管理、控制、多媒體和語音、數據等便捷服務。智慧家庭4.0時代更是進一步提升了業務的智能性,朝著人機交互、深度學習等方向演進。但與此同時也帶來了用戶對數據隱私泄露的擔心和憂慮,特別是在智慧家庭業務過程中存在的智能數據挖掘和應用往往容易導致個人甚至其關聯個體的隱私泄露,對個人和社會造成不良后果。筆者所在單位在實際業務發展的過程中,根據實際市場調查和用戶反饋發現,部分用戶往往會擔心隱私泄露從而拒絕相關業務的體驗和使用,某種程度上對智慧家庭業務的發展產生了阻礙。因此我們急需一種針對智慧家庭應用隱私泄露的評估方法和系統,能夠客觀公正的對實際業務應用過程中以家庭為單位的群體潛在隱私泄露風險進行評估。本文主要是基于此背景對家庭群組的隱私泄露風險評估進行研究。
1? 現狀分析
當前針對隱私數據保護的研究主要集中在如何通過一系列脫敏算法或者隱私數據發布保護方法來降低隱私泄露的可能性,如常見的PATE或者差分隱私保護方法,對于隱私泄露風險評估的模型或算法研究相對較少。即使有部分這方面的研究,也存在以下兩個方面的問題:
(1)隱私泄露評估時未考慮數據與數據之間存在的關聯,但實際應用中數據與數據之間往往存在潛在的隱形關聯,某一條數據記錄中的部分字段與其他數據能通過某種方式關聯起來,從而可以推斷出更多的隱私信息,導致隱私泄露;
(2)未考慮不同群體或個人隱私保護的差異性需求。不同的人在隱私保護的訴求上存在一定的差異,對隱私泄露的界定標準也不一致,在以群體(特別是家庭為單位的用戶群體)為單位對隱私泄露風險評估時,更需要一種綜合、客觀、可量化的評價方法和系統。
2? 智慧家庭隱私泄露風險評估系統設計
家庭隱私泄露風險評估系統其系統功能架構如圖1所示。
下文為各功能模塊的具體描述:
(1)隱私數據集預處理模塊:識別家庭場景中各類應用和服務涉及的隱私數據,在進行數據清洗、格式統一化、無用數據過濾、重復數據歸一化以及標準化之后生成隱私數據特征向量。
(2)隱私數據庫:其存儲的隱私數據包括但不限于:家庭成員的個人信息(如年齡、身份證號、職業、興趣愛好、工作單位等),APP訪問信息和日志信息、上網特征信息和流量信息、家庭智能設備基本信息、家庭智能設備使用日志信息、其他信息等。每一條隱私數據記錄由以下元組構成:{[隱私標簽元數據MetaDi];[隱私標簽元數據描述MetaDSpec-i,可用正則表達式或巴科斯范式描述];(關鍵詞列表(關鍵詞1,關鍵詞2,關鍵詞3,…,關鍵詞n,該元素為可選));特征值}。
(3)用戶組信息預處理模塊:根據家庭中不同成員對隱私保護的個性化需求,結合隱私數據集預處理模塊的輸出,評估每一個用戶對該類數據的開放程度并形成家庭用戶成員和隱私數據集之間的隱私開放矩陣。
(4)隱私數據集計算模塊:根據隱私數據集合的特征向量和用戶隱私開放矩陣,按照給定的算法計算隱私數據集的風險泄露向量值。
(5)隱私泄露風險評估模塊:根據隱私數集的特征結合隱私數據集的風險泄露向量值進行計算,并綜合評估隱私泄露風險。
3? 智慧家庭隱私泄露風險評估流程
以家庭為單位對隱私泄露風險進行評估,需要經過六個步驟,其流程如圖2所示。
步驟一:定義智慧家庭場景中的隱私數據集。通過梳理家庭各種應用和服務中涉及的業務數據和日志數據等,經過清洗、分析和整理之后采用分詞器對其進行分詞,得到具體的數據項集。根據每個數據項集的每一項數據,利用其關鍵詞檢索隱私數據庫進行特征匹配,如果能夠匹配成功,則該數據為隱私數據,將其對應的特征值加入元組,否則丟棄。
定義X={i1,i2,…,im}為包含m個不同隱私數據項i的集合,稱為隱私數據項集,其中i為該隱私數據項對應的特征向量。假定經過整理所有的應用和業務,最終得到p個數隱私數據項集,p為業務和應用數之和,則該隱私數據項集可表示為{i1,i2,…,ip}。取t=Max{m|其中m為X1,X2,
…,Xp中數據項的個數},則p個隱私數據項集可用矩陣Pr表示:
步驟二:確定隱私數據集的關聯程度并生成相關性系數矩陣R。根據矩陣Pr計算相關性系數矩陣R的公式如式(1)所示:
R=(rij)t×t? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
其中每一個rij的計算公式如式(2)所示:
(2)
步驟三:評估家庭用戶群u對某一類隱私數據集的開放程度ai。根據實際需要將用戶對每一類隱私數據的開放程度劃分為A,B,C,D,E,F…,n個等級,其中A等級所代表最低開放等級,n代表最高開放等級,但最大值不超過1,表示可以完全公開。該等級可用不同的數字表示{n1,n2,…,nm}。其中n滿足條件:{nk<1,k=1,2,3,…,m,當i 假定家庭中有m個成員,每一個成員對數據集{X1,X2,…,Xp}中數據項的開發程度用特征向量ui(a1,a2,a3,…,ap)表示,則家庭成員隱私開放性和數據集P之間的關系可表示為: 最終數據集Xi在家庭用戶群體中最小允許開放程度用Fp表示,則Fp=F(min{uk(a1)},min{uk(a2),min{uk(ap)}})其中k={1,…,z}),z為家庭成員個數。 步驟四:對于每一類隱私數據集的數據項確認其三元組信息{泄露嚴重性Si,泄露難易程度Bi,用戶群u的開放程度min{ai}}。 對于某一類隱私數據集對其從三個維度進行評價:泄露嚴重性Si、泄露難易程度Bi、數據開放程度Fpi,從而形成隱私數據集三元組(泄露嚴重性Si、泄露難易程度Bi、數據開放程度Fpi)。其中Si≥1,Si值越高表示該數據泄露之后其對用戶造成的損失越大,后果越嚴重;Bi≥1,Bi值越高表示該數據越難泄露;Fpi≤1,其值越小表示用戶越不容易開放。 步驟五:計算每一類隱私數據集隱私泄露程度。針對某一數據集Xp,定義其隱私泄露危險系數為: θ=(Si·Fpi)/Bi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3) 針對隱私數據集{X1,X2,…,Xp},創建隱私泄露向量 T[θ1,θ1,θ2,…θp];定義數據集{X1,X2,…,Xp}隱私泄露風險值向量為RVALUE,其中RVALUE用{Risk1,Risk2, …,Riskp}表示,則: RVALUE=R·T? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4) 其中R為相關性系數矩陣,T為隱私泄露向量。 步驟六:計算整體家庭隱私泄露風險量化值。結合實際具體應用或服務中數據產生或采集的頻率,定義某一隱私數據項imn在某一時間段出現的次數為rmn,計算每一個數據項出現的頻率FREmn,則: (5) 定義數據集XP的隱私權重為Weightk=max{FREmk},根據式(6)計算家庭數據隱私評估風險: (6) 4? 家庭隱私泄露風險評估案例 以一個有四位成員的普通家庭為例,假設其日常家庭業務場景相對簡單,通過對其家庭各類應用中產生的數據、日志進行整理之后得到以下三個方面的記錄集合: 集合一:{APP使用情況;{APP打開時間,APP動作,使用者,搜索關鍵詞},{1,4,3,2}}; 集合二:{上網情況:{訪問時間,訪問網站,停留時長,關鍵詞主題},{1/2,1/2,3,2}}; 集合三:{設備信息:{設備名稱,設備動作,時間},{2,4,1,0}}; 集合四:{個人信息:{身份證,姓名,性別,年齡},{2,3,4,1}}。
因此可以得到隱私數據項集Pr:
步驟二:確定隱私數據集的關聯程度并生成關聯矩陣rij。通過式(1)計算關聯矩陣rij如下:
步驟三:評估家庭用戶群u對某一類隱私數據集的開放程度ai,假設家庭中每一個成員對上述三個數據集的開放程度用矩陣表示:
步驟四:對于數據集一、二、三、四分別確認其三元組信息{泄露嚴重性Si、泄露難易程度Bi、用戶群u的開放程度min{ai}},則這四個數據集三元組信息計算結果如下:
數據集一:{Si=5,Bi=2,Fpi=1/6};
數據集二:{Si=3,Bi=6,Fpi=1/4};
數據集三:{Si=2,Bi=6,Fpi=1/5};
數據集四:{Si=8,Bi=6,Fpi=1/8}。
步驟五:計算每一類隱私數據集的隱私泄露程度,各數據集的隱私泄露危險系數通過式(2)計算,計算結果為:
數據集一X1,其隱私泄露危險系數計算為:5/12;
數據集二X2,其隱私泄露危險系數計算為:3/24;
數據集三X3,其隱私泄露危險系數計算為:1/15;
數據集三X4,其隱私泄露危險系數計算為:1/6。
針對數據集{X1,X2,X3,X4},創建隱私泄露向量T[θ1,θ2,θ3,θ4]={5/12,1/8,1/15,1/6};定義數據集{X1,X2,X3,X4}隱私泄露風險值向量為RVALUE,則RVALUE根據公式(3)計算結果為:
步驟六:計算整體家庭隱私泄露風險量化值。假定30天內數據集{X1,X2,X3,X4}采取的次數最大值為{210,120,30,10},則根據公式四數據集{X1,X2,X3,X4}的頻率Weightk分別為{7,4,1,0.33}。
根據公式五計算家庭數據隱私評估風險其計算結果為4.49。
5? 結? 論
本文在分析當前個人隱私保護的基礎上,針對智慧家庭群體之間的密切關聯性,提出的智慧家庭業務中基于群組進行隱私泄露風險評估的方法和系統,該方法在考慮隱私數據之間的關聯性基礎上,同時考慮了不同個體個性化隱私保護需要,同時具有強擴展性和推廣性,可以推廣應用到物聯網場景下對群體隱私泄露的評估。本方法也存在一些不足,即對智慧家庭每一項應用的業務數據評估需要依賴于人工進行整理和分析,未來可結合人工智能針對智慧家庭業務數據自動進行分析,從而提升智慧家庭應用中的隱私泄露評估效率。
參考文獻:
[1] 李暉,李鳳華,曹進,等.移動互聯服務與隱私保護的研究進展 [J].通信學報,2014,35(11):1-11.
[2] 劉向宇,王斌,楊曉春.社會網絡數據發布隱私保護技術綜述 [J].軟件學報,2014,25(3):576-590.
[3] 蘭麗輝,鞠時光.基于差分隱私的權重社會網絡隱私保護 [J].通信學報,2015,36(9):145-159.
[4] 孟小峰,張嘯劍.大數據隱私管理 [J].計算機研究與發展,2015,52(2):265-281.
[5] 李暉,李鳳華,曹進,等.移動互聯服務與隱私保護的研究進展 [J].通信學報,2014,35(11):1-11.
[6] 彭飛,曾學文,鄧浩江,等.一種基于群組推薦的用戶隱私保護方法 [J].計算機應用研究,2015,32(3):869-872.
作者簡介:張穎(1984—),女,漢族,湖南岳陽人,高級工程師,碩士,研究方向:大數據、人工智能、智能控制、邊緣計算。