鄧青菁,付達杰,邱蒙雯
?
基于信息生命周期視角下的大數據隱私風險管理框架的分析
鄧青菁1,2,付達杰2,邱蒙雯1
(1. 江西財經職業學院 圖書館,江西 九江 332000;2. 江西財經職業學院 信息工程學院,江西 九江 332000)
大數據的時代背景下,圖書館運用大數據更好的為讀者提供服務的同時,也會給讀者帶來隱私方面的風險。基于信息生命周期視角對大數據隱私風險展開分析的基礎上,對圖書館的大數據隱私風險管理框架的建構和實現方法展開分析,形成了基于信息生命周期的大數據隱私風險管理框架,可為關注這一話題的人們提供參考。
信息生命周期;大數據;圖書館;隱私風險管理框架
在云計算、大數據等技術取得快速發展的同時,人類已經進入到大數據時代。對于圖書館來講,在讀者信息管理的整個生命周期內,盡管運用大數據可以更好的為讀者提供服務,但也會給讀者帶來隱私風險。因此,還應加強對信息生命周期視角下的大數據隱私風險管理框架的研究,以便更好的進行大數據的安全應用。
在大數據時代,從信息生產、采集、傳輸、計算分析到存儲和應用的整個過程中,都存在信息泄露的風險[1]。因為大數據的應用可以帶來可觀的效益,以至于信息成為各行各業戰略級資源,導致個人信息保護約束被不斷削弱,各領域都開始進行個人數據的大量收集和存儲以滿足業務需求。而對于圖書館來講,在智慧化發展的過程中,勢必要通過數據采集、計算分析、傳輸、存儲和應用提供一站式檢索等智能化服務。在為讀者提供個性化服務的過程中,也要對讀者個人信息進行收集和挖掘,對讀者信息需求特點進行總結,以便實現對讀者閱讀需求和趨向的合理預測,滿足讀者的服務要求[2]。借助網絡,需要對讀者信息進行傳輸。借助網絡互動接口,圖書館可以為讀者提供知識導航、個性推薦等服務。而包含讀者個人信息、使用記錄等在內的數據均為讀者隱私,一旦在某個環節出現信息泄露問題,就會引發風險[3]。
從圖書館信息生命周期視角來看,圖書館在讀者信息管理方面存在較多的隱私風險。首先,在數據收集方面,讀者在登錄圖書館平臺進行信息提交和資源搜索的過程中,相關數據信息都將被后臺服務器自動記錄。在到實體圖書館獲取服務的過程中,包含門禁系統、借閱系統等系統在內都會對讀者借閱信息和個人信息進行采集。在這種情況下,讀者實際上失去了對隱私的控制權,無法阻止個人隱私數據被采集。其次,圖書館在數據分析和計算方面,也會利用數據挖掘技術對收集到的數據進行處理,從而結合讀者需求信息提供更好的服務。結合讀者行為規律,圖書館也將對讀者的偏好和趨向進行預測,完成讀者潛在需求的挖掘,同樣會給讀者帶來隱私風險。再者,在數據傳輸的過程中,圖書館通常利用公開的網絡技能型讀者個人信息傳輸。采用鏈路竊聽、木馬等手段,可以對讀者信息進行獲取,同樣會給讀者隱私帶來威脅。此外,在數據存儲方面,圖書館目前廣泛采用了云計算技術,以降低數據存儲成本和實現數據循環利用。采用該種存儲方式,可以通過登錄賬號隨時隨地的進行讀者個人隱私信息的查看,難以保證數據不被泄露。最后,在數據應用方面,圖書館會根據讀者請求對各種數據進行頻繁存取。在設備缺乏病毒防御能力,并且系統訪問無需身份認證的情況下,就可能導致讀者隱私信息遭到泄漏或破壞。
針對圖書館大數據隱私風險,還要完成相應管理框架的構建,以便采用隱私保護理論和大數據技術加強讀者隱私風險管控,避免讀者隱私信息泄露或遭到破壞。考慮到隱私風險存在于各個環節,還要從信息生命周期視角進行框架的構建,實現對隱私風險的全生命周期管理。從風險管理需求上來看,依據法律,圖書館應當加強對讀者利益的維護,同時堅持隱私保護政策開放,以便在隱私保護和大數據決策收益之間達到一種平衡。為此,管理框架的構建應保證讀者享有隱私數據采集、存儲、處理等過程的告知權,能夠根據自身需求選擇是否進行隱私大數據的采集和使用。圖書館在面向讀者的過程中,需要向讀者說明大數據隱私風險、數據采集的目的和圖書館采取的隱私保護措施,從而得到讀者的許可和授權。讀者作為大數據生產者,同時也是大數據決策受益人,將根據自身價值衡量結果做出選擇。圖書館在讀者大數據的隱私風險管理方面,則要完成生命周期管理模塊的設計,圍繞隱私大數據生命周期各階段進行隱私風險分析和評估,并采取相應的措施進行隱私保護管理。在建模的過程中,重點需要對隱私信息生命周期特點進行突顯,同時需要加強對各種大數據隱私風險的監測和評估。從總體上來看,在圖書館進行讀者隱私大數據管理的過程中,風險因素即包含來自于外部的威脅,同時也來自于內部問題。從外部來看,在圖書館進行信息服務提供的過程中,可能遭受黑客攻擊、服務中斷等因素的威脅。從內部問題上來看,網絡漏洞、決策者人為泄露信息、服務環境惡化等因素的存在也都容易導致隱私風險的產生。針對這些問題,建立的隱私風險管理框架能夠從法律和技術層面采取相應的措施進行隱私保護,因此能夠實現對隱私風險的全面管理。
結合上述思路,可以完成如圖1所示的基于信息生命周期的大數據隱私風險管理框架。從框架構成上來看,可以大致劃分為三部分,即大數據生命周期管理模塊、隱私風險評估模塊和隱私保護模塊。在大數據生命周期管理模塊設計上,符合信息生命周期發展規律,確定了大數據產生、采集、存儲、計算和應用各環節對應的管理對象,即數據生產者、大數據采集設備、大數據存儲服務器、云計算服務器和大數據決策者[4]。結合讀者隱私數據生命周期各環節涉及的對象和整個管理流程,可以完成隱私信息特征的挖掘,確定信息傳播機理,為隱私風險評估奠定良好基礎。而在隱私風險評估方面,將對各環節讀者隱私被侵犯可能面對的風險問題進行詳細敘述和劃分,能夠為后續采取隱私保護措施提供科學依據。最后,結合各環節存在的隱私風險,提出了隱私安全動態監控、隱私安全動態評估、隱私安全管理技術、事故審計問責、法律與規定保護等措施,確保生命周期各環節實體行為引發的隱私風險能夠得到有效管控[5]。按照管理框架,讀者將根據閱讀服務等級和收益進行大數據應用范圍的選擇。對于圖書館來講,則要根據讀者授權在采集讀者隱私數據時通過隱私安全動態監控避免進行不相關數據的采集,體現圖書館以負責為中心的隱私風險管理原則,避免對讀者隱私數據進行過度采集和挖掘。在利用設備進行大數據采集和傳輸的過程中,則要結合這一環節隱私數據易被竊取等特點加強隱私安全動態評估,對數據來源多樣性進行分析,實現對違反隱私策略的行為進行跟蹤和問責,避免讀者隱私數據遭到泄漏。在大數據云存儲階段,考慮到黑客可以通過攻擊大數據存儲服務器進行圖書館云空間訪問,所以還要采用身份認證等隱私安全管理技術避免讀者隱私數據被非法獲取。在大數據計算和分析的二次利用環節,由于圖書館需要利用云計算服務器進行大數據聚類、分類等處理,完成讀者隱私的進一步挖掘和分析,容易出現分析人員違背規章制度進行讀者隱私數據進行泄露和破壞等行為,因此還要建立安全事故審計問責制度,通過問責預防數據安全問題的發生。最后,在圖書館決策者制定大數據應用決策時,可能出現在與第三方服務商進行信息資源爭奪過程中侵害讀者隱私安全的行為,以至于違背讀者意愿進行數據交換和共享,因此還要借助法規和行規對決策者的行為進行約束,確保大數據的應用范圍能夠得到有效限制。

圖1 基于信息生命周期的大數據隱私風險管理框架
在讀者隱私安全動態監控方面,圖書館可以采用P3P系統。通過將該系統與圖書館網頁瀏覽器綁定在一起,則能在讀者借助瀏覽器進行圖書館資源或服務獲取的過程中,同時在后臺進行P3P系統啟動。系統結合網站要求,會進行讀者個人處理策略的生成,由讀者根據需求完成隱私偏好設定。在隱私設定方面,需要采用EPLA語言,即讀者通過標記語言定義隱私保護策略,確保讀者能夠獲得的隱私的控制權,明確網站需要收集的信息。讀者根據圖書館網站提供的隱私保護選項,可以確定哪些數據信息可以被收集。在默認系統設置的條件下,讀者任何信息都不允許被搜集。在讀者進行各種網頁瀏覽的過程中,一旦有網頁存在搜集行為,P3P系統會在讀者進入網站前提醒讀者,與讀者設定的策略進行比對,詢問讀者是否進行隱私策略的修改[6]。如果讀者選擇修改策略,可以自由瀏覽該網頁,否則將退出該網頁。實際上,采用該種方法對讀者隱私安全進行動態監測,即利用讀者隱私協商保護機制加強讀者隱私保護,能夠采取自定義方式由讀者確定圖書館可以搜集的隱私數據。
在讀者隱私安全動態評估方面,主要采用隱私泄露影響評估的方法,即結合法律規定對隱私風險帶來的影響進行全生命周期的評估。在此基礎上,則要采用安全目標識別的方法,對隱私風險發生的可靠性和嚴重程度進行分析,確定風險大小。采用模糊層次分析法,可以對各風險因素的權重進行確定,然后通過模糊評估確定風險帶來的損失。在權重確定時,可以引入信息熵,結合信息量大小進行客觀賦值。根據各項隱私風險對應的風險等級隸屬度,則能完成圖書館讀者隱私風險等級的定義,將讀者隱私風險劃分為高、較高、中等、較低、低五個等級,結合風險損失概率進行風險等級的判定。最后通過采取安全多方計算的方法,實現對圖書館、云服務提供商、第三方評估機構等各方協同問題的計算,確定各評估主體的隱私能夠得到保護[7]。針對讀者隱私大數據,存在多樣隱私風險。聯合采用多種方法進行隱私安全評估,可以實現對讀者隱私風險的系統評估。從隱私安全評估流程上來看,圖書館需要先完成讀者隱私安全需求的評估,然后通過信息流的描述實現隱私風險識別。采用模糊層次法,則能實現隱私風險量化分析,最終得到隱私風險解決方案。
在讀者隱私安全管理方面,圖書館還應采用多種技術手段,加強對讀者隱私的全面保護。首先,圖書館可以實現對讀者隱私數據的匿名化處理,使讀者隱私數據精度得到降低。采用該技術,需要對讀者隱私信息的個性化特征進行去除,保證讀者無法被輕易定位。采取該種措施,可以將讀者隱藏在群體中,在完成讀者偏好分析的同時,加強讀者隱私數據保護。其次,可以采用數據加密技術進行隱私數據處理,如DES算法、RC2等等[8]。采用不同的算法,擁有不同的安全強度,并且算法應用范圍和運行速度存在一定差異。采用密鑰進行數據非對稱加密,需要利用公開密鑰完成數據加密,然后利用對應私有密鑰完成解密。相較于對稱加密算法,盡管非對稱加密算法相對復雜,但是可以更好的實現通信過程中數據加密,因此可以滿足能夠直接識別讀者身份的隱私數據風險管理要求。針對讀者閱讀行為等數據,由于安全強度要求不高,因此可以采用對稱加密算法進行數據處理。此外,在讀者登錄圖書館平臺進行資源或服務獲取的過程中,可以采用身份認證技術和訪問控制技術,保證只有經過授權的用戶才能進行讀者信息數據庫訪問。而對讀者的訪問權限,也要進行一定的限制,即通過限制數據刪除、修改等權限避免讀者信息被非法使用或篡改。
在讀者隱私數據二次利用和應用決策方面,圖書館還要加強隱私安全管理制度的建設,以便利用法規和行業規范加強讀者隱私風險管理。針對目前大數據時代圖書館讀者隱私保護需求,國家還應出臺相關的法律法規確保圖書館、網絡運營商等機構在采集和使用讀者隱私數據時保證行為規范,加強對讀者隱私的保護[9]。在行業規定上,圖書館還應建立讀者隱私風險管理制度,針對收集得到的讀者隱私數據進行一致化處理和清洗、過濾等操作,確保與圖書館服務無關的讀者隱私數據能夠被及時刪除[10]。在讀者隱私數據使用方面,則要提高管理過程的透明度,確保管理決策者能夠在多方監督下進行讀者隱私數據的使用。最后,圖書館需要建立問責機制,即結合讀者隱私風險評估和動態監測結果進行隱私泄露事件的追蹤調查,確定數據泄露原因,采取相應措施進行責任人或機構的追責。
通過分析可以發現,在整個信息生命周期內,讀者隱私大數據都存在泄露的風險。面對這種情況,圖書館在加強讀者隱私大數據利用的同時,還應加強讀者隱私保護。為此,圖書館還要從法律和技術層面完成由大數據生命周期管理模塊、隱私風險評估模塊、隱私保護管理模塊構成的大數據隱私風險管理框架的建構,從而實現對讀者隱私風險的系統管理。
[1] 馬凱航, 高永明, 吳止鍰等. 大數據時代數據管理技術研究綜述[J]. 軟件, 2015, 36(10): 46-49
[2] 劉紅霞. 物聯網技術在圖書館中的應用[J]. 河南科技, 2015, 14: 4-6.
[3] 王家玲. 智慧圖書館模式下讀者隱私技術保護研究[J]. 圖書館雜志, 2017, 36(9): 82-88.
[4] 朱光, 崔維軍, 張薇薇信息生命周期視角下的大數據隱私風險管理框架研究[J]. 情報資料工作, 2016, 01: 99-103.
[5] 馬曉亭, 陳臣. 基于大數據生命周期理論的讀者隱私風險管理與保護框架構建[J]. 圖書館, 2016(12): 62-66.
[6] 曾子明, 秦思琪. 嵌入PbD理論的云圖書館隱私管理架構[J]. 圖書館論壇, 2017, 37(1): 93-100+18.
[7] 彭華杰. 大數據時代圖書館讀者的隱私危機與隱私保護[J]. 圖書館工作與研究, 2014(12): 56-59.
[8] 卜曉波. 試論大數據云計算環境下的數據安全[J]. 軟件, 2018, 39(2): 197-199.
[9] 閆實, 付佳, 石莉. 大數據環境下基于智慧校園的教學改革[J]. 軟件, 2018, 39(2): 208-211
[10] 馬曉亭. 大數據時代基于服務等級協議的圖書館讀者隱私感知與保護研究[J]. 情報理論與實踐, 2014, 37(4): 57-60.
Analysis of Big Data Privacy Risk Management Framework Based on Information Life Cycle Perspective
DENG Qing-jing1,2, FU Da-jie2, QIU Meng-wen1
(1. Jiangxi Vocational College of Finance and Economics, Library, Jiujiang 332000, China; Jiangxi Vocational College of Finance and Economics, School of Information Engineering, Jiujiang 332000, China)
Under the background of big data, the use of big data in libraries can better serve readers, but it also brings privacy risks to readers. Based on the analysis of big data privacy risk from the perspective of information life cycle, this paper analyzes the construction and implementation of the big data privacy risk management framework of the library, and forms a big data privacy risk management framework based on information life cycle. This paper can provide a reference for people who pay attention to this topic.
Information life cycle; Big data; Library; Privacy risk management framework
TP309.2
A
10.3969/j.issn.1003-6970.2018.09.009
江西省教育廳科技項目“面向大數據的隱私保護技術研究”(GJJ171300)
鄧青菁(1990-),女,助教,主要研究方向:計算機信息管理;付達杰(1983-),男,教授,主要研究方向:數據挖掘與學習分析;邱蒙雯(1992-),女,助理館員,主要研究方向:信息管理。
本文著錄格式:鄧青菁,付達杰,邱蒙雯. 基于信息生命周期視角下的大數據隱私風險管理框架的分析[J]. 軟件,2018,39(9):42-45