摘要:首先介紹了大數據和圖書館用戶隱私的概念,然后探討了圖書館在大數據采集、存儲、處理、傳輸和使用等環節中用戶隱私知情權、外部攻擊隱私泄露、隱私使用許可、內部隱私泄露等問題,提出從立法保護、行業協會管理、技術防范和國外借鑒等方面進行隱私保護。
關鍵詞:大數據;圖書館;用戶隱私;隱私保護
中圖分類號:G252 文獻標識碼:A
DOI:10.13897/j.cnki.hbkjty.2021.0048
大數據是繼云計算、物聯網技術之后在IT行業中的又一次顛覆性革命技術[1],推動了圖書館服務模式的變革,提高了服務效率。在大數據技術條件下,圖書館可以輕易收集用戶信息,包括姓名、性別、專業班級、借閱信息、檢索記錄、瀏覽日志、網絡留言及聊天記錄等,通過對這些信息的挖掘和關聯分析,就可以推測出用戶的閱讀偏好,從而得出用戶的閱讀需求,以便為用戶提供精準的個性化服務。然而,凡事都有利弊,圖書館在運用大數據的過程中(即采集、存儲、處理、傳輸和使用等環節),由于大數據本身的技術缺陷和圖書館的管理問題,使得用戶隱私面臨被泄露的風險,比如2013年3月Interlib圖書館集群管理系統被檢測出“注射漏洞”,致使百萬讀者信息遭泄露[2]。因此,圖書館在利用大數據技術提高自身服務效率的同時,如何保護好用戶隱私,是學術界應該認真思考的一個課題。
1 大數據和圖書館用戶隱私
“大數據”一詞最早來源于美國人阿爾文·托夫勒1980年出版的《第三次浪潮》一書,它被稱為“第三次浪潮的華彩樂章”。大數據的最早使用出現在麥肯錫公司2011年所作的報告《大數據:下一個前沿,競爭力、創新力和生產力》中,該報告提出了大數據研究的地位和它給社會帶來的價值[3]。關于大數據的概念,至今尚無統一的說法。如有學者認為大數據是指數據量規模巨大且無法在合理時間內通過人工來收集、處理和整理成為人類所能解讀的信息[4]。本文采用研究機構 Gartner 對它的定義,“大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產” [5]。
大數據的應用在于其價值,而價值的實現則需要依靠大數據的運行機制。大數據的運行機制是指從用戶收集數據再到為用戶提供服務以獲取利潤的過程。按照數據流向劃分,大數據的運行流程依次包括采集、存儲、處理、傳輸和使用等環節。大數據運用在圖書館的價值已得到充分體現,它改變了圖書館的服務模式,提高了服務效率,但隨之帶來的用戶隱私侵權問題也越來越嚴重。
圖書館用戶隱私是指用戶在使用圖書館資源和設備的過程中所留下的、不想讓他人知道的行為和信息,包括用戶行為隱私和用戶信息隱私[6]。用戶行為隱私,也叫用戶活動隱私,是指用戶可以在不受他人干擾、監視的情況下,按照自己的興趣愛好和需求自由地使用圖書館的資源和設備的行為;用戶信息隱私是指用戶在利用圖書館資源和設備過程中留下的各種私人信息。本文研究的用戶隱私是指用戶信息隱私,包括用戶姓名、證件號碼、電子郵件、登錄密碼、圖書借閱記錄、文獻檢索記錄、參考咨詢內容、網頁瀏覽記錄、Cookie數據等私人信息。由于技術和管理等原因,圖書館在利用大數據的采集、存儲、處理、傳輸和使用等環節中會存在著隱私知情權、外部攻擊、使用許可、隱私泄漏、數據販賣等問題。
2 大數據環境下圖書館用戶的隱私權問題
2.1 數據采集中的用戶隱私知情權問題
數據采集,是把不同來源、不同格式及不同特征的各種數據收集起來的過程,包括線上行為數據采集和內容數據采集。線上行為數據采集包括頁面數據、表單數據、交互數據、會話數據等,內容數據采集包括應用日志、機器數據、語音數據、電子文檔、社交媒體數據等。大數據采集的方法包括以下幾種:(1)系統日志采集法。它運用的工具包括了Flume、Chukwa、Scribe等,都采用分布式架構,可以滿足每秒數百MB的日志數據采集和傳輸需求。(2)網絡數據采集法。它通過網絡爬蟲或網站公開API等方式從網站上獲取數據,并將非結構化數據從網頁中抽取出來,并以結構化的方式存儲在本地數據文件里。(3)其他數據采集法。對那些保密要求較高的數據信息,如企業生產經營數據和科學研究數據,就可使用特定的系統接口方式采集數據[7]。
圖書館用戶隱私數據采集的設備包括監控器、傳感器、智能終端、無線射頻識別技術(RFID)、語義網、社交平臺等[8],采集的數據除靜態的個人信息,如姓名、性別、年齡、受教育程度、聯系方式等,還包括動態的閱讀偏好、瀏覽內容、業余喜好、健康狀況、心理狀態等信息[9]。圖書館用戶隱私采集方式分為顯性和隱性兩種,但都會存在著用戶隱私侵權風險:(1)顯性采集。顯性采集是指對圖書館管理服務系統中的注冊和借閱等數據進行采集,雖然這種采集在注冊時就會得到用戶的授權,但還是會有隱私侵權的風險,如有的圖書館為了提供精準的個性化服務需要進一步挖掘用戶的潛在需求,卻在用戶不知情的情況下,擅自搜集了用戶資料,影響了用戶對隱私信息的控制權和支配權,這顯然侵害了用戶的隱私權益[10]。(2)隱性采集。隱性采集是對圖書館的資源服務系統和公共網站的登錄和閱讀等日志數據,以及微信和各種APP應用平臺的訪問、咨詢等行為數據進行的采集。它雖然有利于用戶動態信息的及時更新和圖書館開展個性化服務,但被采集數據的實際去向和用途卻沒有讓用戶知曉[10],因此侵犯了用戶的隱私知情權。
2.2 數據存儲中外部攻擊引起的隱私泄露問題
數據存儲是把采集到的數據以某種格式存放在計算機內部或外部存儲介質上以便將來使用。大數據環境下,數據存儲的對象除了結構化數據外,更主要的是非結構化的數據,因此,傳統的存儲方式已無法滿足大數據技術的需要。當前大數據采用的存儲方式包括分布式系統、NoSQL數據庫、云數據庫三種形式。分布式系統有多個自主處理單元,可通過計算機互聯網協作來完成分配的任務,包括分布式文件系統和分布式鍵值系統。NoSQL數據庫能彌補關系數據庫的劣勢,能夠支持超大規模數據的存儲,具有強大的橫向擴展能力。云數據庫是基于云技術發展起來的一種共享基礎架構的方法,是以虛擬化的方式部署在云計算環境中的數據庫[11],是目前各行各業采用較多的一種存儲方式,但其安全性有待提高。
數據存儲是數字圖書館建設的關鍵,也是圖書館開展服務的依托,但近年來頻頻爆發的圖書館用戶隱私數據泄露事件又引起了人們對數據存儲安全性問題的擔憂。如前文所說的 “Interlib圖書館泄露百萬讀者信息事件”,這些泄密事件就是通過對圖書館的用戶數據存儲服務器展開攻擊所引發的。在大數據環境下,外部攻擊已成為了圖書館用戶隱私數據泄露的主要威脅。據中安威士發布的 《2018數據泄露事件概要匯總》顯示,由外部攻擊所引發的數據泄露事件占的比例高達70%,包括利用軟件漏洞攻擊、傳播惡意病毒、繞行安全策略和暴力破解等[12]。圖書館用戶數據由于包含了敏感信息而具有獨特的商業價值密度,從而成了商業機構爭奪和黑客攻擊的重點對象。網絡黑客可以利用遠程技術控制用戶的移動終端設備,或通過植入病毒、安全漏洞等隱蔽方式入侵圖書館的計算機服務系統和內部局域網[10],非法獲取用戶隱私信息牟利,從而侵害了用戶的隱私權。
2.3 數據處理中的隱私使用許可權問題
數據處理是指從大量紛繁復雜的原始數據中抽取并推導出有價值數據的過程,包括數據分析和數據挖掘。數據分析是指通過適當的統計和分析方法對所收集的龐大數據進行分析,并加以匯總、理解和消化,以求最大化地開發數據的功能及發揮數據的作用[13]。它一般會用到EMC的GreenPlum、Oracle的Exadata、MySQL的列式存儲Infobright、Hadoop等技術手段。數據挖掘是指從大量的數據中揭示出隱含的、先前未知的并具有潛在價值的信息的過程,主要通過人工智能、機器學習、統計學、模式識別、數據庫及可視化技術等手段來實現[14]。
數據處理是圖書館數字化建設的重要階段,圖書館在數據處理的過程中如若處理不當也會有侵害用戶隱私權益的風險。為提高服務質量,圖書館在數據分析和數據挖掘的過程中都會用到用戶的一些基礎的個人信息數據進行相關性分析,以歸納或推導出用戶的閱讀偏好或興趣愛好,但是這些數據加工過程是在用戶不知情的情況下進行的,需要用戶進一步授權,否則就會侵犯到用戶的隱私權,因為用戶不僅擁有對自己隱私信息被采集的同意權,當然也擁有對隱私信息使用的許可權。
2.4 數據傳輸中的隱私內部泄露問題
數據傳輸是指通過一條或多條數據鏈路,按照一定的規程將數據從數據源傳輸到數據終端的過程,簡單地說就是將數據從一個地方傳送到另外一個地方的過程。數據傳輸在整個大數據運行中處于重要地位和關鍵環節,相當把人體的神經信號傳送給身體的各個部位[15]。
數據傳輸是數字圖書館建設的重要環節,如果傳輸方式或保密措施不當會造成用戶隱私的泄露。數據傳輸按照是否采取保密措施來劃分,分為加密傳輸和非加密傳輸。非加密傳輸泄露用戶隱私的風險較大,而加密傳輸泄露隱私的風險較小。按照加密的方式劃分,分為單向加密傳輸、對稱加密傳輸、非對稱加密傳輸:單向加密只能加密,不能解密,常用于數據庫中用戶信息的加密,以及指紋信息的保存,安全性高;對稱加密的加密和解密是使用同一個密鑰,便于操作、效率較高,但是密鑰傳輸過程不安全,容易破解;非對稱加密的密碼有兩個,一個用來加密數據,一個用來解密數據,安全性較高,但操作麻煩[16]。這三種加密措施中對稱加密傳輸泄露用戶隱私的風險要更大一些。
2.5 數據使用中的隱私數據販賣問題
數據使用就是把采集到的數據經過存儲、處理、傳輸等環節后再結合自己的行業特點具體使用數據的過程,以實現數據的最終價值。它是大數據運行的最后階段,也是大數據數據采集和處理的最終目的。目前隨著大數據技術的快速發展,大數據已廣泛應用到各行各業中,由此催生了大數據產業。
大數據在圖書館的使用已十分普遍,但用戶隱私侵權問題也時有發生,具體體現在圖書館使用和授權第三方使用中。圖書館使用是圖書館自己利用其掌握的用戶隱私信息來為讀者服務,以提升服務效率和質量。由于該方式基本都獲得了用戶的授權許可,通常不存在隱私侵權問題,但也不能排除個別工作人員出于利益在管理和使用隱私數據的過程中通過備份、截留及偷換等非法手段將用戶隱私數據直接販賣給商業機構,謀求金錢利益,這顯然侵犯了用戶的隱私權益[10]。授權第三方使用是指圖書館由于經費、技術及人員的限制而被迫引入第三方服務商,允許它們通過對用戶數據的使用來提供更好的服務。在這種情況下,圖書館實際上喪失了對用戶隱私數據的控制權,導致隱私數據被泄露或販賣的風險更高。
3 大數據環境下圖書館用戶隱私保護路徑
3.1 完善隱私保護相關立法
當前我國還沒有出臺專門的隱私保護法,與之相關的條款散見于《民法通則》《民事訴訟法》《侵權責任法》《網絡安全法》《公共圖書館法》《民法典》等法規中。如《侵權責任法》把“隱私權”歸入民事權益進行保護(第2條);2017年的《網絡安全法》規定“網絡運營者不得泄露、篡改、毀損其收集的個人信息”;2020年的《民法典》規定“任何組織或者個人不得以刺探、侵擾、泄露、公開等方式侵害他人的隱私權”[17]。與圖書館用戶隱私保護相關的法律目前僅有2017年11月頒布的《公共圖書館法》。該法規定,“公共圖書館應當妥善保護讀者的個人信息、借閱信息以及其他可能涉及讀者隱私的信息,不得出售或者以其他方式非法向他人提供”[18]。然而,當前這些法規存在著“法條分散” “規定模糊” “內容老化” “指向單一”等問題,顯然無法應對大數據環境下用戶隱私保護的復雜情勢。為更好地保護用戶隱私信息,我們需要完善當前的法規,或者由國家立法部門新出臺專門的隱私保護法,對當前的這些法規進行整合,并對隱私的概念和保護范圍作出統一規定,并對數據隱私保護的責任主體、監管機構、保護方式、救濟途徑等進行明確規定。
3.2 圖書館協會承擔行業管理的責任
圖書館行業協會是協調和規范各地圖書館運作的行業組織,無疑可在用戶隱私保護中承擔重要角色。在國外,依靠行業協會來保護圖書館用戶隱私也是許多國家倡導的模式,如美國圖書館協會為保護讀者隱私,很早就制定了諸如《圖書館記錄機密政策》《職業道德規范聲明》《美國圖書館協會的倫理守則》《制定圖書館隱私政策指南 (2005) 》等行業規范[19]。而我國目前在隱私保護方面的全國性圖書館行業協會規章只有2002年11月15日由中國圖書館協會制定的《中國圖書館員職業道德準則》,其中第四條中規定了“維護讀者權益,保守讀者秘密”[6]。然而該準則只是原則性的規定,沒有具體的操作細則,且出臺近二十年來未有修改,顯然無法應對大數據環境下用戶隱私保護的狀況。因此,圖書館協會要承擔起行業管理的責任,尤其是各地方圖書館行業協會要與時俱進,針對大數據情勢下用戶隱私保護的新變化,及時出臺相關政策和規章,供本地區所有圖書館參照和使用。這些行業政策和規章,內容上要盡量細化,包括隱私收集的目的、使用范圍、保密措施、責任追究等都要規定,使其更具操作性和實用性。
3.3 強化技術保護措施
用戶隱私數據安全,除了靠立法和管理外,也離不開技術保護的支持。在大數據技術條件下,圖書館用戶的隱私侵權問題許多都是由技術缺陷造成的,因此還必須依靠技術手段的強化來解決。當前對用戶隱私數據保護采用較多的主要為以下幾種技術措施:(1)防火墻技術。防火墻技術是通過在計算機內外網之間構建起一道相對隔絕的保護屏障,從而達到保護用戶資料與信息安全的目的,包括智能防火墻和分布式防火墻等[20],是防止外部入侵的有效手段。(2)數據加密技術。它分為單向加密、對稱加密和非對稱加密。其中,單向加密安全性最高,非對稱加密次之,對稱加密最低。用戶可根據自己隱私數據不同的安全需求采取不同的加密方法,如對賬號、密碼等數據采用單向加密,對姓名、聯系方式等通識性信息采用對稱加密。(3)跟蹤識別技術。它是數據運營商或網絡平臺主動采取的對用戶隱私數據進行全程跟蹤及實時監測的一種技術,一旦在數據運行中出現隱私泄露風險或侵權隱患可以及時報告。利用該技術運營商和平臺可以把用戶隱私侵權風險降到最低,從而避免隱私侵權問題。(4)數據溯源和刪除技術。它是指數據運營商或平臺在發生隱私侵權事件后能夠依照相關線索迅速找到隱私數據的泄露源頭并快速刪除,它的方向與數據的利用方向正好相反[21]。數據溯源和刪除技術是“避風港原則”的有效利用,平臺只要接到侵權通知后找到源頭并刪除它,就可以不承擔隱私侵權的責任。
3.4 域外借鑒和參考
圖書館用戶隱私保護是近年來國內外普遍面臨的一個難題,由于問題的相似性,我們可借鑒國外先進經驗。目前在圖書館用戶隱私保護方面規制較多的國家有美國、英國、澳大利亞和加拿大。例如,美國的《圖書館記錄機密政策》規定,“任何反映用戶與特定資料之間關系的記錄都屬機密,圖書館只有在收到法庭傳票并且認為其適當的情況下,才能提供所要求的記錄”,而《美國圖書館協會的倫理守則》則提出,“保護每位讀者的隱私權,對其查詢或獲取的信息,咨詢、借閱、征集及傳遞的資源均應予以保密”[19]。英國《圖書館用戶隱私指南》規定,“圖書館應避免將用戶的個人數據置于公眾視野”,“個人數據的使用用途不得用于目的之外的其他用途”。澳大利亞《圖書館隱私保護指南》規定,“對于用戶的隱私信息只有在法律需要的情況下才可以搜集”,“未經用戶同意不披露或對外公布用戶的個人信息”。加拿大《不列顛哥倫比亞省公共圖書館隱私保護指南》著重強調了“圖書館隱私專員”的權利和作用,規定“使用者發出請求后,還應該取得圖書館隱私專員的許可”[22]。這些國家在圖書館用戶隱私保護方面的規制經驗,可以為我國圖書館用戶隱私保護提供一些借鑒和參考。
4 結語
綜上,在大數據技術條件下,由于互聯網的開放性和大數據的動態性,圖書館用戶隱私泄露風險日益增大,相關侵權糾紛也越來越多。如何在大數據利用過程中保護好圖書館用戶的隱私數據,是需要我們不斷思考的問題,希望法學界和圖書館界人士繼續獻言獻策。
參考文獻
[1]馬曉亭,李凌.基于大數據的圖書館用戶個性化隱私保護策略[J].現代情報,2014(3):60-62,67.
[2]WooYun漏洞庫.Interlib圖書館集群管理系統存在注射漏洞,百萬讀者信息泄露[EB/OL]. (2013-03-18) [2021-02-19]. https://www.uedbox.com/post/4
0890/.
[3]趙娜.大數據研究綜述[J].電子測試,2015(5):87-90.
[4]陸雪梅,古春生.大數據環境下用戶信息隱私泄露成因分析和保護對策[J].現代情報,2016(11):66-70.
[5]王妍,柴劍平.大數據及相關技術解讀[J].廣播電視信息,2014(2):18-21.
[6]王春曉,王丹.圖書館用戶隱私問題研究綜述[J].圖書館學刊,2013(2):138-141.
[7]不詳.什么是大數據采集?大數據采集的過程是什么?[EB/OL].(2020-02-11)[2021-02-19]. https://blog.csdn.net/juan777/article/details/104261922.
[8]韓禮紅,韓翠峰.大數據時代圖書館個性化信息服務中讀者隱私保護研究[J].阜陽師范學院學報(社會科學版),2016(1):153-156.
[9]梁榮賢.基于“互聯網+”視角的圖書館用戶隱私保護研究[J].圖書館工作與研究,2017(5):124-128.
[10]周林興,徐承來.用戶畫像視域下的圖書館用戶隱私問題研究[J].圖書館學研究,2020(3):26-34.
[11]搜狐.大數據的存儲方式[EB/OL].(2016-11-01) [2021-02-19]. https://www.sohu.com/a/11786
7612_421062.
[12]搜狐.2018年數據泄露事件概要匯總[EB/OL].(2019-03-11) [2021-02-19]. https://www.sohu.com/a/300519296_120056080.
[13]陶皖.云計算與大數據[M].西安:西安電子科技大學出版社,2017:12,44-45.
[14]唐亞陽.中國網絡文化發展二十年(1994-2014)網絡技術編[M].長沙:湖南大學出版社,2014:150.
[15]申時凱,佘玉梅.物聯網的技術開發與應用研究[M].長春:東北師范大學出版社,2017:217.
[16]不詳.常見的數據加密方式[EB/OL].(2017-05-15) [2021-02-19].https://blog.csdn.net/weixin_34138139/article/details/92917951.
[17]中國人大網.中華人民共和國民法典[EB/OL].(2020-06-02) [2021-02-19]. http://www.npc.gov.cn/npc/c30834/202006/75ba6483b8344591abd07917e
1d25cc8.shtml.
[18]新華網.中華人民共和國公共圖書館法[EB/OL].(2017-11-05) [2021-02-19]. http://www.gov.cn/xinwen/2017-11/05/content_5237326.htm.
[19]郭華.美國圖書館協會與讀者隱私權的保護[J].圖書館學研究,2009(12):73-75.
[20]劉磊.計算機網絡安全中防火墻技術研究[J].無線互聯科技,2018(22):34-35.
[21]馬燦.大數據環境下的用戶隱私保護及其對策研究[J].圖書情報導刊,2016(5):96-98.
[22]田淑嫻,許春漫.國外圖書館用戶隱私保護指南文本分析與啟示[J].圖書情報工作,2015(18):61-66.
作者簡介:王建(1974),男,碩士,西南科技大學圖書館研究館員,法學院碩士生導師。研究方向:信息服務、信息法與知識產權。
(收稿日期:2021-03-12 責任編輯:張靜茹)
Research on Protection Path of Library User Privacy under Big Data Environment
Wang Jian
Abstract:This paper first introduces the concepts of big data and library user privacy, and then discusses the issues caused in the middle of big data collection, storage, processing, transmission and use, such as usersright to know, privacy disclosure by external attack, privacy use license, and internal privacy disclosure. Finally, some suggestions on privacy protection are put forward from the aspects of legislation protection, industry association management, technology prevention and foreign reference.
Keywords: Big Data; Library; User Privacy; Privacy Protection