陸 康 劉 慧 杜京容 任貝貝
(1.南京曉莊學院 南京 211171; 2.上海市網絡技術綜合應用研究所 上海 200336)
近些年來,隨著信息技術的進步以及數字圖書館功能的逐步完善,進一步推動了圖書館的轉型升級,智慧圖書館逐漸成為數字圖書館的高級范式[1]。智慧圖書館是當下圖書館發展的新趨勢,也是一種重要的圖書館發展理念[2]。自2004年H.Watson 最早提出“數據治理”概念以來,這一概念逐漸引起企業界和政府的關注[3]。數據治理的目標是確保數據管理活動始終處于規范、有序和可控的狀態,確保數據資產得到正確有效的管理,并最終實現數據資產價值的最大化。其問題包括三個方面:數據價值、數據安全以及用戶保護[4]。數據價值的維度是多樣化的,既可分為經濟與非經濟價值,也可分為短期與長期價值以及局部與全局價值等,然而數據價值的體現需要通過數據治理來實現。如何整合圖書館所擁有的海量數據,對其進行挖掘、計算、分析,為用戶提供智慧化的數據服務和知識服務,是圖書館學理論需要深入研究的問題[5]。智慧圖書館要革新服務理念,提供一體化的讀者服務和資源發現服務,重構學術服務,強化數據管理[6]。雖然數據所產生的直接經濟價值較低,但是其間接經濟價值較為明顯,例如在用戶需求分析、精準服務等方面,非經濟價值則體現在數據所承載的用戶信息,例如情報預測功能,運用數據對用戶進行“描繪”,即通過“用戶畫像”“學習分析”來反映或者推測某些事件,智慧圖書館也是基于此來獲取用戶需求,進而開展針對性的個性化服務。數據承載著用戶信息,需要對其進行有效保護。智慧圖書館中的數據不僅包括傳統的單一層面數據和統計層面數據,也包括海量數據——大數據。圖書館能從三層數據的變化角度來反映數據價值的演變,進而影響個人信息保護模式,數據價值的角度重構與反思個人信息保護,能夠更好地平衡數據價值與數據隱私之間的關系,為智慧圖書館的健康發展提供理論支撐。
大數據技術開啟了人類社會新時代,不僅讓社會呈現出鮮明的智能化、數字化特征,而且成為推進治理能力現代化的一種技術路徑[7]。數據治理生態體系需要圖書館執行數據獲取、數據共享、數據重用的政策[8]。一個組織的發展離不開良好的數據治理[9],然而目前數據治理尚未形成統一的標準定義。IBM將數據治理定義為一種質量控制規程,用在管理、使用、改進以及保護組織信息的過程中,以提高嚴謹性和紀律性[10]。數據治理從本質上看就是對一個機構(企業或政府部門)的數據從收集融合到分析管理及利用進行評估、指導和監督(EDM)的過程,通過提供不斷創新的數據服務,為企業創造價值。數據治理與數據管理屬于不同的概念,也存在著聯系,具體表現在:第一,治理的職能包括評估指導與監督,管理則包括計劃建設與運營;第二,治理包含輔助決策的數據規范,管理則是對治理提出決策的反饋;第三,治理是宏觀規劃,管理是具體事務;隨著智慧圖書館的發展,圖書館業務對數據的需求與日俱增,數據治理、管理成為圖書館界關注的焦點之一。
在數據安全得到保障的前提下,數據價值應該盡量多地釋放,以滿足社會發展的需求。智慧圖書館所關注的數據價值,強調對用戶行為數據的研究,提供針對性、個性化、精細化的服務。而數據治理的目標是實現數據價值,與智慧圖書館的發展目標一致,由于圖書館行業的管理與服務創新均以數字化、智慧化為主[11],數據價值也成為創新的關鍵因素之一。圖書館在系統運營管理以及用戶服務過程中,往往會根據用戶的背景,如學歷層次、學科背景、閱讀習慣等,對不同數據進行價值分析,實現圖書館業務運營、資源分配以及用戶服務的精準性、高效性,最終向智慧性方向努力,這些都以數據價值發掘為基礎。數據是一種時刻變化的信息形式,其價值也具有周期性、時效性的特點。圖書館員等長期以來的業務積累,使其具備一定的數據跨情景運用能力,例如運用技術調節方法開展信息交換(信息分享),這是圖書館文獻資源服務的基礎模式,與“知識共享”框架存在著交集。所以,數據價值對于圖書館來說,無論是用于開展用戶服務(用戶行為數據價值),還是用于開展知識服務(文獻資源數據價值)等,都將成為圖書館開展智慧服務的關鍵所在。
數據具有多樣性。數據因應用而生,隨著技術的發展,數據可以分為單一層面數據、統計層面數據以及大數據,這三種數據的變化也體現了數據價值的演變,主要表現在從個體到群體,進而引發從量變到質變的過程。對這三種數據內涵的研究可以進一步完善智慧圖書館數據價值以及構建個人信息保護制度。
大數據驅動的圖書館智慧服務體系,包括基礎設施層、數據資源層、服務應用層三個方面[12]。其中,數據資源層包括館藏數據、服務數據、業務管理數據以及用戶行為數據等。單一數據,即個體產生的數據,其數據類型單一,用戶行為數據可被認為由單一數據組成。如果沒有數據匯聚,那單一數據的價值就得不到體現,多數情況下對個人信息保護的討論都是基于單一數據而言的。統計數據則是單一數據的匯聚,包括用戶圖書借閱數據列表、數字資源訪問數據列表等以及服務數據中用戶的姓名、身份證號和聯系電話等,其特點就是單一類型或者多類型的數據匯聚。然而統計數據也面臨侵犯用戶權利的問題,例如電信詐騙、騷擾電話等,這些都是因為統計數據泄露造成的,所以,統計數據同樣需要關注個人信息保護問題。大數據其實是一種技術方法,不能將其與單一數據和統計數據相提并論。圖書館對大數據的熱衷程度與智慧服務緊密關聯,不少業內人士在一定程度上已經認定智慧服務的數據決策來自大數據。然而,當前圖書館服務數據、用戶行為數據以及業務管理數據的體量無法和大數據相比,館藏數據的數據量雖遠超上述三個數據,但是根據數據結構,將其歸納成統計數據更為合適。因此,這些統計數據雖然體量大,但也不能被稱作“大數據”。即便如此,隨著圖書館數字化、智慧化水平不斷提高,多系統、多維度的數據不斷匯聚,圖書館也將逐步形成支持智慧服務的大數據環境。屆時,也將能夠不斷釋放間接的經濟價值,如利用大數據進行文獻資源的個性化推薦,提高服務效率,降低成本。當然,大數據也會出現傳統的安全問題,例如用戶畫像與單一數據、統計數據未必形成因果關系,但是存在著相關性,有關個人信息數據收集得越多,用戶的畫像就會越準確,因此這種情況下的個人信息不能再用單一數據或者統計數據的保護方法。
個性化推薦服務一直以來都是圖書館關注的重點,體現了智慧服務的核心理念。智慧圖書館的個性化推薦服務主要包括文獻資源推薦、服務內容推薦以及空間信息推薦等涉及圖書館各類服務功能的推薦,其核心就是基于用戶個人數據,通過單一數據匯聚、統計數據匯聚等分析用戶對文獻資源、服務以及空間等方面的需求,進而實施針對性的信息推送。《信息安全技術 個人信息安全規范》(以下簡稱《個人信息安全規范》)對個人信息收集有著明確的要求,如個人信息控制者在收集個人信息時,應向個人信息主體告知收集、使用個人信息的目的、方式以及范圍等,并且需要征詢個人信息主體的同意,這是“隱私政策”有關信息收集的核心內容。《中華人民共和國數據安全法》第三十二條規定,任何組織、個人收集數據,應當采取合法、正當的方式,不得竊取或者以其他非法方式獲取數據。同時該法規定,法律、行政法規對收集、使用數據的目的、范圍有規定的,應當在規定的目的和范圍內收集、使用數據。所以,智慧圖書館不僅要保護個人信息,還要進一步規范使用個人信息。在社會數據治理的大背景下,數據價值、數據安全以及用戶保護等成為智慧圖書館發展所要面對的問題,其中數據價值涉及圖書館智慧服務的效果,同時兼顧數據安全的系統安全、數據隱私以及個人信息保護等。然而,一直以來,“以用戶為中心”的服務理念弱化了圖書館數據價值作用的釋放,不利于圖書館實施數據治理。當前圖書館正處于統計數據時代,并極力向大數據時代邁進。從統計數據層面來說,圖書館用戶的個人信息保護仍然十分重要,可轉換至單一數據層面進行處理。《個人信息安全規范》的指導在統計數據層面體現出釋放價值的特征,通過匿名化、去標識化等要求來平衡使用和保護的關系。對于大數據來說,用戶的相關權益被大幅稀釋,數據風險得以降低,這也促進數據價值被充分釋放,所以,智慧圖書館在相關制度設計上還需要開展前瞻性研究。
在圖書館尚未普及大數據的背景下,圖書館數據治理發展得還不夠成熟。因此,即便圖書館數據研究都是圍繞統計數據展開,其結論與觀點也不具備準確性與指導性。用戶數據的全面采集和深入分析為智慧圖書館的管理和服務提供了數據基礎,但也增加了個人數據和隱私泄露的風險[13]。智慧圖書館將數據區分為單一數據、統計數據和大數據,有助于對數據價值與數據安全進行場景化研究,也有助于將個人信息保護與服務充分融合。智慧圖書館適用于個人信息保護的單一數據包括用戶的身份信息,所以對于該類信息的規制力度要進一步加強,即加強對該類數據的保護。智慧圖書館的統計數據一般分為用戶的借閱信息、用戶的訪問信息以及用戶的入館信息等,所以對于該類信息要進一步關聯服務需求,進行必要的需求分析。智慧圖書館的大數據尚未形成,因此對其規制還是不明確。大數據時代網絡學術資源建設的快速發展對圖書館產生了一定沖擊,大有取代數字圖書館之勢[14]。大數據分析的工作量遠遠超越統計數據,數據價值在大數據時代將會被充分釋放。然而大數據也存在著個人信息泄露的風險,例如用戶畫像比傳統統計數據更能客觀反映出用戶人格,但數據跨系統、跨單位、跨行業流動,可能會間接泄露用戶個人信息,甚至不利于行業、國家安全。大數據價值的體現需要數據匯聚才能產生,數據流動也離不開政策支持。智慧圖書館的發展,不能僅強調技術創新,也需要對制度完善加以保障。智慧圖書館有關數據的困惑,是由來自不同層面的數據產生的,全面認識這些數據,將有助于我國圖書館行業做出科學合理的制度安排。
告知同意規則是確定個人信息處理行為合法性的原則,即除非法律、行政法規另有規定,否則都應遵循[15]。《個人信息安全規范》第5.4節要求個人信息控制者告知信息主體收集、使用目的、方式與范圍等規則,并且征詢個人信息主體的授權同意。當前,智慧圖書館的數據獲取、數據使用、數據共享、數據重用、數據加值等行為越來越普及,而我國圖書館并未重視用戶個人信息保護的規范化問題[16]。歐盟在《通用數據保護條例》(General Data Protection Regulation,GDPR)中將那些做出與個人相關的決定或者為了分析預測個人喜好、行為和態度,在互聯網上追蹤這些個人,且在此過程中使用了相關處理技術來形成用戶畫像等操作都認定為監控行為,都需要告知信息主體,并征得其同意。智慧圖書館的用戶數據使用,也需要執行《個人信息安全規范》的告知信息主體規定。目前,智慧圖書館的單一數據主要用于數據共享,即與其他系統關聯、匯聚,以提升統計數據、大數據的價值釋放效率,例如高校圖書館管理系統與高校智慧校園系統的關聯。智慧圖書館數據使用告知,不僅要告知本系統、本機構的數據使用目的和方式,也要告知使用范圍。“告知—同意”成為智慧圖書館合理、合法、合規使用用戶數據的前提。但即使是《中華人民共和國個人信息保護法》也無法解決各行各業場景中出現的個人信息保護的問題,因此需要在各行業的相關法律法規中對數據的使用作出明確規定。《中華人民共和國公共圖書館法》第四十三條規定:“公共圖書館應當妥善保護讀者的個人信息、借閱信息以及其他可能涉及讀者隱私的信息,不得出售或者以其他方式非法向他人提供。”然而這只對圖書館提出了有關個人信息保護的要求,未對個人信息的使用加以規范。所以,智慧圖書館應該參照《個人信息安全規范》中的相關建議,制定適合本場景的數據使用告知規則,進一步消除用戶對于個人信息安全的擔憂,同時對自身的數據使用行為進行規范。
數據處理登記規則是指數據控制者在收集、處理個人信息數據前將相關情況報告給相關主管機構,例如高校圖書館向高校信息安全管理部門報告,公共圖書館向主管的文化行政管理機構報告等。將數據處理登記規則常態化,是數據治理的一項基本性規則。《信息技術服務 治理 第5部分:數據治理規范》提出:“決策層應制定合理的評價體系與審計規范, 監督數據治理實施的合規性和有效性,對于有偏差或不符合的內容進行指導, 最終引導機構實現數據治理目標。”智慧圖書館的單一數據,存在于獨立的系統中,遵循著軟件工程的國家標準。數據處理登記,主要是針對統計數據、大數據的數據價值釋放行為,屬于備案的過程,其作用是建立雙向甚至是多向的聯系,實現數據控制者、數據監管者以及數據分享對象之間的信息共享。例如向第三方提供圖書館用戶的借閱信息、入館信息等統計數據,需要通過數據處理登記流程,確保數據安全。數據處理登記規則是一項銜接性的規則,便于相關部門建立數據泄露的追溯通道。智慧圖書館數據處理,既不能一味謀求數據價值的釋放,也不能一味關注數據安全的保護,而是需要在兩者之間建立平衡規則,充分保障數據價值在數據安全前提下得以充分釋放。數據處理登記規則的實施,有助于智慧圖書館數據匯聚成大數據并充分釋放數據價值,實現數據控制者、分享者之間建立常態化溝通聯系機制,進而保障數據溯源的有效開展,因此,數據處理登記規則在歐盟的普及率較高。數據處理在未來智慧圖書館發展過程中將是一種常態化、普遍化的行為,做好數據處理登記,將保障智慧圖書館數據處理的完整性、安全性。
數據泄露通知規則是數據治理,尤其是個人信息保護的核心規則之一。數據泄露通知源自美國,一般被認為是美國隱私權立法的產物。美國《加州數據安全泄露通知法案》(California Data Security Breach Notification Law)于2003年正式生效,該法要求所有加州的企業將現有或潛在的數據泄露通知到加州居民,包括未經授權獲取未加密和計算機化的個人信息[17]。智慧圖書館數據價值釋放的基礎是統計數據以及大數據。個人信息保護主要作用于單一數據,智慧圖書館服務讓用戶享受到了數據價值釋放所帶來的福利,然而數據泄露也有可能帶來消極效果,導致用戶對智慧圖書館產生顧慮,例如管理人員泄露、黑客入侵泄露、系統安全泄露以及設備失竊泄露等[18]。其中管理人員泄露、黑客入侵泄露屬于主觀層面的泄露,系統安全泄露、設備失竊泄露屬于客觀層面的泄露。不論是何種數據泄露方式,一經曝光都將會引發信任危機,動搖用戶對智慧圖書館的信任基礎。智慧圖書館未來在完善制度的過程中,應該考慮到數據泄露事件的發生,若數據泄露則需要履行通知義務,即通知數據主體,盡力降低此類事件對智慧圖書館聲譽造成的負面影響,這個過程其實是一種雙向制約機制。注重數據安全、個人數據保護的智慧圖書館,在規劃、設計與制定智慧圖書館運營方案時,就會根據具體的業務規模和要求采取一定的技術方法以及安全措施,最大化避免數據泄露事件的發生。但如果沒有數據泄露通知規則,也可以運用第三方監管來確保智慧圖書館履行安全保障義務,這與數據泄露通知規則對智慧圖書館的自我約束行為相比,監管的要求可能更高。數據泄露通知無論是對于用戶、智慧圖書館還是監管機構來說都是顯性的,即是否通知都是有據可查的。同時從技術層面而言,是否發生數據泄露也可以通過日志分析查證,所以,數據泄露通知也是智慧圖書館勇于擔當的一種表現。
當前,業界和學界對數據流動的關注點在于數據的跨境流動。從國家層面對數據跨境流動進行監管的目的在于降低境外對我國實施大數據分析的可能,避免讓國家安全遭受威脅。2021年7月,滴滴出行宣布在美國上市但隨即被國家相關機構實施安全審查,原因在于上市帶來的數據跨境流動會對國家安全造成威脅。目前,各個國家法律法規對數據流入不作限制規定,但是對數據的流出較為嚴格。對于智慧圖書館而言,資源數據的流動、共享是知識開放的重要方式,但是對于用戶個人信息而言,數據流動需要加以約束。智慧圖書館的數據流動主要是針對統計數據、大數據而言,一般統計數據通過分析因果關系獲取數據價值,而大數據追求利用數據的相關關系來預測結果。單一數據、統計數據如果不能夠流動,那么便無法形成大數據。智慧圖書館與數字圖書館最大的區別在于“智慧”,而智慧直接體現為大數據的價值。《中華人民共和國網絡安全法》第三十七條規定:“關鍵信息基礎設施的運營者在中華人民共和國境內運營中收集和產生的個人信息和重要數據應當在境內存儲。”因此對于通過大數據分析產生的相關性結果,例如智慧圖書館運用借閱數據、訪問數據、門禁數據等形成用戶畫像,即使不屬于統計數據因果關系產生的,也需要制定數據流動管理規則加以約束。數據流動管理一般與數據分級管理同時討論,即通過對數據的分級來劃分可流動與不可流動的數據。例如智慧圖書館的用戶信息作為單一數據,其隱私性比較強,不建議流動。但由于智慧圖書館需要相關數據形成用戶畫像,以便后續服務的“智慧性”,因此可以在對單一數據進行匿名化與模糊化操作,降低后續數據處理泄露的風險后,允許其在一定范圍內流動。
智慧圖書館與數據密不可分,同樣需要關注單一數據的個人信息保護問題、統計數據的規范化使用問題以及未來大數據治理的問題。當前,數據治理與個人信息保護交互性較強,一般認為數據治理就是為了對個人信息進行保護。但智慧圖書館擁有資源數據、系統數據、管理數據以及用戶行為數據等,其開展數據治理需要關注的是數據價值、數據安全和用戶保護等方面,智慧圖書館的個人信息保護也是為了更好地釋放數據價值。所以,智慧圖書館應與時俱進地圍繞技術創新,完善規則體系,重構業務模式,平衡數據價值與個人信息保護關系,實現高質量發展。