王慶樂
(南京大學圖書館 江蘇南京 210023)
隨著智能互聯網與智能閱讀媒介的廣泛普及,高校數字圖書館用戶需求呈現出個性化、差異化、定制化特點,此時用戶的數據采集、數據整理與數據利用行為越來越難以預測,使得高校數字圖書館用戶服務供需失衡。因此高校圖書館界一直在探索利用用戶畫像數據來提升用戶服務效能的可行之策[1]。王茹芳、寧璐指出,高校數字圖書館用戶畫像數據的實質是一類可反映用戶需求的多目標函數,借助該函數可實時分析用戶需求變化,輔助館方為用戶情境化推送目標數據[2]。從理論研究來看,目前學術界主要從高校數字圖書館用戶畫像數據獲取、處理、存儲、安全四個方面進行研究:張潔等人為強化高校數字圖書館用戶畫像數據獲取的針對性,構建了涵蓋屬性分析、語義分析、文本分析與行為分析的用戶畫像數據分析模型,并建議高校數字圖書館充分利用網絡爬蟲技術來獲取用戶畫像數據中的隱性信息[3]。樂承毅等人認為,高校數字圖書館在智能計算引擎技術支持下,可對用戶畫像數據進行高精度聚類處理,進而理清不同類型用戶畫像數據間的相關性[4]。劉海鷗等人利用壓縮感知技術來改善高校數字圖書館用戶畫像數據存儲性能,這一做法極大降低了用戶畫像數據存儲成本[5]。梁榮賢指出,目前高校數字圖書館的用戶畫像數據面臨著較大的失竊風險,該學者建議館方利用區塊鏈技術打造用戶畫像數據管理防火墻[6]。從實踐研究來看,我國高校數字圖書館用戶畫像數據管理工作成績斐然:浙江大學數字圖書館借助數據過濾算法、社會標簽技術創建了具有較高統計精度的用戶畫像數據庫,據此提供契合用戶需求的資源推薦服務[7]。南開大學數字圖書館借助區塊鏈技術打造了用戶畫像數據安防體系,可對用戶畫像數據流轉的全過程進行無盲區跟蹤[8]。但仍需看到,現有研究多側重于分析高校數字圖書館用戶畫像數據管理的局部問題,鮮有學者從全生命周期角度討論用戶畫像數據管理的實踐思路。區塊鏈技術是一種具有去中心化交易、全鏈條追溯、智能執行合約等技術優勢的分布式共享賬本,將其應用于高校數字圖書館用戶畫像數據管理實踐,可增加高校數字圖書館知識服務績效。本文分析了目前高校數字圖書館在用戶畫像數據獲取、處理、存儲與安全四個方面所存在的主要問題,并提出了以區塊鏈技術為關鍵載體的用戶畫像數據管理理論邏輯與實踐舉措,以期為高校數字圖書館用戶畫像數據管理實現智能化轉型提供借鑒。
就用戶畫像數據獲取技術而言,現階段高校數字圖書館主要利用大數據技術來分析用戶偏好、用戶屬性與用戶行為等畫像信息。該手段雖有助于館方迅速捕捉用戶的多元異質需求,但難以在第一時間準確識別用戶畫像數據的變化,可能出現用戶畫像數據采集更新延遲問題。就用戶畫像數據獲取渠道而言,我國高校數字圖書館主要依托scirus、BASE、vascoda等學術搜索引擎來獲取用戶畫像數據,該渠道無法確保館方實時獲取用戶行為日志數據、交互動態數據與使用情境數據,或將降低用戶畫像數據獲取的系統性。就用戶畫像數據獲取標準而言,我國高校數字圖書館尚不具備科學統一的元數據規范、對象數據規范與資源統計規范,這將導致高校數字圖書館無法對用戶畫像數據進行標準化采集,或將使用戶畫像數據采集效率大打折扣。就用戶畫像數據獲取組織而言,目前高校數字圖書館完全掌控著用戶畫像數據處置權限,其可能會在用戶不知情的情況下傳播用戶畫像數據,從而侵犯了用戶的畫像數據合法權益。
第一,高校數字圖書館難以對用戶畫像數據進行深度提煉。導致這一問題的原因主要表現在:一方面,館方采集的原始用戶畫像數據多摻雜大量的噪聲數據,這將極大增加高校數字圖書館用戶畫像數據處理的技術成本;另一方面,用戶畫像數據將隨著高校數字圖書館知識服務情境的變化而變化,此時館方更加難以在錯綜復雜的情境條件下快速挖掘用戶畫像深層信息。第二,高校數字圖書館用戶畫像數據處理的投入產出效率長期在低位徘徊。為提升高校數字圖書館用戶畫像數據處理的綜合實力,館方每年都需要斥巨資來升級改造平臺的技術性能。如美國高校數字圖書館在2020年共投入數千萬美元用于數據處理技術更新,但高額資金投入與用戶畫像數據產出效益在短期內難成正比[9]。可見,促進用戶畫像數據處理效率與成本實現動態平衡,是高校數字圖書館亟待完成的中心工作。第三,用戶畫像數據管理存在信任問題。從理論上來說,高校數字圖書館應在獲得用戶許可的前提下對用戶信息進行加工處理,但大多數實際情況是用戶對畫像數據的處理過程和使用去向毫不知情,這種做法無異于間接剝奪了用戶的畫像數據所有權。
高校數字圖書館用戶畫像數據主要包括結構化數據、半結構化數據與非結構化數據三種類型:結構化用戶畫像數據的數據結構和內容分類較為簡單,半結構化和非結構化用戶畫像數據的構成要素則較為復雜。多類型的用戶畫像數據對高校數字圖書館的存儲性能提出了嚴峻挑戰,館方既需要及時調和用戶畫像數據存儲規模與存儲質量間的沖突,還需要重點增強半結構化數據和非結構化數據的存儲精度。但目前高校數字圖書館用戶畫像數據存儲的系統性與穩定性均存在較大問題:①用戶畫像數據尚未實現結構化存儲。我國高校數字圖書館用戶畫像數據存儲的主流手段是索引存儲與順序存儲。此類存儲手段難以確保館方集成式識別多源異構用戶畫像數據中的關鍵信息,將使大量優質的用戶畫像數據得不到高效存儲。②用戶畫像數據存儲的穩定性較低。一方面,由于高校數字圖書館并未對用戶畫像數據進行強制加密與存取控制,這將大大增加非法篡改用戶畫像數據的安全風險;另一方面,網絡黑客一直熱衷于利用數據庫攻擊手段竊取具有商業價值的用戶畫像數據,此時若高校數字圖書館忽視用戶畫像數據安防管理,將顯著提升用戶畫像數據失竊風險。
第一,用戶畫像數據采集行為的安全問題。目前高校數字圖書館主要通過顯性采集與隱性采集兩類手段來全網抓取用戶畫像數據。顯性采集行為的安全問題表現為高校數字圖書館侵犯用戶畫像數據版權主體的控制權:如部分高校數字圖書館可能通過第三方鏈接來探究用戶潛在需求,并在未獲得用戶許可情況下對實名注冊用戶個人信息進行大規模采集。隱性采集行為的安全問題表現為高校數字圖書館侵犯用戶畫像數據版權主體的知情權:如高校數字圖書館在情境化構建用戶畫像過程中,可能會對用戶畫像數據進行多輪深度獲取,但用戶對畫像數據深度獲取過程和結果則較為模糊。第二,用戶畫像數據傳輸行為的安全問題。首先,高校數字圖書館用戶畫像數據極易因跨平臺、跨系統登錄而遭泄露。《2020中國移動閱讀行業報告》指出,超過八成用戶微信、微博、QQ等自媒體平臺的登錄密碼和高校數字圖書館用戶密碼完全一致[10]。這意味著用戶畫像數據將面臨極高的第三方竊取風險。其次,高校數字圖書館用戶畫像數據可能因第三方鏈接的介入而遭泄露。當前高校數字圖書館多通過XML超鏈接、深度鏈接等渠道全方位獲取用戶畫像數據,但因監管技術不成熟,使高校數字圖書館難以動態評價第三方鏈接的可靠性,或將引發釣魚竊取用戶畫像數據的安全風險。
區塊鏈的本質是一個分布式總賬本,其主要有分布式存儲、點對點傳輸、工作量證明機制和非對稱加密算法四類核心技術。其中,分布式存儲技術的特色在于能夠以去中心網絡形式保存海量交易數據;點對點傳輸技術的優勢在于為每筆交易營造絕對安全的區塊鏈網絡環境;工作量證明機制是應用區塊鏈技術的重要保障,該機制可為數據版權主體的司法維權提供支持;非對稱加密算法是區塊鏈技術獨有的數據加密手段,具有算法復雜度高、安全秘鑰極難被破解等優點。在區塊鏈四類內核技術支持下,高校數字圖書館用戶畫像數據的獲取、處理、存儲與安全問題將迎刃而解[11]。
第一,高校數字圖書館利用區塊鏈P2P網絡協議獲取用戶畫像數據,可有效打破用戶畫像數據采集的客觀限制,輔助館方低成本、全方位獲取個體用戶與群體用戶的畫像信息。如清華大學數字圖書館便借助區塊鏈P2P網絡協議來一次性采集用戶興趣數據與行為數據,并對用戶畫像數據進行基于區塊鏈P2P網絡的實時更新。另外,該館還憑借區塊鏈P2P網絡協議的挖礦功能、數據庫功能與網絡路由功能來建立用戶畫像數據的內在關聯規則,此舉有效增強了館方用戶畫像數據采集的總體實力[12]。
第二,高校數字圖書館利用區塊鏈一致性哈希算法處理用戶畫像數據,可促進用戶畫像數據處理投入產出間的動態平衡。如構建基于區塊鏈一致性哈希算法的用戶畫像數據處理平臺,并賦予待處理的畫像信息個性化哈希值,此時高校數字圖書館用戶畫像數據加工效率將實現跨越式提升。天津大學數字圖書館便憑借區塊鏈一致性哈希算法對用戶畫像數據進行深加工,并利用區塊鏈內外兩層哈希值來針對性配置結構化、半結構化與非結構化用戶畫像數據處理權限,從而高效解決了用戶畫像數據處理的質量效益問題[13]。
第三,高校數字圖書館利用區塊鏈超級賬本技術存儲用戶畫像數據,可改善用戶畫像數據存儲不兼容、不系統與不準確等不良狀態,確保館方在高度共信的框架下執行用戶畫像數據存儲操作。遼寧大學數字圖書館的相關做法具有代表性:一方面,館方依托Siacoin(區塊鏈云存儲服務商)托管主機來合理配置用戶畫像數據存儲路徑和存儲空間,實現了基于區塊鏈塊存儲與對象存儲的用戶畫像數據結構化保存;另一方面,該館發揮區塊鏈超級賬本技術的強制加密特色優勢,創建了“監測—預警—處置—反饋”的用戶畫像數據存儲安全管理機制,極大增強了用戶畫像數據存儲穩定性[14]。
第四,高校數字圖書館利用區塊鏈加密機制維護用戶畫像數據安全,不僅可保障用戶對畫像數據的控制權與知情權,還能夠提高館方用戶畫像數據防竊取效力。目前具有可行性的做法是借助區塊鏈數據脫敏、隱匿性標簽、多因子身份認證技術對用戶畫像數據進行安全加固。中國海洋大學數字圖書館的相關實踐具有代表性:館方憑借區塊鏈加密機制對較為敏感的用戶畫像數據進行加密變換,并將其動態存儲在區塊鏈數據云端。此時網絡黑客不僅無法定位用戶畫像數據流轉節點,而且難以攻破用戶畫像數據傳輸信道[15]。
第一,借助區塊鏈P2P網絡的“挖礦功能”精準構建用戶畫像。即釋放區塊鏈P2P網絡“挖礦功能”在數據采集與數據更新方面的技術紅利,讓高校數字圖書館精準辨識用戶畫像數據中的顯性信息與隱性信息,并對其進行零延遲更新。暨南大學數字圖書館的實踐經驗值得借鑒:該館與“Bitsou”區塊鏈數據服務商聯合創建了用戶畫像數據采集系統,可對用戶畫像數據進行層次化、結構化采集。如依托區塊鏈挖礦技術采集用戶個人信息,依托區塊鏈日志記錄技術采集用戶動態行為信息,依托區塊鏈P2P網絡嗅探器采集用戶科研成果描述信息。館方還利用區塊鏈Kafka實時計算技術對各類型用戶畫像數據進行時間序列分析,以持續豐富用戶畫像數據的內涵與外延[16]。
第二,借助區塊鏈P2P網絡的“網絡路由功能”構建立體化用戶畫像獲取渠道,提升高校數字圖書館用戶畫像數據獲取的深度與廣度。如“中國高等學校數字圖書館聯盟”便打造了支持多渠道獲取用戶畫像數據的服務平臺:一方面,聯盟成員可利用區塊鏈P2P網絡在各自的大數據檢索系統中共享式獲取用戶靜態屬性信息與動態行為信息,并對多渠道來源的用戶畫像數據進行關聯分析。另一方面,在聯盟成員與主流數字學術網站間建立P2P傳輸鏈路,便于平臺管理員全面采集用戶畫像數據[17]。
第三,借助區塊鏈P2P網絡的“數據交易公示功能”強化用戶畫像數據權益保護力度,確保高校數字圖書館在用戶許可的條件下開源獲取用戶畫像數據。中山大學數字圖書館的實踐經驗值得借鑒[18]:首先,構建了基于區塊鏈P2P網絡的用戶畫像數據交易公示平臺,此時館方可全天候、低成本采集各類型用戶畫像數據,并實時監測用戶畫像數據采集過程。其次,該館依托區塊鏈P2P網絡賦予用戶畫像數據使用許可權,并對用戶畫像數據權益的變動情況進行確認,此舉顯著增強了高校數字圖書館用戶畫像數據獲取的安全性。
第一,利用區塊鏈哈希算法對各類型用戶畫像數據進行一致性計算。高校數字圖書館可借助哈希算法打造用戶畫像數據處理平臺,以便一站式完成用戶畫像數據組織、挖掘與過濾。如吉林大學數字圖書館便依托DxChain區塊鏈工具來精細化提取用戶畫像數據中的高價值信息:借助哈希散列算法將用戶基礎數據、位置數據、行為數據均統一為底層鏈式數據格式,此時館方可結合底層鏈式數據的區塊隨機數來刪去噪聲變量[19]。另外,具備條件的高校數字圖書館還可利用哈希算法構建用戶畫像標簽詞表體系,為用戶畫像數據的清理、轉換、合并、重塑提供依據。
第二,利用區塊鏈智能合約調和用戶畫像數據處理成本與效益間的矛盾。一方面,可利用區塊鏈聯盟鏈在用戶畫像數據處理的參與主體間創建旨在輔助數據可信流轉的智能合約,促進高校數字圖書館與用戶畫像數據利益相關者形成畫像數據處理聯盟。此時高校數字圖書館既可通過眾包式手段削減用戶畫像數據處理的技術成本與組織成本,還可在權益分配機制約束下多次獲取畫像數據。另一方面,高校數字圖書館可在區塊鏈智能合約支持下定向采集用戶使用行為數據,據此構建具有情境化特征的用戶畫像,以增強用戶畫像數據處理的實效性。
第三,利用區塊鏈共識機制來安全可靠地挖掘用戶畫像數據。高校數字圖書館可將區塊鏈共識機制引入用戶畫像數據處理實踐,確保館方與用戶能夠動態達成畫像數據處理的一致性共識。西安交通大學數字圖書館便與基于區塊鏈共識機制的數字資源服務商聯合開展用戶畫像數據挖掘工作[20]:對于涉及用戶隱私的畫像數據,館方需要對其進行區塊鏈共識驗證后方可作進一步處理;對于全網公開的用戶畫像數據,高校數字圖書館將借助區塊鏈共識機制與版權主體自動達成對等操作協議,讓館方在規范用權的前提下合理挖掘畫像數據。
第一,借助區塊鏈Bucket樹技術優化用戶畫像數據存儲結構。區塊鏈Bucket樹的技術優勢是可使底層數據以Bucket樹葉子節點形式得以長期保存。在其支持下,高校數字圖書館不僅可結構化存儲用戶畫像數據,還可平滑擴展各類型用戶畫像數據的存儲空間。廈門大學數字圖書館的實踐做法極為典型:館方利用區塊鏈Bucket樹技術來分層分類保存用戶畫像數據,并利用哈希表對離散分布的底層數據進行規整性存儲。此時高校數字圖書館可實現基于Bucket樹根值的用戶畫像數據鏈式備份,進而規避了用戶畫像數據存儲容量衰減與存儲結構紊亂等風險[21]。
第二,設計可促進用戶畫像數據實時同步存儲的區塊鏈共識存儲方案。即對各類型用戶畫像數據進行“區塊分組存儲”,此時高校數字圖書館可憑借區塊鏈賬本共識單元一站式獲取用戶畫像數據中的深層次信息。深圳大學數字圖書館便利用區塊鏈分區處理共識算法創建了支持存儲副本智能分配的畫像數據存儲系統,館方可智能計算出每個區塊分片所對應的存儲副本規模,據此來針對性存儲用戶畫像信息中的主數據、參考數據與元數據。這一做法有效提升了高校數字圖書館用戶畫像數據存儲的針對性與集約化程度,并加快了海量用戶畫像數據存儲更新速度[22]。
第三,借助區塊鏈賬本信息溯源技術嚴防用戶畫像數據盜用篡改行為。前述研究指出,由于高校數字圖書館用戶畫像數據存儲的開放性程度與日俱增,這將極大增加館方用戶畫像數據存儲安全管理壓力。而將區塊鏈賬本信息溯源技術嵌入用戶畫像數據存儲的全過程,有利于高校數字圖書館實時監督規制畫像數據存儲的篡改和失竊行為。目前較為可行的做法是通過創建基于區塊鏈賬本模型的用戶畫像數據存儲監督機制,對用戶畫像數據開展高度自治、去中心化的存儲管理。此時高校數字圖書館可憑借區塊鏈賬本鏈接地址開展畫像數據失竊的溯源存證工作。
一方面,憑借區塊鏈非對稱加密技術管控用戶畫像數據非法采集問題。高校數字圖書館可從如下三方面保障用戶畫像數據采集安全性:首先,發揮區塊鏈公私鑰加密管理技術的多重密保效能,對用戶畫像數據進行“公鑰+私鑰”加密,徹底阻斷網絡黑客窺探用戶隱私信息的“后門”,并讓用戶能夠實時追蹤畫像數據采集過程。其次,利用區塊鏈數字水印技術對用戶畫像數據進行隱匿性處理,確保帶有區塊鏈數字水印的用戶畫像數據無法被惡意采集。具備條件的高校數字圖書館還可將區塊鏈非對稱加密技術用于身份驗證場景,對用戶畫像數據的開放對象與開放方式進行權限控制,夯實館方用戶畫像數據采集的安全堡壘。
另一方面,借助區塊鏈高等級脫敏技術降低用戶畫像數據泄露風險。即在精準識別用戶畫像數據傳輸情境條件基礎上,對畫像信息進行區塊鏈高等級脫敏處理:如果用戶畫像數據具備安全傳輸的情境條件,高校數字圖書館可利用區塊鏈加密脫敏技術對其進行可恢復轉換。如果用戶畫像數據安全傳輸的情境條件較差,館方則應利用不可恢復的區塊鏈加密脫敏技術將其轉換為不可逆的隨機數值。鄭州大學數字圖書館的實踐經驗值得借鑒:利用“卡巴斯基安全部隊”軟件中的區塊鏈安防功能創建了支持隨機脫敏、正向脫敏、逆向脫敏與遮蔽脫敏的數字資源脫敏檢索平臺,可根據網絡安全威脅情境與網絡入侵行為特征來定制化設計用戶畫像數據脫敏方案。并強制要求用戶訪問脫敏處理后的畫像數據,從而有效化解了用戶畫像數據傳輸泄露風險[23]。
利用區塊鏈技術賦能高校數字圖書館用戶畫像數據管理的實踐主旨是發揮該技術在數據采集、處理、存儲與傳輸等方面的功能優勢,來保障用戶畫像數據的安全性、完整性與獨立性。本文將區塊鏈技術嵌入用戶畫像數據管理全流程,設計了基于區塊鏈P2P網絡協議、一致性哈希算法、賬本模型與加密機制的用戶畫像數據管理可行思路與實踐策略。但我國高校數字圖書館用戶畫像數據的區塊鏈管理工作才剛起步,缺乏對區塊鏈技術使用條件與應用場景的科學評估。因此高校數字圖書館需加強區塊鏈技術的理論與實踐研究,并依托區塊鏈技術協同開展用戶畫像數據管理與數字學術資源管理工作,方可增強用戶畫像數據管理的系統效能。