黃小淋 安林昊
摘要:本文論述了構建用戶畫像的流程及如何根據用戶畫像設置風險預警,建議檔案館基于用戶畫像,構建以保護用戶隱私為基礎的服務理念、以數據為導向的反饋優化機制、以技術為支撐的創新策略迭代機制,從而組合成共享平臺安全策略,實現檔案用戶對檔案信息資源的安全、有效利用。
關鍵詞:用戶畫像 檔案信息 共享平臺 安全策略
2021年,中共中央辦公廳、國務院辦公廳印發的《“十四五”全國檔案事業發展規劃》對檔案安全體系建設做出了明確要求,強調提升檔案數字資源安全管理能力,要從檔案信息安全和軟硬件環境安全保障、風險管理和應急處置等多個方面,筑牢檔案服務利用的安全防線。隨著各類檔案館信息資源共享平臺等共享資源基礎設施的建設,平臺安全策略的有效配置將是保障檔案資源處于安全利用環境下的一道防線。本文提出利用用戶畫像技術,在搜集、分析用戶利用檔案的類別、頻次等行為信息的基礎上,整合多維度用戶行為特征,抽象出構成復雜的、標簽化的用戶模型,[1]從而有效識別普通檔案用戶利用特征,并對不正常的利用行為進行預警。
基于用戶畫像的安全策略構建思路是按照時間、業務等維度,關聯主體行為狀態,將用戶屬性轉換為計算機可識別的、可理解的、可處理的數據格式,對用戶行為實施精準、實時的統計與審計,設計分析邏輯并推斷出非正常狀態,從而實現預警功能。因此,用戶畫像的生成需要經過以下三個步驟:檔案用戶行為分析與數據采集、構建檔案用戶標簽、檔案用戶畫像可視化呈現。
(一)檔案用戶行為分析與數據采集
檔案用戶行為是用戶在自身產生檔案信息資源需求基礎上做出的使用檔案信息資源服務平臺獲得信息資源的意愿,以及由此引起的各種使用活動的總和。通常來說,不同類別檔案用戶產生的用戶行為不同,因此我們需區別分析。如查檔用戶行為主要是查詢、瀏覽、下載、打印等,服務利用接待人員行為主要是查詢、瀏覽、授權、下載、打印等,檔案部門領導行為則是在上述行為基礎上加入審批、管理等行為。基于以上行為分析,用戶數據采集類別一般可總結為兩類:用戶靜態數據與用戶動態數據。用戶靜態數據統計來源于數據庫中用戶的注冊信息,動態數據則來源于用戶查詢、利用檔案時多節點產生的行為數據。系統會實時對用戶靜態數據及動態數據進行采集、統計,而后基于用戶的基本屬性和行為數據將用戶畫像標簽化,以建立用戶標簽體系。
平臺對用戶注冊信息及網頁日志數據進行采集后,通常需對數據進行預處理,通過標準化配置對數據源進行類型劃分,從而將日志格式進行統一轉化、分類,并根據劃分后的數據類型進行過濾、歸并、補全等操作,形成結構化數據,以完成數據篩選及特征抽取工作。這里的常用方法包括統計分析、文本挖掘( TFIDF、LDA)、分類聚類計算(神經網絡、K-means)等。檔案用戶畫像數據結構圖如圖1所示。
(二)構建檔案用戶標簽
這一步驟是指在收集用戶數據的基礎上,基于用戶行為邏輯,建立用戶屬性維度,通過對屬性內容的組合進行建模,刻畫用戶異常行為模型,從而生成用戶標簽,實現檔案用戶異常行為的識別。
1.檔案用戶畫像模型。檔案用戶在應用檔案信息服務平臺過程中,將產生用戶基本信息數據和行為數據。由于平臺用戶人員類別不同,這里所產生的行為數據通常具有較大差別。因此,平臺需對不同用戶角色的行為數據進行區別分析。基于此,本文提出從用戶基礎屬性維度、角色屬性維度及行為屬性維度,構建檔案用戶模型。
對于基礎屬性維度項數據,我們可通過用戶注冊信息表進行抽取,抽取元素通常包含用戶姓名、單位、預授權限、查檔需求(目的)等數據內容。對于角色屬性維度項數據,我們主要根據用戶在注冊時所填寫的人員所屬類別得到,比如部門領導、服務利用接待人員、查檔用戶等。對于行為屬性維度項數據,我們可通過對用戶日志中產生的動態半結構化數據和非結構化數據進行挖掘而獲得,[2]比如檔案敏感詞查詢、點擊、瀏覽閱讀時間等數據。
2.生成檔案用戶標簽。檔案用戶標簽包含用戶正常行為、用戶非正常行為兩種標簽。檔案用戶標簽生成流程如圖2所示,重點在模型層。在模型層,平臺采用孤立森林(iForest)等機器學習算法,挖掘異常數據,對用戶行為過程進行概率分析,進行訓練數據的學習模型訓練,生成訓練模型。而后,平臺通過對測試模型中用戶行為特征的匹配、篩選、識別用戶異常行為,判定是否符合測試模型行為,進而生成檔案用戶標簽。
(三)檔案用戶畫像可視化呈現
進行檔案用戶畫像可視化呈現,是為了更生動地展示和分析用戶行為。這一步驟是在提取用戶標簽數據后,利用數據可視化技術,通過直方圖、雷達圖等統計圖形及多維度多層級標簽,直觀地以動態圖譜形式展示出用戶畫像和模型驗證的對應結果。在用戶畫像管理模塊,管理人員可根據近期預警情況和用戶反饋情況,優化數據搜集類別及分析結果的排序、展現方式,實現圖譜展示內容的自定義調整和完善。用戶畫像管理模塊可包含用戶訪問記錄展示、用戶行為統計分析界面、行為特征庫提取界面、異常行為報警界面等。[3]
(一)檔案用戶風險行為
由于不同類型的檔案用戶在平臺上的檔案利用行為有所區別,因此平臺對用戶風險行為的判斷應與角色屬性識別相結合。例如,部門領導通常做審批工作居多,具體查檔工作相比較于服務利用接待人員較少,若某段時間,部門領導查檔頻次多、頻率極高,則可能產生風險行為;服務利用接待人員若在工作時間外進行查檔的在線時間超過設定時間范圍,則可能產生風險行為;所有檔案用戶查詢敏感詞數量及頻次較高,例如30分鐘內查詢敏感詞次數超過5次等,或是反饋評價內容情感表現負面程度較深、使用敏感詞匯較多,則可能產生風險行為。
在風險行為分析過程中,平臺應加入聚類分析方法,對比待分析用戶的行為是否偏離具有相同角色的用戶整體的行為,以減少異常檢測中虛警過高的問題,從而在相同用戶角色的角度進一步分析異常行為,提高異常判斷的置信度。另外,平臺可結合百度AI開放平臺情感傾向分析接口(BaiduNLP)進行用戶評價的情感分析,判斷用戶情緒風險;還可利用華為云內容檢測語料庫對敏感詞庫進行擴充,[4]并標記敏感詞權重,以權重降序記錄權重較高敏感詞出現的頻率。
(二)根據風險行為設置風險預警
平臺應根據異常行為次數與用戶角色屬性中業務節點維度的屬性閾值偏離程度、異常行為權重排序等異常行為事件與異常事件規則的匹配度來判定是否屬于異常行為,并進行風險預警。

平臺根據異常的程度,記錄異常情況的影響性排序,對于容易產生重大不良影響的行為,判定為高風險行為,給予實時警告,并限制用戶暫時訪問平臺,待平臺管理人員審核,做出解除限制或繼續限制的操作,再恢復或永久限制用戶權限。對于用戶的一般敏感情形,平臺可判定為低風險行為,記錄用戶行為信息,并提示平臺管理人員審核、判定用戶行為后,進行手動處理。平臺技術人員應定期對風險預警數據進行模型分析,并將該模型作為機器學習的數據源。
(一)構建以保護用戶隱私為基礎的服務理念
平臺數據及運行的安全,是保障檔案數據資源能夠被有效利用和精準為用戶服務的基礎。基于用戶畫像構建安全策略需要檔案館通過平臺深度掌握用戶動向,構建檔案利用態勢展示平臺,用于動態展示利用數據、監控用戶訪問和利用行為,但在用戶畫像數據抽取、分析等一系列過程中,很容易造成用戶隱私數據的泄露。因此,檔案館一是應當加強對用戶數據的維護,避免數據的流失、損壞、泄露,配套建立相關的用戶數據隱私保護法規體系,識別技術應用的算法風險,規范算法應用行為,[5]在用戶畫像建模過程中融入隱私保護相關技術,如通過進行用戶數據脫敏、建立隱藏式標簽等方式實現用戶敏感數據隱藏[6];二是應當注重提高檔案工作人員的職業道德素養。在構建及利用檔案用戶畫像過程中,平臺管理及相關專業技術人員通常是用戶數據的“知曉者”“處理者”和“監管者”,因此增強檔案工作人員的安全保密意識,使其養成良好的工作行為習慣尤為必要。對于此,檔案館可定期組織或參與行業內有關檔案職業道德和職業素養的培訓,并進行相關考核,依法懲處竊取隱私的行為,全力保障檔案用戶數據的內部使用安全,[7]營造健康、可靠的檔案資源共享環境。
(二)以數據為導向建立反饋優化機制
不同階段的用戶行為數據常常出現不同特征。例如,在建黨百年之際,用戶查詢、利用黨史相關檔案資料的數量會激增,一些非正常利用者可能會借此數據量激增時機,獲取敏感檔案資料,檔案館應當定期借助反饋機制全面監測、分析用戶行為變化趨勢,對不同階段的用戶行為數據進行分析對比,及時調整數據搜集維度,優化用戶畫像本體模型,不斷完善用戶畫像標簽類別和內容。
檔案館在構建“獲取數據、察覺問題、提交反饋、優化模型”的用戶畫像優化反饋機制時,可以突破各類平臺安全防御壁壘,避免用戶“鉆空子”的查詢行為,同時也能為安全策略優化升級提供有效向導。
(三)以技術為支撐創新策略迭代機制
策略的生成通常不是一次性的過程,而需通過長期的積累和不斷地更新迭代。[8]從用戶畫像數據分析來看,數據包含初始數據和增量數據兩種類型,初始數據通常可能會出現無效、不規律、不具備規模數量的情況,而策略在實現過程中需要對大量數據進行聚類,采用迭代方式對不斷更新的增量數據進行自動學習,從而發現各類信息峰谷值,并將這些信息作為策略生成的主要依據。因此,在迭代學習過程中,策略會被不斷更新,當策略被管理人員檢測為高命中率的策略時,該策略可成為生效或成為優化策略的一類。
用戶畫像策略的構建不僅需要運用有效、合適的算法進行聚類等計算,更要依靠大數據等技術的支持,來實現關聯數據等的分析。傳統上基于用戶畫像的分析技術主要包括以Python技術為主的數據挖掘技術、以神經網絡模型等算法為主的數據分析技術等。隨著人工智能的發展,“AI機器學習”等算法不斷被應用于個性化推薦等領域,因此,通過應用AI技術不斷學習、優化用戶畫像模型,學習和推斷用戶行為,可作為檔案信息資源共享平臺安全策略研究內容的新方向。

近年來,檔案信息資源共享平臺發展迅速,但目前國內所擁有的技術、設備還依然有很大的改進空間。此外,隨著大數據時代的發展,網絡、人員失泄密事件時有發生,人員教育主動性及其安全意識還未達到標準要求,檔案資源開放、共享還存在著一定的安全風險。為此,參與檔案信息資源平臺建設的各方人員務必在已有條件的基礎上樹立安全、責任意識,不斷總結經驗,謀求合理、可行的安全策略,[9]為檔案信息資源的共享保駕護航。
注釋及參考文獻:
[1]趙晨陽,苗立俐,李萌.用戶畫像技術在用電安全服務中的應用[J].大眾用電,2019, 34(3):16-17.
[2]許鵬程,畢強,張晗,等.數據驅動下數字圖書館用戶畫像模型構建[J].圖書情報工作, 2019(3):30-37.
[3]雷璟.用戶行為特征提取及安全預警建模技術[J].中國電子科學研究院學報,2019, 14(4):368-372.
[4]金燕,孫佳佳.基于用戶畫像的UGC質量預判模型[J].情報理論與實踐,2019,42(10):77-83.
[5]于英香,李雨欣.“AI+檔案”應用的算法風險與治理路徑探析[J].北京檔案,2021(10):5-9.
[6]蘇君華,邵亞偉,姜璐.用戶畫像運用于檔案館精準服務:現狀,業務流程及策略[J].檔案學研究, 2020(6):94-98.
[7]周林興,徐承來,周麗.用戶畫像視域下檔案用戶隱私問題研究[J].檔案學研究, 2020, 173(2):60-66.
[8]歐陽帆,張月天.一種基于用戶行為畫像的安全審計系統[J].信息通信,2018(11):107-108.
[9]胡樹煜,孫士宏,金丹.大數據時代檔案信息資源共享平臺安全策略研究[J].蘭臺世界, 2016(2):5-7.
作者單位:解放軍檔案館