文·張亞兵
國家檔案局局長李明華2019年3月29日在全國檔案局長館長會議上明確要求“機構改革后,各級綜合檔案館要進一步聚焦主責主業,突出五項基本功能,不斷提高檔案保管利用能力。在發揮檔案利用服務中心功能方面,要通過檔案資源共建共享、互聯網在線服務等方式,使檔案利用服務更加方便快捷、優質高效”。[1]目前,學界對綜合檔案館精準化服務展開了一定研究。李財福、余林夕提出精準化檔案信息服務是根據檔案用戶個體化檔案信息需求的特點,貫徹“以人為本”的服務宗旨,建立起以檔案用戶個性化需求為導向并提供針對性和差異化服務的一種服務模式。[2]李廣都、葉毅提出數據精準推薦,是通過系統軟件分析將檔案數據內容與用戶需求進行正確匹配,建立正確的關聯關系,再通過網絡將相關數據主動推送給用戶的服務方式。[3]金波、晏秦則認為檔案精準化服務是以檔案用戶個性化需求為基礎,以檔案用戶問題為導向而提供的服務,是一種以檔案用戶為中心的服務模式。[4]用戶畫像技術可以對用戶數據進行分析,針對用戶的需求開展精準化的服務。本文通過借鑒這一成熟的技術來探討其在綜合檔案館精準化服務中的應用并試圖構建綜合檔案館用戶畫像的模型框架。
用戶畫像又稱用戶角色,作為勾畫目標用戶、聯系用戶訴求與設計方向的有效工具,用戶畫像在各領域得到了廣泛的應用。用戶畫像最初是在電商領域得到應用的,在大數據時代背景下,用戶信息充斥在網絡中,將用戶的每個具體信息抽象成標簽,利用這些標簽將用戶形象具體化,從而為用戶提供有針對性的服務。[5]用戶畫像的概念是交互設計之父Alan Cooper 在1998年提出的,他認為用戶畫像是實際用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型。[6]曾建勛認為用戶畫像是指獲取用戶的專業背景、文化程度、知識獲取習慣、興趣偏好、特長任務等與用戶需求趨向相關的信息,以此為基礎進行模型化表示,為用戶制定特定標簽。[7]
了解檔案用戶的檔案信息需求,建立檔案用戶畫像,能夠為綜合檔案館進行精準化推送和服務的制定奠定基礎。首先,檔案用戶畫像的構建是貫徹以“用戶為中心”的理念,對檔案用戶信息利用行為進行虛擬化描述,即檔案用戶的虛擬代表。其次,對檔案用戶的查閱利用檔案的行為進行記錄,形成標簽,大量檔案用戶標簽的集合形成一個具有相同特征的檔案用戶群,為綜合檔案館開展有針對性的檔案利用活動提供了有效保障。最后,借助用戶畫像的數據,為檔案工作提供指導性的方案、為綜合檔案館的館藏資源建設提供科學的依據。
第一,檔案機構改革背景下局館分設的要求。綜合檔案館長期以來,都處于被動服務的狀態。這種狀況主要是兩方面造成的,首先,在“局館合一”的體制下,影響檔案行政管理機構和文化事業機構的職能區分、職責履行和責任追究,綜合檔案館更傾向于行政職能;其次,“局館合一”的體制下,存在著檔案部門既當“運動員又當裁判員”“自己對自己執法”的現象[8],機構改革后“檔案局館分設”,綜合檔案館文化事業機構的屬性更加突出、明確,能夠更好地履行公共文化服務的職能。主動服務要以檔案用戶為中心,深入分析檔案用戶的檔案信息利用行為。用戶畫像技術就是根據用戶的基本特征、利用行為等為用戶貼標簽,從而針對用戶的需求為用戶推送個性化和差異化的檔案信息,達到精準化服務的目的。
第二,國內外成熟的技術應用經驗。國內圖書館領域也逐漸運用這種技術,大大提高了圖書館的信息服務水平和能力。武漢大學[9]的數字圖書館社區推送服務組織以及天津圖書館的知識發現系統都應用了用戶畫像技術。其中,天津圖書館通過對ALEPH、微信、網站、一碼通等系統中的數據進行關聯,由注冊數據分析出用戶屬性數據,由借閱數據、檢索數據、閱覽數據等分析出用戶行為數據,用戶屬性數據和行為數據則共同構成了用戶畫像的主要數據來源。[10]英國國家檔案館(The National Archives,簡稱TNA)網站(htttp//www.nationalarchives.gov.uk)現有的網絡檔案信息檢索系統名為“探索”。“探索”系統在建設時,通過訪談、日記研究、調查、網頁日志等手段獲取用戶數據。通過聚類和分類分析構建出“探索”系統三類用戶畫像:漫步者、探索者、追蹤者。三者之間沒有絕對的界限,滿足目標需求的同時兼顧其他用戶群體的需求和體驗?!疤剿鳌毕到y以“用戶為中心”的思維應用用戶畫像技術將用戶分類,精確地為不同用戶優化其偏好檢索方式。[11]這些國內外的實踐為用戶畫像技術的應用提供了豐富的用戶建模方法和應用案例。
用戶數據分為靜態數據和動態數據兩個方面。其中靜態數據是用戶最基本的屬性,例如年齡、性別、地域、職業、學歷、專業等;動態數據是指用戶獲取信息時表現出來的行為,例如用戶注冊、點擊、檢索、瀏覽、下載、留言、咨詢、評價等將會不斷地、持續地發生變化的信息,即用戶行為數據。
綜合檔案館的用戶數據主要包括:靜態數據和動態數據。靜態數據主要是檔案用戶的屬性數據,包括檔案用戶的性別、年齡、專業、職業等信息。這些基本數據可以從檔案部門利用檔案的登記信息和數字檔案館的登錄信息中獲得。動態數據主要包括檔案用戶的行為數據。這一部分動態數據,可以根據數字檔案館的登錄、檔案館網站、檔案查詢預約系統、微信App的瀏覽、互動等行為數據獲得。其中,用戶靜態維度的數據是結構化的數據,相對比較好采集,便于形成用戶標簽。用戶動態數據則是一些半結構化數據和非結構化的數據,例如檔案館網站頁面的瀏覽、點擊等用戶行為數據主要儲存在用戶web日志中,需要通過網頁爬蟲和數據挖掘技術進行提取。綜合檔案館在用戶數據處理方面,面臨的問題是如何將不同渠道獲得的信息進行統一的整理。對于結構化數據系統一般可以直接導入,相對比較容易。但針對非結構化數據來說相對較難,為了降低成本,檔案館可以采取購買社會服務的方式,降低數據處理成本,選擇專業的外包服務機構,以保障檔案用戶畫像的構建。[12]
用戶畫像核心的部分就是要對用戶數據標簽化,從不同的維度構建用戶標簽能夠使用戶畫像更加具體、更加可靠。筆者認為綜合檔案館的用戶畫像應該從用戶特征維度、用戶行為維度、用戶興趣維度3個方面刻畫,構建三維標簽體系的綜合檔案館用戶畫像模型。第一,檔案用戶特征維度是對用戶進行最基本的了解和刻畫,主要是基于用戶的人口統計學數據。綜合檔案館通過調查問卷、用戶查閱信息記錄和數字檔案館注冊信息中提取用戶最基本的數據。第二,檔案用戶行為維度是指檔案用戶利用信息過程中的搜索、閱讀、下載、評論等行為。第三,檔案用戶興趣維度是用戶畫像的核心維度,它反映了檔案用戶的需求和興趣,驅動著用戶的檔案利用行為。檔案用戶興趣維度的構建主要是基于用戶的行為數據,檔案用戶在與綜合檔案館交互的過程中產生了大量的用戶行為日志,這些數據能夠真實的反映用戶的需求和興趣偏好。用戶的興趣屬性由顯性興趣和隱性興趣組成,顯性興趣時用戶在系統注冊時選擇的興趣主題和關注領域;隱性興趣是用戶在利用信息時不自覺對某個方面的信息關注、查看、評論產生的行為數據,這些反映了用戶的使用邏輯和行為偏好。綜合檔案館通過分析這些行為數據,能夠使用戶更快捷、方面的獲得自己想要利用的檔案資源。不僅提高了檔案的利用效率,同時也提升了用戶的利用體驗。
綜合檔案館用戶畫像的本質是將用戶數據充分利用,將用戶的需求用可視化的方式展現出來,應用于綜合檔案館的服務中,實現精準服務。綜合檔案館的用戶畫像模型構建大致分為三層,數據層、數據挖掘層、應用服務層。
數據層是構建綜合檔案館用戶畫像的基礎層,分為數據來源和數據采集。數據來源主要從檔案館網站、微信App、調查問卷、檔案館利用記錄等獲??;數據采集主要從這些數據來源的幾個方面對用戶的注冊信息進行提取,通過問卷調查或者訪談等方式對用戶的基礎數據進行完善,再通過網頁端和移動端的API接口記錄用戶交互數據以及挖掘Web日志,采集用戶的原始數據,將這些原始數據序列化后存儲到原始數據庫中。由于用戶的行為數據具有動態化的特點,需要建立一個有效的反饋評價機制,根據用戶與檔案館數字資源平臺交流的反饋信息,及時的對原始數據庫中的數據進行更新與完善。最后,通過對采集到數據進行數據清洗、數據轉換、數據規約、數據集成,為數據挖掘層進一步的分析做準備。
數據挖掘層是用戶畫像構建過程中最關鍵的一部分,數據挖掘層通過借助大數據工具Hadoop或Spark對數據庫中的用戶畫像靜態數據和動態數據進行挖掘,通過對用戶數據的行為分析、聚類分析、關聯分析來對用戶有效信息數據進行語義化和短文本化標簽,計算用戶的興趣權重,建立用戶數據標簽數據庫以及用戶標簽體系,實現用戶特征標簽化。通過標簽建模分析,可以進一步挖掘出用戶個體特征和群體特征向量。相對于個體畫像來說,群體用戶畫像注重于分析用戶群體的相似度、例如用戶群體的基本屬性的相似度、用戶之間關注的信息和服務評價相似度以及用戶瀏覽、利用某方面資源的相似度等。合理區分目標用戶群體,然后通過用戶標簽描述形成多個推送主題,提高個性化推送效率。
應用服務層是在數據層和數據挖掘層工作的基礎上為綜合檔案館用戶提供主動性、場景性、實時性的個性化智慧服務。在發現用戶需求偏好的基礎上,迅速獲取符合要求的信息資源,通過移動終端、門戶網站等其他渠道,采用個性化的推送方式,滿足用戶對精準化服務的要求。同時,用戶的信息需求是動態變化的,信息系統可以及時追蹤、存儲、分析用戶的需求變化從而修正用戶畫像形成新的用戶畫像,進而為用戶推薦對應的信息資源。本文構建的綜合檔案館用戶畫像框架模型如下圖1所示:
數據顆粒度是屬于商業智能(BI)中數據倉庫里的相關概念,所謂商業智能是指將數據轉換成信息的過程,然后通過發現將信息轉化為知識,實質上即是通過應用基于事實的支持系統來輔助商業決策的制定,有利于商務管理的信息化管理。[13]構建檔案用戶畫像需要考慮顆粒度,即畫像的細化程度。顆粒度小的用戶畫像對用戶描述很精細,有利于提高檔案館個性化服務的精準性。但是顆粒度越小意味著用戶數據越細化,一方面會導致建模成本的增加;另一方面過于細致的顆粒度,會造成服務目標過于單一,降低用戶畫像的適用性。構建清晰并且適用性強的檔案用戶畫像,需要根據綜合檔案館的工作需要選擇合適的顆粒度。
用戶畫像的基礎是用戶大數據,但國內圖書館依然對于小數據展現強烈的依賴。[14]相對于圖書館來說,綜合檔案館與用戶交互的數據更是匱乏。一方面,檔案館的資源具有原始性、保密性,不像圖書館的圖書資源經過加工并且一般不會限制公眾利用。另一方面,由于物聯網和人工智能技術并沒有全面應用到檔案館之中,沒有形成物物相連、自主優化、用戶中心的檔案館系統。依靠傳統的用戶數據收集方式不能滿足大數據時代收集用戶信息的要求,移動終端的發展為綜合檔案館與用戶的交互提供了機遇。綜合檔案館應該開發適合于公眾在移動終端查閱信息的方式,開發綜合檔案館應用APP,方便公眾隨時隨地的獲取自己想要利用的檔案資源,同時也能夠方便綜合檔案館對用戶數據的獲取和處理。
在構建和應用綜合檔案館用戶畫像的過程中,用戶信息保護和保密是我們不能忽視的一個問題。用戶畫像是根據用戶的各種信息構建而成的,在這個過程中不可避免地要搜集用戶的個人信息。用戶個人信息中有涉及到用戶的個人隱私的部分,要注意用戶隱私的保密和保護。用戶隱私保密和保護的實現,可以從技術上和綜合檔案館的相關條例和法規這兩個方面著手。
技術上,從信息的采集、處理、加工、存儲等環節加強用戶信息保護。對采集到的數據采用數據脫敏與加密技術,防止用戶信息被不法分子讀取和識別。實施信息隱私等級劃分制度。綜合檔案館提供檔案服務過程中采集了大量檔案用戶隱私信息,所以服務大眾的檔案工作,必須要做好對檔案用戶信息隱私權的保護,盡量減少檔案用戶損失。[15]
通過制定檔案館相關條例和法規,一方面,規范檔案館在授權范圍內對檔案用戶隱私數據的使用,保障用戶擁有對自己信息的自主控制權,最終在保障用戶隱私的前提下,構建出有效的用戶畫像。另一方面,有利于幫助檔案館工作人員明確用戶信息收集、儲存、利用等各個環節的狀況和對自身工作職責有明確的認識,防止在工作中的失誤,更好地保護用戶的信息。