陳如進
(南京曉莊學院,江蘇南京 211171)
隨著大數據、云計算、物聯網以及各種智能設備的普及和運用,人們面臨的信息和知識的種類和形式日漸豐富,海量數據程爆炸式增長。大數據時代,數據更能準確地描述人的需求和想法,高校圖書館的各類數據呈現多來源、海量化、異構化、變化快的特點。圖書館的數字資源大數據、業務運行大數據、讀者閱讀行為大數據,統一構成了圖書館大數據,這些數據成了為讀者提供服務的最核心的支撐。如何使用這些大數據,挖掘讀者的真實需求,為讀者提供智慧服務,是近幾年圖書館行業研究的新熱點。近幾年智慧圖書館建設被提上日程,與傳統的圖書館相比,智慧圖書館可以為用戶提供更精準的、個性化服務。
大數據技術環境下,互聯網公司聚焦于為用戶提供精準營銷,用戶畫像技術被廣泛地研究和應用。用戶畫像是一個互聯網上的虛擬數據模型,是將一個人的基本屬性以及在在互聯網上的用戶行為、用戶偏好等主要信息數據進行提取,虛擬化出的一個標簽模型,這個“畫像”能概括的描述出一個人的信息全貌,可以快速地、準確地了解用戶,進一步對用戶開展精準營銷、信息推送等個性化服務。
AlanCooper被稱為“交互設計之父”,他最早提出了用戶畫像的概念[1],他認為用戶畫像(Persona)是真實用戶的虛擬表示。隨著互聯網各項技術的發展,現在研究者們所說的用戶畫像通常是與大數據分析、數據挖掘相關的,被稱之為“UserProfile”。在圖書情報領域,運用數據畫像技術可以對讀者的各項數據進行挖掘分析和展示,實現智慧服務。根據用戶對數字資源的使用情況,如搜索、瀏覽、下載等行為,對讀者進行用戶畫像,幫助圖書館員更全面了解用戶需求。在用戶畫像的基礎上,運用推薦算法,為用戶提供有針對性的、個性化服務,實現精準服務。根據讀者的數據行為特征,通過個體畫像,關聯規則分析,個性化推薦,向用戶推薦“你感興趣”“學者動態”“同行推薦”“最新資源”等,實現對不同學科用戶的個性化服務。通過群體畫像,數據挖掘和聚類分析把學科用戶分為具有相似需求的群體,對圖書館的用戶進行有效的分類,能挖掘出各類用戶的真實需求。將用戶畫像應用于“個性化服務”和“智能推薦”等系統,是實現圖書館智慧服務的重要途徑。
很多學者對用戶畫像進行了研究,有學者指出用戶畫像就是挖掘用戶的人口屬性、行為屬性、社交網絡、心理特征和興趣愛好等數據,經過疊加更新抽象出完整的信息標簽,組合搭建出立體的用戶模型。陳丹、柳益君等著重從閱讀推廣、知識服務、主動定制、場景推薦等幾個方面提出了基于用戶畫像的個性化智慧服務策略[2]。孫守強通過用戶畫像與智慧圖書館特點分析,探索基于本體的用戶畫像構建過程[3]。劉速以天津圖書館為例,從多個方面闡述了用戶畫像的構建和分析方法[4]。王慶和趙發珍從單用戶和多用戶角度提出了基于用戶畫像的館藏資源推薦模式[5]。文章提出了基于用戶畫像的高校圖書館智慧服務模型構架,構建讀者用戶畫像模型,并預測讀者的興趣和需求,以便為讀者提供智慧檢索、智能推送、個性化定制等服務。
用戶畫像的研究最早出現在美國,是通過用戶調研,采用統計學的方法對用戶進行描述和概括。隨著互聯網和大數據技術的發展,人們通過采集用戶在互聯網上的各種行為數據預測用戶的隱性信息需求,并以此來構建用戶畫像,建立用戶完整信息描述的可視化表示。用戶畫像構建的流程分為數據采集、行為建模和用戶畫像構建三個步驟,基本流程如圖1所示。

圖1 用戶畫像構建流程
數據采集是用戶畫像的基礎,數據越完整構建畫像越能反映用戶的真實狀態和需求。用戶畫像的目的不同,數據采集的側重點不同,這里主要列出用戶的屬性數據、用戶行為數據和用戶偏好數據。用戶屬性數據指用戶的姓名、性別、年齡、愛好、專業特長等基本信息,可以從用戶注冊的信息中獲得。用戶行為數據指用戶在互聯網的頁面訪問、瀏覽、下載情況等,可以從互聯網的訪問日志中分析獲得。用戶偏好數據指用戶的行為習慣或用戶評論、訂閱、收藏等相關內容數據,可以通過網絡爬蟲并通過特征提取和數據分析獲得。行為建模是構建用戶畫像的核心,對第一階段采集到的數據進行挖掘整理,利用機器學習算法對用戶行為、偏好等進行相關的分析和預測。用戶畫像行為建模的核心是對用戶潛在的意圖和興趣進行表示和存儲,根據用戶的基礎信息、視頻信息、訪問信息、行為偏好,以及隱式興趣等歸納出可讀取、可計算的用戶模型。通俗地來說,用戶畫像建模往往就是用戶信息的標簽化,以便為后面的智慧服務提供更加精準的數據模型。
隨著高校智慧校園的建設和發展,高校讀者的用戶信息與行為軌跡信息更加容易獲取[6]。高校圖書館可以以讀者需求為向導,在讀者用戶畫像的分析和挖掘的基礎上,結合個性化推薦技術構建高校圖書館的智慧服務系統。圖2展示了基于用戶畫像的高校圖書館智慧服務模型構架。模型以讀者為中心,通過讀者數據的采集和預處理、用戶行為建模和用戶畫像構建、智慧服務模型算法、向用戶開展智慧服務。

圖2 基于用戶畫像的高校圖書館智慧服務模型
數據的采集階段通過各種途徑搜集讀者的各方面的數據,包括讀者的基本屬性數據、數字資源平臺行為數據、移動互聯網數據、社交網絡數據、終端感知數據等。用戶屬性數據可以直接從各管理系統如科研管理系統數據、教務系統數據、館藏資源管理系統等直接獲取,并進行數據關聯。采集數據包括顯式信息和隱式信息。顯式信息中圖書館讀者的基礎信息主要指姓名、性別、工號、部門、人員類別(教學、科研、管理)等,讀者學科信息主要包括學歷、所學專業、專業技術職稱、學科門類、學科專業。隱式信息中讀者行為信息主要是收集讀者的登陸、瀏覽、下載等行為信息,包括檢索主題詞、下載主題詞、瀏覽主題詞等,讀者偏好數據包括常用數據庫、訂閱主題詞、收藏主題詞、登錄次數、下載次數等。顯式信息會通過信息采集接口直接從管理系統進行信息采集,隱式信息通過對數據資源系統、微信、APP等平臺的用戶訪問日志進行提取,數據采集后匯總到后臺服務器進行分析和存儲。數據處理和存儲階段,將采集到的各種數據進行預處理,包括特征選擇、數據轉換和分詞處理等。
高校圖書館讀者用戶畫像的構建主要是將采集到的讀者各類數據進行整合、挖掘分析、特征提取、聚類等,將用戶的信息映射到一定的標簽體系中,構建全方位的單個用戶的畫像。行為建模是對用戶的行為特征有效的表示和存儲,將采集到的用戶信息數據表示成可讀取、可計算的用戶模型。用戶行為建模依賴于對用戶數據的挖掘戶外分析,利用聚類分析、關聯分析等手段,對海量的不同類型的數據進行有效的整合,挖掘出用戶的信息需求特征。
行為建模的過程可以理解為用戶信息的標簽化過程。不同的標簽體現了描述用戶的不同視角,而用戶畫像是一個整體,各個維度、標簽之間的聯系密切。陳臣將讀者標簽分為7個標簽類別,分別是讀者基本特征、讀者的閱讀行為、閱讀場景、閱讀社會關系、閱讀興趣與愛好、閱讀滿意度、讀者價值評估。陳丹、柳益君等在對用戶畫像進行建模時,將用戶標簽分為事實標簽和預測標簽。事實標簽通過對讀者個人信息和讀者的借閱、收藏、下載等行為進行統計分析得到。預測標簽通過智能分析技術,結合各種推薦算法,分析和預測用戶特征、興趣和需求等獲得。本文提出從基本屬性、行為屬性、偏好屬性三個維度對高校圖書館讀者建立標簽識別體系。用戶屬性是對用戶基礎特征的描述,如姓名、性別、學號(工號)、專業、院系等。行為屬性是指讀者對各種系統的行為操作信息,如數據庫的登陸、信息瀏覽、論文下載等等。偏好屬性是讀者的潛在興趣描述,如常用數據庫、訂閱主題詞、收藏主題詞等。
用戶畫像的構建是用戶信息的完整描述和可視化表示,實現對讀者挖掘信息的精煉概括。從可視化的角度來看,用戶畫像將會開啟一個以用戶為核心的呈現模式。
當用戶畫像在應用于推薦系統等個性化服務時,由于系統開銷等原因,系統不會對每個用戶進行設計,這時需要用到群體畫像。群體畫像代表了某一類用戶的信息化特征,通過聚類算法將具有相似特征的用戶群分為一類,按照各個類別用戶的特征有側重點的開展服務。群體畫像還可以發現核心用戶群的特征,在后面智慧服務階段,可以優先考慮核心用戶的需求。
智慧服務模型算法構建階段,采用相應的數據挖掘算法,根據用戶的興趣偏好和用戶行為特征建立興趣模型,根據用戶畫像模型,分析和預測用戶的資源需求和行為偏好,然后通過有效的途徑將有價值的資源和信息推薦給用戶。圖書資源的推薦先根據讀者的歷史行為數據構建讀者用戶畫像,對圖書館藏的資源的內容特征數據進行挖掘和分析,最終構建基于用戶畫像和圖書資源的智能推薦模型,對每個使用的讀者計算推薦列表,定期發送給讀者。最常用的推薦算法是基于內容的推薦算法,是根據用戶的偏好和擬推薦內容的匹配程度向用戶提供推薦列表。
用戶畫像能夠隱式的追蹤和定位讀者的興趣愛好,通過分析讀者的行為軌跡數據,建立讀者興趣模型,構建讀者畫像,為讀者提供智慧檢索、智能推送、個性化定制等智慧服務。
(1)智慧檢索。通過采集讀者的屬性信息和用戶行為信息,構建用戶畫像,當讀者進行信息檢索時,根據讀者輸入的搜索關鍵字和構建的用戶畫像,猜測讀者可能需要的信息,并根據讀者的潛在需求對檢索結果進行排序,將用戶最可能需要的信息排在最前面,從而提高讀者的檢索體驗。可以利用IP、位置等定位信息建立不同規則的設置,為不同需求的讀者提供不同的檢索結果。
(2)智能推送。采用數據挖掘技術對用戶行為進行分析,協同過濾推薦機制,找到與其有相似需求的讀者,從而進行關聯推薦。根據近期的搜索或瀏覽記錄,采集基于內容的推薦機制,展示給用戶一個綜合推薦列表。例如豆瓣,以圖書、音樂、電影為服務內容,通過“看過”和“想看”列表,同時結合用戶評論來獲得用戶的偏好信息,形成用戶的推薦列表。可以用群體畫像,將具有相似需求的讀者分為一類,為需求不同的讀者推薦不同類別的信息。
(3)個性化定制服務。開展個性化閱讀,如新聞客戶端利用用戶畫像,根據讀者的行為習慣和閱讀經歷為其定制新聞內容,最大程度的滿足讀者的個性化閱讀需求。這種機制還可以根據用戶的實際行為反饋進行調整,用戶還可以根據實際需求自行調整定制內容,從而根據用戶的興趣變化動態更新定制內容。