蔣玲 黃圣潔 趙欣
摘 要:隨著大數據時代的到來,圖書館個性化服務的形式越來越多,通過對用戶信息收集、篩選、分析以及整合,可得到用戶畫像。論述圖書館用戶畫像現狀及大數據對畫像的影響,多維分析圖書館用戶信息的收集,用標簽來定位圖書館用戶,探究在大數據環境下圖書館用戶畫像構建;提出重視圖書館用戶畫像推廣、完善圖書館用戶畫像系統、加強用戶與圖書館之間互動、推動各館之間的信息共享等對策建議。
關鍵詞:大數據;圖書館;用戶畫像
中圖分類號:TB472文獻標識碼:A Doi:10.3969/j.issn.1672-2272.202210076
Research on Library User Portrait in Big Data Environment
Jiang Ling1,Huang Shengjie2,Zhao Xin3
(1.Evaluation Research Center of Renmin University of China, Beijing 100872,China;
2.Quanzhou Public Security Bureau Police Auxiliary Center,Quanzhou 362000,China;
3.Renmin University of China Libraries, Beijing 100872,China)
Abstract:With the advent of the era of big data, every industry has paid more and more attention to personalized services. With the continuous development of libraries, changes have followed, and more and more forms of personalized services have become available. The user portrait is one of the special service forms. Through the collection, screening, analysis and integration of library user information, user portraits can be finally obtained. This article discusses the current situation of library user portrait and the influence of big data on library user portrait, collection of library user information, multidimensional analysis, use of labels to locate library user, construct library user portrait and other aspects to explore the library user portrait under the big data environment. Finally, four suggestions were put forward: paying attention to the promotion of related aspects of library user portraits, improving the library user portrait system, strengthening the interaction between users and libraries, and promoting the sharing of information between libraries. The effective implementation of these recommendations is based on the rational use of large data. Make the library user portrait more popular among readers.
Key Words:Big Data; Libraries; User Portraits
1 概述
物聯網、大數據、云計算等技術的興起,數據量呈現指數形式暴增,這些數據也推動著創新服務的發展。在大數據時代,基于用戶畫像的研究已應用于很多領域,在浩瀚如煙的網絡資源中,圖書館依托大數據可推進精準服務,深入挖掘用戶數據,通過對表征用戶的個性化數據進行精確分析,建立用戶數據標簽,洞察用戶所思所想,精準定位讀者閱讀需求,構造精準用戶畫像。大數據和個性化服務的發展,驅動著圖書館知識服務隨之向著個性化、精準化方向延伸,對用戶進行智慧化信息推送。個性化服務需以用戶需求為中心,提高用戶知識服務體驗,這對圖書館從傳統服務進階到有針對性的個性化服務,再到深度的知識服務具有重要意義,可很好地促進圖書館針對用戶需求更好地提供精準且有價值的知識服務和智慧化信息推送。
“用戶畫像”也叫用戶角色,最早由學者Alan Cooper首先提出,用戶畫像是真實用戶的虛擬代表,是用戶需求的個性化表現,通過對用戶行為信息采集以及用戶調研及結果分析,建立在一系列真實數據上的目標用戶模型[1],對目標用戶進行代表性畫像。通過建構用戶畫像系統可洞察個人及群體的信息行為規律,協助圖書館聚合各類信息后進行信息過濾,消除冗余數據、清晰體現讀者的信息全貌,從而為用戶推薦與其需求相匹配的信息資源。
2 大數據對圖書館用戶畫像的影響
大數據環境下,用戶畫像可以通過很多途徑獲得。比如用戶登錄圖書館的門戶網站、查詢檢索信息、借閱書籍、使用數據庫、下載文獻,以及用戶的注冊信息、內容偏好信息、互動信息等,這些行為信息及個人信息都是用戶畫像關注的底層數據。通過全面系統收集這些信息,可為圖書館用戶畫像的建立提供海量數據倉庫、建立系統技術支撐。
2.1 提供海量數據倉庫
用戶在使用圖書館資源的過程中會產生海量數據,通過利用大數據對用戶實名數據進行收集,例如:圖書館管理系統的注冊、借閱等得到粗略的用戶畫像,以及用戶在系統中的登入、閱讀、下載、訪問等行為數據,兩者結合形成更為精準用戶畫像[2]。在同種數據庫中多方面、多角度獲取用戶信息,通過不同的數據庫,抓取不同的數據,比如圖書館網站、借還系統、查詢系統、各類型電子資源、電子數據庫等,從而生成海量的數據倉庫[3]。數據倉庫的建成,為圖書館用戶畫像的建立夯實了基礎。
2.2 提供系統技術支撐
在大數據環境下,收集到海量的數據,其中不乏失效無用的數據。對于這些數據的處理,僅僅利用傳統技術分析是不夠的,比如:數據倉庫、數據挖掘、聯機分析處理工具、數理統計等技術,還需要借助云計算技術:分布式文件系統GFS、數據批處理Map Reduce、分布式數據庫Big Table等技術[4]。圖書館用戶畫像有了這些技術的支撐,在海量數據中實現數據的交換、整合及分析就更為方便快捷,從中獲取契合用戶需求的信息,就可以得出更加精準的用戶畫像。正因為有了大數據的系統技術支持,圖書館的用戶畫像才能更加完整全面。
3 基于大數據的圖書館用戶畫像構建
大數據環境下,圖書館用戶畫像主要包括數據倉庫、數據分析、數據標簽、模型構建等4個維度。數據倉庫用來對圖書館用戶進行大數據收集;數據分析是對圖書館用戶進行大數據呈現結果的分析研究,對不同類型的用戶進行分類;數據標簽用來對圖書館用戶進行信息定位,以便提供更精準的服務;模型構建用于整合圖書館用戶的大數據。
3.1 數據倉庫:圖書館用戶大數據收集
數據倉庫(DataWarehouse,DW/DWH)具有集成性、穩定性、時限性、主題性、數量龐大、非規范性等特性,圖書館采購可利用數據倉庫多方面、多渠道獲取信息;總結分析規律,提出優化服務措施;可服務于決策分析;數字化存取、管理,給用戶提供高效、可靠的特殊查詢和服務。管理海量數據需要借助數據倉庫來實現系統管理,以提供充足有序的數據來源。在利用圖書館網絡系統管理圖書的過程中,需要進行更深層次的數據挖掘和分析,會產生大量的數據痕跡,要以大型數據管理信息系統為基礎建立數據倉庫,使數據管理系統化。
圖書館用戶使用圖書館各類資源,隨之在數據倉庫中會產生海量數據,其中包括靜態類數據和動態類數據。靜態數據主要有諸如用戶的個人信息(姓名、性別、學院、專業、年級等),相對較為穩定,此類信息通過系統的注冊信息獲得。動態數據包括登入、查閱、退出、咨詢、借閱、訪問、下載等具備較強時效性的行為信息,這些數據會隨著時間的推移而不斷變化,通過用戶的行為信息獲得。例如:門禁管理系統的記錄用戶刷卡信息、圖書館門戶網站保存用戶在線信息、檢索系統保存用戶行為信息等。還有一些動態信息是用戶使用偏好等信息,由用戶的累積訪問、下載、互動等信息行為產生,可用于推測用戶下一步的行為需求,進行智慧化信息推送。
用戶畫像的精確性取決于數據的完整性,越豐富、全面的數據,形成的用戶畫像就越精準,因此可以通過不同的圖書館系統網站獲取不同的數據,并對數據進行整理和清洗,從中篩選出符合需求的用戶數據,最終生成用戶畫像所需要的數據倉庫。整理用戶靜態屬性數據和用戶動態行為數據,生成的數據總量,就是我們所需的數據倉庫[3]。也正是建立在這個數據倉庫的基礎上,才能對數據進行進一步的整理和分析,得出不同群體用戶畫像的特征信息。
3.2 數據分析:圖書館用戶大數據分析
數據分析建立在數據倉庫的基礎上,通過分析讀者用戶的信息需求,聚焦讀者用戶的個性化偏好與行為信息,以此打破片面主觀的讀者行為分析,從讀者信息需求與信息行為中產生的海量數據出發,以需求帶動圖書館信息服務模式的精細化推送[5]。由于讀者信息需求的多元化、個性化,以及讀者信息獲取的分散化,僅僅從用戶靜態數據進行特征分析存在局限,應在用戶靜態畫像基礎上,結合動態數據,對用戶作交叉分析,如下載記錄、網頁瀏覽頻次、訂閱與收藏信息以及社交信息等。借助數據挖掘、聯機分析處理工具及數理統計等技術,統一抓取和處理用戶信息,更好地掌握用戶信息,從中抽象出用戶標簽。通過總結分析用戶信息來劃分用戶需求,進而利用個性化服務手段給出特別推薦以增強用戶體驗。
通過迭代分析,對行為、用戶、資源等維度逐層鉆取,并關聯分析,從而得到更精準細化的某類群體或行為現象,以此來分析用戶信息,對用戶進行定位,從而得到精準的用戶需求信息[6]。通過對數據的分析得到統一的用戶標簽體系,亦可基于用戶標簽對新的用戶信息進行分析,匹配出對應的數據標簽。
3.3 數據標簽:圖書館用戶大數據定位
數據標簽是元數據的身份標志,主要起到數據的定位、查詢、獲取等作用,它在整個系統鏈中處于核心地位[7]。將用戶信息標簽化的目的是為了將模糊的用戶形象立體化,通過數據分析歸納給出各種類型的用戶標簽。主要在擁有海量數據的數據倉庫中篩選分析出關鍵信息,得出典型的用戶信息,形成直觀的用戶標簽,按照相近性原則進行歸類、聚類,形成上位類聚合后的標簽,并以可視化的方式將不同學科用戶類型立體化、形象化,最后形成特定類型的標簽[8]。
在具有特定的用戶標簽的前提下進行信息識別,是用戶畫像構建的重要內容。主要任務是給新用戶貼“標簽”,如一些人為規定的高度精煉的特征標識,包括年齡、性別、院系、學號等靜態數據標簽,以及用戶偏好、時間、地點事件等動態數據標簽。最后將所有標簽綜合起來,就可以勾勒出該用戶的“畫像”。根據用戶畫像系統發現用戶需求信息的特點,以及數據整合、采集、預處理后的分析結果,可以從用戶屬性、行為屬性、資源屬性、閱讀偏好等維度對用戶畫像進行標簽化的識別,與時間、數據維度進行組合,就初步形成了多級標簽、多級分類的用戶畫像標簽體系[9]。數據標簽的形成,讓用戶畫像在大數據中有跡可循。在海量數據的基礎上分析新的用戶信息,可得出新的數據標簽,數據分析與數據標簽是相輔相成的,都是為用戶畫像服務的。
3.4 模型構建:圖書館用戶大數據整合
在海量的數據倉庫中對圖書館的用戶信息進行分析與標簽的過程中,可以發現該用戶屬于哪種群體標簽,從而發現各群體的差異,完善構建用戶畫像模型。數字圖書館用戶畫像的構建,并不是對所有用戶都進行繪制,而是以重點用戶群體為繪制對象,以了解各群體的主要特征屬性為基礎,繪制用戶“畫像”。具體畫像繪制階段,并非需要繪制用戶的所有標簽,而是從真實數據分析總結形成虛擬形象,用來代表某一類群體,從而形成可視化的虛擬用戶畫像。其中圖書館用戶畫像的繪制,需要根據用戶信息客觀地分析海量數據資源,從中發現與分析用戶對象之間相關性強的信息,如使用資源頻率、瀏覽記錄等,確定其群體模型。將可量化信息變為定性信息,并對用戶行為進行識別分析,在分析多個變量相關性基礎上,找到某一類用戶的共同特征[10],形成某一類群體的用戶畫像,從而形成圖書館用戶的畫像,使其信息需求可視化。
由于用戶畫像的表達方式、關注方向不同,可得出不同的用戶模型,如:面向用戶行為的畫像模型、基于本體的用戶畫像模型、融合用戶興趣的畫像模型等。國內外的學者在這些方面的畫像模型研究取得了一些成果。由此,圖書館系統運用聚類、關聯規則以及分類等數據挖掘方法將其抽象化,并借鑒這些畫像模型的構建在大數據環境下繪制出用戶畫像,從而為個性化內容推薦、讀者滿意度的管理及信用評價等提供借鑒[11]。
4 圖書館利用用戶畫像開展個性化服務建議
4.1 重視圖書館用戶畫像相關方面的推廣
數字圖書館可以借助電視、新聞、報紙等傳統媒體以及微信、微博、郵箱、網站等社交網絡媒體,對圖書館的用戶畫像進行推廣,以此為媒介讓更多的讀者了解用戶畫像。其中社交媒體承擔大部分的推廣工作,通過大數據對用戶畫像的基本信息進行推廣,推廣用戶畫像的基本使用流程、使用優勢、帶來的好處等,擴大推廣范圍,讓數字圖書館用戶提前試用了解該用戶畫像系統。根據用戶畫像,為讀者推薦閱讀書籍,推薦更加貼合用戶需求的內容。通過對用戶群體進行定位、識別與分類,推薦特定書籍從而滿足讀者閱讀需求。通過用戶畫像推廣,讓圖書館用戶更加了解圖書館用戶畫像在日常閱讀服務中的優勢,使之日漸普及。
在社交媒體上發表用戶畫像試用抽獎活動,借助互聯網快速傳播相關信息,從而達到對圖書館用戶畫像的推廣,提高知名度。也可在圖書館館內舉辦推廣活動,如用戶畫像入校園活動,讓大多數的圖書館使用者能了解圖書館用戶畫像,從而享受用戶畫像帶來的便利。
4.2 完善圖書館用戶畫像系統
用戶畫像的普及僅有推廣是不夠的,必須有過硬的技術支撐,所以對于用戶畫像系統的完善勢在必行。圖書館的海量數據需要龐大系統的支撐,并且圖書館用戶的信息也需要強大系統的保護,為了讓圖書館用戶得到更好的個性化服務,需要對圖書館系統不斷修正完善、及時更新換代。
對于圖書館用戶畫像系統得完善可以從以下幾方面入手:①智能推薦。需要分別基于不同用戶信息需求期望、信息搜索習慣和信息接受偏好3個維度融合后形成的信息相似程度進行有效推薦[12]。智能推薦的完善,讓圖書館用戶能體驗更好的個性化推薦服務。②用戶信息情景化。通過場景相似度將同種屬性的場景聚合, 可以發現不同場景的本質特征。在聚合過程中可以發現不同場景之間的信息接受關聯關系,從而為其他類似的用戶提供相似的場景。用戶信息情景化的完善,讓用戶信息系統化,有跡可循,更加方便用戶畫像的分析歸類。③用戶畫像可視化。將用戶畫像用HTML5呈現為可視化的動態知識圖譜[9],直接體現在用戶空間,用戶可直觀了解自己的行為軌跡、閱讀需求、個性化偏好;又能便捷地為讀者提供這些領域的知識概貌及研究進展,更好地將形象具體化、可視化,直觀地呈現用戶畫像。
4.3 加強用戶與圖書館之間的互動
有了推廣和技術的支撐,及時獲得這些海量數據也是非常必要的。圖書館的用戶畫像以網絡系統為媒介,通過用戶使用行為軌跡獲得海量數據,以此分析用戶群體,對用戶群體進行歸類,并及時更新數據倉庫中的信息。要加強用戶與圖書館之間的互動,增加各類用戶信息,擴大數據倉庫總量,將用戶畫像具體化,為圖書館用戶提供更好的個性化服務。
雖然在推廣的過程中可以得到一些關于圖書館用戶畫像的信息和建議,但這遠遠不夠。信息都具有時效性,所以需要不間斷地隨時更新,加強用戶與圖書館之間的互動,在用戶的使用過程中得到反饋。以此為基礎,對用戶畫像系統不斷改進,才能更高質量地為用戶服務。可以為用戶提供一個月一次的可變信息更新機會,以及每時每刻開放對于用戶畫像系統的建議模塊,用戶的建議可以以書信、短信、電子郵件、社交媒體等形式告知,讓專業性的人才專門負責對建議進行篩選采用。
4.4 推動各圖書館之間的信息共享
借鑒圖書館的館際互借,提升圖書館用戶畫像的信息共享水平。正因為有了館際互借,讓用戶得到了更高質量的服務體驗,而各館之間用戶信息的共享,也能為用戶畫像帶來更好的創新。
通過圖書館搭建數據共享平臺,共享圖書館用戶各類信息,讓數據倉庫更為龐大,用戶畫像更為形象,能為圖書館提供更為優質的個性化服務。信息共享帶來好處的同時,問題與挑戰也隨之而生,信息過于雜亂,處理這些海量信息不僅要做到全面的信息收集,而且要有效分析、存儲、傳輸用戶數據,為此需要過硬的技術支撐以及大量的人力、財力投入。
5 結語
大數據時代背景下,用戶畫像在圖書館領域變得尤為重要,研究用戶畫像為圖書館智慧化發展提供了可靠的信息支持。首先要了解用戶需求,然后才能進行精準定位,并且以群體特征為基礎,利用大數據網絡收集、分析、整合,最終形成精準的用戶信息,以此實現個性化推薦,為讀者提供精準的信息服務,從而提升圖書館個性化服務的知識獲取體驗。
參考文獻:
[1]張哲.基于微博數據的用戶畫像系統的設計與實現[D]. 武漢:華中科技大學, 2015:26-28.
[2]劉速.淺議數字圖書館知識發現系統中的用戶畫像——以天津圖書館為例[J].圖書館理論與實踐,2017(4):82-85.
[3]丁雷.大數據環境下高校圖書館用戶畫像與特征研究[J].中國科技信息,2018(24):59-62,64.
[4]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報(工學版),2014(6):957-972.
[5]李雅.基于讀者用戶畫像的高校圖書館精準化服務研究[J].農業圖書情報學刊,2018(12):108-111.
[6]楊帆.畫像分析為基礎的圖書館大數據實踐——以國家圖書館大數據項目為例[J].圖書館論壇,2019(2):58-64.
[7]譚黔林.大數據時代高校圖書館特色數據庫建設研究[J].圖書館界,2014(2):18-20,28.
[8]薛歡雪.高校圖書館學科服務用戶畫像創建過程[J].圖書館學研究,2018(13):67-71,82.
[9]劉速.淺議數字圖書館知識發現系統中的用戶畫像——以天津圖書館為例[J].圖書館理論與實踐,2017(6):103-106.
[10]趙巖.基于用戶畫像的數字圖書館智慧閱讀推薦系統研究[J].圖書館學刊,2018,40(7):121-124.
[11]劉海鷗,孫晶晶,陳晶,等.用戶畫像模型及其在圖書館領域中的應用[J].圖書館理論與實踐,2018(10):92-97.
[12]畢達天,王福,許鵬程.基于VSM的移動圖書館用戶畫像及場景推薦[J].數據分析與知識發現,2018(9):100-108.
(責任編輯:吳 漢)
基金項目:中國人民大學科學研究項目“世界一流人文社會科學期刊評價研究”(202230159);國家社會科學基金項目“‘質量效益視域下圖書館服務創新動力及常態化發展模式研究”(16CTQ013)
作者簡介:蔣玲(1981-),女,博士,中國人民大學評價研究中心副研究館員,研究方向:信息分析與數字圖書館;黃圣潔(1997-),女,福建省泉州市公安局警務輔助中心文職,研究方向:文獻管理、信息技術;趙欣(1984-),女,中國人民大學圖書館館員,研究方向:數字圖書館與信息服務。