朱白
(商洛學院圖書館,陜西商洛 726000)
圖書館讀者用戶“臉譜”繪制研究
朱白
(商洛學院圖書館,陜西商洛 726000)
大數據時代如何將圖書館海量數據進行整合、挖掘,還原讀者的真實面目是圖書館精準服務內容之一,提出通過分析讀者用戶數據并建立模型,結合讀者用戶的基本信息和行為信息為用戶打上標簽的思路來繪制讀者的“臉譜”,從而實現讀者需求喜好的精準定位,對進一步實現圖書館大數據應用有一定的借鑒意義。
圖書館;臉譜;標簽;用戶畫像
隨著互聯網的不斷發展,如何利用大數據挖掘、分析讀者用戶的潛在價值,已經成為各大數字圖書館研究的重要課題。與傳統的線下讀者用戶管理相比,大數據技術的應用能夠快速地分析讀者用戶的行為習慣、閱讀習慣等重要信息,從而更加精準地定位讀者的喜好,提升圖書館服務水平。為了進一步深入地了解用戶,提出為讀者用戶繪制“臉譜”概念,通過用戶畫像[1],完美地呈現出讀者用戶的信息全貌,對圖書館更好地為用戶服務以及數字圖書館大數據應用研究等有著重要意義。
用戶畫像作為大數據應用的基礎,是數字圖書館推動讀者精準服務作用的最直接體現,在用戶畫像方面,不同的學者從不同的角度進行了研究,如曾鴻等[2]對微博大數據用戶畫像與精準營銷進行研究,認為在品牌的傳播與建設中,用戶畫像是一個不錯的選擇。何雪海等[3]提出一種大數據網絡安全用戶行為畫像,能應用于異常檢測、日志審計、網絡安全評估等。黃文彬等[4]采用頻繁模式挖掘、構建概率矩陣、計算熵等方法,從用戶基站日志中所包含的地理位置信息入手,對構建移動用戶行為畫像進行了研究。吳明禮等[5]利用Spark的并行計算能力,并結合時間和空間兩個維度,對用戶精細化畫像處理大量數據計算的速度進行了研究,取得了不錯效果。但這些研究都沒有從用戶畫像具體流程角度分析,本文則主要通過研究用戶基礎數據、行為建模等方面入手,對圖書館讀者用戶畫像的流程進行闡述,為圖書館用戶“臉譜”的進一步應用打下基礎。
用戶“臉譜”繪制,即根據用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型[6],又稱用戶角色(Persona)。Alan Cooper(交互設計之父)最早提出了persona的概念:“Personas are a concrete representation of target users.”Persona是真實用戶的虛擬代表,是基于一系列真實數據(Marketing data,Usability data)之上的目標用戶模型[7-8]。該模型可調研了解用戶,然后根據用戶的行為、偏好和目標之間的差異,進行聚類分群,再從每種類型中通過典型特征分析,并對這些特征賦予一些人口統計學要素和一些場景描述,如姓名、性別、年齡、照片等,就形成了一個人物原型(personas)。
用戶畫像是通過分析用戶盡可能多的數據信息得到的,源于數據但高于數據,它是繪制目標用戶“臉譜”設計方向、聯系用戶訴求的有效工具,因此在各領域被廣泛應用。構建用戶畫像的核心工作是給用戶貼“標簽”,通過數據加分析,用若干標簽來描述一個模糊用戶的過程,標簽是通過對用戶信息分析而來的高度精煉的特征標識。
圖書館用戶畫像是對符合特定業務需求的的讀者用戶的形式化的數據描述。讀者用戶畫像在具體操作的過程中,通常以貼近生活、淺顯易懂的話語把用戶屬性和行為數據聯結起來,形成實際用戶角色的虛擬代表。
為了讓整個用戶“臉譜”繪制的工作有秩序,有節奏的進行,可以將用戶畫像分為以下三個步驟:基礎數據采集,用戶行為建模,構建用戶畫像。如圖1所示。
基礎數據大致可分為用戶屬性數據和用戶行為數據兩大類。
用戶屬性數據:主要為用戶相對穩定的靜態信息數據,如人口屬性:性別、年齡、學歷、教育程度、年齡層次、家庭情況、職業/行業、國籍、籍貫、職務、收入水平等。

圖1 用戶臉譜繪制流程圖
用戶行為數據大致包括三類:服務內行為數據,如網站、APP的訪問來源、瀏覽路徑、頁面停留時間、訪問深度、唯一頁面瀏覽次數等;網絡行為數據,如讀者的活躍人數、頁面瀏覽量、訪問時長、激活率、外部觸點、社交數據等;用戶交互數據,如交互場景、貢獻率、客單價、連帶率、回頭率、流失率、點擊率、收藏率、購買率等。
在完成跨系統基礎數據整合、分類采集的基礎上,需要進一步進行搭建用戶“臉譜”繪制框架模型。如圖2所示,數字圖書館用戶“臉譜”繪制的實現模型可分為三層,即資源層、數據采集層和數據挖掘層。資源層是用戶“臉譜”繪制的基礎平臺,也是數據源的有效組織、整合,信息來源包括用戶屬性信息的靜態數據信息和包括用戶行為屬性的動態數據信息。數據采集層是用戶“臉譜”繪制的基礎,通過多種方式采集用戶的靜態屬性信息和動態行為數據,并存儲到原始數據庫中,同時將用戶交互界面的反饋信息補充到數據庫中,以便豐富采集層數據的維度。數據挖掘層是用戶“臉譜”繪制的核心,需要用計算機算法不斷地對數據進行清洗、集成、變換、歸約等預處理,并初步完成用戶識別和給用戶打標簽,從而建立用戶個體畫像,用戶個體畫像完成后再通過數據挖掘算法進一步完善標簽模型、構造用戶群體畫像和關系圖譜,最終輸出分析結果,并將可視化結果展示給用戶。
通過用戶畫像構建模型經過分析得到最終數據后,需要對讀者用戶“臉譜”進行繪制,通常用一組標簽的集合來描述一個用戶,將一個用戶復雜的特征通過若干個角度來進行衡量和刻畫,每個標簽就是其中的一個角度,這些角度之間彼此聯系,共同形成這個用戶整體特征。通常用來描述用戶信息的標簽具有“語義化”和“短文本”兩個重要特征。所謂語義化,指能夠較好滿足業務場景需求,讓人能夠理解每個標簽含義,使用戶畫像的構建模型具備實際意義。所謂短文本,是指標簽本身不需要再做過多文本分析和預處理工作,通常每個標簽就只有一種含義,計算機能夠根據事先制定好的標簽規則,讀取標簽信息,通過算法計算來做聚合分析,從而為機器學習、利用算法提取標準化信息提供了一定的便利。所以,用戶“臉譜”繪制的結果就是通過為用戶打標簽的方式來描述用戶信息。如以下描述:男,生于1980年,出生于上海市徐匯區,已婚,祖籍蘇州吳江,中國職業籃球運動員,NBA全明星,小巨人。這樣一串描述就是用戶信息標簽化,也是用戶畫像的典型案例,如圖3所示。

圖2 用戶畫像構建模型圖
用戶標簽繪制可分為數據源分析、目標分析、形成用戶標簽等三個步驟。
數據源分析,指通過聚類分析所有用戶相關的數據,將分析結果劃分為多個子類,以便后期枚舉、迭代擴展信息緯度時方便機器學習、打標簽等。根據業務場景和業務需求,在做數據源分析時將用戶數據分為兩大類,如將相對穩定的一些靜態數據劃分為用戶屬性類數據,將不斷變化的動態數據劃分為用戶行為類數據。用戶屬性類數據主要指用戶的人口屬性信息,如:性別、年齡、學歷、教育程度、年齡層次、家庭情況、職業/行業、國籍、籍貫、職務、收入水平等等。這類信息作為自然標簽,不需要進行過多建模預測,只需要做好數據清洗工作即可。用戶行為類的動態信息數據,主要指不斷變化的用戶行為信息,在互聯網上,用戶行為,可以看作用戶動態信息的唯一數據來源。如個人興趣偏好(影視、音樂、旅游、攝影、游戲、體育等)、休閑方式、情感取向、生活態度、工作區域、居住區域、休閑區域、出行方式、是否車主、是否自購住房、社交圈、消費心理、服務偏好、閱讀偏好、推廣接受度等。
目標分析,指在用戶聚類分析結果的基礎上,對用戶的行為數據進一步分析并為用戶打上標簽、賦予權重值。用戶標簽信息可以反映出用戶對某類圖書有興趣、有需求等,而權重值則表明了用戶對該類圖書的偏好指數、興趣度、需求度等的概率指數。
形成用戶標簽,用戶標簽統一視圖分四個層次,基本屬性、分析屬性、標簽屬性、營銷屬性等,如圖4所示。

圖3 用戶信息標簽化

圖5 四層次的用戶標簽統一視圖
基本屬性層次通過整合各個系統的基本數據,如用戶屬性數據和用戶行為數據等;分析屬性層次基于基本數據之上的統計、分析,如總體關聯分析、用戶價值分析、用戶行為分析、用戶分群信息等;標簽屬性層次為刻畫用戶特征生成的標簽,如規則類標簽、行為類標簽等;營銷屬性層次針對特定的營銷活動場景分析的屬性,如圖書潛在用戶屬性、接觸時間屬性、接觸渠道屬性等。最終通過原始信息、統計匯總得到事實信息、各類預測分析信息、結合業務場景應用形成應用類標簽四個要素來完成用戶進行“臉譜”標簽的繪制,如圖5所示。
構建用戶“臉譜”為用戶畫像的目的是為了充分了解用戶,使圖書館進而為讀者用戶提供更精準的服務和更好的用戶體驗,為讀者用戶進行“臉譜”繪制,有著廣泛的應用前景,可以應用在用戶統計,如閱讀排行,最受歡迎的圖書TOP10、人群分布等情況;在數據挖掘方面,可以分析潛在用戶,開展個性化推薦系統的研究,快速高效地從海量的數據和信息中獲取有關知識,提高資源檢索和推薦的智能水平,滿足各類用戶不同的個性化需求[9-10];也可以對圖書館應用系統進行效果評估、完善圖書管理系統、提升服務質量、提高服務水平,還可以進行業務經營分析,通過對讀者用戶畫像進行分析,制定圖書館發展戰略等。
在“互聯網+”、虛擬化、云計算和大數據技術時代背景下,個性化的用戶“臉譜”繪制是圖書館未來通過推薦系統實施精準化服務的突破口,特別是圖書館不斷完善數據基礎平臺、以讀者用戶為中心,了解用戶、體察用戶、懂得用戶、服務用戶,提升用戶體驗方面起著重要作用。本文提出了圖書館讀者用戶“臉譜”的繪制方法的思路、并對“臉譜”的實際應用進行了概述,在具體構建智能推薦系統應用方面還需要進一步深入研究,在推薦算法方面還需要在更多的數據集和大數據集上進一步測試驗證。
[1]郝勝宇,陳靜仁.大數據時代用戶畫像助力企業實現精準化營銷[J].中國集體經濟,2016(4):61-62.
[2]曾鴻,吳蘇倪.基于微博的大數據用戶畫像與精準營銷[J].現代經濟信息,2016(16):306-308.
[3]何雪海,黃明浩,宋飛.網絡安全用戶行為畫像方案設計[J].通訊技術,2017,50(4):789-794.
[4]黃文彬,徐山川,吳家輝,等.移動用戶畫像構建研究[J].現代情報,2016,36(10):54-61.
[5]吳明禮,楊雙亮.用戶畫像在內容推送中的研究與應用[J].電腦知識與技術,2016,12(32):255-259.
[6]王慶福.貝葉斯網絡在用戶興趣模型構建中的研究[J].無線互聯科技,2016(12):101-102.
[7]尤駿杰.大數據營銷理論及其在游戲運營中的應用[D].蘇州:蘇州大學,2016:27.
[8]劉鵬.基于Spark的數據管理平臺的設計與實現[D].杭州:浙江大學,2016:17-34.
[9]朱白.數字圖書館推薦系統協同過濾算法改進及實證分析[J].圖書情報工作,2017,61(9):130-134.
[10]王敏,嵇紹春.基于模糊聚類和模糊模式識別的數字圖書館個性化推薦研究[J].現代情報,2016,36(4):52-56.
(責任編輯:彭治民)
The Research on Plotting the"Facebook"of Library Readers
ZHU Bai
(Library of Shangluo University,Shangluo 726000,Shaanxi)
How to integrate and mine the massive data in order to restore the original visage of one reader in the big data era is a component of the accurate library services.An idea that is labelling the users to plot their real"facebooks"is proposed through analyzing the data of the library readers,establishing the model and combining the basic information and the behavior information of the library readers,so as to realize the accurate portrait of the needs and likes which the readers actually have and help to realize the application in the big data of the library.
library;facebook;label;userportrait
G252
A
1674-0033(2017)05-0087-04
10.13440/j.slxy.1674-0033.2017.05.018
2017-07-20
朱白,女,陜西商州人,館員