汪倩,徐勇,張心蕊,李曉宇
(安徽財經大學管理科學與工程學院,蚌埠233000)
大數據時代表現出4V 特征,即數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值高(Value),因此造成用戶使用互聯網獲取信息的難度迅速增加,而用戶畫像作為一種數據分析工具,運用它能夠更好的獲取有效信息,提高用戶的使用滿意度。電影院通過對購買電影票的用戶性別構建用戶畫像,了解哪些電影更加受女性用戶的歡迎,而哪些電影受男性用戶的歡迎,進而進行有針對性的推薦與營銷,這是一種簡單的用戶畫像的應用。京東、阿里作為電商領域的巨頭,擁有龐大的用戶數據,通過分析消費者的基礎信息、購物行為以描繪其特征畫像,從而建構了一套屬于自己的用戶畫像,實現用戶分類、熱門商品推薦、用戶偏好分析、商品設計等。
基于當前時代背景下的特殊性,用戶畫像越來越引起學者的關注,其研究也在學術界如火如荼的展開。本文通過梳理現有研究文獻,分別從數據采集、畫像建模以及動態更新畫像三步驟對用戶畫像構建流程進行詳細闡述,并總結出現有研究中用戶畫像的主要應用方向,列出現有用戶畫像研究所存在問題,希望能夠促進用戶畫像的進一步研究,從而為各行各業的進步與發展提供幫助。
用戶畫像研究中主要把用戶畫像的構建過程分為3 個階段,即先從數據源獲取數據,并對其進行清洗、整理、表示后,通過用戶畫像模型進行畫像的構建,最后根據用戶的情況進行畫像的更新變動,及時調整以適應當前用戶情境。
實現用戶畫像的首要工作就是收集數據,數據采集的完整性直接影響用戶畫像構建的精準性。現有的大多數研究是通過編寫程序或直接運用數據采集器從API 這一入口進行數據爬取來獲取數據,這與傳統的通過問卷、深度訪談等方式相比,能夠有效改善數據獲取的難度,并能減少用戶由于厭煩回答而不答或隨意回答造成的數據量少或數據錯誤的現象。
目前由于不同學者研究領域的不同,挖掘的數據也就存在差異。根據用戶研究領域的不同,將收集的數據分為用戶維度數據和領域維度數據兩大類,如圖1所示。其中,用戶維度的數據通常是指人口統計學特征,如姓名、年齡、性別、文化水平、職業、興趣愛好等,它一般可以從用戶的注冊信息中直接獲取且是相對穩定的。而領域維度的數據會根據具體領域而有所調整。

圖1 用戶數據維度劃分
用戶畫像的構建過程實際上是用戶興趣特征提取的過程。目前,構建畫像的方法多種多樣,本文主要將其分為基于統計的用戶建模和基于模型的用戶建模兩種。
(1)基于統計的用戶建模
通過數學方法對各類數據的數量或各類數據占整體的比率等進行量化,并針對這些量化后的值對用戶進行分析,挖掘出能夠代表用戶興趣偏好的特征,這是一種較為簡單的用戶分析方法。Benevenuto 等人[1]基于從社交網絡聚合器收集的連接OSN 網站的頻率、時間等點擊流數據集對在線社交網絡(OSNs)用戶進行分析,并提出了會話到達間隔時間和會話長度分布的最佳擬合模型,從而沿著社交圖分析用戶活動,揭示用戶訪問他人在線簡檔、照片和視頻的頻率。劉海鷗等[2]從時間間隔分布、活躍性與冪指數分布、時間間隔分布寬度、時間間隔重標度等對用戶行為特征進行分析,從而發現在線社交用戶發布信息行為的時間間隔服從冪律分布,社交用戶在發布信息行為中表現出“強陣發弱記憶”的特征等特點。
基于統計的方法進行用戶興趣特征的挖掘是一種易于實現但結果較粗糙的方法。然而此方法不能對如文本、圖片、音頻等非結構化數據進行分析處理,提取用戶特征來構建更加全面而細致的用戶畫像。尤其在Web 2.0 時代的今天,用戶是網絡的主體,并自發的在網絡上發布數量龐大的UGC 來表達自己的心情、愛好、生活等與用戶息息相關的數據,因此,對于這些非結構化數據的深度挖掘顯得尤為重要。
(2)基于模型的用戶建模
用戶畫像的實現除了簡單的通過統計數據的方法實現外,還常運用基于向量空間模型的方法、基于潛在Dirichlet 主題模型的方法、基于貝葉斯網絡的方法、基于本體(Ontology)的方法、基于神經網絡的方法等來建模。何娟[3]利用向量空間模型,通過將文本內容表示成向量來計算余弦距離得到各文本之間的相似度數值,并通過聚類算法構建用戶畫像。李恒超[4]通過使用卷積神經網絡模型和Doc2Vec 淺層神經網絡模型來分別提取查詢詞之間語義關聯,構建了用戶畫像的二級融合模型的算法框架。單曉紅等人[5]運用Protege 構建基于本體的用戶畫像,實現用戶畫像的層次化、概念化和可視化特點,并展示其關聯特征。
隨著數據挖掘、機器學習、深度學習技術的出現,對于用戶的研究得到迅速發展,不僅只考慮了結構化數據,還考慮了文本、圖片等非結構化數據,使得用戶畫像能夠全面細致地展示用戶特征。運用模型分析出用戶特征并構造用戶畫像的方法是一種有效的數據分析方式,對于不同類型的數據能夠較好的進行處理,但由于算法與模型的擴展性還相對較低,且受到數據稀疏性的影響,對于用戶畫像的研究仍面臨著巨大挑戰。
用戶畫像的構建大多基于離線數據,是一種靜態畫像,缺乏動態性和實時性,只能夠反映當時的或者短期內的一個用戶偏好,而其實用戶偏好是會隨時間發生改變的,如果不能及時更新用戶畫像,這會使根據用戶畫像來對用戶進行相應的推薦或服務時產生偏差。因此,針對如何實現標簽隨時間變化來不斷修正用戶畫像的研究日益增多,常用的更新方法如基于遺忘衰減規律的方法、基于時間窗口的方法、基于反饋的方法等。林鴻飛等人[6]利用相關反饋,追蹤和更新用戶興趣模型。朱祎等人[7]通過結合艾賓浩斯遺忘曲線并考慮到人的心理變化的基礎上,引入時間衰減度(T)參數對用戶的興趣度進行自適應更新,來實現用戶畫像的更新。李強[8]采用類似LRU 算法的一種改進方法進行用戶模型更新,以此來記錄電影類型新鮮度。
但目前學術界對于此方向的研究還相對較少且深入度不夠,用戶畫像更新仍較為滯后,大多是按一段時間為節點進行更新,而不能實現更加及時準確的更新。
用戶畫像通過挖掘和分析用戶的屬性和行為數據,從而給用戶打上相應的標簽,來了解用戶的需求與偏好,這一技術的實現對各領域的發展都起到巨大的幫助。目前,用戶畫像被應用于個性化推薦、精準營銷、行為預測、異常檢測等。
市場競爭的激烈,迫使企業和商家不斷去尋找措施促進營銷,而用戶畫像的出現,對于企業來說是一個非常好的工具,它可以運用用戶畫像,得到用戶的消費習慣、興趣喜好等信息,從而為用戶提供服務。如Hu[9]將用戶畫像同步到統一的數據集市層,通過相關的上下游數據和產品,傳遞給營銷用戶,實現高效操作和精準營銷。單曉紅等人[5]構建基于在線評論的用戶畫像本體模型,展示用戶對于酒店相關屬性的偏好,為酒店進行精準營銷提供了很大的幫助。
用戶畫像通過給用戶打標簽的方式,直接展示了用戶需求特征,對于改善推薦算法,提高推薦效率起到了重要作用。齊會敏等人[10]運用用戶畫像實現了一種基于用戶興趣主題的個性化好友推薦方法。曹斌等人[11]結合閱讀速度感知模型(RSA)和書籍閱讀權重模型(RBW)提出了一個混合的速度-權重模型,提高書籍推薦的準確度。
用戶畫像是基于用戶過去在網絡上積累的大量數據而構建的,能夠反映用戶長期的行為習慣,因此,通過運用用戶畫像就可以發現用戶的異常行為,檢測出異常用戶,實現虛假主體的判別。如蔡武越等人[12]提出一種基于HDFS 審計日志和并行化主成分分析的用戶行為異常檢測方法,來檢測用戶行為是否異常。李海斌等人[13]提出了一種基于核密度估計算法的無監督機器學習方法,對數據庫用戶行為建模、檢測異常。
用戶的興趣偏好在短期內大部分情況下基本不會發生變化,使得用戶興趣具有一定的規律性可尋,而用戶畫像作為分析用戶數據的工具,能夠顯示出用戶的偏好特點,因此基于用戶畫像進行用戶下一次行為的預測顯得至關重要。高嶺等人[14]通過獲取用戶與原始偏好行為的相似度,并根據其分布特征來建立基于平均近鄰與異常評分交互影響的修正模型,實現用戶興趣關系預測。王斌等人[15]對大量用戶訪問服務平臺數據塊的行為進行統計分析,并利用信息熵策略挖掘出被頻繁集中訪問塊的時序特征和三次指數平滑方法來預測未來一段時間用戶對這些塊的訪問行為。
用戶畫像的核心就是“用戶”,以用戶為中心,深度分析與用戶相關的數據,通過分類、聚類、關聯等方法來挖掘用戶的特征與偏好的一種分析工具。本文通過梳理用戶畫像的相關研究文獻,總結出用戶畫像構建的流程,包括數據收集、畫像建模、動態更新畫像3 個階段,并總結出現有用戶畫像主要的應用情境。但目前對于用戶畫像的研究還存在一些問題:
(1)用戶隱私安全問題:用戶畫像的構建需要大量的數據作為支撐,數據的類型越豐富,所勾勒出的用戶畫像才更有可能貼近于用戶。因此,大量的數據需求使得用戶的隱私安全問題隨之而來,因此,如何有效保障用戶的隱私安全是一個值得深思的問題。
(2)多類型數據的使用問題:Web 2.0 時代,用戶可以在網絡上自由發表任何數據,而數據的形式多種多樣,除文本外還有圖片、音頻和視頻等,而目前大多基于文本數據構建畫像,但其實,圖片、音頻或視頻等形式的數據同樣可以反映用戶興趣的特征,所以如何同時應用更多類型的數據來構建用戶畫像也是一個值得思考的問題。
(3)多維度數據融合問題:用戶在單一領域產生的數據存在數據稀疏的問題,造成構建用戶畫像時效果不佳,而其實用戶在不同領域產生的數據是存在相關性的,如果能夠同時考慮多個平臺和系統的數據,進行數據的集成與融合,能夠有效緩解數據的稀疏問題,實現更優的用戶建模。