彭雯
(鄭州大學信息管理學院,河南 鄭州 450001)
交互設計之父A.Cooper最早提出用戶畫像(User Profile)的概念,他將用戶畫像定義為真實用戶的虛擬代表,認為用戶畫像是建立在一系列真實數據之上的目標用戶模型[1]。在當今互聯網和大數據時代背景下,用戶信息紛繁復雜,將用戶的具體信息抽象為標簽,從而利用標簽將用戶形象概念化,是為用戶提供針對性服務的關鍵所在。作為一種勾畫目標用戶、聯系用戶訴求與設計方向的有效工具,用戶畫像的應用場景和研究領域不斷擴展延伸。在此背景下,探究該領域研究的熱點,洞察研究熱點的演變趨勢具有重要意義。
以中國知網(CNKI)作為文獻數據來源,設定檢索條件為“主題(精確)”,檢索詞為“用戶畫像”,來源類別為學術期刊,時間范圍不做限制,檢索時間為2022年5月21日。最終獲得有效文獻1809篇作為本文進行文獻計量統計和可視化分析的數據源。
知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是通過將信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。CiteSpace是一款用于分析科學文獻信息的可視化軟件,由美國德雷塞爾大學陳超美教授應用Java語言研發。
本文基于文獻計量學方法,利用CiteSpace(6.1 R2)軟件和中國知網自帶可視化工具生成文獻時間分布圖、關鍵詞聚類圖譜、關鍵詞時間線圖譜、關鍵詞突現分析圖譜,分析目前我國用戶畫像相關文獻的研究熱點和演進趨勢,從而描繪國內用戶畫像研究的知識全景。
借助CNKI檢索結果自帶的可視化功能,用戶畫像相關文獻總體發文趨勢如圖1所示。通過圖1可以看出,國內對于用戶畫像的研究起步較晚。CNKI收錄的我國最早的一篇關于用戶畫像的期刊文獻發表于2011年,2011—2016年是我國用戶畫像研究的起步階段,該階段文獻數量較少且增長速度緩慢;2016—2019年是快速增長階段,用戶畫像相關研究呈現爆發式增長態勢;2019—2021年是波動式增長階段,2019—2020年度相關文獻數量增幅較小,但2020—2021年度再次出現大幅度增長,圖中2022年發文量非全年統計數據。目前,我國用戶畫像相關研究文獻整體上仍呈現上升趨勢。
關鍵詞是對文章內容的高度凝練與總結,關鍵詞頻數可以直觀地反映某一知識領域的研究熱點。根據研究預定的標準和步驟,設置時間范圍為2011—2022年,以“Keyword”為節點,設置閾值“TOP 30 per slice”,通過“Pathfinder”剪枝方法修剪全局網絡,運行后生成用戶畫像領域研究熱點關鍵詞圖譜,該圖譜共包含699個節點、1253條連線,網絡密度為0.0051。篩選出頻率在10以上的關鍵詞,整理得到熱點關鍵詞頻次表(見表1)。

表1 用戶畫像研究熱點關鍵詞
除“用戶畫像”這一自身指向性詞語外,出現頻次最高的關鍵詞依次為:“大數據”“精準營銷”“圖書館”“人工智能”“數據挖掘”“精準服務”等。
在關鍵詞共現網絡圖譜的基礎上,采用對數似然比(loglikelihood ratio,LLR)算法,生成關鍵詞聚類網絡圖譜(圖2)。其中,圖譜信息模塊性(Q值)為0.6835>0.3,圖譜輪廓系數(S值)為0.8946>0.5,表明該關鍵詞聚類網絡圖譜聚類結果合理,基本可以反映該領域的研究情況。

圖2 關鍵詞聚類網絡圖譜
綜合關鍵詞共現與關鍵詞聚類的分析結果,結合查看關鍵詞節點“List citing papers to the cluster”所包含的文獻內容,將用戶畫像技術的相關研究概括為以下幾個方面:
“大數據”“人工智能”“數據挖掘”“深度學習”等詞語在熱點關鍵詞中共計出現421次,占全部30個熱點關鍵詞的比例超過20%。用戶畫像的構建是一個搜集用戶特征數據、研究用戶信息、細分標簽、豐富用戶畫像描述的過程[2],數據采集、數據挖掘和分類算法是用戶畫像構建過程中關鍵的核心技術,涉及大數據、人工智能、機器學習、社交網絡等多種技術和算法。可見,以大數據為代表的新興信息技術是構建用戶畫像的基礎,同時用戶畫像作為一種新型的數據分析與挖掘工具,也加速了信息技術手段的發展與創新。
用戶畫像技術隨著大數據時代的到來而逐漸興起,同時也擴展了大數據的應用深度和廣度。“精準營銷”是用戶畫像技術的關鍵應用場景。在熱點關鍵詞中,“精準營銷”及其同義關鍵詞出現了167次,在各種應用場景類詞語中出現頻次最高。2011年以來,“用戶畫像”概念一經提出,便被率先應用到電子商務領域的精準營銷中。電商企業實行精準營銷的重要基石是如何在海量信息中攫取關鍵信息挖掘出用戶行為特征[3],用戶畫像為其提供解決方案。電商企業通過構建用戶畫像識別目標用戶群體、準確定位市場,打破傳統營銷模式,大大提高了營銷成功率。
“信息服務”“知識服務”“圖書館”“閱讀推廣”等關鍵詞共計出現113次,僅次于“精準營銷”,表征用戶畫像在圖書情報領域的廣泛應用。當下,圖書館所依賴的知識創造與閱讀環境正在從信息時代進入到“數據時代”,多種形態資源和多樣化的數據構成了可充分集成關聯的數字圖書館服務的大數據環境[4]。個性化、專業化的閱讀推薦和知識服務是數字圖書館未來的發展方向,而構建用戶畫像以深刻理解用戶需求、洞察用戶偏好是有效的實現途徑。目前,圖書情報與數字圖書館領域學者已在包括智慧閱讀推薦、知識發現系統、知識社區用戶畫像構建、資源推薦等主題開展用戶畫像的應用進行了探討[5]。
此外,以“短視頻”為代表的社交媒體、網絡社區也是用戶畫像技術的應用場景之一。如陳燁等研究高血壓主題下的用戶社交行為數據,分析用戶社交網絡結構和用戶社交類型的特征,進而生成面向高血壓主題的用戶畫像[6]。在電子技術和大數據不斷發展的背景下,為了能在網絡中更加快速精準地找到目標用戶,就需要利用相關分類技術劃分用戶的身份等各類屬性信息,通過畫像構建可以更進一步了解網絡社交用戶的供求信息,對行為習慣等數據進行準確定位,便于了解用戶信息的全貌[7]。
3.3.1 關鍵詞時間線圖譜
關鍵詞時間線圖譜通過詳細展示各聚類模塊內部關鍵詞產生的時間跨度和關聯,能夠清晰展現該領域研究的演進過程。Citespace控制面板選擇布局(Layout)模塊,選擇“timeline”繪制用戶畫像聚類的時間線圖譜,如圖3所示。

圖3 關鍵詞時間線圖譜
3.3.2 關鍵詞突現圖譜
關鍵詞突現是指在短時間之內該詞的出現頻率顯著增加,表明某段時間內該領域的研究備受科研人員的關注,據此可以判斷該領域的前沿進展和研究趨勢[8]。Citespace控制面板選擇突現(Burstness)模塊,生成2011—2022年用戶畫像研究突現詞知識圖譜,如圖4所示,共13個突現詞。其中,橫線加粗部分表示該詞出現并持續時間,橫線較細部分表示該詞突現成為熱點的持續時間。

圖4 關鍵詞突現圖譜
觀察圖4,從突現度看,排名前5的關鍵詞依次為機器學習(2.41,2017—2018)、聚類分析(2.37,2020—2022)、用戶體驗(2.23,2020—2022)、今日頭條(1.79,2017—2018)和智能化(1.55,2019—2020)。從研究的持續時間看,“云計算”和“云平臺”是最早突現的關鍵詞。
綜合圖3、圖4的可視化結果可知,我國用戶畫像領域研究的演變過程可以劃分為3個階段。初期萌芽階段(2011—2016年),該階段隨著“云計算”技術的實現,用戶畫像初步進入研究視野。快速發展階段(2016—2019年),隨著以大數據、云計算、人工智能為代表的新型數字技術廣泛應用,用戶畫像技術在我國快速發展。該階段,“用戶標簽”“機器學習”“數據”“智能化”等多個關鍵詞相繼突現,表明用戶畫像研究爆發,其研究深度和廣度進一步拓展。多元拓展階段(2019年至今),“用戶體驗”“服務模式”“科技期刊”成為用戶畫像研究的焦點。可以看出,大數據時代下的用戶畫像研究延續了互聯網時代下“以用戶為中心”的思維,借助大數據的技術手段和分析工具,更深入地了解用戶,進而形成基于用戶大數據的精準認知,并在此基礎上為用戶提供精準化、定制化的高質量服務。此外,“科技期刊”表征用戶畫像在圖書情報與數字圖書館界的廣泛應用。國內圖書館領域對用戶畫像的研究起步較晚,近3年才逐漸成為研究熱點,研究成果也相對較少,主要集中在圖書館用戶畫像的模型構建和實踐應用[8]。
本文借助CiteSpace可視化軟件及中國知網自帶可視化工具,繪制發文趨勢圖、關鍵詞聚類圖譜、關鍵詞時間線和突現圖譜,對2011—2022年間用戶畫像領域相關期刊文獻進行知識圖譜展示,分析用戶畫像研究的總體發文趨勢、研究熱點及演變趨勢。分析發現,我國用戶畫像研究雖然起步較晚,但發展迅速,研究內容集中在關鍵技術和實際應用,對基礎理論的分析較少;目前用戶畫像技術已廣泛應用于精準營銷、個性化推薦、知識服務等;未來仍是多學科的研究熱點。