李銳
(首都經(jīng)濟貿(mào)易大學管理工程學院,北京100070)
用戶畫像的核心工作是數(shù)據(jù)標簽化。對采集到的各類原始數(shù)據(jù)進行清洗與整理,提煉出用戶屬性,最后可從用戶屬性挖掘出用戶標簽。用戶畫像雖是一種數(shù)據(jù)分析的新方法,但廣泛應(yīng)用于各個領(lǐng)域。不同領(lǐng)域的用戶畫像研究工作的根本差異就在于融合領(lǐng)域知識的用戶屬性的分析,理論分析出該領(lǐng)域用于畫像的用戶屬性。用戶屬性分析過程如圖1所示。
圖1 用戶屬性分析與標簽化
現(xiàn)有研究絕大多數(shù)將用戶屬性簡單分為靜態(tài)屬性和動態(tài)屬性,本文則按研究領(lǐng)域進行細致的劃分。歸納為三大類:基本屬性、領(lǐng)域?qū)傩院吞囟▽傩浴;緦傩允怯脩舻淖匀粚傩裕缒挲g、性別等人口統(tǒng)計屬性;領(lǐng)域?qū)傩允侵高\用領(lǐng)域知識,對研究問題進行理論剖析,得出研究該問題所需的用戶屬性,其中主要有行為屬性和興趣屬性;特定屬性是指根據(jù)特定研究需求提煉出的特定的用戶屬性,多數(shù)就是各個研究中的創(chuàng)新與特色之處。
對用戶屬性的總結(jié)如表1所示。
表1 用戶屬性總結(jié)
表1 (續(xù))
根據(jù)現(xiàn)有研究,本文將用戶畫像的構(gòu)建流程總結(jié)為三個階段:數(shù)據(jù)采集,數(shù)據(jù)挖掘,畫像生成與可視化。不同階段采用不同的分析和處理方法。下面做詳細介紹并用表2進行匯總。
表2 分析方法總結(jié)
目前在數(shù)據(jù)采集方法主要存在四類途徑,分別為訪問現(xiàn)有數(shù)據(jù)庫,問卷調(diào)查、訪談等社會調(diào)查方法,數(shù)據(jù)爬取和特定軟件采集。國內(nèi)外學者根據(jù)各自研究問題采用了不同的方法。汪強兵等研究人員開發(fā)的手機文獻閱讀網(wǎng)站可以采集用戶在瀏覽頁面時發(fā)生的放大/縮小、滑動、拖動、點擊的手勢行為數(shù)據(jù),挖掘用戶興趣[40]。LEROUGE等研究人員針對主要用戶群體(糖尿病患者)進行深入討論。焦點小組,訪談和調(diào)查闡明了老年糖尿病患者的共同特征以及認知,信念和可能性的背景差異[41]。
在數(shù)據(jù)挖掘階段主要的工作是對所分析的問題進行用戶建模與挖掘,該階段常用數(shù)理統(tǒng)計、數(shù)據(jù)挖掘以及機器學習等方法,其中主要包括聚類、分類、LDA模型、集成學習、神經(jīng)網(wǎng)絡(luò)、向量空間模型和粒計算等等。張炎亮等研究人員使用K-Means算法進行用戶聚類,融合聚類結(jié)果采用KNN分類算法進行產(chǎn)品個性化推薦[47]。RUAS等研究人員根據(jù)Facebook用戶的交互記錄和用戶交互網(wǎng)絡(luò)的特征,使用K-Means,SOM和DBSCAN聚類算法實驗,對在社交網(wǎng)絡(luò)中發(fā)現(xiàn)的用戶畫像進行分析,發(fā)現(xiàn)了三種不同的群體畫像:查看者、參與者和內(nèi)容生產(chǎn)者[54]。
通過數(shù)據(jù)挖掘構(gòu)建起畫像,得到的用戶特征,可視化將有助于畫像的展示和應(yīng)用。現(xiàn)有主要的方法包括標簽云(詞云)、統(tǒng)計圖表、個性化圖形和可視化綜合面板等。余明華等人提出文本型數(shù)據(jù)和畫像標簽可以由圖標圖形很好呈現(xiàn),結(jié)構(gòu)化數(shù)據(jù)可以由幾何圖形較好展示,柱狀圖、莖葉圖、箱線圖、餅圖等是教育領(lǐng)域常用的數(shù)據(jù)展示方式[59]。
李飛提出全面的客戶畫像構(gòu)成要素應(yīng)包括“人物頭像+屬性特征+動機文字+態(tài)度文字+行為文字+其他諸多要素文字”等,坐標型、人體型等圖形也可以豐富畫像可視化方式[61]。國外研究者也同樣采取標簽云(詞云)[56]、統(tǒng)計圖表[19]、自定義圖形(人物頭像和特征文字集合)[6,15]等方式進行畫像可視化。
回顧文獻可清晰發(fā)現(xiàn)用戶畫像模型之間的差別,本文將用戶畫像的模型大體分為四類:基于社會調(diào)查的用戶畫像模型、基于行為的用戶畫像模型、基于興趣的用戶畫像模型和基于本體的用戶畫像模型。下面做詳細介紹并用表3進行匯總。
表3 用戶畫像模型對比
社會調(diào)查是社會學科研究的一項重要手段,常用的調(diào)查方法有問卷法、文獻法、訪談法和觀察法。基于社會調(diào)查的用戶畫像模型采用問卷法、訪談法等調(diào)查方式收集用戶信息,整理、統(tǒng)計、分析之后,構(gòu)建用戶畫像。
用戶行為是用戶為滿足自身信息需求的一系列動態(tài)表現(xiàn),根據(jù)信息需求的不同,用戶有著各種行為。基于行為的用戶畫像模型通過對用戶各類行為進行分析挖掘,構(gòu)建起符合需求的用戶畫像。
用戶興趣是用戶根據(jù)實際需求、習慣、心理狀態(tài)等因素對各類信息的偏好表現(xiàn)。基于興趣的用戶畫像模型根據(jù)用戶興趣顯式數(shù)據(jù)進行分析或通過其他用戶隱式數(shù)據(jù)挖掘出用戶興趣的方式來構(gòu)建出用戶畫像模型。
本體是領(lǐng)域知識的概念模型,在特定領(lǐng)域中對概念及其關(guān)系進行結(jié)構(gòu)化的表達。基于本體的用戶畫像模型利用本體中定義的結(jié)構(gòu)化概念及其之間關(guān)系來刻畫用戶,在語義表達和邏輯推理方面具有優(yōu)勢,同時自然標簽的不足可以得到本體的結(jié)構(gòu)化和語義性的完善。
通過文獻回顧可以發(fā)現(xiàn)用戶畫像的研究主要集中于概念、特征、模型和應(yīng)用等方面。國外的用戶畫像研究起步較早,且一直保持著較為穩(wěn)定的發(fā)文量。國內(nèi)用戶畫像的研究開始較晚,但近幾年發(fā)文量顯著增加。雖然國內(nèi)外的研究成果已為該領(lǐng)域研究奠定了很好的基礎(chǔ),但不得不說,目前用戶畫像仍然是一個新興的研究領(lǐng)域,還沒有構(gòu)建起全面且成熟的理論框架和體系。下面本文將列舉現(xiàn)有研究存在的不足之處。
國內(nèi)研究雖然起步晚,但發(fā)展迅速。可以發(fā)現(xiàn)用戶畫像被廣泛應(yīng)用于各個領(lǐng)域,且取得了一定的實踐成果。但是關(guān)于用戶畫像內(nèi)涵定義、原則和框架體系等基礎(chǔ)理論研究不足。相關(guān)概念直接套用國外的且不加以區(qū)分。現(xiàn)有用戶畫像的研究相較于傳統(tǒng)的客戶數(shù)據(jù)分析與挖掘研究并沒有形成自己的理論架構(gòu)和體系,更多的只是已有研究換了一種提法。用戶畫像的應(yīng)用研究多數(shù)是就該領(lǐng)域的一個實踐問題而研究并沒有提取出用戶畫像應(yīng)用的理論規(guī)則。另外,產(chǎn)業(yè)界的實踐應(yīng)用也遠超前于學界的理論研究,并且目前對用戶畫像成功案例的分析研究幾乎是空白。用戶畫像理論研究需要進一步完善。
現(xiàn)有研究多采用用戶基礎(chǔ)數(shù)據(jù)、行為數(shù)據(jù)、興趣偏好數(shù)據(jù)等等構(gòu)建用戶畫像,畫像數(shù)據(jù)來源一般為某一個或某幾個。但是全面的深層次的畫像必然受多方面因素的影響,故需要多方面的數(shù)據(jù)支撐。目前一些旅游領(lǐng)域的畫像研究引入了情境數(shù)據(jù),也進行了數(shù)據(jù)融合。同樣的,其他領(lǐng)域的畫像固然會受到該領(lǐng)域特定因素的影響,如何引入新的數(shù)據(jù),擴展數(shù)據(jù)寬度,同時做好數(shù)據(jù)的融合,需要后續(xù)研究人員貢獻自己的思路。
需求分析為繪制畫像提供重要的基礎(chǔ),但目前的研究對需求的分析和挖掘的關(guān)注度不夠,有些研究忽視需求分析直接進行畫像構(gòu)建。另外,現(xiàn)有研究構(gòu)建了各類的用戶畫像,但是畫像的有效性沒有得到充分的驗證,畫像存在的問題也無法反饋。可見,研究缺乏需求分析—畫像構(gòu)建—有效性驗證—問題反饋的良性循環(huán)機制,畫像存在的問題無法得到及時的優(yōu)化和改正,可能造成畫像應(yīng)用的蝴蝶效應(yīng)。
用戶畫像作為數(shù)據(jù)分析與挖掘的新興工具,發(fā)展勢頭迅猛,但理論研究薄弱。本文通過文獻綜述從因素、方法與模型三方面闡述研究現(xiàn)狀,發(fā)現(xiàn)新的探索方向,故后續(xù)研究可以在加強理論研究、數(shù)據(jù)多源與融合、畫像優(yōu)化等方面進一步展開。