劉文敏 孟繁瑞
摘 要 在互聯網應用大爆發背景下,用戶畫像技術得到廣泛應用,但現有的基于虛擬身份信息的用戶畫像難以針對同一人進行有效關聯。本文提出了通過不同虛擬身份用戶的行為、內容抽取靜態用戶畫像標簽,以實現關聯用戶真實身份、動態融合用戶畫像標簽的知識圖譜構建思路和方法。
關鍵詞 用戶畫像;知識圖譜;虛擬身份;用戶標簽
根據相關部門統計, 2020年第一季度,我國網民規模達到9.04億,互聯網普及率更是達到64.5%,互聯網已成為人民生活不可或缺的一部分。近年來,用戶畫像技術在各個領域得到了廣泛應用,但現有用戶畫像數據的采集大多基于虛擬身份信息,用戶的各虛擬身份之間難以有效關聯,想要進一步更為完整、全面、精確的刻畫用戶畫像困難重重。為初步構建解決上述問題的方法,本文將通過用戶行為、內容等方面,多視角研究用戶畫像關聯關系,從而拓展用戶畫像能力,提高用戶畫像質量。
1用戶畫像相關背景
用戶畫像研究領域中,相關研究多集中在推薦系統等商業領域,研究對象往往是使用某一產品或者服務,以及具有相似背景、興趣的用戶群體所呈現出的具有共同特征的集合,即挖掘用戶群體顯著特征的概念模型[1]。對于用戶畫像應用,目前一般集中在三個方面。一是User Portrait即用戶肖像,主要應用于用戶肖像的繪畫;二是Persona即用戶畫像,主要應用于創造一個虛擬用戶,更加關注用戶建模和模擬用戶技巧;三是User Profile即用戶文件,主要應用于描述用戶興趣的文件,更加體現用戶個性化的需求,側重于存儲數據及其結構。視角不同,方法不同。按研究視角,用戶畫像方法可歸結為四類進行分類,即基于虛構的視角、基于目標導向的視角、基于角色的視角以及基于參與的視角。其中,基于虛構視角的用戶畫像方法建立在主觀設想上,后面三種人物畫像方法通過采集用戶數據來支撐畫像結果。用戶畫像作為用戶細分的一項基礎性工作,在商業系統中,往往通過挖掘海量數據中用戶相關行為數據,標記出用戶的屬性、特點、行為、傾向等,再對每一細分群體的典型特征進行抽象,從而實現對用戶準確分類、深刻理解,最后實現對互聯網用戶的精準管理,甚至是行為推斷、傾向引導。用戶畫像技術在微觀層面揭示了單個用戶的信息行為特征,能夠直觀地體現用戶偏好領域、情感強度、態度傾向、認知與感知等,用戶畫像技術在宏觀層面顯現群體行為,更能夠從更高層次體現集體情感傾向。
2用戶畫像體系知識圖譜構建思路
知識圖譜是一種可視化的知識領域映射,用戶畫像體系知識圖譜建立在用戶畫像標簽基礎上,重在展現標簽之間相互聯系。對用戶畫像打標簽的過程,主要根據人口統計學方法,搜集、整理、分析和運用各種能夠反應用戶畫像的真實數據,再按統一標準結構抽取用戶畫像屬性指標,從而真實反映現實社會生產中的各種數量表現、數量關系及其變動的規律性,最終期望能夠揭示人群現象和過程的本質聯系,以及人群總體的規模、結構、分布及其發展變化的趨勢。本文利用靜態和動態兩類指標構建用戶畫像體系。其中,靜態指標是指能夠從現網數據中直接提取的屬性信息。動態指標則是指利用靜態屬性抽象出來的標簽化屬性[2]。
3用戶畫像體系知識圖譜構建方法
(1)靜態虛擬身份抽取。一般來說,采集靜態指標,需要事先規劃好畫像的維度及數據需求。以從某知識庫中抽取靜態虛擬身份為例,可抽取如下數據組。①標識信息屬性組。該屬性組可以根據IP、終端、常用ID等能顯著區分虛擬身份類別,生成唯一虛擬身份標識。②終端信息屬性組。該屬性組可以針對已生成的能夠標識終端的標識信息等虛擬身份標識,并提取設備相關屬性。③網絡信息屬性組。該屬性組可以針對已生成的標識信息,關聯IP、MAC等虛擬身份標識,提取網絡相關等屬性。④身份信息屬性組,關聯性別、民族等屬性。⑤位置信息屬性組,關聯位置、進入時間、離開時間、停留時間等屬性。⑥信息行為屬性組,關聯url、搜索詞等屬性。⑦經濟行為屬性組,關聯收支、類別、收支、類別等屬性。⑧交互行為屬性組,形成虛擬身份之間的交互行為。⑨虛擬身份關聯屬性組,利用各表內虛擬身份及各類標識符之間交叉重疊關系,評價虛擬身份與虛擬身份關聯權重。
(2)身份融合及動態真實身份標簽融合。利用上一步產生的各類虛擬身份屬性,通過虛擬身份關聯關系及權重與用戶相結合。同時,在靜態指標的基礎上,抽取共性特征形成標簽,進而進一步構建動態指標。
(3)知識圖譜構建與管理。用戶畫像知識圖譜是一個動態發展、不停迭代的過程,為確保用戶畫像質量,需要建立統一的標準工作流,從而實現全生命周期規范化管理,具體流程如下。①需求收集。溝通各方,形成統一化模板,收集整理標簽畫像需求,建立人物畫像標簽需求庫。②設計驗證。組織業內專家,對需求庫中的需求進行評審,對具有相關性的需求進行合并,以盡量少的標簽覆蓋需求庫,初步建立用戶畫像知識圖譜,并通過系統性的分析、試驗等方式驗證標簽效果。③動態調整。在生產過程中,對知識圖譜中的每個標簽進行評估,分析標簽之間的相關性,對具有相關性的標簽進行合并,對功能低的標標簽進行刪除。對生產中的產生的新屬性評估后加入新標簽。標簽的合并、刪除以及加入需要有嚴格的人工審核機制。上述過程循環進行,達到讓用戶畫像效果階梯式上升目的[3]。
4結束語
為了提高分析效率,理想化的用戶畫像體系知識圖譜各個維度,即標簽應該是相互獨立的,以減少冗余信息,通過不同標簽的組合能夠明確指向到某一類或者目標人群,這需要從頂層設計入手構建用戶畫像體系,然后通過試驗分析驗證體系的有效性。但在實際實踐中,目前已有的畫像系統多采用自底向上的方法進行設計,僅依靠單一數據必然難以達到理想化目的,本文初步探索了如何利用自底向上及自頂向下相結合的方式從多個視角構建用戶畫像知識圖譜。用戶畫像本身作為一項系統級技術,更需要根據數據特點,自底向上建設知識庫,自頂向下用戶畫像設計體系,才能最終得到切實好用、準確、真實的用戶畫像數據。
參考文獻
[1] 亓叢,吳俊.用戶畫像概念溯源與應用場景研究[J].重慶交通大學學報(社會科學版),2017(5):86-87.
[2] 佚名.第45次中國互聯網絡發展狀況統計報告[ED/OL]. http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm,2020-4-28.
[3] 李保澄,劉碩.基于用戶畫像技術的公安教育大數據應用[J].廣西警察學院學報,2018(3):124-128.