引言
社交網絡自誕生以來,給人們的信息生活帶來了巨大變革,隨著移動互聯網的迅速普及,微博成為人們獲取新聞資訊的主要平臺,特別是在信息時代,新聞訊息產生十分迅速,微博逐漸成為輿情傳播的重要渠道。在不同的應用場景中,用戶會呈現出特點各異的微博使用方式。在社會信息化進程不斷加速的大背景下,網絡信息的數量呈現出指數增長的趨勢。面對處理龐大數據量的壓力,數據挖掘與文本挖掘應運而生。為了解決對大量用戶信息數據進行分析的難題,用戶畫像這一分析工具被廣泛應用到各類研究中。同時,用戶畫像能夠提供精確有效的用戶特征分析,能夠迅速了解用戶行為習慣、消費特點、使用方式及興趣偏好等重要特征。
一、相關概念及研究現狀
在信息時代,企業需要對用戶數據進行管理和使用,在這種大背景下,用戶畫像應運而生。劉海鷗等通過文獻研究,總結了用戶畫像的概念,即基于特定場景,由用戶數據提煉出來的描述群體屬性及其相關行為的標簽集合。在社交網絡的用戶畫像研究中,構建視角主要有兩種:第一類視角是研究者從既有理論角度對特定用戶群體進行定性分析[2-3];第二類則是通過大量用戶數據,從數據中提取相關特征信息,從而構建基于實際數據的用戶畫像[4。在群體用戶畫像研究中,當前主要聚焦于特定情境中的用戶畫像,通過從群體用戶信息中抽取代表性特征[5],對具有相似相近特征的用戶進行聚類,構建不同類型的群體畫像,基于此,能夠進一步識別出群體中用戶的中心程度、活躍程度及社群質量高低等[]。
二、研究設計
(一)研究方法
本文通過網絡爬蟲收集數據并進行數據清洗,以此進行大學生微博數據信息標簽化處理,通過K-Means聚類算法構建用戶畫像,分析說明不同類型大學生群體用戶特征。微博用戶畫像的兩個具體維度,分為用戶相關和情景相關。其中用戶相關維度是用戶的靜態數據,主要為個人信息、使用歷史信息等不隨用戶行為變化而變化的信息;情景相關維度主要是用戶動態數據,如博文長度、轉發情況等。本文構建的大學生微博用戶畫像標簽包括用戶基本信息及博文信息。
(二)數據收集與處理
本研究使用網絡數據采集方法,通過網絡爬蟲解析Web版微博網頁,對用戶數據進行收集,大學生群體身份識別方法通過教育信息化進行篩選,累計獲取695位高校大學生微博用戶信息及發布的微博博文數據,去除相關個人隱私信息后,數據樣例,見表1—2。
剔除極端值后,得到有效樣本用戶數據432個。同時,為了消除不同衡量標準帶來的影響,需要進行標準化處理,以數據放縮的形式消除不同維度數據量綱帶來的差異。在用戶屬性及行為數據的基礎上,借鑒郭秋艷等對微博用戶特征挖掘的研究,增加名氣指數及互動值等標簽[7]。
三、結果與分析
根據社會認同理論,以及用戶屬性信息,可以將微博用戶劃分為5類[8;在對大學生社交媒體使用的研究中,有學者根據用戶特征維度,將大學生群體分為娛樂型、社交型、信息型和全面型4類。根據新浪微博用戶發展報告中對不同類型用戶的分類和說明,本文結合用戶屬性及行為標簽,將大學生微博用戶分為4類:互動型用戶、分享型用戶、普通型用戶及名氣型用戶,不同用戶占比,見表 3



互動型用戶以男性為主體,粉絲數多,關注數少,使用微博頻率低,發布的微博數量較少,每次發布博文長度較短,但此類用戶與粉絲及其他用戶互動較多,以此來保持高活躍度。該類用戶占樣本總體較少,而高頻互動型用戶以原創能力和互動能力為特征,說明在大學生群體中,頻繁使用微博,并能夠保持原創互動能力的微博用戶較少。互動型用戶畫像差異屬性特征,見圖1。

分享型用戶以女大學生為主體,微博數量多、發博頻率高、平均博文長度高,但粉絲數和關注數低。說明該類群體多以生活分享為主要內容,并不致力于提高粉絲數量和進行個人營銷,屬于普通用戶群體。同時微博等級和會員等級高,說明該群體使用微博增值服務多,如微博會員服務,該類群體的消費能力較高。分享型用戶畫像差異屬性特征,見圖 2

普通型群體聚類中心用戶性別為男性,但實際上該類群體中男女大學生數量均較多。此類群體各項指標數值均較低,使用微博時間短,微博數、粉絲數、關注數均較低。普通型用戶占樣本用戶的 57.5% ,這說明較多的大學生微博用戶在微博網絡中的影響力較低,與其他用戶的互動較少,此類用戶主要通過微博來獲得信息。普通型用戶畫像差異屬性特征,見圖 3

名氣型用戶以女大學生為主體,互動值、粉絲數均較高,說明其在網絡中的影響力較大且活躍,與粉絲及其他用戶互動次數較多,微博等級低但會員等級高,說明其消費能力較強、消費次數較多,該類群體以低關注數、高粉絲數和名氣指數為主要特征,同時與其他用戶互動頻繁。名氣型用戶畫像差異屬性特征,見圖 4

結語
本文以新浪微博數據為基礎,構建了大學生微博用戶畫像,主要包括用戶基本屬性和用戶行為屬性兩個維度,通過K-means聚類算法進行處理,根據不同用戶屬性及行為特征分類分析,得到了不同類型用戶的差異屬性特征。用戶畫像作為重要的用戶分析工具,能夠利用大量數據來發現不同類型的用戶特征,為挖掘用戶需求、實施精準服務提供了重要途徑。大學生群體作為消費頻次較高、網絡活躍度較強的群體,對其進行微博用戶畫像的構建和分析,能夠增強對大學生用戶群體的精準描述。
參考文獻:
[1]劉海鷗,孫晶晶,蘇妍姬,等.國內外用戶畫像研究綜述[J]情報理論與實踐,2018,41(11):155-160.
[2]陳志明,胡震云.UGC網站用戶畫像研究[J].計算機系統用,2017,26(01):24-30
[3]高廣尚.用戶畫像構建方法研究綜述[J].數據分析與知識發現,2019,3(03):25-35.
[4]魏明珠,張海濤,劉雅姝,等.多維屬性融合的社交媒體高影響力人物畫像研究[J].圖書情報知識 ,2019,(05):73-79+100 美
[5]林燕霞,謝湘生.基于社會認同理論的微博群體用戶畫像[J].情報理論與實踐,2018,41(03):142-148
[6]王志剛,邱長波.基于主題的政務微博評論用戶畫像研究[J]情報雜志,2022,41(03):159-165.
[7]郭秋艷,何躍.新浪微博名人用戶特征挖掘及效應研究[J]情報雜志,2013,32(02):112-116+81.
[8]林燕霞,謝湘生.基于社會認同理論的微博群體用戶畫像[J].情報理論與實踐,2018,41(03):142-148.
[9]葉鳳云,邵艷麗.大學生社交網絡行為畫像研究[J].大學圖書情報學刊,2021,39(01):50-57.
(責任編輯:袁麗娜)