索曉陽 王偉



摘? ?要:隨著網絡技術的發展,社交網絡成為人們信息獲取、觀點分享的主要平臺,在人們日常生活中占據重要地位。對社交網絡信息進行挖掘,構建社交網絡用戶群體畫像,對用戶個性化服務、商業精準營銷、網絡輿情監控的引導有重要意義。當前,社交網絡用戶群體畫像全面性、精準性有所欠缺,對此文章提出了一種基于社交網絡數據的用戶群體畫像構建方法,對社交網絡用戶信息進行挖掘,從基本特征、內容特征、統計特征、行為特征等方面對用戶群體進行全面精準刻畫,充分了解用戶群體興趣偏好、行為傾向、價值訴求。使用機器學習、BP神經網絡、LDA、特征融合等方法提取用戶主題、表情符、發文習慣、位置等20類特征,構建社交網絡用戶個人畫像,聚類分析得到用戶群體,構建社交網絡用戶群體畫像,為智能精準營銷、平臺個性化服務、輿情監控提供支撐。
關鍵詞:社交網絡;用戶群體畫像;數據挖掘
中圖分類號:391.1? ? ? ? ? 文獻標識碼:A
Abstract: With the development of network technology, social networks have become a major platform for people to obtain information and share opinions, which plays an important role in people's daily life. Mining social networks information and constructing social networks user group portraits is of great significance to user personalized services, commercial precision marketing, and online public opinion monitoring. Due to the lack of comprehensiveness and accuracy of current social network user group portrait, this paper proposes a social networks user group portrait method to mine the privacy information of social networks users, comprehensively and accurately depict user groups from basic features, content features, statistical features and behavior features to fully understand interest preferences, behavior tendencies and value demands of the user group. Using machine learning, BP neural network, LDA and feature fusion to extract 20 kinds of features such as user topics, emoticons, posting habits, and locations, to comprehensively characterize social networks users. Then use cluster analysis to obtain the user groups, and construct a complete social networks user group portrait to provide support for intelligent precision marketing, platform personalized service, public opinion monitoring.
Key words: social network; user group portrait; data mining
1 引言
隨著互聯網的發展,社交網絡成為人們信息獲取、觀點分享、互動交友的主要平臺,成為網絡輿情監控引導的主要陣地。社交網絡蘊含了豐富的用戶個人信息,對用戶信息進行挖掘,分析用戶偏好,有助于充分了解用戶群體,為社交平臺用戶個性化服務提供思路[1,2],為商業智能精準營銷搜索目標受眾[3],對敏感人群進行監控預警及疏導,為輿情監控引導提供決策支持。目前,在用戶群體畫像構建方面已有不少研究成果,但是還存在一定的局限性,社交網絡用戶群體畫像全面性精準性有所欠缺,一方面當前社交網絡用戶數據挖掘分析多集中在某類用戶,選取部分用戶作為研究對象,沒有對社交網絡用戶整體進行群體畫像研究。如魏明珠等人[4]對社交媒體中的高影響力人物進行畫像研究;歐陽秀平等人[5]對游戲用戶構建游戲興趣偏好畫像;唐嘉泉[6]構建旅游用戶畫像并進行游客身份分類。另一方面,用戶群體畫像越全面,對用戶群體了解越深刻。然而,現有研究多在某類特征[7,8]或某幾個特征維度構建用戶群體畫像,如興趣偏好等。涉及特征種類較少,沒有在多類特征維度對社交網絡用戶進行全面刻畫。如任金玥[9]提取用戶主題特征構建用戶分類畫像;郭光明[10]構建社交網絡用戶信用畫像;劉禹辰等人[11]構建社交網絡用戶情緒智力畫像。為充分了解社交網絡用戶,對社交網絡用戶群體進行全面刻畫,本文提出了一種基于社交網絡數據的用戶群體畫像構建方法,在用戶主題、位置、軟件使用、發文習慣、表情符使用偏好等方面對用戶群體進行分析,對社交網絡用戶進行多維度全面刻畫,構建比較全面、完善的社交網絡用戶群體畫像,為商業精準營銷、平臺個性化服務、輿情監控提供參考依據。
本文的主要貢獻為:
(1)本文在基本特征、內容特征、統計特征、行為特征四大類20小類特征維度對用戶進行刻畫,構建更加全面精準的用戶群體畫像,充分了解了用戶群體興趣偏好、行為傾向及價值訴求。
(2)本文對社交網絡用戶整體進行群體畫像研究,用戶群體覆蓋面廣,更加完整地揭示社交網絡中用戶群體的構成及特點,充分全面地了解社交網絡用戶。
2 社交網絡用戶群體畫像構建模型
2.1 構建流程
社交網絡用戶群體畫像構建模型如圖1所示,包括數據收集及預處理、特征提取、特征融合、用戶畫像構建、聚類分析群體畫像構建五個階段。
在數據收集及預處理階段,采集用戶基本信息、博文內容、用戶間關注關系、用戶互動信息數據。篩選用戶,去除冗余數據,使用Jieba對博文內容數據進行分詞處理,使用Word2vec訓練博文詞向量(300維)。得到分詞后的微博內容、用戶基本信息、用戶間的關注關系、用戶互動信息、單個詞匯的Word2vec向量表示。
在特征提取階段,對用戶基本信息、分詞后的博文內容、用戶間關注關系、用戶互動信息數據進行處理,提取用戶基本特征、內容特征、統計特征、行為特征四大類21小類特征。從基本信息中提取用戶基本特征。從博文內容中提取用戶13小類內容特征,使用LDA提取用戶博文主題特征,使用正則表達式提取用戶博文內容數據中的話題、位置、表情符、標點符號、電影、音樂、旅游、食物、語氣詞、出行方式、發文設備、第三方軟件等特征。對用戶數據統計分析得到用戶統計特征,包括用戶發文習慣、博文統計特征、關注的人統計特征、粉絲統計特征、好友統計特征。從用戶互動信息數據中得到用戶行為特征。使用博文中詞匯的Word2vec[12]向量累加求平均值得到單條博文的向量表示,將表情符“太開心”“怒”作為正負情感標簽,使用BP神經網絡訓練單條微博情感模型,模型準確率為89.17%。各類特征及其提取方法將在2.2節中詳細進行介紹。
特征提取階段得到的用戶特征粒度太細、維度過高、可解釋性不強,如1481維的情感符特征維度過高,不能對用戶進行直觀刻畫。使用特征融合技術可以將高維度特征聚合為較為抽象的高層次用戶特征。在特征融合階段,對特征提取階段得到的特征進行聚類分析結合人工標注,進行特征融合得到高層次用戶特征。如將出行工具融合為18維出行方式特征,從第三方軟件中得到第三方軟件類別特征,將表情符號進行分類得到表情符類別特征,從發文設備型號中得到設備系統及品牌。將市、縣級位置融合省級位置,將話題特征融合為話題主題。
在用戶畫像構建階段,在特征融合階段得到的基本特征、內容特征、統計特征、行為特征四大類20小類用戶特征基礎上構建用戶畫像。
在聚類分析群體畫像階段,使用SVD對用戶特征數據降維,使用Kmeans對社交網絡用戶進行聚類分析,得到用戶群體,提取用戶群體特征,使用用戶群體特征均值表示用戶群體的基本、內容、統計、行為特征,構建社交網絡用戶群體畫像。全面的用戶群體畫像有助于充分了解用戶群體,為用戶群體個性化服務提供決策支持。
2.2 社交網絡用戶群體畫像模型
本文使用用戶群體中用戶畫像得分的平均值表征用戶群體畫像,用戶群體畫像還包括用戶群體級特征:用戶群體規模。用戶畫像包括基本特征、內容特征、統計特征、行為特征四大類特征。
基本特征:利用基本特征刻畫用戶基本屬性,用戶在社交平臺用戶主頁展示用戶基本信息,這些信息較長時間內不會改變,相對穩定。用戶基本特征包括:用戶性別、是否認證、所在地、關注數、粉絲數、發文數。用戶性別是用戶思維方式、行為習慣、興趣愛好的主要影響因素。是否認證刻畫用戶的平臺、專業、興趣影響力,認證用戶的平臺影響力大,在本專業領域更加權威,對某一興趣投入相對較多,傳遞的消息覆蓋范圍廣、覆蓋面大。用戶所在地揭示了用戶的地域特征,不同地域的用戶風俗習慣不同,保留省級用戶所在地位置。關注數刻畫用戶對平臺及其他用戶的感興趣程度。粉絲數刻畫用戶的平臺影響力。發文數刻畫用戶的平臺活躍度。
內容特征:使用內容特征刻畫用戶偏好。內容特征包括:主題、話題、位置、表情符、發文設備、第三方軟件、出行方式、語氣詞、標點符號、食物、電影、音樂、旅游13小類特征。主題特征:主題特征刻畫用戶的興趣偏好,使用LDA提取用戶主題特征,將單個用戶所有博文看作一個文檔,使用困惑度確定用戶主題數,得到180維用戶主題,根據主題關鍵詞人工篩選117維有意義的主題,如金融理財、歷史、政治等,部分主題關鍵字如表1所示。話題特征:用戶在某熱點事件下發文時,需標注話題標簽,如“#中國”,話題刻畫用戶對熱門事件的關注情況,本文提取提及次數大于50次的微博話題50504個,使用LDA主題模型對話題特征進行融合,最終得到200維用戶話題特征,包括購物、汽車、創意家居等。
位置特征:位置特征刻畫用戶的地理位置偏好,提取用戶打卡位置特征,保留省級以上打卡位置,得到134維位置特征。表情符特征:表情符特征刻畫用戶發文時的心情,本文提取使用次數大于1000的表情符1481個,融合表情符特征,最終得到9類表情符類別特征,包括:喜、怒、哀、驚、鼓勵、尷尬、調侃、中性、節日。發文設備特征:用戶在發文來源中展示用戶發文設備,用戶發文設備特征刻畫用戶的發文設備使用偏好,手機品牌使用偏好,人工標注發文來源信息,得到3維設備種類特征,包括手機、電腦、平板,36維手機品牌特征,如蘋果、華為、三星、小米等。
第三方軟件特征:用戶在發文來源中展示第三方軟件特征,第三方軟件特征刻畫用戶軟件使用習慣,人工標注發文來源信息,得到20維第三方軟件大類特征,如新聞資訊、娛樂、財經等。94維第三方軟件小類特征,如新聞、女性頻道、活動咨詢、電影等。出行方式特征刻畫用戶的出行習慣,人工標注出行方式詞匯,得到18維用戶出行方式特征,如地鐵、公共汽車、出租車等。語氣詞特征:語氣詞揭示用戶的發文風格,提取44維語氣詞特征,如啊、呀等。標點符號特征:標點符號特征刻畫用戶標點符號使用傾向,人工標注標點符號,得到11維標點符號類型特征,4維標點符號長度特征。
食物特征:食物特征刻畫用戶的飲食偏好,人工標注提取23維食物特征,如火鍋、水果、海鮮等。電影特征:電影特征刻畫用戶電影類別、口碑偏好,包括5維電影評分特征、11維電影國別特征、29維電影分類特征,如動作、劇情、愛情、驚悚等。音樂特征:音樂特征刻畫用戶音樂類別、口碑偏好,包括5維音樂評分特征、8維音樂類別特征,如流行、搖滾、民謠等。旅游特征:旅游特征刻畫用戶對旅游地風格的偏好,包括4維景點級別特征、16維景點類別特征,如公園、故居、古建筑等。
統計特征:統計特征包括博文統計特征、粉絲統計特征、關注的人統計特征、好友統計特征、發文習慣。博文統計特征包括博文平均長度、轉發博文平均長度、評論博文平均長度、原創博文平均長度。粉絲統計特征包括用戶粉絲性別比例、用戶粉絲認證比例、用戶男性粉絲數、用戶女性粉絲數、用戶認證粉絲數、用戶未認證粉絲數。關注的人統計特征與好友統計特征與粉絲統計特征類似。發文習慣包括小時級發文量、星期級發文量。另外統計特征中還有關注的人與粉絲之比、好友與粉絲之比、好友與關注的人之比3維特征,用來刻畫用戶社交網絡結構。
行為特征:用戶參與社交網絡互動,評論他人博文,博文中也會提到好友,行為特征可以刻畫用戶社交網絡的參與程度。本文提取3維用戶行為特征,包括轉發博文量、評論博文量和原創博文量。
3 社交網絡群體畫像方法實現
數據集:實驗使用復旦大學微博數據集[13],包括用戶基本信息數據、用戶間關注數據、用戶博文數據。篩選發文數大于50,用戶間關系數大于10的微博用戶,最終得到481,393個微博用戶、354,786,647條微博。
特征提取完成后,對數據進行歸一化處理,使用SVD對數據降維,保留95%的信息,之后使用Kmeans對用戶進行聚類。根據輪廓系數、CH指標確定K值大小,如圖2和3所示,k=40時,輪廓系數最大、CH指標較大,所以將用戶劃分為40個類。
對這些類進行分析,得到17個具有明顯差別的用戶群體,包括:企業團體官方賬號、機構團體官方賬號、普通營銷類個人用戶、時政類認證男性用戶、情感時尚類認證男性用戶、精英類認證女性用戶、普通文藝女性用戶、普通時政類北京男性用戶、普通情感類廣東男性用戶、普通生活家庭類女性用戶、普通情感宣泄類女性用戶、普通潛水型時尚類女性用戶、普通情感宣泄類男性用戶、普通時政情感宣泄類男性用戶、普通樂觀積極養生類女性用戶、普通情感宣泄生活類男性用戶、普通職場男性用戶等。因篇幅有限,對企業團體官方賬號、普通營銷類個人用戶、普通文藝女性用戶這三類用戶進行重點介紹。
企業團體官方賬號:群體規模為7413,群體中大部分用戶為認證用戶,用戶群體博文主題如圖4所示,排名前三的主題為養生健康、職場寶典、心靈雞湯。粉絲數(1283)大于關注的人數(306),發文數為920,高于整個數據集平均值,原創博文占總博文數的94%,該類用戶群體的影響力較大。該群體發文習慣如圖5所示,上午與下午上班時間發文較多,晚上發文很少,周末發文少,周內發文多,該類微博賬號有相關人員經營。在感情符的使用方面,多使用喜、鼓勵類的積極感情符,情緒傾向積極,傳播正能量。在發文設備方面,該類群體多使用電腦發文。微博工具類軟件使用較多,多使用工具類軟件輔助發文。該類用戶在本行業領域權威性較強,可以推薦給有行業興趣的普通用戶關注,可以作為商業精準營銷的廣告平臺、在輿情方面可以作為網絡正能量的引導者。
普通營銷類個人用戶:群體規模為7144,群體中大部分用戶為未認證用戶,用戶群體博文主題如圖6所示,排名前三的主題為心靈雞湯、笑話、養生健康。粉絲數(1542)大于關注的人數(342),發文數1032,原創博文占比98%,該群體發文習慣如圖7所示,上午、下午與晚上發文都比較多,且該群體多使用電腦發文、頻繁使用微博工具類軟件輔助發文,使用情感符積極。該類用戶未認證,可以多推送行業內權威知識,提高自身平臺影響力。
普通文藝女性用戶:群體規模為10400,群體中為未認證女性用戶,所在地為北京,用戶群體博文主題如圖8所示,排名前三的主題為生活、情感受挫、情感美文。關注的人數(248)大于粉絲數(178),發文數為807,原創博文占比72%,該群體的發文習慣如圖9所示,晚上22點發文最多,該用戶群體喜歡深夜發文。在感情符的使用方面,多使用喜、哀類情感符,情感表達豐富。該類用戶關注文藝,是藝術類商品的營銷受眾。
與現有的社交網絡用戶群體畫像方法對比,本文在20小類特征維度對用戶進行刻畫,群體畫像更加全面精準。與其他社交網絡用戶群體畫像方法對比結果如表2所示,文獻[9]使用微博用戶活躍度指數將用戶分為“大V”用戶、“網紅”用戶、活躍用戶、“潛水”用戶四大類,之后使用興趣主題特征對每類用戶進行細分。文獻[8]使用粉絲數、關注數、微博數、收藏數以及博齡對用戶進行聚類分析,得到微博閱讀型用戶,普通用戶,微博活躍用戶,名人微博、微博運營用戶五類用戶群體,形成用戶類型標簽,最終在單個用戶畫像(用戶類型標簽、安全標簽、統計標簽),用戶行為和用戶關系鏈方面對用戶進行批量畫像。文獻[4]對微博高影響力人物進行畫像研究,提取用戶基本屬性、用戶行為屬性、用戶價值屬性三類18個用戶標簽,將高影響力用戶分為優質內容生成主力軍、高流量頭部用戶、高頻互動分享型用戶三類。本文使用基本特征、內容特征、統計特征、行為特征四大類特征對用戶群體進行刻畫,涉及用戶主題、話題、位置、表情符、發文習慣等20小類特征,特征涉及范圍廣,群體畫像更加全面精準,充分揭示了用戶群體興趣偏好、行為傾向及價值訴求。聚類分析得到17類群體,用戶群體覆蓋面廣,更加完整地揭示微博用戶群體的構成及特征。
4 結束語
本文提出了一種基于社交網絡數據的用戶群體畫像方法。使用新浪微博數據進行實驗,挖掘利用社交網絡用戶信息,提取用戶基本特征、內容特征、統計特征、行為特征四大類20小類用戶特征,特征融合得到高層次的用戶特征,構建更加全面的社交網絡用戶畫像,對用戶群體進行聚類分析,得到用戶群體,構建社交網絡用戶群體畫像。后續研究中,將進一步提取如用戶影響力之類的高層次特征,構建更加完備精準的用戶群體畫像。
參考文獻
[1] 蘭冰.基于群組用戶畫像的圖書館信息智能推送服務[J].圖書館學刊,2019, 41(07):109-112.
[2] 孫守強.基于用戶畫像的智慧圖書館個性化服務研究[J].圖書館工作與研究,2019(07):60-65.
[3] 韓張俊杰. 基于數據分析的資訊類App用戶畫像設計與應用[D].中國科學院大學(中國科學院工程管理與信息技術學院), 2017.
[4] 魏明珠,張海濤,劉雅姝,徐海玲.多維屬性融合的社交媒體高影響力人物畫像研究[J].圖書情報知識,2019(05):73-79+100.
[5] 歐陽秀平,廖娟,馮燁,劉卉芳.基于運營商大數據的游戲用戶畫像構建研究[J].郵電設計技術,2019(09):40-44.
[6] 唐嘉泉. 面向DPI數據的旅游畫像系統的研究與實現[D].北京郵電大學,2019.
[7] 衛學淵. 基于神經網絡的智能電視用戶分類研究[D].北京郵電大學,2019.
[8] 張哲. 基于微博數據的用戶畫像系統的設計與實現[D].華中科技大學,2015.
[9] 任金玥.基于動態主題模型的微博用戶分類畫像應用研究[D].華東師范大學,2019.
[10] 郭光明. 基于社交大數據的用戶信用畫像方法研究[D].中國科學技術大學,2017.
[11] 劉禹辰,王偉.基于社交網絡隱私信息挖掘的情緒智力畫像方法研究[J].網絡空間安全,2019,10(02):24-31.
[12] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[13] 復旦大學自然語言與信息檢索實驗室.微博數據集[DB/OL].http://sma.fudan.edu.cn/datainfo/weibo.html,2015.
作者簡介:
索曉陽(1996-),女,漢族,山西忻州人,北京交通大學,碩士;主要研究方向和關注領域:網絡空間安全。
王偉(1976-),男,漢族,湖北英山人,西安交通大學,博士,北京交通大學,博士生導師,教授;主要研究方向和關注領域:網絡空間安全。