999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網絡數據的用戶群體畫像構建方法研究

2019-03-20 14:37:35索曉陽王偉
網絡空間安全 2019年10期
關鍵詞:數據挖掘

索曉陽 王偉

摘?? 要:隨著網絡技術的發展,社交網絡成為人們信息獲取、觀點分享的主要平臺,在人們日常生活中占據重要地位。對社交網絡信息進行挖掘,構建社交網絡用戶群體畫像,對用戶個性化服務、商業精準營銷、網絡輿情監控的引導有重要意義。當前,社交網絡用戶群體畫像全面性、精準性有所欠缺,對此文章提出了一種基于社交網絡數據的用戶群體畫像構建方法,對社交網絡用戶信息進行挖掘,從基本特征、內容特征、統計特征、行為特征等方面對用戶群體進行全面精準刻畫,充分了解用戶群體興趣偏好、行為傾向、價值訴求。使用機器學習、BP神經網絡、LDA、特征融合等方法提取用戶主題、表情符、發文習慣、位置等20類特征,構建社交網絡用戶個人畫像,聚類分析得到用戶群體,構建社交網絡用戶群體畫像,為智能精準營銷、平臺個性化服務、輿情監控提供支撐。

關鍵詞:社交網絡;用戶群體畫像;數據挖掘

中圖分類號:391.1????????? 文獻標識碼:A

Building user group portraits based on social networking data

Suo Xiaoyang, Wang Wei

Abstract: With the development of network technology, social networks have become a major platform for people to obtain information and share opinions, which plays an important role in people's daily life. Mining social networks information and constructing social networks user group portraits is of great significance to user personalized services, commercial precision marketing, and online public opinion monitoring. Due to the lack of comprehensiveness and accuracy of current social network user group portrait, this paper proposes a social networks user group portrait method to mine the privacy information of social networks users, comprehensively and accurately depict user groups from basic features, content features, statistical features and behavior features to fully understand interest preferences, behavior tendencies and value demands of the user group. Using machine learning, BP neural network, LDA and feature fusion to extract 20 kinds of features such as user topics, emoticons, posting habits, and locations, to comprehensively characterize social networks users. Then use cluster analysis to obtain the user groups, and construct a complete social networks user group portrait to provide support for intelligent precision marketing, platform personalized service, public opinion monitoring.

Key words: social network; user group portrait; data mining

1 引言

隨著互聯網的發展,社交網絡成為人們信息獲取、觀點分享、互動交友的主要平臺,成為網絡輿情監控引導的主要陣地。社交網絡蘊含了豐富的用戶個人信息,對用戶信息進行挖掘,分析用戶偏好,有助于充分了解用戶群體,為社交平臺用戶個性化服務提供思路[1,2],為商業智能精準營銷搜索目標受眾[3],對敏感人群進行監控預警及疏導,為輿情監控引導提供決策支持。目前,在用戶群體畫像構建方面已有不少研究成果,但是還存在一定的局限性,社交網絡用戶群體畫像全面性精準性有所欠缺,一方面當前社交網絡用戶數據挖掘分析多集中在某類用戶,選取部分用戶作為研究對象,沒有對社交網絡用戶整體進行群體畫像研究。如魏明珠等人[4]對社交媒體中的高影響力人物進行畫像研究;歐陽秀平等人[5]對游戲用戶構建游戲興趣偏好畫像;唐嘉泉[6]構建旅游用戶畫像并進行游客身份分類。另一方面,用戶群體畫像越全面,對用戶群體了解越深刻。然而,現有研究多在某類特征[7,8]或某幾個特征維度構建用戶群體畫像,如興趣偏好等。涉及特征種類較少,沒有在多類特征維度對社交網絡用戶進行全面刻畫。如任金玥[9]提取用戶主題特征構建用戶分類畫像;郭光明[10]構建社交網絡用戶信用畫像;劉禹辰等人[11]構建社交網絡用戶情緒智力畫像。為充分了解社交網絡用戶,對社交網絡用戶群體進行全面刻畫,本文提出了一種基于社交網絡數據的用戶群體畫像構建方法,在用戶主題、位置、軟件使用、發文習慣、表情符使用偏好等方面對用戶群體進行分析,對社交網絡用戶進行多維度全面刻畫,構建比較全面、完善的社交網絡用戶群體畫像,為商業精準營銷、平臺個性化服務、輿情監控提供參考依據。

本文的主要貢獻為:

(1)本文在基本特征、內容特征、統計特征、行為特征四大類20小類特征維度對用戶進行刻畫,構建更加全面精準的用戶群體畫像,充分了解了用戶群體興趣偏好、行為傾向及價值訴求。

(2)本文對社交網絡用戶整體進行群體畫像研究,用戶群體覆蓋面廣,更加完整地揭示社交網絡中用戶群體的構成及特點,充分全面地了解社交網絡用戶。

2 社交網絡用戶群體畫像構建模型

2.1 構建流程

社交網絡用戶群體畫像構建模型如圖1所示,包括數據收集及預處理、特征提取、特征融合、用戶畫像構建、聚類分析群體畫像構建五個階段。

在數據收集及預處理階段,采集用戶基本信息、博文內容、用戶間關注關系、用戶互動信息數據。篩選用戶,去除冗余數據,使用Jieba對博文內容數據進行分詞處理,使用Word2vec訓練博文詞向量(300維)。得到分詞后的微博內容、用戶基本信息、用戶間的關注關系、用戶互動信息、單個詞匯的Word2vec向量表示。

在特征提取階段,對用戶基本信息、分詞后的博文內容、用戶間關注關系、用戶互動信息數據進行處理,提取用戶基本特征、內容特征、統計特征、行為特征四大類21小類特征。從基本信息中提取用戶基本特征。從博文內容中提取用戶13小類內容特征,使用LDA提取用戶博文主題特征,使用正則表達式提取用戶博文內容數據中的話題、位置、表情符、標點符號、電影、音樂、旅游、食物、語氣詞、出行方式、發文設備、第三方軟件等特征。對用戶數據統計分析得到用戶統計特征,包括用戶發文習慣、博文統計特征、關注的人統計特征、粉絲統計特征、好友統計特征。從用戶互動信息數據中得到用戶行為特征。使用博文中詞匯的Word2vec[12]向量累加求平均值得到單條博文的向量表示,將表情符“太開心”“怒”作為正負情感標簽,使用BP神經網絡訓練單條微博情感模型,模型準確率為89.17%。各類特征及其提取方法將在2.2節中詳細進行介紹。

特征提取階段得到的用戶特征粒度太細、維度過高、可解釋性不強,如1481維的情感符特征維度過高,不能對用戶進行直觀刻畫。使用特征融合技術可以將高維度特征聚合為較為抽象的高層次用戶特征。在特征融合階段,對特征提取階段得到的特征進行聚類分析結合人工標注,進行特征融合得到高層次用戶特征。如將出行工具融合為18維出行方式特征,從第三方軟件中得到第三方軟件類別特征,將表情符號進行分類得到表情符類別特征,從發文設備型號中得到設備系統及品牌。將市、縣級位置融合省級位置,將話題特征融合為話題主題。

在用戶畫像構建階段,在特征融合階段得到的基本特征、內容特征、統計特征、行為特征四大類20小類用戶特征基礎上構建用戶畫像。

在聚類分析群體畫像階段,使用SVD對用戶特征數據降維,使用Kmeans對社交網絡用戶進行聚類分析,得到用戶群體,提取用戶群體特征,使用用戶群體特征均值表示用戶群體的基本、內容、統計、行為特征,構建社交網絡用戶群體畫像。全面的用戶群體畫像有助于充分了解用戶群體,為用戶群體個性化服務提供決策支持。

2.2 社交網絡用戶群體畫像模型

本文使用用戶群體中用戶畫像得分的平均值表征用戶群體畫像,用戶群體畫像還包括用戶群體級特征:用戶群體規模。用戶畫像包括基本特征、內容特征、統計特征、行為特征四大類特征。

基本特征:利用基本特征刻畫用戶基本屬性,用戶在社交平臺用戶主頁展示用戶基本信息,這些信息較長時間內不會改變,相對穩定。用戶基本特征包括:用戶性別、是否認證、所在地、關注數、粉絲數、發文數。用戶性別是用戶思維方式、行為習慣、興趣愛好的主要影響因素。是否認證刻畫用戶的平臺、專業、興趣影響力,認證用戶的平臺影響力大,在本專業領域更加權威,對某一興趣投入相對較多,傳遞的消息覆蓋范圍廣、覆蓋面大。用戶所在地揭示了用戶的地域特征,不同地域的用戶風俗習慣不同,保留省級用戶所在地位置。關注數刻畫用戶對平臺及其他用戶的感興趣程度。粉絲數刻畫用戶的平臺影響力。發文數刻畫用戶的平臺活躍度。

內容特征:使用內容特征刻畫用戶偏好。內容特征包括:主題、話題、位置、表情符、發文設備、第三方軟件、出行方式、語氣詞、標點符號、食物、電影、音樂、旅游13小類特征。主題特征:主題特征刻畫用戶的興趣偏好,使用LDA提取用戶主題特征,將單個用戶所有博文看作一個文檔,使用困惑度確定用戶主題數,得到180維用戶主題,根據主題關鍵詞人工篩選117維有意義的主題,如金融理財、歷史、政治等,部分主題關鍵字如表1所示。話題特征:用戶在某熱點事件下發文時,需標注話題標簽,如“#中國”,話題刻畫用戶對熱門事件的關注情況,本文提取提及次數大于50次的微博話題50504個,使用LDA主題模型對話題特征進行融合,最終得到200維用戶話題特征,包括購物、汽車、創意家居等。

位置特征:位置特征刻畫用戶的地理位置偏好,提取用戶打卡位置特征,保留省級以上打卡位置,得到134維位置特征。表情符特征:表情符特征刻畫用戶發文時的心情,本文提取使用次數大于1000的表情符1481個,融合表情符特征,最終得到9類表情符類別特征,包括:喜、怒、哀、驚、鼓勵、尷尬、調侃、中性、節日。發文設備特征:用戶在發文來源中展示用戶發文設備,用戶發文設備特征刻畫用戶的發文設備使用偏好,手機品牌使用偏好,人工標注發文來源信息,得到3維設備種類特征,包括手機、電腦、平板,36維手機品牌特征,如蘋果、華為、三星、小米等。

第三方軟件特征:用戶在發文來源中展示第三方軟件特征,第三方軟件特征刻畫用戶軟件使用習慣,人工標注發文來源信息,得到20維第三方軟件大類特征,如新聞資訊、娛樂、財經等。94維第三方軟件小類特征,如新聞、女性頻道、活動咨詢、電影等。出行方式特征刻畫用戶的出行習慣,人工標注出行方式詞匯,得到18維用戶出行方式特征,如地鐵、公共汽車、出租車等。語氣詞特征:語氣詞揭示用戶的發文風格,提取44維語氣詞特征,如啊、呀等。標點符號特征:標點符號特征刻畫用戶標點符號使用傾向,人工標注標點符號,得到11維標點符號類型特征,4維標點符號長度特征。

食物特征:食物特征刻畫用戶的飲食偏好,人工標注提取23維食物特征,如火鍋、水果、海鮮等。電影特征:電影特征刻畫用戶電影類別、口碑偏好,包括5維電影評分特征、11維電影國別特征、29維電影分類特征,如動作、劇情、愛情、驚悚等。音樂特征:音樂特征刻畫用戶音樂類別、口碑偏好,包括5維音樂評分特征、8維音樂類別特征,如流行、搖滾、民謠等。旅游特征:旅游特征刻畫用戶對旅游地風格的偏好,包括4維景點級別特征、16維景點類別特征,如公園、故居、古建筑等。

統計特征:統計特征包括博文統計特征、粉絲統計特征、關注的人統計特征、好友統計特征、發文習慣。博文統計特征包括博文平均長度、轉發博文平均長度、評論博文平均長度、原創博文平均長度。粉絲統計特征包括用戶粉絲性別比例、用戶粉絲認證比例、用戶男性粉絲數、用戶女性粉絲數、用戶認證粉絲數、用戶未認證粉絲數。關注的人統計特征與好友統計特征與粉絲統計特征類似。發文習慣包括小時級發文量、星期級發文量。另外統計特征中還有關注的人與粉絲之比、好友與粉絲之比、好友與關注的人之比3維特征,用來刻畫用戶社交網絡結構。

行為特征:用戶參與社交網絡互動,評論他人博文,博文中也會提到好友,行為特征可以刻畫用戶社交網絡的參與程度。本文提取3維用戶行為特征,包括轉發博文量、評論博文量和原創博文量。

3 社交網絡群體畫像方法實現

數據集:實驗使用復旦大學微博數據集[13],包括用戶基本信息數據、用戶間關注數據、用戶博文數據。篩選發文數大于50,用戶間關系數大于10的微博用戶,最終得到481,393個微博用戶、354,786,647條微博。

特征提取完成后,對數據進行歸一化處理,使用SVD對數據降維,保留95%的信息,之后使用Kmeans對用戶進行聚類。根據輪廓系數、CH指標確定K值大小,如圖2和3所示,k=40時,輪廓系數最大、CH指標較大,所以將用戶劃分為40個類。

對這些類進行分析,得到17個具有明顯差別的用戶群體,包括:企業團體官方賬號、機構團體官方賬號、普通營銷類個人用戶、時政類認證男性用戶、情感時尚類認證男性用戶、精英類認證女性用戶、普通文藝女性用戶、普通時政類北京男性用戶、普通情感類廣東男性用戶、普通生活家庭類女性用戶、普通情感宣泄類女性用戶、普通潛水型時尚類女性用戶、普通情感宣泄類男性用戶、普通時政情感宣泄類男性用戶、普通樂觀積極養生類女性用戶、普通情感宣泄生活類男性用戶、普通職場男性用戶等。因篇幅有限,對企業團體官方賬號、普通營銷類個人用戶、普通文藝女性用戶這三類用戶進行重點介紹。

企業團體官方賬號:群體規模為7413,群體中大部分用戶為認證用戶,用戶群體博文主題如圖4所示,排名前三的主題為養生健康、職場寶典、心靈雞湯。粉絲數(1283)大于關注的人數(306),發文數為920,高于整個數據集平均值,原創博文占總博文數的94%,該類用戶群體的影響力較大。該群體發文習慣如圖5所示,上午與下午上班時間發文較多,晚上發文很少,周末發文少,周內發文多,該類微博賬號有相關人員經營。在感情符的使用方面,多使用喜、鼓勵類的積極感情符,情緒傾向積極,傳播正能量。在發文設備方面,該類群體多使用電腦發文。微博工具類軟件使用較多,多使用工具類軟件輔助發文。該類用戶在本行業領域權威性較強,可以推薦給有行業興趣的普通用戶關注,可以作為商業精準營銷的廣告平臺、在輿情方面可以作為網絡正能量的引導者。

普通營銷類個人用戶:群體規模為7144,群體中大部分用戶為未認證用戶,用戶群體博文主題如圖6所示,排名前三的主題為心靈雞湯、笑話、養生健康。粉絲數(1542)大于關注的人數(342),發文數1032,原創博文占比98%,該群體發文習慣如圖7所示,上午、下午與晚上發文都比較多,且該群體多使用電腦發文、頻繁使用微博工具類軟件輔助發文,使用情感符積極。該類用戶未認證,可以多推送行業內權威知識,提高自身平臺影響力。

普通文藝女性用戶:群體規模為10400,群體中為未認證女性用戶,所在地為北京,用戶群體博文主題如圖8所示,排名前三的主題為生活、情感受挫、情感美文。關注的人數(248)大于粉絲數(178),發文數為807,原創博文占比72%,該群體的發文習慣如圖9所示,晚上22點發文最多,該用戶群體喜歡深夜發文。在感情符的使用方面,多使用喜、哀類情感符,情感表達豐富。該類用戶關注文藝,是藝術類商品的營銷受眾。

與現有的社交網絡用戶群體畫像方法對比,本文在20小類特征維度對用戶進行刻畫,群體畫像更加全面精準。與其他社交網絡用戶群體畫像方法對比結果如表2所示,文獻[9]使用微博用戶活躍度指數將用戶分為“大V”用戶、“網紅”用戶、活躍用戶、“潛水”用戶四大類,之后使用興趣主題特征對每類用戶進行細分。文獻[8]使用粉絲數、關注數、微博數、收藏數以及博齡對用戶進行聚類分析,得到微博閱讀型用戶,普通用戶,微博活躍用戶,名人微博、微博運營用戶五類用戶群體,形成用戶類型標簽,最終在單個用戶畫像(用戶類型標簽、安全標簽、統計標簽),用戶行為和用戶關系鏈方面對用戶進行批量畫像。文獻[4]對微博高影響力人物進行畫像研究,提取用戶基本屬性、用戶行為屬性、用戶價值屬性三類18個用戶標簽,將高影響力用戶分為優質內容生成主力軍、高流量頭部用戶、高頻互動分享型用戶三類。本文使用基本特征、內容特征、統計特征、行為特征四大類特征對用戶群體進行刻畫,涉及用戶主題、話題、位置、表情符、發文習慣等20小類特征,特征涉及范圍廣,群體畫像更加全面精準,充分揭示了用戶群體興趣偏好、行為傾向及價值訴求。聚類分析得到17類群體,用戶群體覆蓋面廣,更加完整地揭示微博用戶群體的構成及特征。

4 結束語

本文提出了一種基于社交網絡數據的用戶群體畫像方法。使用新浪微博數據進行實驗,挖掘利用社交網絡用戶信息,提取用戶基本特征、內容特征、統計特征、行為特征四大類20小類用戶特征,特征融合得到高層次的用戶特征,構建更加全面的社交網絡用戶畫像,對用戶群體進行聚類分析,得到用戶群體,構建社交網絡用戶群體畫像。后續研究中,將進一步提取如用戶影響力之類的高層次特征,構建更加完備精準的用戶群體畫像。

參考文獻

[1] ?蘭冰.基于群組用戶畫像的圖書館信息智能推送服務[J].圖書館學刊,2019, 41(07):109-112.

[2] ?孫守強.基于用戶畫像的智慧圖書館個性化服務研究[J].圖書館工作與研究,2019(07):60-65.

[3] ?韓張俊杰. 基于數據分析的資訊類App用戶畫像設計與應用[D].中國科學院大學(中國科學院工程管理與信息技術學院), 2017.

[4] ?魏明珠,張海濤,劉雅姝,徐海玲.多維屬性融合的社交媒體高影響力人物畫像研究[J].圖書情報知識,2019(05):73-79+100.

[5] ?歐陽秀平,廖娟,馮燁,劉卉芳.基于運營商大數據的游戲用戶畫像構建研究[J].郵電設計技術,2019(09):40-44.

[6] ?唐嘉泉. 面向DPI數據的旅游畫像系統的研究與實現[D].北京郵電大學,2019.

[7] ?衛學淵. 基于神經網絡的智能電視用戶分類研究[D].北京郵電大學,2019.

[8] ?張哲. 基于微博數據的用戶畫像系統的設計與實現[D].華中科技大學,2015.

[9] ?任金玥.基于動態主題模型的微博用戶分類畫像應用研究[D].華東師范大學,2019.

[10] ?郭光明. 基于社交大數據的用戶信用畫像方法研究[D].中國科學技術大學,2017.

[11] ?劉禹辰,王偉.基于社交網絡隱私信息挖掘的情緒智力畫像方法研究[J].網絡空間安全,2019,10(02):24-31.

[12] ?Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[13] ?復旦大學自然語言與信息檢索實驗室.微博數據集[DB/OL].http://sma.fudan.edu.cn/datainfo/weibo.html,2015.

作者簡介:

索曉陽(1996-),女,漢族,山西忻州人,北京交通大學,碩士;主要研究方向和關注領域:網絡空間安全。

王偉(1976-),男,漢族,湖北英山人,西安交通大學,博士,北京交通大學,博士生導師,教授;主要研究方向和關注領域:網絡空間安全。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 91网站国产| 亚洲资源站av无码网址| 亚洲大学生视频在线播放| 国产日韩欧美中文| 九九精品在线观看| 亚洲欧美日韩成人高清在线一区| 欧美激情福利| 国产精品一区二区国产主播| 亚洲欧美日韩久久精品| 在线观看精品自拍视频| 精品人妻AV区| 国产欧美性爱网| 欧美激情视频二区| Aⅴ无码专区在线观看| 国产精品对白刺激| 婷婷五月在线| 国产精品爆乳99久久| jizz在线免费播放| 色天天综合久久久久综合片| 亚洲午夜福利在线| 欧美精品啪啪一区二区三区| 亚洲精品爱草草视频在线| 欧美三級片黃色三級片黃色1| 精品国产污污免费网站| 免费av一区二区三区在线| 91精品日韩人妻无码久久| 国产成人一区二区| 91青青视频| 精品中文字幕一区在线| 夜夜高潮夜夜爽国产伦精品| 美女被躁出白浆视频播放| 在线播放国产99re| 色婷婷狠狠干| 手机看片1024久久精品你懂的| 亚国产欧美在线人成| 日韩高清在线观看不卡一区二区| 欧美性猛交xxxx乱大交极品| 亚洲国产日韩在线成人蜜芽| 制服丝袜一区| av一区二区人妻无码| 国产综合亚洲欧洲区精品无码| 亚洲日本精品一区二区| 国产成人精品视频一区视频二区| 99精品福利视频| 不卡午夜视频| 欧美一区二区三区国产精品| 男女性色大片免费网站| 亚洲中文字幕精品| 国产剧情国内精品原创| 久久久久亚洲Av片无码观看| 在线免费无码视频| 国产一级二级三级毛片| 成人免费午间影院在线观看| 国产视频你懂得| 欧美精品在线看| 日韩大乳视频中文字幕| 亚洲成a人片7777| 国产精品免费p区| 国产成人精品一区二区秒拍1o| 国产另类视频| 日韩美毛片| 白丝美女办公室高潮喷水视频| 亚洲全网成人资源在线观看| 九一九色国产| 精品国产99久久| 9丨情侣偷在线精品国产| 黄色免费在线网址| 免费一级大毛片a一观看不卡| 亚洲综合亚洲国产尤物| 成人一区在线| 噜噜噜综合亚洲| 色噜噜久久| 国产另类乱子伦精品免费女| 亚洲一级无毛片无码在线免费视频 | 欧美激情视频二区三区| 久久久久青草线综合超碰| 刘亦菲一区二区在线观看| 午夜综合网| 色婷婷电影网| 亚洲欧美自拍视频| 91国内视频在线观看| 亚洲精品在线影院|