劉 宇
(重慶工程職業技術學院,重慶 402260)
基于社交網絡用戶特征的數據挖掘研究
劉 宇
(重慶工程職業技術學院,重慶 402260)
隨著網絡與移動通訊的發展,人們的社交關系與網絡銜接越來越緊密。本文對互聯網社交網絡用戶特征進行分析,分析社交網絡群體結構、用戶影響力、用戶活躍度,從用戶特征權重的角度進行預測算法研究,建立社交網絡用戶特征的數據挖掘模型,利用蒙特卡羅仿真方法,實現對社交網絡用戶特征數據的加工與利用。
社交網絡;用戶特征;數據挖掘
互聯網技術與移動通信技術的發展改變了人們傳統的社交方式,微博、微信等越來越普及。對于社交網絡信息數據的挖掘,研究用戶的生活規律與興趣偏好,對于信息的個性化推薦及企業發展方向具有非常重要的現實意義。
2.1 群體結構
在社交網絡中,大多數為普通用戶,其朋友圈和粉絲數量會隨著用戶網絡社交的時間遞增。新加入社交網絡的用戶會選擇自己感興趣的好友進行關注,老用戶會不斷維護自己的朋友圈。若將社交網絡中話題的發起者設為初始,則其朋友圈接收信息的人群為1階用戶,1階用戶的朋友圈為2階用戶,2階用戶的朋友圈為3階用戶,以此類推用戶群體結構隨著時間的遞增,結構呈樹形拓撲,互聯網社交網絡用戶群體信息傳播結構如圖1所示:

圖1 社交網絡用戶群體信息傳播流程
2.2 用戶影響力
在社交網絡中,不同用戶因為其在公眾領域、行業領域、區域團體等的角色不同,用戶的影響力也不同。在社交網絡中,如微博,社交用戶的友好關系是單向和雙向協同的,即A用戶添加B為關注對象,B中的好友名單中不會出現A,A如果也添加B為關注對象,則AB信息交互是雙向的。在微博中用戶可分為認證用戶和普通用戶,認證用戶在某一領域具有較高的辨識度,具有較高的粉絲數量,這也標志這用戶微博信息的受眾數量多,微博的轉發率也就高。
2.3 用戶活躍度
用戶在社交網絡中的活躍度是信息傳播的重要因素。用戶的活躍度根據用戶在一定時間范圍內發送微博數量T、轉發微博數量R,提及數量M構成,用戶活躍度特征W=(a+b)其中,t為設定時間范圍,a,b表示用戶歷史微博信息的平均回復率和平均轉發率。
3.1 用戶權重排序
社交網絡是通過互聯網進行人與人之間的溝通與互動,用戶特征關系的權重分析,可基于HITS算法的節點權重進行分析,根據HITS算法原理,每一個互聯網中的頁面存在兩個值:hub值與authority值。網頁的hub值由該頁面所指向的所有網頁的authority值構成;網頁的authority值由指向該頁面的所有網頁hub值構成。在互聯網中,具有較高權值的網頁更傾向于與其它髙權威網頁相互連接,即:如果網絡中有大量具有高權威性的網頁同時指向某一未知網頁,那么該未知網頁將有很高的可能性也為高權重網頁。得社交網絡用戶權重計算為用戶i所指向好友j的數量,由此可得一個用戶所連接的好友越多,則其傳遞給每個好友的權重值越小。
3.2 用戶個性推薦
社交網絡中關注好友的日志、微博、圖片、狀態等信息均以推送的形式發送至相關用戶主頁,這種推送模式在強化了用戶信息交互的同時,也給使用者帶來了信息風暴的沖擊,因此社交網絡中的個性化推薦算法將對提高用戶體驗與信息交互質量產生重大的影響。
用戶個性化推薦算法中,推薦的主體是經過短文本聚類的微博話題。根據NBI算法推薦思想用于微博推薦時,若用戶A發布了關于話題a的微博,同時用戶B發布的微博話題中也包含了話題a的微博信息,那么用戶A與B之間通過話題a形成了一條網絡拓撲連接關系:A-a-B。基于用戶特征的NBI推薦算法:

其中Si,t表示一條來自用戶j發出的微博t,對于用戶i的推薦評分。為微博t的作者j對于目標用戶/的歸一化用戶影響力特征。Rij為用戶i與用戶j交互關系。f'(xt)為推薦評分的影響。
3.3 用戶層次聚類
社交網絡微博中具有大量粉絲的明星用戶通常只具有少量的好友數目,而且這些好友通常也具有很高的粉絲數或本身就是明星,這些用戶的微博往往具有很高的回復與轉發率。也有一些用戶,如媒體或廣告,他們同時擁有較高的粉絲數量和好友人數,但這些用戶所發布的微博通常只為特定產品或品牌服務的,而這些微博也不會被廣泛關注。通過微博用戶的分析可以得到規律:如果一個高權重用戶所關注的好友越多,那么關注的每個用戶將越不重要;反之如果關注的好友越少,那么關注的每個用戶將越重要。
用戶層次聚類算法設用戶的j為用戶i的粉絲,Fj為用戶j的粉絲數量,nj為用戶j的好友數量,得:

根據HITS算法將節點的hub權重與authority權重統一為單一authority權值,其中authority權值由指向該節點的所有鄰居節點入度比出度值累加獲得。于是,本文提出的用戶影響力模型由用戶粉絲數量與粉絲質量加權組成:

第一部分Ni代表用戶i的粉絲數量;第二部分為用戶每一位粉絲對用戶影響力的貢獻之和,即粉絲質量;參數μ用于調節兩部分的權重。
4.1 數據集說明
本文社交網絡用戶特征分析數據采用新浪微博用戶進行采集分析,用戶特征分類通過用戶共同好友關系及用戶標簽信息等的相似度進行描述,用戶標簽信息具有衡量用戶興趣偏好的重要特征,標簽信息有廣泛性的標簽譬如:“電影”、“韓劇”、“笑話”等,也有專向性的譬如:“iphone6”、“金融”、“搏擊”等。衡量標簽權重是社交網絡用戶共性的標準,如果用戶特征相似度越低則標簽權重越大,如果用戶特征相似度越高則標簽權重越小。
4.2 用戶特征相似度模型
建立用戶特征相似度模型,設m表示采集涉及網絡用戶數量,top-n表示用戶某一特征相似度模型計算排名處于前n位的用戶信息,此時,用戶i與用戶j存在的關系表示為Rij=1,不存在的關系表示為Rij=0。得用戶特征相似度模型為:

4.3 網絡拓撲關系預測模型
社交網絡用戶傳播信息過程中,用戶在t0時間發布一條信息,該用戶的所有粉絲是否會在t1時刻轉發這條信息,粉絲的粉絲是否會在t2時刻轉發這條信息,成為網絡社交的拓撲結構關系。由此,網絡拓撲結構關系預測根據蒙特卡羅仿真模型在每隔一定的時間間隔Δt對各節點進行隨機取樣,如果隨機取樣概率小于節點先驗概率則認為該節點將觸發某一事件,并將與該節點相連的鄰居節點加入到下一個Δt的隨機取樣過程中。隨機過程直到若干時間間隔后沒有新的節點觸發事件結束仿真,此時網絡中該事件被觸發的節點總數為在社交網絡發布者的首次接收用戶取樣過程在0與1之間均勻取出一個隨機數,記為rand(t1),同時該用戶存在對該條信息是否進行傳播的先驗概率prior(t1),網絡中其粉絲被稱為1階用戶,每一個用戶根據自身興趣,對每一條信息選擇是否傳播的先驗概率均不同。若在t1時刻,某1階用戶的隨機取樣結果小于其對于該信息的先驗概率,即rand(t1)<prior(t1)則認為該用戶會轉發這條微博。于是將該用戶的所有粉絲即2階用戶,加入時刻的用戶傳播分析,以同樣蒙特卡羅隨機過程進行決策分析與仿真,并以此類推。
在社交網絡中,數據特征種類豐富,信息量大,用戶的特征性較為鮮明,基于社交網絡用戶特征的數據挖掘對用戶群體結構、影響力、活躍度進行研究,分析用戶特征權重,建立用戶特征數據挖掘模型,研究用戶特征相似度模型和網絡拓撲關系預測模型。在社交趨于網絡化的今天,社交圈蘊含著大量的具有潛在價值的數據,對于這些數據的挖掘對互聯網行業的發展、企業網絡推廣于信息傳播具有非常重要的實際價值。
[1]黃成維.面向社交網絡用戶商業價值細分的數據挖掘模型[J].旅游縱覽(行業版),2012,(01).
[2]楊瑞仙,李露琪.基于社交網絡的個性化知識服務模型研究[J].新世紀圖書館,2014,(09).
[3]王連喜,蔣盛益,龐觀松等.微博用戶關系挖掘研究綜述[J].情報雜志,2012,(12).
[4]朱彥杰.基于社交圈的在線社交網絡朋友推薦算法[J].科技視界,2014,(09).
[5]蔡孟松,李學明,尹衍騰.基于社交用戶標簽的混合top-N推薦方法[J].計算機應用研究,2013,(05).
Data Mining Based on the Features of Social Network Users
Liu Yu
(Chongqing Vocational Institute of Engineering,Chongqing 402260)
With the development of network and mobile communication,people’s social relationships in the network converge more closely.This paper analyzes the features of the Internet social network users,analyzes the group structure,user influence,user activity in social networking.The prediction algorithm is studied from the users feature weight,to establish the data mining model of social network user features.Monte Carlo simulation method is used to process the social network user features data.
social network;user features;data mining
劉宇,男,重慶人,博士研究生,研究方向:安全監測監控方面的研究。