


[摘 要]涉軍論壇是聚焦涉軍主題的社交服務平臺,分析其用戶屬性、關系及其影響力對于輿情引導具有重要的現實意義。本文使用特定的數據采集策略,獲取了某涉軍論壇的上萬名用戶數據,運用基于用戶屬性和社會網絡的9個指標對用戶影響力進行具體的分析和排名,最后使用投票法對結果進行了綜合分析,從而查找最具影響力的前10名用戶,找出地位特殊的用戶,為輿情引導提供重要依據。
[關鍵詞]涉軍論壇;用戶;屬性;關系;影響力
doi:10.3969/j.issn.1673 - 0194.2016.22.099
[中圖分類號]G25.2 [文獻標識碼]A [文章編號]1673-0194(2016)22-0-03
在美國實施重返亞太戰(zhàn)略后,我國東南海方向軍情越發(fā)復雜,聯(lián)合軍演、自由巡航、南海仲裁等大量涉軍話題在主流媒體中不斷曝光。由于涉軍論壇具有表現能力強、參與用戶廣、互動方式多等特點,自然成為涉軍輿情引導的主要戰(zhàn)場之一。針對具體的涉軍論壇,本文分析其用戶影響力,發(fā)現“論壇領袖”,為輿情引導提供重要依據。
1 用戶屬性及關系數據的采集
分析用戶影響力的一般過程,首先是通過采集器采集用戶屬性數據及其關系數據,然后對采集到的數據進行規(guī)整和建模,最后建立評價指標對用戶影響力進行評價。
1.1 采集策略的制定
采集論壇用戶數據的最有效方法是論壇管理員直接獲得后臺數據,但是這種方法往往難以實施,常用的方法是使用網絡爬蟲對特定論壇進行抓取。要想高效地獲取有價值的用戶數據,必須遵循一定的抓取策略。抓取策略主要包括初始用戶集合的確定、搜索算法的選取、干擾用戶的鑒別、終止條件的確定等方面。
(1)初始用戶集合的確定。可以有多種方法,例如可以選擇論壇熱帖的樓主和跟帖者作為初始用戶集合,也可以選擇某主題新帖的樓主和跟帖者作為初始用戶集合,還可以以各版塊版主作為初始用戶集合等。
(2)搜索算法的選取。主要分為廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先策略三種算法。廣度優(yōu)先算法以初始用戶集合為中心進行逐層擴展,采集的用戶與初始用戶關系密切;深度優(yōu)先算法以初始用戶集合為起點進行深度搜索,易搜索出復雜的關系網。
(3)干擾用戶的鑒別。論壇中除了大量的僵尸用戶外,還有不少水軍,排除這些用戶更利于提高用戶分析的效率和準確性。可以通過查看用戶登錄時間、發(fā)帖數量、發(fā)帖質量來進行有效鑒別。
(4)終止條件的確定。用戶搜索必須設置終止條件,例如:可以設定用戶數量上限、可以設定搜索次數、可以設定搜索深度等。不同的用戶分析需求應該選擇不同的終止條件。
依據采集目的,本文采取的策略為:以涉軍板塊新帖樓主和跟帖者為初始用戶集合,采用廣度優(yōu)先的搜索算法,屏蔽長時間沒有登錄的用戶和發(fā)帖質量較低的用戶,直至搜索不到新的有效用戶為止。
1.2 采集步驟的設計
本文采集的論壇中,用戶可以通過添加關注的方式將其他用戶加自己的“好友”,好友的最近動態(tài)將被自動推送給關注用戶。關注某用戶的用戶稱之為被關注用戶的“粉絲”。
本文以涉軍板塊近期新帖樓主和跟帖者為初始用戶集合,采用廣度優(yōu)先搜索近期登錄的用戶和發(fā)帖質量較高的用戶,循環(huán)以上步驟直至搜索不到新的有效用戶為止。采集步驟設計如下。
①查找該論壇11個涉軍板塊近一個月的新帖,將樓主和跟帖用戶確定為待搜索用戶集合。②遍歷待搜索用戶集合中的用戶,選擇粉絲數大于10或者年發(fā)帖量大于50或者年精華帖大于2的用戶,采集該用戶的粉絲。③遍歷待搜索用戶集合中的用戶,選擇關注數大于10或者年發(fā)帖量大于50或者年精華帖大于2的用戶,采集該用戶的好友。④將待搜索用戶集合清空,并將步驟②和步驟③中采集到的新用戶添加到待搜索集合。⑤重復②、③、④步驟,直至待搜索集合為空。
1.3 采集的量化結果
經過兩天時間的采集,用戶關系網絡得到收斂,獲得一個聯(lián)通有向圖。本次采集,共抓取用戶14 509個,用戶關系163 647個。分析該聯(lián)通有向圖,存在13個環(huán),平均度數為22.56。用戶網齡最長的為12年,用戶最多發(fā)帖222 076個,用戶最多精華帖1 604個,用戶最多粉絲數432個,用戶最多好友數為353個。
2 從用戶屬性分析用戶的影響力
用戶影響力是指用戶驅使其他用戶認同某觀點或使信息廣泛傳播的能力。國外較早開始對社交網絡的研究,主要是針對Twitter用戶,多數算法是基于著名的網頁排名算法PageRank算法,對影響因子的選取主要有轉貼、回復、提及的能力。不同論壇的用戶屬性數據有所區(qū)別,但最重要的是發(fā)帖數量、精華貼數量及點贊數等屬性。
2.1 用戶影響力相關主要屬性
直接采集到的論壇用戶屬性主要包括發(fā)帖數量、精華帖數、好友數和粉絲數。
(1)發(fā)帖數量。發(fā)帖數量指的是用戶發(fā)表的主題帖和評論帖的總數。發(fā)帖數量的多少直接體現了用戶的活躍度,顯然用戶發(fā)帖數量越多,影響力就可能越大。經統(tǒng)計,用戶發(fā)帖量符合二八原則,發(fā)帖最多的前21.7%用戶發(fā)布了80%的帖子,而近3%的用戶沒有發(fā)帖。用戶發(fā)帖量與用戶數分布近似指數分布。
(2)精華帖。精華帖是指引起熱議的原創(chuàng)帖。精華帖數體現了用戶的發(fā)帖質量,是其他用戶對該用戶發(fā)帖的認可度,可以體現出用戶影響力。
(3)好友數。好友數是指用戶關注其他用戶的數量。好友數的多少反映了該用戶獲取信息的愿望和能力,可以在一定程度上提高用戶影響力。經統(tǒng)計,26.7%的用戶關注了多于10名的好友,其中1%的用戶關注了多于100名的好友,沒有好友的用戶幾乎沒有。
(4)粉絲數。粉絲數是其他用戶對該用戶關注程度的直接反映,是反映用戶影響力最為直接的屬性。經統(tǒng)計,35.3%的用戶擁有超過10名的粉絲,其中1.3%的用戶擁有超過100名的粉絲,56%的用戶沒有粉絲。
2.2 用戶影響力分析
用戶屬性中與用戶影響力相關的屬性主要有發(fā)帖數量、精華帖數、好友數和粉絲數。使用4種屬性對用戶進行評價并對用戶進行排序,得到4種不同的結果,見表1。
2.3 屬性相關性分析
用戶的發(fā)帖數量、精華帖數、好友數和粉絲數是與用戶影響力最為相關的幾個屬性。經分析,發(fā)帖數量、精華帖數與粉絲數均沒有明顯的線性相關性,存在很多精華帖不多、但粉絲數很多的用戶;也存在不少精華帖較多、但粉絲數較少的用戶。發(fā)帖數量、精華帖數與好友數也不存在明顯的線性相關性,發(fā)帖數量與精華貼數也不存在明顯線性相關性,好友數與粉絲數也不存在明顯線性相關性。
3 從用戶關系分析用戶影響力
社會網絡分析方法是由社會學家根據數學方法﹑圖論等發(fā)展起來的定量分析方法,以社會結構為主要研究對象,而不特別關注個體屬性。
3.1 社會網絡中的用戶影響力
從社會網絡角度分析,用戶影響力主要表現為信息獲取能力、信息傳播能力和信息控制能力。
信息獲取能力是指用戶收集特定主題信息的能力。在社會網絡中,好友越多,越容易獲得信息;好友影響力越大,越容易獲得高質量信息。信息傳播能力是指用戶發(fā)布的帖子傳播的廣度和速度。在社會網絡中,粉絲越多的用戶,發(fā)布的帖子傳播越廣;粉絲的影響力越大,發(fā)布的帖子傳播得越快。信息控制能力是指用戶在信息傳播過程中作為“消息中間人”所發(fā)揮的作用。在社會網絡中,經常作為其他用戶中間人的用戶信息控制能力較強。
在社會網絡分析中,“中心度”是用來描述個人或組織在社會網絡中居于怎樣地位的一種度量,主要度量有“度數中心度”“中間中心度”和“鄰近中心度”等。
(1)度數中心度是描述節(jié)點度數的一種度量,用節(jié)點的度數表示。如果某節(jié)點具有較高的度數,自然與其他節(jié)點“關系密切”。在有向圖中又分為“內中心度”和“外中心度”,分別對應“點入度”和“點出度”。“內中心度”可以描述用戶傳播信息的能力,粉絲越多,傳播能力越強;“外中心度”可以描述用戶獲取信息的能力,好友越多,獲取信息能力越強,從而進一步影響其粉絲。
(2)中間中心度是描述節(jié)點發(fā)揮“中間人”作用的一種度量,用節(jié)點通過任意其他兩個節(jié)點最短路徑的次數表示。如果最短路徑是某兩個節(jié)點的唯一最短路徑,則次數增加1,否則增加m/n(其中n為最短路徑的條數,m為經過該節(jié)點的最短路徑條數)。如果一個節(jié)點多次位于其他節(jié)點的最短路徑上,則此節(jié)點居于重要地位。該指標可以描述用戶在傳播信息中發(fā)揮“消息中間人”作用的重要程度。
(3)鄰近中心度是描述節(jié)點與其他節(jié)點鄰近程度的一種度量,用節(jié)點與其他節(jié)點最短路徑之和的倒數表示。如果某節(jié)點與其他所有節(jié)點的總距離較短,則該節(jié)點對其他節(jié)點的影響則較為直接。在有向圖中,該度量又分為內鄰近性和外鄰近性。內鄰近性越大表示該節(jié)點的消息擴散越快,外鄰近性越大表示該節(jié)點能夠較快獲得其他節(jié)點的消息。
3.2 用戶影響力分析
使用復雜網絡分析軟件,計算用戶關系網絡的“度數中心度”“中間中心度”和“鄰近中心度”3個度量共5個指標,并對用戶進行排序,得到5種不同的結果,見表2。5種結果從不同角度分析了用戶在關系網絡中的中心地位。
3.3 指標相關性分析
“度數中心度”“中間中心度”和“鄰近中心度”從不同角度分析了用戶在社會網絡中的地位,從計算方法來看,可能有一定的相關性。經分析用戶度數中心度與鄰近中心度存在相關性,內中心度與外中心度不存在明顯的相關性,中間中心度與其他中心度指標不存在明顯的相關性。
4 用戶影響力的綜合評價
從用戶屬性分析用戶的影響力,主要關注用戶創(chuàng)造信息的能力,而從社會網絡分析用戶的影響力,則主要關注用戶傳播信息的能力。筆者使用投票法對多種結果進行綜合評價,對該投票法計算方法進行如下所述。
假設存在m種評價指標,分別表示為Ci(i=1,2,…,m)。用Ci(n)表示節(jié)點n在第i種評價指標中的得分,用Si(n)表示節(jié)點n在第i種評價指標中的排名,用Nia={n|Si(n) ≤a}表示在第i種評價指標中排名在前a名的節(jié)點集合。用C表示使用m種評價指標進行投票的綜合評價指標,則Ca(n)=F1a (n)+ F2a (n)+…+ Fma (n)(其中Fia(n)=1當且僅當n∈Nia,否則=0)。用Sa(n)表示節(jié)點n在綜合評價指標中的排名,用Nba={n|Sa(n) ≤b}表示在綜合評價指標中排名在前b(b≤a)名的節(jié)點集合,則Nba即為綜合評價的結果。
從兩種視角共9種指標中選取相互獨立的發(fā)帖數量、精華貼數、好友數、粉絲數和中間中心度5種指標對用戶進行綜合評價,取a=20,b=10,則可以計算出綜合影響力排名前10名的用戶,見表3。
從表3中看出,影響力前10名的用戶中,“1306246”和“1857202”在關系網絡中地位最為重要,在5項分指標中3次進入前20名;其他用戶則僅有2次進入前20名。因此,用戶影響力綜合評價方法充分考慮了用戶的主要屬性和社會網絡關系,能較為客觀地對用戶按照影響力進行了排名。
主要參考文獻
[1]張殿芳.基于網頁分塊的論壇爬蟲關鍵技術研究[D].哈爾濱:哈爾濱工業(yè)大學,2009.
[2]唐飛龍,葉施仁,肖春.基于用戶質量的微博社區(qū)博主影響力排序算法[J].計算機工程與應用,2015(4).
[3]路遠聰,劉云.基于用戶能量排序的論壇用戶影響力分析[J].鐵路計算機應用,2014(12).
[4]陽德青.面向社會網絡的用戶行為挖掘與應用研究[D].上海:復旦大學,2013.