蘭 天, 郭躬德
1(福建師范大學 數學與計算機科學學院, 福州 350007)2(福建師范大學 網絡安全與密碼技術福建省重點實驗室, 福州 350007)3(龍巖學院 網絡信息中心, 龍巖 364012)
特定話題傳播網絡中的意見領袖檢測方法①
蘭 天1,2,3, 郭躬德1,2
1(福建師范大學 數學與計算機科學學院, 福州 350007)2(福建師范大學 網絡安全與密碼技術福建省重點實驗室, 福州 350007)3(龍巖學院 網絡信息中心, 龍巖 364012)
針對中文微博目前已有的意見領袖識別模型存在的不足, 提出一種特定話題轉播網絡中的意見領袖檢測方法. 識別模型通過轉發關系建立信息傳播網絡, 以用戶自身權威值和轉發用戶的支持力來評價用戶的影響力. 通過對微博兩周以來特定話題下意見領袖的檢測實驗, 結果表明該方法能夠有效地識別特定話題下的意見領袖.
意見領袖; 輿情監控; 傳播網絡; 識別模型
在web 2.0時代對互聯網發展的極大推動下, “數據網絡”這一概念普遍深入人心, 人們的日常生活和互聯網相結合已經成為這個時代的明顯特征. 在《第34次中國互聯網絡發展狀況統計報告》[1]中顯示, 截止2014年6月, 中國網民用戶群已達6.32億, 其中手機用戶群已達5.27億. 國際上, twitter平臺在2006年興起并不斷流行和推廣, 該平臺已成為訪問量最大的網站之一. 國內與之對應的新浪微博一枝獨秀, 而微博客這一信息即時傳播、用戶關系分享的社交網絡平臺, 已成為中國網民上網的主要活動之一. 同時新浪微博也應用了很多策略來達到他的領袖地位, 例如邀請了政府組織、媒體機構、名人名流等地加入, 使得重大信息的發布都變得尤其迅速. 據2015年微博發布的第三季度財報中顯示, 截止2015年9月30日, 微博月活躍用戶數已經達到2.12億人. 同時, 微博也已經成為社會輿論傳播、社會風氣導向的重要地點, 因此微博輿情監控便成為國家政府和網絡監管部門面前的一個大課題.
微博輿情監控的主要手段是找到輿論傳播中的“意見領袖”. “意見領袖”這一概念最早由美國傳播學者Lazarsfeld[2]在1948年提出, 他認為意見領袖在信息傳播中扮演著對他人傳遞信息并施加影響的作用. 而后Rogers[3]在研究中表示, 意見領袖同時具有“信息中間人”和“有影響力的人”兩種角色. 在消息流通如此迅速的社交網站中, 意見領袖更是扮演著舉足輕重的作用. 近幾年, 國內對意見領袖的研究逐漸升溫, 主要研究領域在于論壇、博客、學術論文、微博等. 隨著新浪微博成為社交領域的領頭地位, 意見領袖的研究已成為一大課題.
微博中用戶通常針對某一主題發布微博, 表達自己的見解和看法. 而其他用戶可以通過轉發行為來進行信息的擴散, 并通過轉發關系構建了一個信息網絡.隨著消息網絡中的用戶逐漸提高形成了輿論群體, 其中部分用戶成為意見領袖, 引導著輿論的發展方向和傳播速度. 因此本文通過特定主題下的轉發關系, 結合網頁排序算法來識別消息網絡中的意見領袖, 同時驗證該算法的有效性.
目前應用于微博意見領袖識別的方法主要有: ①基于網頁排序算法進行改進, 使其適用于微博消息網絡中對用戶影響力的排序; ②基于用戶特征提取影響力指標, 建立評分模型; ③基于消息轉播網絡, 對網絡節點進行分析評價.
基于網頁排序算法, 主要是對網頁排序中傳統的PageRank[4]和HITS[5]算法進行改進. Weng[6]根據twitter中的用戶結構和微博主題之間的相似度, 提出了TwitterRank算法, 使PageRank算法有效地移植到twitter中. Xiao[7]根據中文微博特定結構, 構建了收聽網絡和信息轉發網絡, 并根據傳播行為特征提出了類PageRank的WeiboRank算法. Yuang[8]利用被關注度替代粉絲數來消除微博中虛假粉絲數的影響, 重新定義影響因子, 并結合PageRank對用戶影響力進行評價. Lu[9]根據特定話題下的用戶個體特征和轉發特征, 引入時間衰減函數, 提出了PageRank的改進意見領袖模型(IOLM). Xiong[10]根據微博信息轉發關系, 構建了意見領袖網, 將HITS算法應用于用戶權威值和中心值計算, 提出了HITS-BOWR算法.
在評分模型構建方面, 主要分析影響力相關屬性,對特定參數進行提取. Liu[11]從用戶影響力和用戶活躍度兩個角度考慮, 提出了使用層次分析法和粗糙集決策分析法對意見領袖特征進行識別, 并提取決策規則,最后在研究中發現意見領袖是主題依賴的. Wang[12]在研究中得出用戶的關注量、粉絲量、身份認證和發布的微博量這四個方面是意見領袖識別的關鍵, 并以這四個方面作為參數建立了意見領袖識別模型. Li[13]提出以活躍度、傳播力和覆蓋度三個指標來評估微博意見領袖的影響力, 構建評估指標體系, 并利用層次分析法和屬性特征權重排序得到影響力的最終值. Ding[14]綜合考慮了轉發關系、回復關系、復制關系、閱讀關系, 提出了基于多關系網絡的隨機游走模型MultiRank, 并將用戶分為“多話題層次影響力個體”和“單話題層次影響力個體”. Wang[15]根據意見領袖在信息傳播中難以量化表示的問題, 提出了一種基于消息傳播的微博意見領袖影響力建模與測量分析方法, 可以定量地對傳播過程的初始影響力、影響力衰減指數及其影響力持續時間等指標進行評價.
在基于消息轉播網絡的研究中, 主要在轉發關系的基礎上進行研究, 分析節點的影響力. Zhao[16]根據影響力擴散模型(IDM)存在的缺陷, 引入了有效關鍵詞語概念, 并對信息設置影響因子, 提出了一種新的影響力擴散概率模型(IDPM), 更加有效地評價影響力. Zhou[17]針對傳統意見交互模型的構建環境是封閉的社交網絡, 提出一種基于意見領袖引導作用的網絡輿論演化分析方法. Zhang[18]根據區分微博中用戶的轉發行為分為“主題相關轉發”和“跟隨轉發”兩種關系, 指出被轉發概率高而具有高影響力的用戶不一定是專家,提出了一種基于主題模型的概率生成模型.
PageRank[4]是一種根據網頁之間的超鏈接關系進行評級的網頁排名算法. 該算法基于“從許多優質的網頁鏈接過來的網頁, 必定還是優質網頁”的回歸關系, 來判定網頁的重要性. 該算法認為一個網頁A對于另一個網頁B的鏈接可以認為是網頁A對網頁B進行了一次支持性投票, 根據每個網頁獲得的票數來代表自己的重要性. PageRank同時還考慮各網頁本身的特性, 越重要的頁面對支持的頁面將給予較高的PageRank值. PageRank算法應用需要滿足: ①網頁之間必須是強連通的; ②網頁鏈接不能指向自身.

圖1 PageRank網頁鏈接示意圖
如圖1所示為網頁之間通過超鏈接關系形成的鏈接網絡, 網頁B和網頁C鏈接到網頁A, 表示網頁B和網頁C對網頁A支持. PageRank值(PR值)的計算公式如下:

公式(1)中, PR(A)為網頁A的PageRank值, 即網頁重要性評分. i表示鏈接到網頁A的網頁, 在圖1中有網頁B和網頁C. C(Ti)表示網頁i鏈接到其他網頁的數量, 當一個網頁的鏈出頁面越多, 支持力越低. d表示網頁轉移概率, 即用戶關閉當前頁面隨機瀏覽另一個頁面的概率.
Wang[12]于2011年的研究中對中文微博和意見領袖特征進行分析, 得出關注用戶數量、粉絲數量、是否被驗證身份和發布的微博數量這四個方面是意見領袖識別的關鍵. 在文獻11中提出了微博客用戶重要性評分模型(原始模型):

公式(2)中4個乘法因子分別對應于關注用戶數量、發布的微博數量、粉絲數量和是否被驗證身份, 并進行規范化.
Lu[9]在2015年的研究中對原始模型進行修正, 在研究中表明用戶之間的轉發關系不可忽略, 因為粉絲數少的用戶的某條微博也可能受到很多關注, 同時得到大量的轉發, 在某一話題下, 該用戶的影響力也是可以很高的. 針對轉發關系, Lu在研究中結合了PageRank算法的基本思想, 根據用戶的轉發行為構建了一個關系網絡, 并考慮了影響力的時間衰減. 在文獻[8]中提出了意見領袖識別模型(IOLM):

公式(4)中, S(Tt)表示主題T下用戶t的影響力, 與公式(2)的計算方法相同. C(Ti)表示用戶i轉載微博的總量, 參數γ作為權重參數. 公式(5)中, day表示未發表微博的天數.
以上學者提出的三種意見領袖的檢測算法仍然存在各自的缺點, 本文結合三種算法的優點, 以特定主題下的微博轉發關系構建信息傳播網絡, 提出一種在特定話題轉發網絡下的意見領袖檢測方法.
基于Twitter的研究表明: 在信息傳播過程中, 用戶影響力與其粉絲數量呈弱相關[19], 粉絲數量只是意見領袖的必要條件. 而草根用戶在特定話題下的傳播中更容易獲得用戶的關注而提升影響力[6]. 由于微博中具有許多社會名人、網絡紅人等, 他們本身具有大量的粉絲, 使得他們發布的信息更容易傳播出去, 但在某些話題下他們更加傾向于對事件進行傳播而不具有權威性. 傳統意見領袖檢測方法往往將影響力和傳播力等價關聯, 這樣導致粉絲數較少的草根用戶的影響力被社會名人等粉絲大戶淹沒. HITS-BOWR算法[10]中明確地計算了用戶的權威值和中心值, 但是該算法僅僅考慮了轉發關系, 忽略了用戶本身發布的微博內容產生的其他影響, 經過多次迭代后仍然容易使同一用戶的權威值和中心值較為接近.
Liu在2011年研究中提出, 意見領袖是主題依賴的[11], 因此用戶的影響力往往隨話題的領域性而發生變化權威性變化. 同樣地, 傳統意見領袖檢測方法缺少對主題進行區分, 由于不同主題的影響力是相互獨立的, 用戶過去的發布的熱門話題微博影響力不能或者只能部分影響到新發布的微博. 因此在考慮用戶當前話題影響力時, 以往發布話題微博的影響力只能作為用戶活躍度的一部分.
在話題微博生存期方面, 意見領袖的話題影響力并不是簡單地隨時間的推移進行衰減, 因為微博主題本身具有一定的生存期, 在主題的熱度也隨時間而下降, 但是早期的意見領袖對該主題造成的影響不并隨著時間而下降, 相反地, 有可能因為粉絲數的轉發關系而是影響力繼續上升. 因此本文針對傳統意見領袖存在的以上三個方面的缺點進行改進, 使得算法能更加較有效地檢測出具有主題相關性和話題權威性的意見領袖.
4.1 用戶影響力計算方法
本文將權威性的評分指標分為用戶本身在該話題下具有的權威性和其他用戶通過轉發關系貢獻的支持力. 特定話題的微博消息轉發網絡中, 用戶具有的權威性衡量指標分為: ①參與用戶發布特定話題的微博的用戶數(取代用戶粉絲數); ②用戶發布的微博在消息網絡傳播中的節點熱度; ③其他用戶對該話題微博的專注度. 轉發網絡中, 轉發用戶對某一微博的支持力主要體現在當日內該微博得到用戶的重視程度.
定義1. 特定話題下發布的微博的用戶具有的權威性評價公式:

公式(5)中, A函數對用戶特定話題下的轉發量進行評價, K函數對話題在信息傳播網中的推動力進行評價, P函數對用戶的話題專注度進行評價, 在數據預處理階段對同一屬性的數據進行最大最小值規范化處理. 并且使三個函數的最大值控制在2以下.
定義2. 特定話題下用戶發布的微博轉發量評價函數

公式(6)中, Forwardu表示用戶u在特定話題i下發表的微博得到的轉發量.n表示意見領袖參考數量, 由于微博轉發數量呈現長尾效應(在下一節實驗部分證明), 極大部分微博只有很少的轉發量, 因此傳播網絡中的總體轉發量均值很低, 只需要研究轉發量排名前n個的用戶, 在研究中n取60. Top(n)表示轉發量前n名的用戶的標簽. Max()為取最大值函數. 轉發量可以較好地表征用戶對微博的興趣程度, 因此該公式可以評價出微博受到的關注程度. 由于轉發量的長尾現象,導致大部分用戶的值為負數, 因此在這里最小值都設為0.001.

圖2 最小二乘法計算擬合曲線斜率

定義3. 用戶對話題的專注度

公式(8)中, TNumu表示用戶在發布特定話題當日的轉發其他話題微博的數量.

圖3 話題微博信息傳播樹狀圖
在微博消息傳播網絡中, 用戶通過轉發關系對微博信息進行擴展, 同時微博與轉發微博之間滿足一對多關系, 因此特定話題微博的消息傳播網絡可以以樹狀圖的形式展示. 如圖3所示, 在信息傳播的樹狀圖中有明顯的層次關系, 第i層的微博與第i+1層的微博有一對多的轉發關系, 與i-1層有一對一的轉發關系,相鄰兩層之間有直接的轉發關系. 并且由于影響力的支持直接影響上一層微博, 相隔層數越多, 支持力越弱, 因此可以通過迭代關系進行計算支持力.

定義4. 特定主題的意見領袖識別模型(TOLM):公式(9)中, TScore(u)即為特定主題的意見領袖識別模型中用戶U的影響力評分. γ為權重參數, 實驗中取0.8, l表示具有通過轉發關系相連接的用戶, 通過迭代關系可知, 相鄰層數越多的用戶, 具有的權重越低.
4.2 數據收集和模型檢測框架
研究中所分析的數據都來自于新浪微博中熱點話題下用戶的信息轉發網絡. 當前流行的數據獲取方法主要有兩種: 1)由新浪微博開放平臺提供的應用程序編程接口(簡稱微博API); 2)網絡爬蟲程序實時抓取.一方面, 由于微博API對接口開放的限制, 部分接口為高級權限接口, 需要申請才可以調用, 不利于數據收集的全面性; 另一方面, 由于微博API數據搜索返回的數量限制, 不利于數據收集的完整性. 因此在研究中主要還是通過設計爬蟲腳本來抓取微博數據.
研究中的模型框架如圖4所示, 第一步中需要人工輸入需要檢測的話題關鍵詞信息, 或者通過詞共現聚類方法找出特定話題下的熱點詞匯, 關鍵詞信息直接關系著后續微博的話題類別. 微博信息分析階段,主要是提取三部分內容: ①用戶(近期微博發布情況);②話題微博(轉發數, 轉發用戶, 時間); ③粉絲(參與轉發的用戶信息). 在數據庫信息反饋階段, 由于話題的輿論走向和意見領袖的影響力與日發生變化, 需要定時更新話題熱點詞匯以及用戶的影響力. 在同一話題下, 原創微博之間具有相互獨立性, 并且都以樹狀網絡的傳播方式呈現; 總體上相同話題下的多個原創微博信息傳播呈現出森林結構.

圖4 模型檢測框架
本實驗通過網絡爬蟲軟件, 于2016年3月2日至3月18日對新浪微博熱門話題下的微博信息進行抓取,并存入數據庫. 如表1所示, 在研究中提取了三個話題類別, 并剔除重復微博和干擾用戶(包括廣告用戶、話題無關用戶、僵尸用戶等).

表1 研究中的話題微博內容
實驗一. 微博話題生存期變化情況

圖5 話題微博生存期數量變化示意圖

圖6 兩周內話題微博日發布量和總量變化示意圖

圖7 兩周內用戶日參與量變化示意圖
由圖5中“人機圍棋大戰”、“唐安琪燒傷”和“張怡寧 福原愛”三個話題下的微博可以看出, 熱門話題下的微博發布情況, 遵循從潛伏期到爆發期, 再從爆發期到冷淡期這一規律, 并且潛伏期到爆發期的過程較短. 由圖6和圖7可以看出, 在話題的爆發期間內, 用戶的參與度達到頂峰, 并且微博發布量也隨之達到頂峰, 最后微博發布總量趨向于平緩, 也表示著話題的生存期結束. 因此可以認為, 意見領袖的檢測關鍵時間就在潛伏期到爆發期這一階段, 這一階段微博發布量大,用戶參與度高; 而爆發期到冷淡期, 隨著用戶參與量的降低, 話題熱度的下降, 用戶影響力難以擴散. 因此,引證了意見領袖的出現具有時效性這一特點. 同樣, 話題潛伏期到爆發期這一階段的微博發布量變化曲線的斜率突增, 有利于對事件的發展進行判斷.
實驗二. 轉發網絡中的長尾現象

圖8 用戶相同話題下的微博轉發量呈長尾現象

圖9 用戶在相同話題下的微博發布量呈長尾現象

圖10 轉發關系樹狀圖中轉發層次的微博數量呈長尾現象
用戶對于某話題的關注行為, 主要體現在發布與話題相關的微博, 或者轉發話題相關的微博. 在圖8和圖9中我們可以看出, 用戶們普遍對某話題的關注行為不會超過兩次, 因此在用戶影響力評估時, 不需要像傳統意見檢測那樣對關注行為的數量耗費太多資源. 在話題“人機圍棋大戰”的數據庫中, 微博轉發量超過100的原創微博數量共有60篇, 研究中對這60篇微博分別建立轉發關系樹狀, 對轉發層次的平均數進行分析, 同樣發現樹狀圖中的轉發層次與微博數量呈長尾現象, 如圖10. 由于用戶轉發關系共現的支持力以層次關系迭代運算, 為了節約成本提高實時性方面, 可以對迭代次數進行控制, 一般控制在5以內.
實驗三. 意見領袖的排名

表2 不同指標下的意見領袖排名
在表2列出了不同指標下的意見領袖排名情況,可以用戶自身權威值的評價可以很好地突出草根用戶,轉發量的評價可以表示出用戶對其他用戶的影響力,而粉絲量與用戶的影響力只是呈現弱相關關系, 因此用戶自身權威值加支持力來評價一個用戶的影響力能更加貼近實際情況. 在表3中列出了前12名意見領袖的詳細信息, 可以發現在3月9日這一天的意見領袖數量較多, 因為該話題在這一天的消息傳播最為迅速,話題的推動力較強, 因此用戶的影響力更容易擴散,同時通過粉絲數和轉發量排名的比較, 更能模型中通過話題參與用戶來取代粉絲量的有效性.

表3 模型評分前12名意見領袖信息
研究中提出的基于PageRank的意見領袖檢測方法主要以Wang和Lu提出的基本模型為基礎, 通過轉發關系建立了信息傳播網絡, 結合PageRank的影響力評價方法來對特定話題下的意見領袖進行識別, 提出了特定主題的意見領袖識別模型(TOLM). 未來工作中將進一步結合話題微博下的情感信息這一屬性來評價意見領袖的影響, 同時加強話題信息傳播網絡的完整性.
1 中國互聯網絡信息中心.第34次中國互聯網絡發展狀況統計報告.互聯網天地,2014,(7).
2 Lazarsfeld PF, Berelson B, Gaudet H. The people’s choice. Eco-Architecture: Harmonisation between Architecture and Nature, 1944, 18(Jan): 154.
3 Rogers EM, Shoemaker FF. Communication of innovations; a cross-cultural approach. Man, 1971, 9(2): 476.
4 Brin BS, Page L. The anatomy of a large scale hypertextual Web search engine. Computer Networks and ISDN Systems, 2012.
5 Jon M, Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the Acm, 1998, 46(5): 604–632.
6 Weng J, Lim EP, Jiang J, et al. TwitterRank: Finding topic-sensitive influential twitterers. Proc. of the Third International Conference on Web Search and Web Data Mining, WSDM 2010. New York, NY, USA. February 4–6, 2010. 261–270.
7肖宇,許煒,商召璽.微博用戶區域影響力識別算法及分析.計算機科學,2012,39(9):38–42.
8 原福永,馮靜,符茜落.微博用戶的影響力指數模型.現代圖書情報技術,2012,(6):60–64.
9 盧偉勝,郭躬德.基于特定話題的微博意見領袖在線檢測方法.計算機應用與軟件,2015,32(5):70–74.
10 熊濤,何躍.微博轉發網絡中意見領袖的識別與分析.現代圖書情報技術,2013,(6):55–62.
11劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析.系統工程,2011,(6):8–16.
12 王君澤,王雅蕾,禹航,等.微博客意見領袖識別模型研究.新聞與傳播研究,2011,(6):81–88.
13 李玉貞,胡勇,熊熙,等.微博意見領袖的評估模型.信息安全與通信保密,2013,(2):79–81.
14 丁兆云,周斌,賈焰,等.微博中基于多關系網絡的話題層次影響力分析.計算機研究與發展,2013,50(10):2155–2175.
15 王晨旭,管曉宏,秦濤,等.微博消息傳播中意見領袖影響力建模研究.軟件學報,2015,26(6):1473–1485.
16 趙靜.影響力擴散概率模型及其用于意見領袖發現研究[碩士學位論文].重慶:重慶郵電大學,2013.
17 周而重,鐘寧,黃佳進.基于意見領袖引導作用的網絡輿論演化研究.計算機科學,2013,40(11):287–290.
18 張臘梅,黃威靖,陳薇,等.EMTM:微博中與主題相關的專家挖掘方法.計算機研究與發展,2015,52(11):2517–2526.
19 Asur S, Huberman BA, Szabo G, et al. Trends in social media: Persistence and decay. Ssrn Electronic Journal, 2011.
Opinion Leader Detection Method in the Communication Network of the Specific Topic
LAN Tian1,2,3, GUO Gong-De1,212
(School of Mathematics and Computer Science, Fujian Normal University, Fuzhou 350007, China) (Network Security and Cryptography Key Laboratory of Fujian Province, Fujian Normal University, Fuzhou 350007, China)3(Information and Network Center, Longyan University, Longyan 364012, China)
For the problems of the deficiency of existing recognition model of the Chinese weibo opinion leaders, one detection method of opinion leaders in a dissemination network of the specific topic is proposed. A recognition model based on the forward relations on the basis of information dissemination network is proposed in this paper, and the influence of users comes from their own authority and the support of forwarding user. An experiment of weibo opinion leader detection for about two weeks which is concentrated in a certain topic verifies that this method can effectively detect the opinion leader of the specific topic.
opinion leader; public opinion monitoring; communication network; recognition model
2016-03-26;收到修改稿時間:2016-04-29
10.15888/j.cnki.csa.005485