宋峰森 陳 潔 劉尊禮 顧 程
(1.上海交通大學 安泰經濟與管理學院,上海 200030;2.上海工程技術大學 管理學院,上海 201620;3.上海微趣網絡科技公司,上海 200010)
隨著中國移動互聯網的迅速發展,包括微博在內的各種社交媒體不僅打破了信息傳播的空間限制,也逐漸在社會上形成了覆蓋廣泛的自媒體網絡。目前,以微博為代表的社交媒體每時每刻都在產生內容豐富、意見多元的信息,并通過社交網絡的瀏覽、關注、留言、分享等行為持續進行著內容的快速分發,直接影響輿論導向。聚集了龐大用戶群體的社交媒體平臺之上,每天的信息生產、瀏覽、關注等行為都在產生巨量的行為數據,如果能通過及時對行為數據的挖掘分析,對社交媒體網絡中的高影響度信息進行及時識別,并予以有針對性的干預和管理,將對輿情監管部門治理負面信息傳播和控管非法信息流散等工作產生巨大意義。
本研究認為有必要設計一個以微博信息辨識度為基礎、排除信息影響力受時間衰減因素干擾的計算方法,以構建全面、及時、有效反映社交媒體網絡信息影響力的排序列表。基于以上分析,本研究以微博信息作為對象,參考目前常見的網頁排名算法提出以社交評級作為評估標準,通過對微博用戶的權重計算,結合時間因素綜合形成新的信息影響力排名算法,從動態評估視角構建了更能反映互聯網社交媒體實際影響力狀況的微博動態影響力指數。
國內外有關社交媒體影響力的研究集中于關注Twitter、微博用戶,以及此類社交媒體上所發布的信息的影響力。
社交媒體用戶影響力的研究強調對社會媒體使用者整體使用行為的分析,將其信息瀏覽、分享等行為作為整體考察使用者的影響力,強調使用者個體層面的影響力。影響力的評定方法主要包括網頁排名方法、用戶行為權值法等。網頁排名本應用于搜索時的網頁排名,而將其應用于用戶排名時,網頁近似于一個用戶,微博中用戶與用戶的鏈接可以看作網頁與網頁之間的超鏈接,研究者基于網頁排名的方法計算微博用戶的影響力。該方法在谷歌公司開發的網頁排名算法大數據的研究中也得到了廣泛應用,用于衡量特定網頁相對于搜索引擎索引中的其他網頁而言的重要程度。網頁排名將對頁面的鏈接看成投票,實現了將鏈接價值概念作為排名因素,從而獲取頁面排名,排名越高其影響力也就越高,谷歌搜索結果的相關性的質量也會得以提高。網頁排名計算的原理是計算一個網頁節點的入鏈數量,以此作為評估該網頁重要性的指標。在此算法之下,指向該網頁的鏈接數量越多,該網頁的排名就越高。網頁排名算法考慮的是該網頁與其他網頁之間的鏈接關系,如果網頁間的鏈接關系替換為社交媒體用戶之間的關注關系,那么就可以依據該算法,計算出活躍用戶或信息的社交評級排名,也即該用戶和信息在傳播中的權重。
Weng等則對網頁排名方法進行了發展,他們將話題相似性的分析納入用戶影響力分析之中,針對每一用戶分析了其在社交媒體上的影響力。用戶行為權值法則是將涉及微博使用者的粉絲數量、其所發布信息被轉發及被評論數作為其影響力的評價標準。Cha等介紹了跟隨、轉推和提及三種不同指標下最具影響力的類型的特點,并采用Spearman等級相關系數兩兩比較進行排名,得出了微博用戶影響力的評價。Ye和Wu同時使用了Spearman及Kendall Tau等級相關系數分析了Twitter用戶的影響力。陳浩則將網頁排名與用戶權值評定法相結合,提出了UserRank的微博影響力排名算法。他認為微博用戶影響力源于其自身的影響力與追隨者貢獻的影響力,因此將用戶微博轉發率、評論率、用戶認證情況、追隨者質量等因素同時納入用戶影響力評價模型中,通過條件的不斷迭代最后得到微博用戶的影響力。原福永等則從鏈接分析與用戶行為分析兩個角度衡量了微博的影響力,建構了微博用戶的用戶影響力指數模型。
除以上兩種方法外,國內也有學者通過因子分析或主成分分析的方法,將影響微博用戶影響力的因素歸納成幾個維度,從而確定相應用戶微博使用的側重點。如趙阿敏和曹桂全在以往微博影響力評價指標的基礎上,將指標分為單元傳播與多元傳播指標,運用因子分析的方法,提取反饋因子、互動因子及公開因子,進而發現影響微博用戶影響力的主要因素,從而進一步確定各慈善組織微博使用方面的側重點。郝曉玲和陳軼杰采用主成分分析方法,探討了形成企業微博影響力的主要因素。郝曉玲、杜沁怡和黃海量采用同樣的方法,發現受眾廣度、微博受關注度、微博價值度及好友圈價值度是影響企業家微博用戶影響力的主要因素。
社交媒體信息影響力的確定方法在某種程度上與社交媒體用戶影響力的研究有些類似,只是信息影響力的研究更多的是強調社交媒體用戶所發布信息的影響力,如該信息受到關注的人數、獲得評論的人數等。網頁排名方法同樣可以被應用于信息影響力的評價之中,將每條信息作為一個分析單元,得出該信息的影響力排名。基于網頁排名法的信息影響力研究包括:Cui等將人人網所發布的帖子的點擊量作為帖子影響力的評價指標;Agarwal等利用博文的引用數、評論數、新穎程度和內容長度評價博主帖子的影響力;孫國梓、仇呈燕和李華康綜合考慮了群體對信息的關注度以及信息的擴散模式,從微博信息入手,以線性加權模型為基礎,提出了結合評論數、轉發數并引入地域分布信息的微博影響力量化模型,并對微博信息的影響力展開了全局與局部分析。
Ye和Wu同樣對信息的跟隨、轉推和提及三個指標進行了分析,將Spearman及Kendall Tau等級相關系數引入微博信息影響力的評價中,他們指出回復數的穩定性最高,并且最適合作為微博信息影響力的評價標準。原福永等同時將用戶粉絲數、微博信息的轉發數及評論數納入對微博用戶影響力及每條微博信息影響力的評價之中。
從以上分析可以看出,社交媒體影響力的有關研究涉及用戶和信息影響力兩個角度,并且研究者關注更多的是用戶影響力的研究。微博用戶及信息影響力的評價方式在某種程度上具有一定的相似性,如基于網頁排名方法進行改進、結合用戶使用行為權值等方法均可用于影響力分析。然而,以上微博影響力的評價均基于某一時點的數據反饋結果,該方法用于微博用戶影響力的評價更為合適,因為用戶影響力應具有一段時間的穩定性。微博信息影響力雖可以用上述方法進行評價,但實際生活中,微博信息瀏覽時往往更多依據時間順序,并不是根據各信息的影響力向瀏覽者進行信息展示。
本研究將社交評級的等級范圍設定為從0到10,0級意味著該用戶在信息傳播中基本沒有影響力,7~10級意味著該用戶受關注度非常高,也會對信息傳播產生重大影響。某個社交媒體用戶經過計算后的級別越高,說明由該用戶傳播的信息或者該用戶加入傳播的信息將會產生廣泛的影響。在運用社交評級進行用戶影響力權重計算時,不僅計算該用戶的被關注數量,也將關注該用戶的其他用戶權重也納入考察范圍,被高社交評級值的用戶關注也會提升該用戶的社交評級值。因此,一個用戶的社交評級值是由關注他/她的其他用戶的社交評級值綜合決定的。具體的計算方法是:開始計算時,會賦予每個社交媒體用戶或信息相同的重要性得分,之后在數億條用戶歷史行為數據的基礎上,不斷進行遞歸計算,持續修正每個用戶和信息的社交評級得分,直到數值穩定為止,此時就可以得到社交媒體用戶或信息穩定的社交評級值。該社交評級算法可以持續地評估各個社交媒體用戶的傳播影響力,而且該計算過程排除了用戶特征和信息主題對傳播的影響,能夠比較純粹地考察社交媒體用戶和信息的影響力權重。
基于社交媒體用戶及信息影響力的權重值,也就是社交評級值,對社交媒體平臺上信息的實時影響力的測量就可以相對量化地開展。需要注意的是,由于信息傳播影響度會隨著時間變化而削弱或增強,該信息對社會輿論的影響事實上是一個動態變化的過程。因此本研究認為,評估一條信息的影響力,不僅需要測量其在傳播周期內觸達了多少用戶從而獲得了多大的最終影響力,也即靜態影響力;同時也需要測量信息在其傳播周期內不同時點上傳遞到的用戶數量,也即實時動態影響力。靜態影響力的價值僅在于,某些特定輿論已經產生影響后評估其傳播效果以及回溯其擴散過程。而一條信息發出后,如果其發送者或參與傳播者的影響力足夠大,該信息的擴散速度將非常快,對網絡輿論氛圍和社會生活將產生難以估計的影響。因此,從實用角度出發測量動態影響力的價值更高,如果能在短時間內準確評估新出現的信息的影響力,以及及時跟蹤評估某個信息在特定時刻的傳播速度和傳播范圍,對輿情管理部門及時鎖定特定信息、快速聚焦重大輿情事件、積極干預負面消息、規范信息傳播內容、避免對社會日常運行產生重大負面影響有著非同尋常的意義。
本研究首先構建信息傳播過程中的實時影響力指數,在此需要將信息隨時間變化而產生的信息影響衰減也納入指數計算中。本研究評估一條社交媒體信息發出后的實時影響,主要考慮三個參數:①單位時間內參與信息傳播的用戶數增量,即當次測量與上一次測量時相比的轉發用戶數,用以衡量該信息的擴散速度;②每個轉發時間節點的社交評級權重,用以衡量該信息傳播的影響力增量;③發布時間與現在的時間差,用以調節該信息隨時間變化而產生的影響力衰減。根據以上三個參數,本研究構建了信息實時影響力指數,計算公式如下:
其中,Isr即該信息的實時影響力指數,Isr-1為上一個時間節點計算所得指數,Ts為本次測量采樣時間,Ts-1為上次測量采樣時間,T0為該信息的初始發布時間,Wt為兩次測量之間的第t個轉發用戶的影響力權重。可以看出,實時影響力指數的計算基礎是各個社交媒體用戶的社交評級值,也即用戶在社交媒體平臺上的影響力權重。以該公式為工具,將社交媒體平臺上實時產生的信息轉發數據代入計算,就可以得到某一條信息在某段時間內的實時影響力數值,該數值就代表了其在該時間節點上的受關注程度。該數值越高,說明這條信息的受眾越多、影響力越大,該信息后續可能被繼續轉發,持續放大影響力的可能性就越高。如果該數值超過一定閾值,此時網絡輿情監管部門就需要及時分析是否需要采取措施進行干預。
靜態影響力測量的是某一條信息在傳播周期內觸達的所有用戶數量及產生的相應社會影響。一般而言網絡環境下的信息衰減期為7天,本研究將測量時點選擇在信息發布之后的7天后。由于靜態影響力無需考慮時間衰減因素,因此本研究將動態影響力公式中的時間衰減因素剔除,得到的即靜態影響力指數計算公式,公式如下:
新浪微博和騰訊微博是目前中國匯聚用戶量最大的兩個微博平臺,兩個平臺的月活躍用戶達到3.76億。在微博平臺上大量用戶以相互關注、單方面的關注或被關注的方式形成虛擬社交網絡,每個微博用戶遂成為一個信息傳播節點。每天微博平臺上的用戶通過發布信息、轉載信息、信息再加工的方式進行交流,由于信息容量短(140字以內)、轉發機制便捷(只需@即可)、與粉絲能有效進行情感交流等因素,微博平臺上信息發送和傳播具有信息量大、發送快、影響大、覆蓋面廣、社會動員能力強等特點。正是由于微博這一傳播特性,使其在導正社會輿論、向社會大眾傳播正確信息方面能發揮重要的作用。研究微博的信息影響力排名機制,有效識別高影響力信息,無論在學術層面還是在管理層面都有巨大價值。
由于動態影響力指數的實踐價值遠大于靜態影響力指數,因此本研究的案例分析以實時影響力指數為考察重點。本研究截取2016年4月19日新浪微博的熱門排行作為對象,探討微博信息實時動態影響力,即考慮信息實時動態的排序,測試排序是否越靠前其影響力越大。
截取2016年4月19日10:30的新浪熱門排行榜,可以看到,排行榜的前三名均是娛樂明星發布的內容,且發布時間均為4月18日,即前一天的內容,如圖1所示。同一時間基于本研究的實時影響力評價算法所得到的影響力最高的前三條微博信息均為最近1小時的新內容,如圖2所示。半個小時后,即11點新浪熱門排行榜的前三名仍與10點半時相同,如圖3所示,可以看到時間并未對新浪微博排名產生影響,新浪熱門排行并未將一些實時變化的因素納入其排名分析算法之中。相比較而言,根據本研究的實時動態影響力算法估算后,11點時微博信息排行的前三名已經有所變化,如圖4所示。從圖4中可以看到,半個小時過后,圖2中排名第三的信息已排到圖4中的第一位,圖2中排名第2位的信息與圖4中第2位信息相同,而圖2中排名第一的信息半個小時后則不再是前三位的信息。由此可以看到,將時間因素納入微博信息影響力評價模型后,能夠更為有效地向受眾提供更具影響力或受眾關注更多的微博信息,這對于輿情監管部門實時分析輿論熱點更具實踐意義,實時分析信息可以更快、更早地發現負面輿論,及時地對其干預,有助于相關部門采取合適的應對與疏導策略。

圖1 10:30時新浪熱門排行

圖2 10:30時微博實時排行

圖3 11:00時新浪熱門排行

圖4 11:00時微博實時排行
本研究基于以往學者的研究成果,以網頁排名算法為基礎,并根據社交媒體平臺的信息發布和轉發特征,設計了測量信息實時影響力指數的算法。該算法綜合考慮了社交媒體傳播過程中,信息傳播的范圍、參與傳播的用戶影響力、時間變化造成的影響力衰減等因素,使得該算法計算所獲得的實時影響力數值,可以比較真實地反映某條信息在某一時點的傳播影響度。本研究對微博信息數據案例的分析也證實,將信息發布時間和傳播時間考慮在內所計算的微博信息實時影響力排名,能夠更有效地識別出更受用戶關注的信息內容。同時,該算法結合大數據收集和處理技術,實現了在計算機上進行自動化的社交媒體信息影響力實時排名計算和更新,為鎖定輿情熱點、及時實施信息干預策略提供了有效協助,在目前網絡輿情瞬息萬變的情況下,有助于提高網絡輿情監管部門對社交媒體信息的監管效率。