郭淑慧 呂欣
(國防科技大學系統工程學院,長沙 410073)
隨著移動通信和互聯網技術的不斷發展,網絡直播逐漸成為了新媒體環境下人們青睞的在線娛樂和信息傳播方式.目前廣泛應用于課堂教學、真人秀、電競賽事、品牌營銷等方面.數百萬主播與數億計觀眾的活躍加入和互動,產生了豐富的在線人群行為活動數據,為開展大規模人群行為動力學、平臺內容推薦與檢測、在線社群演化等研究提供了豐富的實驗場景.本文通過梳理國內外網絡直播平臺數據挖掘與行為分析的相關研究文獻,分析了直播平臺負載水平、觀眾行為、主播行為以及社群網絡的特征和變化規律,并對直播平臺中大規模人群行為表現出的時空規律和重尾效應進行了總結.直播平臺中各種社群網絡的形成和演化機制、內容推薦與檢測等是未來網絡直播領域研究的發展趨勢.
網絡直播是一種新型信息交流方式,可以讓觀眾收看到主播所處場景中正在進行的音、視頻實況,同時觀眾可以通過打賞或發表評論的方式與主播進行互動,相對于傳統信息傳播媒體來說有著互動性強、時空適應性強等優勢.網絡直播平臺則是由公司或組織管理的供主播發布直播以及觀眾收看直播的網站.隨著互聯網經濟的發展,網絡直播日益火爆,斗魚TV、虎牙TV、抖音等網絡直播平臺在市場中異軍突起,以超低的門檻吸引了大量主播和觀眾,截至2019年6月,我國直播用戶規模已達4.33億[1].
網絡直播目前的應用領域比較廣泛,除了應用于娛樂性的真人秀、電競賽事之外,還有課堂教學[2,3]、品牌營銷[4,5]、傳統文化與工藝技術傳承[6,7]、政務會議與庭審過程公開[8,9]等方面.不同領域的網絡直播和觀眾都會產生大量交互數據,這些數據一方面可以用于挖掘直播平臺的負載變化模式和用戶參與及交互的內在機制,探究用戶行為和偏好,進而對相應情境下的大規模人群行為進行模式分析和規律挖掘[10-17].另一方面還可以基于直播平臺負載的測量結果及從中挖掘的用戶行為的特征和偏好,提升網絡直播平臺內容推薦和內容檢測水平[18-22].
本文從國內外網絡直播平臺用戶行為數據挖掘的研究入手,對直播平臺負載水平、觀眾行為、主播行為以及社群網絡的特征和變化規律進行梳理和總結,并討論網絡直播平臺研究在當前面臨的問題和未來的研究方向.
網絡直播是通過網絡直播平臺進行實時信息傳輸的新媒體形式.隨著網絡的發展和普及,網絡直播作為一種學習、娛樂的便捷資源被人們越來越廣泛地使用.直播平臺負載的水平差異反映了直播平臺用戶的分布規律和使用偏好,對直播平臺的負載研究可以從整體上把握直播平臺的資源消耗與服務使用情況,對直播平臺優化資源配置、提供經濟穩定的負載支持有指導意義.
目前關于平臺負載研究主要是通過統計直播平臺的運行負載,挖掘負載水平產生規律性差異的時間因素、空間因素以及其他影響因素,總結直播平臺情境下的大規模人群行為偏好和行為特征.
受時間節律的影響,人類行為會在諸多方面不同程度地體現出日內效應(diurnal effect)、周內效應(weekly effect)等時序規律,如金融市場的流動性[23]、人類的情緒積極程度[24]、反應靈敏度[25]、器官工作機能[26]等都會在一天內不同時段表現出顯著差異,股市收益率和波動還存在明顯的周內效應[27].目前對直播平臺的負載研究大部分集中于從系統帶寬、主播規模、觀眾數量、打賞額和評論量等方面的時序變化規律中挖掘直播平臺負載的日內效應、周內效應和長期規律等時序特征.
Veloso等[11]最早根據巴西某網絡電視直播平臺的網站日志對負載的時序特征進行了研究.在2002年為期28天的統計中,用戶的訪問模式顯示出了明顯的日內效應和周內效應,晝夜模式造成凌晨4:00—11:00在線觀眾數量偏低,峰值和谷值分別在3:00和9:00附近取得;雙休日的平均觀眾數量明顯高于工作日.盡管該直播平臺的用戶規模超過69萬、覆蓋65個國家,但受當時的網絡發展水平限制,平臺使用的帶寬峰值僅僅為80 Mbps.
隨著Twitch,YouTube Live等專門化網絡直播平臺的興起,Kaytoue等[28]根據 2011年末Twitch平臺的直播間數量和在線觀眾數量變化對直播平臺負載的周內效應進行分析,發現Twitch平臺的雙休日負載明顯高于工作日(后續學者[29,30]也得出了一致結論),原因是Twitch平臺的主要直播內容是電子競技,而大型電子競技的競賽通常在雙休日舉行.Pires和Simon[31]對比了Twitch平臺和YouTube Live平臺在2014年的系統帶寬和直播間數量發現,兩個平臺的帶寬峰值都超過了1 Tbps,但Twitch平臺的帶寬水平更高,峰值超過了1.6 Tbps.兩個平臺在直播間的數量在雙休日都明顯高于工作日,但Twitch平臺和YouTube Live的日內負載峰值分別在5:00和18:00附近取得,而且Twitch平臺在日內和周內負載變化模式的敏感度均低于YouTube Live.原因是Twitch平臺的開放時間較早,用戶在全球范圍內的覆蓋范圍更廣,減弱了晝夜更替造成的時序差異.
近年來逐漸出現了對國內直播平臺負載的研究,Zhu等[32]通過收集國內直播平臺斗魚TV在2016年12月為期14天的直播數據,發現觀眾數量和主播數量在一天中顯示出幾乎一致的變化規律,都在21:00—8:00減少,8:00—21:00增加,在晚上9:00—10:00達到最高水平.Wang等[33]通過分析2016年9月起為期124天內的斗魚TV主播開播數量、觀眾打賞總額和評論量來挖掘斗魚TV平臺負載的日內效應和周日效應,從觀眾的打賞總額、評論量和主播直播次數、直播時長分別展現觀眾和主播在一天之中的活躍程度變化趨勢.結果發現觀眾和主播的活動都表現出很強的晝夜規律,并且高度同步,任意兩個數據系列之間的皮爾遜相關系數都高于0.85.但觀眾活動的高峰時段出現在23:00—24:00,主播最活躍的時段是20:00—22:00,說明觀眾的活躍時間存在一定的時滯現象,與之前的研究結論[32]略有差異.
總體上說,國內外直播平臺負載在一天之中都呈現“倒N型”[34],直播平臺負載具有明顯的“日內效應”[25],負載水平在一天中呈現降低-升高-降低的循環模式(如圖1所示).

圖1 國內外直播平臺負載日內效應[30,32]Fig.1.The diurnal effects of domestic and foreign live streaming workloads[30,32].

表1 不同直播平臺的負載時序特征Table 1.The workload changes of different live streaming platforms.
但由于直播平臺的直播類型各有側重,而且直播平臺隨著時間在逐漸發展,即使是同一直播平臺在不同的統計期內表現的平臺負載時序規律也不完全相同.多個直播平臺、不同時期的負載變化時序特征見表1.
除了分析直播平臺負載的時序特征之外,部分研究通過分析主播、觀眾和直播平臺服務器的位置對直播平臺負載產生的影響來挖掘直播平臺負載的地理分布特征,進而對直播負載的資源分配及優化進行指導.
Veloso等[11]對早期網絡電視直播平臺的觀眾數量和觀看次數在所覆蓋區域間的數量分布進行了統計分析,發現觀眾數量和觀看次數在劃分的地理區塊之間的分布形式都近似Zipf分布[36]:

其中參數 r 代表地理區塊按照觀眾數量或觀看次數降序排列的排名,Z(r)則 代表排名為 r 的區域中的觀眾數量或者觀看次數,α 的取值分別為1.29和1.49,展現了早期網絡電視直播的觀眾在地理分布上的不均勻現象.與之相對的,Li等[37]統計分析了PPTV直播頻道的觀眾地理分布熵(viewer geographical entropy)的累積分布函數,發現大多數頻道的觀眾地理分布熵超過0.8,顯示了現代網絡直播平臺觀眾觀看者在地理位置上均勻分布.觀眾地理分布熵形式為

ek是 直播間 k 的 觀眾地理分布熵,其中 N 是直播間全部觀眾所覆蓋區域的數量,pki代 表直播間 k 在區域 i 的觀眾數量占全部觀眾數量的比例.
Kaytoue等[28]通過統計分析Twitch平臺的主播在不同時區的分布,表明平臺中的大多數主播都來自北美、歐洲和東亞,與Twitch平臺的服務器集中布置在北美、歐洲和亞洲的分布規律[38]相符合,反映了直播平臺負載的地理特征對直播平臺服務器設置的指導意義.
Yan等[39]對比了用戶生成視頻、短視頻和直播視頻三種平臺的城市、郊區及整個區域的移動網絡用戶的觀眾地理分布熵,結果顯示無論市區、郊區還是整個區域,用戶生成視頻的熵都高于其他服務,表明觀看直播的用戶比觀看用戶生成視頻的用戶在空間分布上更不均勻,主要原因是直播內容通常耗費的流量更多,用戶更傾向于在固定的場所使用WiFi或寬帶網絡而不是移動流量來觀看直播.
除了時空對直播平臺負載的影響之外,少量學者對主要直播電子競技內容的直播平臺Twitch、斗魚TV的負載水平是否受到大型電子競技競賽項目直播的影響進行了研究.Kaytoue等[28]通過觀察Twitch平臺在2011年12月29日到2012年1月9日每天的觀眾數量變化情況,發現在直播一些重要的電子競技比賽時,觀眾數量會出現明顯增加,說明了電子競技競賽項目直播對Twitch平臺的負載有強烈的刺激作用.類似地,Deng等[12]統計了Twitch平臺電子競技競賽項目直播吸引的觀眾占整個平臺觀眾的比例,結果顯示某些熱門的電子競技競賽項目直播所產生的觀眾數量能占直播平臺全部觀眾的30%以上,即使是不太流行的電子競技賽事的直播也能吸引大量觀眾,峰值超過全平臺觀眾10%.但Wang等[33]在對斗魚TV觀眾評論數以及打賞額在2016年為期124天的統計期中的變化中卻并未發現重大賽事對平臺負載產生的顯著影響,原因可能是斗魚TV存在大部分娛樂類直播,受電子競技競賽項目直播的影響并不明顯.
直播平臺內可能出現以下的一種或幾種觀眾行為: 選擇直播間進行觀看、切換或退出直播間、在直播間中評論或打賞、以及觀眾觀看直播而引發的行為(如被主播引導購買商品).眾多學者對直播平臺觀眾行為中的觀看規律進行分析和建模,研究觀眾各種行為以及背后的心理,對于理解用戶參與網絡直播的原因、提升用戶體驗、為用戶提供更有價值的網絡直播服務有重要的決策價值.
已有研究中對觀眾的觀看規律主要從觀眾的觀看次數與時長、頻道選擇與切換、觀眾評論與打賞等方面入手,從觀眾的觀看記錄中提取直播平臺中觀眾的各種觀看行為,挖掘其中觀眾的偏好及心理動機,進一步開展直播平臺觀眾的行為動力學建模和社群網絡演化研究.
眾多研究結果表明,直播平臺內觀眾的觀看時長、觀看次數呈現一定的重尾效應,即直播平臺中存在大量觀看次數很少、觀看時間非常短的用戶,但同時還有極少量用戶觀看直播的次數很高、觀看時長相對非常長.
Veloso等[11]于2002年的研究結果顯示早期直播平臺中觀眾觀看次數分布近似Zipf分布,其中參數 r 代表的是按照觀看次數降序排列的觀眾排名,Z(r)則 代表排名為 r 的觀眾的觀看次數,參數α的取值為0.719;Li等[37]于2016年發現PPTV平臺內觀眾觀看次數分布更符合互補Weibull分布而不是冪律分布,累計概率分布函數形式為

其中參數 c 為拉伸因子,x0為常數參數.
Sripanidkulchai等[40]則于2004年對早期直播平臺觀看時長分布進行了探索,結果顯示不同直播間內觀眾的觀看時長分布均近似Zipf分布,其中參數 r 代表的是按照觀看時長降序排列的觀眾排名,Z(r)則 代表排名為 r 的觀眾的觀看時長,參數α的取值在0.7—2.0之間.而Tang等[41]于2006年發現CCTV多個直播頻道的觀眾觀看時長的概率密度函數形式符合對數正態分布:

其中 f(x)是 觀看時長為 x 分鐘的概率密度函數值,μ和σ 的取值均在 4—5和1—2之間.Li等[37]于2016年對PPTV中觀眾觀看時長分布的概率密度函數進行了研究,結果顯示觀眾觀看時長的概率密度函數形式為混合指數分布:

其中 f(x)是 觀看時長為 x 分鐘的概率密度函數值,μi和αi是 第 i 個 指數分布的均值和權重,
特別地,Tang等[41]通過分析觀眾觀看直播的時長記錄,發現觀眾已經觀看直播的時長與繼續保持觀看的時長存在顯著的正相關關系,即觀眾如果已經花費了比其他觀眾長的時間觀看直播,則會更傾向于比其他觀眾花費更長的時間繼續觀看直播.
如果在觀看直播的過程中發生網絡故障、主播關閉直播、不感興趣等情況,觀眾就有可能對當前直播間進行重新連線、切換到其他直播間或者直接退出直播平臺.目前已有相關研究對觀眾在觀看直播中的重連、切換、退出等進行統計建模與系統分析,展現直播平臺內觀眾流動的動態過程和內在機理.
Li等[37]對客觀原因造成直播中斷時的觀眾重連行為進行了研究.由于觀看出現中斷的原因可能是網絡連接失敗等客觀問題,也可能單純是由于觀眾的興趣發生變化而主動退出直播間,所以作者首先定義了由客觀問題造成中斷的直播段特征,是觀眾在某直播間內發出觀看請求之后的一小段時間之內對該直播間重復發出了觀看請求.進一步分別統計了觀眾對直播中斷次數的容忍程度和放棄觀看的概率分布,結果顯示隨著直播中斷次數的增加,觀眾放棄的概率遞增,但增幅在逐次減小.在移動網絡下觀看直播的觀眾在直播中斷時的耐心程度比在WiFi或者寬帶環境下的更高,在遇到2次連續的直播中斷時,放棄觀看的概率小于50%,甚至在某些情況下觀眾能忍受10次連續的直播中斷.
Nascimento等[42]對Twitch平臺中的觀眾切換行為進行了建模分析.作者首先定義了直播間共存在三種狀態,分別是直播中、直播即將結束和直播結束(如圖2所示).由于主播下播之后直播間內的觀眾并不會被強制清空,所以會出現主播已經下播但觀眾數量不為0的情況.直播間三種狀態中的“直播即將結束”包含了主播即將關閉直播以及關閉直播后觀眾數量仍保持一定水平時期,“直播結束”指的是直播間內觀眾數量非常低甚至為0的狀態.

圖2 直播間狀態演化圖[42]Fig.2.The graph of live streaming channel's state dynamics[42].
由直播間的三種狀態任意組合可以歸納出觀眾切換行為共包含9種類型,通過統計觀眾不同類型切換行為的比例發現觀眾在頻道之間的切換行為中,大約20%的ON-ON切換(即從一個正在直播的直播間切換到另一個正在直播的直播間)和30%的OFF-OFF切換(即從一個未開播的直播間切換到另一個未開播的直播間)持續不到1 min,表明觀眾進入直播間時并不事先知道他們想觀看的內容.77%的切換行為是ON-X(X可能是ON或者OFF),這說明大部分的直播間切換是由于觀眾對切換前直播間的內容不滿意.通過對比觀眾在ON-ON切換前后的觀看時長的分布,發現觀眾在切換后的直播間會觀看更長的時間,同樣驗證了大部分觀眾是主動退出了之前不滿意的直播間.由于觀眾對直播間選擇的隨意性較強、滿意度較低,部分研究[18-20]設計了針對直播平臺的內容推薦算法及系統,為觀眾選擇直播頻道進行個性化推薦.
Li等[37]對直播節目中觀眾的進入和退出過程進行了建模和分析.通過統計直播過程中觀眾加入和離開的速率變化,發現在直播節目開始之前的一小段時間內會出現觀眾大量進入和立刻退出的現象,而且觀眾的加入和離開速率在很大程度上依賴于某些子事件的發生.考慮到以上因素,作者使用高斯徑向基函數(RBFs)之和來擬合直播過程中觀眾加入和離開行為,較低的RMSE值表明模型與實際過程相符.形如

其中 Ti是 第 i 個 子事件發生的時刻,ai是 子事件i的影響權重.
觀眾向直播間贈送虛擬禮物被稱之為“打賞”,已有研究對國內直播平臺內的打賞金額分布規律進行挖掘.Zhao等[43]統計了映客平臺內某些主播收到的打賞,結果顯示觀眾打賞的金額服從長尾分布.也就是說,極少比例的觀眾貢獻了大部分打賞,貢獻排名前20名的觀眾的打賞額占所有觀眾打賞的90%以上.相似地,Zhu等[32]通過統計斗魚TV中打賞額在主播之間的分布情況,發現打賞額在主播之間分布的冪律性,幾個最受歡迎的主播擁有非常高數量的打賞,其他頻道分享的很少,而且僅2.7%的打賞觀眾貢獻了80.2%的打賞額.蘭榮亨等[44]則根據觀眾的觀看、評論和打賞記錄對觀眾群體行為進行特征構建,成功對不同特征的觀眾群體進行了聚類區分.
Wang等[33]對打賞行為的時間規律進行分析,發現不論是第一次打賞出現的時間還是打賞間隔時間的分布形式都高度符合Weibull分布,其累計分布函數形為

其中 λ和k 是分布的尺度和形狀因子.擬合結果顯示兩個分布的形狀因子 k 均小于1,即說明直播平臺中主播已經等待打賞的時間越長,那么后續打賞到來所需的等待時間越長.
觀眾評論是觀眾利用文字和表情符號在直播間中進行交流的一種方式,目前對觀眾評論的研究主要是對評論的情感、特征、觀眾交互進行分析.Poyane[45]對Twitch平臺部分直播Dota2的直播間內的觀眾評論文本數據進行了情感分析,發現隨著直播間觀眾規模的增加,觀眾評論的消極色彩會相應增強.類似地,Nematzadeh等[46]也發現隨著觀眾數量的增加,評論區會由正常對話向過載的、不和諧對話轉變.
Olejniczak[47]對Twitch平臺觀眾的評論內容從語句特征上進行了分析.發現觀眾更傾向于使用大量的表情符號和重復信息來表達態度,使用新穎的詞匯和獨特的表情符號來力求與眾不同.由于評論區只顯示最新的幾條評論內容,評論長度會隨著觀眾數量增加而縮短.Li等[33]發現了觀眾評論與打賞的周內模式存在很強的相關性(皮爾森相關系數超過0.85),且評論與視頻內容同步性很強,提出了根據評論情感標注直播亮點的算法[48].周鈺淇[22]則提出了根據評論內容對直播內容是否合法進行檢測的深度學習算法.
直播平臺中的主播行為研究主要集中在主播的直播次數、直播時長以及流行度排名與預測三方面.通過分析主播群體獨特的行為模式,挖掘直播平臺內主播直播規律和活動特征,對進一步開展直播平臺內大規模人群行為分析和研究、優化直播平臺系統建設有重要意義.
國內外直播平臺的主播直播次數普遍呈現出一定程度的冪律分布特點,即直播次數較少的主播占了很大部分,直播次數多的主播占比很少[14,32,35,42].
對國外直播平臺的主播直播次數規律的研究中,Stohr等[35]挖掘Younow平臺的主播直播數據發現,超過40%的主播只直播了一次,約10%的主播在一周內直播了7次以上.這表明,有一小部分高度活躍主播愿意每天直播多次,而大多數主播僅進行少量的直播.類似地,Nascimento等[42]發現Twitch平臺的少部分專業主播團隊直播的次數達到每天19次,而大量主播(40%—50%)每天直播次數不超過1次,與Jia等[14]的結論基本一致.
對國內直播平臺的主播直播次數規律的研究中,Zhu等[32]通過統計14天內斗魚TV主播開播天數的分布,發現約63%的主播每周直播的天數不超過1天,只有14%的主播在統計期中至少直播了一半的時間.大多數主播并不經常直播,但整個平臺每天約有4%的主播會進行直播.
眾多研究表明主播在直播時長方面表現出重尾分布規律.Zhu等[32]通過收集斗魚TV主播在為期14天統計期內的所有開播記錄來統計主播直播時長分布,發現70%以上的直播時長都小于200 min,但存在極少比例(小于1%)的主播直播時長達到1000 min.統計結果顯示斗魚TV主播的直播時長中位數是90 min,比Twitch平臺的45 min[28]更長,原因是相對于Twitch平臺主要針對游戲內容進行直播,斗魚TV的直播類型更多樣,許多直播間播放已經制作好的視頻或大型活動,提高了直播的持續時間.類似地,對Younow[35]和Twitch平臺[14,30,42,49]的主播直播時長特征的研究結果均顯示主播直播時長分布呈現重尾效應.
研究中通常以直播平臺內所有主播直播時長的中位數作為衡量該直播平臺主播直播時長的指標,由于直播內容和針對觀眾等方面的差異,各個直播平臺的直播時長中位數不盡相同.即使是相同的直播平臺,不同直播類別的直播時長中位數也會有一定的變化.部分結論總結如表2所列.

表2 各個網絡直播平臺的直播時長中位數Table 2.Median live streaming duration of each live streaming platform.
主播的“流行度”指的是主播吸引觀眾的能力.通過某些衡量指標對主播吸引力進行排名,排名越靠前則說明主播吸引觀眾的能力越強、主播流行度越高.這一排名在體現主播在直播平臺中的地位和水平的同時也反映出了觀眾的訪問模式.目前的研究中通常以粉絲或觀眾數量、打賞金額、評論數量作為衡量指標來對直播平臺主播的流行度進行排序.
大量對主播流行度排名的研究顯示,主播流行度存在一定的重尾分布規律[12,14,30,35,40,43,45,49,50].Pires等[31,50]研究發現Twitch平臺的觀眾數量分布符合Zipf分布,且參數 α 的值在1.0—1.5之間變動,說明大量觀眾在很少幾個直播間中聚集,少數主播吸引了絕大部分觀眾.Stohr等[35]對Younow平臺觀眾數量分布的研究也得出了類似的結論.但Zhang和Liu[49]則發現Twitch平臺的觀眾數量分布形式不是標準的冪律分布.由于著名主播通過直播吸引了極大比例的觀眾觀看,觀眾數量分布的尾部出現了明顯的下降,更符合Gamma分布或者Weibull分布的特點,與Wang等[33]對斗魚TV內評論數量和打賞金額分布形式一致.Arnett等[51]則對主播在社交平臺上的公開活動對主播流行度是否產生影響進行了研究,并沒有發現主播的觀眾和粉絲數量變動與在社交平臺上的活動存在統計學上顯著的相關性.
對主播流行度預測的研究中,Kaytoue等[28]分析線上內容發布后短期和長期的流行度相關性,提出線性回歸模型,以此來通過前期觀眾數較準確地預測后期觀眾數.還提出了一種流行度的定義(不僅僅只比較在線人數,還考慮上線時間的早晚等因素),并以此對主播進行新的排序.基于主播流行度預測線性回歸模型,Netzorg等[52]提出了基于主播行為的主播未來流行度預測模型,發現主播的努力行為(如發布更多直播、定期直播、在其他社交媒體賬號上發布直播信息等)在提升主播流行度方面是有效的,而且職業主播比業余主播更受歡迎.類似地,Szabo等[53]用瀏覽次數代表視頻的流行度,從前期數據預測視頻未來長期的流行度.Zhu等[32]對直播間出現的總觀眾數和禮物總價值進行線性相關分析,計算得出直播間內觀眾總數和禮物總價相關系數是0.6421(p<0.001).Jia等[14]計算得出直播間在線人數和主播直播次數的相關系數也較高,即直播次數多的主播流行度可能更大.
網絡直播吸引了大量的主播與觀眾參與,直播平臺中大規模人群交互形成了很多獨具特色的社群現象.通過統計分析直播用戶的使用特征,識別和發現直播平臺內的社群及社群網絡,進一步分析直播社群網絡的節點屬性、結構特征以及形成、演化過程,開展對直播平臺大規模人群參與、流動及交互的規律挖掘和動力學研究,對信息傳播、網絡營銷、輿情監測引導等策略的制定等都有參考和指導意義.
直播平臺具有的社交屬性使得其中存在大規模人群的交互關系,從而形成了多種類型的用戶關系復雜網絡.而直播平臺用戶網絡的節點屬性、結構和形成演變機制則體現了直播平臺情景下大規模人群活動的交互特征和選擇偏好.部分研究對用戶觀看、關注、評論、打賞等關系網絡中的社區發現[54]方法進行了探索,通過識別用戶關系網絡中相似用戶形成的社區為直播平臺用戶關系網絡發展動態的研究奠定基礎.
Churchill和Xu[55]于2016年發表了首個對直播平臺用戶社區的研究并提出了社區發現和成員識別算法.該社區發現算法是通過可視化主播共享觀眾關系網絡實現主播社區識別.作者首先收集了游戲直播平臺Twitch的主播信息,包括主播直播的游戲類型及粉絲列表.進一步地,作者構建了以主播為節點,共享觀眾關系為邊的主播關系網絡,其中節點大小代表了主播擁有的粉絲數量,顏色代表主播的直播游戲類型,主播之間共享的粉絲數量越多,那么連邊越粗、節點之間的距離越短.通過可視化主播關系網絡,根據節點顏色和距離的分布直觀分析主播之間聯系的緊密程度,實現主播關系網絡中的社區規模和結構的識別.
作者提出的社區成員識別算法則是根據主播與主播之間的關注關系,自動識別出社區成員.作者首先人工挑選出實際屬于Twitch平臺三大主流社區[56]的四位主播作為種子節點,種子節點的關注者中粉絲量在28000以上的則被程序自動判定與該主播所屬同一社區,從而實現了對主播所在社區成員的識別和發現.識別結果與Gephi中的模塊化識別結果基本一致,說明了社區發現算法的有效性.類似地,Lykousas等[57]通過設定違規用戶作為種子節點,從Live.me平臺和Loops Live平臺的觀看關系網絡中自動判定用戶是否違規,實現了違規用戶所在社區的成員發現.
前文總結了直播平臺中觀眾數量、評論量和打賞金額在主播間的分布普遍呈現出重尾效應,說明以主播為節點,以觀眾觀看、評論或打賞為節點重要性衡量指標的網絡中,存在少量中心節點,它們在整個主播社群網絡中的地位和重要性非常高.但由于網絡直播發展的時間較短,目前尚未出現對直播平臺主播社群網絡的節點性質進行專門分析的文獻.
在觀眾與主播共同形成的社群網絡中,由于觀眾對主播有天然的選擇權利,社群中的觀眾成員對主播的喜愛和認可促使主播成為了社群的意見領袖和核心,研究普遍認為主播促進了整個社群建立和發展,對社群的發展方向起決定作用.William等[58]對Twitch平臺的主播和觀眾進行訪談,發現直播間的社群氛圍折射了主播的品質和態度,即主播成為了整個直播間的意見領袖.而且直播間內的核心成員發揮吸引其他參與者、促進互動以及緩和聊天的重要作用以建立社群,也即社群中的意見領袖促進了整個社群建立和發展.莊慶玲和周麗[59]以斗魚游戲主播為例研究了彈幕式互動直播平臺主播和觀眾之間形成的社群,發現在直播間的互動中主播會成為意見領袖,與追隨者也就是觀眾基本屬于同一階層,擁有共同的興趣但意見領袖對該領域有更全面和深入的了解,依靠平臺進行有償信息交流.
研究復雜系統內的社群網絡結構有助于理解或預測系統的表現[60],少量研究對直播社群網絡的結構特征進行了描述,通過社群網絡的結構性質反應直播社群的交互特點,以解釋直播平臺中的社群表現.
Churchill和Xu[55]對Twitch平臺主播社群的網絡結構性質進行了研究.發現主播直播的游戲相同或相似,那么他們擁有的粉絲相似度也很高,體現了觀眾對直播類型的偏好性.而且通過識別Twitch平臺中三大主流社區的成員,發現社區規模大小與直播難度相關,成為該類主播的難度越大則該類主播數量越少.Lykousas等[57]通過對直播平臺違規用戶所形成的觀看網絡結構進行統計分析,對網絡的平均度、密度和相互性進行分析發現,違規用戶網絡的互惠性很差(reciprocity<0.15),即違規用戶社群網絡中節點與節點之間在互惠互利方面的表現并不好.
綜上所述,網絡視頻直播用戶行為挖掘的國內外相關研究目前已取得一定的進展.從大量相關文獻發現,直播平臺負載、觀眾行為、主播行為和社群網絡是本領域的研究重點.其中,直播平臺負載水平的變化模式體現出了明顯的日內效應和周內效應,大規模人類行為在直播平臺中體現出明顯的重尾特征,如觀眾觀看次數與時長、打賞額和評論量、主播直播次數和時長、吸引觀眾的能力等分布均從不同程度上符合重尾分布.說明直播平臺內人群分布的異質性很強,可以據此對直播平臺的經營模式如用戶(觀眾、主播)激勵模式、虛擬禮物打賞機制等進一步優化.網絡直播平臺中大規模人群交互形成了多種用戶社群網絡,識別用戶社群和分析社群網絡的結構和屬性對優化直播平臺的發展和應用有重要意義.
由于網絡直播以及相關研究發展的時間尚且較短,對網絡直播的研究廣度和深度有待進一步探索.從研究主題發展軌跡和當前研究重點可以預測,挖掘直播平臺中各種社群網絡的形成和演化機制、設計針對直播平臺的內容推薦和檢測算法等是網絡直播領域研究的未來發展趨勢.