周熙陽


摘? 要? 先對嗶哩嗶哩用戶樣本數據進行描述性統計分析,再應用K-均值聚類算法,選擇粉絲數、關注數、投稿數、互粉數四個指標變量進行聚類分析。研究表明嗶哩嗶哩有三大用戶群體:大眾型、積極互動型、意見領袖型。意見領袖型用戶擁有大量粉絲,影響力強勁,其視頻內容具有較強的輻射力,是最具有營銷價值的廣告投放群體。積極互動型用戶在平臺上擁有固定的活動社交圈,可以作為較有營銷價值的廣告投放群體。
關鍵詞? 嗶哩嗶哩;群體特征;聚類分析
中圖分類號? G206.2? ? ? 文獻標識碼? A? ? ? 文章編號? 2096-0360(2020)14-0039-03
嗶哩嗶哩(bilibili,簡稱B站)創建于2009年,作為當下最受歡迎的彈幕網站,正對互聯網用戶的生活產生著潛移默化的影響。截至2018年三季度,嗶哩嗶哩平臺季度平均月活躍用戶數量已經達到了9 270萬人。其高互動性、及時性、娛樂性以及強烈的二次元語言風格使其不斷地擴大用戶基數,成為中國最大的年輕人文化社區。伴隨著嗶哩嗶哩彈幕網站的紅火,也隨之而來催生了一種新的廣告投放方式——B站投放。廣告主們借助B站視頻內容生產者之口,向每一位潛在受眾普及產品和企業信息,傳達企業文化。
目前國內大多數學者對于嗶哩嗶哩的研究大多是定性研究。本文以嗶哩嗶哩用戶為研究對象,手動隨機抽取獲得400多個用戶數據,通過K-均值聚類分析法,挖掘各個類別嗶哩嗶哩用戶的不同特征,幫助廣告主找到核心傳播群體,減少不必要的資源浪費,提高傳播效率。
1? 研究設計
1.1? 樣本數據
以嗶哩嗶哩平臺用戶數據為研究對象,為了保證數據的質量,避免爬到一些僵尸號,本文選擇爬取用戶的關注列表而非粉絲列表。隨機挑選了一位粉絲數過百的視頻上傳者作為起始,爬取她的關注列表,再對列表中的每個人爬取其關注列表,以此類推。截至2020年1月3日,共爬取400多位嗶哩嗶哩用戶數據,包括用戶昵稱、性別、用戶主頁鏈接、粉絲數、獲贊數、播放數、關注數、投稿數、互粉數共9個屬性。
1.2? 指標設計
本文考慮到各個指標對用戶群體特征的意義以及數據采集情況,參考何躍,帥馬戀,余偉萍[1]對于微博用戶群體特征的研究,選取了以下幾個指標分別來權衡用戶的影響力[2]、活躍度[3]、互動性[4]:
1)粉絲數。論文中該指標是由從用戶注冊時間到2020年1月3日該時間段內手動采集樣本用戶總粉絲的數量而來。用戶粉絲數的大小意味著其他用戶對該用戶生產內容的關注度,是反映用戶影響力的重要指標。“轉發”能夠實現裂變式的信息傳播,而這種路徑主要就是通過“粉絲路徑”[1]。
2)關注數。論文中該指標是由從用戶注冊時間到2020年1月3日該時間段內手動采集樣本用戶總關注數而來。當用戶關注他人,主頁就會顯示被關注用戶的動態,并通過算法向用戶進行推薦,用戶獲取自身感興趣的信息。用戶關注數量越多,意味著用戶投入該平臺上的時間和精力越多,關注數是反映用戶活躍程度的主要指標。
3)投稿數。論文中該指標是由從用戶注冊時間到2020年1月3日該時間段內手動抽取樣本用戶總投稿的數量得來,投稿數越多,用戶自主生產創造內容的意愿越強,這也意味著用戶在平臺的表現越活躍,投稿數是衡量用戶活躍度的重要指標。
4)互粉數。當一個用戶與另一個用戶互相關注,互為對方的粉絲,即為互粉。用戶擁有的互粉好友越多,說明用戶互動性越高,該用戶越傾向于在嗶哩嗶哩平臺上擁有固定數量的活動社交圈。通過互粉,用戶既能提升用戶人氣、實現報酬性吸引[4]。互粉數是衡量用戶互動性的主要指標。
2? 實證分析
2.1? 描述性統計分析
在對各項離散指標進行分段連續處理之后,嗶哩嗶哩用戶群體特征整體情況如表1。對性別、關注數、粉絲數等特征變量進行大致的描述性統計分析,有助于事先了解大致情況。
由表1可看出,在確定的407名嗶哩嗶哩用戶的樣本中,男性調查者共218名,占樣本比例53.6%,與中國互聯網信息中心2019年8月30日公布的第44次《中國互聯網絡發展狀況統計報告》比例52.4%基本相符;從關注數來看,關注數100以下的占樣本比例85%,絕大多數用戶關注100個以內的博主;從粉絲數量來看,1萬及以下的粉絲數占39.1%,10萬以上的粉絲數占26.3%,兩鐘粉絲群落占比均超過25%,而且相加占總體65%以上,這意味著樣本用戶粉絲群落出現了兩級分化的情況;從區間分布頻率來看,100及以下的關注數占85%,100及以下的互粉數占99.%,在對互粉數和關注數進行相關性檢驗(r=0.563)后發現,互粉數和關注數顯示出了較強的正相關性,在一定程度上說明了可能有固定的一定數量的互動群體存在于嗶哩嗶哩平臺用戶之中。而從獲贊數和播放數來看,播放數和獲贊數之間的標準差分別為52 773 364.1和1 564 777.5,說明了不同用戶之間的差異較為明顯。這意味著不同的用戶在嗶哩嗶哩平臺的網絡活動有著不同的特點。這些問題將在接下來的聚類分析中進行探討。
2.2? 嗶哩嗶哩用戶群體特征分析
本文通過軟件spss22.0,采用K-均值聚類算法對嗶哩嗶哩用戶群體進行聚類分析。為了保證分析結果的準確性和客觀性,本文先初步排除數據中的異常值,剔除空缺或者亂碼的用戶數據。其次選取互粉數、關注數、投稿數、粉絲數這四個指標進行K均值聚類分析,其中互粉數是衡量用戶互動性的指標,關注數和投稿數是衡量用戶活躍度的指標,粉絲數是權衡用戶影響力的指標。如表2所示,K均值聚類分析最終將其聚為三類。
樣本類型1,占樣本量的95%以上,投稿數和粉絲數是三種類型里最少的,互粉數和關注數是三種類型里適中的。該樣本類型粉絲數集中在10萬左右,關注數集中在54左右,投稿數集中在128左右,互粉數集中在15左右。相對于其他類型用戶而言,作品投稿較少,粉絲量也較少,在三種類型中表現出的特點是低影響力。這表明該類型用戶對嗶哩嗶哩平臺的依賴程度較低,但是該類型用戶是嗶哩嗶哩平臺用戶的主要構成群體,故命名為“大眾型”用戶。
樣本類型2,占樣本數量的3.2%,關注數和互粉數是三種類型里最多的,投稿數和粉絲數是三種類型里適中的。該樣本類型粉絲集中在281萬左右,關注數集中在64左右,投稿數集中在268左右,互粉數集中在30左右,是其他類別用戶的2倍以上。相對于其他類型用戶而言,該類型用戶關注的視頻內容生產者較多,互粉數也是三種類型里最多的,在三種類型中表現出的特點是高互動性。這表明該類型用戶在平臺上積極關注他人動態,同時在嗶哩嗶哩平臺上擁有一定數量的社交圈,與粉絲之間有著共同的信息需求,故命名為“積極互動型”用戶。
樣本類型3,不到總體樣本數量1%,粉絲數和投稿數是三種類型里最多的,關注數和互粉數是三種類型用戶里最少的。該樣本類型粉絲集中在672萬左右,是其他類別用戶的2倍以上,關注數集中在17左右,投稿數集中在319左右,互粉數集中在7左右。相對于其他類型用戶而言,該用戶雖然互動性較低,互粉數只有平均互粉數的0.4,社交規模不大但是積極生產視頻,擁有大量粉絲并且影響力強勁,在三種類型中表現出的特點是高影響力低互動性。表明這類用戶在網絡社區中具有意見領袖的地位,其創建和分享的內容會被眾多用戶關注,故命名為“意見領袖型”。
3? 結論
本文通過采集嗶哩嗶哩平臺中用戶群體的相關信息,分別從影響力、活躍度、互動性三個方面選擇粉絲數、關注數、投稿數、互粉數四個指標使用K均值聚類算法對嗶哩嗶哩用戶進行聚類分析,分析結果表明,嗶哩嗶哩用戶可以分為大眾型,積極互動性,意見領袖型三大類,意見領袖型用戶擁有大量粉絲,影響力強勁,其視頻內容具有較強的輻射力,是最具營銷價值的廣告投放群體。而積極互動型用戶在平臺上擁有固定的活動社交圈,與粉絲之間溝通較為密切,可以作為較有營銷價值的廣告投放群體。
互聯網大數據時代下,視頻彈幕網站用戶增多,內容生產水平層次不齊。聚類結果可以供廣告主參考,提高廣告投放的精確度,一方面能為優質用戶實現高效率的廣告變現,另一方面能幫助廣告主定位到最有價值的用戶群體,實現精準營銷。
論文通過手動采集用戶信息,雖然已經避免僵尸粉,但仍然存在人工誤差,抓取方式精確度不足。后期將改用爬蟲程序,獲取更多的嗶哩嗶哩用戶信息,擴大文本信息量。
參考文獻
[1]何躍,帥馬戀,余偉萍.新浪微博加V用戶特征分析[J].情報雜志,2014,33(9):148-151.
[2]姚茜,卜彥芳.基于影響力研究的微博營銷模式探析[J].經濟問題探索,2011(12):117-121.
[3]李英樂,于洪濤,劉力雄.基于改進PageRank算法的微博用戶影響力研究[J].計算機應用研究,2013,30(9):2594-2597.
[4]陳然.網絡論壇活躍群體社交網絡研究——從“關注”行為的視角[J].新聞界,2012(18):51-55,61.