999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于彈幕分析的在線直播平臺用戶理解①

2020-03-23 06:05:52黃發良謝國慶陳子煒
計算機系統應用 2020年2期
關鍵詞:用戶

黃發良, 謝國慶, 陳子煒

1(廣西師范大學 廣西多源信息挖掘與安全重點實驗室, 桂林 541004)

2(福建省公共服務大數據挖掘與應用工程技術研究中心, 福州 350117)

3(福建師范大學 數學與信息學院, 福州 350117)

近年來, 網絡直播迅速發展成為一項新興互聯網文化產業.據中國直播榜網站在線數據顯示: 截止2017 年2 月, 直播平臺主播超39 萬, 粉絲數超61 億人次, 財富總量超3.8 億.網絡直播一方面為主播達人們提供了展示與推銷自我的平臺, 另一方面加強了網民的在線體驗與及時感受.為了增加直播趣味性和互動性, 各大網絡直播平臺紛紛采用彈窗彈幕作為用戶實時交流的方式[1,2].內容豐富且形式多樣的彈幕數據中隱含著復雜的用戶屬性與用戶行為, 研究并理解在線直播平臺用戶具有彈幕內容審核與監控[3,4]、輿論熱點預測[5]、個性化摘要標注[6]等多方面的應用價值.

在線直播用戶理解已經引起研究者的廣泛關注.文獻[7]通過分析在線視頻評論格式來研究用戶評估與判斷能力, 舉例了分體式和流式的評論布局特征對用戶行為動機的影響.文獻[8]則從彈幕文本內容入手, 研究彈幕對網民視頻認知的影響, 并利用文本分類技術對視頻內容進行快速的語義分析.在自我控制和社交能力上, 用戶可以提升其參與視頻社區互動的活躍度[9],擁有較高的互動活躍度可以促進用戶自我控制和社交能力的發展.文獻[10]提出一種基于彈幕文本的視頻片段情感識別算法, 建立用戶興趣度量模型, 并以此進行視頻片段的推薦.文獻[11]利用句子級別的情感分析方法, 建立基于情感詞典的彈幕情感分析模型, 對評論文本進行情感詞抽取及情感值計算, 并結合時間序列進行分析.文獻[12]利用視頻語義的時間依賴性、用戶彈幕評論的交互性與用戶偏好建立個性化的時序主題模型, 有效提升視頻標簽算法的性能.文獻[13]提出一個基于數據重建原則的時序概要模型, 選擇與視頻最相關的代表性彈幕評論來生成視頻的動態描述.然而絕大多數現有研究工作都是對彈幕的文化背景和社會影響力進行定性分析或利用文本挖掘技術建立彈幕-視頻相關度量分析模型, 而在用戶行為的具體量化測量和用戶活躍度的研究方面還有所欠缺.

為了對用戶行為和彈幕語言進行更深入的探究,本文針對主流直播平臺的彈幕進行分析和建模.在用戶屬性測量方面, 本文根據用戶的時空分布和接入設備的類型分析網絡在線直播對社會的影響, 借助彈幕文本長度分布、用戶發送彈幕的頻率分布以及用戶個體的等級經驗分布等估計用戶群體在觀看直播環境下即興發言的屬性特征.另一方面利用所抓取的網絡在線直播中彈幕及用戶行為的相關數據, 分析直播平臺用戶的交互特點和活躍度特征, 提出基于網絡在線直播的用戶活躍度計算框架.本文提出的用戶活躍度模型可以較好地適應當今新興娛樂活動的彈幕直播, 并對近期的用戶行為理解和網絡在線直播平臺的用戶活躍趨勢做出合理預測和分析.

1 數據采集

本文利用網絡爬蟲程序對國內熱門的3 個主要直播平臺(斗魚、熊貓、戰旗)進行彈幕數據的抓取.由于彈幕數據規模十分龐大且處于動態變化中, 加之分布不均的特點, 獲取整個實時彈幕數據非常困難, 因此,在數據抓取的過程中, 不同程度地運用了采樣策略.為了保證彈幕數據的可靠性、豐富性和有效性, 本研究樣本時間跨度為2017 年1 月5 日至2017 年2 月5 日,對3 個平臺的6 種主要直播類別: 網絡游戲、手機游戲、主機游戲、顏值/歌唱、戶外直播、影視綜藝的房間中隨機抽取若干熱門房間進行跟蹤抓取.數據采集流程包含協議分析、編制抓包程序、自動抓取并存儲于MongoDB 數據庫中, 如圖1 所示.

圖1 數據采集流程

在各直播平臺中, 用戶與主播互動主要包括“發送彈幕與贈送禮物”兩種方式.其中彈幕內容為文本與原設定emoji 表情; 而禮物則包含了各種價值不等的禮物種類.對于這兩種互動形式, 我們對爬蟲程序抓取的數據內容進行分類預處理, 如表1 所示, 得出我們所需的各項數據: 每場直播的房間信息、彈幕數據以及禮物信息.利用彈幕數據和打賞信息, 可以方便地獲取用戶的各項特征以便描繪用戶行為屬性并對彈幕內容做出合適的統計分析.通過對3 個直播平臺的觀眾人數與彈幕數的統計分析, 繪制了直播平臺人數與彈幕數的關系.如圖2 所示, 其中深色為1 月5 日起至2 月22 日各平臺的彈幕總數, 淺色為同期時間各平臺觀看直播人數總和.可以看出, 如今各平臺的觀眾處于十萬級別, 但是彈幕量卻達到百萬級別, 彈幕數與人數比例接近10:1, 即每個觀眾平均發送10 條彈幕.

表1 數據采集信息表

圖2 3 大直播平臺數據分布圖

2 分析與討論

隨著網絡技術發展, 網絡使用用戶激增, 相關用戶行為也變得復雜.根據網絡中大量用戶行為相關數據,建立相關用戶行為模型, 對用戶行為理解進行探究, 能夠深入理解用戶行為的特性, 為企業新營銷策略提供參考; 同時能對用戶行為言論監管和相關部門監管網絡安全[14]提供重要作用.

不同于微博的測量[15], 而彈幕文本的動態時序特征與微博或者短評類文本相比較更加明顯, 具有更加短小的文體特征和多變的語義行為.在用戶行為理解方面, Thelwall[16]探究了基于YouTube 的用戶和評論的相關特征, 僅局限于相對靜態的用戶網絡和YouTube 視頻, 而并未涉及更加復雜多變彈幕直播中的用戶行為網絡.

為此, 本文根據數據特點, 將已抓取的數據分成用戶屬性與彈幕行為兩個類別.用戶屬性包括用戶觀看直播時間、地點、使用的平臺以及用戶賬號等級.用戶行為包含活躍天數、打賞總額、彈幕數量以及彈幕長度與彈幕頻率5 個方面.在屬性與行為兩個方面里進行分析, 在指定數據范圍中總結出用戶特點, 根據這些特點, 建立相關的用戶行為模型.我們采用如圖3 所示的基于假設驗證思路的研究.

2.1 用戶屬性驅動的用戶理解

在社交網絡中, 用戶屬性對于研究用戶群體分布和潛在影響力用戶挖掘提供有效的特征依據.對于網絡在線直播而言, 用戶屬性是由用戶時空活躍分布、用戶接入平臺的類型和當前用戶的經驗等級分布等組成.針對當下網絡在線直播的宏觀特點以及新形式下大眾娛樂特點, 我們做出如下假設:

(1) H1a, 用戶觀看網絡在線直播的時間分布出現周期性的變化規律, 活躍時間大多集中于晚上.

依據: 彈幕直播作為一種新型的休閑娛樂方式, 用戶可以自由安排自己的互動時間而主播也可以根據用戶粉絲的日常活躍情況設置工作和直播時長.隨著網絡直播行業的發展, 全民直播, 人人參與的熱情也在不斷提高, 只要一部智能手機就可以滿足直播或是接入平臺參與互動的要求, 直播和互動門檻不斷降低.在其他非工作和茶余飯后的休閑時間里, 觀眾可以自由選擇參與互動的時間, 而晚間時段成了這些人的最佳選擇之一.主播也根據粉絲的時間周期性地安排直播時長, 主動迎合觀眾的需求以吸引更多的粉絲從而增加獲得更多收益的機會.

分析: 根據已采集的數據樣本, 構建以每5 分鐘為時間差的時間序列樣本模型, 并根據在線用戶數目構建出了用戶人數的時間分布情況.如圖4 所示, 在線用戶數目隨著時間呈現周期性變化, 每個周期都會先后出現兩個相對峰值, 且每個周期的峰值分別出現在午間以及凌晨兩個時間段, 其中以凌晨時分的峰值為較高.大部分直播平臺用戶選擇在下班休息這段時間進行直播或觀看直播, 在線直播作為新型的休閑娛樂方式已經和這部分受眾的日常生活作息相互關系, 這也就是平臺用戶在時間上具有明顯的周期性的原因.在線直播的時間分布與用戶普遍的休閑娛樂規律相重合,與H1a 情況相符.

圖3 分析流程

(2) H1b, 用戶區域性分布不均勻, 有可能集中分布于沿海發達城市.

依據: 用戶可以通過PC 網頁或是移動客戶端建立與直播平臺的互動模式, 而且對網絡依賴度十分強大.其次, 根據《中國互聯網絡發展狀況統計報告》[17]顯示, 現如今國內的網絡覆蓋程度已經超過50%, 沿海省份更是接近網絡全覆蓋.再加上沿海省份發達的經濟現狀, 擁有巨大的人口數量.綜合以上幾點, 可推測沿海省份的觀眾分布會大于內陸觀眾數量.

分析: 將用戶的地域分布劃分為境外、西北、東北、華中、西南、華北、華南以及華東8 大地區, 得到如圖5 所示的用戶地域分布情況.在線直播平臺用戶主要集中華東和華南地區, 用戶數量占全體觀眾數量的56%, 體現了用戶在區域上分布不均的顯著特點.針對用戶地域分布存在的顯著差異, 我們進一步找出了用戶數量排名靠前的10 個省份.如圖6 所示, 可以明顯看出, 用戶數量在廣東浙江這樣的沿海發達地區最多, 這也例證了H1b 的假設.

圖4 在線用戶數目的時間分布

(3) H1c, 用戶更可能選擇以網頁端接入方式為主,移動設備登陸為輔的交互觀看方式.

依據: 如今大部分網絡直播平臺的前身是某些電腦社交、視頻、語音網站, 在以往的運營中擁有一定程度的用戶基礎.其次, 電腦網頁端在使用起來方便快捷, 并且網頁設計精美, 相對于其他端運行更穩定.移動端可以隨時關注主播信息, 觀看主播的節目, 并且如今智能手機的廣泛應用, 使得移動端擁有巨大市場.綜合上述情況, 可推測用戶觀看直播的方式是以電腦網頁端為主, 移動端為輔的交互方式.

分析: 為了準確定量了解用戶在線觀看直播平臺的分布情況, 利用已采集的用戶發送彈幕和打賞禮物數據, 生成在線用戶接入平臺分布圖.如圖7, PCWeb 平臺的用戶占比為51%, 擁有較大的觀眾支持度.同時, 47%的用戶使用Android 平臺與IOS 平臺觀看直播.在兩個相對均衡的選擇方式中, 以電腦網頁為主移動端為輔的觀看模式已經是主流模式, H1c 得證.

圖6 用戶省份分布情況

圖7 用戶平臺分布情況

(4) H1d, 用戶平臺經驗等級分布呈低等級人數多,高等級人數少的分布特點.

依據: 贈送虛擬禮物成了用戶提升等級的最主要的途徑之一.普通用戶通過賬戶充值購買一定數額的虛擬禮物打賞主播或者參與平臺不定期的會員活動獲取一定的經驗來提升用戶賬號等級.從社會學和心理學角度出發, 大多數用戶傾向于不參與或者是不常參與和主播的禮物互動而是發送彈幕來參與直播的互動,而有些富豪或者是主播的忠實粉絲就會利用打賞的方式取悅主播以達到表現自我的目的.因此用戶等級分布可能呈現從低等級到高等級逐步減少的分布狀況.

分析: 利用所采集的3 個主流直播平臺用戶交互數據, 建立用戶經驗等級分布模型.如圖8 所示, 用戶等級主要集中在低等級部分, 且用戶數量隨著等級的增加而逐漸減少.大部分用戶主要集中于15 級以下,這也符合用戶使用在線直播平臺的娛樂目的: 趨向于直接觀看直播和參與實時評論, 而較少贈送高額禮物的特點.所贈送的禮物總價值越多等級上升越快, 經驗等級為15 級以上的用戶雖然所占比例不多但卻是平臺直播間的忠實粉絲用戶群體, 直接影響主播的收益高低.

圖8 用戶等級分布情況

2.2 用戶行為驅動的用戶理解

網絡直播作為網絡時代的一種新風尚, 對人們的生活侵入程度越來越強.用戶群體往往對直播關注度高, 收看時長長, 彈幕發送頻繁, 并通過贈送大量虛擬禮物滿足互動消費需求, 自主性強.因此, 用戶行為相比較用戶屬性而言具有較高的靈活性與不確定性.對于用戶行為, 本文綜合大量數據, 尋求其普遍規律, 做出如下假設:

(1) H2a, 用戶發送彈幕的頻率隨時間的增長而逐步降低.

(2) H2b, 用戶發送彈幕的長度更加短小并呈現集群分布的特點.

依據: 不同于微博文本, 用戶所發表的彈幕評論通常小于32 個字, 結構更加自由、形式更加多樣、內容更加豐富, 具有更強的實時性.“在網上沒人知道你是一條狗”, 這句話生動地反映了網絡的虛擬性和隱匿性.匿名機制的存在, 使得用戶可以肆無忌憚地發表自己的看法, 參與直播的實時評論, 因此彈幕更新相當頻繁.另一方面, 彈幕在表達個人的觀點的同時利用直播屏幕上的滑動效果分享給其他用戶, 這也限制彈幕的有效時長.彈幕這一講究快捷的特點, 無疑加速了短文本的產生.根據中國互聯網絡信息中心公布的第38 次全國互聯網發展統計報告顯示, 我國網民以10~39 歲的年輕群體為主.因此, 在內容語義上, 彈幕更貼近網絡化用語以及口語, 多使用特殊表達形式, 如數字或者表情的組合, 這就滿足了用戶群體實時彈幕互動的需求.

分析: 為了探究用戶發送彈幕頻率的分布情況, 我們對間隔時間在10 分鐘以內(以每分鐘為間隔單位)的彈幕數量進行了統計.如圖9 所示, 說明用戶發送彈幕頻率高, 在3 分鐘內彈幕頻率均高達百萬人次級別, 并且隨間隔時間增長而逐漸減少, H2a 得證.

圖9 用戶發送彈幕頻率情況

同理, 為探究彈幕長度特征, 我們統計了彈幕長度分布情況.如圖10 所示, 彈幕長度以短文本為主,1~5 字左右的彈幕最為常見, 且隨著文本長度的增長彈幕數量出現了明顯的減少, 總體呈現出彈幕集群分布于短小處的特征, 這與H2b 假設相吻合.

圖10 彈幕長度分布情況

彈幕總體呈現出發送頻率高, 簡潔多樣, 即時性強的特征, 一定程度上也切合了當前彈幕文化碎片化和互動性強的特點.

(3) H2c, 用戶活躍度與用戶歷史發送彈幕量、打賞金額以及互動天數正相關.

依據: 首先對活躍用戶進行定義: 在直播時間段中,參與在線網絡直播互動的用戶定義為活躍用戶.

作為直播平臺的生命線, 用戶活躍度是用戶黏性的反應, 直接決定著一個直播平臺的商業價值.用戶活躍度的具體量化指標往往因應用場景而異, 可以根據用戶來訪、互動情況、核心功能使用頻率等綜合確定.例如: 吳慧等[18]從用戶背景、社交關系、發表內容質量及社交行為4 個方面來設計微博用戶活躍度指標.張效尉等[19]從某社交網站用戶群數據中, 選取在一段時間內社交網絡用戶群中用戶平均發布消息的數量作為衡量社交網絡用戶群用戶活躍度指標.王錦坤等[20]在設計基于協同過濾的推薦算法時, 提出用戶活躍度與用戶瀏覽項目數量成正比的模型.本文選擇用戶發送彈幕量、用戶打賞金額以及用戶互動時長(天數)作為直播平臺用戶的活躍度指標, 主要出于這樣的考慮:彈幕是直播用戶對主播人與主播內容的評論, 發送彈幕是直播用戶觀看的體驗與參與度的表現; 打賞金額是直播觀眾對主播服務質量的認可與肯定, 是深度參與的重要體現; 互動時間越長說明該直播用戶對此直播平臺提供的服務越認可, 也是用戶黏性的體現.

為此, 本文假設用戶歷史發送彈幕量、打賞金額以及互動天數影響用戶活躍度.

分析: 為了提取更多的用戶行為特征, 我們統計了連續兩周時間內用戶在線天數、發送彈幕數量、贈送禮物總額、最大發送彈幕數量、最大贈送禮物價值以及這段時間內最大連續在線天數.由于用戶活躍度存在個體差異性, 故本文假設這一組數據能夠用來表征不同的用戶活躍度.為了驗證用戶活躍度和這些變量之間的相關關系, 我們對這一組數據進行了主成分分析.主成分分析法能將較多的數據變量通過刪除變量間的重疊部分得到較少的綜合變量, 從而將用戶活躍度更加準確直觀地表示出來.從表2 可以看出, 共有5 個主成分.由于第一主成分相比其它主成分和這些變量之間具有更突出的相關關系, 故抽取出第一主成分F1 作為用戶活躍度的表征.根據主成分分析結果, 可以得到在線天數和用戶活躍度、彈幕數量、禮物總量、最大彈幕量、最大禮物量、最大連續在線天數的相關系數分別為0.724、0.762、0.218、0.838、0.212 和0.792.因此, 對于用戶活躍度滿足F1=0.724×T1+0.762×T2+0.218×T3+0.838×T4+0.212×T5+0.792×T6,T1-T6 分別代表在線天數、彈幕數量、禮物總量、最大彈幕量、最大禮物量、最大連續在線天數.在線天數越長, 發送彈幕量越大, 贈送禮物越多, F1 的值越大,用戶活躍度越高, 這個結果與H2c 假設吻合.

2.3 用戶屬性與用戶行為相融合的用戶理解

從H1a 以及H1b 可以看出用戶在線觀看直播的時間以及地域方面有明顯的時空分布特征, 從H2a 以及H2b 可以看出彈幕長度以及頻率特征, 從H2c 可以得到用戶平臺活躍度相關因素.在線直播主要給用戶提供了即時性互動(即彈幕禮物)的全新觀看直播體驗.由于在線直播集中在深夜時段以及具有消費性的特點, 用戶人群具有明顯的時空分布特征.彈幕禮物作為在線直播互動體驗的媒介, 承載著用戶行為的產出.而用戶平臺活躍度作為用戶互動的產物和在線直播平臺衡量一個客戶價值的重要標準, 自然也是刻畫用戶人群的重要因素.因此, 本文認為用戶模型的構建可從用戶屬性和用戶行為兩個方面著手.

表2 成分相關性分析表

3 結論與展望

用戶屬性和用戶行為共同驅動用戶理解, 構成網絡在線直播背景下的用戶模型.

用戶屬性方面, 觀眾觀看網絡直播的時間選擇上具有周期性變化規律, 并且得出這與主播的開播時間與日常作息密切相關的結論.在沿海發達城市的用戶相對集中, 特別是人口多, 經濟發達同時擁有眾多外來人口的城市, 在觀看直播的觀眾中占有較大比重.根據觀看直播平臺分布情況來觀察, 如今觀眾選擇的直播平臺具有“網頁端為主移動端為輔”的主要特點.

而在用戶行為方面, 用戶在直播平臺的互動方式居多, 其中以發送彈幕為主.用戶所發送的彈幕內容具有“短文本, 高頻率”的特點.彈幕內容網絡語化, 接近口語, 貼切生活同時也容易產生誤解與沖突.根據用戶等級可以判斷出贈送禮物的比重較少, 并且用戶等級從低到高呈減少的分布狀態.而這兩種互動方式與在線天數共同支持用戶活躍度的理論推斷.

為此, 本文針對具體的活躍度給出定量的活躍度計算指標, 提取影響用戶活躍度的主要特征利用PCA 技術根據影響力最大化方向提取主成分作為用戶活躍值的參考.

本次的實驗依舊有存在部分不足.首先, 在抓取數據方面, 由于所使用的工具的局限性, 只抓取到監測期間有進行互動的用戶資料信息, 而這一點就忽略了在監測期只進行觀看沒有參與互動的用戶; 其次, 用戶信息只停留在進行互動時的狀態, 互動后獲得收益狀態沒有跟蹤到; 再者, 選取的數據源較為局限, 可能會出現數據偏差的問題.

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 55夜色66夜色国产精品视频| 国产精品流白浆在线观看| 国产精品亚洲欧美日韩久久| 日韩无码精品人妻| 少妇精品在线| 试看120秒男女啪啪免费| 国产精品白浆在线播放| 毛片免费在线视频| 91在线视频福利| 91精品久久久无码中文字幕vr| 免费看久久精品99| 国产免费网址| 国产成人久视频免费| 国产精品免费入口视频| 国产波多野结衣中文在线播放 | 成人福利在线免费观看| 最新亚洲人成网站在线观看| 国产办公室秘书无码精品| 欧美一级在线看| 日本AⅤ精品一区二区三区日| 中文字幕久久波多野结衣| 国产欧美视频综合二区| 精品国产毛片| www.狠狠| 亚洲天堂免费观看| 91人妻日韩人妻无码专区精品| 中文字幕1区2区| 国产在线八区| 亚洲综合经典在线一区二区| 国产成人综合久久精品尤物| 午夜视频在线观看免费网站 | 99精品免费在线| 国产精品页| 真实国产精品vr专区| 亚洲综合中文字幕国产精品欧美| 亚洲国产综合精品一区| 国产精品99r8在线观看| 国产高清不卡视频| 国产在线拍偷自揄观看视频网站| 在线观看国产黄色| 国产91视频观看| 亚洲精品成人福利在线电影| 亚洲天堂视频在线观看| 日本手机在线视频| 国内精自线i品一区202| a欧美在线| 精品亚洲欧美中文字幕在线看| 99精品免费欧美成人小视频 | 天天操天天噜| 国产欧美视频综合二区| 中文字幕欧美成人免费| 国产在线精品网址你懂的| 欧美亚洲香蕉| 亚洲欧美精品一中文字幕| 亚洲熟妇AV日韩熟妇在线| 欧美综合中文字幕久久| 中文字幕佐山爱一区二区免费| 波多野结衣爽到高潮漏水大喷| 欧美国产在线看| 又黄又湿又爽的视频| 国产成人综合网| 国产区免费| 免费毛片全部不收费的| 呦视频在线一区二区三区| 国内黄色精品| 久久精品只有这里有| 亚洲一道AV无码午夜福利| 国产麻豆va精品视频| 国产一区二区三区精品久久呦| 色婷婷电影网| 91成人在线免费视频| 91精品伊人久久大香线蕉| 国产精品九九视频| 婷婷六月综合网| 久久人体视频| 国产日本欧美在线观看| 老色鬼久久亚洲AV综合| 4虎影视国产在线观看精品| 亚洲精品第一在线观看视频| 欧美成人日韩| 亚洲V日韩V无码一区二区| 久久亚洲中文字幕精品一区|