楊樂雨 北京信息職業(yè)技術(shù)學(xué)院
隨著信息化時代的來臨,我國網(wǎng)絡(luò)視頻行業(yè)迎來了一個爆炸式的發(fā)展期,網(wǎng)絡(luò)綜藝節(jié)目與網(wǎng)絡(luò)電視劇呈現(xiàn)井噴式發(fā)展。僅以電視劇為例,2014年全網(wǎng)共發(fā)行網(wǎng)絡(luò)電視劇205部,共2918 集。2015年網(wǎng)絡(luò)劇全年播放量達274.5億,較2014年的123億增長了1.1 倍,總部數(shù)達379 部,同比增加85%,總集數(shù)達5008集,同比增長72%。2015 年至今網(wǎng)劇發(fā)展進入黃金時期,眾多傳統(tǒng)影視制作人和大量資本涌入網(wǎng)劇市場,各大視頻網(wǎng)站紛紛投拍,網(wǎng)劇市場一時間被推向資本的風(fēng)口浪尖。隨著網(wǎng)絡(luò)視頻的高速發(fā)展,觀眾們已不再滿足于單純的觀看視頻,而是希望獲得更多的參與感,對于實時評論的需求直接促生了“彈幕”這一新鮮事物的出現(xiàn)。
彈幕原本是指射擊類游戲中密集的子彈如同幕布一樣,后被引申為直接顯現(xiàn)在視頻畫面上方流動的由觀眾發(fā)送的簡短評論,可以以滾動、停留甚至更多動作特效方式出現(xiàn)在視頻上。
國內(nèi)各類視頻網(wǎng)站使用技術(shù)整體上來說大同小異,都是采用在頁面布局中放置一個顯示視頻界面的窗口,然后在視頻界面的上方再覆蓋一個顯示彈幕的窗口的方法來實現(xiàn)的。彈幕的視圖框必須要做成完全透明的,這樣即使覆蓋在視頻界面的上方也不會影響到視頻的正常觀看。當(dāng)有人發(fā)彈幕消息時,后臺會記錄用戶發(fā)送彈幕時該視頻當(dāng)前播放的位置以及其他相關(guān)信息,其他人播放這個視頻時到了這個點就會將彈幕消息繪制到彈幕的窗口中。
在具體技術(shù)實現(xiàn)的過程中,各網(wǎng)站實現(xiàn)方法稍有不同,本文將以國內(nèi)最大的彈幕視頻網(wǎng)站嗶哩嗶哩網(wǎng)為例講解如何才能獲取彈幕數(shù)據(jù)。具體操作流程如下:
1.打 開 嗶 哩 嗶 哩 網(wǎng) 站 某 視 頻 頁 面 https://www.bilibili.com/bangumi/play/ep150705?from=search&se id=2565014256402977714。
2.在對頁面數(shù)據(jù)進行分析后了解到網(wǎng)站所有彈幕信息均保存在一個XML文件中,而要找到對應(yīng)的XML文件則需要獲取該視頻的cid碼。通過查看“網(wǎng)頁源代碼”,查詢到該視頻cid碼為27741148。
3. 根 據(jù) cid 碼 即 可 訪 問 頁 面 http://comment.bilibili.com/27741148.xml,獲得的該視頻的完整彈幕信息數(shù)據(jù)。
嗶哩嗶哩網(wǎng)站的彈幕信息由九個參數(shù)組成,以如下一條彈幕信息為例:
<d p="4708.47200,1,25,16777215,1521859641,0,fb2285 7f,4408203362">《史記》</d>
在對數(shù)據(jù)進行分析后,可將該條數(shù)據(jù)劃分為如下數(shù)值:
參數(shù)1:4708.47200;參數(shù) 2:1;參數(shù) 3:25;參數(shù)4:16777215;參 數(shù) 5:1521859641; 參 數(shù) 6:0; 參 數(shù) 7:fb22857f; 參 數(shù) 8:4408203362;參數(shù) 9:《史記》。
每個參數(shù)都有其含義,分別為:
第一個參數(shù)表示彈幕出現(xiàn)的時間,通常以秒數(shù)為單位;
第二個參數(shù)表示彈幕模式,有如下幾種模式:1至3為滾動彈幕,4為底端彈幕,5為頂端彈幕,6為逆向彈幕,7為精準(zhǔn)定位,8為高級彈幕;
第三個參數(shù)表示字號;
第四個參數(shù)表示字體的顏色,以HTML顏色的十位數(shù)為準(zhǔn);
第五個參數(shù)是Unix格式的時間戳,基準(zhǔn)時間為 1970-1-1 08:00:00。時間戳是一個能夠表示一份數(shù)據(jù)在某個特定時間之前已經(jīng)存在的、完整的、可驗證的數(shù)據(jù),通常是一個字符序列,唯一地標(biāo)識某一刻的時間;
第六個參數(shù)表示彈幕池,0為普通池,1為彈幕池,2為特殊池,特殊池是為高級會員用戶開放的高級彈幕專用彈幕池;
第七個參數(shù)是發(fā)送者的ID,用于實現(xiàn)“屏蔽此彈幕的發(fā)送者”功能;
第八個參數(shù)是彈幕在數(shù)據(jù)庫中rowID,用于實現(xiàn)“歷史彈幕”功能。
第九個參數(shù)是彈幕的內(nèi)容信息。
從第三節(jié)中的彈幕數(shù)據(jù)結(jié)構(gòu)分析中可以知道,彈幕在給觀眾提供參與感與實時評論功能的同時,還為視頻網(wǎng)站管理者提供了豐富的數(shù)據(jù)庫,在對彈幕池進行大數(shù)據(jù)分析可以獲得各種豐富和精準(zhǔn)的信息。在此,筆者將就彈幕數(shù)據(jù)的應(yīng)用價值進行探討。研究將以視頻網(wǎng)站管理者在進行實際用戶數(shù)據(jù)分析的過程中主要的關(guān)注點作為依據(jù)。
傳統(tǒng)電視媒體對于電視劇或綜藝節(jié)目的排行通常是依據(jù)電視臺統(tǒng)計的收視率排行的。網(wǎng)絡(luò)媒體則通常以點擊量為主要依據(jù),然而這一評定方法有一個最根本的問題就是可以依靠網(wǎng)絡(luò)工作室“刷點擊量”,而發(fā)送彈幕的過程不同于刷點擊量僅需要不斷刷新頁面的操作就可以完成,還需要對彈幕內(nèi)容進行編輯,客觀上增加了造假難度,因此在很大程度上,視頻的彈幕數(shù)量可以非常可觀的反映該視頻的熱度。
當(dāng)然,增加工作難度并不是說工作室沒有辦法刷彈幕量,但仍有其他方法可以對這種行為進行反制。例如嗶哩嗶哩網(wǎng)站,它要求用戶必須注冊會員并完成身份認(rèn)證才能夠發(fā)送彈幕,這使得工作室很難大量購買賬號,通過頻繁更換賬號的方式隱藏其操作。而彈幕的數(shù)據(jù)結(jié)構(gòu)中包含有“發(fā)送者ID”這一信息,只要通過對同一ID發(fā)送彈幕的數(shù)量進行統(tǒng)計,在一定程度上就可以將某些ID列為可疑用戶。為了實現(xiàn)更為智能的篩選功能,管理者還可以對嫌疑賬號發(fā)送的彈幕內(nèi)容進行比較,觀察是否為大量高度相似的內(nèi)容,從而完成進一步的甄別。當(dāng)然反過來說,管理者還可以通過對內(nèi)容進行統(tǒng)計,觀察是否有某些關(guān)鍵詞出現(xiàn)頻率超過了正常值,反向跟蹤可疑用戶賬號。在對可疑賬號或可疑內(nèi)容進行篩選剔除后,很大程度上就可以保證獲取到的數(shù)據(jù)為純凈數(shù)據(jù)了。
彈幕出現(xiàn)時間表示的是某條彈幕相對于視頻時間來說是在何時出現(xiàn)的。通常來說如果視頻內(nèi)容較為平淡,不能引起觀眾興致時,彈幕發(fā)送數(shù)量會較少,而在劇情內(nèi)容高潮部分或視頻內(nèi)容引起強烈關(guān)注時,彈幕數(shù)量將會激增,甚至可能出現(xiàn)爆發(fā)式增長。依據(jù)此原理,研究者可以通過對彈幕出現(xiàn)的時間進行累加統(tǒng)計,了解視頻內(nèi)容在哪些時間點引起了觀眾的強烈興趣,再對照該時間點的內(nèi)容,則可清晰掌握觀眾的興趣點在哪里。在對新聞類節(jié)目進行分析時,結(jié)果將具有更為重要的意義。依據(jù)結(jié)果,可以及時了解觀眾,特別是青年觀眾對于社會時事的關(guān)注點在哪里,如果還能對彈幕內(nèi)容進行大數(shù)據(jù)分析則能可更為清晰的了解青年的思想動態(tài),為開展意識形態(tài)教育提供重要參考。
彈幕數(shù)據(jù)結(jié)構(gòu)中的時間戳信息不同于彈幕發(fā)送時間,它表示的是彈幕以服務(wù)器后臺時間為基準(zhǔn)記錄的發(fā)送時間,與現(xiàn)實中使用的時間是相同的。該數(shù)據(jù)同樣具有非常重要的意義,在對某類型所有視頻的彈幕的時間戳信息進行計數(shù)統(tǒng)計后,視頻網(wǎng)站管理者可以了解該類視頻用戶在哪個時間段的活躍度是最高的,為幫助決策者確定該類廣告的投放時間提供了依據(jù)。更有甚者,可以根據(jù)用戶發(fā)送彈幕的時間段分析,制定點對點的定制化信息推送服務(wù)。
伴隨著信息化時代的來臨,人們的娛樂形式已經(jīng)發(fā)生了根本上的改變。彈幕這一視頻附屬娛樂形式的出現(xiàn)正是這場變革的重要產(chǎn)物。作為網(wǎng)絡(luò)視頻網(wǎng)站,如果坐擁彈幕數(shù)據(jù)信息這一重要的情報寶庫,卻不會加以分析和利用,則必然會迅速的脫離觀眾而為時代所拋棄。