摘 要:彈幕作為視頻網站與用戶互動的新興媒介,具有一般評論不可具有的實時互動性。同時彈幕更多是用戶基于視頻場景的共鳴,富有情緒化。本文嘗試利用彈幕的情感分析技術,結合群體智慧,利用協同推薦,更好內容與用戶。
關鍵詞:彈幕;互動;情感分析;協同推薦
一、引言
彈幕(barrage),類似于小說中行間彰顯的夾批,它是視頻中屏間飄過的評論點,是用戶在觀看視頻網站時候所產生的基于視頻內容所產生用戶評論。大量吐槽評論從屏幕飄過時效果看上去像是飛行射擊游戲里的彈幕。
彈幕評論具有一般評論不可具有的實時性,更能準確的具體反應用戶在觀看視頻的即時情感和褒貶評價。
現有的關于彈幕的研究主要集中在文化價值定性的研究上,研究多從彈幕本身的形式和功能入手,研究用戶的動機和行為,關于彈幕作為評論的量化分析的研究少有。文本情感分析方面,研究對象的選取主要是商品評論、微博文本等常見文本,對彈幕文本在情感分析方面的關注度尚有不足。對于用戶的個性化推薦,主要集中在于收集用戶的個人信息,了解用戶的偏好選擇,并根據用戶需求即時的調整推薦內容和服務方式更好滿足用戶的需求。這樣就忽略了群體智慧和結晶,如果能夠結合群體智慧,結合人的社會屬性,同時挖掘單個用戶之前的產生的信息基礎之上,使兩者有機的結合起來,這樣就可以更好,更合理利用大眾智慧為用戶提供更加合理化的推薦策略。
二、數據處理及研究方法
(一)數據處理和研究方法框架
1.數據來源
首先是彈幕數據的選取,選取的是《爸爸去哪兒》這一綜藝節目第四季共13集所有集數的彈幕。
2.選取數據來源理由
(1)全面性(2)唯一性(3)可得性
個人用戶評論數據的選取,由于優酷對于個人彈幕用戶的數據保護,無法抓取個人的彈幕數據,所以選取的是豆瓣網上兩位用戶的影視評論數據作為替代。
(二)推薦指數計算
通過對《爸爸去哪兒》第四季彈幕進行特征級別情感分析,主要是通過統計評價對象中正負面信息的數量,進而發現大眾對于明星真人秀節目要素的認可度。同時收集個人用戶的評論信息,通過對評價對象的詞頻統計了解該用戶收視需求所關注的主要元素。因此,通過統計評價對象的詞頻數可以發現用戶的關注興趣,利用每個屬性占所有詞頻統計的百分比作為推薦指數的權重wi。
(三)數據處理和操作
使用python在“優酷”視頻網站中爬取綜藝節目《爸爸去哪兒》(第四季)中所出現彈幕文本數據。
對所得文本數據進行預處理操作:
彈幕短文本:口語化,用詞不規范,自稱體系。因此需要構建彈幕情感詞典。
借鑒鄭飏飏等處理彈幕文本的方法,對所得文本數據進行預處理操作:隨機抽取彈幕文本10000條,使用分詞工具python結巴分詞完成彈幕去除停用詞,添加自定義詞典,進行分詞、標注詞性等工作。
通過觀察彈幕數據,我們從形容詞、動詞和感嘆詞中詞語選取具有明顯情感傾向進入彈幕情感詞典,并將其分為正向情感詞和負向情感詞。
正向情感詞:666,可愛,親和等,負向的情感詞,不好看差評等。
從名詞中抽取明星真人秀的節目要素,首先參考姜霖,對于一般藝術作品的研究分類,將其分為內容、形式、價值、三大類。
結合豐家喜對于明星真人秀研究,按所得詞詞義、筆者理解等將其分為服裝、廣告、后期、情節、人物、剪輯、拍攝,等共計7類節目要素特征。
在彈幕情感詞典中,根據正向或負向的情感分類分別對彈幕文本中的每個情感詞予以1或-1的分值,根據節目要素詞典,將彈幕文本中的相應關鍵詞替換為對應的節目要素,統計節目要素詞的正向負向的次數,記為QP表示節目要素正向(Positive)的個數,QN表示節目要素負向(Negative)的個數。通過對彈幕文本的抽取替換處理,將完成賦值的彈幕文本數據按照節目要素詞進行分類,統計次數,通過對統計數據的分析,發現《爸爸去哪兒》彈幕的正面評價多于負面評價,這樣符合其在豆瓣平臺上的7點多的評分。
同時我們通過網絡爬蟲采集豆瓣網上兩位用戶的評論信息進行節目要素特征進行詞頻統計。我們選取的兩位豆瓣用戶中“柏邦妮”是知名度較高的業余影評人,共發表評論 307 篇;福根兒,是一名愛好電影的普通用戶, 發表了 48 篇電影評論。對于兩位用戶的評價對象進行詞頻統計,統計相應的對象以及他們所占的權重Wi。
在對人物評價對象進行詞頻統計時考慮到真人秀節目主要是該季的明星嘉賓相對較窄,而個人影視人物評價相對較廣,通過對分詞的詞性標記,從名詞中抽取人物名稱包括演職人員和電影中的人物角色,通過人工篩選并對其進行詞頻統計構建評價詞典。其余評價對象借鑒明星真人秀綜藝節目詞典進行詞頻統計。
通過分析結果我們發現柏邦妮和福根兒對于人物都比較關注,而其他評價對象的關注各有所不同。
然后我們將統計出來的權重帶入到推薦指數的計算公式中,這樣就可以算出整季《爸爸去哪兒》的推薦指數,以及單集的推薦指數。
三、結論
綜上結果所述我們發現:
1.人物方面
人物所占比重最高,不論是彈幕內容,還是用戶個人影評,說明人物對于明星真人秀的重要性。節目組要重視明星人選,好的明星人選是收視的保障。
2.節目情節方面
我們發現彈幕用戶群體負向情感略高于正向情感,說明節目情節設計需要改進。
節目情節設計,最能引起觀眾情緒波動。而《爸爸去哪兒》經過幾季的播放,觀眾對于嘉賓參與節目情節已經很熟悉,同時基于真人秀節目即時性特點,要最大限度保證節目情節的真實有趣,所以需要對現有的節目情節進行改造和創新,如此一來才能提高觀眾對節目的正向口碑,有利于節目進一步的傳播發展。
3.廣告方面
我們發現其正向的情感高于負向情感,這與我們平時所想的有所出入,說明適當而有趣的廣告植入能讓觀眾減輕抵觸情緒,甚至能引起觀眾的好評。觀眾通過發彈幕等形式,無形提高了商家品牌知名度,明星真人秀節目的運營也需要一定的贊助商支持,這樣實現節目方、廣告商、觀眾等的多方共贏局面。
同時我們嘗試結合用戶的個人發表評論信息,了解用戶的關注點,將用戶喜歡的內容推薦給用戶,減少用戶信息檢索難度,提高用戶的滿意度,也增加節目內容播放量和認可度。
參考文獻:
[1] 張? 帥,王文韜,周華任,et al.基于扎根理論的彈幕視頻網站用戶使用行為驅動因素研究[J].情報理論與實踐,2018,v.41;No.294(07):121-126.
[2] 陳? 一,曹圣琪,王? 彤.透視彈幕網站與彈幕族:一個青年亞文化的視角[J].青年探索,2013(6):19-24
[3] 杜嘉忠,徐? 健,劉? 穎.網絡商品評論的特征-情感詞本體構建與情感分析方法研究[J].現代圖書情報技術,2014(5):74-82
[4] 張紫瓊,葉? 強,李一軍.互聯網商品評論情感分析研究綜述[J].管理科學學報,2010(6):84-96.
[5] 鄭飏飏,徐? 健,肖? 卓.情感分析及可視化方法在網絡視頻彈幕數據分析中的應用[J].現代圖書情報技術,2015(11):82-90
[6] 姜? 霖,張麒麟.基于評論情感分析的個性化推薦策略研究——以豆瓣影評為例[J].情報理論與實踐,2017(08):103-108.
[7] 豐家喜.明星真人秀節目要素分析[J].人民論壇,2016(2):189-191.
作者簡介:
劉奧運,2016級管理科學工程碩士。