基于視頻彈幕的特征發現及情感分析研究

2022-02-22 12:20:34王力

計算機技術與發展 2022年1期

王力

(1.中國科學技術信息研究所，北京 100038；2.富媒體數字出版內容組織與知識服務重點實驗室，北京 100038)

0 引言

彈幕源自日本視頻分享網站“NICONICO”，這種大量實時產生的評論能夠以滑動的方式直接顯示在視頻界面上，像射擊游戲中的彈幕，故被網友稱之為彈幕。隨著數字媒體技術的發展，越來越多的用戶傾向于通過這種方式觀看網絡視頻并發表自己的見解。這種互動機制可有效改善平臺的用戶參與度，提高視頻的點播率及影響。彈幕評論中蘊含著豐富的情感信息，特別是對于電子產品評測視頻的彈幕中還包含著大量的用戶痛點信息。這些信息一方面反映了用戶觀看時的褒貶情感，另一方面也可用于企業的決策支撐。從主題上看，彈幕網站及視頻傳播模式、彈幕文化以及彈幕用戶特征是當前彈幕的研究重點。有很多學者都基于使用與滿足理論對彈幕進行分析。從彈幕文化上看，學界普遍認為亞文化、狂歡廣場和參與式文化是其主要特點。而從用戶的角度看，學者們研究圍繞著用戶使用動機、使用習慣以及影響用戶發彈幕因素等展開。還有學者從不同維度對彈幕語言進行了分類，以上都是基于定性方法的研究。隨著計算機技術的發展，統計學、人工智能方法被慢慢應用到了彈幕文本分析領域，很多學者也意識到，彈幕中隱含著大量顯性和隱性的知識。使用定量方法可以完成更深層次的研究。早期的彈幕文本研究借助于短文本情感分析方法，研究成果也普遍應用于視頻檢索。

隨著深度學習的發展，一部分學者將神經網絡引入到彈幕的研究中。莊須強對LSTM深度學習模型進行改進，將主題集中度和情感強度相結合定義為視頻片段重要性評分，從而構建SIS-LSTM模型，應用于彈幕評論的情感分析。梁晨將彈幕評論和視頻評論分別做情感分析并將結果進行對比，探究對網絡視頻流行度的影響差異。王瑞東利用多模態情感分析方法實現視頻片段情感分類。葉健通過爬取事件型彈幕數據，用CNN進行情感分類，從而得到輿情分析結果。鄧楊利用主題模型分析彈幕情感因子，并根據視頻片段之間的情感依賴關系推薦視頻的情感片段。洪慶分析彈幕內容之間的相似性，從而推斷用戶之間的關系。邱全磊構建了彈幕表情和語氣詞詞典，提出了一種基于該詞典的情感計算方法。

從現有研究中可以發現，缺乏對特定領域彈幕特點的定量化研究；在彈幕的情感分析研究中，使用的多為基于情感詞典的方法或采用簡單的情感分析模型。針對這兩個問題，該文使用定量化的手段分析電子產品評測視頻彈幕文本特征，在此基礎上提出BILSTM-CNN-ATT情感分析模型并進行對比實驗。實驗結果表明，該模型在電子產品評測視頻的彈幕評論中具有良好的情感分析效果。

1 相關工作

1.1 相關關系計算

統計分析方法是對研究對象的規模、速度、范圍等數量關系進行分析和研究，以此揭示事物間的關系、變化和發展。在統計學中，當衡量兩個變量的相關關系時，通常采用皮爾遜相關系數法。皮爾遜相關系數的大小可以反映兩個變量間線性相關程度的強弱，當皮爾遜相關系數越接近1時，說明兩個變量間線性相關程度越大。

1.2 詞向量構建

詞向量是以深度神經網絡技術和全網海量優質數據為基礎，讓文本的計算通過詞語的向量化來實現，從而可以很好地描述詞語間的關系，是自然語言處理中非常重要的一個環節。目前詞向量表示法包括早期的獨熱表示、TF-IDF等，以及分布式表示法，如Word2Vec、ELMo等。Word2Vec是一個具有隱含層的神經網絡，該模型將詞表達為固定維數的詞向量。模型框架根據不同的輸入和輸出，又可以分為skip-gram和CBOW模型。如果將一個詞作為輸入來預測這個詞的上下文，則為skip-gram模型。反之，輸入是某一個特征詞的上下文相關的詞對應的詞向量，而輸出就是這特定的一個詞的詞向量，則是CBOW模型。和CBOW模型相比，skip-gram調整的詞向量相對更加準確。

1.3 深度學習模型

深度學習是一種復雜的機器學習算法，其模型是一種具有多層結構的神經網絡。它通過將低層特征進行組合形成更加抽象的高層特征表示屬性類別和特征，進而發現數據的分布式特征表示。在搜索技術、機器翻譯、語音和圖像識別等相關領域都取得了卓越成果。深度學習中包括多種簡單或復雜的模型，適用于解決不同類型的問題。

1.3.1 BILSTM(雙向長短期記憶網絡模型)

LSTM的全稱是Long Short-Term Memory，它是RNN的一種衍生網絡模型。它通過引入特別設計的記憶結構和單元，有效緩解了RNN中描述長距離文本依存關系中面臨的梯度消失問題。LSTM由于其設計的特點，非常適合用于對時序數據的建模。但一個詞在文中，既有上文又有下文，LSTM雖解決了上文語義依賴的問題卻忽略了下文。研究人員提出了BILSTM(雙向長短期記憶網絡模型)彌補了深度學習中下文信息的缺失，它是由一個正向LSTM和一個反向LSTM疊加而成，具備良好的神經網絡擬合非線性的能力，可更好地捕捉上下文的信息。

1.3.2 CNN(卷積神經網絡)

卷積神經網絡是一種以圖像識別為中心在多個領域都得到廣泛應用的深度學習方法。由輸入層(input layer)、卷積層(convolution layer)、池化層(pooling layer)、全連接層(fully connected layer)和輸出層(output layer)組成。其中，卷積層是該模型的核心，卷積核用于提取內部特征。池化層的作用是減小卷積層產生的特征圖尺寸。全連接層則是將之前提取到的特征綜合起來，用于后續輸出計算。

1.3.3 ATTENTION(注意力機制)

注意力機制是模仿人識別物體時的注意力焦點的數學模型。其核心目標是從眾多信息中選出對當前任務目標更關鍵的信息。注意力機制可以通過結構化選取輸入的子集，降低數據維度，進而提高計算機處理效率和輸出質量，適合于推理多種不同模態數據之間的相互映射關系。

2 基于BILSTM-CNN-ATT的彈幕特征發現及情感分析模型構建

該文提出的彈幕特征發現及情感分析模型研究框架如圖1所示。

圖1 研究框架示意圖

2.1 統計分析

該部分主要功能是用統計分析方法挖掘彈幕文本的自身特征，并利用圖表等可視化方式進行結果展示。計算彈幕文本長度和數量的皮爾遜相關指數，分析出二者之間的相關性。將彈幕文本長度和數量之間的皮爾遜相關系數定義為這兩個變量之間的協方差和標準差的商：

(1)

通常情況下，通過以下相關系數取值范圍(見表1)判斷變量的相關強度。

表1 相關關系

將每條彈幕評論文本的長度記為

，彈幕數量記為

，按照公式(1)先分別計算兩個變量之間的協方差和標準差，二者的比值即為皮爾遜相關指數，對照表1分析兩個變量之間的相關強度。綜合統計分析結果，得到彈幕文本特征相關結論。

2.2 文本向量化

該部分的目的在于將彈幕文本轉化成機器可以處理的數據，該部分得到的結果是后續實驗的基礎。本模型中詞向量表示的數據有兩個來源。一是爬取的彈幕實驗數據，二是已經標注好的50余萬電商(作為預訓練的中文語料)評論。為保證結果更精準，選擇了Word2Vec中的skip-gram模型。采用One-hot對輸入和輸出詞進行處理，將預處理后的文本數據集中的每條語句描述為

(1),

(2),…,

(

),…,

(

)}，以第

個詞為中心詞，經skip-gram模型處理后，用

(

))表示文本數據中心詞

(

)，用Content(

(

))表示中心詞

(

)上下文的詞向量，詞向量記為(

(

))，Content(

(

)))。skip-gram模型如圖2所示。

圖2 skip-gram模型

2.3 BILSTM-CNN-ATT模型

該部分是本實驗的主體，由BILSTM(雙向長短期記憶網絡模型)、CNN(卷積神經網絡模型)和ATTENTION(注意力機制)組合而成。前模型的輸出為后模型的輸入，過程中輸入輸出的維度保持不變。利用BILSTM和CNN充分采集彈幕文本語義全局特征和局部特征，利用注意力機制提取更深層次的特征向量，最后通過softmax層輸出。具體如圖3所示。

2.4 彈幕情感傾向計算

該部分通過結合數量計算及可視化的方法得到視頻中彈幕的情感走向，從而更全面地了解彈幕的情感變化信息。即處在一個區間內的所有正向情感-負向情感的絕對值，再除以該區間的所有彈幕數量。情感計算的公式為：

(2)

其中，

為某個時間區間內彈幕的數量。

圖3 BILSTM-CNN-ATT模型示意圖

3 實驗

3.1 數據來源

文中的數據采集方法為，在bilibili網站以“華為p30”為搜索關鍵詞，以“最多彈幕”、“10-30分鐘”、“數碼區”為篩選條件，選擇排名前100的視頻分別對彈幕和視頻評論進行爬取。共有彈幕9萬2千余條。

3.2 彈幕文本特征

3.2.1 彈幕文本長度特征

隨機選取10個視頻，統計彈幕長度分布情況(見圖4)。實驗結果表明視頻彈幕的長度具有一致性，多數集中在1～15之間。分布較穩定，且以不多于15字的短文本為主。對彈幕長度和數量進行統計，計算皮爾遜系數為-0.680 981 3，說明彈幕長度和彈幕數量呈負相關關系，即彈幕長度越長，彈幕數量越少。

圖4 彈幕長度分布示意圖

3.2.2 彈幕文本時間特征

隨機選擇四個彈幕數量較高的視頻，其彈幕在視頻中出現的時間如圖5所示(注：時間間隔為1秒)。從圖中可以觀察到，彈幕的出現時間具有陣發性，在標號av-50661583視頻中表現尤為顯著。

圖5 彈幕出現頻率示意圖

3.3 彈幕文本情感分析

3.3.1 實驗數據及預處理

實驗數據是將采集到的9萬2千余條彈幕數據通過哈工大LTP進行分詞，并去除停用詞。通過Word2Vec中的skip-gram模式對詞進行向量表示。接著使用已經標注好的50余萬電商評論構建詞向量，挑出其中正向、負向評論各1萬余條作為短文本情感分類器的訓練語料庫。

3.3.2 實驗平臺

本次實驗所使用的計算機配置如下：處理器為英特爾酷睿 CPU i5-8400，CPU頻率為2.80 Hz,內存為24.00 GB；操作系統為Windows 10(64-bit)；程序設計語言為Python 2.8.0。

3.3.3 評價指標

文中采用準確率(precision)、召回率(recall)以及F值作為實驗結果好壞的評價指標，具體定義如下：

(3)

(4)

(5)

其中，TP為預測是正面情感，實際也是正面情感的彈幕數量；FP為預測是正面情感，實際卻是負面情感的彈幕數；FN為預測是負面情感，實際卻是正面情感的彈幕數量。

3.3.4 實驗結果及分析

文中采用的是在雙向循環神經網絡和卷積神經網絡融合的基礎上增加了注意力機制的深度學習情感分析模型。在對數據預處理的前提下，將處理好的彈幕數據輸入到訓練好的情感分析模型中。為進一步驗證該模型的有效性，文中進行了9組對比實驗，包括CNN、LSTM、LSTM-CNN、LSTM-ATT、LSTM-CNN-ATT、BI-LSTM、BILSTM-CNN、BILSTM-ATT和BILSTM-CNN-ATT。實驗結果如表2所示，包括precision、recall和F值。從表2可以發現，BILSTM適于處理彈幕這種時間序列數據，有效捕捉彈幕的全局特征。CNN模型可彌補局部特征不足的缺陷。在BILSTM-CNN融合模型的基礎上引入注意力機制可有效捕捉句子中的詞，優化情感分析任務，從而得到更好的實驗結果。實驗結果表明，基于BILSTM-CNN-ATT的模型可很好地對電子產品評測彈幕進行情感分類。

表2 9種深度學習模型實驗結果比較

基于本實驗構建的模型和實驗數據，以視頻av48982400為例，繪制了該視頻的情感走向圖(見圖6)。從圖中可以發現，該視頻用戶彈幕評論整體呈正向情感，在關鍵節點具有較強烈的負面情感。

圖6 彈幕情感傾向示意圖

4 結束語

對彈幕做定量研究可得到更客觀全面的結論。統計方法可以發現不同變量之間的相關關系。深度學習模型可得到較精準的彈幕評論情感分析結果。該文首先統計了電子產品評測視頻的彈幕評論長度，并計算了彈幕長度和彈幕數量之間的皮爾遜指數，實驗結果表明這兩個變量之間呈負相關關系。接著提出了BILSTM-CNN-ATT情感分析模型，該模型通過BILSTM和CNN充分采集彈幕文本語義全局特征和局部特征，接著利用注意力機制提取更深層次的特征向量。為進一步驗證模型有效性，該文進行了9組對比實驗，實驗結果表明在電子產品評測視頻的彈幕評論情感分析任務中，和別的模型相比，該模型可提供更好的支撐。不足之處在于，該方案僅適用于電子產品評測視頻的彈幕評論，對于其他類別的彈幕知識挖掘任務效果還不得而知。未來的工作中，可嘗試將該方案應用于其他類別的實驗數據上，并針對實驗結果提出相應的改進方案。