孫瑞安,張云華
(浙江理工大學 信息學院,杭州310018)
隨著現代互聯網的發展,越來越多的人在網絡上尋找消磨時間的娛樂方式,其中就包括了帶有趣味的彈幕視頻——有彈幕飄過的視頻。彈幕最初出現在日本niconcio視頻網的視頻里。之所以叫彈幕,是因為其就像子彈一樣密集地在視頻上飄過,網友借此發明視頻彈幕這一網絡詞匯。人們可以使用彈幕發表對某一情節的看法和評論,也可以借用彈幕對一些電影進行背景介紹,讓新來的觀眾對電影有一定的了解,方便決定自己是否要繼續看下去。而有些視頻的語音是外語的,而且沒有提供字幕,這時候就有熱心網友使用底部彈幕的形式制作中文字幕方便別人的觀看。可以看出,彈幕作為一種新型網絡文化有一定的趣味性和實用性。但是,當有人利用彈幕發布與視頻無關的信息,比如廣告、貶低別人的話語,又或者發布遮擋字幕的底部彈幕,就會影響他人的觀看,甚至形成不好的社會風氣,造成惡劣的后果。所以,對垃圾彈幕進行過濾是一件急需落實的措施。目前的彈幕過濾方法一般是使用關鍵詞進行識別過濾。該方法將彈幕評論與關鍵詞進行對比,如果匹配成功,則屏蔽該彈幕;否則不屏蔽[1]。在使用關鍵詞進行垃圾彈幕過濾時,需要與時俱進更新新的屏蔽詞,無形中又增加了時間及人力成本。所以,只使用關鍵詞進行過濾,不僅效率較低,其準確率也不高。為了提高垃圾彈幕的識別和過濾效率,本文提出了一種結合AdaBERT自適應結構的TextCNN垃圾彈幕識別和過濾算法?!?br>