鄒墨馨,辛雨璇
(牡丹江師范學院 計算機與信息技術學院,黑龍江 牡丹江 157000)
在當今網絡高速發展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數據也可能存在限制,因此無法準確搜集得到有關該影視作品的有價值信息。隨著時間的流逝,影評數據具有大數據規模,比如在動態彈幕的評論數據中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導致無法準確對電影做出整體評價。因此,本文在基于大數據的背景下,采用文本挖掘技術[1]對彈幕文本數據進行爬取,從而找到海量評論下隱含的情感問題。
本文的數據來源于某視頻的彈幕文本,首先對網頁進行頁面分析,找到網頁發送彈幕的異步請求包,并分析目標網頁的URL變化,通過觀察分析發現頁面遵循的規律,利用變化規律就可以快速實現數據的分段爬取處理。其次對目標網頁結構進行分析之后,找到數據的接口,由于網頁返回的數據是JSON格式,我們可以利用json.loads對數據進行直接解析,最后進行數據的存儲。其中存儲的數據內容包含用戶名、會員等級、評論內容等字段。
其中數據清洗[2]是情感分析中的一個重要環節,主要是對原始數據進行處理。比如:缺失值的處理、重復值的處理等。首先把數據全部讀取進來,然后把讀取完成的數據進行去重處理、表情刪除等清洗,最后將清洗之后的數據重新進行存儲,共計處理了4萬多條彈幕文本數據。
數據獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進行數據可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進行可視化展示。
電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數據點來表示單個數據值。根據評論的時間段,讓有關數量之間的關系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現折線圖的設計。電影情感計算值折線圖如圖1所示。
圖1 電影情感計算值折線圖
電影評論分析詞云圖首先要對爬取的評論信息進行處理,使用jieba.cut()方法把文本進行分詞,然后進行文本的分析,根據詞語出現的次數生成詞頻統計,最后在wordcloud模塊,設置詞云圖顯示詞語的個數、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。
圖2 電影評論分析詞云圖
Bi-LSTM模型是一個雙向的LSTM結構,該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網絡連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產”“國產”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網絡,然后分別進行獨立計算,最后在一起合并輸出[4]。其中在基于更加細粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進行情感極性類別分類時有更好的判斷能力,可以計算出準確的情感傾向相應的分值。
圖3 基于Bi-LSTM的情感分類模型
在20世紀90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結構,分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權重矩陣。其中LSTM模型單元結構如圖4所示。
圖4 LSTM模型單元網絡結構
網絡內部記憶單元:
本文利用python網絡爬蟲技術爬取的原始彈幕數據共計46441條,經過一系列數據的預處理之后,得到的數據為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。
本文首先對彈幕文本數據進行讀取,然后進行一系列數據清洗、分詞等操作之后,把處理好的彈幕文本數據通過Bi-LSTM的情感分類模型進行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。
表1 情感傾向分值表
通過計算分析發現該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態度。情感分值的發展趨勢則是從視頻剛開始表現升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質感以及所想要傳承的中國傳統文化精神等各個方面都表現的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產動漫的巨大進步,背后都是工作人員的辛苦付出,才會收獲現在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節產生不滿,所以評論用戶對此發表了一些比較消極的評論。
本文將基于文本挖掘技術進行彈幕文本分析,通過對彈幕文本數據的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網絡爬蟲技術對彈幕文本進行爬取,經過一系列數據預處理之后,進行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進行情感分類處理,最后計算出情感傾向性分值。目前,在大數據的背景下,對于用戶選擇哪部電影是否值得進行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。