張琰,黃霽風
(1.東南大學成賢學院,南京 210087;2.南京林業大學,南京 210037)
影視文化作品討論一直是網絡社區中的熱門板塊,觀眾在社交網站上對上映電影的影評不僅影響電影票房,也反映出觀眾的價值取向及網絡輿論的態度導向。以票房黑馬電影《我不是藥神》為例,采用PMI 算法對豆瓣網上的影評進行文本情感分析,試圖找出觀眾對這部電影的劇情、畫面、人物塑造、導演、音樂、演技及電影涉及到的社會熱點話題的情感態度。
豆瓣影評;文本情感分析;我不是藥神;PMI
近年來,我國電影市場蓬勃發展,越來越多的觀眾選擇走進電影院觀看電影,并在網絡上形成熱烈討論的氛圍。如近期熱門電影《我不是藥神》講述了神油店老板程勇從一個交不起房租的商販,變成為廣大白血病患者購買特效藥的故事,電影上映不到30 天,票房突破30 億,豆瓣評分8.9,網絡評論活躍。本文擬抓取豆瓣網上相關評論,采用詞頻統計方式提取關鍵詞,基于PMI 點互信息值計算進行評論文本情感分析,統計分析影片熱議話題點,及觀眾對這些話題點的情感傾向。
本文對網絡影評的分析從兩方面入手:①觀眾對電影質量的情感傾向分析。其中包括:劇情、畫面、人物塑造、導演、音樂、演技6 個因素;②觀眾對社會熱點問題的態度及價值取向分析。
中文文本的情感分析目前主流的方法大致分為兩種:①基于統計的方法;②基于機器學習的方法。基于統計的方法關鍵詞選取及詞匯情感極性計算都是基于語料統計分析得出,機器學習的方法通過建立詞匯分類模型自動判斷關鍵詞及情感極性。本文主要采用第一種方法,研究算法包括:
(1)詞頻統計法。統計某個詞匯在整篇語料庫中出現的次數。該方法主要用于評論熱議主題詞的提取,統計文本中所有名詞的詞頻,對出現次數較多的名詞進行人工篩選;
(2)基于PMI 的詞匯極性判斷。現有的情感詞典如HowNet、大連理工大學情感詞匯本體、臺灣大學情感詞典等都是通用詞典,在計算特定領域文本的情感極性時上述詞典的覆蓋率及準確率不盡如人意,因此本文采用PMI 點互信息值方式構建領域內專用詞典,統計影評中的形容詞,以大連理工大學情感詞匯本體詞典為依據,篩選種子詞集,并計算其余形容詞與種子詞的PMI 值:
PMI(x,y)=,其中,p(x,y)表示詞x、y一起出現的概率,p(x)表示詞x出現的概率,p(y)表示詞y出現的概率,形容詞的情感極性判斷采用SO-PMI 算法 :SO=PMI(w,w1)-PMI(w,w) ,若SO∈[σ1,σ2],σ1=-σ2為某一閾值,則該詞為中性詞,SO≥σ2為褒義詞,SO≤σ1為貶義詞。
(3)句子情感極性判斷。本文在計算句子情感極性前首先提取句子主干,保留主語、謂語及表示情感極性的形容詞與副詞,對每一句話進行情感極性分值計算。句子在不出現轉折詞、否定詞的情況下,情感值為句中所有情感詞極性值之和;若句中包含后一位的情感詞極性值乘以-1 后再加和;若句中包含轉折,如“即使劇情落入俗套,卻足夠動人”這樣出現前后極性相反的表達,需采用人工方式判斷情感取向。
(1)數據抓取。使用八爪魚在豆瓣網上抓取兩部分評論:300 字以內短評351 條;影片評論長文刪除重復評論后共計5076 條。
(2)數據預處理。短評數據保留短評內容,影評長文保留標題、正文,合并成一個文件“comments.txt”,并以句號、問號、感嘆號等為分隔將評論段落切分為句子,得到評論句95164 條。
(3)篩選電影質量評論關鍵句。以電影質量6 因素為關鍵詞篩選關鍵句共計11928 條,占評論總數的12.5%,其中,包含“劇情”的關鍵句4872 條,占5.1%;包含“畫面”的關鍵句1455 條,占1.5%;包含“人物”的關鍵句4535 條,占4.8%;包含“導演”的關鍵句1743條,占1.8%;包含“音樂”的關鍵句282 條,占0.3%;包含“演技”的關鍵句1111 條,占1.2%。
(4)對電影質量評論關鍵句的情感分析。首先,采用Python 結合jieba 分詞,對評論句進行分詞及詞性標注,篩選出表轉折、否定的副詞共計36 個,篩選出形容詞詞集與大連理工中文情感詞匯本體庫進行比對,確定種子詞784 個,如表1 所示1 表示褒義,2 表示貶義,0 表示中性。其次,采用基于SO-PMI 算法計算形容詞的情感極性,并對不同σ閾值下分類結果進行評估,在σ1=-1,σ2=1時各項指標值最大,準確率為51.5%,召回率為93.4%,F 值為66%,計算了942 個情感詞匯。結果如表2 所示,褒義詞662 個、貶義詞510 個、中性詞524 個、未分類詞30 個,共計1726 個情感詞匯。

表1 電影評論句中的情感詞、種子情感詞、副詞統計(部分)

表2 電影評論句中的情感詞匯極性分類數量統計
將1726 個情感詞作為關鍵詞在電影質量評論中篩選關鍵句,并進行句子情感計算,其中有關“劇情”的關鍵句1171 條,褒義句394 條,貶義句154 條,中性句623 條;有關“畫面”的關鍵句129 條,褒義句54 條,貶義句45 條,中性句30 條;有關“人物”的關鍵句2103條,褒義句762 條,貶義句167 條,中性句1174 條;有關“導演”的關鍵句1116 條,褒義句486 條,貶義句8條,中性句546 條;有關“音樂”的關鍵句150 條,褒義句64 條,貶義句29 條,中性句57 條;有關“演技”的關鍵句559 條,褒義句504 條,貶義句30 條,中性句25 條。
(5)對社會熱點問題的態度及價值取向分析。本文主要從“電影人物”及“高價藥”這兩方面入手,分析觀眾對“程勇”、“黃毛”、“呂受益”、“張長林”、“思慧”這幾個主要角色以及特效藥“格列寧”的態度及觀點,篩選包含上述6 個詞匯的關鍵句,分別進行詞頻統計,表3 中顯示了排名靠前的二級關鍵詞。重復步驟4 中句子情感極性計算,表4 統計了各主題詞評論句的褒貶數量,共計1168 條關鍵句。

表3 主要人物及特效藥的二級關鍵詞(部分)

表4 社會熱點問題評論關鍵句極性分類數量統計
在關鍵句極性分析基礎上,進一步統計這6 個熱議主題詞的情感詞詞頻,列出出現次數較多的情感詞,分析觀眾對這6 個主題詞具體的意見及態度,如表5所示。

表5 社會熱點問題評論句情感詞詞頻統計(部分)
(6)分析與結論。本文通過對豆瓣網上的電影評論進行情感分析,挖掘觀眾對《我不是藥神》電影的總體評價,具體體現在:
①對電影拍攝質量方面的評價較高。電影質量評價因素按觀眾褒義句占比由高到低排列依次是演技、導演、音樂、畫面、人物和劇情,比例分別為90.2%、43.5%、42.7%、41.9%、36.3%、33.6%。
②觀眾觀影后討論最熱門的主題有:討論最多的“人”按統計詞頻由大到小依次為程勇、黃毛、呂受益、張長林、思慧;討論最多的“事”為白血病、生活、病、走私、公司、賣藥、醫院、價格;討論最多的“物”依次排列為藥、錢、假藥、藥品、藥物、格列寧、口罩;另外熱議詞匯中還誕生了本電影專有詞匯“藥神”、“窮病”。
③觀眾對電影幾個主要角色的評論表現出人物特征的復雜性與矛盾性。例如對男主角的評論總體積極評論多于消極評論,觀眾認為程勇即是一個“善良”、“偉大”的人,又是一個“自私”的人,而對消極評論較多的人物張長林認為他即“自私”、“狡猾”又“仗義”,這樣的評論分析結果說明了電影塑造的角色特征不是單一的、一成不變的,而是多層次的、復雜的、隨著劇情的發展而變化的。
④觀眾對電影主要角色展開討論的主題呈現共性與個性共存的特點。對5 位主要角色討論較多的共同話題主要有“病人”、“白血病”、“藥神”、“病友”、“牧師”,還有電影中的細節“橘子”與“口罩”;個性話題主要有程勇的“走私”、“神油”,黃毛“回家”的劇情及最后成為“淚點”,呂受益的“妻子”,張長林爭奪“代理權”及提出“窮病”的概念,思慧作為“單親”媽媽為“女兒”治病而去跳“鋼管舞”的經歷,同時她也是病友的“群主”。
⑤觀眾對幾個主要角色評價最高的是黃毛,其評論的褒義句占比達63.1%,貶義句占比僅2%,認為黃毛是“善良”、“仗義”、“年輕”、“簡單”而“倔強”的;其次是思慧,評論的褒義句占比61.4%,貶義句占比5.9%,認為思慧是“尊嚴”、“善良”、“平靜”、“偉大”、“豐滿”而“艱辛”的;評價最差的是張長林,褒義句占比20.6%,貶義句占比38.1%,認為他是“自私”、“仗義”、“復雜”、“無恥”、“私利”而“狡猾”的;主要角色之一“牧師”在關鍵詞分析時詞頻數并未排在前列,但在主要人物二級關鍵詞中均有出現。
⑥觀眾對特效藥格列寧的態度沒有明顯的褒貶區分。談及格列寧時,評論中褒義句占比21.2%,貶義句占比2%,而占比最大的為中性句76.5%,格列寧的情感詞詞頻統計結果也呈現矛盾性,“便宜”與“昂貴”出現次數都很高。
本文采用詞頻統計與PMI 算法分析豆瓣上《我不是藥神》的觀眾評論,以獲得分布廣泛、數量眾多的觀眾觀影感受,比調查問卷更真實、客觀反映觀眾內心想法,并經過統計分析挖掘觀眾對電影中反映的社會現象的熱議點,及觀眾對這些社會現象的態度、價值取向。