汪 韜 張再躍
(江蘇科技大學 鎮江 212003)
電影評價文本信息是觀影者接觸較為廣泛的網絡文本信息形式,是觀眾了解電影動態、把握劇情梗概的重要手段之一。電影產品是我們生活中一種較為特殊的商品。在用戶觀看電影的過程中,觀看用戶在視聽方面的親身體驗將影響其他用戶對電影產品的消費,因此電影產品如果在用戶中評價良好將會吸引很多潛在顧客。網絡評論信息由于實時性非常強,如果對于負面評價不及時響應,往往對即將上映或者正在熱映的電影造成負面影響,所以在電影宣發過程中十分重視電影網絡評價的主動引導[1]。分析這些數量巨大的評論需要一種有效的方法,每一個觀看電影的用戶根據自己觀看電影的感受對電影進行評論,電影宣傳方針對這些評論去挖掘出用戶真實的情感傾向,就可以幫助電影的宣傳方找出電影宣傳方向中存在的不足,及時采取相應的補救措施,從而可以提高潛在觀影者的期待度,為企業產生有價值的信息,吸引觀眾觀看[2]。
對于電影廠商與電影宣傳單位,電影觀眾的觀后評價數據一般在相應的互聯網平臺上展示出來。廠商可以通過分析這些評價數據來判斷用戶的電影喜好,從而避免花費大量的人力物力去做問卷調查。通過現代化的數據挖掘、情感提取分析來分析觀影用戶的評論、喜好和行為[3],能夠幫助電影廠商確定電影的方向和提高電影的質量。例如,各大制片商通過在電影評論區的內容信息,采用相關技術分析數據中隱藏的價值信息,如用戶在電影類型、電影劇情、演員陣容等方面的意見和建議,為制片商確定觀影者類型與情節喜好,選擇能取得更多觀眾喜愛的演員陣容,并根據分析得到的結果為以后的電影拍攝提供參考,真正把握市場動向,從而提高影片票房[4]。
對于普通觀影者,當前經濟社會飛速發展,每天都會有大量國內外各語種、各類型的電影大片發布,數量如此多的電影,讓觀眾應接不暇。網絡上其他觀影者的評論信息成為潛在觀眾獲取電影評價信息的重要渠道,同時這些用戶的評價也是其他消費者選擇影片時的參照,直接影響潛在觀影者是否選擇觀看這部電影。越來越多的觀影者在決定是否看某部電影前,會主動瀏覽關于此部電影的各方面評價,包括演員陣容、劇情、畫面效果等[5]。評價不好的電影就沒有花錢買罪受的必要,而口碑票房俱佳的電影必將成為茶余飯后的談資,必須去刷,電影評論成為選擇是否觀看電影的重要依據。在紛繁復雜的評論信息中需要找到高質量的評價并非易事,使用情感分析技術可以減少消費者大量查詢時間[6]。
本文綜合選取知網詞典和臺灣大學情感詞典中的褒貶義詞,將二者進行優化合并得到適用于通用語境下的通用情感詞詞典。通用情感詞詞典刪去了兩個詞典中有歧義的詞匯,整理使用二者中情感傾向度較為準確的正面和負面情感詞,形成一個新的積極情感詞詞典,和一個新的消極情感詞詞典,最后由積極與消極情感詞詞典共同組成通用情感詞詞典。由于HowNet[7]和NTUSD[8]不像英文情感詞典那樣,不僅區分了詞匯的情感極性,還描述了詞匯的情感強度。這兩個情感詞典僅僅區分了情感詞的正面與負面情感傾向性,因此將自主構建的通用情感詞詞典中的正向情感詞語的權值設置為1,而負面的情感詞語的權值設置為-1。
程度副詞一般位于要修飾的副詞或者形容詞前,其主要作用就是限定這些詞的情感程度[9]。程度副詞通過與情感詞結合影響整個語句的情感程度,可以強化情感詞的情感傾向性,也可以產生減弱的作用。比如說:“電影很好看,劇情非常感人”,這句話中出現了兩個程度副詞“很”和“非常”,觀影者在想要表達電影“好看”的同時加上了程度副詞“很”來加強“好看”的情感程度。但是在基礎情感詞典中,“很”既不屬于正向情感詞匯也不屬于負面情感詞匯,若不考慮程度副詞對情感傾向性的影響,會導致在實際計算情感值時使整個句子丟失一定的情感得分。因此在對整個句子進行情感傾向性判斷時,本文將程度副詞所帶來的影響納入考慮范圍。在整理過程中,發現不同的程度副詞對情感傾向性的影響是不同的。例如:“人物塑造令人很失望,劇情有點拖沓”,“很”加強了“失望”表達的情感“有點”削弱了“拖沓”表達的情感。本文考慮到程度副詞對情感詞的修飾程度的不同,根據修飾程度強弱進行分級,共有極、高、中、低四個等級也對應著2、1.7、1.2、0.8四個權值,如表1所示。

表1 程度副詞
單獨使用的否定詞是不存在感情色彩的,它的實際作用是修飾情感一類的詞,它與程度副詞有一定的區別,程度副詞的有兩方面作用,一方面可以加強情感詞的情感強度,也可以削弱情感詞的情感強度。否定詞的作用只有一個,它與情感詞結合使用會使原本的情感詞語義發生反轉[10]。若否定詞修飾的是個正面積極的情感詞,那么就會使整個句子的情感表達傾向性變為消極。若否定詞修飾的是個負面消極的情感詞,那么在加入否定詞后整個句子的情感表達傾向性就成積極的[11]。中文文本中否定詞的數量也是靈活多變的,可以含有兩個否定詞甚至多個。含有偶數個否定詞的句子,句子的整體情感傾向不會發生改變。含有奇數個否定詞的句子,句子的整體情感傾向發生逆轉。當一個句子中出現的否定詞加上程度副詞時,句子的情感傾向性不會發生改變,只會影響情感強度。結合電影評論文本語料和中文日常表達方式,本文直接采用人工收集的方法構建了包含45個否定詞的否定詞詞典,如表2所示。

表2 否定詞
一般來說,任何一個基礎的情感詞典都不會完全適用于某一個特定領域,其對于含有領域專業詞匯句子的情感分析會大打折扣[12]。例如:“這劇情真狗血”。“狗血”在實際生活中只是一個名詞,表示狗這個動物的血液,但是在電影評論中就表示劇情太過夸張、近乎胡扯,表達了觀眾的不滿情緒。為了使情感詞典能在電影評論領域有一個比較全面的文本傾向性分析能力。采用計算詞匯間點互信息的方法可以很大程度地擴展基情感詞典,而且可以有效地提高情感分析的效率。
在信息論中,如果要計算兩個詞語x1與x2的PMI值[13],計算方法如式(1)所示。

其中,p(x1)表示文本里詞語x1出現的概率,p(x2)表示文本里詞語x2出現的概率。p(x1x2)表示詞語x1和詞語x2一起出現的概率。在信息論的點互信息算法中,使用情感詞典中正向和負向的種子詞與待定情感詞的關系來判定一個詞語的情感極性,計算方法如式(2)所示。

其中,ω是指等待確定情感傾向的詞語,ω+是指具有正向情感的種子詞語,ω-是指具有負向情感的種子詞語。
建立在點互信息基礎上的SO-PMI算法描述為:選擇具有代表性的正向情感詞語和負向情感詞語分別作為正向和負向的種子詞語集合,分別記為集合P={p1,p2,p3,…,pn},和集合N={n1,n2,n3,…,nn},詞語x為我們需要判斷情感傾向的詞語,式(3)如下。

通常情況下,采用0作為臨界值,從而能夠得到三種結果:S O-P MI(x)>0,則表示這個詞語具有正向情感,稱之為褒義詞語;S O-P M I(x)=0,則表示這個詞語具有中性情感,稱之為中性詞語;SO-PMI(x)<0,則表示這個詞語具有負向情感,稱之為負向詞語[14]。
采用SO-PMI算法來計算詞語情感值的時候,要人為地從情感語料中選取一定數量高質量的基準詞,從而確定一組具有正向情感的詞語和一組具有負向情感的詞語來作為基準詞集合。最終計算需要判斷的情感詞與種子詞語之間的點互信息差值,與閾值進行比較后將詞語添加到相應的情感詞典里面,從而實現對情感詞典的擴充[15]。
本文在原先PMI計算點互信息時引入共現詞語間的距離關系,更細致地計算點互信息:若兩個詞之間的距離較短,那么它們的關聯性越大;若兩個詞之間的共現距離越長,那么它們的關聯性越小。實際運用到情感分析中就是在一段文本中兩個詞語離得越近,這兩個詞的情感傾向性就越趨同。共現距離按照兩詞之間相隔的字符的數量來進行計算。如式(4)所示。

其中Lw1表示在一條評論中從評論開始字符到兩個詞排序較為靠前的詞語的最后一個字符的字符數量,Lw2表示在一條評論中從評論開始字符到兩個詞排序較為靠后的詞語的第一個字符的字符數量。
引入詞間距的PMI計算公式改進為LPMI,如式(5)所示。

WL為x1與x2之間的字符組成的字符串,轉折詞如表3所示。

表3 轉折詞表
SO-PMI也相應地改進為SO-LPMI算法,如式(6)所示。

本文從電影評論數據集中人工篩選出電影劇情、電影畫面、演員陣容、演技等多個方面詞頻較高且情感色彩鮮明的基準情感詞匯,并將這些詞按照消極與積極的詞性劃分為正向種子集與負向種子集。使用引入詞間距的SO-LPMI算法計算待定詞和基準詞的SO-LPMI值,以SO-LPMI值的正負性為依據,把待定詞錄入電影領域情感詞典中,其中選取的基準詞部分如表4所示。

表4 基準詞
SO-LPMI算法擴充電影領域情感詞典,具體方法步驟如下。
第一步:通過八爪魚網絡爬蟲軟件爬取豆瓣電影網上的電影短評,把這些原始數據中無用的數據與噪聲去除,再利用中文分詞技術將實詞切分出來并存放在一起。
第二步:用通用情感詞詞典匹配上一步中搜集到的詞匯。將匹配結果分為三類,第一類是匹配到的褒義詞,第二類是匹配到的貶義詞,第三類是不存在于通用情感詞典中的詞匯,把這三類詞分別存儲在三個集合中。
第三步:輔以人工的方式,分別在褒義詞集合和貶義詞集合中,挑選出在評論文本中出現次數較高并且保證個數相同的褒義詞與貶義詞作為基準詞。
第四步:根據SO-LPMI算法來計算基準詞與在通用情感詞典不匹配的詞匯間的SO-LPMI值。
第五步:使用第四步中得到的SO-LPMI值將不匹配詞匯分為褒義詞與貶義詞,分別存于電影領域褒義詞詞典和電影領域貶義詞詞典中,二者共同構成電影領域情感詞典。
情感詞典總體構成如圖1所示。

圖1 情感詞典構成
本文實驗語料使用網絡爬蟲爬取的電影評論語料集,囊括正向、負向的評論各3000條。通過比較不同的情感詞典在電影評論數據集中的分類效果完成對比實驗。查詢語料中所有情感詞匯與否定詞和程度副詞的搭配情況,按照提出的情感詞與否定詞、程度副詞權值計算方式,綜合計算每條電影評論的整體情感值。以情感值的大小作為分類的依據,當情感值大于0時認為文本為正面情感傾向性情感,當情感值小于0時認定文本為負面傾向性情感。
整個實驗中使用了本文構建的電影領域情感詞典、NTUSD詞典和知網詞典。在保持數據集不變的情況下,分別使用上述三種情感詞典進行情感分析,由此可以分析對比實驗效果。
對比實驗按照以下方式進行:
1)針對電影評論語料集完成文本預處理操作。
2)使用情感詞典來分析電影評論語料的情感值。主要考察語句中的情感詞和否定詞以及程度副詞如何搭配的,根據不同的搭配情況,使用不同的權值計算方式帶入其中,計算各個詞語搭配的情感值權重。
3)把步驟2)中得到的情感值權重進行求和計算,得到一整條評論的整體情感值。在情感總值大于零的情況下,由此得出該評論文本為具有積極情感的文本;在情感總值小于零的情況下,由此得出該評論文本為具有消極情感的文本。
4)利用分類指標對分類結果進行評測。對比三個詞典在電影評論的不同表現,以比較出三種詞典在電影評論領域情感分析的有效性。
使用三種不同詞典對電影評論進行情感分析,得到了不同的精確率、召回率和F1值的數據,如表5所示。

表5 三種詞典實驗結果
在使用完全相同的電影評論語料集時,由于本文所構建的電影領域詞典涵蓋的情感詞能合理匹配電影評論中的情感詞,使用本文所構建的詞典進行情感分類的效果明顯優于其他兩種詞典。但是三個詞典在負面評價的電影評論文本中的判別效果均高于正面評價文本。導致這種現象發生的原因可能是中文文本中的含蓄表達方式。中文表達中,有時不會直接用負面詞匯表達某方面的不好,而是會對正面詞匯加以修飾來含蓄表達出自己的負面情感,這就導致文本表面上是正面情感,但其真實內涵是負面情感,機器不能進行有效識別。負面文本中,一般不會出現這種情況,所以負面文本分類效果相比于正面文本會好一點。
本文重點介紹了如何構建電影領域情感詞典的全部過程,再與常用中文情感詞典進行對比實驗分析結果。首先是通用詞典的構建,其由Hownet詞典和NTUSD詞典中的情感詞匯通過篩選得到。然后構建了程度副詞詞典和否定詞詞典,這兩者都是根據現有詞典經過人工選取得到的。接著構建電影領域專用詞典,若用傳統的SO-PMI算法進行領域詞典的擴充僅考察詞語間的共現概率,沒考慮語義表達中的詞間距關系,基于此,通過引入詞共現距離來改進SO-PMI算法。使用改進后的SO-LPMI對電影領域情感詞典進行擴充,將擴展后的電影領域情感詞典與通用詞典、程度副詞詞典和否定詞詞典結合為電影評論情感詞典。實驗證明,通過適用于電影領域的情感詞典進行電影評論的情感分析相較于用通用的情感詞典分析電影評論有更好的分類效果。