楊秀璋,武 帥,2*,廖文婧,項美玉,于小民,周既松,趙小明
(1.貴州財經大學信息學院,貴陽 550025;2.南京農業大學信息管理學院,南京 211800;3.貴州財經大學大數據應用與經濟學院(貴陽大數據金融學院),貴陽 550025;4.貴州財經大學貴州省經濟系統仿真重點實驗室,貴陽550025)
隨著社會水平不斷發展,人們的生活質量不斷提高。物質需求得到滿足后,人們更加傾向于追求精神文化需求。電影作為文化傳播的重要媒介,一定程度上成為滿足人們精神文明追求的主要載體,日益成熟的中國電影產業和市場為人們增添了許多樂趣。對電影的評價在一定程度上成為人們日常生活中的情感釋放渠道和慰藉心靈的一種方式。隨著自媒體技術的不斷發展,電影網絡評價已成為觀影后的習慣行為,人們會將觀影的整體感覺、電影質量、感情以及感想通過評論的方式予以呈現。因此,針對中國電影市場和影評的文本挖掘具有重要的研究意義,一定程度上有效反映電影的票房和質量,為觀眾提供更豐富和喜歡的電影,能夠深入挖掘影響中國電影市場的本質和現狀[1]。
目前,國內電影產業分析的方法主要以文字描述和計量統計為主,通過票房統計、黃金時段統計、影片描述以及評分統計從宏觀層面對電影進行研究,缺乏一種從微觀層面深度挖掘電影影評和影片質量的方法,傳統方法無法有效剖析電影票房“高開低走”的真正原因,并且無法有效挖掘高質量電影主題和觀眾的評價,缺乏深層次的語義知識挖掘。情感分析(sentiment analysis)和主題挖掘(topic mining)技術能有效挖掘文本的主觀情感傾向和內容的關鍵主題,現已被廣泛應用于文本挖掘、輿情分析、推薦系統等領域[2?4]。因此,本文提出一種基于LDA?BiLSTM 模型和知識圖譜的電影影評文本挖掘方法。本文以2021 年度“春節檔”票房冠軍《你好,李煥英》為例,利用知識圖譜挖掘電影質量及口碑相關特征詞的關聯關系,深入分析高質量電影的影響因素,并構建LDA?BiLSTM 模型實現影評的情感分析,通過LDA 模型提取影評的關鍵特征詞,利用長短時記憶網絡捕獲長距離依賴關系,從而精準預測影評情感類別。通過文本挖掘,本文進一步分析高質量和高口碑原創影片受觀眾青睞的緣由,為我國的高質量電影和票房挖掘提供學術思路,這將促進中國電影產業為觀眾提供更好的精神糧食。
在電影分析中,已有部分學者開始嘗試使用數據挖掘的方法進行電影產業宏觀分析。王純[5]針對院線市場票房進行數據分析,進而研究我國電影產業企業的主體分布情況。沈建軍等[6]結合貓眼平臺的數據進行短視頻營銷與中國電影票之間的實證分析。龐林源等[7]運用格蘭杰分析模型構建票房和評分兩者關系,進而探究當前國產電影發展勢頭。楊秀璋等[8?9]運用大數據及可視化技術深度剖析當前中國電影產業發展現狀,研究表明多類型題材電影有利于中國電影產業的發展。王錦慧等[10]通過構建多元回歸分析模型分析各因素對票房的影響,得出中國電影在北美市場應加強渠道建設、強化發行網絡以及注重首周票房。
當前,不僅有學者對電影票房進行深度研究,同樣也有對電影評論或電影文本進行深度分析的,進而探究中國電影產業的發展趨勢。馮莎[11]結合情感詞典對《乘風破浪》電影影評進行文本情感分析,得出積極情緒占51.36%、消極情緒18.85%、中性情緒29.8%。王智威等[12]對86 部韓國高質量電影進行文本分析,明確韓國電影中存在多元化中國形象。胡一偉等[13]對電影“彩蛋”進行文本分析,發現“彩蛋”能勾連不同內容的影片或故事,同時也能延伸電影在其他市場的商業活力。李靜[14]針對《紐約時報》的電影影評進行文本分析研究,發現中國喜劇電影在北美市場因為文化差異形成較大的文化隔閡,較難實現喜劇效果重現。
然而,上述研究主要是采用數據挖掘的方法對電影產業進行宏觀分析,或是利用文本挖掘的方法進行數據探究,缺乏一種將文本挖掘和中國電影產業發展、電影質量剖析相結合的研究,也缺乏構建電影主題的知識圖譜,詳細挖掘電影影評對票房的影響,利用深度學習模型挖掘影評來分析中國電影市場的發展變化。
情感分析(sentiment analysis)旨在挖掘社交媒體平臺中用戶對某個事件或觀點的情感評價,通常包括情感傾向分析(積極或消極)、情感時序分析、意見推理等[15?17]。本文主要針對電影《你好,李煥英》影評的情感傾向進行分析。當前該領域劃分為三種典型的方法,包括基于情感詞典和規則的情感分析、基于機器學習的情感分析、基于深度學習的情感分析[18]。
傳統方法通過情感詞典和規則進行匹配、映射和識別實現情感傾向分析,王志濤等[19]提出一種基于詞典和規則集的中文微博情感分析方法,結合情感詞典對微博文本進行從詞語到句子的多粒度情感計算。然而,該類方法智能化程度較低,需要大量的手工標注,缺乏深層次的語義挖掘[20]。隨后,基于機器的情感分析方法被提出,它能在一定程度上解決缺乏完整標注的語料庫帶來的分析局限性。李高翡等[21]提出一種異質集成學習的文本情感分析方法,通過樸素貝葉斯、支持向量機和隨機森林實現情感分析。李婷婷等[22]利用SVM 和CRF 實現多特征組合并完成微博情感分析。然而,機器學習方法較難分析海量的社交媒體文本,會受到信息噪聲的感染,并且缺乏深層次的語義關聯和長距離依賴分析。
隨著神經網絡和人工智能的迅速發展,各行各業開始利用深度學習技術開展研究。基于深度學習的情感分析能夠解決語料標注問題,且準確率較高,通過深層次語義挖掘來提升情感分析的性能。楊秀璋等[23]提出一種融合情感詞典的BiLSTM?CNN 和Attention 情感分類算法,該方法通過融合情感詞典的特征提取方法優化特征詞的權重,并優于現有的其它方法。夏輝麗等[24]提出一種利用自注意力雙向分層語義模型進行網絡文檔情感分析,提高了深度學習模型的求解速度和準確度。楊春霞等[25]利用深度BiLSTM和圖卷積網絡實現方面級情感分析。
然而,上述方法缺乏對電影影評的情感分析,無法精準捕獲文本信息中帶有情感色彩的特征詞,忽略了情感特征對模型的提升,也缺乏利用文本挖掘技術深度剖析高質量電影的原因。基于此,本文設計并實現LDA?BiLSTM 模型實現電影影評的情感分析,并構建影評主題知識圖譜來深入分析高質量和高口碑電影的緣由,進而論證中國電影市場正逐步從“流量至上”向“質量至上”轉變。
該部分主要介紹本文提出方法的模型設計與實現過程。
為有效挖掘中國高質量電影的緣由,本文提出一種基于LDA?BiLSTM 模型和知識圖譜的電影影評文本挖掘方法,其研究框架如圖1 所示。主要包括兩大部分,第一部分是利用知識圖譜挖掘電影質量及口碑相關特征詞的關聯關系;第二部分是構建LDA?BiLSTM 模型實現影評情感分析。步驟如下:

圖1 基于LDA?BiLSTM 模型和知識圖譜的電影影評文本挖掘框架
(1)利用Python 和Xpath 技術構建網絡采集器,自動抽取電影影評信息,以《你好,李煥英》高質量電影為示例,采集貓眼2021年2月1日至5 月3 日期間共計335933 條影評文本數據。接著,對采集的數據集實現預處理和特征提取。
(2)提取電影影評的關鍵特征詞并作為實體,再利用共現關系來構建電影的知識圖譜,最終實現主題挖掘和關聯分析,有效分析高質量電影的關鍵主題及關聯關系。
(3)設計融合LDA 和BiLSTM 的模型,利用LDA 提取影評的關鍵情感特征詞,再使用Word2Vec 將特征映射成詞向量,最終構建BiL?STM 模型實現影評的情感分析,輸出結果為Softmax分類器預測的積極情緒和消極情緒。
本文提出一種融合LDA和BiLSTM 的情感分析方法,模型網絡結構如圖2 所示。具體實現過程如下:

圖2 LDA?BiLSTM 模型網絡結構
首先,利用LDA 模型提取不同評論文本的情感特征詞。LDA(latent dirichlet allocation)是一種文檔主題生成模型,由Blei 等[26]在2003 年首次提出,是一種三層貝葉斯結構,包括主題、文檔和主題詞三層結構,其中文檔到主題、主題到詞都服從多項分布。如圖2 所示,LDA 模型從每篇文檔D對應的多項分布θ中抽取每個單詞對應的主題z,再從主題z中抽取一個單詞w,其主題對應的多項分布為φ,最終重復Nd次,直至遍歷文檔中每個單詞,自此成功抽取電影《你好,李煥英》影評的主題特征詞,這些情感特征詞能有效表征整個數據集。
其次,構建雙向長短時記憶網絡(Bi?directional long short?term memory,BiLSTM)模型實現情感分析。整個模型由前向LSTM 和后向LSTM 組成,能從兩個方向捕獲長距離依賴關系,其計算公式w時1至如刻(w前16)表向至示(L權3S)T重所M參示層數。的;式狀f中表態,示,x激t表活表示函示輸數t入時;詞刻向表后量示向;tLSTM 層的狀態;yt表示BiLSTM 的最終輸出結果。
最后,經過LDA 和BiLSTM 模型計算的結果輸入注意力層進行權重加成,最終輸出至Soft?max分類器完成電影影評的情感分類任務。整個結果將預測為積極情緒和消極情緒,從而實現對高質量電影《你好,李煥英》影評的情感挖掘。此外,本文與常見的機器學習和深度學習模型進行對比實驗。
由于文本數據具有體量大、類型復雜、來源多樣等特征,因此使用知識圖譜來挖掘文本具有重要意義。整個實驗過程包括主題共詞分析和知識圖譜構建兩部分。
共詞分析(co?word analysis)旨在利用文本數據中共同出現、表征文本數據主題的關鍵詞來反映文獻各主題間的關聯,進而確定文獻的熱點主題。為更好地分析電影《你好,李煥英》的主題以及研究影片質量,本文采用共詞分析法,構建共現矩陣,如公式(4)所示。當兩個主題詞同時出現在一段文本信息中,則認為存在共現關系,其邊所對應的權重加1;反之,不存在共現關系,其權重為0。
結合共詞分析結果,本文統計出電影《你好,李煥英》的前40 組共現高頻詞,見表1。結果整體顯示,影評觀眾對整部電影的評價較高,尤其是對電影結尾部分和“母愛”主題的評價稱贊較多。從共現高頻詞組可看出,電影《你好,李煥英》的劇情反轉具有一定的戲劇張力,有效將電影中母女之間的愛意、祝福層層遞進到觀眾的感官和情緒的爆發點,讓觀眾感同身受,產生情感的共鳴。

表1 電影高頻共現主題詞
知識圖譜(knowledge graph)通過實體(節點)和關系(邊)分析實體之間的關聯。本文通過共詞分析挖掘影評主題特征詞,計算各節點的度(degree)、網絡密度(density)、聚類系數(clus?tering coefficient)后,再利用Gephi 構建《你好,李煥英》主題社交網絡關系知識圖譜,最終生成如圖3所示的影評知識圖譜。

圖3 基于知識圖譜的電影影評主題分析
由圖3可知,整個知識圖譜包含782個核心節點,1383 條主要關系邊。模塊化計算結果為0.528,平均加權度468.96,圖中圓圈表示核心主題詞,連線表示共現關系,連線越多表示其共現次數越高,反之越少。整部電影以喜劇為主,同時夾雜著“淚”與“笑”,最終形成以“電影”“媽媽”“賈玲”“我們”“李煥英”“笑”和“哭”為核心主題群的網絡關系,突出整部電影笑中帶淚、母愛感人的主題。該電影以懷舊為感情基調,將人性親情、歷史背景和現實主義相融合,為觀眾提供不同年齡段的心靈慰藉,表達了中華兒女對親情的眷戀,對家庭的歸屬。
綜上所述,本文提出基于知識圖譜的影評文本挖掘方法能有效分析電影影評,挖掘出觀眾對親情主題的關注,最終奠定影片的高口碑和高票房,也是國產電影向質量發展的重要轉變。
該部分主要介紹影評情感分析實驗,包括評估指標、模型參數、實驗結果和對比分析等。
本文共采集電影《你好,李煥英》貓眼2021 年2 月1 日至5 月3 日期間共計335933 條影評文本數據,將評分為0~2.5 的影評劃分為消極,2.5~5 的劃分積極,并按照一定比例隨機劃分為訓練集、測試集和驗證集。然后,通過文本分詞、停用詞過濾和特征提取后,構建LDA?BiLSTM 模型,利用精確率(Precision)、召回率(Recall)、F1值(F1?score)和準確率(Accu?racy)評估實驗,其計算公式如(5)至(8)所示,再按各類樣本數量進行權重加成。
本文模型超參數如表2 所示,整個實驗結果為十次實驗結果的平均值。

表2 模型超參數設置
本文結合情感詞典來構建LDA 模型,并實現積極情緒和消極情緒影評的情感主題挖掘,圖4 和圖5 分別展示了兩種情緒的主題特征詞,積極情緒以“好看”“不錯”“感動”“值得”“支持”等為主,消極情緒以“無聊”“一般”“爛片”“遺憾”“一般般”等為主。

圖4 影評積極情感主題特征詞云圖

圖5 影評消極情感主題特征詞云圖
接著構建融合注意力機制和BiLSTM 的模型,通過該模型學習經過LDA 提取的情感特征詞,并利用Word2Vec 映射成詞向量,最終完成對電影影評的情感分析。
本文模型的實驗結果如表3 所示,影評積極情感的精確率、召回率和F1值依次為0.9953、0.9844 和0.9898;消極情感的精確率、召回率和F1值依次為0.6659、0.8707 和0.7546,最終精確率、召回率、F1值和準確率為0.9839、0.9805、0.9822 和0.9805。此外,由于消極影評相對較少,因此其對應的F1值相對較低,但不影響本文LDA?BiLSTM 模型的性能,LDA 模型充分抽取關鍵主題情感詞從而提升性能,4.3 小節的對比實驗將突出本文模型的優勢。

表3 基于LDA?BiLSTM 的影評情感分析結果
該部分將詳細對比本文模型與經典機器學習模型(包括邏輯回歸、SVM、隨機森林、樸素貝葉斯)和深度學習模型(BiLSTM、BiGRU、CNN、TextCNN),其結果如表4所示。

表4 各模型影評情感分類的實驗結果對比
由表4 可知,本文方法的精確率為0.9839,召回率為0.9805,F1值為0.9822,檢測時間為156.63 s,整個實驗結果均優于現有的機器學習和深度學習模型。通過對比本文方法與其它方法的F1值,發現本文方法分別比邏輯回歸、SVM、隨機森林和樸素貝葉斯模型提高4.18、4.57、4.42 和4.74 個百分點;分別比BiLSTM、BiGRU、CNN 和TextCNN 提高2.35、2.74、2.86和2.43 個百分點。通過對比實驗,進一步證明融合LDA 和BiLSTM 及注意力機制的模型能更好地挖掘《你好,李煥英》電影影評的情感色彩,并且檢測時間未呈現指數級增長,突出本文模型的有效性。
最后,詳細比較不同方法經過LDA 模型提取情感色彩特征詞前后的實驗結果,如圖6 所示。該實驗結果顯示,經過LDA 模型提取的情感特征詞能更好地被機器學習或深度學習訓練,其實驗結果的F1值均有一定程度的提升。其中,邏輯回歸、SVM、隨機森林和樸素貝葉斯模型分別提升0.80、1.27、0.55、1.06 個百分點,BiLSTM、BiGRU、CNN 和TextCNN 模 型 提 升0.52、0.72、0.77 和0.71 個百分點。綜上所述,LDA 模型對情感主題詞的提取能在一定程度上提升情感分類模型的效果,更好地促進模型學習電影評論的情感色彩,預測情感傾向。

圖6 使用LDA模型優化的對比實驗結果
本文針對傳統方法僅從宏觀層面對電影產業和影評進行計量統計和文字描述研究,無法有效挖掘高質量電影的主題和觀眾的評價,缺乏深層次的語義知識挖掘的問題,提出一種基于LDA-BiLSTM 模型和知識圖譜的電影影評文本挖掘方法。實驗結果表明,本文方法能有效挖掘電影影評的情感特征詞和關聯關系,所提出LDA?BiLSTM 模型的精確率、召回率、F1值和準確率依次為0.9839、0.9805、0.9822和0.9805,其結果優于其它機器學習和深度學習模型,并且通過詳細的對比實驗證明LDA 模型提取情感色彩的特征詞能更好地被深度學習模型學習,最終為我國高質量電影挖掘提供學術思路,具有一定的研究價值。
在后續工作中,將進一步融合遷移學習、圖神經網絡來分析電影影評數據,并針對消極情緒語料分布不均勻的問題實現數據增強,為我國電影產業的高質量影片拍攝和劇情設計提供支持。