李璐 王妍 王艷娥 楊倩
摘要:針對傳統采用人工方式對電影主題進行分類存在主觀性強、分類標準不統一的問題,提出了一種基于LDA的電影主題自動分類方法,通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法求解聯合分布公式,得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布完成電影主題的自動分類及類別的自動標識,使用電影簡介數據對電影主題進行分類實驗。實驗結果表明,該方法能夠對電影主題進行準確分類,精確度達到95%,從根本上消除了人工分類方法中存在的主觀性強、分類標準不統一的問題。
關鍵詞:LDA;Gibbs采樣;電影主題;自動分類
中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)03-58-4

電影在娛樂、教育及文化傳播等領域具有重要作用,對電影進行主題分類,可以加深電影的宣傳也方便用戶按類別篩選感興趣的電影。目前電影主題都由導演或制片人設定,由于制片人設定主題的標準不統一,導致電影主題設定存在主觀性強、偏差較大的問題,因此采用數理統計、數據挖掘等技術對電影主題進行科學分類已經成為一種趨勢[1-2]。傳統文本情感分類分為2種:機器學習與語義指向。文獻[3]試圖根據文檔中不同詞語的共現頻率訓練分類器;文獻[4]把詞語分為正面與負面2類,通過計算文本中所有情感詞的正負來判斷文檔的分類;文獻[5]提出的英文文本分類模型,使用詞向量構建文本輸入框,一定程度上提高了文本分類指標;文獻[6]使用音頻識別方式進行文本分類?,F有研究多數針對挖掘文本本身的好壞程度,忽略主題特征詞及隱含主題的選擇,主題模型LDA可以挖掘文本隱含主題,提升分類準確率。
電影主題分類步驟一般可分為3步[7]:一是數據預處理階段,在數據預處理階段主要是對電影簡介內容分詞、去停止詞等;二是構建LDA算法模型;三是使用LDA算法模型電影主題分類。電影主題分類步驟如圖1所示。

使用LDA主題模型對電影主題分類的核心思想是:利用電影簡介的文本信息挖掘文本與詞語之間所隱含的隱含主題,然后利用主題分布刻畫電影主題,進而計算電影之間的關系。LDA主題模型利用貝葉斯理論,先假設電影簡介內容中的每一個詞的先驗共軛分布為Dirichlet分布,電影簡介樣本數據服從多項分布,后驗概率也服從Dirichlet分布。通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布[8-9]。
電影主題主旨的概率分布在LDA算法模型中是通過每篇電影中的信息內容簡介來表示的,概率分布則是通過電影主題主旨中諸多單詞來構成的。所以LDA算法的核心機理如下:
①電影簡介內容信息總計篇,包括個主題。
②任意一個長度為的電影簡介內容信息都有自身的主題分布規則,服從參數為的Dirichlet多項分布。
③每個主題也有不同的詞分布,服從參數為的Dirichlet多項分布。
④整篇電影內容簡介中的第個詞的描述是通過隨機采樣生成詞來描述的,首先根據主題分布中進行采樣主題,其次在被采樣的主題中針對詞分布采樣詞。隨機采樣詞結束的條件是篇電影簡介內容信息全部執行。
LDA算法的貝葉斯圖模型如圖2所示。

LDA圖模型的參數說明如表1所示。



電影主題分類的第一步是對數據進行預處理,首先將電影簡介內容進行分詞操作,常用的分詞工具有LTP-cloud、ICTCLAS和Stanford漢語分詞工具等,而且該工具包還具有免安裝、節省硬件、跨平臺和支持多種編程語言的特點,因此本系統使用LTP-cloud作為分詞工具。然后去停止詞,停止詞是指一篇電影簡介內容中的“的”“也”“在”“和”等,在自然環境中出現頻率非常高,但是對電影內容介紹沒有實質影響的那類詞。經過前兩步預處理后的文本,并不能直接放到計算機中進行計算,還需要把文本編碼成計算機可以識別的格式,具體做法是構建詞袋模型,把文本中的每一詞匯用數字index指代,并把原來的電影簡介內容變成一條長數組。電影簡介數據如表2所示,該數據集來自于豆瓣電影8 253部電影的簡介數據。

將電影簡介數據進行預處理,給定主題一個初始值10,主題的取值是一個先驗值需要提前給定,接著把預處理好的數據放入搭建好的算法模型中,得出每個電影的主題分布與每個主題的詞分布,圖3是每個主題對應的詞分布,從圖中可以看出,每個主題中每個詞出現的概率是不一樣。圖4是電影1~電影10對應的主題分布,從圖中可以看出,電影1屬于一個主題,電影2,4,5,6,7,8屬于一類主題,電影3,9,10屬于一類主題。


通過豆瓣電影8 253部電影實驗數據表明,基于LDA的電影主題自動分類方法是有效的,該模型利用LDA主題模型獲得單詞的主題分布,計算單詞與其上下文詞的主題相似度,通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布,能夠對電影主題進行準確分類,且分類準確率達到95%,可以從根上上消除人工分類的一些主觀性問題。
針對傳統電影分類存在主觀性強、分類標準不統一及分類忽略主題隱藏含義等問題,引入LDA主題模型對豆瓣電影8 253部電影的簡介數據進行電影自動分類。首先對電影簡介數據去除冗余無用信息進行數據預處理,其次通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法對聯合分布公式求解,從而得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布進行電影無標簽數據進行標識,最后使用8 253部電影簡介數據分類模型實驗,精度達到95以上,可以作為電影自動化分類的研究基礎。
參考文獻
[1]周強.中國電影分類理念與類型電影特性研究[J].電影文學, 2021(9):39-42.
[2]蔡夢楠.基于分類模型的電影票房影響因素研究[D].南京:南京師范大學,2021.
[3] LINDSAY G W. Feature-based Attention in Convolutional Neural Networks[J/OL].[2022-10-20].https://arxiv. org/abs/1511.06408.
[4] MENG J E, ZHANG Y, WANG N, et al.Attention Pooling-based Convolutional Neural Netwaok for Sentence Modelling[J].Information Science and International Journal, 2016,373(C):388-403.
[5] KIM Y. Convolutional Neural Networks for Sentence Classifica-tion[J/OL].[2022-10-11].https://arxiv.org/abs/1408. 5882.
[6]肖建.基于Spark并行LDA主題模型的研究[D].重慶:重慶大學,2016.
[7]鄭涵.基于遷移主題模型的文本分類方法研究[D].煙臺:山東工商學院,2021.
[8]胡楚君.基于Hadoop的微博輿情分類的研究與實現[D].北京:北京郵電大學,2016.
[9]鄭飛,韋德壕,黃勝.基于LDA和深度學習的文本分類方法[J].計算機工程與設計,2020,41(8):2184-2189.