999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的電影主題自動分類方法的研究

2023-05-30 09:08:42李璐王妍王艷娥楊倩
計算機與網絡 2023年3期

李璐 王妍 王艷娥 楊倩

摘要:針對傳統采用人工方式對電影主題進行分類存在主觀性強、分類標準不統一的問題,提出了一種基于LDA的電影主題自動分類方法,通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法求解聯合分布公式,得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布完成電影主題的自動分類及類別的自動標識,使用電影簡介數據對電影主題進行分類實驗。實驗結果表明,該方法能夠對電影主題進行準確分類,精確度達到95%,從根本上消除了人工分類方法中存在的主觀性強、分類標準不統一的問題。

關鍵詞:LDA;Gibbs采樣;電影主題;自動分類

中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)03-58-4

0引言

電影在娛樂、教育及文化傳播等領域具有重要作用,對電影進行主題分類,可以加深電影的宣傳也方便用戶按類別篩選感興趣的電影。目前電影主題都由導演或制片人設定,由于制片人設定主題的標準不統一,導致電影主題設定存在主觀性強、偏差較大的問題,因此采用數理統計、數據挖掘等技術對電影主題進行科學分類已經成為一種趨勢[1-2]。傳統文本情感分類分為2種:機器學習與語義指向。文獻[3]試圖根據文檔中不同詞語的共現頻率訓練分類器;文獻[4]把詞語分為正面與負面2類,通過計算文本中所有情感詞的正負來判斷文檔的分類;文獻[5]提出的英文文本分類模型,使用詞向量構建文本輸入框,一定程度上提高了文本分類指標;文獻[6]使用音頻識別方式進行文本分類?,F有研究多數針對挖掘文本本身的好壞程度,忽略主題特征詞及隱含主題的選擇,主題模型LDA可以挖掘文本隱含主題,提升分類準確率。

1電影主題分類的整體流程

電影主題分類步驟一般可分為3步[7]:一是數據預處理階段,在數據預處理階段主要是對電影簡介內容分詞、去停止詞等;二是構建LDA算法模型;三是使用LDA算法模型電影主題分類。電影主題分類步驟如圖1所示。

2 LDA主題模型

使用LDA主題模型對電影主題分類的核心思想是:利用電影簡介的文本信息挖掘文本與詞語之間所隱含的隱含主題,然后利用主題分布刻畫電影主題,進而計算電影之間的關系。LDA主題模型利用貝葉斯理論,先假設電影簡介內容中的每一個詞的先驗共軛分布為Dirichlet分布,電影簡介樣本數據服從多項分布,后驗概率也服從Dirichlet分布。通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布[8-9]。

電影主題主旨的概率分布在LDA算法模型中是通過每篇電影中的信息內容簡介來表示的,概率分布則是通過電影主題主旨中諸多單詞來構成的。所以LDA算法的核心機理如下:

①電影簡介內容信息總計篇,包括個主題。

②任意一個長度為的電影簡介內容信息都有自身的主題分布規則,服從參數為的Dirichlet多項分布。

③每個主題也有不同的詞分布,服從參數為的Dirichlet多項分布。

④整篇電影內容簡介中的第個詞的描述是通過隨機采樣生成詞來描述的,首先根據主題分布中進行采樣主題,其次在被采樣的主題中針對詞分布采樣詞。隨機采樣詞結束的條件是篇電影簡介內容信息全部執行。

LDA算法的貝葉斯圖模型如圖2所示。

LDA圖模型的參數說明如表1所示。

3采用Gibbs采樣求解LDA

4實驗結果與分析

電影主題分類的第一步是對數據進行預處理,首先將電影簡介內容進行分詞操作,常用的分詞工具有LTP-cloud、ICTCLAS和Stanford漢語分詞工具等,而且該工具包還具有免安裝、節省硬件、跨平臺和支持多種編程語言的特點,因此本系統使用LTP-cloud作為分詞工具。然后去停止詞,停止詞是指一篇電影簡介內容中的“的”“也”“在”“和”等,在自然環境中出現頻率非常高,但是對電影內容介紹沒有實質影響的那類詞。經過前兩步預處理后的文本,并不能直接放到計算機中進行計算,還需要把文本編碼成計算機可以識別的格式,具體做法是構建詞袋模型,把文本中的每一詞匯用數字index指代,并把原來的電影簡介內容變成一條長數組。電影簡介數據如表2所示,該數據集來自于豆瓣電影8 253部電影的簡介數據。

將電影簡介數據進行預處理,給定主題一個初始值10,主題的取值是一個先驗值需要提前給定,接著把預處理好的數據放入搭建好的算法模型中,得出每個電影的主題分布與每個主題的詞分布,圖3是每個主題對應的詞分布,從圖中可以看出,每個主題中每個詞出現的概率是不一樣。圖4是電影1~電影10對應的主題分布,從圖中可以看出,電影1屬于一個主題,電影2,4,5,6,7,8屬于一類主題,電影3,9,10屬于一類主題。

通過豆瓣電影8 253部電影實驗數據表明,基于LDA的電影主題自動分類方法是有效的,該模型利用LDA主題模型獲得單詞的主題分布,計算單詞與其上下文詞的主題相似度,通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布,能夠對電影主題進行準確分類,且分類準確率達到95%,可以從根上上消除人工分類的一些主觀性問題。

5結束語

針對傳統電影分類存在主觀性強、分類標準不統一及分類忽略主題隱藏含義等問題,引入LDA主題模型對豆瓣電影8 253部電影的簡介數據進行電影自動分類。首先對電影簡介數據去除冗余無用信息進行數據預處理,其次通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法對聯合分布公式求解,從而得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布進行電影無標簽數據進行標識,最后使用8 253部電影簡介數據分類模型實驗,精度達到95以上,可以作為電影自動化分類的研究基礎。

參考文獻

[1]周強.中國電影分類理念與類型電影特性研究[J].電影文學, 2021(9):39-42.

[2]蔡夢楠.基于分類模型的電影票房影響因素研究[D].南京:南京師范大學,2021.

[3] LINDSAY G W. Feature-based Attention in Convolutional Neural Networks[J/OL].[2022-10-20].https://arxiv. org/abs/1511.06408.

[4] MENG J E, ZHANG Y, WANG N, et al.Attention Pooling-based Convolutional Neural Netwaok for Sentence Modelling[J].Information Science and International Journal, 2016,373(C):388-403.

[5] KIM Y. Convolutional Neural Networks for Sentence Classifica-tion[J/OL].[2022-10-11].https://arxiv.org/abs/1408. 5882.

[6]肖建.基于Spark并行LDA主題模型的研究[D].重慶:重慶大學,2016.

[7]鄭涵.基于遷移主題模型的文本分類方法研究[D].煙臺:山東工商學院,2021.

[8]胡楚君.基于Hadoop的微博輿情分類的研究與實現[D].北京:北京郵電大學,2016.

[9]鄭飛,韋德壕,黃勝.基于LDA和深度學習的文本分類方法[J].計算機工程與設計,2020,41(8):2184-2189.

主站蜘蛛池模板: 日本亚洲成高清一区二区三区| 欧美专区日韩专区| 蜜臀AVWWW国产天堂| 久久综合九九亚洲一区| av色爱 天堂网| 久久伊人久久亚洲综合| 黄色成年视频| 久久亚洲中文字幕精品一区 | 国产高潮流白浆视频| 老汉色老汉首页a亚洲| 亚洲高清无码精品| 亚洲狠狠婷婷综合久久久久| 人人91人人澡人人妻人人爽 | 在线欧美日韩| 就去色综合| 国产视频 第一页| 小说区 亚洲 自拍 另类| 亚洲欧美在线综合图区| 国产白浆视频| 99re这里只有国产中文精品国产精品| 一本大道香蕉中文日本不卡高清二区| 99视频国产精品| 欧美a级完整在线观看| 国产成人精品无码一区二| 国产免费a级片| 中文字幕欧美日韩| 国产精品成| 91福利片| 午夜啪啪福利| 超碰精品无码一区二区| 九月婷婷亚洲综合在线| 日a本亚洲中文在线观看| 国产成人91精品| 亚洲国产日韩在线观看| 日本欧美视频在线观看| 日韩天堂视频| www.亚洲国产| 四虎国产精品永久一区| 99久久精彩视频| 在线a视频免费观看| 性网站在线观看| 亚洲第一成年人网站| 国产va在线| 免费不卡在线观看av| 亚洲色偷偷偷鲁综合| 国产人人乐人人爱| 毛片免费网址| 久久精品中文字幕免费| 2018日日摸夜夜添狠狠躁| 91 九色视频丝袜| 久久香蕉国产线看观| 久久免费观看视频| 亚洲无码高清一区| 久久黄色影院| 久久精品66| 91精品国产91欠久久久久| 国产原创第一页在线观看| 呦视频在线一区二区三区| 在线观看亚洲精品福利片| 视频二区欧美| 噜噜噜久久| 老司机久久精品视频| 伊人网址在线| 在线国产91| 日韩毛片免费| 国产人人干| 国产成人艳妇AA视频在线| 国产激情在线视频| 亚洲成人动漫在线| 成人综合网址| AV在线天堂进入| 日韩毛片基地| 三上悠亚一区二区| 日韩无码黄色网站| 狠狠五月天中文字幕| 国产精品粉嫩| 国产青榴视频| 欧美日韩久久综合| 欧美黑人欧美精品刺激| 国产91熟女高潮一区二区| 免费无码又爽又黄又刺激网站| 国产精品视频系列专区|