999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的劇本角色情感識別研究

2023-04-07 14:47:03蔡校育邱美蘭李德旺
軟件工程 2023年4期

蔡校育 邱美蘭 李德旺

關鍵詞:劇本角色;支持向量機;樸素貝葉斯;情感識別

中圖分類號:TP181 文獻標識碼:A

1引言(Introduction)

對于影視制片人來說,劇本的好壞直接決定其商業價值和社會意義,因此,對劇本文本分析成為不可或缺的環節,其中劇本角色的情感識別是劇本分析中一個非常重要的任務。劇本角色情感識別是將劇本中涉及角色的對白和動作描述識別為某一種具體的情感傾向,屬于情感分析[1]中句子級別的范疇,輸入為劇本中的角色對白或動作描述的句子,輸出其對應的情感傾向。

基于機器學習的情感分析是一種有監督的學習方法,屬于文本機器學習[2]的范疇,目前常見的基于機器學習情感分析的算法有支持向量機(SVM)[3]、樸素貝葉斯[4]和邏輯回歸[5]等,研究人員也開展了與此相關的大量研究工作[6]。本文將對非結構化的劇本數據使用情感分析技術進行處理,從而減少人工處理數據的工作量,利用機器學習算法快速挖掘非結構化數據中的價值,依據情感預測的結果為劇本分析提供有價值的參考,對影視作品的發展具有一定的指導意義。

2 劇本角色情感識別(Emotion recognition ofscreenplay characters)

2.1數據集介紹

本文研究所需數據來源于DataFountain平臺舉辦的劇本角色情感識別競賽所提供的數據集,該數據集的主要數據來源于一部電影劇本,通過人工的情感標注,同時對數據進行相應的處理,使之劃分為三種情感(1:正向情感;0:中性;-1:負向情感)。該數據集共有36,612 條數據樣本,而中性數據對于本文模型的研究用處不大,也易產生分歧,所以剔除中性數據,只保留正、負向情感,共10,143 條數據樣本,部分數據內容如表1所示。

2.2數據預處理

因為中文語篇中詞語不存在空隙,所以必須采用分詞的方法進行識別,而在分詞過程中,某些對分類不起作用的信息也要去掉,即刪除停用詞,最后將那些能傳達重要信息的關鍵詞從文本中抽取出來,并將文本表示為這些關鍵詞的集合。數據預處理包括數據清洗、文本分詞、刪除停用詞等。

2.2.1文本分詞

由于中文文本與英文不同,中文文本分詞是預處理中不可缺少的關鍵步驟,因此在分類過程中使用詞語表示文本時必須先進行分詞處理。目前的分詞技術已經逐步完善,其中jieba分詞具有準確率高、性能優越及可擴展性等特點,是一款當下流行的中文分詞技術。

jieba分詞可以分為三種類型:精確模式、全模式和搜索引擎模式。其中,精確模式實現了對被分詞文本的準確分割,并且不存在冗余詞,本文將運用jieba分詞工具中的精確模式進行分詞操作,分詞效果如表2所示。

2.2.2去停用詞

對于文本分類而言,有些詞語在文本中出現的次數并不能反映該詞語在文本中的重要性。比如“一二三四”“你我他”“這個”“的”,這些沒有特殊語義并且出現頻繁的詞語,即停用詞。本文主要研究中文文本所體現的情感,這些停用詞在很大程度上會對該研究產生影響,因此應該將這些停用詞從文本中清除掉,避免它們對后續分類產生干擾。去停用詞效果如表3所示。

通過對本文的數據集內容進行相應的預處理之后,可以繪制正、負向情感關鍵詞詞云圖,如圖1和圖2所示。

從圖1和圖2兩個詞云圖中可以看出,“看著”“坐在”“我要”“畫外音”“爸爸”等詞語在兩種情感中都是高頻詞,對本文的研究會產生相應的影響。因此,在停用詞表中需添加這些詞語,可以減少誤差,提升模型預測的準確率。

2.4模型建立

本文將使用Sklearn庫(python中的機器學習庫)中的支持向量機和樸素貝葉斯兩種分類算法構建分類模型。因此,在完成數據預處理和特征工程相關工作后,接下來需對數據集進行劃分、交叉檢驗、模型訓練及分類預測等相關操作。

2.4.1劃分數據集

機器學習的分類方法需要大量的數據用于訓練,特別是對神經網絡的訓練。在進行機器學習時,數據集被分為兩類,一類是訓練集,另一類是測試集。本次實驗選取80%的數據作為訓練集,20%的數據作為測試集。有時為了保證模型的精度,往往需要先進行k 折交叉驗證。k 折交叉驗證實質上是把一個數據集分成k 份,每次選k-1 份為訓練集,剩余的1 份作為驗證集,然后取k 個模型的平均測試結果作為最終的模型效果。本文將以10 折交叉驗證為基礎,嘗試探索兩種分類模型的有效性。

2.4.2 交叉驗證及結果

通過對樸素貝葉斯(Naive Bayes)和支持向量機(SVM)兩種機器學習模型進行10 折交叉驗證,并將10 次的交叉驗證的準確率作為最終的結果。兩種分類模型10 次運行對應的準確率如表4所示,根據表4的結果繪制如圖3所示的箱型圖。

從圖3中可以看出,兩種模型相比,線性支持向量機的平均準確率要比樸素貝葉斯的準確率略高,但準確率較為分散,即存在不穩定性。因此,本文通過設置超參數的不同取值,進一步研究樸素貝葉斯算法的綜合性能。

2.5模型評估

本文利用混淆矩陣對樸素貝葉斯分類算法的性能進行評估,其中包括準確率、精確率、召回率、F1值和AUC指標[8-9]。

根據樸素貝葉斯的拉普拉斯平滑法[10]選取不同的拉普拉斯平滑系數α ,對樸素貝葉斯分類模型進行實驗,得到實驗結果如表5所示。從表5可以看出,最佳的拉普拉斯平滑系數介于0.1—0.5。通過調整超參數,可以使算法的性能變得更好。

通過前面模型分析及超參數的對比實驗,運用樸素貝葉斯算法以及設置超參數拉普拉斯平滑系數α = 0.2進行學習,分別采用訓練集和測試集進行預測[11],得到如圖4和圖5所示的兩種情況預測結果。

從圖4和圖5兩個混淆矩陣得出,樸素貝葉斯算法對測試集樣本的預測結果準確度接近于80%,訓練集樣本的預測結果高達93%。

3結論(Conclusion)

本文主要建立了基于支持向量機和樸素貝葉斯算法的兩種情感分類與識別模型,對劇本中每句對白和動作描述中涉及的每個角色從多個維度進行分析并識別出情感。

首先,根據劇本角色情感文本的特點,對所獲取的數據文本進行預處理,包括文本分詞、去停用詞、繪制詞云圖、特征抽取等,建立了基于支持向量機和樸素貝葉斯算法的兩種情感分類與識別模型。其次,利用10 折交叉驗證得出兩種模型的預測準確率,分析了兩種機器學習情感識別模型的預測效果,并通過不斷調整模型中超參數的取值對模型進行優化。最后,根據研究結果得出樸素貝葉斯識別模型在劇本角色情感識別方面的效果要優于支持向量機的識別模型,并且,當超參數拉普拉斯平滑系數α = 0.2時,樸素貝葉斯識別模型的預測準確率接近于80%。

本研究的不足之處是盡管模型的訓練有較好的擬合效果,但由于數據存在樣本不均衡的現象,正向情感數據在總樣本數據中所占的比重偏低,存在一定的過擬合現象。因此,在后續的研究中,應該增大正向情感的樣本數據量,從而對本文的研究做進一步的改進和優化,使得預測結果更加準確、更具有可解釋性。

作者簡介:

蔡校育(1998-),男,本科生.研究領域:機器學習,大數據分析.

邱美蘭(1980-),女,博士,講師,人工智能高級工程師.研究領域:數據科學與計算,機器學習,深度學習.本文通信作者.

李德旺(1976-),男,博士,講師.研究領域:經濟統計,大數據統計分析.

主站蜘蛛池模板: 伊人激情综合网| 国产欧美日韩资源在线观看| 国产丝袜啪啪| 亚洲欧美在线看片AI| 天天综合色网| 亚洲日本在线免费观看| 国产精品亚洲va在线观看| 大学生久久香蕉国产线观看 | 欧美成人一级| 国产成人高清亚洲一区久久| 久久亚洲国产最新网站| 制服无码网站| 人禽伦免费交视频网页播放| 国产欧美精品一区二区| 深夜福利视频一区二区| 一区二区理伦视频| 欧美精品在线免费| 国产一区二区视频在线| 国产丝袜啪啪| 欧美亚洲日韩中文| 九九线精品视频在线观看| 亚洲第一区在线| 99re经典视频在线| 99re在线免费视频| 日韩无码黄色| 国产麻豆精品久久一二三| 无码精品国产VA在线观看DVD| 欧美第九页| 久久久国产精品无码专区| 高清欧美性猛交XXXX黑人猛交| 久久香蕉国产线看观看亚洲片| 不卡午夜视频| 99在线免费播放| 18禁黄无遮挡网站| 三级欧美在线| 婷婷午夜影院| 亚洲最猛黑人xxxx黑人猛交 | 亚洲精品中文字幕无乱码| 国产伦片中文免费观看| 成人精品视频一区二区在线 | 茄子视频毛片免费观看| 人妻少妇乱子伦精品无码专区毛片| 欧美中文字幕在线二区| 亚洲福利网址| 日韩无码精品人妻| 欧美国产另类| 国产精品吹潮在线观看中文| 综合色天天| 亚洲人成色在线观看| 99久久人妻精品免费二区| 永久在线精品免费视频观看| 亚洲成人在线免费| 五月天综合婷婷| 国产成人免费视频精品一区二区| 五月婷婷综合网| 波多野结衣二区| 日韩av电影一区二区三区四区 | 秋霞一区二区三区| 亚洲 欧美 偷自乱 图片| 天堂网亚洲综合在线| 一本一道波多野结衣一区二区| 久久午夜夜伦鲁鲁片无码免费| 极品国产在线| 97精品伊人久久大香线蕉| 精品国产一二三区| 免费无码网站| 久久久精品无码一二三区| 亚瑟天堂久久一区二区影院| 国模沟沟一区二区三区 | 欧美不卡视频在线观看| 91精品免费久久久| 72种姿势欧美久久久久大黄蕉| 欧美精品xx| 青青久视频| 亚洲成人播放| 秋霞国产在线| 日韩精品久久无码中文字幕色欲| 亚洲天堂网在线视频| 青青青视频免费一区二区| 国产精品深爱在线| 国产成人精品无码一区二 | 强乱中文字幕在线播放不卡|