一、前言
隨著社交媒體的快速發展,情感分析(SentimentAnalysis)已成為自然語言處理(NaturalLanguageProcessing,NLP)領域的重要研究方向。在社交平臺、產品評價、金融市場情緒預測等多個應用場景中,高效準確地分析文本情感對于輿情監測、市場決策乃至公共安全管理具有重要意義。旨在構建Word2vec-CNN模型和情感詞典方法,并在標準數據集上進行實驗,探討二者在情感分類任務中的性能差異。主要研究內容包括:基于Word2vec詞向量對文本進行特征表示,并結合CNN進行情感分類;構建情感詞典并采用傳統方法進行情感分析;在標準數據集上對比兩種方法的準確率,以評估其優劣勢。
通過本研究,希望能夠為情感分析任務提供更全面的技術對比,探索深度學習方法與傳統方法在不同場景下的適用性,為后續相關研究提供有價值的參考。
二、相關研究
情感分析作為自然語言處理(NaturalLanguageProcessing,NLP)中的重要任務,已有大量研究探索了不同方法在文本情感分類中的應用。情感詞典分析方法、機器學習方法和深度學習方法是當前情感分析的三大主流方法。
(一)情感詞典方法研究現狀
情感詞典方法通過構建情感詞典、文本預處理、情感詞匹配、情感極性計算、結果輸出等多個步驟將常見的情感詞匯進行兩級分化。
杜偉夫與譚松波合作提出了一種創新的詞匯情感趨向性分析方法。該方法不只展示了良好的可擴展性,還將詞匯的情感傾向處理轉化為一個可優化處理的問題,并且通過一系列實驗驗證了其算法的有效性[。該方法為情感分析領域提供了新的視角,優化了處理情感傾向的方法論,并為后續的研究提供了一個可行的改進方向。陳俊、席寧麗融合Skip-gram與R-SOPMI的教育領域情感詞典構建,首次提出了融合特征領域的情緒詞典構建方法,改進了情緒傾向點互信息,實現了多分類的情緒劃分,達到了較好的情緒分析分類的效果[2]。
(二)基于機器學習的情感分析
機器學習方法則通過訓練好的模型來智能識別數據中的情感分類[3]。當下較為流行的機器學習算法主要有樸素貝葉斯、SVM支持向量機、集成學習算法等[4]。這些算法并沒有優劣上的區別,主要在于算法計算公式和原理有差別。在運用過程中只有根據實際情況選擇合適的算法,更好地發揮其優勢達到較為理想的效果。
唐慧豐通過應用并對比多種特征選擇技術,細致地分析了樸素貝葉斯和支持向量機這兩種機器學習算法的性能。將算法放到微博分類情感的標準數據集上進行運行比對,唐慧豐及其研究團隊進行了更為深入的研究并提出了相關見解。從而為具體任務上如何選擇算法制定了科學的標準和依據,為機器學習在微博數據上的有效性做出了貢獻[5]。
孫昊男的研究通過改進機器學習方法,尤其是樸素貝葉斯分類算法,來提高中文文本情感分析的準確性。并通過引入情感詞、網絡新詞及關聯詞權重,提升了文本主客觀分類的效率。之后,進一步通過考慮否定詞和程度副詞的影響,為文本中的句子分配不同權重,最終形成一種新的合成算法來判斷整篇文本的情感傾向。
陳鎮、劉潤的研究通過對比四種機器學習方法,即支持向量回歸(SVR)、隨機森林(RF)、多層感知機(MLP)和輕量級梯度提升機(LG),最終建立MDA8-O(3)預測模型并實現了較好的實際效果。通過多種模型對珠三角秋季臭氧濃度進行了預測對比,通過相互的對比發現支持向量回歸(SVR)效果最佳。
(三)基于深度學習的情感分析
深度學習方法是人工智能領域中的一個子領域,其目標是通過模仿人類神經系統的結構和功能來實現對數據的學習和理解。深度學習方法中最為重要的是多層次的人工神經網絡,通過它可以有效地學習文本中的復雜結構和規律,從而實現文本的分類功能。廖運春結合了加權Word2Vec和TextCNN模型。通過引人TF-IDF加權策略,優化了Word2Vec詞向量的表示,使得重要詞匯在文本表示中獲得更高的權重,進而增強了模型對文本特征的捕捉能力。RawatAshish探討了利用文本卷積神經網絡(TextCNN)技術檢測藥物不良事件的方法。通過使用TF-IDF和Word2Vec模型實現了文本數據的特征提取,并應用集成策略提高了系統的整體性能。
LiAichuan通過動態詞向量表示、雙通道特征提取、注意力機制對TextCNN模型進行了改進并用兩個公開數據集(NLPCC2014和NLPCC2015)及一個微博情感分析數據集(weibosenti100k)上的對比實驗,驗證了其方法可以有效提升算法的情感分析和預測能力。LuWei采用TextCNN和BiLSTM進行雙通道特征提取,引入注意力機制高效分配計算資源,實現特征融合和數據分類。注意力機制能夠讓模型聚焦于文本中最重要的部分,進而提高情感分析的準確率。
三、研究方法
(一)數據集
研究采用 NLPCC 2014(Natural Language Processingamp;ChineseComputing2014)數據集,該數據集由NLPCC2014評測任務提供,是中文文本情感分析領域的一個標準數據集,廣泛用于社交媒體文本情感分類研究。
(二)基于情感詞典的情感分析方法
情感詞典包含了大量的情感詞匯,涵蓋了各種情感類別(如喜悅、悲傷、憤怒、恐懼等),是一種用于對數據文本進行情感分類的工具[。由于情感詞典對于初使者十分友好易上手,使得情感詞典能夠在自然語言處理和情感分析領域被廣泛使用。但是,情感詞典由于僅僅關注于詞匯本身,往往會忽略語言在復雜語境之中的多樣性,是其主要面臨的瓶頸。
研究使用的情感詞典是臺灣大學NTUSD簡體中文情感詞典。
(三)Word2vec-CNN模型的構建與訓練
研究采用Word2vec-CNN結合模型進行文本情感分析。Word2vec負責將文本轉換為密集向量表示(wordembeddings),而CNN(卷積神經網絡)則用于捕捉文本的局部特征,以實現高效的情感分類。本節詳細介紹模型的構建過程,包括詞向量訓練、CNN網絡結構設計及模型優化策略。
1.詞向量訓練(Word2vec預訓練)
Word2vec主要是將詞匯轉換成向量的形式。這些向量能有效標注詞匯間的相似性、層次性和對立性等關聯程度,為后續模型的學習提供便利。詞袋模型(CBOW)和跳躍-gram模型(Skip-gram)是Word2vec最為常見的兩種模型訓練方式。它們都將詞匯表映射到一個低維向量空間中。其中,Skip-gram模型使用當前詞預測上下文,訓練過程通過從中心詞推斷周圍詞來進行,允許模型自適應調整上下文窗口的大小,特別適合于處理各類文本語料庫。而CBOW模型使用詞的上下文預測該詞本身。
模型嘗試通過上下文詞的平均來預測目標詞,其訓練速度更快,對于高頻詞匯的訓練效果往往更好,能夠更快地收斂。
2.CNN結構設計
TexTCNN是一個文本分類模型,采用卷積神經網絡(CNN)架構。在訓練完成后可以對文本的情感進行有效分類。該模型的幾個組件都承擔著不同的功能。
嵌入層:通過嵌入層可以將詞序列轉變為定長的向量。使用訓練完善的Word2Vec可以有效匹配嵌人層來完成這一工作,并且將每個詞提供的豐富語義信息提煉出來。
卷積層:在情感分析中,卷積層能夠通過大小不一的卷積核獲取詞匯間的關聯性,進而獲得文本的相應特征。具體而言,卷積核會在卷積操作進行時對整個文本進行遍歷操作,從文本中提取有效信息來輔助理解文本語義。
池化層:該層的主要功能是簡化由卷積層生成的輸出。通過實施最大池化,這一層選出每個特征映射中的最顯著信號,從而形成一個更精簡的特征表示,減少后續處理的計算負擔。
全連接層和softmax分類器:經過池化層處理后,得到的壓縮特征向量被送入全連接層,這里的全連接層負責將這些特征向量綜合起來,為最終的分類決策做準備。隨后,通過softmax分類器進行實際的情感類別預測(判定文本的情感傾向是正面還是負面)。
3.Word2vec-TextCNN的訓練
采用結合Word2vec和CNN模型進行的情感分析。具體流程如下。
訓練Word2Vec模型。利用jieba庫和正則表達式以及預先準備好的停用詞庫對數據進行預處理。而后使用Gensim庫中的LineSentence讀取處理后的文本文件并生成一個可迭代對象,通過不斷迭代訓練Word2Vec模型。
訓練TextCNN模型。將訓練的整體數據隨機按照8 : 1 : 1 分成訓練集、驗證集合和測試集。通過訓練集讓TextCNN模型學習數據的相關規律并進行迭代訓練。在訓練的過程中需要實時反饋在每個epoch上訓練的表現,這個時候就需要使用到驗證集,而測試集則是用于最終評估模型的性能。測試集是從未參與過訓練和驗證的數據集,可以用來評估模型在真實環境中的表現。
詞向量表示。詞向量表示可以運用訓練好的Word2Vec模型,來完成將詞匯映射到長度相等的向量空間的任務。之后使用Tokenizer將文本進行填充確保它們的長度相同并轉換為序列。根據詞向量模型構建詞嵌入矩陣。
構建TextCNN模型。通過Keras來構建TextCNN模型的嵌入層、卷積層、池化層、全連接層和輸出層結構。每一個層結構相互組合、配合使用,來完成對文本特征的分類。
編譯與訓練模型。通過設定訓練的批量大小、類別權重、訓練周期數等超參數并指定優化器和損失函數的相關算法,在模型的訓練過程中監控每個epoch中的loss和accuracy,并通過不斷對比、調整超參數來完成模型的訓練。
四、實驗與結果分析
主要對Word2vec-CNN模型與情感詞典方法進行實驗分析與性能對比。實驗基于NLPCC2014數據集,評估不同方法在文本情感分類任務上的表現。
(一)Word2vec-TextCNN的訓練模型評估
在訓練結束后通過準確率、精確度、召回率、F1分數等指標,并通過繪制混淆矩陣、準確率圖等對模型在不同類別上的預測情況進行了可視化。損失曲線和準確度曲線如圖1所示。
從圖1可以看到模型在訓練過程中訓練和驗證損失都在下降,同時訓練和驗證準確度都在提升,最終在驗證集上的準確率達到了 8 6 % 。同時,混淆矩陣中真正和真負的數量分別是535和477,遠大于假正類和假負類,同樣反映了模型已經被訓練完善。
(二)Word2vec-TextCNN模型與情感詞典對比
Word2vec-TextCNN模型通過詞向量和卷積神經網絡結合,能夠有效捕捉文本特征,提高情感分析的準確性和效率。而情感詞典是由人工構建的情感詞匯表,用于在文本中匹配情感詞并進行情感分析。Word2vec-TextCNN模型與情感詞典各有優劣。Word2vec-TextCNN模型在處理復雜文本和新穎語境時效果更好,但需要大量標注數據進行訓練。情感詞典則相對簡單易用,但受限于詞典的質量和涵蓋范圍。
采用在互聯網上公開的帶情感標簽的nlpcc2014數據集對兩個情感分析程序進行分析對比,并計算正確率。正確率如圖2所示。
從圖2可以看到Word2vec-TextCNN模型的正確率達到 8 2 . 3 % ,遠高于情感詞典的正確率 6 8 . 1 % 。
五、結語
通過實驗分析,得出以下主要結論。
第一,深度學習模型的情感分析效果顯著優于基于規則的方法。Word2vec-CNN在NLPCC2014數據集上取得了 8 2 . 3 % 的準確率,相比于傳統情感詞典方法( 6 8 . 1 % )提升了 1 4 . 2 % 。CNN結構能夠有效提取局部文本特征,提高短文本的分類性能,而情感詞典方法受限于固定詞庫,難以識別復雜情緒表達。
第二,情感詞典方法雖然對新詞、隱喻等復雜情緒表達的處理能力有限,但在特定環境下仍具有一定應用價值,特別是在計算資源有限、需要高可解釋性的場景下。例如,基層單位或移動端應用,可能沒有GPU或強算力支持,難以運行深度學習模型,此時情感詞典方法因計算開銷小仍然適用。特定領域(如法律文本、政府公文)中,情感表達較為固定,基于詞典的規則匹配可以快速完成情感分類。
第三,與其他模型對比,Word2vec-CNN具有較好的性能平衡。CNN結構的卷積操作能夠有效提取短文本的局部情感特征,同時具備較快的計算效率。相較于LSTM,CNN對文本順序依賴較低,更適用于短文本情感分類任務。相較于BERT,Word2vec-CNN計算成本較低,在資源受限的環境下更具實用性。
參考文獻
[1]杜偉夫,譚松波,云曉春,等.一種新的情感詞匯語義傾向計算方法[J].計算機研究與發展,2009,46(10):1713-1720.
[2]陳俊,席寧麗,李佳敏,等.融合Skip-gram與R-SOPMI的教育領域情感詞典構建[J].應用科學學報,2023,41(05):870-880.
[3]衛青藍,何雨,宋金寶.基于語義規則的自適應情感詞典自動構建算法[J].北京航空航天大學學報,2024,15(06):1-10
[4]聞彬,何婷婷,羅樂,等.基于語義理解的文本情感分類方法研究[J].計算機科學,2010,37(06):261-264.
[5]唐慧豐,譚松波,程學旗.基于監督學習的中文情感分類技術比較研究[J].中文信息學報,2007,21(06):88-94,108.
[6]趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學報,2011,22(05):887-898
浙江警察學院校級科研項目“大數據背景下的‘民轉刑’防范模型與預警機制研究”(項目編號:2023XJY013)
作者單位:戴鵬、張靜,浙江警察學院信息網絡安全學院;麻翊晨,上海市徐匯區市場監督管理局;裘堅杰,杭州市公安局蕭山區公安分局
責任編輯:張津平尚丹