胡飛菊 朱余平



關鍵詞: 在線評論;情感傾向分析;研究現(xiàn)狀;情感分析算法
0 引言
隨著計算機及智能手機通信設備的普及、互聯(lián)網(wǎng)技術的迅猛發(fā)展,促進了“互聯(lián)網(wǎng)+”各行各業(yè)的發(fā)展,同時也給人們生活和學習帶來了極大便利,如各大網(wǎng)絡平臺中的在線評論功能是人們交流溝通的重要渠道,在生活中扮演了非常重要的角色,比如:電商平臺的在線評論讓用戶更加了解商品的真實信息,增加了去實體店購物的真實感;旅游網(wǎng)站的在線評論讓用戶了解其他用戶對該景點、酒店的推薦情況;新聞網(wǎng)站的在線評論讓人們交流心中感想,了解大眾輿論導向等。
從在線評論中可以讓用戶更加真實地了解自己想要的信息,同時對在線評論進行研究,可以帶來很大的價值,如:對于政府來說,可以深入了解網(wǎng)絡社交媒體中公眾意見的形成和傳播情況,了解對社會問題的看法和政治觀點,規(guī)避輿論造成不良影響。對于企業(yè)來說,了解在線評論和社交媒體反映的情況,可以幫助他們從用戶角度了解產(chǎn)品和服務的質(zhì)量,可以及時調(diào)整市場營銷策略和改進產(chǎn)品設計。
然而,由于網(wǎng)絡環(huán)境的虛擬性和開放性,使得在線評論的形式和質(zhì)量參差不齊,如何從這些大量且價值密度低的在線評論中挖掘有用的信息成為當下研究的熱點問題,其中關于文本的情感傾向分析是其中的一個子問題。因此本文梳理了當下情感傾向分析研究的類型,基于在線評論的情感傾向分析研究方法、研究現(xiàn)狀及問題,最后提出未來研究展望,旨在為著手本文情感傾向分析學者及后續(xù)的文本情感傾向分析研究提供一定的啟發(fā)。
1 文本情感分析簡介
1.1 文本情感分析概念
文本情感傾向研究又稱意見挖掘,是指利用基于文本的自然語言處理技術,判斷文本中人們對產(chǎn)品、服務、組織的情感態(tài)度[1],例如積極、消極或中立等。情感分析任務就是回答“什么人?在什么時間?對什么東西?什么屬性?表達了怎樣的情感?”因此情感分析由實體、屬性、觀點、觀點持有者、時間五要素構成。比如以下文本“我覺得離散數(shù)學課程非常重要。”其中將其轉(zhuǎn)換為情感分析五要素即為(離散數(shù)學,/,正面情感,我,/) 。一般大部分研究都不考慮情感分析五要素中的觀點持有者和時間,只注重對實體或?qū)傩缘那楦袃A向。因此情感分析研究任務按照研究對象分為如圖1所示的類型。
文本情感分析分為詞語級、句子/篇章級、目標級。詞語級情感分析是分析單個詞語的情感傾向。句子/篇章級情感分析是抽取出整個句子中的情感詞,然后統(tǒng)計總的情感傾向。目標級情感分析是基于具體的實體,屬性,實體和屬性的組合的細粒度情感分析,與句子/篇章級的粗粒度情感傾向分析相比,細粒度情感分析可以更準確地捕捉文本中不同維度的情感信息,更細致地了解用戶對產(chǎn)品、服務、事件等的態(tài)度,提高了情感分析的準確度和實用性。
隨著微博、論壇的發(fā)展,文本情感分析研究非常廣泛,不僅由最初的計算機科學蔓延至管理科學和社會科學,而且在數(shù)據(jù)分析、市場營銷、輿情分析等領域中有著廣泛的應用。
1.2 在線評論的文本情感分析步驟
基于在線評論的文本情感分析研究流程如圖2 所示。
1) 數(shù)據(jù)收集:首先確定要研究的評論對象,找到評論數(shù)據(jù)來源。然后設計爬蟲算法,從網(wǎng)絡、社交媒體等平臺爬取評論文本數(shù)據(jù)存入文件。
2) 數(shù)據(jù)預處理:主要是對收集的文本數(shù)據(jù)進行清洗、規(guī)范化操作。首先進行分句操作,將文本劃分為句子。然后進行分詞操作,將文本按照一定規(guī)則劃分成不同的詞語片段,形成一個個獨立的文本單元。其次進行文本清洗,主要是去除無關信息、特殊符號、停用詞等干擾因素,使研究的文本規(guī)范化,便于計算機模型的處理和識別。最后進行詞性標注,對于每個分詞后的單元,通過相應的模型對其進行對應的詞性標注。
3) 情感分析:利用情感分析模型,對每個文本單元進行情感分析,確定其情感極性和類別。
4) 結果可視化分析:將分析結果可視化呈現(xiàn)給用戶,供用戶使用。
2 在線評論的情感分析算法
2.1 基于詞典的情感分析方法
基于詞典的情感分析方法是一種常用的文本情感分析方法,其原理是利用已有的情感詞典,通過匹配文本中出現(xiàn)的情感詞,統(tǒng)計對應的情感極性,從而判斷出文本情感傾向。
使用情感詞典進行情感傾向分析的方法,其優(yōu)勢是可以根據(jù)不同情境和任務需求,構建不同領域、不同語種的情感詞典,方便實現(xiàn)領域定制化;相對于其他情感分析方法,計算速度較快,適合處理大量文本情感信息;基于人工經(jīng)驗或機器學習算法構建情感詞典,易于理解和解釋。缺點是無法考慮上下文語境對情感的影響,容易出現(xiàn)誤判的情況;且情感詞典構建需要耗費大量的人力、時間和金錢,難以滿足不同場景和需求的快速更新和維護;對于一些特殊領域或新出現(xiàn)的表達方式,缺乏有效的情感詞庫支持,可能導致識別效果不佳。
2.2 基于機器學習的情感分析方法
基于機器學習的情感分析方法是通過構建訓練模型,自動學習文本中的情感特征,將文本分類為正面、負面或中性情感。模型在進行訓練時,會依據(jù)已有的標注數(shù)據(jù)不斷調(diào)整參數(shù),提高分類準確率。基于機器學習的情感分類方法按照是否需要標注樣本又可以分為3類,其特點如表1所示。
基于機器學習的情感分析方法基本流程如下:
1) 數(shù)據(jù)收集和預處理:從網(wǎng)絡、社交媒體等平臺爬取大量的文本數(shù)據(jù),并進行去噪、分詞、詞性標注、詞干提取等預處理操作。
2) 特征提取:從文本中提取出有意義的特征,如詞頻、TF-IDF、詞向量等,將文本轉(zhuǎn)化成計算機可以識別處理的形式。
3) 模型訓練:利用已標注好的文本數(shù)據(jù),采用機器學習算法(如樸素貝葉斯、支持向量機、K-means 等)對特征向量進行訓練,得到具有分類能力的模型。
4) 模型測試:利用測試數(shù)據(jù)對模型進行驗證,評估模型的準確度和性能。
5) 實際應用:將已經(jīng)訓練好的模型應用于實際場景中,對新的文本數(shù)據(jù)進行情感分析。
基于機器學習的情感分析方法能夠考慮上下文語境對情感的影響,適用性較強,具有較高的分類準確性。在新情境下,可以通過重新標注數(shù)據(jù)集和重新訓練模型來快速適應新環(huán)境。
但是有監(jiān)督的情感分析算法需要大量的標注文本數(shù)據(jù)作為訓練集,人工標注成本高。且特征向量維度較高,需要投入較多計算資源。無監(jiān)督的情感分析算法分類的準確率可能不高,所以未來對于采用少量標注樣本的弱監(jiān)督學習的情感分類算法研究前景較好[2]。
2.3 基于深度學習的情感分析方法
隨著深度學習技術的發(fā)展與成熟,將其運用到在線評論的情感分析研究中也取得了不錯的效果。基于深度學習的文本情感分析的原理是運用神經(jīng)網(wǎng)絡模型,從海量的文本數(shù)據(jù)中自動學習特征,同時利用大量的訓練數(shù)據(jù)來訓練模型、優(yōu)化參數(shù),從而實現(xiàn)文本情感的分類。其研究流程如下:
1) 數(shù)據(jù)預處理:對爬取的原始文本數(shù)據(jù)進行分句、分詞、去停用詞、建立詞典等清洗操作,以方便進行下一步處理。
2) 特征提取:將預處理后的文本轉(zhuǎn)化為計算機可以處理的向量表示,通常使用詞嵌入技術,如Word2Vec、GloVe等方法。將文本中的每個單詞映射到一個獨立的實數(shù)向量空間,從而將原始文本轉(zhuǎn)化為向量表示。
3) 模型構建:深度學習模型通常采用卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短時記憶網(wǎng)絡(LSTM)、門控循環(huán)單元(GRU)等結構來對文本進行建模,并輸出一個標簽,表示該文本的情感分類。
4) 訓練模型:在構建好深度學習模型之后,需要對其進行訓練。訓練過程通常采用反向傳播算法,使用目標函數(shù)作為損失函數(shù),對模型參數(shù)進行優(yōu)化。
5) 模型評估和預測:使用測試集對訓練好的模型進行評估,通常采用準確率、召回率、精度和f1-score 等指標進行評估。當模型評估通過后,即可使用該模型對新的文本進行預測,輸出其情感類別。
基于深度學習模型的情感分析研究,雖然構建的模型復雜,模型訓練耗費時間長,且需要大量手工的標注數(shù)據(jù),但是訓練不需要手動設計特征,能夠從大量的數(shù)據(jù)中自動學習特征,泛化性能好,可以學習到更為復雜的特征,從而提高情感分類的準確率,是目前研究情感傾向分析的熱門方法。
3 目前研究現(xiàn)狀及展望
目前,國內(nèi)外關于在線評論的情感分析研究運用詞典、機器學習等各種算法都有。如丁美榮等[3]將擴展詞典、預訓練、傳統(tǒng)機器學習的情感分析算法進行比較,研究得出基于擴展詞典和機器學習的情感分析的準確率高,另外在訓練機器學習模型時采用預訓練模型可以加速模型收斂,從而縮短模型構建的時間,并具有較好的泛化效果,但預訓練模型受訓練樣本數(shù)據(jù)不同的影響,可能會產(chǎn)生不同的分類結果,因此在這方面的問題還有待繼續(xù)研究。王奴建等[4]也是通過構建MOOC領域情感詞典,然后結合雙向GRU和注意力機制進行情感分類。諸林云等[5]提出將預處理好的文本數(shù)據(jù)輸入到bert模型訓練,得到融合上下文語境的詞向量,然后使用BiLSTM模型結合注意力機制進行情感分類,從而可以關注到一個句子中的重要詞匯,突出其情感程度以此來提高情感分類的準確度。高佳希等[6]提出在文本數(shù)據(jù)預處理時使用TF-IDF算法代替原來的手工去停用詞方法,并提出多個自注意力機制交互表示特征進行情感分類,從而優(yōu)化自注意力機制模型丟失的問題,以提高情感分類的準確度。喬百友等[7]提出在對于特征的細粒度情感分析研究中提出用戶對于某些特征的傾向比其他方面的特征傾向更關注,因此在使用word2vec表示詞向量后,通過詞頻統(tǒng)計法標注出用戶關注的特征方向,然后對所屬的詞向量進行加權處理,從而提高詞向量的表示能力,并利用BiGRU結合膠囊網(wǎng)絡的深度學習模型進行分類。Karna M等[8]人提出集成邏輯回歸、SGD、樸素貝葉斯、SVM四個分類器優(yōu)勢的多本文情感分類算法。
綜上運用基于機器學習的算法來研究情感分類問題,需要標注大量的數(shù)據(jù)來建立特征工程,但是對于長度過短的文本在建立特征表示的時候會出現(xiàn)特征稀疏的問題,從而不能很好地表示出原文本的含義,會出現(xiàn)歧義問題,影響情感分類精度。而構建情感詞典的方式不需要大量標注數(shù)據(jù),但詞典的質(zhì)量好壞直接影響分類結果。所以現(xiàn)在的研究中,大都將詞典與機器學習或深度學習模型結合起來,或者多個分類模型結合起來,取長補短,達到較好的情感分類結果。目前基于混合模型的情感分析是情感分析的研究熱點問題,且針對評論中含有表情符號、網(wǎng)絡流行用語、圖片等形式,如何判斷其情感也有待進一步研究。
4 結束語
本文基于各大網(wǎng)絡平臺在線評論爆發(fā)式增長、影響廣泛的背景下,思考并梳理了當下文本情感分析的方法、研究現(xiàn)狀及存在問題,提出展望:可以充分結合情感詞典、大數(shù)據(jù)背景下深度學習自我學習和遷移學習的優(yōu)勢,來構建混合模型提高情感分類的精度,并可以考慮從語義分析的角度解決文本特征表示不準確的問題。為后續(xù)的文本情感分析研究提供一定的啟發(fā)。