李夢楠 汪明艷
摘? 要:為了進一步了解情感分析方向的發展趨勢,通過對基于機器學習的情感分析文獻的整理與分析,首先對國內外基于機器學習的情感分析方法進行了梳理,介紹了相關方法的基本原理及算法改進;其次列舉了幾種方法在電子商務、餐館評價和災害管理中的實際應用,對當前情感分析應用中存在的主要困難進行探討,對相關方法處理能力進行評價;最后得出了上下游任務結合的處理方法值得深入研究的結論,給出了對情感分析未來研究趨勢的展望,提出了相關方法改進的挑戰。
關鍵詞:情感分析;機器學習;BERT;支持向量機;卷積神經網絡
中圖分類號:TP391.1? ? ?文獻標識碼:A
文章編號:2096-1472(2021)-09-21-03
Abstract: In order to further understand the development trend of sentiment analysis, this paper proposes first to sort out sentiment analysis methods of machine learning at home and abroad, after sorting and analyzing sentiment analysis literature. Basic principles and algorithm improvement are introduced, followed by the practical application of several methods in e-commerce, restaurant evaluation and disaster management. Difficulties in the current sentiment analysis application are discussed and the processing ability of related methods is evaluated. Finally, it is concluded that the processing method of combining upstream and downstream tasks is worthy of in-depth study, and the prospect of the future research trend of sentiment analysis and the challenges of related method improvement are given.
Keywords: sentiment analysis; machine learning; BERT; support vector machine; convolutional neural network
1? ?引言(Introduction)
用戶在論壇、微博、新聞上分享他們的觀點或意見,這些被認為是公眾意見的重要來源。在此背景下,情感分析研究應運而生,其目的是分析用戶情感。情感分析數據是不同應用領域的相關信息來源,例如在電子商務領域,產品評論是用自然語言寫成的,口語化評論更容易閱讀,但機器分辨情感極性并不容易;面對突如其來的災害,災民會通過社交媒體表達情感[1],救援組織或政府機構可以通過對相關區域社交媒體的分析了解災害的破壞程度。因此,情感分析是一個需要不同技術組合來進行管理的任務。
學者對基于深度學習的情感分析進行了研究,利用機器學習方法進行了多方面的探索。機器學習模型可以靈活地表示復雜關系,能夠估計后驗概率,執行時間較短,即使在有噪聲數據的情況下,也具備良好的性能。因此,機器學習方法在情感分析中得到了廣泛的應用。
本文根據機器學習算法在自然語言處理中的使用,以情感分析視角介紹相關方法的應用和部分算法改進策略,對情感分析的三個重要研究領域進行述評,探討了現有研究的成果和存在的不足,提出了未來的發展方向和研究挑戰。
2? 情感分析研究方法(Research methods of sentiment analysis)
2.1? ?卷積神經網絡
卷積神經網絡(Convolutional Neural Network, CNN)目前已經成為一種常用的機器學習模型而被許多學者使用。卷積神經網絡的特點是模型的非線性特點和區域學習嵌入的能力,它由嵌入層、卷積層、池化層和輸出層組成。在嵌入層中,每段文字被嵌入在單詞級,并被表示成一個矩陣。在卷積層中,過濾器的寬度固定在單詞向量的維數以捕獲相鄰單詞之間的關系。在池化層中,通過max-over-time池化操作提取每個特征映射對應的最大值。在輸出層中,提取特征并在全連通層中,該層在輸出上具有概率分布。特殊情況時,深度的卷積神經網絡可能超過四層:輸入層、兩個卷積層、兩個最大池化層和通過Softmax分類器輸出的全連接層。楊銳等[2]研究了基于卷積神經網絡的文本分類方法。ZHANG等[3]的研究表明,對于文本分類,基于字符的深度卷積神經網絡表現良好。卷積神經網絡模型被應用于許多任務中。卷積神經網絡可以在文本中提取局部n-gram特征,但有可能無法捕捉到長距離依賴性,而長短期記憶網絡(Long Short-Term Memory, LSTM)則可以通過對文本進行順序建模來解決這一問題。卷積神經網絡和循環神經網絡通常與基于序列或樹狀結構的模型結合。實驗表明,卷積神經網絡是一種可以克服以神經網絡高計算量為代價的替代方法,但與其他方法相比,它需要更多的訓練時間。
2.2? ?循環神經網絡
由于循環神經網絡能夠在相對靈活的計算中捕獲信息,在供應鏈管理中得到了廣泛的應用。與卷積神經網絡相比,循環神經網絡(Recurrent Neural Network, RNN)模型有兩個重要的特點。首先,卷積神經網絡在每一層都有不同的參數,但循環神經網絡在每一層都是相同的參數。在循環神經網絡中,一個階段的輸出依賴于前一個階段,需要占用很大內存。因此,循環神經網絡在處理順序信息方面比卷積神經網絡更有優勢。循環神經網絡可以利用這個優勢將一個任意長度的序列映射到一個固定長度的向量。由于梯度限制,簡單的循環神經網絡在其反向傳播過程中的訓練相對困難,主要有兩個問題:梯度消失問題(即梯度數值接近于零)和爆炸性梯度問題,這可能會導致在學習過程中出現不穩定的情況。另外,循環神經網絡模型還有一些其他的擴展,如雙向循環神經網絡[4]。循環神經網絡包含一個前向層和后向層,以便從前面和后面的令牌中學習信息。循環神經網絡處理文檔級情感分類,情感分類要求先建立句子表示,然后將其聚合成文檔表示,從而獲得層次表示。此外,在GRAVES等[5]學者的研究中,長短期記憶網絡與循環神經網絡結合產生了雙向長短期記憶網絡(BLSTM),可以訪問所有輸入方向上的上下文及更多的信息。MIAO等[6]提出了一種基于BLSTM和wavenet的語音轉換方法,以提高語音質量。因此,BLSTM也可以考慮句子間和句子內的聯系。
2.3? ?遞歸神經網絡
遞歸神經網絡(Recursive Neural Network, RNN)是循環神經網絡的一種推廣,它在有向無環網絡上遞歸地應用相同的權值集,但輸入段是樹狀結構。卷積神經網絡模型是由語言驅動的,因為它們探索了樹狀結構,并嘗試學習復雜的組合語義。而遞歸神經網絡的樹狀結構包括選區樹和依賴樹。一方面,在選區樹中,葉節點表示單詞,內部節點表示短語,根節點表示整個句子。另一方面,在依賴樹中,每個節點都可以表示一個單詞,該單詞與其他具有依賴連接的節點相連接。在遞歸神經網絡中,每個節點的向量表示是從它的所有子節點使用一個權重矩陣計算出來的。REN等[7]提出了由兩個虛擬單向遞歸神經網絡組成一種新的混合參數遞歸神經網絡算法。
2.4? ?支持向量機
支持向量機(Support Vector Machine, SVM)作為能夠有效分析數據的監督學習模型,是一種基于統計學習理論的新型機器學習方法,用于與機器學習算法相關的回歸分析和分類的應用,近年來在機器學習領域,憑借其優秀的學習性能逐漸成為研究熱點。支持向量機可以對一些常用的情感表達進行分類。評估是根據測量的準確度、精密度和召回率設置的。一種改進的情緒分析方法與先進的預處理被證明可以提供更好的結果。CAI等[8]提出了一個三層情感詞典,它可以將情感詞與對應的實體和方面聯系在一起,減少情感詞的多重含義。該模型從情緒動態特征的描述和計算出發,更全面地預測了描述情緒演化的過程特征。在未來,我們可以使用混合其他模型的分類技術以提高準確性。
2.5? ?基于變換器的雙向編碼器表征技術
基于變換器的雙向編碼器表征技術(Bidirectional Encoder Representation from Transformer,BERT)是一種基于神經網絡的自然語言預處理技術。BERT模型可以通過輸入層和輸出層進行適當的微調,以在各種文本分析任務中創建模型。BERT的核心是采用transformer技術,它非常適用于基于編碼-解碼模型和注意力機制的自然語言處理任務。相較于支持向量機模型,BERT可以在數據量較大時有更加出色的表現,處理性能會顯著提升。例如,當前新冠肺炎疫情已演變為全球性流行疾病。公共衛生問題不僅與公眾的預防感染有關,還與經歷疫情的公眾心理狀況有關。因此,分析產生負面情緒的社交媒體數據有助于了解公眾在新冠肺炎疫情期間的經歷,并為預防其他疾病提供借鑒。WANG等[9]分析了疫情期間情緒隨時間的演變及微博中與負面情緒相關的主題。實驗表明,BERT具備更優異的特征提取能力,可以提升情感分類的性能和穩定性,加快收斂的速度。可以利用BERT對相同文本的三種語言進行情感分析,李妍慧等[10]為處理多語種文本的情感分析問題提供了有效的解決方案。
3? 情感分析研究領域(Research field of sentiment analysis)
3.1? ?電商用戶評論情感分析
網上購物已成為公眾消費的主要方式。對電子商務平臺上的大量用戶評論進行情感分析有助于電商改進產品以提高用戶的整體滿意度。對于潛在消費者來說,閱讀產品評論來決定是否購買該產品可以降低選擇難度[11]。因此,產品評論分類也是情感分析研究的領域之一。榮飛瓊等學者[12]針對在線產品銷售的決策需求,結合各行業在線產品的銷量影響因素及卷積神經網絡算法優勢,構建了適用于在線產品的銷量預測模型。通過建立一個四層卷積神經網絡模型,嵌入矩陣和其他權重,完成單詞的嵌入和特征提取以改善情感分析的效果。洪文興等[13]對攜程網和京東的五種商品及亞馬孫的四種商品的評論數據進行分析,依靠卷積神經網絡抽取特征向量,通過對公共特征空間進行重構來進行領域自適應,使其在情感分類問題上取得了不錯的表現。為了提高產品評論情感分析的準確性,YANG等[14]結合GRU模型、注意力機制、情感詞典和卷積神經網絡模型的優點,建立了SLCABG模型。但情感類別只有正負兩類,對要求情感類別細化的領域并不適用,還需要繼續提升情感的細粒度分析。
3.2? ?消費者餐館點評情感分析
消費者在前往陌生城市時,往往會在互聯網平臺尋找分布美食的區域,諸如Yelp、大眾點評網等平臺提供了這樣的餐館評價服務。用戶可以在享用美食后對該餐館的味道、消費額、環境等進行分數或星級的評價,陌生消費者也可以通過這樣的評價確定該餐館是否符合自身選擇條件以進行消費。從餐館運營者角度來看,可以積累更多的優質評價有助于吸引消費者群體聚集,并提升餐館的整體形象和營業收入。ZHAO等[15]提出了關系嵌入和子樹嵌入兩種句法表示方法,以捕獲潛在的語義特征。采用遞歸神經網絡對子樹嵌入進行建模,然后將子樹嵌入和詞嵌入相結合,作為句法路徑中每個詞的增強詞表示;采用卷積神經網絡對兩種類型的語法表示進行整合,從評論中提取情感搭配,在酒店、餐廳等服務領域取得了較好的表現。
3.3? ?災害地區社交媒體情感分析
社交媒體憑借其使用的低門檻成為災害信息聚集的可靠平臺。部分災害地區的民眾可能會通過在社交媒體發布信息來尋求幫助,表達情感。對災害地區民眾的情感掌握有助于政府或救援組織、機構有效地、快速地提出應對策略,以減小損失。因此,對災害地區的社交媒體進行情感分析有助于災害發生過程中的應急管理。一個經歷災害的城市應該解決各種形式的救災資源分配不平等的問題,而豐富、準確、及時的態勢感知可以幫助救援組織減少不必要的資源消耗。
例如,有學者利用地理標記的Twitter數據,通過采用情緒分析、卷積神經網絡模型和LDA主題模型來反映颶風佛羅倫薩的態勢感知,以此研究社區公平在颶風事件中對態勢感知的影響。福島核電站泄漏期間,人們的情緒狀態引起了HASEGAWA等[16]學者的關注。通過使用推文中包含的區域標識符(名詞、專有名詞、地名、郵政編碼、電話號碼)按地區進行分類,然后從單個推文中包含的詞語(積極或消極)的語義取向來分析民眾對這些地區的感受。結果表明,關于輻射的推文數量總體上減少了,人們對輻射的感覺呈積極的趨勢。然而,人們對福島縣的負面情緒卻變得更加極端。與福島縣無關的原創和轉發推文趨于正面情緒,而與福島縣有關的原創和轉發推文趨于負面情緒。但有地理標簽的推文只占目標數據的0.25%,因此,需要更全面的數據來提升研究質量。此外,由于Twitter用戶居住地的年齡構成和地域存在偏差,用戶不一定具有代表性。GRUEBNER等[17]利用Twitter提取、分析了2012 年桑迪颶風之前、之中和之后負面情緒數據,評估紐約市人口普查區域的負面情感隨地理位置的變化。他們使用了一種名為“在情感可視化中提取簡短信息的意義”(EMOTIVE)的高級情緒分析方法對推文進行分析。結果顯示,包括恐懼、憤怒和悲傷在內的負面情緒集中在紐約市的一些社區,并隨著時間的推移持續存在,在斯塔頓島最為突出。但這只是針對紐約市的研究,國際化大都市的分析數據可能并不適用于中小型城市或鄉村。
4? ?挑戰與未來工作(Challenges and future work)
隨著更多學者深入情感分析領域進行研究,機器學習方法在其中的應用也得到相應發展,使用相關方法的精確度和速度在情感分析領域應用前景巨大。但當前也存在一些困難,這些困難為今后該領域的工作提供了潛在的研究價值。
(1)樣本的多樣性會導致數據處理的精確度無法維持,不同語言的數據集可能會使相同的方法表現出差異。
(2)單一算法的數據分析無法做到絕對理想的效果,如何將不同算法結合以提高處理效率是未來情感分析領域的重點研究內容。
(3)隨著BERT模型的逐步應用,下游任務模型和預訓練模型的結合會提高處理速度,諸如XLnet模型也對BERT進行了改進,未來上下游任務結合的處理算法是值得深入研究的課題。
5? ?結論(Conclusion)
本文對基于機器學習的情感分析方法與實際應用進行了綜述,回顧了現有情感分析問題所采用的機器學習方法、模型及部分相關算法的改進與優化,比較詳細地記錄了不同方法在情感分析中的實際應用,總結了自然語言處理在情感分析應用中存在的困難及后續可能的研究方向。隨著技術的不斷發展,情感分析領域會吸引更多的學者深入研究,用于上下游的機器學習方法會提高情感分析的精確度和穩健性,逐漸成為商業機構、政府等的重要分析工具。因此,機器學習方法在情感分析方向具有重要的研究意義。
參考文獻(References)
[1] FAN C, WU F, MOSTAFAVI A. A hybrid machine learning pipeline for automated mapping of events and locations from social media in disasters[J]. IEEE Access, 2020, 8:10478-10490.
[2] 楊銳,陳偉,何濤,等.融合主題信息的卷積神經網絡文本分類方法研究[J].現代情報,2020,40(04):42-49.
[3] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in Neural Information Processing Systems, 2015, 1(9):649-657.
[4] 范昊,李鵬飛.基于FastText字向量與雙向GRU循環神經網絡的短文本情感分析研究——以微博評論文本為例[J].情報科學,2021,39(04):15-22.
[5] GRAVES A, SCHMIDUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5):602-610.
[6] MIAO X, ZHANG X, SUN M, et al. A blstm and wavenet-based voice conversion method with waveform collapse suppression by post-processing[J]. IEEE Access, 2019, 7:54321-54329.
[7] REN H Q, WANG W Q, QU X W, et al. A new hybrid-parameter recurrent neural network for online handwritten Chinese character recognition[J]. Pattern Recognition Letters, 2019, 128(6):400-406.
[8] CAI Y, YANG K, HUANG D P, et al. A hybrid model for opinion mining based on domain sentiment dictionary[J]. International Journal of Machine Learning and Cybernetics, 2019, 10(8):2131-2142.
[9] WANG T, LU K, CHOW K P, et al. COVID-19 sensing: Negative sentiment analysis on social media in China via Bert Model[J]. IEEE Access, 2020, 8:138162-138169.
[10] 李妍慧,鄭超美,王煒立,等.一種混合語種文本的多維度多情感分析方法[J].計算機工程,2020,46(12):113-119.
[11] 劉麗娜,齊佳音,齊宏偉,等.在線評論中離散情感的分布研究[J].情報科學,2017,35(08):121-128.
[12] 榮飛瓊,郭夢飛.基于卷積神經網絡的在線產品銷量預測分析研究[J].西北民族大學學報(哲學社會科學版),2019(02):15-26.
[13] 洪文興,杞堅瑋,王瑋瑋,等.基于公共特征空間的自適應情感分類[J].天津大學學報(自然科學與工程技術版),2019,52(06):631-637.
[14] YANG L, LI Y, WANG J, et al. Sentiment analysis for E-commerce product reviews in Chinese based on sentiment lexicon and deep learning[J]. IEEE Access, 2020, 8:1.
[15] ZHAO Y Y, QIN B, LIU T. Encoding syntactic representations with a neural network for sentiment collocation extraction[J]. Science China(Information Sciences), 2017, 60(11):7-18.
[16] HASEGAWA S, SUZUKI T, YAGAHARA A, et al. Changing emotions about Fukushima related to the Fukushima nuclear power station accident-how rumors determined people's attitudes: Social media sentiment analysis[J]. Journal of Medical Internet Research, 2020, 22(9):1-31.
[17] GRUEBNER O, LOWE S R, SYKORA M, et al. Spatio-temporal distribution of negative emotions in New York City after a natural disaster as seen in social media[J]. International Journal of Environmental Research and Public Health, 2018, 15(10):2275-2297.
作者簡介:
李夢楠(1991-),男,碩士生.研究領域:自然語言處理.
汪明艷(1975-),女,博士,教授.研究領域:數據分析,輿論治理,電子商務.本文通訊作者.