999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮句子類型分類的情感分析研究

2021-10-28 07:50:58姬思陽侯開虎
軟件導刊 2021年10期
關鍵詞:特征提取分類文本

姬思陽,侯開虎

(昆明理工大學機電工程學院,云南昆明 650500)

0 引言

情感分析被定義為尋找持有者對特定實體意見的任務[1]。Liu[2]提出情感分析的意見或評論可以由(o,h,t,ɑ,p)五元組組成,其中o是意見,h是意見持有者,t是意見o由h表達的時間,ɑ是意見o的主題方向,p是意見o關于方面ɑ的極性方向。現代社會中,情感分析(SA)已經成為NLP 中運用較廣泛的一個分支,對餐飲[3]、旅店[4]、旅游[5]、購物[6]、社交媒體[7]等方面具有非常大的作用。決策者通過收集用戶購買和使用產品之后的評論來改進自己的產品,以此增加整個企業的效益[8]。而在推特、微博等社交媒體中,人們也在表達自己的情感[9]。

本文提出一種句子級情感分析方法,對社交媒體推特上積極和消極兩種情感表達進行識別。同時,提出一種新型的基于LSTM 的句子分類器,因為神經網絡在句子分類方面有著很強的學習能力,能夠得到一個效果較好的分類器。

針對句型分類任務,本文用一個單獨的推特數據集訓練一個分類器,利用基于規則的手段獲得所需句型數據集。Xia 等[10]證實了根據一定規則劃分句型是可行且高效的。針對情感分析任務,使用另一個獨立情感數據集,避免了使用訓練分類器時的數據集而造成數據擬合,影響整個情感分析研究的有效性。

實驗中,使用詞包(BoW)和詞頻—逆向文件頻率(TFIDF)兩種詞向量生成方式,體現所提出的句型分類器在不同詞向量下均能提高整體的情感分類準確度,證明了該方法的魯棒性。

綜上所述,本文主要研究包括:①創建句型分類數據集,并訓練基于長短期記憶學習(LSTM)神經網絡的句型分類器;②融合句型分類器和傳統情感分析模型,針對不同句型使用不同的N-gram 特征提取方式,獲得完善的數據對比結果。

1 相關工作

神經網絡的運用,推動了情感分析任務的快速發展。蘇靈松等[11]提出利用CNN 和LSTM 網絡提高情感分析精度,但針對長序列文本無法獲得較好的依賴關系;司新紅等[12]提出添加注意力機制的CNN,并結合BiLSTM 提高情感分析準確性;劉曉彤等[13]總結方法并研究了深度學習和單一機器學習在情感分析中的優缺點。

Saif 等[14]提出一種SentiCircle 的動態詞匯表示,他們認為詞匯的情感表達應該是動態的,不同的詞匯在不同的語境中表達的情感也是不同的,創新性地將術語情感描繪為一個極坐標形式,極大提高了極性分類精度;Araque 等[15]采用機器學習和傳統人工提取特征相結合的方法,將詞嵌入和線性機器學習方法相結合開發一個情感分類系統;Chen 等[16]使用分布式算法,提出一個具有條件隨機域的雙向長短期記憶學習(BiLSTM-CRF),根據句子中目標個數進行分類,每種類型的句子被傳入一個獨特的一維卷積神經網絡(1D_CNN)作為情感分析的分類器,他們所提出的方法在基線方法中表現最好,也證明了分而治之對情感分析有作用;Tripathy 等[17]在電影評論數據中對N-gram 做了全面分析和評價,在各種機器學習方法中,同時使用Unigram 和Bi-gram 能夠提高分類精度,隨著N 值增加,分類精度會越來越低。隨后有學者證明N-gram 的取值不僅與N值有關,還與文本領域以及文本大小有關。因此,有必要針對自己的數據集具體分析N-gram 的取值。

除對神經網絡的運用和N-gram 的選取外,否定句和對比句等特殊句型的處理也會增加整個極性分類的性能。Cambria 等[18]提出5 個影響極性分類的處理方法,分別是共指消解、否定處理、回指消解、命名實體和詞義消歧。對于句子級文本而言,最重要的是否定處理。

以上方法未明確針對句子類型不同,特征提取方式對情感分析的影響。本文通過訓練基于LSTM 的句子類型分類器并融合一般的情感極性分類算法,研究和分析了使用句型分類器的情感分類精度。

2 文本句型分類器

2.1 LSTM

LSTM[19]是循環神經網絡(RNN)[20]的改進版。RNN 對于短序列的特征提取效果很好,但是當一個序列的關聯程度較長時,RNN 在反向傳播中會出現梯度消失的問題。而LSTM 由于其優秀的長序列特征識別,在NLP 中運用十分廣泛,其整體結構類似于RNN 的結構,但是每一個中間層是以門結構為基礎,分為輸入門、輸出門和遺忘門。其中,遺忘門計算公式如式(1)所示。

其中,σ是sigmoid 函數,取值范圍為(0,1),ht-1是上一個神經元的輸出,xt為此神經元的輸入,Wf和bf是遺忘門的權重和偏置值。輸入門公式如式(2)和式(3)所示。

其中,it決定了更新傳入的數據,而表示創建一個新的候選值向量,Wi、Wc、bi、bc分別是每一條數據傳輸的權重和偏置值,tanh 表示一個tanh 的計算。利用輸入門所計算的值去更新整個數據,以此確定還有哪些數據需要保留、哪些數據需要拋棄,如式(4)所示。

Ct表示經過本個神經元保留下來的信息,Ct-1是上一個狀態下所保留的信息。最后輸出門計算如式(5)和式(6)所示。

ot表示該神經元輸入的哪些部分需要輸出,ht表示最終輸出結果。

2.2 LSTM 句型分類器

整個數據集構成如圖1 所示。

Fig.1 Number of special and non-special sentence types圖1 特殊句型和非特殊句型數量

可以看出,特殊句型占全部句子的1/3 左右,說明在平時的tweet 中,有很大一部分句子包括否定和對比。對數據集按照4∶1 的比例分為訓練集和測試級。第一層為輸入層,詞嵌入的長度為300 維,第二層是LSTM 層,共有128 個單元組成,之后接256 維的全連接層,最后是一個Softmax分類層,dropout 為0.5,總共包括420k 個參數。總體結構如圖2 所示。

Fig.2 Overall structure of sentence classification圖2 句型分類器整體結構

3 情感分析方法

3.1 模型提出

在LSTM 分類器訓練完成后,將分類器與特征提取模塊相結合,整體框架如圖3 所示。

Fig.3 Overall model framework using sentence classification圖3 使用句型分類器整體模型框架

文本傳入到句型分類器中,將預測為特殊句型(否定句和對比句)的tweet 標記為N,將非特殊句型標記為T。經過對句型的分類之后將所有數據轉化為特征向量,應用兩種不同的特征向量生成模型BoW 和TF-IDF。在特征提取過程中,對標記為T 和標記為N 的tweet 使用不同的Ngram,以此說明N-gram 的選擇與句子類型有關系。特征提取之后分別選擇隨機梯度下降(SGD)、多項式NB 和邏輯回歸3 種機器學習分類算法分析情感極性。最終精確值取分類之后的加權和,定義如式(7)所示。

其中,wT和wN表示分類為標記T 和分類為標記N 的權重比例,ɑT和ɑN分別是分類為T 時的測試精確值和分類為N 的測試精確值。

3.2 特征向量提取

本次實驗使用BoW 和TF-IDF 兩種提取特征向量的算法。

Bag of Words(BoW)又稱為詞袋模型,指將所有存在的詞匯或短語匯總到一起,就像是一袋詞匯一樣。

詞頻—逆向文件頻率(TF-IDF)是一種統計方法,用于評估一個詞或詞對對于一個文本集或一個語料庫中其中一個文本的重要程度,詞的重要性與其在文本中出現的次數成正比,但是與其在整個語料庫中出現的頻率成反比。簡單而言,即如果一個單詞在一個文本中出現的頻率(TF)高,并且這個詞在其他文本中出現的頻率很少,則認為這樣的一個詞具有很高的識別度,能夠用來區分其他文本,其計算公式如(8)所示。

其表示詞在文本中出現的頻率(詞頻),每個文本單詞總和可以用W表示,W={w1,w2,…,wi-1,wi,…,wk-1,wk},語料庫中的文本總數由D表示,D={d1,d2,…,dj-1,dj,…,dk-1,dk},ni,j表示該詞wk在文本dj中出現的次數。∑knk,j表示文本dj中每個詞出現的次數總和。

式(10)表示逆向文檔頻率(IDF),其中 |D|為語料庫中的文本總數,|{j:wi∈dj} |表示包含詞語wi的文本總數,為了使公式有意義,需要在分母上加一個小整數如式(11)所示。

可以看出,含有wi的文本數越少,IDF的值就會越大,說明此單詞有著很好的類別區分能力。

4 實驗結果比較

4.1 數據集準備

收集推特中的情感數據集192k 條,每條數據包含tweet內容和對應的情感標簽,“-1”表示消極,“0”表示中性,“1”表示積極,本次實驗只考慮極性分類,因此首先從數據集中提取表示積極和消極情緒的tweet。此外,還需先去掉重復內容和存在空值的tweet,最終得到極性分類的數據集。其中,包含70k 個表示積極的tweet 內容,將其標記為“P”,35k 個表示消極的tweet 內容,標記為“N”,數據集的預處理與訓練LSTM 分類器時相同。以4∶1 的比例將數據集分為訓練集和測試集,分別包含有84k 和21k 條tweet。

4.2 實驗結果

為了比較分類器使用與否對極性分類的影響,對不使用分類器和使用分類器所得的結果作比較,其中不使用LSTM 分類器的正常模型前綴為Nor,而使用句型分類器的模型前綴為Cls。使用不同特征提取模型的命名規則,如:Nor_Unigram 表示正常情感分析下,使用Unigram 進行特征提取,Cla_Unigram 表示本次實驗所提出的利用句型分類器下,使用Unigram 進行特征提取,其余標題相似。使用BoW和TF-IDF 提取詞向量時,選擇特征提取方法N-gram 的值分別為:Unigram、Bi-gram、Tri-gram、Unigram+Bi-gram、Unigram+Bi-gram+Tri-gram 共5 種取值。之后選擇SGD、邏輯回歸和多項式NB 作為分類器。在分類之后對含有否定意義和對比意義的特殊句型使用Unigram+Tri-gram 的特征提取方法。實驗結果如表1 和表2 所示。

Table 1 Sentiment classification results of feature vector extracted by BoW表1 利用BoW 提取特征向量的情感分類結果

Table 2 Sentiment classification results of feature vector extracted by TF-IDF表2 利用TF-IDF 提取特征向量的情感分類結果

從表1 可以看出,利用BoW 提取模型特征向量時,在使用LSTM 句型分類器之后,使用SGD 分類器整體的分類精度有所提高。在使用LR 作為分類算法時,發現采用Unigram 對非特殊句型進行特征向量提取獲得了最好的精度,但在比較每一種N-gram 時發現,大部分使用句型分類器的精度要高于不使用句型分類器的結果,只有最后一行使用句型分類器和Unigram+Bi-gram+Tri-gram 的分類精度要低于不使用句型分類器和Unigram+Bi-gram+Tri-gram,主要原因在于特殊句型特征提取使用的是Bi-gram+Tri-gram。而對于整體數據提取特征,除Bi-gram+Tri-gram 外,還有Unigram 特征提取更豐富。但是本文目的是使用最少的資源提高整體分類精度,整個數據集使用3 種N-gram 帶來的計算量非常巨大。在使用NB 作為分類器時,可以看到最好的分類精度是使用句型分類器的Tri-gram 特征提取。橫向對比時,使用句型分類器整體精度均高于不使用分類器的精度。整體而言,在使用句型分類器和Tri-gram 特征提取的NB 分類器獲得了最佳性能,但是如果在考慮到計算成本后,使用句型分類器和Uni-gram 特征提取的LR 最具有競爭性。

由表2 可以看出,將TF-IDF 作為特征向量的生成算法,使用SGD 分類算法時,使用LSTM 句型分類器的整體精度均高于不使用句型分類器模型,并且使用Tri-gram 獲得了最高的分類精度。而使用LR 作為分類器時,使用LSTM句型分類器先對句子分類獲得的準確度整體要高于不提前分離句型的準確度。而將NB 作為分類器時,使用LSTM句型分類器和Tri-gram 獲得了最高的準確度。在相同的N-gram 下,使用LSTM 句型分類器和Uni-gram、Tri-gram 進行特征提取的精確度高于不提前使用分類器的精度。整體看來,使用LSTM 句型分類器和Tri-gram 特征提取的組合獲得了最高的分類精度。

綜上所述,結合不同的詞向量生成算法、不同的Ngram 值以及不同的分類器可以得出,最佳的分類精度取自利用BoW 生成詞向量并使用句型分類器和Tri-gram 特征提取的NB 分類器。而利用TF-IDF 生成詞向量并使用句型分類器和Uni-gram 特征提取的LR 最具有競爭性。利用Bow 模型生成詞向量在預測Tweet 的情感效果要好于使用TF-IDF,而實驗證明所提出的LSTM 句型分類器對情感分析具有促進作用。

5 結語

情感分析作為NLP 的一個重要子任務,運用廣泛,大量學者致力于研究其高效的分類算法。本文針對Tweets 建立了一個情感分析新模型,利用分而治之的思想,首先針對按照句子類型分類得到的分類結果,使用不同的N-gram特征提取,最終達到提高分類精度、降低運算量的效果。由于還沒有相關數據集能夠用來訓練句型分類器,首先根據一個情感數據集創建了一個用于句型分類的數據集,得到一個高分類精度的LSTM 句型分類器;之后利用LSTM 句型分類器進行實驗,最終得到在推特情感分析中使用BoW生成詞向量要優于使用TF-IDF,在使用句型分類器后,能夠在減少計算消耗的情況下提高整體分類精度。使用Trigram 和NB 分類器獲得了最好的分類性能,但是在損失精度較少的情況下,使用Uni-gram 特征提取的LR 分類器能夠極大降低詞向量的生成數量和計算量,能夠成為不錯的選擇方案。未來工作中,首先需要調整整個模型的參數設置,以此提高整體計算精度;其次,本次實驗僅取否定意義的句子和對比意義的句子,今后將增加更多的分類句型,并將整個模型擴展到其余非英語語言使用上。

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 丝袜高跟美脚国产1区| 一级香蕉视频在线观看| 日本免费福利视频| 五月天丁香婷婷综合久久| 亚洲天堂.com| 永久免费无码成人网站| 亚洲精品黄| 色综合狠狠操| 亚洲国产精品一区二区高清无码久久| 国产欧美精品午夜在线播放| 91日本在线观看亚洲精品| 福利在线不卡一区| 无码中文AⅤ在线观看| 欧美一级在线| 国产真实乱了在线播放| 亚洲视频四区| 婷婷六月激情综合一区| 国产高清在线精品一区二区三区 | 狼友视频一区二区三区| 亚洲日本一本dvd高清| 国产欧美日本在线观看| 久久福利网| 精品一区二区久久久久网站| 色成人综合| 久久青青草原亚洲av无码| 亚洲天堂久久| 丝袜美女被出水视频一区| 成人av手机在线观看| 亚洲丝袜第一页| 国产女人在线观看| 国产亚洲精| 狠狠干欧美| 无码专区国产精品一区| 4虎影视国产在线观看精品| 亚洲va欧美va国产综合下载| 国产一区成人| 永久天堂网Av| 在线国产你懂的| 国产性生交xxxxx免费| 国产一级二级三级毛片| 91激情视频| 亚洲欧洲自拍拍偷午夜色| 尤物亚洲最大AV无码网站| 国产一级无码不卡视频| 色偷偷一区| 国产精品专区第1页| 国产精品久久久久久久久| 精品国产污污免费网站| 91视频99| 亚洲天堂日本| 欧美精品v欧洲精品| 久久免费精品琪琪| 操美女免费网站| 色135综合网| 91在线中文| 91九色最新地址| 久久黄色一级视频| 久久人妻xunleige无码| igao国产精品| 国产欧美日韩综合在线第一| 网友自拍视频精品区| 久久国产V一级毛多内射| 欧美中文字幕无线码视频| 国产成人乱无码视频| 久久久久夜色精品波多野结衣| 国产精品xxx| 国产乱人伦偷精品视频AAA| 国产高清精品在线91| 亚洲国产在一区二区三区| 国产成人做受免费视频| 国产成人8x视频一区二区| 国产经典在线观看一区| 中文字幕丝袜一区二区| 91成人在线免费视频| 国产精品性| 日韩中文字幕亚洲无线码| 在线99视频| 中文无码毛片又爽又刺激| 欧美特黄一免在线观看| 国产精品漂亮美女在线观看| 制服丝袜亚洲| 美女裸体18禁网站|