999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本分類模型對比研究

2023-02-20 03:24:36陳海紅黃鳳坡
赤峰學院學報·自然科學版 2023年1期
關鍵詞:分類文本情感

陳海紅,司 威,黃鳳坡

(赤峰學院 數學與計算機科學學院,內蒙古 赤峰 024000)

1 引言

文本分類問題是自然語言處理領域的重要研究問題,可以進行主客觀分類、輿情情感分析等。文本分類的模型也是比較多的,本文采用7種方法對中文文本進行二分類(正向情感、負向情感)或三分類(正向情感、中性情感、負向情感)研究對比,找到各種方法的優缺點,并將其應用到輿情情感分析等文本分類領域。

2 數據的準備

我們從網絡上收集了很多領域的評論數據,以及日常的微博數據,并對數據進行了預處理,去除多余的空格,表情符號,Html標簽等。然后對這些數據進行標注,再將數據轉換成各種模型能夠識別的格式。模型在使用的時候把這些數據分成開發集(development set)和測試集(test set),開發集又分成訓練集(training set)和開發測試集(development test set)。本文中使用的開發集樣本數是17130條,測試集樣本數是4187條,此外,還收集了停用詞典,情感詞典(分為正向詞典和負向詞典),程度副詞,否定詞典等數據。

3 中文文本分類法

3.1 基于情感詞典的分類法

基于情感詞典的分類法是對人類的記憶和判斷思維的最簡單模擬,人類會通過學習來記憶一些基本詞匯,如否定詞有“不”,積極詞有“幸福”“驕傲”,消極詞有“討厭”,從而在大腦中形成一個基本的語料庫,然后對輸入的句子進行拆分,看看記憶的詞匯表中是否存在相應的詞,然后根據這個詞的類別來判斷情感。

這里使用了一種比較簡單的算法,將詞語的權重值劃分為四類,分別為P、N、DaP、DaN。P類型的詞語權重值為1,包括積極詞語、否定詞+消極詞語;N類型的詞語權重值為-1,包括消極詞、否定詞+積極詞語、積極詞語+否定詞;DaP類型的詞語權重為2,包括程度副詞+積極詞語;DaN類型的詞語權重為-2,包括程度副詞+消極詞語。并假定情感值滿足線性疊加原理,最終算出的權重值在(-∞,+∞)范圍內,越大說明越積極。為了方便劃分類別,將最終的權重值放入sigmoid函數轉換成(0,1)之間的數值。上述方法在測試集上進行測試,最終結果的準確率為60%。

該方法存在的問題:(1)假設了所有積極詞語、消極詞語的權重值都是相等的,但我們知道中文文本本身帶有非常豐富的感情色彩,同為積極/消極詞語但語氣程度可能是不同的;(2)對否定詞和程度副詞僅做了取反和加倍,但事實上,不同的否定詞和程度副詞的權重程度也是不同的;(3)假設了權重值是線性疊加的,但事實上,人腦情感分類是非線性的,不僅僅在想這個句子是什么情感,還會判斷句子的類型,整體的結構(主語、謂語、賓語等),甚至還會聯系上下文對句子進行判斷,基于簡單的線性疊加性能是有限的;(4)情感詞典沒有自動擴充能力,人類獲得新知識的手段不僅僅靠他人的傳授,還會自己進行學習、總結和猜測,如“喜歡”和“熱愛”是積極詞語,那么人類就會知道“喜愛”也是積極的詞語。

3.2 snowNLP庫

SnowNLP是一個python寫的類庫,可以方便地處理中文文本內容,是受到了TextBlob的啟發而寫的,它囊括了中文分詞、詞性標注、情感分析、文本分類、轉換拼音、繁體轉簡體、關鍵字/摘要提取、文本相似度等諸多功能,像隱馬爾科夫模型、樸素貝葉斯、TextRank等算法均在這個庫中有對應的應用。SnowNLP對情感的測試值為0到1,值越大,說明情感傾向越積極。

使用SnowNLP對數據進行測試,測試數據有4187條,測試結果以0.5為界,大于0.5的判定為正向,小于0.5的判定為負向,最終的準確率為73%。如果大于0.8判定為正向,小于0.3判定為負向,中間為中性,最終的準確率為67%。

SnowNLP的分詞效果沒有結巴分詞效果好,而且原料是基于幾個方向的評論留言,語料文件比較片面,且其中有些語句意向不準確,導致效果并不是特別好,但如果沒有其他知識的情況下做中文文本處理,使用SnowNLP是一個不錯的選擇。

3.3 邏輯回歸

邏輯回歸是一個非常經典的分類算法,目前仍被廣泛應用到各個領域,Bahalul Haque等人利用邏輯回歸,根據年齡、性別、國家和地區預測COVID-19導致的個人死亡[1]。

我們首先對文本進行特征提取,提取方法采用TF-IDF(Term Frequency-Inverse Document Frequency),計算公式為:

S1是tf值與idf值的乘積,tf(t,d)表示某一篇文檔d中,詞項t的頻度。

nd表示訓練集文本數,df(d,t)表示包含詞項t的文檔總數。用S1和S2對訓練集和測試集文本進行特征提取,在訓練集上得到的特征矩陣維度是(17130,41000),這是一個非常龐大的稀疏矩陣。然后使用sklearn中的LogisticRegression[2]對該矩陣數據進行邏輯回歸訓練,訓練參數選擇newton-cg作為優化算法,選擇1.0作為懲罰系數。訓練好的模型應用到測試集上進行測試,測試結果的logloss:0.527,準確率83%。

文本的特征提取是自然語言處理領域的最重要問題,它決定著最終結果的上限。目前word2vec是一種應用較廣泛的特征提取方法,它產生了很多變體,應用于很多方面[3,4]。這里我們使用word2vec對文本再次進行特征提取。使用TF-IDF進行特征提取時,它能過濾掉一些常見的卻無關緊要的詞語,同時保留影響整個文本的重要詞語,但丟失了文本上下文之間的聯系。使用word2vec進行特征提取時,它會考慮上下文,并且維度更少。首先使用gensim庫中的word2vec[5]對1.3G的中文語料進行建模,生成維度為400的詞向量,使用該詞向量對[‘微積分’,‘統計學’,‘蘋果’]進行heatmap分析,發現微積分與統計學具有很多的相似性,與蘋果相差很多。

圖1 熱圖分析數值

然后將一個句子中所有詞的詞向量相加取平均,得到句子向量,再將句子向量輸入到上述邏輯回歸模型進行訓練,并測試。測試結果的logloss:0.617,準確率76%,發現并沒有得到比TF-IDF更好的結果。后面第3.4節也使用這個word2vec訓練的詞向量,得到了不錯的結果。

3.4 簡單的全連接網絡和LSTM模型

深度學習可以幫助我們從多角度提取文本特征,文本的分類問題同樣可以使用深度學習模型進行處理。我們先使用keras[6,7]中的Sequential搭建一個簡單的3層全連接網絡查看效果。在搭建神經網絡之前,先在word2vec訓練的詞向量的基礎上對特征數據進行標準化/歸一化處理,因為如果某個特征的方差遠大于其他特征的方差,那么它將會在算法學習中占據主導位置,導致模型不能像我們期望的那樣,去學習其他的特征,這將導致最后的模型收斂速度慢甚至不收斂。

model=Sequential()

model.add(Dense(256,input_dim=400,activation=” relu” ))

model.add(Dense(256,activation=” relu” ))

model.add(Dense(3))

model.add(Activation(” softmax” ))

模型中間加Dropout[8]和BatchNormalization()來防止過擬合,優化器選擇adam,損失函數選擇categorical_crossentropy,測試結果的logloss:0.453,準確率82%。

CNN(Convolutional Neural Network)和RNN(Recurrent Neural Network)都會將矩陣形式的輸入編碼為較低維度的向量,而保留大多數有用的信息,但卷積神經網絡更注重全局的模糊感知,循環神經網絡更注重鄰近位置的重構,而自然語言是具有時間序列特征的數據,每個詞的出現都依賴于它的前一個詞和后一個詞。由于這種依賴的存在,我們使用循環神經網絡來處理這種時間序列數據更適合。Long Short Term Memory Units(LSTMs)是一種特殊的循環神經網絡,從抽象的角度看,LSTM保存了文本中長期的依賴信息。

在使用LSTM建模之前,先測定訓練集和測試集中的句子長度,測試結果如圖2所示,根據圖中的結果,又計算了句子長度小于150的句子總數占61%,句子長度小于210的句子總數占93%,因此選擇句子長度為210,在訓練的過程中,加入了回調函數,使得模型能夠停止在最佳的迭代節點,最終結果如圖3所示,在epoch=25時達到了最佳節點。最終測試結果的logloss:0.32,準確率86%。

圖2 不同句子長度的數量分布

圖3 句子長度為210時的acc和loss

3.5 BERT模型

BERT(Bidirectional Encoder Representations from Transformers)模型來源于論文[9],它的網絡架構使用的是《Attention is all you need》中提出的多層Transformer結構,它解決了傳統模型的一些問題:(1)解決了RNN模型本身的序列依賴結構不適合大規模并行計算的問題;(2)詞向量訓練模型word2vec在預訓練好詞向量后就永久不變了,但不同語境中相同的詞可能代表不同的含義。BERT詞向量包含了雙向的語境信息,在很多方面具有比較好的效果,也出現了很多針對它的改進模型。

主要的思路:將一句話進行分詞,通過BERT模型之后輸出各個分詞對應的詞向量及CLS對應的詞向量,CLS中包含了整句話的信息,然后通過CLS進行類別的判斷。最終測試結果的logloss:0.31,準確率88%。

4 結果

F1和精確匹配(Exact Match,EM)是模型性能評價的兩個指標。如果預測值與真實值完全相同,則EM值為1,否則為0;F1則是平衡精確率和召回率之間關系的指標,值越大越好。幾種方法的EM和F1值如表1所示。測試集數據是一個三分類的數據,標記為1的代表正向情感,標記為2的代表負向情感,標記為0的代表中性情感,個數見表1所示。基于情感詞典的思路簡單,穩定性強,但精確度不高,需要提取好情感詞典,而這一步,往往需要大量的工作才能保證準確率,而且必須要對中文語義足夠了解才可以做到。測試時將結果值大于0.8的分類為正向情感,小于0.3的分類為負向情感,其余的分類為中性情感,結果的F1值為49%。SnowNLP的測試結果也是數值,和情感字典一樣做三分類劃分,F1值是51%。

表1 測試集樣本個數

機器學習允許我們在幾乎零背景的前提下,為某個領域的實際問題建立模型。在機器學習模型中,BERT模型達到了最高的準確率和最低的loss,表2的BERT模型結果是在learning_rate=2e-5,num_train_epochs=1.0,vocab_size=21128(詞表大小)的條件下獲得的。使用機器學習模型需要我們對相關框架、算法、知識點足夠的了解,如果沒有相關方面的知識又想做中文文本分類的話可以使用SnowNLP庫。根據表2的結果基于TF-IDF的邏輯回歸取得了不錯的效果,基于word2vec的邏輯回歸使用了平均詞向量方法獲得句子向量,這種方法的缺點是認為句子中的所有詞對于表達句子含義同樣重要。因此如果是簡單的任務,使用基于TFIDF的邏輯回歸將會是不錯的選擇,總體來講深度學習的方法精確度更高。

表2 結果對比

5 總結

本文使用基于情感詞典的分類方法,SnowNLP庫,邏輯回歸,全連接神經網絡,LSTM,BERT模型等多種方法對相同的文本進行分類研究。我們發現預訓練模型雖然在很多時候能取得不錯的結果,但需要忍受更大的模型尺寸及更高的延遲,因此在解決具體任務時,傳統的普通方法也許能取得不錯的結果,而且沒有更大的開銷。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 日本一区二区三区精品视频| 99尹人香蕉国产免费天天拍| 好久久免费视频高清| 人妻丰满熟妇αv无码| 国产小视频免费观看| 乱色熟女综合一区二区| 午夜啪啪福利| 免费一级毛片在线播放傲雪网| 国产精品无码作爱| 国产大全韩国亚洲一区二区三区| 在线亚洲小视频| 久爱午夜精品免费视频| 97影院午夜在线观看视频| 亚洲成人在线免费观看| 狂欢视频在线观看不卡| 国产又大又粗又猛又爽的视频| 国产精品美女免费视频大全| 国产一级毛片网站| 全色黄大色大片免费久久老太| 在线观看视频99| 激情亚洲天堂| 久久天天躁狠狠躁夜夜2020一| 欧美在线网| 日韩精品专区免费无码aⅴ| 久久人人爽人人爽人人片aV东京热| 九九热精品在线视频| 中文字幕av一区二区三区欲色| 乱人伦中文视频在线观看免费| 国产成人AV男人的天堂| 亚洲欧美在线综合图区| 四虎在线观看视频高清无码| 亚洲欧洲日产无码AV| 婷婷激情亚洲| 国产成人一区| av大片在线无码免费| 成人字幕网视频在线观看| 任我操在线视频| 欧美人在线一区二区三区| 天天躁日日躁狠狠躁中文字幕| 波多野结衣亚洲一区| 欧美第二区| 爆操波多野结衣| 国产人成在线观看| 亚洲欧洲日韩久久狠狠爱| 九九九久久国产精品| 久久伊人色| 99无码熟妇丰满人妻啪啪| 久久精品国产亚洲AV忘忧草18| 四虎精品国产永久在线观看| 黄片在线永久| 色哟哟国产精品| www亚洲天堂| 日韩精品一区二区三区视频免费看| 国产一级裸网站| 欧美国产日韩在线观看| 精品伊人久久久大香线蕉欧美 | 人妻少妇乱子伦精品无码专区毛片| 国产美女丝袜高潮| 欧美国产日韩在线观看| 精品无码国产一区二区三区AV| 国产人成网线在线播放va| 青青久久91| 亚洲精品另类| 国产精品黑色丝袜的老师| 日本免费高清一区| AV天堂资源福利在线观看| 国产香蕉一区二区在线网站| 国产免费好大好硬视频| 99在线观看免费视频| 日韩精品欧美国产在线| 综1合AV在线播放| 一区二区三区国产精品视频| 久久婷婷五月综合色一区二区| 91精品国产自产91精品资源| 高清色本在线www| 国产亚洲精品91| 夜夜拍夜夜爽| 亚洲成综合人影院在院播放| 毛片手机在线看| 激情爆乳一区二区| 在线欧美一区| 国产福利一区二区在线观看|