999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習情感分析方法改進研究

2020-06-01 05:14:04
西安航空學院學報 2020年1期
關鍵詞:分類情感方法

李 鼎

(西安航空學院 人事處,西安 710077)

0 引言

隨著互聯網的飛速發展,尤其是自媒體(如微博、論壇、貼吧、社區等)的出現,改變了傳統媒體一枝獨秀的局面。傳統媒體是通過廣播形式向用戶單方向傳播信息,而現代互聯網媒體時代,人們不僅是信息的被動消費者,更多的則是信息的生產者,人們主動參與網絡互動,比如就某一話題發表自己的觀點,參與時事討論等。隨著網民數量的急劇攀升,隨之而來的是海量數據的產生。能夠快速地從網絡海量信息中提取出網民的情感傾向,及時掌握網民對某一事件的態度和看法,已經成為重要的研究課題。

現今的網絡數據來源多樣,我們可以通過諸如新浪微博、大秦論壇、百度貼吧等主流社交媒體獲得針對特定話題的語料信息,并對其進行整理分析,從中得到有用的信息加以利用。然而,現存的情感分析技術存在著這樣或那樣的缺點,基于文本的情感分析方法往往對于特殊場景的判斷不準確;基于機器學習的情感分析方法往往需要大量豐富的數據集,準確率難以得到保證。

本文基于這樣的現實背景,研究了一種提高情感分類準確率的方法,使情感分析的結果更加準確。

1 情感分析方法研究

1.1 基于正向、負向和中性的情感詞典情感分析方法研究

采用五組不同的數據文本進行實驗,數據來源于新浪微博、大秦論壇等知名微博和論壇,每組1000條數據。經過程序自動運行結果和手工標注不同數據組的結果進行比較,對于不同數據組,使用基于情感詞典[1]的情感分析方法進行情感分析[2-3]得到的結果準確率如圖1所示。

圖1不同數據組情感分析準確率表示

由圖1可以看出,第一組、第二組、第四組和第五組的實驗準確率都在50%左右,而第三組的準確率卻高出了很多,達到了65%。第三組數據是從網上下載的評論集中抽取的數據,而其他數據都是爬蟲抓取的網絡數據。本文基于情感詞典的情感分析算法,采用切詞后對于得到的詞組進行關鍵字匹配,并結合詞性權重分配的方法實現,究其原因應該是網絡評論集合中的評論句式不像爬蟲抓取的網絡數據那么雜亂無章,用到的評論詞傾向性比較明顯,大部分評論句式符合情感算法中考慮到的情況,所以準確率相對提高了很多。然而對于網絡爬蟲抓取到的普通數據,往往雜亂無章,用戶的遣詞用句并不是特別嚴謹準確,所以很多句子并不滿足情感算法設計的句子結構,因此準確率較低。從結果來看,使用本文實現的基于情感詞典的情感分析算法對于網絡爬蟲抓取到的數據進行分析,準確率較低,需要進一步改進。因此考慮到使用情感詞典構建相關數據集的情感特征,并結合機器學習算法作為分類器進行情感分類,看能否提高分析準確率。

1.2 基于正向、負向和中性的機器學習情感分析方法的研究

在基于機器學習的情感分析方法研究中,選擇研究KNN[4-6]和SVM[7-9]情感分析方法,實驗采用數據集包含且大于1-1數據集,并進行初步的人工篩選[10-11]。篩選過程包括以下方面。

(1)過濾掉其中噪音較大的文檔。這里的噪音指的是句子中含有太多二義詞,或者文檔中有太多詞語的含義上下文相關。由于噪音過大會導致分類準確率下降嚴重,故在此選擇中去除這部分文檔。

(2)剔除其中字數極少的文檔。文檔中的字數過少,比如只有一個字,這會導致對其通過向量空間模型后,向量表示中絕大部分維度的值為零,引起向量稀疏的問題,導致分類的準確率下降。

(3)再進行人工標注文檔類別,要求標注的質量必須較高,即人工判定的準確率要較高,以免引起過大的人工誤差。

最后,在實驗中,通過TF-IDF等文本向量化方法對標注過后的文檔進行向量空間建模,得出表示文檔的文檔向量。實驗中得到文檔向量如圖2所示。

圖2實驗文檔的向量空間模型表示

需要說明的是,由于篇幅有限,且為了將文檔向量表現清楚,實驗中過濾掉了向量計算中后面所有維值為零的那些維度,圖2中就展示了這種處理。然而在實際計算中,必須將所有向量統一維度,以方便后續計算處理,不夠維度的需補上在前期處理中故意略去的零值。

從不同訓練數據集和不同訓練數據量兩方面進行基于機器學習的情感分析方法研究,因為訓練數據對于機器學習方法影響較大,首先研究不同訓練數據量下KNN和SVM情感分析方法的準確率,實驗選擇同一組數據集進行準確率檢測。如圖3所示。

圖3不同訓練數據量KNN和SVM情感分類準確率

由圖3可以看出,隨著訓練數據量的增大,KNN和SVM的準確率都有明顯提高。在數據量小于10000時,KNN的準確率稍好于SVM,且在數據量較小時,KNN的比較速度相對較快,效率更高。但隨著訓練數據量的增加,SVM的準確率提升更明顯。在訓練數據量達到40000時,兩者準確率幾乎一樣;而在訓練數據量到達50000時,SVM的準確率明顯高于KNN。由此得出結論:從準確率和效率兩方面綜合考慮,在訓練數據量小于10000時,KNN效果明顯好于SVM;在訓練數據量大于50000時,SVM的效果明顯好于KNN。訓練數據量在10000到50000,兩者準確率相差不大,隨著訓練數據量增大,SVM準確率穩步提高,而KNN準確率提高的速度逐漸變緩。在此提出可將KNN和SVM的結果做線性結合看能否提高準確率,而且隨著訓練數據的增加,SVM占的比重應該逐漸增大。

其次,使用不同的數據集來進行情感分析算法的準確率檢測。在此使用50000條訓練數據得出的KNN和SVM情感分析方法對五組數據進行傾向性分析,并檢測其準確率,如圖4所示。

由圖4可以看出,使用SVM方法對不同數據組進行情感分析,準確率在64%到70%之間,平均在68%左右,比較穩定。使用KNN方法對不同數據組進行情感分析,準確率在62%到百分之69%之間,平均在65%左右,也比較穩定。說明機器學習方法在本文不同數據集上的情感分類準確率較為穩定。

圖4不同數據組情感分析準確率表示

2 改進方法研究

使用情感詞典進行文本的情感分析,其主要特點是對文本的情感分析直接作用在了詞語的傾向性上,粒度細,分析精準,但同時也受到了自然語言處理技術的限制,尤其是受到漢語中某些詞語的意思上下文影響較大的困擾,比如在一句話中某個詞語所表達的意思可能到另一句話中卻完全相反,這就增大了這種分析方法的誤差和難度。因此,總體來說,基于情感詞典的情感分析效果一般。然而漢語的句式變化多樣,很難把各種句式的表現形式都做出相應的情感分析方法[12]。因此,對于符合基本句式的句子使用情感詞典分析方法,對于不符合基本句式的句子則使用機器學習情感分析方法,最終使用情感詞典與機器學習相結合的方法得出文本的情感傾向。

在機器學習方法的研究[13]中,KNN算法是一種無監督的機器學習方法,具有領域無關性的特點,這對于跨領域的數據分類是個很好優勢,然而其只是單純依靠向量間的相似程度進行分類,沒有統計信息,而且初始化簇中心采用隨機的方式很容易造成誤差,這就導致KNN分類算法的準確率不是很高。而SVM需要進行模型訓練,是一種有監督的機器學習方法,具有統計特性,且具備領域相關性,但對于未在訓練文本中出現的特征難以納入訓練后的模型文件,也就是說其預測準確率十分依賴于訓練樣本,訓練樣本的質量和覆蓋率會很大程度上影響到SVM的預測準確率,因此會出現預測不準的問題。由此可見,單純使用一種機器學習方法分析難以得到十分高的準確率,將KNN和SVM兩種方法相結合是一種提高情感分析準確率的可選方案。

KNN基本沒有訓練時間,采用一個新的樣本記住就可以了。但預測時間卻可能需要很久。如果一路上記了100萬個樣本,那就要和100萬個樣本算距離,再排序出前K個最近的樣本,即使用堆排序或者其他改進過的排序算法,只在乎前k個順序不再往下排序,也還是需要k*log(n)數量級的排序運算,特別是預測大量樣本之后的樣例。

SVM訓練時間相對久一些,不過是在可接受的時間內。預測時需要對所有訓練樣本做核函數運算,雖然不能在很短的時間內計算出結果,但計算時間也在可接受范圍內。另外,由于核函數的存在,有足夠量的大數據,預測精度會稍高一些。

基于以上的實驗研究,本文通過研究各種情感分析方法的優缺點,使用情感詞典方法以及KNN和SVM相結合的方式進行情感分類,結合兩者的優點,摒棄各自的缺點,將兩者優化使用,以期提高情感分類的準確率。然而這就涉及到兩者之間的加權方法,本文采用以下公式來計算兩者加權后的文本情感標簽。計算公式如下:

EEE=σE1+(1-σ)E2

(1)

式中,E表示文檔的分類后加權值;E1表示基于SVM算法得到的分類標簽;E2表示基于KNN算法得到的分類標簽;σ表示加權系數。

通過以上分析,確定了結合KNN和SVM的加權公式,然而,公式中的參數加權因子 的取值還未知,結合上一節對情感分析算法準確率的研究,并且考慮到KNN以及SVM的優缺點,采用分段線性結合的方法改進情感分類方法。當訓練數據量小于10000條時σ取0,即使用KNN的方法進行情感分類,因為KNN基本沒有訓練時間,采用一個新的樣本記住就可以了,數據量較小時預測也會較快。而SVM在數據量較小時準確率較低,而且訓練時間相對久一些。當數據量大于50000條時σ取1,即使用SVM的方法進行情感分類,因為數據量較大時,使用SVM方法的準確率會稍高一些,而且預測時間會比使用KNN方法快。當數據量在10000到50000之間,σ取(n-10000)/50000,這里n為訓練數據量,即隨著數據量的增加,SVM方法的比重逐漸增大,KNN方法的比重逐漸減小。

公式(1)通過對KNN和SVM各自得出的分類標簽進行加權計算,結合兩個方法判斷出最終的結果分類,得出分類后的加權值E是一個小數,還無法判斷最終結果分類標簽,這就需要進行下一步處理。

計算得出分類后的標簽值E后,由于E是小數,于是本文采用二次處理,再次根據公式(2)計算每個情感類別的類別標簽和E的一緯歐式距離:

Distance(i)=||Labeli,E| |=|Labeli-E| (2)

Distancemin=mini(Distance(i) (3)

式中,Distance(i) 表示類別標簽與加權后標簽的距離;Labeli表示情感類別標簽;E表示KNN和SVM分類結果加權后的標簽值。

得出Distance(i)后,由于結果必然為正數,這時我們可以采用比較Distance(i)與每個類別標簽距離的相對大小來進行類別指定,即如果算出的Distance(i)是所有E與類別標簽距離中的最小值,則將結果標簽賦值為i。本文根據公式(3)得到最小距離的類別標簽作為文檔的情感分類標簽,因為在這些距離中一定存在最小值,因此結果分類標簽必然是唯一的。

3 改進后的情感分析方法準確率

經過程序自動運行結果和手工標注的結果進行比較,得出不同訓練數量不同的方法準確率變化,如圖5所示。

圖5分類準確率變化圖

顯然,由圖5可以看出,在訓練數據量較少時,機器學習方法的準確率較低,而情感詞典的方法可以適當彌補機器學習方法準確率較低的問題,提高準確率。而隨著訓練數據量的增加,其準確率得到相應提升,在訓練數據量在10000到50000之間時,將SVM和KNN方法線性結合,相比于單獨使用KNN或者SVM方法,提高了機器學習方法準確率3-4個百分點。同時結合基于情感詞典的情感分析方法,相比于單獨使用KNN或者SVM方法準確率提高了5-6個百分點。當數據量到達50000時,SVM的準確率達到了較好的效果,同時與基于情感詞典的方法相結合,相比于單獨使用KNN或者SVM方法準確率仍提高2個百分點。實驗結果表明,使用情感詞典以及SVM和KNN加權方式比單獨使用SVM和KNN方法得到的準確率有一定提升。

4 改進前后對比

實驗表明,本實驗較單獨使用領域無關性的KNN分類器所得到的準確率平均提升達到4個百分點,提升效果明顯。

實驗表明,本實驗的分類準確率較單獨使用SVM進行訓練預測的分類準確率平均提升為3個百分點。

綜上所述,本文提出的結合情感詞典以及SVM和KNN加權方式來進行情感分類的方式是有效的,在分類準確率方面,比單獨使用SVM和KNN提升效果明顯。

結合實驗結果,筆者對本文提出的結合情感詞典以及SVM和KNN加權方式的改進方法使準確率得以提升的理論原因進行分析,本文認為準確率提升的理由有以下方面。

(1)由于SVM是基于統計學習理論的分類方法,在預測前必須進行模型的訓練。然而,對于未在訓練樣本中出現的特征便在訓練結束后的模型中沒有體現。當進行預測時,如果出現模型中未出現的特征時,很大概率上會出現預測失敗,這就是單獨使用SVM時準確率得不到提高的一個重要原因。而KNN沒有訓練過程,不依賴已經有的統計信息,恰好彌補了SVM的缺點。

(2)由于KNN是單純依賴文檔向量間的相似度距離來進行文檔的分類,并且在做初始化簇心時采用隨機算法來進行指定,這直接導致了分類結果的無法預測和準確率的低下。而SVM沒有隨機化的過程,恰好彌補了KNN的部分缺點。

(3)在本文提出的加權公式中,可以通過加權系數的變化進而調整SVM和KNN在分類方面的貢獻率,因此可以通過實驗獲得比較理想的加權系數,得到最好的分類效果,并且將SVM和KNN相結合提高分類的準確率。

(4)由于漢語句式的特殊性,能夠滿足情感詞典情感分析算法的簡單句式,因此通過情感詞典算法分析出的情感值會比較準確,所以,采用情感詞典、KNN和SVM三者結合進行情感分類的方法,可以使情感分析的準確率明顯提高。

5 結語

本文通過對采用情感詞典的情感分析方法以及基于機器學習的情感分析方法的情感分析準確率的研究,發現使用傳統情感分析方法準確率較低,分析其可能存在的原因后提出了結合情感詞典、KNN和SVM來進行情感分類的方法,并提出KNN和SVM兩者的加權公式,然后對改進的方法通過大量實驗來檢測其效果。實驗結果表明,改進后的情感分析方法相比于單獨使用KNN或者SVM方法準確率提高5%,因此通過情感詞典以及SVMT和KNN加權方式相結合的方式來提高情感分析的準確率是可行的。

猜你喜歡
分類情感方法
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲第一天堂无码专区| 欧美精品色视频| 人妻无码一区二区视频| 亚洲午夜综合网| 亚洲人成日本在线观看| 高清欧美性猛交XXXX黑人猛交| 五月天久久婷婷| 久久婷婷五月综合色一区二区| 人妻丰满熟妇AV无码区| 在线观看精品自拍视频| 波多野结衣一区二区三区四区| 成人综合网址| 九月婷婷亚洲综合在线| а∨天堂一区中文字幕| 任我操在线视频| 亚洲最新网址| 久久特级毛片| 日本高清视频在线www色| 亚洲免费福利视频| 久热99这里只有精品视频6| 成年人免费国产视频| 亚洲一级毛片免费看| 伊人婷婷色香五月综合缴缴情| 国产裸舞福利在线视频合集| 国产第一页亚洲| 日本a级免费| 亚洲大尺度在线| 999精品视频在线| 欧美日一级片| 亚洲日本中文字幕乱码中文 | 国产第一色| 亚洲人成影院在线观看| 国产免费a级片| 国产成人久久综合777777麻豆| 国产午夜看片| 高清欧美性猛交XXXX黑人猛交 | 亚洲中文字幕在线观看| 国产激情无码一区二区免费| 亚洲成人精品在线| 波多野结衣久久高清免费| 久久亚洲中文字幕精品一区| 97影院午夜在线观看视频| 亚洲精品动漫| 无码中文AⅤ在线观看| 国产一二三区视频| 亚洲天堂日本| 首页亚洲国产丝袜长腿综合| 三上悠亚精品二区在线观看| 亚洲日韩高清无码| 国产AV毛片| 特级毛片免费视频| 亚洲男人天堂2018| 国产屁屁影院| 毛片视频网址| 毛片卡一卡二| 一本大道香蕉中文日本不卡高清二区| 亚洲一道AV无码午夜福利| 国产一级精品毛片基地| 国产综合网站| 久草视频福利在线观看| 国产手机在线ΑⅤ片无码观看| 国产视频自拍一区| 国产微拍一区二区三区四区| 国产爽爽视频| 亚洲美女视频一区| 在线国产91| 狠狠色丁香婷婷| 亚洲第七页| 亚洲精品天堂在线观看| 亚洲 欧美 偷自乱 图片| 免费Aⅴ片在线观看蜜芽Tⅴ| 99热国产在线精品99| 91久久天天躁狠狠躁夜夜| 国产呦视频免费视频在线观看| 亚洲系列无码专区偷窥无码| 一区二区欧美日韩高清免费| 97精品国产高清久久久久蜜芽| 久久黄色视频影| 免费人成又黄又爽的视频网站| 无码专区第一页| 久久一本精品久久久ー99| 国产精品hd在线播放|