999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于線性核極限學習機的情感分類

2017-05-03 11:10:22孫尚迪顧曉東
微型電腦應用 2017年1期
關鍵詞:分類情感

孫尚迪, 顧曉東

(復旦大學 電子工程系, 上海 200433)

基于線性核極限學習機的情感分類

孫尚迪, 顧曉東

(復旦大學 電子工程系, 上海 200433)

隨著網絡電影數據庫和電子商務網站的流行,用戶的評論彰顯出越來越大的價值。因此,意見挖掘或情感分析是目前自然語言處理和機器學習領域的研究熱點之一。情感分類是一個具有代表性的情感分析應用,支撐向量機(Support Victor Machine, SVM)通常被用作為該應用的基準分類方法。首次將線性核極限學習機(線性核ELM)應用于情感分類,并在常用的情感分類和主觀/客觀分類數據集上,比較了不同的詞條加權策略情況下線性核ELM和SVM的分類性能。實驗結果顯示線性核ELM在大數據集(10000 樣本)上有著更高的分類準確率率,在較小數據集(2000樣本)上和SVM相當。進一步的,我們建立了自己的亞馬遜智能手機評論集(Amazon Smartphone Review,ASR)--由產品評論構成的非平衡數據集(1731 正面樣本,830負面樣本)。比較結果顯示線性核ELM在不平衡數據集上也是一個具有競爭力的情感分類方法。

情感分類; 詞條加權; 支撐向量機; 極限學習機; 線性核

0 引言

互聯網已經深入到人們生活的各個方面,從個人購物到家庭娛樂,從日常出行到旅游度假,從移動支付到金融投資,互聯網和移動互聯網給我們的生活帶來了極大的便利。提供網上購物服務的有Amazon、淘寶等網站;提供電影資訊的有IMDb(Internet Movie Database)、時光網等網站。這些網站通常會鼓勵用戶在購買某一件商品或觀看某一部電影之后對商品或電影進行評價。隨著用戶數的不斷增加,評論數量呈指數式增長,這些評論就成為了其他用戶是否購買這件商品或觀看這部電影的重要依據。但這大量的評論反而造成了用戶閱讀的不便,用戶不會花費大量的時間去閱讀這些冗余的評論并尋找有用的信息。從這些海量的非結構化的評論數據中挖掘出用戶感興趣的信息的過程稱之為意見挖掘或情感分析,這也是數據挖掘和機器學習的交叉領域。情感分類則是一個具有代表性的情感分析任務,它將評論依據情感傾向分為正面評論和負面評論或依據主客觀性將評論分為主觀評論和客觀評論等,給予用戶直觀的參考。

在本文中,首次提出將具有線性核的極限學習機(線性核ELM)作為分類器應用于情感分類并在Cornell電影評論數據集(包含2000個樣本)、Cornell主客觀數據集(包含10000個樣本)上對比了線性核ELM和標準分類方法SVM的分類準確率,結果顯示在小樣本數據集中,他們的分類性能相近;在大樣本數據集中,線性核ELM的表現要優于SVM。此外,我們從Amazon上獲取了大量智能手機評論,建立了一個全新的數據集且正面評論與負面評論的數量不相等。在這個非平衡的數據集上,線性核ELM也有不錯的分類準確率。

1 研究現狀分析

盡管語言學和自然語言處理(Natural Language Processing, NLP)都有著悠久的歷史,但在 2000 年前針對意見和情感的研究卻少之又少。在2000年之前,存在一些對暗喻、情感形容詞、主觀詞、觀點詞的研究。對于意見和情感的早期研究出現在2000至2002年之間[1]。情感分析和意見挖掘兩個詞最早出現于2003年[2-3]。此后,該領域成為了充滿活力的研究領域。情感分析不僅推動了機器學習在自然語言處理領域的進一步應用和發展,同時也對那些受人們情感和意見影響的管理學、政治學、經濟學和社會學有著深遠影響。

情感分類是情感分析的重要組成部分,若我們預先設定正面情感用標簽“1”來表示,負面情感用標簽“0”來表示,則對于以下的兩句話:The iPhone’s call quality is good和The battery life is short. 顯然,前者是正面情感應判定標簽為1,后者為負面情感應判定標簽為0。所以情感分類實質上是訓練神經網絡或者機器學習算法,使之能夠判定新的句子或者篇章屬于哪類情感。

情感分類可以從3個層級進行研究:

文檔級:這個層級的分類是對整個文檔進行正面和反面情感的分類。這個層級的分析假定每一個文檔表達的情感是唯一的,情感的分類較為粗糙。

句子級:這個層級的分類是對文檔中的每一句話的正面和反面情感進行分類。這個層級的分析判斷每個句子表達的情感,比文檔級別的分類更加精細。

特征級:這個層級的分類不僅要判斷每一個短句的情感,還要找到每一個情感所描述的具體對象[4]。這個層級的分析將找出產品或電影的所有特征,更加細粒度地展示每一個特征所對應的情感表達,進一步的,還能對每個特征進行意見總結以更直觀的將評論信息呈現給用戶。

情感分類的分類器可以采用支撐向量機(Support Vector Machine, SVM)、神經元網絡(Neural Network, NN)、決策樹(Decision Tree, DT)、樸素貝葉斯(Na?ve Bayes, NB)等。在這些分類器中,SVM因其較快的分類速度和領先的分類精度而被廣泛得用于情感分類的任務中。SVM是情感分類任務的基準方法[5]。自大數據的概念成為研究的潮流之后,在圖像和語音領域獲得極大成功的卷積神經網絡(Convolutional Neural Network, CNN)也被用在了情感分類中[6],并取得了和SVM分類相近的準確率。

2 極限學習機

極限學習機(Extreme Machine Learning, EML)是一個快速的學習分類算法。它具有單隱層的前饋網絡結構,最早由Huang等人在2004年提出[7]。在圖像分類和圖像識別領域,EML已經被證明是一個行之有效的分類算法,并在一些數據集上獲得了最優的分類準確率[8]。另一方面,將文本數據向量化通常都采用詞袋模型(Bag of Word, BoW),不同于圖像,文本數據向量化后往往具有很高的維數,線性分類器對于超高維的數據會有較快的分類速度,因此,本文采用具有線性核的極限學習機作為情感分類任務的分類器。

2.1 ELM的學習算法

一個標準的單隱層前饋神經元網絡(Single Layer Feedforward Neural Network, SLFNs)可以通過調節隱層節點的連接權值來預測或估計任意的連續目標函數f(x)。一個具有l個隱層神經元,且神經元激活函數為g(x)的單隱層前饋神經元網絡可以數學建模為式(1)。

(1)

其中,wi是連接輸入神經元和第i個隱層神經元的權值;βi是連接第i個隱層神經元和輸出神經元的權值;yj是ELM算法對應于輸入樣本xj的輸出分類結果。

假定有N個輸入樣本對(xj,dj),xj∈Rn,dj∈Rm,即輸入為n維向量,輸出為m維向量,其中dj是每一個輸入樣本應屬的類別標簽。在理想情況下,學習算法的誤差應為零,即ELM算法的輸出yj=dj,則算法可以用矩陣的形式表征為式(2),

(2)

其中,

為隱藏層的輸出矩陣。

式(2)的最小二乘解為式(3)。

(3)

其中,H+是H的廣義逆矩陣。在實際編程實現時,采用如下公式來計算H的廣義逆矩陣為式(4)。

(4)

其中,C為可調參數。

2.2 線性核

根據Huang等人的證明[9],隱層神經元的連接權值不需要經過反饋調節,也可以正確估計目標函數f(x)。由于訓練過程不需要進行權值的調節,所以ELM算法的訓練速度要快于傳統的SFLNs。

在式(1)中,wi和bi可以隨機初始化且不需要在后續進行調節。整個算法所需要計算的參數只有β。但是隨機賦予初始值會造成實驗結果的不穩定性,我們考慮指定初始值;另一方面,SVM在用于情感分類時,往往采用線性核。因為線性核對于文本的高維特征(文本的特征往往達到幾千維)有比較好的分類效果,故本文將線性核的概念應用于ELM算法。在初始化時,我們將wi設為xj,bi設為0(設為其他任意常數并不影響結果)。用于情感分類的、具有線性核的極限學習機(線性核ELM)算法步驟如下:

給定訓練集:

測試集:

即訓練樣本集的大小為n×N,測試樣本集的大小為n×M,每一列為一個樣本,每個樣本n維。標簽dj在實驗中為1維向量,其數值為0或1,即訓練集教師矩陣D大小為1×N。

Step1:設w=xtrain,b=0,g(x)=x。

Step4:在測試階段,計算測試輸出,

3 實驗數據集

本文的實驗在3個不同的數據集上進行,數據集的統計情況,如表1所示。

表1 三個數據集的統計情況

3.1 RT-2K

RT-2K是標準Cornell電影評論數據集(Cornell Movie Review dataset),它由Pang和Lee在2004年公開發表。RT-2k的數據來自IMDb,由1000篇正面評價文檔和1000篇負面評價文檔構成。

3.2 Subj

Subj是主觀/客觀數據集(Subjective/Objective dataset),它同樣由Pang和Lee在2004年公開發表。Subj的數據由5000句正面評論和5000句負面評論構成,前者來自電影評論網站Rotten Tomatoes,后者來自IMDb。

3.3 ASR

ASR是亞馬遜智能手機評論數據集(Amazon smartphone review),它是我們自己從亞馬遜上獲得的未公開數據集。它包含30萬條智能手機評論。我們手動標注了其中2561句的情感類別。此外,我們預定義了12個產品特征{電池、價格、運行速度、外觀、話筒、屏幕、存儲容量、無線網絡、大小、重量、通話質量、相機},所有的2561句話都屬于以上預定義特征中的一個或多個,同時每句話也都標注了正面或負面的情感標簽。所以,ASR既可以被用于句子級別的情感分類,也可以被用于特征級別的情感分類和意見總結。ASR的詳細統計情況,如表2所示。

表2 ASR數據集的統計情況

在文本中,我們只將ASR數據集用于句子級別的情感分類,與前兩個數據集不同,ASR是一個非平衡數據集(1731句正面情感和830句負面情感),它可以衡量分類器的魯棒性。

4 實驗

在傳統的自然語言處理任務比如話題分類(topic categorization)和信息檢索(information retrieval)中,都采用了詞袋模型,在本文中繼續沿用這個模型。詞袋模型,也稱為向量空間模型(vector space model, VSM),它將一篇文檔或者一句話表征為一個高維向量,向量的長度即為所有訓練樣本中不同詞條的個數,即字典的大小。每一個維度上向量的值表示該詞條在這篇文檔或這句話中出現的次數。在實驗中,我們采用了布爾數值(Boolean),即用1代表該詞條出現(無論出現幾次),用0代表該詞條沒有出現。這樣,每篇文檔或每句句子都被轉化成了一個維數很高且每個維度上為1或0的空間向量。每個數據集向量的具體長度見表1。

自從Joachim在1998年成功得將SVM作為分類用于處理文本任務后[10],具有線性核的SVM就一直是文本分類相關領域的基準方法,且在詞袋模型作為文本特征的前提下,SVM有著非常高的分類準確率[11]。本文也采用其作為比較對象。

4.1 全局詞條加權策略

全局詞條加權是為了評估每個詞條的重要性,以給予每個詞條不同的權值,讓對分類產生較大影響的詞條有更高的權值進而提高分類的準確率。為了避免實驗的偶然性,我們采用了3種詞條加權策略用以測試SVM和線性核LEM的分類穩定性,如表3所示。

上表中,N為訓練集中文檔或句子的總數;N+/N-為在訓練集中表達正面/負面情感的文檔或句子數;a/c為在正面/負面的文檔或句子中包含詞條ti的文檔或句子數目。

表3 不同的全局加權策略

4.2 實驗結果與分析

本文在3個各有特點的數據集上對線性核ELM和SVM的分類性能做了比較。SVM算法采用L2正則化和L2損失函數,并由LIBLINEAR[14]來實現。線性核ELM的實現基于Huang的源代碼,并在代碼基礎上增加了線性核。所有的實驗采用10折交叉驗證以最大程度的避免偶然性。且在實驗中,對于SVM和ELM的系數C,進行了2-8~28之間的參數尋優。實驗的評價指標為分類準確率。

4.2.1 小數據集RT-2K的實驗結果

RT-2K數據集是屬于文檔級別的分類數據集,是將文檔分為正面情感文檔和負面情感文檔。文檔總數2000篇,屬于較小數據集。在這個數據集上,SVM和線性核ELM有著相近的分類結果。在IDF加權策略下,線性核ELM比SVM準確率略高(+0.35%),但是在其他加權策略下,SVM的效果略好。線性核ELM在IDF加權下達到最高的分類準確率,SVM在DBIDF加權下達到最高的分類準確率。總體上,二者在這個小數據集上的表現沒有太大差別(平均0.04%的差距)。具體結果,如表4所示。

表4 RT-2K數據集實驗結果統計

表4中,‘+’表示線性核ELM的準確率高于SVM。

4.2.2 大數據集Subj.的實驗結果

Subj.數據集是屬于句子級別的分類數據集,是將句子分為正面情感句子和負面情感句子。句子總數10 000句,屬于較大數據集。在這個數據集上,線性核ELM在4種情況下的準確率均高于SVM(分別為+0.70%、+0.82%、+0.67%、+0.79%)。二者均在DBIDF加權策略下達到最高的分類準確率。總體上,線性核ELM在這個大數據集上的表現超過SVM,平均準確率前者比后者高了0.77%,如表5所示:

表5 Subj.數據集實驗結果統計

4.2.3 非平衡數據集ASR的實驗結果

本文中,ASR數據集被用于句子級別的情感分類。在這個非平衡數據集上(1 731句正面情感和830句負面情感),線性核ELM依然是很有效的一個分類器。二者均在IDF加權策略下達到最高的分類準確率。總體上,二者在這個非平衡數據集上的分類性能相差無幾,線性核ELM只略高于SVM的效果(0.14%),如表6所示。

表6 ASR數據集實驗結果統計

5 總結

在本文中,將經過線性核改造的ELM應用于情感分類。在3個具有不同特點數據集上,比較了線性核ELM和SVM在情感分類任務上的分類準確率。結果顯示二者的分類效果在小數據集上基本相同。在大數據集上,線性核ELM比基準方法SVM有更好的表現。此外,提供了一個新的數據集,該數據集不僅可以用于本文的情感分類,也可用于特征級別的多分類,同時它也可以用于測試分類器在非平衡數據集上的分類性能。也發現在不同的數據集上,最優的詞條加權策略并不相同。

在未來的工作中,將在更大的數據集上測試線性核ELM的性能,并且將嘗試基于特征級別的意見總結。

[1] Turney P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. 會議地址, 2002: 417-424.

[2] Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C]//Proceedings of the 2nd international conference on Knowledge capture. ACM, 2003: 70-77.

[3] Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th international conference on World Wide Web. ACM, 2003: 519-528.

[4] Hu M, Liu B. Mining opinion features in customer reviews[C]// Proceedings of the Nineteenth National Conference on Artificial Intelligence. AAAI, 2004: 755-760.

[5] Wang S, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea. Association for Computational Linguistics, 2012: 90-94.

[6] Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. Association for Computational Linguistics, 2014: 1746-1751.

[7] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//Proceedings. 2004 IEEE International Joint Conference on Neural Networks, 2004. IEEE, 2004, 2: 985-990.

[8] Tang J, Deng C, Huang G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821.

[9] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.

[10] Joachims T. Text categorization with support vector machines: Learning with many relevant features[C]//European conference on machine learning, Chemnitz, Germany. Springer Berlin Heidelberg, 1998: 137-142.

[11] Leopold E, Kindermann J. Text categorization with support vector machines. How to represent texts in input space?[J]. Machine Learning, 2002, 46(1-3): 423-444.

[12] Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972, 28(1): 11-21.

[13] Paltoglou G, Thelwall M. A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden. Association for Computational Linguistics, 2010: 1386-1395.

[14] Fan R E, Chang K W, Hsieh C J, et al. LIBLINEAR: A library for large linear classification[J]. The Journal of Machine Learning Research, 2008, 9: 1871-1874.

Sentiment Classification Based on Extreme Learning Machine with Linear Kernel

Sun Shangdi,Gu Xiaodong

(Department of Electronic Engineering,Fudan University,Shanghai 200433,China)

With the popularity of Internet movie databases and e-commerce websites, the reviews of users show the growing value. Thus, opinion mining or sentiment analysis is one of the hot research topics in the field of natural language processing (NLP) and machine learning (ML) at present. Sentiment classification is a representative sentiment analysis application and support vector machines (SVM) is usually used as a baseline method. In this paper, linear kernel extreme learning machine (linear kernel ELM) has been applied first to the sentiment classification, and the linear kernel ELM classier is compared with SVM through different term weighting schemes using widely used sentiment and subjectivity/objective datasets. The experimental results show that the linear kernel ELM classification accuracy is higher in large dataset (10000 samples) and it is roughly the same as SVM in small dataset (2000 samples). Furthermore, we build our dataset (Amazon smartphone review, ASR) which is an unbalanced dataset of product reviews (1731 positive samples, 830 negative samples). The comparison results show that the linear kernel ELM is also a competitive sentiment classification approach for unbalanced dataset.

Sentiment Classification; Term Weighting; Support Vector Machine; Extreme Learning Machine; Linear Kernel

國家自然科學基金資助項目(61371148)

孫尚迪(1991-),男,溫州人,復旦大學電子工程系,碩士研究生,研究方向:神經網絡,機器學習,上海 200433 顧曉東(1970-),男,南通人,復旦大學電子工程系,博士,教授,研究方向:人工神經網絡,模式識別,上海 200433

1007-757X(2017)01-0001-04

TP311

A

2016.06.21)

猜你喜歡
分類情感
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美日韩一区二区在线免费观看 | 国产精品久久久免费视频| 国产精品一区在线观看你懂的| 亚洲精品第1页| 国内精品久久久久鸭| 亚洲男人的天堂视频| 精品成人免费自拍视频| 国产成人你懂的在线观看| 在线精品亚洲一区二区古装| 亚洲h视频在线| 精品国产毛片| 国产成人精品免费视频大全五级| 成年女人a毛片免费视频| 久久久久人妻一区精品| 成人免费午夜视频| 国产人前露出系列视频| 日韩AV无码免费一二三区| 精品无码一区二区在线观看| 国产又粗又猛又爽视频| 亚洲国产成人精品青青草原| 精品人妻系列无码专区久久| 好紧好深好大乳无码中文字幕| 国内熟女少妇一线天| 久久 午夜福利 张柏芝| 无码AV动漫| 日韩一区二区三免费高清| 亚洲国产av无码综合原创国产| 在线欧美a| 五月六月伊人狠狠丁香网| 亚洲丝袜第一页| 日本久久久久久免费网络| 亚洲va在线∨a天堂va欧美va| 成人综合在线观看| 无遮挡国产高潮视频免费观看| 五月婷婷精品| 四虎永久在线视频| 国产自产视频一区二区三区| 看国产毛片| 999福利激情视频| 在线免费a视频| 日韩AV无码一区| 992Tv视频国产精品| 精品视频第一页| 日本一区二区三区精品国产| 国产性生交xxxxx免费| 久久无码免费束人妻| 亚洲不卡影院| 九九视频在线免费观看| 欧美翘臀一区二区三区| 波多野结衣在线se| 欧美国产日本高清不卡| 2019国产在线| 国产网站黄| 成人免费黄色小视频| 嫩草国产在线| 日韩福利视频导航| 亚洲国产成人久久77| 一本色道久久88综合日韩精品| 亚洲第一香蕉视频| 久久这里只精品国产99热8| 亚洲AV无码乱码在线观看代蜜桃 | 四虎成人在线视频| 精品亚洲国产成人AV| 超碰91免费人妻| 国产精品尤物在线| 欧美精品色视频| 亚洲免费毛片| 国产成人亚洲无吗淙合青草| 欧美综合在线观看| 久久这里只有精品免费| 欧美日韩午夜| 亚洲人成日本在线观看| 亚洲天堂2014| 亚洲日韩欧美在线观看| 国产靠逼视频| 国产精品久久久免费视频| 亚洲男人的天堂网| 国产福利一区在线| 精品欧美一区二区三区久久久| 国产日本一线在线观看免费| 精品国产美女福到在线不卡f| 污视频日本|