999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情感分類研究進展

2017-06-23 12:48:09管子玉何金紅彭進業
計算機研究與發展 2017年6期
關鍵詞:分類情感方法

陳 龍 管子玉 何金紅 彭進業

(西北大學信息科學與技術學院 西安 710127)

情感分類研究進展

陳 龍 管子玉 何金紅 彭進業

(西北大學信息科學與技術學院 西安 710127)

(longchen@stumail.nwu.edu.cn)

文本情感分析是多媒體智能理解的重要問題之一.情感分類是情感分析領域的核心問題,旨在解決評論情感極性的自動判斷問題.由于互聯網評論數據規模與日俱增,傳統基于詞典的方法和基于機器學習的方法已經不能很好地處理海量評論的情感分類問題.隨著近年來深度學習技術的快速發展,其在大規模文本數據的智能理解上表現出了獨特的優勢,越來越多的研究人員青睞于使用深度學習技術來解決文本分類問題.主要分為2個部分:1)歸納總結傳統情感分類技術,包括基于字典的方法、基于機器學習的方法、兩者混合方法、基于弱標注信息的方法以及基于深度學習的方法;2)針對前人情感分類方法的不足,詳細介紹所提出的面向情感分類問題的弱監督深度學習框架.此外,還介紹了評論主題提取相關的經典工作.最后,總結了情感分類問題的難點和挑戰,并對未來的研究工作進行了展望.

情感分析;情感分類;深度學習;弱監督;主題提取

進入Web2.0時代已歷十余載,互聯網的迅猛發展和移動終端的快速普及為用戶提供了發表和分享個人言論的廣闊平臺.日常生活中,人們經常登陸不同類型網站(如社交網站、電商網站等)發表和分享個人觀點:在社交網站上評論新聞時事、在電商網站上快速瀏覽商品評論、在影評網站上發表影片觀后感等.這些評論中包含個人情感取向,通過分析評論中的情感取向可以有效把握輿情趨勢,進而惠及政府和民眾.政府可以通過分析社交媒體數據來體察民意,從而合理制定或調整相關政策;商家能夠從商品評論摘要中得到消費者的反饋信息,進而優化營銷策略;消費者則可以通過閱讀其他用戶發表的商品評論來決定是否購買.圖1所示為一條商品評論摘要,其中紅色文字為商品的正面評論摘要,綠色文字為商品的負面評論摘要,深紅色方框中文字表示勾選的正面評論摘要示例.

Fig. 1 Summarization of product reviews圖1 商品評論摘要

分析上述不同類型評論數據中所包含的個人主觀情感取向需要使用情感分析技術.情感分析(sentiment analysis),又稱評論挖掘(opinion mining),它利用自然語言處理(natural language processing, NLP)、文本分析、機器學習、計算語言學(computa-tional linguistics)等方法對帶有情感色彩的文本進行分析、處理、推理和歸納.其標準定義為:情感分析是對文本中關于某個實體的觀點、情感、情緒及態度的計算研究[1].通俗地講,情感分析的目標就是明確評論者對所評論對象的態度.而情感分析最基本任務是在文檔(document)、句子(sentences)或主題(topic,也稱為feature或aspect,下文統稱aspect)等不同層次上,將給定的評論文本分為積極(positive)、消極(negative)、中立(neutral)三個類別.在此基礎之上,還可以根據實際問題設定多極情感分類目標,如將新聞評論分為“悲傷”、“樂觀”、“憤怒”.

目前,情感分析技術已經在政治、金融等領域嶄露頭角.文獻[2]通過情感分析技術分析社交網站Twitter上用戶的情感變化,結果顯示通過情感分析技術得到的用戶情感變化趨勢與傳統問卷調查方法的結果驚人地一致.如圖2所示,研究人員對比了2008年5月至2010年5月期間美國民意調查結果(黑色實線)與同時期Twitter用戶情感指數分析結果(藍色實線),參數window表示天數,參數r表示圖2中2個結果的相關度.圖2中兩者的相關性竟高達80%.文獻[3]將情感分析技術用于股票行情預測,如圖3所示.圖3中藍線表示“冷靜”情緒指數(CALM),該指數通過情感分析技術獲得;紅線表示道瓊斯工業平均指數(DIJA).實驗結果表明,“冷靜”情緒指數沿時間軸向后推移3 d和道瓊斯工業平均指數具有很高的一致性.因此,可以根據“冷靜”情緒指數來預測股票行情.

Fig. 2 Comparison between the result of sentiment analysis and polls[2]圖2 情感分析結果與民意調查結果對比[2]

Fig. 3 Comparison between CALM and Dow Jones industrial average (DIJA)[3]圖3 CALM指數與道瓊斯工業平均指數(DIJA)對比[3]

當前,互聯網用戶規模與日俱增.據《2016年互聯網趨勢報告》統計顯示,目前全球互聯網用戶數已超30億,互聯網全球滲透率達到42%.其中,中國互聯網用戶數量達6.68億,位居世界首位.日益膨脹的互聯網用戶群產生了規模龐大的評論文本數據.據《2015年度微博用戶發展報告》統計,微博的日活躍用戶量達1億,日均產生數據量達1 037 GB.另據統計*https://about.twitter.com/company,世界知名社交網站Twitter日均發布的推文(tweet)數量達5億條.如何有效分析和處理如此規模龐大的評論數據成為了研究者們面臨的新挑戰.為了應對該挑戰,研究者們提出了多種情感分析技術,如評論摘要技術[4-5]、對比句分析方法[6]、評論投票技術[7]等.這些情感分析技術的關鍵問題有2個:1)提取評論主題;2)對評論內容進行情感分類.

1 評論主題提取方法

評論主題(topic),又稱方面(aspect)、特征(feature),表示用戶評論的對象.評論主題的提取目標是提取或推測出評論對象的文字表達,如詞匯、短語等.評論中的主題一般分為2類:1)顯式(explicit)主題;2)隱式(implicit)主題.顯式主題是指主題的文字表達直接存在于評論中,如手機評論“The apps are amazing.”中的主題詞“apps”;而隱式表達中不包含主題的文字表達,但可以從語義上推測出評論的主題,如從數碼相機評論“While light, it will not easily fit in pockets.”中可以推測出2個主題詞“weight”和“size”.以下內容將分為2個部分來梳理這2類主題的提取方法.

1.1 顯式主題的提取方法

顯式主題的提取方法主要分為2類:基于語言規則的方法和基于概率模型的方法.

基于語言規則的方法中,文獻[8]所提出的方法最為經典.該方法首先利用自然語言處理工具NLProcessor 2000對評論數據進行分詞和詞性標注(part-of-speech tag, POS tag);再使用Apriori算法挖掘評論數據中頻繁出現的詞匯和短語(即集合大小小于3的頻繁項集),用這些頻繁項集構建候選主題集合;之后,對候選主題集合進行過濾.該文提出了2種過濾方法.

1) 緊密度過濾.該方法用于判斷候選主題集合中的短語是否緊密,若不緊密則被過濾掉.判斷標準有2個:①在一條評論語句S中,若存在候選集中的一個短語,則計算組成該短語的2個詞匯在語句S中的距離,若距離小于3個詞則稱該短語在語句S中緊密;②在整個數據集中,若滿足標準1的語句至少有2條,則稱該詞組是緊密的.因此,不滿足標準2的短語會被過濾掉.例如3條評論語句:“Thebatterylifeis long.”,“The phone has longbatterylife.”,“Thebatteryis good enough, but I spent wholelifeto get used to the huge screen.”其中,候選主題詞 “batterylife”在第1,2句是緊密的.第3句話中,“battery”和“life”的距離大于3,不滿足標準1.如果在整個評論數據集中同時出現上述3句話,則“batterylife”是一個緊密詞組,因為滿足“batterylife”緊密條件的句子在整個數據集中出現了2次.該方法目的是過濾掉那些頻繁共現但無法構成詞組的詞集合.

2) 冗余過濾.該方法定義了一個判定值p-support.p-support指滿足下列2個條件的評論語句數量:①該語句中出現的主題詞或短語是名詞或者名詞詞組;②該語句中不能出現任何詞組是該主題詞的超集(superset).我們通過舉例說明p-support如何取值.例如,候選集中詞匯“manual”出現在10個句子中,它的超集“manual mode”和“manual setting”也出現在評論數據中,2個詞組出現在不同評論語句里的次數分別為4次和3次,且2個詞組沒有出現在同一句話里.那么,“manual”的p-support值為10-4-3=3.論文中將p-support的閾值設為3,候選集中p-support值小于3的詞會被過濾掉.該方法主要目的是過濾掉非名詞詞匯和詞組.

在過濾步驟之后,文獻[8]作者還提出了一種非頻繁主題的提取方法.該文作者通過分析數據發現了如下規律:評論者評價頻繁主題所用到的情感詞與其評價非頻繁主題所用到的情感詞相同.例如,“Redeyeis veryeasyto correct.”和“The camera comes with an excellenteasyto installsoftware”這2句話都用到了情感詞“easy”,分別評價2個不同的主題“Redeye”和“software”.其中,“software”為評論中頻繁出現的主題,“Redeye”則是非頻繁主題,情感詞“easy”將兩者聯系了起來.通過“頻繁主題”→“情感詞”→“非頻繁主題”的挖掘模式可以獲得更多非頻繁主題.Zhuang等人[9]提出利用主題和情感詞之間的關系來提取主題.該方法首先利用語法依賴關系解析工具(如MINIPAR[10])得到如圖4所示的語法依賴關系圖,圖4中例句為“Thismovieis not amasterpiece.”其中,“movie” 和“masterpiece”分別被標注為主題和情感詞.圖4中的依賴關系為“NN-nsubj-VB-dobj-NN”.其中,“NN”和“VB”是詞性標簽,“nsubj”和“dobj”是依賴關系標簽.文獻[9]作者通過大量訓練數據來捕捉這種依賴關系,再利用這種依賴關系提取“主題-情感詞”對兒,從而得到評論語句的主題.

Fig. 4 Grammatical dependency graph on a review sentence[9]圖4 評論語法依賴關系圖

Fig. 5 The cluster-based method for apect words’ extraction[18]圖5 基于聚類的主題詞提取方法

也有研究工作提出使用基于概率模型的方法來進行主題提取.Jin等人[11]提出了一種詞匯化隱馬爾可夫模型(lexicalized HMM)來提取評論主題.不同于傳統隱馬爾可夫模型,該文作者將詞性標注、詞典等特征融入了HMM.Lu等人[12]則提出了一種基于概率的隱含情感分析方法(probabilistic latent semantic analysis, PLSA)來提取短評論中的主題.該文作者認為短評論的組成要素有2個:1)修飾詞modifier;2)被修飾對象head term.因此,一條評論可以表達為〈head term,modifier〉的形式,如〈quality,good〉,〈ship,fast〉等.一般來說,被修飾詞為主題,修飾詞為情感詞.文獻[12]作者利用head term與modifier之間的共現信息將這種表達形式融入到PLSA模型中.該文中提出的基于PLSA的方法將k-unigram語言模型定義為k個主題模型(topic model),每個模型都是head term的多項式分布,用來捕捉對應的主題;再利用EM算法估計模型參數.其他研究工作還使用到了條件隨機場(conditional random fields)[13]、LDA模型(latent Dirichlet allocation)[14-16].

1.2 隱式主題的提取方法

隱式主題的表達形式呈現多樣化特點.其中,形容詞表達是最常見的一種形式[17].在評論數據中,一個形容詞常用來評價某一特定的主題.例如,“heavy”常用于評價“weight”,“beautiful”常用來評價“look”或“appearance”.但是,隱式主題的提取工作的難點在于:對于不同領域的評論,相同的文字表達形式(如形容詞)可能會指代不同的主題.例如,“heavy”在數碼相機評論“the camera is too heavy”指代“weight”,而在一條微博“Alas! The heavy day!”中則指代“weather”.因此,如何捕捉文字表達與隱式主題之間的對應關系成為隱式主題提取方法的關鍵.前人研究工作中,多數研究者都嘗試捕捉這種隱含關系.Hai等人[18]提出一種兩步驟的方法來挖掘評論中的隱式主題:步驟1利用關聯規則挖掘方法挖掘評論集中頻繁共現的情感詞和主題詞,以情感詞作為條件、主題詞作為結論生成關聯規則[情感詞,主題詞];步驟2對步驟1生成的關聯規則[情感詞,主題詞]中的主題詞進行聚類,形成多個主題詞簇.將主題詞簇與情感詞再次組合形成新的關聯規則[情感詞,主題詞簇].對于給定的情感詞,該方法能夠找到對應的主題詞簇,并將該簇中最有代表性的主題詞作為所要提取的隱式主題.Su等人[19]則提出一種聚類方法,如圖5所示.圖5中,實線左側為主題詞或短語,右邊為情感詞.該方法先分別對實線兩側詞匯進行相似度聚類,再利用互增強關系(mutual reinforcement principle)來挖掘主題詞或短語與情感詞的對應關系.當句子只有情感詞時,通過挖掘出的關系來找到最可能的主題詞.

總結上述主題提取方法的研究工作.針對顯式主題提取的研究工作中,基于語言規則的方法在同一領域內具有較強的適用性,但是推廣能力有限,同一規則不一定適用于其他領域.此外,語言規則設計需要大量的數據分析和嚴謹的規則設定.基于概率模型的方法具有一定的推廣能力,但在大規模評論數據上的效率較低.隱式主題的提取難度較大,關鍵挑戰在于如何準確捕捉文字表達與隱含主題之間的映射關系.

2 傳統情感分類方法

情感分類(sentiment classification)是情感分析技術的核心問題,其目標是判斷評論中的情感取向.按區分情感的粒度可分成2種分類問題:1)正/負(positive/negative)二分類或者正面/負面/中立(positive/negative/neutral)三分類;2)多元分類,如對新聞評論進行“樂觀”、“悲傷”、“憤怒”、“驚訝”四元情感分類[20],對商品評論進行1星~5星五元情感分類[21]等.第1類分類問題因為更具一般性而受到廣泛關注.以下將著重介紹針對第1類分類問題的方法.主流情感分類方法按技術路線主要分為5類:1)基于詞典的方法;2)基于機器學習的方法;3)詞典與機器學習混合的方法;4)基于弱標注信息的方法;5)基于深度學習的方法.以下,我們將介紹這5類方法中的經典工作.

2.1 基于詞典(Lexicon-based)的情感分類方法

基于詞典方法的核心模式是“詞典+規則”,即以情感詞典作為判斷評論情感極性的主要依據[22],同時兼顧評論數據中的句法結構,設計相應的判斷規則(如but從句與主句情感極性相反).文獻[4-5,23]是基于詞典的情感分類方法中最具代表性的工作.文獻[23]中,Turney認為評論中包含形容詞或副詞的詞組是判定整條評論情感極性的依據.該文提出分別計算待判定詞匯與“excellent”以及待判定詞與“poor”之間的互信息,然后對兩者求差得出詞組的情感分值:

SO(phrase)=PMI(phrase,“excellent”)-PMI(phrase,“poor”),

(1)

其中,SO(phrase)為詞組(phrase)的情感分值;PMI為互信息,利用詞之間的共現關系計算得到.計算整條評論中所有詞組互信息差值的均值,將該均值作為整條評論的情感分值.情感分值的正負和大小分別表示評論的情感極性和強弱.對一條評論的計算結果如表1所示,該條評論的情感分值大于零,因此被判斷為正面極性,分值越大情感極性越強.論文實驗數據共計410條評論,橫跨手機評論、電影評論等不同領域.實驗結果顯示,該方法實現了最低65.83%、最高84.0%的分類準確率.

Table 1 A Processed Review Judged to be Positive by Forlum (1) [23]

文獻[4]中,該文作者認為評論中形容詞的極性是判定評論情感極性的主要指標,提出將形容詞(如“good”,“bad”等)作為情感詞建立情感詞典,再根據詞典中情感詞的極性來判斷評論的情感極性.該文提出通過語義詞網絡WordNet中形容詞的近義詞集和反義詞集來判定評論中的形容詞極性.如圖6所示,實線箭頭表示近義詞關系,虛線箭頭表示反義詞關系.假設已知WordNet網絡中任何一個詞的情感極性,便可以利用網絡中的近義詞/反義詞關系獲取更多詞匯的情感極性,進而建立起相應的情感詞典.情感極性關系為:互為近義詞關系的詞匯具有相同情感極性,互為反義詞關系的詞匯具有相反情感極性.該方法具體步驟如下:1)從評論中統計出最頻繁出現的n個形容詞(該文中實驗取值n=30)建立種子集,人工標注種子集中所有詞匯的極性;2)在WordNet中以種子集中的詞匯為源頭,根據上述近義詞、反義詞的情感極性關系,迭代地自動標注其他形容詞的情感極性,從而得到WordNet形容詞情感詞典;3)根據該詞典和簡單規則判別評論的極性.該文實驗數據來自亞馬遜購物網站,包含數碼相機、DVD播放器、MP3播放器及手機4類商品評論.該方法在測試數據集上實現了平均84.2%的準確率.文獻[5]在文獻[4]研究工作的基礎上,進一步考慮提出情感詞與評論主題詞之間的距離對整條評論情感極性的影響.如式(2)所示,其中,Score(f)指評論主題詞f的情感分值;wi是該評論語句中除主題詞外的所有詞匯;SO(wi)是詞匯wi的情感極性值,可查詢情感詞典獲得,若為正面極性則SO(wi)=1,若為負面極性則SO(wi)=-1;dis(wi,f)指詞wi與主題詞f之間的詞數目.

(2)

Fig. 6 Bipolar adjective structure[4]圖6 雙極性形容詞結構

由式(2)可知,離主題詞越遠的詞對情感極性影響程度越弱;相反,離主題詞越近的詞對情感極性影響程度越強.此外,文獻[5]作者還提出了一些句法規則來調整評論語句的情感極性.該文實驗結果表明,該方法的分類性能顯著高于同類方法,在抓取的亞馬遜商品評論數據[2]上實現了92%的精確度和91%的召回率.

簡要總結2.1節工作.基于詞典的情感分類方法本質上依賴于情感詞典和判斷規則的質量,而兩者都需要人工設計,如建立詞典所使用的初始種子詞列表需要人工給定,判斷規則的設計則需要人工分析數據集中評論語句的句法結構.因此,這類方法的優劣很大程度上取決于人工設計和先驗知識,推廣能力較差.如今,新事物借助于社交媒體平臺得以快速傳播,網絡新詞、舊詞新義的層出不窮使得語言的更新周期變短,詞匯的語義不斷衍變,從而導致原先情感詞典中的部分詞匯不再適用于新的語言環境.此外,基于詞典的方法無法解決隱含觀點(implicit opinions)的挖掘問題,如客觀評論語句“I bought the mattress a week ago, and a valley appeared today”指出床墊出現了質量問題,但采用了一種客觀性的文字表達形式.這種客觀語句是評論的重要表達形式之一[24],包含比主觀表達更多的有價值信息,對用戶幫助更大.但是,由于句中沒有出現任何情感詞導致基于詞典的方法無法判斷情感極性.正如文獻[25]中所述,基于詞典的方法只能通過專案(ad-hoc)的方式提取顯式觀點.此外,情感詞的情感極性還依賴于上下文內容,同一情感詞的情感極性會隨著所評價主題的不同發生變化[26].例如在手機評論中,“large”在評價“battery”時表達負面情感,而在評價“screen”時表達正面情感.

以下,我們羅列了較為成熟的開源情感詞典:

1) GI(the general inquirer)[27].該情感詞典給出了較全面的詞條屬性.對每一個情感詞都給出了對應的情感極性(negative/positive)、詞性(如NN,NNs,ADJ等)、客觀性指數等屬性.

2) LIWC(linguistic inquiry and word count)[28].該情感詞典組織結構如表2所示,表格第1列Category表示情感詞類別(如第1行為否定詞),第2列Example則給出了每個情感類別對應的正則表達式.

Table 2 The Structure of Sentiment Lexicon LIWC表2 情感詞典LIWC的組織結構

Notes: *means regular expression.

3) MPQA(multi-perspective question answering).

由Wiebe等人[29-30]建立,詞典包含2 718個正面情感詞和4 912個負面情感詞.每個詞條具有5個屬性:情感極性(Polarity:positive/negative)、情感強度(Strength:weaksubj/strongsubj)、詞個數、詞性(Part-of-speech:adj/noun/verb/anypos…)以及是否為過去式(Stemmed:y/n).

4) Opinion Lexicon[4].該詞典包含2 006個正面情感詞和4 783個負面情感詞.其獨特之處在于同時包含情感詞的標準形式和其他形式,如俚語、拼寫錯誤、語法變形以及社交媒體標記等.

5) SentiWordNet[31].該詞典對語義詞網絡WordNet中所有詞匯進行情感極性分類并給出情感極性的量化分數(PosScore/NegScore).

對基于詞典的情感分類方法而言,選擇最優情感詞典也是需要注意的問題.對比同一詞匯在不同詞典中的一致性得到如表3所示的對比結果.表3中計算的分數表示2個詞典的不一致程度.其中,分數的分母代表2個不同詞典的交集中的詞匯總數,分數的分子代表情感極性不一致的詞匯數目.對于不一致的詞條則需要根據實際數據進行人工修正,這也是基于詞典方法的缺點之一.

Table 3 The Degree of Inconsistency Between Different Sentiment Lexicons

2.2 基于機器學習的方法

Pang等人[32]于2002年首次提出使用標準的機器學習方法解決情感分類問題.該文針對文檔層次(document-level)的二元情感分類問題,即判斷整條評論的極性.該工作實驗對比了不同特征組合與不同機器學習方法在電影評論情感分類問題上的效果.實驗結果如表4所示,實驗結果表明,相比于樸素貝葉斯分類(naive Bayes, NB)和最大熵模型(maximum entropy, ME),支持向量機(support vector machine, SVM)的分類效果更好,它與Unigrams特征結合進行情感分類的準確率達到了82.9%.

Table 4 Performance Comparison of SVM, NB and ME[32]表4 SVM, NB and ME方法情感分類準確率對比[32]

Notes:The bold values mean the best accuracy value among the three classifiers.

此后,多數機器學習方法的研究工作將重點放在如何設計更多有效的分類特征上.研究者嘗試了不同類特征組合在情感分類上的效果,Dave等人[33]對比了Unigrams特征和Bigrams特征在情感分類問題上的效果,實驗結果如表5所示.該實驗證明了相同條件下使用Bigrams特征比使用Unigrams特征的分類準確率要高.

Table 5 Performance Comparison on Unigrams and Bigrams[33]表5 使用 Unigrams特征和Bigrams特征的分類結果比較[33]

Mullen和Collier[34]在前人研究工作基礎上,設計出更優秀的特征組合,并利用支持向量機分類器進行情感極性分類.該方法所提出特征組合中包含特征:詞匯的互信息特征(pointwise mutual information, PMI)[23]、Osgood語義區分度(Osgood semantic differentiation with WordNet)[35]、主題相似度特征(topic proximity)和句法關系特征(syntactic-relation features)[22].其中,詞匯的Osgood語義區分度包括3個指標:強度(強或弱)、活躍度(積極或消極)、評估值(好或壞),這3個指標來源于查理斯·奧斯古德語義區分度理論(Charles Osgood’s theory of semantic differentiation)[36].為了提取詞匯的Osgood語義區分度特征,作者利用WordNet來傳播這3個指標,其思想與文獻[4]中生成情感詞典的思想相似:利用WordNet中少量已知詞匯的Osgood語義區分度指標來推斷更多詞匯的Osgood語義區分度指標.該工作結合上述多種特征對評論進行情感分類,實驗數據采用文獻[23]中的數據集.實驗結果如表6所示.從實驗結果上看,該文中提出的基于混合特征的分類方法Hybrid SVM(Turney/Osgood and Lemmas)在分類準確率上明顯優于使用其他特征組合的分類方法.

Table 6 Performance Comparison of Different Features[34](SVM with Linear Kernel)

Notes:The bold values mean the best accuracy value among the different methods.

Saleh等人[37]在3個不同數據集上進行了27組實驗,分別測試了不同特征選擇方法對情感分類效果的影響.實驗選擇支持向量機作為分類模型,數據集有3個:1)Pang和Lee在文獻[38]中的數據集;2)Taboada和Grieve在文獻[39]中的數據集;3)SINAI數據集中的數碼相機子集,實驗采用10折交叉驗證(10-FCV)方法來測試分類器的性能.3組情感分類實驗結果如表7~9所示:

Table 7 Performance Comparison of Different Features on Pang Dataset[37]

Table 8 Performance Comparison of Different Features on Taboada Dataset[37]

Table 9 Performance Comparison of Different Features on SINAI Dataset[37]

實驗結果表明,使用TF-IDF和Trigrams的特征組合在Pang數據集上實現了最高84.65%的分類準確率;使用TF-IDF和Trigrams特征組合在Taboada數據集上實現了最高73.25%的分類準確率;使用TF-IDF和Bigrams特征組合在SINAI數據集上實現了最高91.51%的分類準確率.

Zhang等人[40]使用樸素貝葉斯(NB)和支持向量機(SVM)分類器對酒店評論進行情感分類.作者對評論數據分別提取Unigrams,Bigrams和Trigrams特征,如表10和表11所示.上述特征采用2種表達方式:二值(binary)和頻率(frequency).二值表達用0或1表示一個特征是否出現在評論文檔中;頻率表達則是統計特征在評論文檔中的出現次數.實驗測試了使用不同數量n-gram特征進行情感分類的準確率,結果如表12所示,其中,表格第1列為不同類別特征,n-gram和n-gram_freq分別表示基于二值表達的n-gram特征和基于頻率表達的n-gram特征,NB和SVM對應2種分類器,表格中分類結果由2部分組成:括號外數字為情感分類準確率,括號內數字為特征數目.從結果可以看出,使用NB和基于二值的Bigram特征在特征數目落入900至1 100區間時,能夠達到最高95.67%的分類準確率(accuracy).使用SVM和基于頻率的Bigram特征在特征數目為1 950時,能夠達到最高分類準確率94.83%.

Table 10 n-gram Feature Selected from Binary-Based Documents[40]

Table 11n-gram Feature Selected from Frequency-Based Documents[40]

Table 12 The Best Performance on Different Number of Features[40]

Notes:The bold values mean best accuracy, and the values in the parentheses means the number ofn-gram features.

簡要總結上述基于機器學習技術的情感分類研究工作:

1) 特征工程(feature engineering)是此類研究工作的核心.情感分類任務中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征[41]、TF-IDF特征等.然而,這類方法仍舊依賴于人工設計,研究過程中容易受到人為因素的影響.此外,人工設計的特征在不同領域的推廣能力較差,在某一領域表現優秀的特征集不一定在其他領域也同樣優秀[42].

2) 基于機器學習的情感分類方法多使用經典分類模型如支持向量機、樸素貝葉斯、最大熵模型等.其中,多數分類模型的性能依賴于標注數據集的質量[43],而獲取高質量的標注數據則需要耗費大量的人工成本.

2.3 詞典與機器學習混合的方法

部分情感分類的研究工作將基于詞典的方法和基于機器學習的方法相融合.這類混合方法的思路主要分為2種:1)將“詞典+規則”視作簡單的分類器,然后融合多種不同分類器進行情感分類;2)將詞典信息作為一種特征與現有特征(如句法特征、POS特征等)進行組合,然后選擇最優的特征組合進行情感分類.以下,我們對這類方法中的代表性工作進行簡要介紹.

Prabowo等人[44]提出了一種基于規則的分類器(rule-based classifier, RBC)和支持向量機分類器(SVM)[32]混合的方法,解決文檔級別的情感分類問題.其中,RBC設定了3種規則:

1) 基于情感詞的判定規則[情感詞]→[+/-].其中,“+/-”表示“正面情感/負面情感”.該規則根據出現在評論中的情感詞的極性來判斷整條評論的情感極性,情感詞的極性通過查詢GI詞典[27]獲得.具體實例如[excellent]→[+],[absurd]→[-].

2) 基于主題詞的判定規則,如[#more expen-sive than?]→[-].其中,“#”表示主題詞,“?”表示被比較的對象.該規則主要針對包含多主題詞的對比句的情感分類問題.例如“A is more expensive than B”,若主題詞為A,則該評論的情感極性為負,即[#more expensive than?]→[-];若B為主題詞,則評論的情感極性為正,即[?more expensive than #]→[+].

3) 基于互信息的判斷規則[PMI of review]→[+/-].該規則基于Turney的研究工作[23],計算整條評論中所有詞組互信息差值的均值,根據均值的正負來判斷評論的情感極性.

上述3種判定規則中,基于情感詞的判定規則和基于互信息的判定規則屬于基于詞典的情感分類方法.SVM采用文獻中[23]的方法,該方法屬于機器學習方法.該文作者將上述2種分類器混合進行情感分類:先使用RBC進行分類,若得到分類結果則返回該結果;若沒得到分類結果,則使用SVM分類器進行情感分類.實驗數據集來自文獻[38],該數據集包含電影、商品和社交網站3個不同領域的評論數據.該混合方法在實驗數據集上達到了90.45%的準確率.

Fang Ji等人[45]提出將詞典信息融入到支持向量機分類器中,解決語句級別的情感分類問題.該方法中,作者將評論語句中的名詞、動詞、形容詞和副詞作為該語句的Unigrams特征詞.例如,一條評論語句“The case is rigid so it gives the camera extra nice protection.”通過判斷詞性可以抽取句中的Unigram特征詞序列:〈case,rigid,give,camera,extra,nice,protection〉.若Unigrams特征詞序列中出現了包含于MPQA[29]中的情感詞,則將該情感詞的極性詞(positive或negative)插入到特征詞序列中.例如,上述詞序列中“nice”的情感極性為“positive”,則將“postive”插入到語句的詞序列中得到〈case,rigid,give,camera,extra,nice,protection,positive〉.若詞序列中出現多個情感詞,仍按上述方法在Unigrams特征詞序列中插入相應的極性詞.然后,利用Bag-of-Words模型將特征詞序列轉化成對應的特征向量.特征向量中的元素代表詞序列中詞匯出現的次數.例如,詞序列中出現了2個“positive”和2個“negative”,則對應的特征向量中“positive”和“negative”位置都為2.通過這種方法將詞典信息融入到語句的特征向量中,再使用支持向量機分類器進行情感分類.不同于上述Fang Ji等人的工作,Abbasi等人[46]將研究重點放在特征工程上,提出了一種新的特征選擇技術,稱為特征關系網絡(feature relation network, FRN).該技術融合了規則特征、n-grams特征、句法特征等多種特征,達到了較高的分類性能.

綜上所述,盡管混合方法改進了基于詞典和基于機器學習方法的性能,但本質上并沒有從特征設計和詞典構建中解放出來.

2.4 基于弱標注信息的方法

由于人工標注訓練數據費時費力,近年來情感分析領域的研究者開始考慮從用戶產生的數據中挖掘有助于訓練情感分類器的信息,如評論的評分(ratings)、微博中的表情符號等.由于互聯網用戶的“標注”行為沒有統一標準,具有較大隨意性,所產生的標注信息存在噪聲(如高評分的負面評論),因此我們將這種標注信息稱為弱標注信息.弱標注信息能夠在一定程度上反映評論的情感語義,因此很多研究者嘗試在情感分類研究工作中引入弱標注信息.

Qu等人[47]提出使用包含評分信息的評論數據作為弱標注數據訓練概率模型來解決語句的情感分類問題.T?ckstr?m等人[48]提出利用條件隨機場(conditional random fields, CRF)模型結合文檔標簽(即評論評分)和語句標簽來解決情感分類問題.但是,上述2種方法都還依賴于人工設計的特征.

Maas等人[49]提出在概率模型中引入評論評分信息來學習反應情感屬性的詞向量,然后用一篇文檔中所有詞的詞向量平均值作為特征學習情感分類器.Tang等人[50]提出利用推文中的表情符號(如“:)”表示開心)作為情感標簽來訓練一種C&W模型[51]的變種,從而學習出反映情感屬性的詞向量.對于給定的一篇推文,對其詞的詞向量進行最大、最小和平均池化(pooling)操作,進而獲得該推文的特征表達向量.最后,利用該特征表達向量進行情感分類.上述2種方法都沒有考慮如何減輕弱標注信息中的噪聲影響.此外,盡管這2種方法能夠自動生成用于情感分類的特征表達,但只是簡單的池化操作,并不能很好地捕捉文本到高層語義的復雜映射函數.而捕捉這種復雜映射函數正是深層神經網絡的專長.接下來我們將介紹基于深度學習的情感分類方法.

2.5 基于深度學習的方法

自2006年無監督逐層學習技術(greedy layer-wise training)[52]的提出,深度學習逐漸成為機器學習領域的熱門研究方向.深度神經網絡模仿人腦的分層組織結構,具有指數倍于淺層計算模型的表達能力,理論上能夠更好地捕捉從數據本身到高層語義的復雜映射函數.目前,深度學習模型在不同應用問題上的推廣能力得到了一定驗證[53],如圖像識別[54-57]、語音識別[58-60]、藥物分子活性預測[61-62]等.更令人驚喜的是,深度學習還在很多自然語言理解任務上得到了令人滿意的效果,如智能問答系統[63]、自然語言翻譯[64-65]、情感分析[50,66-72]等.其中,情感分析作為自然語言理解的重要應用之一,也受到了越來越多研究者的廣泛關注.

正如第2節第1段所述,情感分析的核心在于解決情感分類問題.因此,很多研究工作嘗試使用深度學習技術來解決情感分類問題.現有研究工作中,針對情感分類問題的深度學習方法有2個主要步驟:1)從海量評論語料中學習出語義詞向量(word embedding);2)通過不同的語義合成(semantic composition)方法用詞向量得到所對應句子或文檔的特征表達[73].現有合成方法主要基于語義合成性原理(principle of compositionality)[74],該原理指出:長文本(如一個句子、一篇文檔)的語義由它的子成分(如詞匯、短語)的語義按不同規則組合而成.本質上講,語義合成就是利用原始詞向量合成更高層次的文本特征向量.

Bespalov等人[66]提出通過潛在語義分析(latent semantic analysis)初始化詞向量,再用帶權重的n-gram特征進行線性組合從而得到整篇文檔的情感特征向量.Glorot等人[67]提出利用除噪堆疊自編碼器(stacked denoising autoencoder, SDA)來解決海量評論數據情感分類中的領域適應性問題(domain adaptation)[75].自編碼器是一種通過重建自身輸入進行模型優化的特征學習器.除噪堆疊自編碼器是Bengio等人提出的堆疊自編碼器(stacked autoencoder)[76]的一種擴展算法.作者用無監督方法訓練該深度模型去捕捉不同領域數據之間的共性表達,在22個不同類別的商品評論數據上進行模型的推廣能力測試.實驗結果顯示,與同類方法相比,SDA方法達到了較低的平均傳輸推廣誤差(averaged transfer generalization errors)10.9%.該文獻表明,基于除噪堆疊自編碼器的深度學習系統可以通過無監督方法提取不同領域評論文本的潛在共性特征,從而有效地解決跨領域情感分類問題.Socher 等人在2011—2013年間的研究工作中[68-70]提出了一系列基于遞歸神經網絡(recursive neural network, RecNN)的分類模型來解決情感分類問題.RecNN模型通過遞歸計算來學習變長語句的特征向量.Kim[71]則使用卷積神經網絡(convolutional neural network, CNN)來解決情感分類問題.實驗結果表明,卷積神經網絡的分類性能明顯優于遞歸神經網絡.對于卷積神經網絡模型的研究,Kalchbrenner等人[72]提出了一種新穎的卷積神經網絡模型,該模型特點在于采用了動態k-max池化(dynamick-max pooling)操作和多層卷積神經網絡層相結合的結構.不同于上述工作,有研究者提出使用序列模型如循環神經網絡(recurrent neural network, RNN)來解決情感分類問題,例如文獻[77]中,作者提出使用長短期記憶網絡(long short term memory, LSTM),將評論語句建模成詞序列來解決情感分類問題.與CNN相比,LSTM可以捕捉到評論語句中的長依賴關系(long-term dependencies),可以從整體上“理解”評論的情感語義.

相比于傳統機器學習方法,深層神經網絡的表達能力有了質的飛躍,并擺脫了特征工程的束縛.利用語義合成性原理通過不同深度模型將低層詞向量合成高層文本情感語義特征向量,從而得到文本的高層次情感語義表達,有效提升了模型的推廣能力.但是,上述針對文本情感分類問題的深度學習方法仍然在較大程度上依賴于有標注訓練數據,即依賴于有監督學習方法來訓練深層神經網絡[50-51,78].大規模的訓練數據是深度學習成功的關鍵.然而,要獲得有標注訓練數據,便要耗費大量的人力成本.通過人工標注方式獲得大規模有標注訓練數據的成本十分高昂.盡管傳統的無監督預訓練技術能夠利用無標注數據訓練神經網絡,但是該方法只有在數據分布與要預測的語義之間具有較強相關性時才能很好地發揮作用[79].但是,文本中的詞共現信息通常與所要預測的情感語義沒有很強的相關性[49].因此,缺乏大規模的訓練數據已成為深度學習在情感分類問題上的瓶頸.

3 基于弱監督深度學習的情感分類

傳統的情感分類方法中,基于詞典的方法依賴詞典設計,基于機器學習的方法則倚重特征設計,兩者要求相關人員具有較高的領域知識和研究經驗,且方法的推廣能力較差.近年來深度學習在情感分類問題上表現優秀.但是,缺乏標注的訓練數據是深度學習的瓶頸問題.互聯網用戶產生的弱標注信息給我提供了突破瓶頸的新思路.由于弱標注信息與評論情感語義具有一定的相關性,因此可以用于訓練深度模型來解決情感分類問題.

Fig. 7 Network architecture in general for sentence sentiment classification圖7 語句情感分類的通用網絡結構

為此,我們提出了一種利用深層神經網絡和弱標注信息解決情感分類問題的新思路:利用互聯網上產生的海量弱標注評論數據作為訓練集訓練深度模型進行情感分類任務.但是,使用弱標注數據的挑戰在于如何盡量減輕數據中噪聲對模型訓練過程的影響.針對該挑戰,我們設計了一種弱監督深度學習框架(weakly-supervised deep learning, WDE)來解決文本情感分類問題.其總體框架如圖7所示.該框架以評論語句s作為輸入,抽取低層次定長的特征向量表達,并在隱含層引入了上下文信息.訓練方法采用“弱監督預訓練+有監督學習微調”的思路來訓練深層網絡模型.框架的核心是弱監督預訓練方法,該方法利用弱標注數據預訓練出一個能夠捕捉文本語句情感語義分布的嵌入空間(embedding layer),如圖7所示,使得具有相同情感極性的語句互相接近,而具有不同情感極性的語句互相遠離.得到較好的嵌入空間之后,再增加分類層(classification layer),如圖7所示,用少量有標注數據訓練最終分類模型.

我們將該框架應用在商品評論情感分類問題上.通過分析大量商品評論數據,我們發現:一條商品評論的評分在一定程度上能夠反映這條評論的情感取向.因此,我們提出利用一條評論的評分信息作為該評論中所有語句的情感標簽來訓練深度模型.但是,商品評論的評分是一種弱標注標簽,評論中可能存在實際情感語義與評分不一致的情況,如一條5星級的評論中仍然存在負面評論語句,具體實例如圖8所示,圖8中框內語句為負面評價語句.

Fig. 8 A negative sentence in a 5-stars review圖8 一條5星評論中的負面語句

我們將這種情感語義與評分不相符的標注數據稱為噪聲.為了確定噪聲的影響,我們人工標注了一些語句(人工標注集在實驗部分有詳細說明),并統計噪聲數據在人工標注語句中的占比情況,即:人工標注數據集中,屬于4,5星評論的語句中人工標注為負面評價的語句所占百分比,以及屬于1,2星評論的語句中人工標注為正面評價的語句所占百分比.統計結果如圖9所示.在人工標注數據中,上述2個占比值都超過了10%,總體上看,噪聲占總量的13.4%.這表明弱標注數據中存在一定噪聲,直接作為有標注信息會影響模型的訓練效果,因此無法直接用于深度模型的有監督訓練.

Fig. 9 Percentages of wrong-labeled sentences by ratings in our labeled review dataset圖9 標注數據中以評分錯標語句的比例

為解決該問題,我們設計了一種抗噪聲的預訓練方法,即前文所述的“弱監督預訓練”方法.該方法的目標是通過預訓練得到一個能夠捕捉語句情感語義分布的嵌入空間,從弱標注數據中汲取有用信息的同時,避免其對最終分類模型的直接影響.以下內容,我們將按如下順序組織:1)詳細介紹2種實現WDE框架的深度模型,包括基于CNN的深度模型和基于LSTM的深度模型;2)具體給出弱監督預訓練方法并簡要描述有監督微調步驟;3)我們通過實驗驗證了2種深度模型在商品評論情感分類問題上的效果.

Fig. 10 The CNN network architecture for sentence sentiment classification WDE-CNN圖10 基于CNN的深度模型WDE-CNN

3.1 基于CNN的深度模型介紹

由于卷積神經網絡在語句級別的情感分類問題上表現優秀[71],因此我們選擇卷積神經網絡作為WDE的一種模型實現.該模型稱為WDE-CNN,是文獻[51,71]中CNN模型的一種變體結構,其結構如圖10所示.圖10中,將一條評論語句s輸入到模型中,w1,w2,…,wt表示句子中的詞語,對每個詞語查詢詞向量列表X得到對應的詞向量x1,x2,…,xt.從而將語句s=〈w1,w2,…,wt〉轉化為〈x1,x2,…,xt〉.我們使用Word2Vec在谷歌新聞語料庫上的訓練結果[80]來初始化詞向量列表,對于不在谷歌新聞訓練結果中的詞匯則隨機初始化.

卷積層(convolutional layer)包含多個卷積濾波器,每個濾波器通過滑動能容納n個詞匯的窗口進行卷積計算,進而生成局部特征值,計算公式如下:

u(i)=f(WTxi:(i+h-1)+b),

(3)

最大池化層(max pooling layer)對向量u中所有u(i)求最大值以獲取其中最顯著的特征值[51]:

(4)

其中,j表示第j個卷積濾波器.在最大池化層中,最大池化操作提取特征圖顯著特征的同時還生成了定長的特征向量v.

需要說明的是,詞容量為g的卷積濾波器本質上是一個特征采集器,用來提取句子的n-gram特征.對輸入的n-gram匹配其相應的w從而得到高層次特征值.該方法雖然與傳統情感分類工作中的特征選擇方法[42]相像,但其優勢在于特征是自動學習的而非人工設計.考慮到機器學習方法常使用unigrams,bigrams和trigrams特征[42],因此我們使用不同詞容量的卷積濾波器,設置參數n=1,2,3.

隱含層(Hidden layer)與傳統神經網絡結構相同,所有神經元之間全連接.該層以v(j)作為輸入,通過非線性激活函數得到更高層次的特征向量h.計算是標準的前向傳播(forward)計算:

h=f(Whidv+bhid),

(5)

其中,Whid為權重矩陣,bhid為偏置(bias)向量.

隱含層之后為嵌入層(embedding layer),該層輸入由2個部分拼接而成:隱含層的輸出向量h和句子s的上下文向量asen.在商品評論中,上下文向量是對商品某一具體主題(aspect)的語義表達,如“battery life”是“cell phone”的一個主題.引入上下文向量的原因在于,相似或相同文字表達對于不同的上下文可能會表現出完全相反的情感極性,例如“the screen is big”和“the size is big”.與輸入層獲取詞向量方法類似,所有上下文向量都可以從上下文向量列表A中查詢獲得,該列表的初始值由隨機初始化獲得.嵌入層的計算為

(6)

3.2 基于LSTM的深度模型

基于CNN的深度模型中,卷積濾波器的詞容量有限,導致其無法捕捉到句子中的長距離依賴關系.因此,我們提出一種基于LSTM的深度模型實現,稱為WDE-LSTM.LSTM是RNN的一種特殊類型.RNN網絡根據前一次迭代過程的隱層輸出和當前的數據輸入來更新隱層的狀態,使神經元具有了“記憶”功能,可以更自然地處理文本數據.LSTM則在RNN基礎上引入了門機制,利用3種不同的門函數,即輸入門、遺忘門和輸出門,來控制記憶的長短.一個LSTM記憶單元在時刻t的前向計算過程為[81]

dt=f(Wiuxt+Uiuzt-1+biu).

(7)

it=σ(Wigxt+Uigzt-1+big).

(8)

ft=σ(Wfgxt+Ufgzt-1+bfg).

(9)

ot=σ(Wogxt+Uogzt-1+bog).

(10)

ct=it×dt+ft×ct-1.

(11)

zt=ot×f(ct-1).

(12)

Fig. 11 The LSTM network architecture for sentence sentiment classification (WDE-LSTM)圖11 基于LSTM的語句情感分類網絡結構(WDE-LSTM)

式(7)~(11)中,{W*,U*,b*}*∈{ig,iu,og,fg}是模型的參數集合,×表示2個向量的元素乘積;dt,it,ft,ot分別表示時刻t記憶單元的輸入單元、輸入門、遺忘門和輸出門的輸出值;ct表示時刻t記憶單元的內部狀態,zt表示時刻t記憶單元的輸出;σ(·)是sigmoid激活函數,f(·)是雙曲正切激活函數.以上述結構LSTM作為基本構件,我們設計了基于LSTM的深度模型,如圖11所示:

模型的輸入與WDE-CNN模型相同.LSTM層包含2組不同方向的LSTM形成了一個雙向RNN結構[82],該層的操作為

與WDE-CNN相似,在LSTM層之后,我們進行了最大池化操作以提取顯著特征值,從而得到定長的特征向量v,計算方法如式(13)所示.最大池化層之上各層結構操作與WDE-CNN相同:

(13)

3.3 基于弱標注數據的預訓練方法

3.1節和3.2節2種模型都采用嵌入層的弱監督預訓練方法.其思想是:通過預訓練得到一個可以較好捕捉數據情感語義分布的嵌入空間,之后再使用少量有標注數據學習目標預測函數.相較而言,前人基于弱標注信息的訓練方法通常直接學習目標預測函數.這種做法會使弱標注信息中的噪聲直接影響預測函數.而我們提出的訓練方法避免了直接使用弱標注信息訓練目標預測函數,能在一定程度上削弱噪聲對預測函數學習的影響.

弱監督預訓練方法首先將5級評分離散化為二值標簽,標簽分配的規則是:將評分高于3星的評論中的句子標為正面標簽l(s)=pos,將評分低于3星的評論中的句子標為負面標簽l(s)=neg,其中l(s)表示句子s的弱標注標簽.通過標簽分配,我們將評論語句劃分到2個集合里.弱監督學習的訓練目標是讓P集合和N集合各自內部的語句更接近,同時使分別屬于2個集合的語句相互遠離.

一種直觀的訓練方法是,采樣句子對,利用隨機梯度下降法(stochastic gradient descent, SGD)對句子對進行操作[83]:如果2句話的弱標簽相同,則減小它們在嵌入空間中的距離;反之,則增大它們在嵌入空間中的距離.但是,當采樣到噪聲時會導致語句向錯誤類別移動.為了減弱噪聲影響,我們提出一種三元訓練準則,每次采樣弱標注數據中的3條評論語句組成三元組,再利用Ranking Loss[51]目標函數對嵌入空間中語句的相對距離進行懲罰,目標函數為

dst(s1,s2)),

(14)

(15)

Fig. 12 Comparison between pair-based training and triplet-based training圖12 二元訓練準則與三元訓練準則對比

式(14)中,λ表示間隔;〈s1,s2,s3〉表示訓練集中一組三元采樣,其中句子標簽l(s1)=l(s2)≠l(s3);dst(·)表示語句在神經網絡嵌入層所表示的空間中的歐式距離,該距離的計算方法如式(15)所示.式(14)目標函數的含義是:讓具有相同弱標簽的語句s1與s2之間的距離至少比具有相反弱標簽的語句s1與s3之間的距離小λ.預訓練過程中,三元采樣方法的具體步驟是:先從P或者N中隨機選其中之一,然后隨機抽取該集合中的2個語句,再從另一個集合中隨機抽取1個語句.

圖12為二元訓練準則與三元訓練準則的對比圖.圖12中,圓圈表示弱標簽為pos的樣本;三角表示弱標簽為neg的樣本;黑色為錯標語句(即噪聲,實際語義與標簽不符的句子);白色為正確標注語句;①,②,③為3種包含錯標語句的采樣實例.對于二元訓練準則(圖12(a)所示),例①、例②中錯標語句在訓練過程中會向錯誤類別的語句靠近;例③中,錯標語句則遠離了其正確類別的語句.對比來看,對于三元訓練準則而言,目標函數確保s1與s2之間的距離至少比s1與s3之間的距離小λ.例①中由于同時采樣到2個錯標語句,因此仍然會導致s2和s3向錯誤類方向移動.例②和例③中則混合了2種情況:一個語句向正確方向移動,而另一個向錯誤方向移動.因此,在三元訓練準則中,例②和例③中的噪聲對訓練過程的影響弱于二元訓練準則中的噪聲對訓練過程的影響.此外,在三元準則訓練過程中,如果2對句子的距離之差大于間隔參數λ,那么預訓練目標函數Lweak的導數為零.這種情況下,在訓練過程中句子不發生任何移動.例如,在圖12(b)的例②中,s2的真實類別是neg,因此s2不應該向s1移動.由于s3與s1之間的距離較大,使得預訓練目標函數中2對句子的距離之差大于λ.因此,訓練過程中句子不發生任何移動,s1與s2不會互相靠近.對比來看,在圖12(a)的例①和例②中,s1與s2會朝對方移動直至兩者之間的距離變為0.此時,噪聲對訓練過程的影響較大.上述分析表明,與二元訓練準則相比,三元訓練準則在一定程度上減弱了噪聲對訓練過程的影響.

3.4 有監督學習微調模型

通過弱監督預訓練步驟,我們得到了能夠較好捕捉情感語義分布的模型.有監督微調步驟用該模型的參數作為有監督訓練的初始參數,同時在嵌入層上添加分類層,學習目標分類函數.分類層采用Softmax輸出函數,用少量人工標注的數據對整個模型進行有監督訓練,從而得到最終的分類模型.

3.5 實驗驗證

我們在亞馬遜評論數據集上驗證2種實現WDE模型的性能.我們從公開的亞馬遜評論數據集[84]上收集了3類商品的評論數據:數碼相機、手機和筆記本電腦,所有評論數據都包括相應評分信息.我們利用文獻[5]中的方法提取了107個商品主題關鍵詞(aspect keywords).之后,我們對所有評論數據進行了分句并過濾掉無aspect keywords和多aspect keywords的語句.經過以上預處理操作我們得到了1 143 721條弱標注語句.另外,我們人工標注了11 754條語句用于有監督訓練.標注工作包含2個部分:主客觀標注和正負情感標注.其中,主客觀標注的目的是為了進一步分析情感分類方法分別在主觀和客觀語句上的性能.標注數據被隨機劃分為訓練集(50%)、驗證集(20%)和測試集(30%).標注數據詳細情況如表13所示:

Table 13 Statistics of the Labeled Dataset表13 人工標注數據集

3.5.1 WDE-CNN和WDE-LSTM與其他分類方法對比實驗

實驗中采用的對照組方法描述如下:

1) Lexicon.基于詞典的方法[5].

2) SVM.“支持向量機+n-gram特征”是情感分類中最常見的一種方法[32],實驗中我們使用trigrams特征,并使用Liblinear分類器[85].

3) NBSVM.文獻[86]中將NB分類器和SVM分類器融合在情感分類上取得了較好的效果.

4) SSWE.SSWE通過在弱標注信息上訓練神經網絡以得到詞向量.給定一條語句,對語句中所包含詞的詞向量求最大、最小和均值,從而得到語句的特征向量表達進行情感分類[50].

5) SentiWV.該方法使用評分信息訓練詞向量,再使用線性分類器進行情感分類[49].用詞向量生成語句特征表達的過程與SSWE相同.

6) CNN-rand.在有標注數據集上訓練基于CNN的網絡模型(如圖10所示),隨機初始化網絡參數.

7) LSTM-rand.在有標注數據集上訓練基于LSTM的網絡模型(如圖11所示),隨機初始化網絡參數.

8) CNN-weak.直接將弱標注數據當作有標注數據訓練基于CNN的網絡模型(使用基于LSTM的網絡模型效果相似,因此只展示基于CNN的網絡模型的結果).

表14展示了實驗結果.通過對比可以看出,WDE-CNN和WDE-LSTM的準確率和Macro-F1值都超越了其他方法;另外,WDE-CNN和WDE-LSTM在小規模有標注訓練數據上的性能也明顯優于其他方法.如圖13所示,在只采用10%訓練數據的情況下,2種方法都達到了80%左右的分類準確率,顯著高于其他模型.原因在于WDE中引入了商品評分這種與句子情感語義有一定關聯性的弱標注信息,并通過三元訓練準則和“弱監督預訓練+有監督微調”訓練框架減弱了噪聲對模型訓練過程的影響,較好地將弱標注數據中的大量有用信息“記憶”到深度模型中.從表14中還可以看出,CNN-weak效果較差,說明弱標注數據并不能直接用于有監督學習.

Table 14 Performance Comparison表14 性能比較

Notes:The bold values mean the best accuracy and Marco-F1 values among the different methods.

Fig. 13 Impact of labeled training data size on each method’s performance圖13 不同規模訓練集對模型分類性能的影響

3.5.2 WDE-CNN與WDE-LSTM對比

與WDE-CNN相比,WDE-LSTM模型中的LSTM層可以捕捉評論語句中的長距離依賴關系,因此WDE-LSTM更善于從整體上“理解”句子的語義.我們對2個模型在測試數據上的分類結果進行了詳細分析,發現:1)WDE-CNN更善于對句法結構簡單的語句進行分類,例如“Sound is not that good”;2)對于句法結構復雜的語句,WDE-LSTM則更加適用.表15展示的是WDE-LSTM分類正確而WDE-CNN分類錯誤的例句,表格第2列是評論語句的真實情感標簽.可以看到,前兩句話都是轉折句,轉折詞前后子句的情感極性發生了反轉.由于WDE-CNN提取的是局部特征,情感含義沖突的局部文字表達容易導致錯誤分類,如第1句中的“not the greatest”和“is ok”.最后1句話中,否定詞“None”和表達用戶觀點的內容之間的距離超出了滑動窗口的最大容量,因此WDE-CNN很難捕捉到兩者之間的依賴關系.對于WDE-LSTM而言,它可以從整體上捕捉語句內的長距離依賴關系,從而能夠正確分類句法結構復雜的語句.

Table 15 Example Sentences on Which WDE-LSTM Makes Correct Prediction While WDE-CNN Fails

Fig. 14 Impact of λ on classification performance圖14 不同λ取值對情感分類性能的影響

3.5.3 預訓練間隔參數λ對模型分類性能的影響

預訓練目標函數式(14)中的間隔參數λ本質上是控制我們要將弱標注正類和弱標注負類分開的程度.若λ參數設定過小會導致無法有效捕捉情感分布,而λ參數設定過大會導致噪聲影響被放大.在實驗中,我們測試了不同λ取值對分類結果的影響.首先需要設定λ的測試范圍.由于嵌入層特征是300維的向量且神經元的輸出值范圍為[-1,1].這就形成了一個超立方體,立方體內任意2點間的最大距離約為35.因此,我們將λ的測試范圍設為1~30之間.圖14展示了不同λ值對最終情感分類性能的影響.從圖14中可以看出,當λ>15時,分類性能嚴重下降;在λ<15時,WDE-CNN和WDE-LSTM都達到了較高的分類準確率.此外,當λ取值較大時(即大于嵌入空間最大距離的一半),模型經過長時間訓練更容易陷入飽和區域[87].綜合上述分析和實驗結果,我們將設置優化目標間隔參數λ=5.

4 總結與展望

本文對情感分類技術進行了系統性歸納,并著重介紹了弱監督深度學習在情感分類問題上的最新研究進展.本節我們簡要梳理傳統情感分類方法的不足,并總結弱監督深度學習的要點和挑戰.

傳統情感分類方法中,基于詞典的方法過于依賴情感詞典的構建,而機器學習方法的關鍵在于特征設計.無論是生成情感詞典還是設計分類特征,都要求相關人員具有豐富的領域知識.此外,傳統機器學習方法中的分類特征一般只能針對特定問題,推廣能力有限.相比而言,深度模型擁有更強大的表達能力,能夠更好地學習從數據到情感語義的復雜映射函數.但是,深度模型的訓練是關鍵挑戰.一方面,由于文本數據分布與所要預測的情感語義之間沒有很強的相關性,所以無監督預訓練方法在情感分類問題上效果欠佳;另一方面,有監督訓練方法需要大量有標注數據來訓練深度模型,而獲得大規模有標注評論語句需要耗費大量人力進行數據標注工作.

基于弱監督的深度學習方法則提供了一種解決情感分類問題的新思路:先使用互聯網用戶產生的大量評分信息對深度模型進行弱監督預訓練得到一個能夠捕捉情感語義分布的語句高層特征表達,再利用少量有標注數據進行監督學習預測情感極性.該方法引入了互聯網用戶產生的弱標注數據作為深度模型的訓練集,能夠較好地利用弱標注數據中的有用信息.對于采用其他互聯網用戶產生的弱標注數據(如tagging數據、表情符號等)來訓練深度模型也有借鑒意義.相比于其他深度學習方法,基于弱監督的深度學習方法的優勢有3點:1)該方法更容易獲取訓練數據且很大程度上減少了人工標注成本;2)該方法中深度模型的預訓練方法具有抗噪能力,能有效減弱訓練數據中噪聲對模型訓練過程的影響;3)該方法可以推廣應用到很多文本智能理解應用問題上.互聯網中存在大量的用戶產生的文本弱標注信息,如百度知道問答社區的最佳答案*https://zhidao.baidu.com/.、美味書簽網站的用戶標簽*https://del.icio.us/.等.

因此,可以將基于弱監督的深度學習方法推廣到相應的文本智能理解應用問題上,如智能問答系統、推薦系統等等.另一方面,基于弱監督的深度學習方法性能的好壞一定程度上取決于弱標注數據中噪聲的影響.因此,如何有效過濾弱標注數據中的噪聲是未來研究工作中亟待解決的問題.

由于情感分類在不同現實場景中有著廣泛應用,如電影票房預測、股指預測、政府政策調控等.因此,探索更好的情感分類方法仍然會是情感分類領域的熱點問題.另外,如何將WDE有效地應用在其他包含弱標注信息的問題上也是未來的重要挑戰之一.

[1]Medhat W, Hassan A, Korashy H. Sentiment analysis algorithms and applications: A survey[J]. Ain Shams Engineering Journal, 2014, 5(4): 1093-1113

[2]O’connor B, Balasubramanyan R, Routledge B R, et al. From tweets to polls: Linking text sentiment to public opinion time series[C] // Proc of the 4th Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010: 122-129

[3]Bollen J, Mao Huina, Zeng Xiaojun. Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011, 2(1): 1-8

[4]Hu Mingqi, Liu Bing. Mining and summarizing customer reviews[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 168-177

[5]Ding Xiaowen, Liu Bing, Yu P S. A holistic lexicon-based approach to opinion mining[C] //Proc of Int Conf on Web Search and Web Data Mining. New York: ACM, 2008: 231-240

[6]Liu Bing, Hu Miaowen, Cheng Junsheng. Opinion observer: Analyzing and comparing opinions on the Web[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2005: 342-351

[7]Zhu Jingbo, Wang Huizhen, Zhu Muhua, et al. Aspect-based opinion polling from customer reviews[J]. IEEE Trans on Affective Computing, 2011, 2(1): 37-49

[8]Hu Mingqi, Liu Bing. Mining opinion features in customer reviews[C] //Proc of the 19th National Conf on Artifical Intelligence. Menlo Park, CA: AAAI, 2004: 755-760

[9]Zhuang Li, Jing Feng, Zhu Xiaoyan. Movie review mining and summarization[C] //Proc of Conf on Information and Knowledge Management. New York:ACM, 2006: 43-50

[10]Lin D. Dependency-Based Evaluation of Minipar[G] //Treebanks. Berlin: Springer, 2003: 317-329

[11]Jin Weijin, Ho H H, Srihari R K. OpinionMiner: A novel machine learning system for Web opinion mining and extraction[C] //Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2009: 1195-1204

[12]Lu Yue, Zhai Chengxiang, Sundaresan N. Rated aspect summarization of short comments[C] //Proc of Int World Wide Web Conf. New York: ACM, 2009: 131-140

[13]Jakob N, Gurevych I. Extracting opinion targets in a single- and cross-domain setting with conditional random fields[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 1035-1045

[14]Branavan S R K, Chen H, Eisenstein J, et al. Learning document-level semantic properties from free-text annotations[J]. Journal of Artificial Intelligence Research, 2014, 34(1): 569-603

[15]Zhao W X, Jiang Jing, Yan Hongfei, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 56-65

[16]Brody S, Elhadad N. An unsupervised aspect-sentiment model for online reviews[C] //Proc of North American Chapter of the Association of Computational Linguistics. New York: ACM, 2010: 804-812

[17]Zhang Lei, Liu Bing. Aspect and Entity Extraction for Opinion Mining[M]. Berlin: Springer, 2014

[18]Hai Zhen, Chang Kuiyu, Kim J. Implicit feature identification via co-occurrence association rule mining[C] //Proc of Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2011: 493-514

[19]Su Qi, Xu Xinying, Guo Honglei, et al. Hidden sentiment association in Chinese Web opinion mining[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2008: 959-968

[20]Duan Xiuting, He Tingting, Song Le. Research on sentiment classification of blog based on PMI-IR[C] //Proc of 2010 Int Conf on Natural Language Processing and Knowledge Engineering (NLP-KE). Piscataway, NJ: IEEE, 2010: 1-6

[21]Lu Yao, Kong Xiangfei, Quan Xiaojun, et al. Exploring the sentiment strength of user reviews[C] //Proc of Int Conf on Web-Age Information Management. Berlin: Springer, 2010: 471-482

[22]Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C] //Proc of Int Conf on Knowledge Capture. New York: ACM, 2003: 70-77

[23]Turney P D. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C] //Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2002: 417-424

[24]Feldman R. Techniques and applications for sentiment analysis[J]. Communications of the ACM, 2013, 56(4): 82-89

[25]Zhang Lei, Liu Bing. Identifying noun product features that imply opinions[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 575-580

[26]Lu Yue, Castellanos M, Dayal U, et al. Automatic construction of a context-aware sentiment lexicon: An optimization approach[C] //Proc of Int World Wide Web Conf. New York: ACM, 2011: 347-356

[27]Stone P J, Dunphy D C, Smith M S. The general inquirer: A computer approach to content analysis[J]. American Journal of Sociology, 1968, 73(5): 375-376

[28]Pennebaker J W, Francis M E, Booth R J. Linguistic inquiry and word count 2001[J]. Lawrence Erlbaum Associates Mahwah Nj, 2001, 10(2): 22-32

[29]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C] //Proc of the Conf on Human Language Technology and Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2005: 347-354

[30]Riloff E, Wiebe J. Learning extraction patterns for subjective expressions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2003: 105-112

[31]Baccianella S, Esuli A, Sebastiani F. SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining[C] //Proc of Int Conf on Language Resources and Evaluation. Piscataway, NJ: IEEE, 2010: 2200-2204

[32]Pang B, Lee L, Vaithyanathan S. Thumbs up?: Sentiment classification using machine learning techniques[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86

[33]Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C] //Proc of Int World Wide Web Conf. New York: ACM, 2003: 519-528

[34]Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2004: 412-418

[35]Kamps J, Marx M. Words with attitude[C] //Proc of the 14th Belgian-Netherlands Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2002: 332-341

[36]Osgood C E. The nature and measurement of meaning[J]. Psychological Bulletin, 1952, 49(3): 197-237

[37]Saleh M R, Mart N-Valdivia M T, Montejo-R Ez A, et al. Experiments with SVM to classify opinions in different domains[J]. Expert Systems with Applications, 2011, 38(12): 14799-14804

[38]Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C] //Proc of Meeting on Association for Computational Linguistics. Cambridge, MA: MIT Press, 2004: 271-278

[39]Taboada M, Grieve J. Analyzing appraisal automatically[C] //Proc of AAAI Spring Symp. Menlo Park, CA: AAAI, 2004: 158-161

[40]Ye Qiang, Zhang Ziqiong, Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535

[41]Feng Shi, Fu Yongchen, Yang Feng, et al. Blog sentiment orientation analysis on dependency parsing[J]. Journal of Computer Research and Development, 2012, 49(11): 2395-2406 (in Chinese)

(馮時, 付永陳, 陽鋒, 等. 基于依存句法的博文情感傾向分析研究[J]. 計算機研究與發展, 2012, 49(11): 2395-2406)

[42]Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135

[43]Sindhwani V, Melville P. Document-word co-regularization for semi-supervised sentiment analysis[C] //Proc of the 8th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2008: 1025-1030

[44]Prabowo R, Thelwall M. Sentiment analysis: A combined approach[J]. Journal of Informetrics, 2009, 3(2): 143-157

[45]Fang Ji, Chen B. Incorporating lexicon knowledge into SVM learning to improve sentiment classification[C] //Proc of the Workshop on Sentiment Analysis Where AI Meets Psychology (SAAIP). New York: ACM, 2011: 94-100

[46]Abbasi A, Chen H, Salem A. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums[J]. ACM Trans on Information Systems, 2008, 26(3): 12-47

[47]Qu Lizhen, Gemulla R, Weikum G. A weakly supervised model for sentence-level semantic orientation analysis with multiple experts[C] //Proc of the 2012 Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 149-159

[48]T?ckstor?m O, Mcdonald R. Semi-supervised latent variable models for sentence-level sentiment analysis[C] //Proc of the Meeting of the 49th Annual Meeting of Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 569-574

[49]Maas A L, Daly R E, Pham P T, et al. Learning word vectors for sentiment analysis[C] //Proc of the Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 142-150

[50]Tang Duyu, Qin Bing, Liu Ting. Deep learning for sentiment analysis: Successful approaches and future challenges[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2015, 5(6): 292-303

[51]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2493-2537

[52]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554

[53]Yu Kai, Jia Lei, Chen Yuqiang, et al. Deep learning: Yesterday, today and tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804 (in Chinese)

(余凱, 賈磊, 陳雨強, 等. 深度學習的昨天、今天和明天[J]. 計算機研究與發展, 2013, 50(9): 1799-1804)

[54]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105

[55]Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1915-1929

[56]Tompson J, Jain A, Lecun Y, et al. Joint training of a convolutional network and a graphical model for human pose estimation[J]. Eprint Arxiv, 2014: 1799-1807

[57]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9

[58]Mikolov T, Deoras A, Povey D, et al. Strategies for training large scale neural network language models[C] //Proc of Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 196-201

[59]Hinton G, Deng Li, Yu Dong, et al. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97

[60]Sainath T N, Mohamed A R, Kingsbury B, et al. Deep convolutional neural networks for LVCSR[C] //Proc of Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2013: 8614-8618

[61]Leung M K, Xiong H Y, Lee L J, et al. Deep learning of the tissue-regulated splicing code[J]. Bioinformatics, 2014, 30(12): 121-129

[62]Xiong Huiyuan, Alipanahi B, Lee L J, et al. The human splicing code reveals new insights into the genetic determinants of disease[J]. Science, 2015, 347(6218): 1254806-1254806

[63]Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. Computer Science, 2014, 8(4): 23-33

[64]Jean S, Cho K, Memisevic R, et al. On using very large target vocabulary for neural machine translation[J]. Computer Science, 2015(10): 35-45

[65]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112

[66]Bespalov D, Bai Bing, Qi Yanyu, et al. Sentiment classification based on supervised latentn-gram analysis[C] //Proc of ACM Conf on Information and Knowledge Management. New York: ACM, 2011: 375-382

[67]Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification: A deep learning approach[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2011: 513-520

[68]Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive matrix-vector spaces[C] //Proc of Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 1201-1211

[69]Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2011: 151-161

[70]Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2013: 1631-1642

[71]Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint, arXiv: 1408. 5882, 2014

[72]Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint, arXiv: 1404. 2188, 2014

[73]Mitchell J, Lapata M. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8): 1388-1429

[74]Frege G. On sense and nominatum[J]. Philosophy of Science, 1949, 59(16): 35-39[75]Wu Qiong, Liu Yue, Shen Huawei, et al. A unified framework for cross-domain sentiment classification,[J]. Journal of Computer Research and Development, 2013, 50(8): 1683-1689 (in Chinese)

(吳瓊, 劉悅, 沈華偉, 等. 面向跨領域情感分類的統一框架[J]. 計算機研究與發展, 2013, 50(8): 1683-1689)

[76]Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007: 153-160

[77]Zhu Xiaodan, Sobihani P, Guo Hongyu.Long short-term memory over recursive structures[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2015: 1604-1612

[78]Hu Baoting, Lu Zhengdong, Li Hang, et al. Convolutional neural network architectures for matching natural language sentences[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2042-2050

[79]Bengio Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1): 1-127

[80]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 3111-3119

[81]Greff K, Srivastava R K, Koutnik J, et al. LSTM: A search space odyssey[J]. IEEE Trans on Neural Networks & Learning Systems, 2016(7): 10-18

[82]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6): 602-610

[83]Weston J, Ratle F, Mobahi H, et al. Deep Learning via Semi-Supervised Embedding[G] //Neural Networks: Tricks of the Trade. Berlin: Springer, 2012: 639-655

[84]Mcauley J, Pandey R, Leskovec J. Inferring networks of substitutable and complementary products[C] //Proc of the 21st ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2015: 785-794[85]Fan R E, Chang K W, Hsieh C J, et al. LIBLINEAR: A library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(Aug): 1871-1874

[86]Wang S, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C] //Proc of the 50th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2012: 90-94

[87]Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828

Guan Ziyu, born in 1982. Received his BSc and PhD degrees in computer science from Zhejiang University, in 2004 and 2010, respectively. Full professor in the School of Information Science and Technology of Northwest University. His main research interests include attributed graph mining and search, machine learning, expertise modeling and retrieval, and recommender systems.

He Jinhong, born in 1983. Received his BSc degree in management engineering from People’s Liberation Army Guilin Air Force Academy in 2009. After serving in the army for 3 years, he joined Northwest University. His main research interests include image processing, machine learning and information security.

Peng Jinye, born in 1964. Received his MSc degree in radio electronics from Northwest University in 1996 and received his PhD degree in signal and information processing from Northwestern Polytech-nical University in 2002. Full professor in Northwest University in 2003. He was awarded as “New Century Excellent Talent” by the Ministry of Education of China in 2007. His main research interests include machine learning, imagevideo analysis and retrieval, and face recognition.

A Survey on Sentiment Classification

Chen Long, Guan Ziyu, He Jinhong, and Peng Jinye

(SchoolofInformationScienceandTechnology,NorthwestUniversity,Xi’an710127)

Sentiment analysis in text is an important research field for intelligent multimedia understanding. The aim of sentiment classification is to predict the sentiment polarity of opinionated text, which is the core of sentiment analysis. With rapid growth of online opinionated content, the traditional approaches such as lexicon-based methods and classic machine learning methods cannot well handle large-scale sentiment classification problems. In recent years, deep learning has achieved good performance on the intelligent understanding of large-scale text data and has attracted a lot of attention. More and more researchers start to address text classification problems with deep learning. The content of this survey is organized as two parts. We firstly summarize the traditional approaches including lexicon-based methods, machine learning based methods, hybrid methods, methods based on weakly labeled data and deep learning based methods. Secondly, we introduce our proposed weakly-supervised deep learning framework to deal with the defects of the previous approaches. Moreover, we briefly summarize the research work on the extraction of opinion aspects. Finally, we discuss the challenges and future work on sentiment classification.

sentiment analysis; sentiment classification; deep learning; weak-supervision; aspects extraction

, born in 1989.

his BSc degree in electronic information engin-eering from City College, Xi’an Jiaotong University in 2012 and received his MSc degree in electronics and communications engineering from Northwest University, Xi’an, China, in 2015. PhD candidate at the School of Information Science and Technology, Northwest University, Xi’an, China. His main research interests include deep learning, sentiment analysis, text mining and natural language processing.

2016-11-10;

2017-03-14

國家自然科學基金優秀青年科學基金項目(61522206) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61522206).

管子玉(ziyuguan@nwu.edu.cn)

TP181

猜你喜歡
分類情感方法
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产菊爆视频在线观看| 精品成人免费自拍视频| 97国产成人无码精品久久久| 成人看片欧美一区二区| 久无码久无码av无码| 亚洲第一黄片大全| 精品国产99久久| 亚洲天堂高清| 国产精品理论片| 国产一级特黄aa级特黄裸毛片| 国产一级毛片在线| 亚洲精品日产精品乱码不卡| 国产在线视频二区| 第一页亚洲| 一本色道久久88| 国产国产人成免费视频77777| 亚洲成人黄色在线| 97青草最新免费精品视频| 美女内射视频WWW网站午夜 | 91精品国产91欠久久久久| 亚洲香蕉在线| 波多野结衣视频一区二区| 激情综合五月网| 国产极品美女在线观看| 伊人网址在线| 亚洲男人天堂网址| 国产成人高清在线精品| 在线看AV天堂| 精品亚洲欧美中文字幕在线看| 无码AV高清毛片中国一级毛片| 亚洲无码A视频在线| AV在线天堂进入| 国产黑丝视频在线观看| 久久久久国产一区二区| 欧美成人第一页| 亚洲精品免费网站| 国产精品99久久久| 国产在线无码av完整版在线观看| 国产高潮视频在线观看| 色综合中文字幕| 亚洲中文字幕日产无码2021| 亚洲第一视频免费在线| 男人天堂亚洲天堂| 免费人成又黄又爽的视频网站| 国产精品自在在线午夜| 波多野结衣国产精品| 欧美一区二区精品久久久| 四虎国产成人免费观看| 欧美中文字幕在线二区| 日韩国产黄色网站| 中文字幕永久在线观看| 精久久久久无码区中文字幕| 黄色网址免费在线| 国产精品密蕾丝视频| 国产人成乱码视频免费观看| 在线观看热码亚洲av每日更新| 精品无码国产自产野外拍在线| 日韩一级二级三级| 欧洲高清无码在线| 国产AV无码专区亚洲A∨毛片| 亚洲精品卡2卡3卡4卡5卡区| 亚洲第一区在线| 99久久性生片| 久久综合色88| 欧日韩在线不卡视频| 久久久久88色偷偷| 国产精品免费入口视频| 欧美一区二区三区国产精品| 这里只有精品国产| 日韩第一页在线| 亚洲欧美另类色图| 国产美女无遮挡免费视频| 高清无码一本到东京热| 日本欧美中文字幕精品亚洲| 久久情精品国产品免费| 永久免费av网站可以直接看的| 九色在线观看视频| 亚洲成人免费在线| 伊人久久大香线蕉影院| 久久久噜噜噜久久中文字幕色伊伊| 婷婷99视频精品全部在线观看| 性激烈欧美三级在线播放|