999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNTN和CBOW的商品評論情感分類

2018-03-19 05:58:46彭三春張云華
計算機工程與設計 2018年3期
關鍵詞:單詞分類文本

彭三春,張云華

(浙江理工大學 信息學院,浙江 杭州 310018)

0 引 言

構建商品評論情感分類模型[1-4],是自然語言處理的范疇,在很長的一段時間里,基于統計模型的解決方法是自然語言處理的主要方法,在該基礎上,人工神經網絡也隨之應運而生。而且相較于淺層模型,采用深度學習的人工神經網絡模型表示的效果更好,需要的參數較少,模型結構層次較多,而且多層人工神經網絡模型因其很強的特征學習能力得到的特征數據更加精準,從而效率更高[5,6]。使用深度學習技術處理中文自然語言問題的相關研究工作目前還處于起步階段,這是因為中文和英文之間存在著本質的區別:中文的基本意義單元是漢字,而英文則是單詞。中文漢字的意義比英文單詞的意義更多更豐富,字與字之間的結合關系也比英文單詞的組合更加復雜。中英文之間的這種區別可能導致在英文環境下具有良好效果的神經網絡模型到中文環境下卻完全不適用[7-9]。本文依據深度學習原理,在現有文本情感分類方法的基礎上,提出了基于RNTN和CBOW的文本情感分類模型框架及模型。以網絡爬蟲系統爬取的真實數據作為實驗數據,并與機器學習方法中表現最好的SVM模型以及深度學習表現好的RNN模型進行比較,取得了比較好的結果。

1 商品評論情感分類模型框架

商品評論情感分類模型主要由3部分組成,分別為評論文本數據準備、詞向量表示和情感分類3部分,其研究框架如圖1所示。

圖1 商品評論情感分類模型框架

1.1 評論文本數據準備階段

該階段的主要工作是通過網絡爬蟲系統在淘寶網爬取關于小米手機的50 000條評論,并且根據評論正負差異情況選取實際實驗數據。

1.2 詞向量表示階段

該階段的主要工作是文本表示。而文本表示的基礎是從文本數據中提取出能表示該文本的特征,而文本的特征必須能夠對文本進行充分表示,反映文本在特征空間中的分布以及明顯的統計規律,在保證正確率的同時還要盡可能減小文本映射到特征空間時計算的復雜度[10]。

詞向量被譽為是一項利器,在許多NLP任務中,詞向量已經完全地取代了傳統的分布特征,比如布朗聚類和LSA特征。它的優勢在于不需要人工標注語料,直接使用未標注的文本訓練集作為輸入。輸出的詞向量可以用于下游的業務處理[11]。本文基于CBOW模型,使用優化的CBOW模型訓練詞向量,在保證詞向量語義信息不損失的前提下,更高效地獲得分布式詞向量。CBOW模型是以哈夫曼樹作為基礎,拋棄了計算繁瑣的非線性隱藏層,同時所有詞語共享隱藏層,它支持向語言模型中添加額外信息模型如圖2所示。

圖2 CBOW模型

哈夫曼樹中非葉節點存儲的中間向量的初始化值是零向量,而葉節點對應的單詞的詞向量是隨機初始化的,從輸入層到投影層,CBOW是對上下文向量w(t)的線性求和,而從投影層到輸出層,借助之前構造的哈夫曼樹,從根節點開始,投影層的值需要沿著哈夫曼樹不斷的進行邏輯分類,并且不斷的修正各中間向量和詞向量[12,13]。學習CBOW模型的參數,傳統的模型使用的是softmax,但softmax計算復雜度高,尤其語料詞匯量大的時候。所以本文用的Negative Sampling來近似計算,目的是提高訓練速度并改善詞向量的質量。Negative Sampling不再使用復雜的哈夫曼樹,而是采用隨機負采樣的方法,增大正樣本的概率同時降低負樣本的概率。

在CBOW模型中,已知詞w的上下文Context(w),需要預測w,因此對于給定的Context(w),詞w就是一個正樣本,其它詞就是負樣本,對于一個給定的樣本(Context(w),w),我們希望將其最大化,即

(1)

其中,NEG(w)表示負樣本集,正樣本標簽為1,負樣本標簽為0,其概率計算如下

(2)

或者寫成整體表達式

(3)

優化目標是最大化g(w),即增大正樣本的概率同時降低負樣本的概率。對于一個給定的語料庫C,函數G就是整體優化的目標,為了計算方便,對G取對數,最終目標函數如下

(4)

利用隨機梯度上升對上式進行求解即可,這里直接給出梯度計算結果

(5)

故參數θu更新后的公式如下

(6)

(7)

1.3 情感分類階段

該階段的主要工作是根據已知文本評論數據集構造出一個文本分類模型(或稱文本分類器)。目前常用的文本分類模型有很多種,如K緊鄰算法(KNN)、樸素貝葉新算法、決策樹算法、支持向量機算法、粗糙集算法、人工神經網絡算法(ANN)等[14]。本文將基于遞歸神經張量網絡,調查了近年來這些問題的相關研究,分析了現有方法的特點,優化了模型訓練過程。而且新加入的詞矩陣使得該模型不僅可以充分的表達嵌入詞含義,還能學習一個單詞是如何“修飾”其它單詞。在本文的情感分析中,最終的分類結果將不僅僅表達正向和負向,而是細化為5類,分別為強烈的負向情感、負向情感、中性、正向情感、強烈的正向情感。

2 基于遞歸神經網絡的商品評論情感分類模型

2.1 一個單層的遞歸神經張量網絡

為了加強詞的表示形式,除了詞向量外,往其中加入一個矩陣,新加入的矩陣與詞向量構成矩陣-向量形式?;谶@種形式,將兩個單詞作為遞歸神經網絡(RNN)的輸入,分別表示為a和b,其對應的詞矩陣表示為A與B,接下來將向量Ab與Ba進行連接得到f(Ba,Ab),將f(Ba,Ab)作為新的輸入向量x。其模型如圖3所示。

圖3 矩陣-向量遞歸神經網絡模型

但是通過觀測模型的誤差,發現矩陣-向量遞歸神經網絡模型(MV-RNN)對于中文的某些特定的關系,依然不能表達,而且會出現3類錯誤,第一類錯誤是否定正向的,即評論中的一些正向積極的情感會因其中的一個否定詞而變成負向的,比如評論中有“不是很好”,表示的是負向情感,但是MV-RNN模型并不能理解“不”可以翻轉整個句子的情感;第二類錯誤是否定負向的,比如評論中有“不是不好”,MV-RNN模型不能領略到“不”可以減輕負向的情緒;第三類錯誤是前兩類錯誤的結合。因此,為了能夠充分表達這些特定的關系,急需一個更具表現力的合成算法。而遞歸神經張量網絡模型(RNTN)新加入一個詞矩陣的概念,可以很好的解決前面3種問題,而且由該方法表示的單詞向量可以顯示句法和語義信息。其預處理過程是以向量∈R2d的形式連接起來,在通過一個二次型處理之后,將其變為非線性,從而得到兩個詞向量或短語向量,如

h(1)=tanh(xTVx+Wx)

(8)

其中,V是3階張量V∈R2d*d*d,二次型xTV[i]x,i∈[1,2,…d],張量輸出向量∈Rd,Wx是詞向量,tanh是一個非線性函數的變換。通過這個二次型可以得出一個結論,模型并不需要保持和學習詞矩陣,但是乘法類型的詞向量的直接相互作用是我們需要的,而且這里的單詞不是向量表示,也不是簡單的矩陣-向量形式,而是引入一個詞矩陣的概念,則遞歸神經張量網絡模型如圖4所示。

圖4 遞歸神經張量網絡模型

上面模型可以表示為

(9)

圖4所示的是一個單層的遞歸神經張量網絡,每個虛線框代表d個片層(V[1∶d])中的一片,并且能夠計算子節點對父節點的影響,其中,W是之前模型定義好的參數,f可以選取tanh()等激活函數。使用復合函數來計算兩個詞向量(葉節點b,c)合成的新向量(父節點)。張量h可以直接和詞向量相關聯。更直觀地,我們可以把張量h里面的“片”結構看成是捕捉詞向量特征的。當張量增加到第二層的時候,RNTN模型就可以很好地使詞向量復合函數變得更加有效簡單。那么如何訓練RNTN模型。正如前文所說,通過對每一個節點的特征向量進行訓練,得到其softmax的分類結果,通過這種方法來預測一個給定的值或者一個目標向量t。我們假設這個目標向量t符合0-1編碼。如果這是一個有C個不同的級別的目標向量t,那么t就是一個長度為C的向量,其中,對應級別的標注是1,其它級別通通被標注為0。

2.2 遞歸神經張量網絡的訓練

遞歸神經張量網絡模型克服了RAE模型中貪心算法帶來的巨大運算量問題,樹的每個節點都可以由向量來表示[15]。模型使用字向量作為特征輸入,預測5種情感類別的分布,其分類函數使用softmax函數,表示形式為

ya=softmax(Ws,a)

(10)

其中,Ws∈R|V|*d是情感分類矩陣,因為本文最終分成5類則Ws∈R5*d,a表示分類器所在的詞語。模型訓練的主要目標是為了最小化每一個節點的測試分類yi∈Rc*l和目標分類ti∈Rc*l的交叉熵。定義RNTN模型的參數為θ=(V,W,Ws,L,LM),λ為規范化的先驗分布參數。L為單詞的向量集,LM為單詞的矩陣集。在一個評論文本中,交叉熵就是一個RNTN模型參數θ的函數,如下式

(11)

為使上式達到最小,首先需要求解RNTN模型的參數θ,由于softmax分類中的權重微分表達式具有一般性,而且可以簡單的通過各節點的誤差之和得到,所以定義xi∈Rd*l作為節點i的一個向量,忽略權重Ws的標準積分表達式,定義δi,s作為節點i的softmax誤差

(12)

在這里,?是哈達瑪算子,f′是f的導數,在這里,使用f=tanh來計算f(xi)。剩下的微分可以僅僅通過對自上而下的樹形結構的計算得到,參數V,W的完整微分形式,是葉子結點的V,W的總和。通過反饋計算得到一般性的派生參量W,針對每一片k=1……d的微分表達形式為

(13)

(14)

其中

(15)

p2的兩個子節點會把向量S中的半個向量添加到它們各自的softmax誤差中來計算δ

δp1,com=δp1,s+δp2,down[d+1∶2d]

(16)

這里的δp2,down[d+1∶2d]表示p1是p2的右子節點,因此用右半部分計算softmax誤差,則最后的詞向量微分形式應該是δp2,down[1∶d],在一個二叉樹中,第V[k]部分的全微分表達式就是各節點的總和

(17)

同理,以上面同樣的方式計算W,在上面的處理過程中,充分利用了張量分解的強大優勢,使得計算過程得到了簡化,從而加快了計算速度。

3 基于RNTN和CBOW的情感分類模型

在遞歸神經張量網絡的基礎上,本文將RNTN模型與CBOW模型結合,從而針對性地優化RNTN模型在情感分類任務上的性能,在CBOW模型訓練好的詞向量的基礎上,添加一個矩陣,構成詞矩陣,通過這么做,新的模型在改善了詞向量的質量的基礎上,即能表達嵌入詞的含義,還能學習一個單詞如何“修飾”其它單詞,詞向量的加法組合運算能夠很好地反映詞與詞的共同屬性,加快了訓練速度,在后序的實驗結果中取得了比較好的結果。

4 模型的實例計算

4.1 實驗環境

本文的實驗環境配置見表1。

表1 實驗環境配置

4.2 實驗語料

本文的實驗語料是通過網絡爬蟲系統在淘寶網爬取關于小米手機的50 000條評論,但是由于爬取的商品評論中正負類差異很大比例為10∶1,屬于嚴重不平衡語料,同時也存在很多的超短評論,可能導致最終的分類結果與真實結果出現偏差。因此為了保證分類的正確性,選取了其中的10 000條,正負性評論分別為5000條,將其中的6000條評論用于訓練,剩下的4000條評論用于測試。作為參照實驗,在相同的數據上,本文選取遞歸神經網絡模型RNN以及傳統的機器學習中最好的方法支持向量機SVM方法。

4.3 評價標準

常用的文本情感分類性能評測指標包括準確率、召回率和F值(F-Measure),為了測試基于RNTN和CBOW的分類方法與其它分類方法的效率對比,本文選取了F1值,F1值為正確率和召回率的調和平均數[16]。

其中,TP為正確被分類的評論條數,TP+FP實際分類的評論總數。TP+FN為應該被分類的評論數[17]。

4.4 實驗結果與分析

將實驗數據按照本文模型以及參照模型進行訓練,實驗結果見表2。所有實驗結果都經過交叉驗證,正確率很高,具有較高的可信度。

表2 實驗結果

相比于傳統的機器學習方法,RNTN模型在情感分類任務上已經獲得了出色的性能提升。RNTN模型僅靠模型自身的特征提取能力其精確率就達到90.48%,與現在表現最好的SVM模型相比提高了24%,與現有深度學習模型RNN相比提高了5%。這也同時驗證了遞歸神經張量網絡結構在噪聲數據環境下的健壯性。RNTN模型加上優化的CBOW模型將分類正確率由90.48%提升到92.56%,一方面CBOW模型在保證詞向量語義信息不損失的前提下,更高效地獲得分布式詞向量,能夠在更抽象的層面上描述原始輸入數據的特征分布情況,另一方面,將CBOW模型的輸出加上一個詞矩陣作為RNTN模型的輸入特征并在迭代訓練過程中不斷更新參數,這相當于在一定先驗知識的基礎上,在訓練過程中可以引導模型按照更好的方向收斂到最優解。從而提高模型訓練的速度和準確率。

5 結束語

互聯網的迅猛發展,網上購物己經成為許多人購物時的首選,商品評論對于買賣雙方來說都是非常有價值的信息。但是互聯網的信息數量巨大,通常產品評論的數據量超出了人工分析所能接受的范圍。雖然用戶可以直觀地理解每一條其他用戶評論的內容,但用戶不可能瀏覽全部評論并做出完善的綜合分析[18,19]。本文在分析中文情感表達特點和文本語義的基礎上,提出了基于RNTN和CBOW的商品評論情感分類模型,對互聯網上的小米手機評論進行情感分類。實驗結果顯示,與傳統機器學習方法SVM以及現有的深度學習方法RNN相比,本文提出的情感分析方法在情感分類的精確率上有明顯的提高。由于用深度學習方法對文本進行情感分析,不需要建立情感詞典,因此該模型可以用于不同領域中的情感分類,在后繼的研究中,將會在繼續提高情感分類準確率的同時研究將模型運用于不同領域的情感分類。

[1]Minkov E,Cohen W W.Graph based similarity measures for synonym extraction from parsed text[C]//Workshop Proceedings of TextGraphs-7 on Graph-based Methods for Natural Language Processing.Jeju:The Association for Computational Linguistics,2012:20-24.

[2]Huang T H K,Yu H C,Chen H H.Modeling pollyanna phenomena in Chinese sentiment analysis[C]//Proc 24th International Conf Mumbai:Demo,2012:231-238.

[3]Chen K,Luo P,Wang H.An influence framework on product word-of-mouth (WoM) measurement[J].Information & Management,2017,54(2):228-240.

[4]Bazinet A L,Cummings M P.A comparative evaluation of sequence classification programs[J].BMC bioinformatics,2012,13(1):92.

[5]Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the Conference on Empirical Met-hods in Natural Language Processing.Doha:Association for Computational Linguistics,2014.

[6]Ghiassi M,Skinner J,Zimbra D.Twitter brand sentiment analysis:A hybrid system using n-gram analysis and dynamic artificial neural network[J].Expert Systems with Applications,2013,40(16):6266-6282.

[7]Dong L,Wei F,Tan C,et al.Adaptive recursive neural network for target-dependent twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.USA:The Association for Computational Linguistics,2014:49-54.

[8]Severyn A,Moschitti A.Twitter sentiment analysis with deep convolutional neural networks[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.Santiago:ACM,2015:959-962.

[9]Mudinas A,Zhang D,Levene M.Combining lexicon and learning based approaches for concept-level sentiment analysis[C]//Proceedings of the First International Workshop on Issues of Sentiment Discovery and Opinion Mining.Beijing:ACM,2012:5.

[10]ZHOU Jiayi.Research on the classification of semantic relations in English based on tensor recurrent neural networks[J].Modern Computer:Universal Edition,2015(4):43-47(in Chinese).[周佳逸.基于張量遞歸神經網絡的英文語義關系分類方法研究[J].現代計算機:普及版,2015(4):43-47.]

[11]Vinodhini G,Chandrasekaran R M.A comparative performance evaluation of neural network based approach for sentiment classification of online reviews[J].Journal of King Saud University-Computer and Information Sciences,2016,28(1):2-12.

[12]Minkov E,Cohen W W.Learning graph walk based similarity measures for parsed text[J].Natural Language Engineering,2014,20(3):361-397.

[13]Zhao Y,Qin B,Liu T.Creating a fine-grained corpus for Chinese sentiment analysis[J].Intelligent Systems IEEE,2015,30(1):36-43.

[14]Qian X,Liu Y.Joint Chinese word segmentation,POS tagging and parsing[C]//Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju:Association for Computational Linguistics,2012:501-511.

[15]Wang Y,Li Z,Liu J,et al.Word vector modeling for sentiment analysis of product reviews[M]//Natural Language Processing and Chinese Computing.Berlin Heidelberg:Springer International Publishing,2014:168-180.

[16]Chen H,Jin H,Yuan P,et al.Sentiment classification for Chinese product reviews based on semantic relevance of phrase[M]//Web Technologies and Applications.Germany:Springer International Publishing,2015:340-351.

[17]Wu X,Lu H T,Zhuo S J.Sentiment analysis for Chinese text based on emotion degree lexicon and cognitive theories[J].Journal of Shanghai Jiaotong University(Science),2015,20(1):1-6.

[18]Du H,Xu X,Cheng X,et al.Aspect-specific sentimental word embedding for sentiment analysis of online reviews[C]//International Conference Companion on World Wide Web.Canada:International World Wide Web Conferences Steering Committee,2016:29-30.

[19]Cambria E,Hussain A,Durrani T,et al.Towards a Chinese common and common sense knowledge base for sentiment analysis[C]//Engineering and Other Applications of Applied Intelligent Systems.Dalian:Springer International Publi-shing,2012:437-446.

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品综合色区在线观看| 国产鲁鲁视频在线观看| 国产男人的天堂| 在线亚洲天堂| 人人爱天天做夜夜爽| 亚洲第一在线播放| 国产美女无遮挡免费视频| 狠狠色噜噜狠狠狠狠色综合久 | 精品国产美女福到在线不卡f| 国产凹凸一区在线观看视频| 午夜啪啪网| 亚洲综合久久成人AV| 超级碰免费视频91| 国产精品无码AⅤ在线观看播放| 日韩 欧美 小说 综合网 另类| 国产成人麻豆精品| 欧美成人精品高清在线下载| 亚洲天堂精品视频| 五月天福利视频| 欧美午夜理伦三级在线观看| 波多野结衣AV无码久久一区| 色视频国产| 亚洲激情99| 国产屁屁影院| 毛片视频网址| 色国产视频| 伊在人亞洲香蕉精品區| 一级看片免费视频| 天堂成人av| 国产乱子伦无码精品小说| 国产无码在线调教| 亚洲精品视频免费| 国产精品lululu在线观看| 欧美色香蕉| 精品国产中文一级毛片在线看| 四虎永久免费地址在线网站| 99无码中文字幕视频| 99热国产这里只有精品无卡顿"| 国产高清精品在线91| 亚洲精品波多野结衣| 亚洲品质国产精品无码| 国产精品欧美激情| 国产精品内射视频| AV不卡在线永久免费观看| 精品无码人妻一区二区| 欧美午夜一区| 99在线观看国产| 538国产在线| 91在线激情在线观看| 亚洲一级毛片免费看| 国产在线精品网址你懂的| 热久久综合这里只有精品电影| 美女无遮挡拍拍拍免费视频| 青草视频在线观看国产| 国产成人高清精品免费5388| 热久久这里是精品6免费观看| 国产精品手机视频| 国产成人精品视频一区二区电影| 国产精品亚欧美一区二区三区| 99re视频在线| 亚洲天堂日韩在线| 人妻中文久热无码丝袜| 亚洲人成网站色7799在线播放| 女人毛片a级大学毛片免费| 欧美一级在线播放| 国产第八页| 色综合成人| 欧美爱爱网| 狠狠亚洲婷婷综合色香| 久久精品娱乐亚洲领先| 国产波多野结衣中文在线播放| 91精品网站| 亚洲欧美日韩高清综合678| 日本欧美在线观看| 特级aaaaaaaaa毛片免费视频| 亚洲欧美自拍一区| 中国成人在线视频| 无码福利视频| 99视频精品在线观看| 欧美97色| 久久久久亚洲Av片无码观看| 国产精品3p视频|