李志宇,梁 循,周小平
(中國人民大學 信息學院,北京 100872)
基于屬性主題分割的評論短文本詞向量構建優化算法
李志宇,梁 循,周小平
(中國人民大學 信息學院,北京 100872)
從詞向量的訓練模式入手,研究了基于語料語句分割(BWP)算法,分隔符分割(BSP)算法以及屬性主題分割(BTP)算法三種分割情況下的詞向量訓練結果的優劣。研究發現,由于評論短文本的自身特征,傳統的無分割(NP)訓練方法,在詞向量訓練結果的準確率和相似度等方面與BWP算法、BSP算法以及BTP算法具有明顯的差異。通過對0.7億條評論短文本進行詞向量構建實驗對比后發現,該文所提出的BTP算法在同義詞(屬性詞)測試任務上獲得的結果是最佳的,因此BTP算法對于優化評論短文本詞向量的訓練,評論短文本屬性詞的抽取以及情感傾向分析等在內的,以詞向量為基礎的應用研究工作具有較為重要的實踐意義。同時,該文在超大規模評論語料集上構建的詞向量(開源)對于其他商品評論文本分析的應用任務具有較好可用性。
在線評論;短文本;詞向量;相似度計算
隨著社會化商務的發展,在線評論已經成為了消費者進行網絡購物的重要參考決策因素之一[1-2],同時也成為了包括計算機科學、管理科學以及情報分析等領域研究者在內的重要研究對象之一。通常而言,在線評論包括微博評論、商品評論、點評評論等評論類型,這里我們統稱為“評論短文本”。以往關于評論短文本的應用研究主要集中在包括評論效用分析[3]、虛假評論識別[4-5]以及評論觀點歸納[6]等方面。然而,這些應用研究往往都基于一個重要的語言模型基礎,即統計語言模型。
相對于常規語料而言,如書籍、新聞、論文、維基百科等語料,評論短文本的語言學規范非常弱,省略、轉義、縮寫等現象非常普遍。如果利用傳統的訓練或者學習方法對評論短文本進行處理,效果并不理想。但從某種角度上來講,評論短文本的在文法上的不規范,恰恰是另外一種形式的規范,即評論短文本自身特征的“規范”,由于評論短文本應用的普遍性,因此沒有必要非要將評論短文本規約到常規的語料形式上進行處理,反之應該在最大限度上保留評論短文本的語料特征。
對于評論短文本的相關建模主要是從兩個角度出發: 第一,利用TF-IDF,點互信息、信息增益等,對評論短文本進行建模,從而分析評論之間的相似度或評論的情感傾向等;第二,通過構建“詞向量(詞袋法)”,將評論文本詞語數值化。但這類建模方式往往需要依賴于情感詞典、屬性詞典等人工構造的相關詞典,具有較強的領域性,同時可擴展性較差。
隨著自然處理技術的發展,神經網絡逐步被引入到相關的文本處理技術中。2013年,谷歌研究團隊的開源的Word2vec詞向量構建工具[7],引起了詞向量應用研究熱潮,被稱為2013年最為重要的自然語言處理工具之一。隨后,Word2vec作為詞向量的轉換工具被用于包括短文本情感分析[8-10]以及短文本相似度計算[1, 11]等相關自然語言處理任務。雖然Word2vec的應用范圍廣泛,但是研究者用其建模時,往往直接按照Word2vec的模型配置: 將每一條短文本語料(可能包含若干短句或長句)作為一個整體行進行輸入。通常,在Word2vec的參數形式里面只考慮到了輸入向量的維度、訓練方法以及語料大小對模型造成的影響,卻并沒有考慮語料的輸入形式對Word2vec模型訓練結果造成的影響。我們研究發現,不同的評論短文本輸入形式會對Word2vec的詞向量訓練結果造成明顯的差異,因此有必要在Word2vec進行詞向量訓練前考慮輸入語料本身的特征,對語料進行預處理后用以提升詞向量的訓練結果。

1) 通過對詞向量的訓練算法中的訓練層進行改進,采用不同的訓練模型或者不同類型的神經網絡,來獲得更為精準的詞向量模型。
2) 通過在訓練算法的輸入層對語料進行預處理,提高算法訓練的準確率和召回率。
3) 通過對詞向量的輸出層進行后處理,提升應用接口的準確度。
本文中,我們將集中討論如何通過第二種方式,即在輸入層如何對語料進行預處理來提升詞向量模型訓練的精度,研究包括基于整句分割模式的預處理模式、基于分隔符分割的預處理模式以及基于屬性主題分割的預處理模式對于訓練模型的影響。在后面小節中,我們將詳細闡述這些方案,并重點論述基于屬性主題分割模式的預處理算法。
2.1 評論短文本的情感分析與屬性提取
短文本(Short Text)是指那些長度較短的文本形式。通常情況下,短文本的字符長度不超過400,例如,Twitter/微博短文本、手機信息短文本、在線評論短文本、BBS回復轉帖短文本等[2, 12-13]。由于短文本具有字數少、信息聚合度高以及文本語言不規范等特征,使得針對短文本的分析與研究產生了較大的困難,其中具有代表性的則是針對微博短文本和評論短文本的研究,下面將主要對評論短文本的相關研究進行綜述。
隨著電子商務的高速發展以及淘寶、京東、大眾點評等各類含有評論短文本網站的興起,評論短文本已經成為消費者在做出購買決策之前的重要參考依據[14]。目前關于評論短文本的研究主要集中在: 評論短文本的效用分析、評論短文本的真實性分析、評論短文本的決策影響分析等。但這些研究內容都會涉及兩個主題,即: 評論短文本的情感分析與評論短文本的屬性抽取。
評論情感分析主要是對評論的情感傾向進行分析,包含三個層次: 評論對象的屬性層次、評論對象的層次以及評論篇章層次。其主要采用的方法是將文本簡化為BOW(Bag of Words)的形式,然后借助情感詞典對評論短文本的情感傾向進行分析。其中,Word Net等情感詞典對于評論短文本的情感分析起到了重要的作用。例如,利用Word Net中詞匯之間的相互關系(距離、語義聯系等)來判斷詞語的情感傾向。但這也帶來一個重要問題,即: Word Net按照同義詞集合組織信息,而同義詞語不一定具有相同的褒貶傾向,這將導致對詞語情感傾向的估計出現偏差[15]。換句話說,目前評論短文本情感分析存在的主要問題是如何針對評論短文本的特征構建情感詞之間的數值聯系,即詞向量的問題。
評論的屬性抽取是評論短文本分析的另外一個重要的研究內容,即如何判斷和抽取評論中涉及到的商品屬性或稱對象屬性的相互關系。例如,“衣服手感不錯!”和“衣服摸起來不錯!”中,詞語“手感”和“摸起來”都是同樣表達評論者對評價對象(衣服)的質量屬性或者感官的判斷。因此需要在對評論短文本進行分析時,能夠成功地發現和評價這類屬性的相互關系。評論短文本屬性的抽取對于評論屬性情感分析和評論總結都具有重要的作用。
總而言之,評論短文本的分析需要依賴于對評論短文本的形式化(數學化)建模,通常而言,需要在原有文本分析技術的基礎上,結合短文本的自身特征進行改進,設計出有效的短文本語言模型的建模方法,以提高應用的效率和準確率。
2.2 詞向量和Word2vec
語言模型是自然語言處理(Nature Language Processing, NLP)領域的一個重要的基礎問題之一,它在句法分析、詞性標注、信息檢索以及機器翻譯等子領域的相關任務中都有重要的作用。在傳統語言模型中,統計語言模型具有非常廣泛的應用,其核心思想是利用概率來對語言形式進行預測[16]。通常而言,統計語言模型都基于相應的領域語料來進行分析工作。一般的,用以簡化統計語言模型的相關方法包括: N-gram模型、馬爾科夫模型、條件隨機場模型、決策樹模型等。
隨著深度學習相關研究的逐步深入,神經網絡的應用領域逐漸由圖像、音頻等擴展到了自然語言處理領域,即神經網絡語言模型(Neural Network Language Model,NNLM), NNLM可以看作傳統統計語言模型的擴展與提升, 并于近年在ACL、COLING等相關頂級會議上取得系列進展。NNLM具有代表意義的系統研究由Bengio于2003年在ANeuralProbabilisticLanguageModel一文中提出[17],在該模型中作者將每一個詞匯表示為一個固定維度的浮點向量,即詞向量(WordVector)。然而,NNLM中的詞向量(記為NWV)和傳統統計語言模型中的One-Hot Representation(OHR)有著本質上的差異,主要體現在以下三點。
1) OHR中的向量元素采用0,1表示,詞向量中所有的分量只有一個數值為1,其余分量全部為0,而NWV的分量由浮點數構成,其取值為連續值。
2) OHR的向量維數不固定,通常根據詞典的大小而發生改變,并且一般較為龐大,容易造成維數災難[17],而NWV的維度通常根據具體的應用固定在50~1 000左右,具有可接受的時間復雜度。
3) OHR的詞向量元素并不包含統計語義或語法信息,通過NNLM的研究發現,NWV通過向量間的相互計算,可以進一步拓展或表達出相應的語義和語法特征。
詞向量是NNLM實現后的關鍵產物,在Bengio的工作之后,出現了一系列關于詞向量的實現與構建的相關工作,包括Tomas Mikolov[18-19]、Google的Word2Vec[7]等。其中Google于2013年開源的Word2vec作為重要的詞向量訓練工具,在情感分析、屬性抽取等領域,取得了一系列的應用成果[11, 20-21],同時,詞向量訓練的好壞對于提升應用成果的性能具有重要的意義。但通常情況下,即使采用相同的Word2vec工具,不同類型或大小的語料庫以及不同的向量維度都會對詞向量的訓練結果好壞造成影響。
因此,本文主要從探討Word2vec訓練詞向量的優化方式入手,重點研究了不同的中文語料的預處理策略對于詞向量訓練結果的優化程度,特別的是對中文評論短文本——這一類重要的自然語言處理語料。本文主要貢獻在于: 首先,我們提出基于屬性主題分割的短文本評論語料預處理算法,對比實驗結果表明,該算法對于改善詞向量的訓練結果具有明顯的提升效果;其次,我們獲取了0.7億條評論短文本數據,通過詞向量模型的訓練,并優化后得到了具備較高精度的詞向量庫(開源),該詞向量對于其他與在線商品評論相關的(例如,評論情感分析、評論屬性抽取等)自然語言處理任務具有重要的參考意義;最后,我們給其他領域關于詞向量的訓練優化研究提供了一定的參考思路: 即針對特定的處理語料設計相關的預處理策略或許能夠顯著提升詞向量的訓練效果。
3.1 基于完整句的分割模式(Based on Whole for Partition, BWP)
完整句子是指以句號、感嘆號、省略號、問號以及分號分割后組成的句子形式[22-23]。通常情況下,我們認為一個句子的結束是一種觀點、態度和說明內容的結束。對于評論短文本而言,一條評論通常包含幾個帶有完整句分隔符的句子,這些句子表達的觀點既有可能相似,也有可能不同。換句話說,這些句子之間既有可能存在邏輯之間的聯系性,也有可能是相互獨立的。因此,當這些句子在語法上或觀點上是相互獨立,甚至截然相反時,如果將這些句子作為一個整體輸入,用以詞向量的訓練,將會給訓練模型帶來較大的誤差。
基于完整句的分割模式是指利用以句號、感嘆號、省略號、問號以及分號作為完整句的指示分割符,對一條評論中的句子進行拆分。同時考慮到評論文本的統計信息(表1),當不含完整句分隔符的評論語句的連續字符長度達到23時,我們將進行人工截斷,自動將該句劃分為一個整句。
3.2 基于分隔符的分割模式(Based on Separator for Partition, BSP)
相比于傳統的文本語料,評論短文本在句點符號的使用上更加的隨意,內容上也更加豐富和自由,包括含有各種表情符號、縮寫、拼寫錯誤以及不規范的斷句符等。如圖1所示,該圖為淘寶商城某商品評論頁面的截圖。可以看到,對于評 論 短 文 本 而言,其觀點句通常在一個分隔符之內進行表達,并且長度更“短”,同時在語法規范上也表現得尤為不足。

圖1 評論短文本案例截圖
如圖2所示,對于評論“寶貝做工不錯,物流速度馬馬虎虎!客服態度很好!”而言,這是一種典型的評論短文本的出現方式,即: 觀點句1+觀點句2+…+觀點句n。但觀點句之間很有可能存在修飾詞不兼容(即觀點句1的修飾詞不能用于觀點句2的情況)以及觀點句情感極性相反的情況。 如果采用前文所述的BWP分割方式,由于消費者撰寫評論時使用符號的不規范,極有可能造成不同的意義、類型和觀點的語句被分割到同一個訓練語句中,從而增大模型訓練的誤差。因此,這也就是我們在實驗對照中使用第二種分割方法,即分隔符分割法。

圖2 基于分隔符分割模式與原始非分割方法的對比例圖
基于分隔符分割的策略,目的是將這些觀點句利用分隔符進行拆分。通常而言,評論短文本中的分隔符包括: (。)、(,)、(;)、(、)、(空格)、(!)、(~)、(#)、(…)、(*)、(: )、(-)、(?)、(“)、(”)、(+),、(-)以及(常見表情符號)等,同時,如果以上符號在評論短文本中存在西文格式,將同樣認為是評論文本分隔符。
3.3 基于屬性主題的分割模式(Based on Topic for Partition, BTP)
在研究中我們發現,雖然基于BSP分割能夠將含有不同修飾符和不同屬性觀點的評論語句進行分割,以保證訓練算法在這類評論上的穩定性,但BSP分割法卻無法對評論中存在相互聯系的,甚至是同類的評論語句進行合并。因此,在BSP的基礎上,我們提出了基于屬性主題的分割算法。
如圖3所示,BTP算法在BSP的基礎上,考慮了一條評論中,被分隔符分割的評論句子之間的在主題上的相互聯系。采用BSP對評論文本進行預處理后,利用詞向量訓練算法進行訓練,得到初始的詞向量模型,然后利用該初始詞向量模型對BSP分割進行重構,合并屬性主題相關的句子,在保證不同類型觀點句得到有效分割的同時,保證了同類型觀點句的關聯性,具體算法流程如算法1所示。

圖3 基于屬性主題的詞嵌入分割模型
算法1的核心思想: 首先通過分隔符對評論進行整體拆分,然后利用BSP訓練得到的詞向量來計算相鄰的每個最短分割候選句之間的屬性相關度。其中,一條最短分割候選句的屬性特征由短句中的名詞詞向量(或者數個名詞詞向量的均值)替代,如果候選短句不包含名詞,則用形容詞替代。最后,接著使用類似層次聚類的方式,對最短候選句進行逐項合并,直至滿足退出要求,然后返回分割結果進行BTP模型的詞向量訓練。

算法1:基于屬性主題切割的詞嵌入訓練算法(BTP)輸入:Ms=Wx,Vx(){},C=R1,R2,R3,…,Ri{},Ri=P1,P2,P3,…,Pj{},Pj=W1,W2,W3,…,Wx{}/?Ms:基于分隔(S)符切割訓練的詞向量結果,Wx為詞語,Vx為該詞語對應的詞向量;C:已經經過預處理的評論語料庫;Ri:對于每一條已處理評論,由j個分隔句組成;Pj:對于每個分隔句,由x個詞語組成;?/輸出:MT={(Wx,Vx)} /?基于屬性主題(T)切割訓練的詞向量結果?/1 forRiinCdo:2 Sentence=[],Vector=[]/?初始化分割結果,詞向量臨查詢結果列表?/3 m=0,n=0/?始化指針?/4 forPjinRido:5 forWxinPjdo:6 ifWxisNounthen:7 Vector[m][n]=WxfindvecMs()[]/?查詢該詞對應MS模型中對應的向量?/8 n+=19 else:10 Continue11 end12 Sentence[m]=Pj/?將查詢得到的詞對應的分隔句存入結果列表?/13 m+=114 end

15 while Merge[index]inMerge>0.5&&Len(Merge)>3do:/?只要已被處理的分隔句矩陣中存在任一兩行的屬性主題相似性的概率大于0.5,同時剩下有待被合并的行數大于3組,則合并計算繼續進行?/16forindex1=0;index1+=1;index1
4.1 數據描述
本文的實驗數據集來自天貓商城的評論短文本數據,主要字段包括: 商品ID、評論者昵稱、初次評論內容、初次評論時間、追加評論內容、追加評論時間、評論相對位置、評論者信譽、評論商品ID、評論商家ID以及商家回復。其中文本內容包括消費者的初次評論數據、追加評論數據以及商家的回復數據三個部分,總計評論數目為72 152 543條,約40GB。主要涉及領域包含: 服裝、食品、美妝、母嬰、數碼、箱包、家電、運戶,共計八大領域的82個子領域。數據集的相關基本統計信息如表1所示。

表1 數據集基本信息

續表
4.2 數據清洗
由于數據量巨大,因此數據清洗是本次實驗的重要工作之一。本次實驗過程中,為了提高數據的讀取和操作性能,我們將評論數據存儲在當前流行的非結構化數據庫之一的Mongodb[24]中,其性能為普通SQL數據庫性能的十倍以上,大大地縮短了實驗的時間消耗。其中,數據清洗的核心步驟包括重復評論/無關評論的刪除、分詞、停用詞的刪除以及繁簡體的合并操作。

圖4 數據清洗流程圖
5.1 性能評估
5.1.1 標準測試集

5.1.2 評價指標
在信息檢索,模式識別,機器翻譯等領域,有兩類最為常用的算法評價指標,即: 準確率(Precision Rate)和召回率(Recall Rate)。本文將參考準確率和召回率的評價方式,構建模型的評價指標,為便于說明,做出如下假設:
? 評價指標1: 平均相似度(S)
對于標準測試詞對St中的查詢詞Qi,用其相似詞構建評價詞對為:
(1)

(2)
? 評價指標2: 平均召回率
標準測試詞對集S=(Qi|{sim1,sim2,sim3,…,simn}),查詢詞Qi在模型X中的前n個最相似結果為:T=(Qi|{Tsim1,Tsim2,Tsim3,…,Tsimn}),那么對于查詢詞Qi,模型X的召回率如式(3)所示。
(3)
(4)
5.2 結果分析
為了驗證和對比實驗結果,本文的實驗基于MAC OS X 10.10.4操作系統,Intel Core i7 4850Q 處理器(四核八線程),16GB內存,512GB SSD存儲系統,并采用Python語言進行實現。由于Word2vec的基礎模型包含Skip-Gram以及CBOW兩類,因此本文所有對比實驗同時在這兩種類型的基礎模型上進行,具體的原始訓練模型介紹可以參見Word2Vec的源碼及其相關論文,此處不再詳述。最后,本實驗針對不同的詞向量的維度從50~500之間逐漸遞增選取,增加縱向對比實驗。
5.2.1 時間效率對比分析
如圖5所示,通過對比發現,Skip-gram模型的處理時間對于不同大小的詞向量維度的敏感度較大,隨著詞向量維度的增加,NP_Skip以及BSP_Skip模型的時間消耗增長幅度均大于CBOW模型的增長幅度。而NP模型與BSP模型在Skip-gram以及CBOW模型上的時間效率表現存在相互交叉的情況,因此并沒有表現出明顯的差異。考慮到無論是NP_Skip模型、NP_CBOW模型、BSP_Skip模型還是BSP_CBOW模型的單機訓練時間均在[2,5]小時之間,因此,其實際意義上的時間開銷(已經是0.7億條評論大數據)均在可接受的范圍內,所以并沒有必要在時間效率上對上述模型進行不同的區分和優劣對比。

圖5 BSP算法與原始訓練算法基于不同詞向量維度的時間效率對比
5.2.2 評價指標對比分析
? 平均召回率(R)
如表2所示,以直線下劃線作為該模型的最好成績,對比BTP模型與NP模型,在Skip_gram+Herarchical softmax(SGH)和CBOW+Herarchical softmax(CBH)實驗上的平均召回率分別提升了23%和17%,其中,SGH_NP,CBH_NP最大召回率分別小于SGH_BTP,CBH_BTP的最小召回率,由此可以看出BTP語料預處理策略對于提升Word2vec訓練結果的召回率具有顯著效果。同時,我們可以發現,由于短評論語料通常字符數較小,并且斷句符存在大量的不規范使用情況。因此,從NP模型到BWP模型的提升效果(2.3%,0.3%)遠不如BWP模型到BSP模型的提升效果(12.3%,9.9%)以及BSP到BTP的提升效果(8.4%,7.6%)。

表2 模型實驗結果對比
? 平均相似度(S)
由于不同的向量維度數會導致向量的分散程度不同: 一般的,向量維數越大,在總詞語數目固定的情況下,同義(屬性)詞間的分散程度越大,相似度越小(縱向)。因此平均相似度只能作為詞向量訓練好壞的一個相對參照指標,即: 作橫向對比。以表2中波浪下劃線標注的50維度上的結果為例,對于召回相同的詞語,其相似度越高,表示同義詞(屬性詞)之間的穩定性越高,因此在不同的環境下其應用的可拓展性也就越高。從表 2中可以看到,無論是對于Skip_gram模型還是CBOW模型,在不同詞向量維度上,BTP模型的穩定性都是最高的,但相對于BSP預處理模型來說,BTP模型的提升程度卻并不十分明顯,因此如果在不考慮召回率的情況下,可以任選BTP或者BSP模型作為評論語料的預處理策略。
5.2.3 查詢樣例對比分析
為了能夠對原始模型(NP)和BTP優化后模型產生的詞向量的結果產生一個具體的認識和對比,我們選取了兩個具有代表性的詞匯“EMS”(屬性詞)以及“差評”(形容詞,觀點詞),查詢了它們在NP詞向量(200維)以及BTP詞向量(200維)中的前20個最相似的結果,如表 3和表 4所示。

表3 查詢詞“EMS”在NP模型和BTP模型上的對比結果

表4 查詢詞“差評”在NP模型和BTP模型上的對比結果
通過表3可以發現: BTP模型的預處理策略能夠有效的發現屬性詞的相似詞及其變異,甚至是錯誤的拼寫詞。例如,SGH_BTP模型中的“ESM、MES”(誤輸入)、“ems、EMs”(大小寫變形)等。同時可以發現,BTP模型的屬性詞召回率明顯高于NP模型。通過表4可以發現: BTP模型對于同義詞的召回率同樣較好,而NP模型中甚至出現了較多將查詢詞的被修飾詞判定為相似詞的情況,例如,真想(差評),堅決(差評)等。但同時也需要看到,對于NP模型和BTP模型都出現了查詢詞的反義詞被判定為相似詞的情況,這種誤判需要在后續的研究中進一步優化。
Word2vec詞向量訓練的優化問題不僅僅需要考慮訓練算法的內部結構,對于不同類型的訓練語料的預處理同樣值得思考。本文針對評論短文本在Word2vec詞向量訓練中存在的問題,結合評論短文本的自身特征提出了基于屬性主題分割的語料預處理算法BTP。基于0.7億條大規模評論短文本的實驗表明,BTP算法的預處理策略對于提升詞向量模型的訓練結果具有顯著意義。本文針對評論短文本的大規模詞向量訓練結果對于其他關于包括評論短文本情感分析、評論短文本屬性特征提取(聚類)等的應用都具有較大的參考意義。
[1] Yuan Y, He L, Peng L, et al. A New Study Based on Word2vec and Cluster for Document Categorization[J]. Journal of Computational Information Systems, 2014, 10: 9301-9308.
[2] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學報, 2012, 26(4): 21-27.
[3] 楊銘, 祁巍, 閆相斌, 等. 在線商品評論的效用分析研究[J]. 管理科學學報, 2012, 15(5): 65-75.
[4] 陳燕方, 李志宇. 基于評論產品屬性情感傾向評估的虛假評論識別研究[J]. 現代圖書情報技術, 2014, 9: 81-90.
[5] 任亞峰, 尹蘭, 姬東鴻. 基于語言結構和情感極性的虛假評論識別[J]. 計算機科學與探索, 2014, 8(3): 313-320.
[6] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2: 1-135.
[7] Mikolov T. Word2vec project[CP].2013, https://code.google.com/p/word2vec/.
[8] Xue B, Fu C, Shaobin Z. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec[C]//Proceedings of the 2014 IEEE International Congress on, 2014: 358-363.
[9] Tang D, Wei F, Yang N, et al. Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014: 1555-1565.
[10] Godin F, Vandersmissen B, Jalalvand A, et al. Alleviating Manual Feature Engineering for Part-of-Speech Tagging of Twitter Microposts using Distributed Word Representations[C]//Proceedings of NIPS 2014Workshop on Modern Machine Learning and Natural Language Processing (NIPS 2014), 2014: 1-5.
[11] Ghiyasian B, Guo Y F. Sentiment Analysis Using SemiSupervised Recursive Autoencoders and Support Vector Machines[EB/OL],Stanford.edu,2014: 1-5.
[12] 張林, 錢冠群, 樊衛國, 等. 輕型評論的情感分析研究[J]. 軟件學報, 2014, 12: 2790-2807.
[13] 周泓, 劉金嶺, 王新功. 基于短文本信息流的回顧式話題識別模型[J]. 中文信息學報, 2015, 291: 015.
[14] 鄭小平. 在線評論對網絡消費者購買決策影響的實證研究[D].中國人民大學碩士學位論文,2008.
[15] 張紫瓊, 葉強, 李一軍. 互聯網商品評論情感分析研究綜述[J]. 管理科學學報, 2010, 13(6): 84-96.
[16] 邢永康, 馬少平. 統計語言模型綜述[J]. 計算機科學, 2003, 30(9): 22-26.
[17] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems, 2013: 3111-3119.
[19] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781[DBOL], 2013: 1-16.
[20] Zhang W, Xu W, Chen G, et al. A Feature Extraction Method Based on Word Embedding for Word Similarity Computing[C]//Proceedings of the Natural Language Processing and Chinese Computing, 2014: 160-167.
[21] Iyyer M, Enns P, Boyd-Graber J, et al. Political ideology detection using recursive neural networks[C]//Proceedings of the Association for Computational Linguistics, 2014: 1-11.
[22] 黃建傳. 漢語標點句統計分析[D]. 北京語言大學碩士學位論文, 2008.
[23] 何玉. 基于核心詞擴展的文本分類[D]. 華中科技大學碩士學位論文, 2006.
[24] Banker K. MongoDB in action[M]. Manning Publications, 2011.
Improving the Word2vec on Short Text by Topic: Partition
LI Zhiyu, LIANG Xun, ZHOU Xiaopin
(School of Information,Renmin University of China, Beijing 100872,China)
We propose a method for Word2vec training on the short review textsby a partition according to the topic. We examine three kinds of partition methods, i.e. Based on Whole-review (BWP), Based on sentence-Separator (BSP) and Based on Topic(BTP), to improve the result of Word2vec training. Our findings suggest that there is a big difference on accuracy and similarity rates between the None Partition Model (NP) and BWP, BSP, BTP, due to the characteristic of the review short text. Experiment on various models and vector dimensions demonstrate that the result of word vector trained by Word2vec model has been greatly enhanced by BTP.
online review; short text; word vector; similarity calculation

李志宇(1991—),博士研究生,主要研究領域為自然語言處理,網絡結構嵌入,社會網絡分析。E?mail:zhiyulee@ruc.edu.cn梁循(1965—),通信作者,博士生導師,教授,主要研究領域為社會計算,機器學習。E?mail:xliang@ruc.eud.cn周小平(1985—),博士研究生,主要研究領域為社會網絡分析,網絡隱私保護。E?mail:zhouxiaoping@bucea.edu.cn
1003-0077(2016)05-0101-10
2015-06-03 定稿日期: 2015-10-15
國家自然科學基金(71531012、71271211);京東商城電子商務研究項目(413313012);北京市自然科學基金(4132067);中國人民大學品牌計劃(10XNI029);中國人民大學2015年度拔尖創新人才培育資助計劃成果
TP
A