999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向短文本情感分類的特征拓撲聚合模型

2016-05-04 02:42:55馮旭鵬黃青松付曉東劉利軍
中文信息學報 2016年5期
關鍵詞:分類特征情感

胡 楊,馮旭鵬,黃青松,3,付曉東,劉 驪,劉利軍

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 教育技術與網絡中心,云南 昆明 650500;3. 云南省計算機技術應用重點實驗室,云南 昆明 650500)

面向短文本情感分類的特征拓撲聚合模型

胡 楊1,馮旭鵬2,黃青松1,3,付曉東1,劉 驪1,劉利軍1

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 教育技術與網絡中心,云南 昆明 650500;3. 云南省計算機技術應用重點實驗室,云南 昆明 650500)

由于短文本極稀疏性和特征分散的特點,短文本的情感分類效果總是不及篇章文本的情感分類,針對此問題,該文提出面向短文本情感分類的特征拓撲聚合模型。模型首先從特征點互信息,情感指向相似度,主題歸屬差異值三個維度整合計算情感特征的關聯度,然后根據特征關聯度建立拓撲聚合圖模型,通過在圖上求解強聯通分量聚合高關聯度情感特征,從大量未標注語料中提取相似特征對訓練集特征進行補充,同時降低訓練空間維度。實驗將模型應用于短文本情感分類,與基準算法對比能提高分類準確率和召回率分別達0.03和0.027。驗證了模型在緩解短文本極稀疏性和特征分散問題上的效果。

短文本;情感分類;特征關聯度;強聯通分量;拓撲聚合

1 引言

隨著科學和網絡技術的發展以及時代的進步,互聯網在人們的生活中扮演著越來越重要的角色。而隨著智能手機,平板電腦進入人們的日常生活,在微博、微信、社交網絡、電子商務網站和各類服務平臺上,以短評論和微博等各種形式存在的短文本信息大量出現且數量還在快速增長。針對這些短文本信息的分析和處理技術已經應用于觀點挖掘,用戶行為分析,熱點話題發現[1]與追蹤乃至醫療服務評價等各個領域,從短文本挖掘出有用的信息目前已成為研究界關注的重點。

在針對文本的分析與處理研究工作中,文本情感分類是一個重要的分支,即對主觀性文本進行正負極傾向性的分類,從而達到了解用戶心理,監督輿論導向等應用目的。Pang等首次將監督學習方法引入文本情感分類問題的解決[2],后續的研究[3-5]說明監督學習的方法已經能夠很好的解決文本情感分類的問題。不同于普通文本,短文本由于字數少,用語隨意且不規范,使其具有天然的極稀疏性[6],同時,短文本詞語特征除了稀疏,還形式多樣并且分散。在監督學習中,對已有數據進行人工標記是一項繁重的任務,通常已標記的訓練語料是有限的,更多的是大量未標記語料。短文本因篇幅短小,表達隨性,其未標注語料中有許多未在訓練語料出現的有用特征。例如,在未標注語料中雖然出現了與訓練語料中某特征詞近義的詞條,在訓練語料中卻從未出現該特征詞的情況,例如,訓練語料中只有“厲害”或“牛”,未標注語料中卻出現“碉堡”,“給力”等詞。根據上述論據及前人的總結[7],傳統監督學習情感分類方法對短文本情感分類問題并不適用。

目前,研究者主要從兩方面對短文本處理問題展開研究: 1)借助外源知識庫(主要為Wikipedia,WordNet,HowNet等)對短文本內容進行擴充[6,8-9];2)采用各種特征提取和映射方法,對短文本特征空間進行降維以緩解短文本特征的極稀疏問題[10-13]。其中,第二類方法雖然不需要外源知識庫,但因與特定算法或數據的高度耦合性以及短文本訓練集蘊含的內容有限,降維后分類和檢索的準確率往往偏低[14]。相比之下,第一種基于外源知識擴展的短文本處理方法效果較好,然而,外源知識庫大多依賴于人工維護,且針對微博等新興語料的資源較為稀缺,另一方面,嚴謹的外源知識庫更新速度較慢,很難跟上短文本社交語料極快的更新速度[4],這導致第一類方法有其自身的不足。文獻[4]針對此問題提出了基于偽相關反饋的短文本擴展方法,將外部知識源從固定的本體庫轉為更新速度更快的搜索引擎,從而解決了外源知識庫更新速度慢于短文本語料更新速度的問題,但此方法仍然依賴于外部知識源,且搜索引擎的搜索結果排序除了依照文本內容本身的相似度以外,還加入許多商業及個性化因素,排序靠前的結果混雜了較多噪音,從而影響短文本擴展內容的質量。

針對以上問題,提出面向短文本情感傾向性分類的特征拓撲吸收與組合模型,模型定義多維度的特征關聯度計算方法,計算有標注訓練集和未標注語料集中所有特征的關聯度,并建立基于圖的特征關聯模型。從未標注語料集中提取相似特征對數量有限的訓練集特征進行補充,再利用圖結構對相似的特征進行聚合處理。模型不需要外部知識源的介入,訓練集特征既得到補充又能有效降低維度,且未標注語料越多越豐富,模型越能發揮優勢。通過在真實語料上的實驗驗證,提出的模型在短文本情感分類任務中具有較好的性能。

論文組織結構安排如下: 第二節為相關工作,第三節具體闡述了短文本特征拓撲聚合模型的設計,第四節為實驗與分析,第五節對當前工作進行總結和展望。

2 相關工作

文本情感分類是情感識別類問題中的一個重要部分[15]。此領域效果顯著的研究成果層出不窮,文獻[2]采用樸素貝葉斯、最大熵、支持向量機(Support Vector Machine,SVM)三種分類器對電影評論進行情感分類,能夠達到接近80%的準確率,成為監督學習方法解決情感分類問題的典范。Turney提出了無監督的情感分類算法,通過互信息計算詞語的語義傾向,進而計算得篇章整體的傾向值[16]。在國內,也有李素科等采用情感特征的譜聚類方法并提出半監督的情感分類方法[17]。

而面對短文本極稀疏,更新快,不規范等特點,在針對短文本進行挖掘與分析工作之前,需要研究者做好特征降維或知識補充的預處理工作。文獻[6,8-9]主要采用借助外源知識庫的方式對短文本內容進行擴展,Hu根據短文本特征詞數量的不同分別采用Wikipedia和WordNet擴展短文本[8],Han利用Wikipedia的結構化信息來補充微博或短文本內容,并結合圖上的隨機游走算法訓練模型[9],肖永磊同樣將外源知識庫設定為Wikipedia,并采用NMF分解(非負矩陣分解)的方法計算Wikipedia概念之間的語義近鄰,為微博擴展與自身相關的語義概念[6]。

另外,還有一些不完全依賴于外源知識庫的短文本處理方法。Sriram等分析微博的文本特點,在詞袋模型(Bag of Words)的基礎上抽取八個額外的應用相關性特征作為輔助特征來補充短文本,提高分類準確率[10],Haesun等使用基于聚類重心數據降維(Centroid method, CM)的方法應用于文本分類[11],Xu等使用潛在語義分析方法解決手機短信分類問題[12],劉全超等利用微博短文本內容及轉發、評論關系特征構建情感詞典和表情符號庫,擴展微博話題以幫助分析微博話題輿情[13]。

目前,國內關于短文本情感分類的研究主要集中在對短文本領域主題的劃分與補充以及探究短文本句法規律等方面。楊震等首先對于短文信息進行基于主體相關的上下文領域劃分,再根據不同的上下文領域訓練單獨的短文本分類器,對所屬各個領域的短文本分別進行分類[7],陳南昌等從語義分析的角度出發,總結出含顯性歸總句,含隱性歸總句,含特征詞和一般文本四種短文本類別,并采取不同策略計算四種短文本的情感值[18]。微博作為短文本的代表文體也受到了學者的關注,文獻[15,19]分別基于微博意群間的關系和微博情感單元提出了有效的微博文本情感分類方法。

3 情感特征拓撲圖聚合模型

由于面對的是情感分類問題,情感特征是分類學習的基本元素,本文選擇常含有主觀性的形容詞和動詞作為情感詞,在全體語料集的范圍內(包含有標注訓練集和未標注語料集)計算情感特征詞之間的關聯度,后基于強聯通分量模型開展訓練集特征的補充和多特征的聚合操作。接下來,將從情感特征間關聯度的計算和特征補充及聚合兩部分闡述情感特征的拓撲聚合模型,模型整體結構如圖1所示。

圖1 情感特征拓撲聚合模型整體結構

3.1 情感特征關聯度計算

設計多維度特征相關性衡量策略,計算改進的點互信息,情感指向相似度,主題歸屬差異值三個相似維度并整合。

1. 短文本情感特征點互信息

(1)

但由于短文本長度極短(一般不超過140字),如果共現情感詞屬于被轉折性詞語分開的情況,則需要對共現值重新定義計算。

轉折性詞語分為兩種:

1) 轉折連接詞

轉折連接詞一般出現在短文本中間部分,例如,“這部電影動作精彩 卻 劇情惡俗!”,設定: 如果共現的情感詞出現在轉折連詞兩端,則認為它們被轉折性詞語分開。

2) 轉折指示詞

轉折指示詞一般出現在短文本句首部分,例如,“盡管 微軟精心設計了這一代操作系統,還是不得不說Win8是一款失敗的作品!”。設定: 如果短文本中出現轉折指示詞且共現情感詞出現在標點符號的兩端,則認為它們被轉折性詞語分開。

轉折連接詞和轉折指示詞具體如表1示例。

表1 轉折性詞語示例表

考慮情感詞是否被轉折性詞語分開,設置影響權值如式(2)所示。

(2)

于是,計算特征詞點互信息時考慮入轉折性詞語的影響,將式(1)改進如式(3)所示。

(3)

2. 情感指向相似度

情感指向是情感詞修飾實體名詞的分布情況,這里設定在短文本中,某情感詞前最近的實體名詞被該情感詞修飾,例如,“許教授的敢言固然可敬,但缺乏建設性,忽視了正能量的傳播。”其中,“可敬”與“缺乏建設性”修飾“敢言”,“傳播”修飾“正能量”。

每個情感詞都有自己特有且相對固定的修飾對象,可以認為: 情感指向的相似度是情感詞相似度的一種體現。

(4)

式(4)中,N為語料集中實體名詞的數量,向量元素nij根據實體名詞nj是否被情感詞wi修飾,設定如式(5)所示。

(5)

如此設定向量元素的意義: 各情感詞對于所有實體名詞的指向分布是一個0-1分布,若某實體名詞被該情感詞修飾過,則對應向量元素為1,說明情感詞曾被用于修飾該實體名詞,否則對應向量元素為0,表示實體名詞與情感詞之間不存在修飾關系。

情感詞wi和wj間的情感指向相似度使用余弦相似度計算,加入平滑因子的計算公式如式(6)所示。

(6)

3. 情感特征主題歸屬差異值

隱式狄利克雷模型(Latent Dirichlet Allocation,LDA)是一個生成式概率模型,能很好的表示文本的內蘊特征,模型在文本與特征詞之間加入了一層抽象的概念——主題[21]。在LDA模型中,主題被定義為文本中特征的概率分布,反過來想,語料中每個特征詞也可以表示為歸屬于各個主題的概率分布,如圖2所示。

圖2 LDA模型特征主題歸屬

圖中,α和β是超參數[21],M,N,T分別為文檔數,特征數和主題數,w為特征詞,z為特征詞的主題分配,θ為“文本—主題”的概率分布,φ1,φ2,…φn是各個主題下“主題—特征”的概率分布。LDA模型中,“主題—特征”的分布概率φkn的計算公式如式(7)所示

(7)

(8)

至此,將每個情感特征表示為所屬各個主題的概率分布形式如式(9),其中φnk意義是出現情感詞wn時,情感詞wn歸屬于主題k的條件概率,并由式(8)估算。

(11)

3.2 短文本情感特征吸收與聚合模型

情感特征關聯度由上一小節求得的三個維度的情感特征相似性整合而成,通過情感特征之間的關聯度可以確定特征聚合圖上的邊關系。情感特征關聯度整合計算公式如式(12)所示。

(12)

關于式(12),由于情感特征的主題歸屬分布差異與點互信息和情感指向相似度不同,是一種分布差異的描述,故放在分母,ρ是平滑因子,N是語料集中情感特征總數。

(13)

圖3 情感特征聚合圖模型

通過在建立的有向圖模型中求強聯通分量,對關聯緊密相似度高的情感特征進行聚集,如圖3所示。這樣,來自未標注語料集的情感特征詞被聚集到高相似度的訓練集特征周圍,對短文本情感特征進行補充,再通過“縮點”操作,即將同屬一個強聯通分量的節點聚合為一個點,實現短文本情感特征空間的降維。Gabow算法能在線性的時間復雜度解決強聯通分量求解問題[22]。

對于未能與訓練集特征聚合的未標注語料集特征被將舍棄。對于來自訓練集且將被聚合在一起的原情感特征,聚合后特征值的計算有如下兩種策略,在實驗中將對其進行比較。

4 實驗

4.1 實驗數據

為評估提出的特征拓撲聚合模型面對短文本情感分類任務時的性能,實驗選用的語料集與文獻[7]相同: 未去重且平衡的中文情感挖掘語料集ChnSentiCorp*http://www.searchforum.org.cn/tansongbo/corpus-senti.htm,包含針對圖書,旅店,電腦三個領域的短評論。除此之外,選用NLPCC 2014所提供的有標注微博情緒分析樣例語料集*http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html作為補充實驗數據,根據原來的細粒度類別標注對語料進行重新標記(生氣、厭惡、悲傷隸屬負面,開心、喜歡隸屬正面,正負傾向不明顯的害怕、驚訝被屏蔽)。具體各領域實驗語料信息如表2所列,可能由于分詞器及詞庫選用不同,前三種與文獻[7]所列略有差異。

表2 短文本實驗語料信息

4.2 實驗設計

實驗規劃為五部分: 1.預處理; 2.閾值α取值影響實驗; 3.LDA主題數設置實驗; 4.特征聚合特征值計算策略比較實驗; 5.提出模型與其他算法對比實驗。

實驗評價標準: 準確率(P)、召回率(R),采用微平均的方式計算全局準確率、召回率。

實驗中使用的工具: 中文分詞工具選用ICTCLAS*http://ictclas.nlpir.org/,選用SVM作為基礎分類算法,實現工具選用LibSVM*http://www.csie.ntu.edu.tw/~cjlin/,LDA主題建模選用工具Mallet*http://mallet.cs.umass.edu/。以上工具中,LibSVM設置使用徑向基核函數(Radial Basis Function,RBF),其余采用缺省值。

實驗對比算法: 對實驗語料先進行清洗,分詞,去停用詞。選擇樸素貝葉斯(Na?ve Bayes,NB),SVM算法直接對短文本進行情感分類以及文獻[7]中基于領域歸屬劃分和基于上下文重構的兩種短文本情感分類算法作為對比算法,并按照文獻[7]描述,實現算法時選用使性能最優的子方法及參數。

實驗數據的分配及使用: 為了更客觀地驗證所提方法的性能,將每個領域的正負實驗語料等分為五份,一份作為訓練集,一份作為測試集,其余作為輔助訓練的未標注語料集。每小份語料輪流充當以上角色進行實驗,即每個領域的語料進行20輪實驗,實驗結果取平均值以盡可能降低隨機擾動帶來的影響。其他基準方法輪流將每小份語料作為測試集其余為訓練集,每個領域進行五輪實驗。

4.3 實驗結果與分析

實驗結果圖4、圖5展示了關于實驗第二部分閾值α的不同取值影響和實驗第三、四部分取不同LDA主題數及特征值不同計算策略時的部分實驗結果,圖4實驗結果為固定主題數為150,特征值計算策略為求最大值時的結果,圖5實驗結果為閾值α固定為0.6時的結果。

圖4 閾值α取值實驗結果

圖5 主題數及特征值計算策略實驗結果

分析圖4結果,可以得出: 1.當閾值α小于等于0.3時,由于特征聚合圖建邊的門檻太低,導致特征聚合過度,嚴重影響情感分類效果,分類結果沒有參考意義; 2.閾值α從0.4到0.6,情感分類的準確率大致呈上升趨勢,到0.6時達到相對峰值; 3.閾值α從0.6到1.0,情感分類準確率開始呈下降趨勢,原因是圖模型建邊標準變高,導致圖上節點過于分散,失去了特征聚合的效果,這也從另一個側面說明特征拓撲聚合模型的有效性。

從圖5得出結論: 1.無論特征值計算采用何種方法,情感分類準確率都隨著主題數的增多而升高,主題數為150和200時,準確率達到相對峰值,主題數為200時比150時情感分類準確率稍高,但考慮時間效率,認為150是LDA主題數最佳選擇;2.使用兩種聚合特征值計算方法時,情感分類的準確率差異較小,說明特征值計算方法的選擇對情感分類準確率影響不大。因為被聚合于同一點的情感特征本身關聯度高,分布差異及原特征值差異較小。

表3、表4分別列出了特征拓撲聚合模型的情感分類與傳統分類方法以及基于領域歸屬劃分/上下文重構的情感分類性能對比情況,其中,“NB”和“SVM”分別代表使用樸素貝葉斯和SVM算法直接進行短文本情感分類,“Field”和“Context”分別代表使用基于領域歸屬劃分和上下文重構的方法進行短文本情感分類,“COV”表示基于特征拓撲聚合模型的情感分類,表中加粗數字顯示不同算法相同指標的最高者。發現: 1.經過情感特征拓撲聚合模型的處理,情感分類性能明顯優于直接使用樸素貝葉斯和SVM算法進行短文本情感分類,分析: 雖然后面兩種分類方法使用的訓練語料數倍于所提方法,但訓練語料較多反而使得短文本特征稀疏且分散帶來的影響更加明顯,使得傳統情感分類方法很難擺脫這兩點的困擾。相反,提出模型對特征的吸收與聚合效果得到體現;2.基于特征拓撲聚合模型的情感分類相比基于領域歸屬劃分和上下文重構的方法準確率和召回率分別提高2.59%和2.55%,尤其是在微博領域上,算法的性能提升較明顯,準確率和召回率分別提高7.21%和5.84%,分析: 微博語料比一般評論更短,用語更隨意,特征更加稀疏且涵蓋信息多而雜,導致領域及上下文類別界限較為模糊,不利于完全發揮大類歸屬重構算法的優勢。

表3 對比傳統方法分類實驗結果

表4 對比領域歸屬及上下文重構分類實驗結果

5 結語

提出一種面向短文本情感分類的情感特征拓撲聚合模型,從三個維度計算情感特征之間的關聯度,并建立圖模型,利用在圖上的強聯通分量求解將高相似度情感特征聚合,一方面從未標注語料集向訓練集進行了特征補充,另一方面降低了監督學習訓練模型的維度。實驗將模型應用于包含短評論或微博文本的語料情感分類任務,得到了較好的效果。證明了方法在緩解短文本極稀疏性,特征分散等問題時的有效性。

目前基于深度神經網絡的詞嵌入學習(如: 詞向量模型)及自動編碼機等技術從深層的語義關系中挖掘特征間的相關性,未來計劃借助此類技術改進模型的特征相關性計算方法,進一步提高特征吸收與聚合的質量,并將模型擴展至跨領域的情形。由于上述技術基于深度神經網絡,在面對大規模語料時,還需探索保證算法時空效率的有效方法。

[1] ASitaram, A Huberman. Predicting the Future With Social Media[C]//Proceedings of ACM, 2010.

[2] Pang B, Lee L,Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02, 2002: 79-86.

[3] Ni XC,Xue GR, Ling X, Yu Y, Yang Q. Exploring in the weblog space by detecting informative and affective articles[C]//Proceedings of the 16th Int’l Conf. on World Wide Web. Banff: ACM Press, 2007: 281-290.

[4] Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Barcelona: Association for Computational Linguistics, 2004: 412-418.

[5] Whitelaw C, Garg N,Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM Int’l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005: 625-631.

[6] 肖永磊, 劉盛華, 劉悅, 等. 社會媒體短文本內容的語義概念關聯和擴展[J]. 中文信息學報, 2014, 28(4): 21-28.

[7] 楊震, 賴英旭, 段立娟, 等. 基于上下文重構的短文本情感極性判別研究[J]. 自動化學報, 2012, 38(1): 55-67.

[8] Xia H, Nan S, Chao Z, et al. Exploiting internal and external semantics for the clustering of short texts using world knowledge[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong: ACM, 2009: 919-928.

[9] HXianpei, S Le, Z Jun. Collective Entity Linking in Web Text: A Graph-Based Method[C]//Proceedings of the SIGIR, 2011.

[10] BSriram, David Fuhry, Engin Demir, et al. Short Text Classification in Twitter to Improve Information Filtering[C]//Proceedings of SIGIR’10. Geneva, Switzerland, 2010.

[11] Park H, Jeon M, Rosen J B. Lower dimensional representation of text data based on centroids and least squares[J]. Bit Numerical Mathematics, 2003, 43(2): 427-448.

[12] Xu W R, Liu D X,Guo J, et al. Supervised dual-PLSA for personalized SMS filtering[C]//Proceedings of the 5th Asia Information Retrieval Symposium on Information Retrieval Technology. Sapporo, Japan: Springer-Verlag, 2009, 254-264.

[13] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學報, 2014, 28(4): 123-131.

[14] 王蒙, 林蘭芬, 王鋒. 基于偽相關反饋的短文本擴展與分類[J]. 浙江大學學報(工學版), 2014, 48(10): 1835-1842.

[15] 桂斌,楊小平,朱建林等.基于意群劃分的中文微博情感傾向分析研究[J].中文信息學報,2015,29(3): 100-105.

[16] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.

[17] 李素科, 蔣嚴冰, 基于情感特征聚類的半監督情感分類[J]. 計算機研究與發展, 2013, 50(12): 2570-2577.

[18] 程南昌, 侯敏, 滕永林. 基于文本特征的短文本傾向性分析研究[J]. 中文信息學報, 2015, 29(2): 163-169.

[19] 高凱,李思雨,阮冬茹等.基于微博的情感傾向性分析方法研究[J].中文信息學報,2015,29(4): 40-49.

[20] Turney P, Littman M L. Measuring praise and criticism: Inference of semantic orientation from association [J]. ACM Transansaction on Information Systems, 2003, 21(4): 315-346.

[21] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[22] Gabow H N. Path-based depth-first search for strong and biconnected components[J]. Information Processing Letters, 2000: 107-114.

[23] Kullback S, Leibler R A. On information and sufficiency [J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86.

Feature Polymeric Topology Model for Short-Text Sentiment Classification

HU Yang1,FENG Xupeng2,HUANG Qingsong1,3,FU Xiaodong1,LIU Li1,LIU Lijun1

(1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,Yunnan 650500,China; 2. Educational Technology and Network Center, Kunming University of Science and Technology, Kunming,Yunnan 650500,China;3. Yunnan Key Laboratory of Computer Technology Applications, Kunming,Yunnan 650500,China)

Short-text has some peculiarities: extreme sparsity, disperse features and so on, which leads to inferior sentiment classification on short-text. To solve this problem, we propose the feature polymeric topology model for short-text sentiment classification. The model integrates mutual information among features, similarity of sentiment orientation and topic ascription difference into the sentiment features correlation. Then this correlation is employed to establish topology polymeric graph, in which the strongly connected components are assumed as the most similar sentiment features. Finally, the polymeric topology model supplements the training feature set with similar features from the unlabeled corpora, and reduces dimension of training space at same time. In experiment,the proposed model can improve the presicion and recall by 0.03 and 0.027, respectively.

short-text; sentiment classification; features correlation; strongly connected components; topological polymerization

胡楊(1991—),碩士研究生,主要研究領域為機器學習、文本情感分類。E?mail:superhy199148@hotmail.com馮旭鵬(1986—),碩士,實驗師,主要研究領域為信息檢索、自然語言處理。E?mail:fxpflybird@hotmail.com黃青松(1962—),通信作者,碩士,教授,主要研究領域為機器學習、數據挖掘、智能信息系統。E?mail:kmustailab@hotmail.com

1003-0077(2016)05-0028-08

2015-08-19 定稿日期: 2016-02-03

國家自然科學基金(81360230, 61462056, 61462051)

TP391

A

猜你喜歡
分類特征情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 97国产成人无码精品久久久| 亚洲中文字幕在线精品一区| 国产黄色片在线看| 久久久久亚洲精品无码网站| 日本午夜影院| 丁香婷婷久久| 茄子视频毛片免费观看| 欧美日韩国产精品va| 免费一级全黄少妇性色生活片| 亚洲乱码在线播放| 草草线在成年免费视频2| 青青久视频| 国产亚洲高清视频| 97青青青国产在线播放| 美女内射视频WWW网站午夜 | 日韩国产高清无码| 成人小视频在线观看免费| 成人毛片在线播放| 国产毛片基地| 亚洲综合色在线| 亚洲Av综合日韩精品久久久| 免费毛片a| 亚洲第一成年免费网站| 一级一毛片a级毛片| 日本国产精品一区久久久| 亚洲第一在线播放| 国产www网站| 天堂网亚洲系列亚洲系列| 亚洲无码视频一区二区三区| 日本中文字幕久久网站| 精品无码专区亚洲| 久久无码免费束人妻| 亚洲中文字幕日产无码2021| 精品久久国产综合精麻豆| 黄色成年视频| 久久精品91麻豆| 久久中文字幕2021精品| 操美女免费网站| a级毛片在线免费观看| 99久久精品国产麻豆婷婷| 亚洲国产精品VA在线看黑人| 欧美日韩资源| 永久在线播放| 九九热这里只有国产精品| 精品国产91爱| 亚洲日本中文字幕乱码中文| 亚洲第一成年网| 美女啪啪无遮挡| 老司机午夜精品网站在线观看| 91青青草视频| 青青草原国产精品啪啪视频| 一区二区三区成人| 免费亚洲成人| 亚洲男人在线| 成人国产小视频| 久久频这里精品99香蕉久网址| 亚洲色图综合在线| 四虎永久免费地址在线网站| 2021国产精品自产拍在线观看| 日韩AV无码一区| 毛片免费试看| 国产日韩欧美在线播放| 高清乱码精品福利在线视频| 激情综合网址| 97av视频在线观看| 亚洲精品在线影院| a天堂视频| 囯产av无码片毛片一级| 成人福利在线免费观看| 欧美一区二区自偷自拍视频| 男人天堂伊人网| 欧美精品啪啪一区二区三区| 亚洲高清中文字幕在线看不卡| 国产不卡网| 人人爽人人爽人人片| 国产午夜福利在线小视频| 成人久久18免费网站| 91久久偷偷做嫩草影院免费看| 亚洲系列无码专区偷窥无码| 亚洲中文字幕久久精品无码一区| 99精品国产高清一区二区| 91成人在线观看视频 |