999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文產品評論細粒度情感分析綜述

2017-09-05 04:06:58胡龍茂
軟件導刊 2017年7期

胡龍茂

摘 要:消費者在購物網站上發表的購后評論既包含對產品的總體評價,也包含對產品某些特征的評價,如何從評論文本中挖掘出細粒度情感信息是消費者和企業亟待解決的問題。從中文產品評論的特征識別、觀點識別和情感詞典構建等方面介紹了相關技術及研究進展,并指出了各自的優勢與不足,最后展望了中文產品評論細粒度情感分析未來的研究方向。

關鍵詞:中文產品評論;特征識別;觀點識別;情感詞典;細粒度情感

DOIDOI:10.11907/rjdk.171944

中圖分類號:TP301

文獻標識碼:A 文章編號:1672-7800(2017)007-0213-03

0 引言

近年來,我國電子商務發展迅猛,網購市場交易規模不斷增長,消費者發表的購后評論也越來越多。評論中往往既包含對產品的總體評價,也包含對產品某些特征的評價。這些評價一方面可以為其他消費者選購商品提供細粒度信息,另一方面也為企業挖掘不同類別消費者的偏好提供了可能性。

對產品屬性的評價也稱為細粒度情感分析,一般包含4個任務:①產品特征識別;②與產品特征相關聯的觀點抽取;③觀點的極性及強度判斷;④觀點排序[1]。國外學者在較早時候即對英文評論的細粒度情感分析開展了卓有成效的研究[1-2],國內學者隨之對中文產品評論開展了研究,也取得了較多研究成果。由于中英文在分詞、句法等方面的差異,本文主要從中文產品評論的特征識別、特征觀點抽取和情感詞典建設3方面介紹相關技術及研究進展。

1 產品特征識別

產品特征描述產品的各個方面,Popescu等[1]認為產品特征可細分為5個類別,包括產品的屬性、部件、部件特征、產品的相關概念和概念特征。如在評論“電腦不錯,顯卡也給力,玩游戲電影畫質也毫無壓力”中,顯卡是產品部件,游戲是產品概念。

1.1 基于無監督方法的產品特征識別

無監督方法主要包括基于頻繁項的方法和基于主題模型的方法。

1.1.1 基于頻繁項的特征識別

該方法通常將評論中頻繁出現的名詞和名詞短語應用某些過濾規則抽取出來作為產品特征。Hu和Liu[2]提取出評論中的所有名詞和名詞短語,利用關聯規則挖掘頻繁項, 并把頻繁項作為產品特征候選集,最后通過剪枝移除冗余特征;李實等[3]從中文特點出發,拓展了Hu提出的基于關聯規則的英文評論產品特征識別方法,在識別中文產品特征時,基本達到了接近于Hu的較好效果;熊壯[4]首先利用名詞序列中的互信息識別名詞短語,然后利用關聯規則從評論語料中挖掘文本模式,并利用此文本模式對名詞和名詞短語進行聚類,最后利用從網站上直接獲取的產品品牌和產品型號作為外部資源,結合人工歸納的“整體-部件”關系文本模式進行產品特征識別。與Hu的方法相比,召回率降低了2%,準確率提高了10%;郝玫和王道平[5]將產品評論面向供應鏈建立產品評價概念樹,然后對此評價樹采用關聯規則進行頻繁項挖掘,將最小支持度為1%的項轉換為客戶關注特征,查全率達到了90.5%,比僅采用關聯規則高出18.1%。

徐葉強等[6]首先通過30組詞性規則確定候選評價對象,然后采用特殊詞過濾、非完整性過濾及非穩定性過濾規則過濾候選評價對象,最后利用評價短語共現規則及評價對象出現頻率進行置信度排序,置信度高的直接認定為評價對象,置信度低的結合擴充規則進行確認。該方法取得了較好效果,F值達到0.681。

高磊等[7]借鑒分類的思想,在產品對比評論集上采用L1-norm 規則化的線性回歸方法獲取候選特征集,然后通過詞頻和點互信息剪枝得到最終的產品特征,在4種數據集上,F平均值達到了0.74的良好效果;李俊等[8]首先通過模板及頻率剪枝得到候選特征集,然后采用HITS算法對候選集進行排序,從而獲得最終的產品特征,在5種評論集上進行測試,F值可以達到77.3%;張建華等[9]首先抽取了評論中的依存句法庫,進一步分析得到名詞和名詞短語主要屬于8種依存關系,然后構造二叉樹并進行后序遍歷得到產品特征。實驗結果表明,該方法取得了較好效果。

基于頻繁項的識別方式簡單高效,但易于將不是產品特征的高頻詞識別為產品特征,同時容易遺漏低頻特征詞。

1.1.2 基于主題模型的特征識別

主題模型通常用于發現文本的話題,由于評論者通常圍繞產品特征發表意見,學者們開始在產品特征的識別中引入主題模型;馬柏樟和顏志軍[10]將評論中的名詞和名詞短語過濾掉專有名詞和品牌名詞后,采用LDA模型訓練得到候選特征集,然后進行同義詞詞林擴展和遺漏詞補缺,得到最終的產品特征,該方法在兩個評論集上都明顯好于關聯規則方法;佘維軍等[11]首先提取包含名詞、動詞或形容詞的分句,通過詞性模板獲得顯式特征并進行聚類構成特征語料庫,然后構建must-link 和 cannot-link約束,采用LDA進行主題聚類,獲得產品特征。實驗結果表明,該方法比僅采用句法分析或LDA的方法更有效。

為達到較高的準確率和召回率,基于主題模型的識別方式需要大量評論語料。

1.2 基于半監督方法的產品特征識別

郗亞輝[12]給出觀點種子集合,考慮了產品特征和觀點之間的直接及間接句法依存關系,利用雙向傳播算法迭代抽取特征及觀點,引入“整體-部分”模式和“沒有”模式提高特征抽取的召回率,然后將抽取到的特征集和觀點集按照HITS算法排序,最后通過計算領域相關度進行優化,得到產品特征,取得了較好效果;楊曉燕等[13]利用詞性模板集得到候選觀點評價對象,采用上下文相關的方法計算候選評價對象分值,將分值高的10個對象認定為評價對象,然后從包含初始種子集和評價對象的句子中進一步抽取詞性模板,采用上下文相關的方法計算確定合適的模板,反復迭代抽取模板和評價對象。實驗結果表明,和上下文無關的方法相比,該方法的性能獲得了大幅提高。endprint

基于半監督的方式迭代抽取產品特征,不需要很多評論語料,但確定產品特征的閾值參數需要手工調整。

1.3 基于監督方法的產品特征識別

余傳明等[14]針對餐館評論數據,將其分為服務、口味、環境、價格4個產品屬性進行標注,利用多個一對一支持向量機進行分類,平均F值達到87.3,大大高于最大熵方法;呂品等[15]將評價對象分為組成部分、功能及性質,將與之關聯的觀點分為觀點內容及強度,然后將評論中的詞用12種標記符號進行標注,最后利用CRF進行挖掘。結果顯示,挖掘評價對象的F值接近或超過80%。

基于監督的特征識別準確率和召回率較高,對于每種訓練集都要進行人工標注,需要消耗較多人力物力。

2 觀點識別

主要包括基于語義的方法和基于機器學習的方法。

2.1 基于語義的觀點識別

該方法用形容詞和副詞的褒貶含義計算產品特征、句子及篇章的情感傾向。史偉等[16]將情感詞匯分為評價詞語和情感詞語兩類,在此基礎上建立模糊情感本體,然后從HowNet中抽取70個程度詞按0.8~1.5的倍數乘以情感詞匯分值,同時考慮否定詞的作用,構建了從特征層、句子層到文檔層的情感計算方法。實驗結果表明,該方法具有較高準確性;孫春華和劉業政[17]將評論中的特征句表示為特征詞、情感詞和修飾詞的三元組,通過上下文識別特征的等同、等級和相關關系,對句子和篇章進行傾向性合成。該方法和人工標注的結果存在顯著的正相關關系;陳炯等[18]從評價詞和評價對象的依存句法出發,在評論語料庫中抽取出頻率較高的語法模板庫,然后利用語法模板庫識別評價搭配。實驗結果表明,該方法是有效的,F值達到將近70%。

基于語義的觀點識別簡單易行,無需對評論語料進行標注,但識別效果不太好。

2.2 基于機器學習的觀點識別

張磊等[19]總結了中文評論中情感詞與特征詞的5種依存關系,設計了詞的詞性、距離及依存關系的結構、路徑關系和距離等特征模板,采用最大熵模型抽取了特征-情感對,該方法的平均F值達到75.36%;孫曉和唐陳意等[20]引入詞、詞性、語義角色及語法樹父節點特征,采用CRFs同步抽取情感詞和情感對象,然后引入語法、詞義等上下文信息,采用最大熵模型進行傾向性判別。實驗結果顯示,在情感對象-情感詞對的抽取上,F值達到0.831,同時大幅提高了情感分類精度;劉麗等[21]首先采用Tri-train對評論語料進行半自動標注,融合詞、詞性和依存句法等多種特征,采用CRF抽取評價對象和評價詞,然后對評價對象進行語法樹剪枝,獲得正確的評價單元,并形成可視化報告。該方法在評價對象和正負面評價詞的識別上綜合準確率均達到89%左右;賈聞俊等[22]首先通過詞性模板、依存句法模板抽取出名詞實體和評價短語,然后利用分層狄利克雷過程將名詞實體聚類成產品屬性,然后將評價短語的權重和情感詞典作為先驗知識,采用LDA計算產品屬性的情感傾向,該模型具有較高的情感傾向準確率;彭云等[23]提出了情感詞和特征詞的三類must-link和cannot-link語義關系,將這三類語義關系進行融合,構建must-link和cannot-link語義圖,然后將此語義關系圖作為約束,采用LDA進行特征詞、情感詞和特征詞-情感詞對的提取。實驗結果表明,該方法比AMC的準確率均高出約10%。

基于機器學習的方式大多需要對語料進行標注,然后利用模型進行訓練以識別觀點。該類方法的準確率較高,但需人工參與程度較高。

3 情感詞典構建

目前大部分通用情感詞典是通過人工構建的,中文情感詞典主要是知網(HowNet)的情感分析詞語集,其中包含了中英文的評價詞和情感詞。由于應用領域的差異及新詞的不斷出現,基于人工構建的情感詞典在實際使用中效果不太理想,學者們開始聚焦于情感詞典的自動構建。

黃高峰等[24]將情感詞細分為表達情緒的7類細粒度情感詞,從知網中篩選出種子詞集,利用知網的義原層次樹設計義原相似度計算方法,計算情緒語料庫中抽取的情緒詞和種子詞的相似度,得到了具有權重的細粒度情感詞庫;郗亞輝[25]首先利用雙向傳播算法獲取評論中的特征詞和情感詞,提出了情感詞之間的4種上下文約束關系,將這種約束結合情感詞種子融入標簽傳播算法中,計算出情感詞的褒貶,最后利用上下文計算情感沖突,以識別領域相關的情感詞。實驗結果表明,該方法能有效提高情感傾向計算的效果。

4 結語

本文對中文產品評論細粒度情感分析的3方面研究進行了綜述,指出了各自的優勢和不足。隨著我國電子商務的發展,評論的細粒度情感分析日益成為研究熱點,未來需要深入研究的內容主要有:①基于監督的方法識別產品特征及觀點的準確率較高,但需要對大量語料進行標注,而少量標注或無需標注的方式識別產品特征及觀點的準確率較低,采用半自動方式標注語料有助于節省人力,且達到較好的識別效果;②微博或導購網站(如it168)上也發表了很多產品意見,由于這些評論者和購物網站的賣家沒有直接聯系,發表的意見會更客觀。將這些產品評論和購物網站的產品評論結合起來,有助于提高觀點識別的準確率;③現有的評論語料庫很少,目前舉辦了八屆的中文傾向性分析評測(Chinese Opinion Analysis Evaluation, COAE)提供的測評語料中雖不少涉及了產品評論,但未進行細致的分類,也沒有標注數據,無法滿足全方位的細粒度情感分析。研究要素級(產品特征及觀點)的標注規范,收集大量評論數據并設置“篇章─句子─要素級”的標注語料將有助于細粒度情感分析的快速發展。

參考文獻:

[1]POPESCU A-M, ETZIONI O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005.endprint

[2]HU M, LIU B. Mining opinionfeatures in customer reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence. AAAI Press, 2004:755-760.

[3]李實,葉強,李一軍,等.中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報,2009(2):142-152.

[4]熊壯.基于無監督學習的產品特征抽取[J].計算機工程與應用,2012,48(10):160-163.

[5]郝玫,王道平.面向供應鏈的產品評論中客戶關注特征挖掘方法研究[J].現代圖書情報技術,2014,30(4):65-70.

[6]徐葉強,朱艷輝,王文華,等.中文產品評論中評價對象的識別研究[J].計算機工程,2012,38(20):140-143.

[7]高磊,戴新宇,黃書劍,等.基于特征選擇和點互信息剪枝的產品屬性提取方法[J].模式識別與人工智能,2015(2):187-192.

[8]李俊,陳黎,王亞強,等.面向電子商務網站的產品屬性提取算法[J].小型微型計算機系統,2013,34(11):2477-2481.

[9]張建華,翁鳴,李曉樂,等.基于依存句法和二叉樹模型的評價對象抽取[J].計算機技術與發展,2016(2):52-55,60.

[10]馬柏樟,顏志軍.基于潛在狄利特雷分布模型的網絡評論產品特征抽取方法[J].計算機集成制造系統,2014,20(1):96-103.

[11]佘維軍,劉子平,楊衛芳,等.基于改進LDA主題模型的產品特征抽取[J].計算機與現代化,2016(11):1-6,57.

[12]郗亞輝.產品評論特征及觀點抽取研究[J].情報學報,2014,33(3):326-336.

[13]楊曉燕,徐戈,廖祥文,等.上下文相關的雙向自舉觀點評價對象抽取方法[J].計算機工程與應用,2015(15):143-147,178.

[14]余傳明,陳雷,張小青,等.基于支持向量機的產品屬性識別研究[J].情報學報,2010,29(6):1038-1044.

[15]呂品,鐘珞,蔡敦波,等.基于CRF的中文評論有效性挖掘產品特征[J].計算機工程與科學,2014,36(2):359-366.

[16]史偉,王洪偉,何紹義,等.基于語義的中文在線評論情感分析[J].情報學報,2013,32(8):860-867.

[17]孫春華,劉業政.基于產品特征詞關系識別的評論傾向性合成方法[J].情報學報,2013,32(8):844-852.

[18]陳炯,張虎,曹付元,等.面向中文客戶評論的評價搭配識別研究[J].計算機工程與設計,2013,34(3):1073-1077.

[19]張磊,李珊,彭艦,等.基于依存關系和最大熵的特征—情感對分類[J].電子科技大學學報,2014(3):420-425.

[20]孫曉,唐陳意.基于層疊模型細粒度情感要素抽取及傾向分析[J].模式識別與人工智能,2015(6):513-520.

[21]劉麗,王永恒,韋航,等.面向產品評論的細粒度情感分析[J].計算機應用,2015,35(12):3481-3486,3505.

[22]賈聞俊,張暉,楊春明,等.面向產品屬性的用戶情感模型[J].計算機應用,2016,36(1):175-180.

[23]彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學報,2017,28(3):676-693.

[24]黃高峰,周學廣,李娟,等.具有權重因子的細粒度情感詞庫構建方法[J].計算機工程,2014(11):211-214.

[25]郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136-144.endprint

主站蜘蛛池模板: 欧美成人在线免费| 无码啪啪精品天堂浪潮av| 久久精品国产999大香线焦| 欧美亚洲日韩中文| 亚洲国产中文在线二区三区免| 国产v精品成人免费视频71pao| 成人精品在线观看| 亚洲精品无码高潮喷水A| 国产综合精品日本亚洲777| 国产视频一区二区在线观看 | 激情综合五月网| 91精品伊人久久大香线蕉| 日本在线视频免费| 久久男人资源站| 婷婷成人综合| 久久人体视频| 毛片久久网站小视频| 成色7777精品在线| 国产精品性| 91精品国产综合久久不国产大片| 黄色a一级视频| 青青青伊人色综合久久| 91精品aⅴ无码中文字字幕蜜桃| 毛片网站观看| 57pao国产成视频免费播放| 成人欧美日韩| 国产后式a一视频| 天堂亚洲网| 国产欧美日本在线观看| 亚洲天堂日韩在线| 1769国产精品视频免费观看| 国产91精品久久| 国产精品黑色丝袜的老师| 被公侵犯人妻少妇一区二区三区| 91精品伊人久久大香线蕉| 亚洲av无码牛牛影视在线二区| 欧美精品H在线播放| 国产91小视频在线观看| 日韩a在线观看免费观看| www.亚洲天堂| 国产在线一区视频| 中文成人在线| 不卡无码h在线观看| 国产AV无码专区亚洲精品网站| 国产在线一区视频| 国产精品3p视频| 国产97视频在线观看| 亚洲成人精品在线| 日韩无码黄色网站| 精品国产毛片| 国产麻豆精品手机在线观看| 91精品啪在线观看国产60岁| 99久久精品国产麻豆婷婷| 尤物在线观看乱码| 国产后式a一视频| 国产 在线视频无码| 国产精品嫩草影院av| 久久久无码人妻精品无码| 久久先锋资源| 99热精品久久| 91无码国产视频| 亚洲乱码在线播放| 亚洲va在线∨a天堂va欧美va| 亚洲精品无码专区在线观看| 色国产视频| 精品一區二區久久久久久久網站| 日韩毛片在线视频| 久热这里只有精品6| 亚洲日韩每日更新| 亚洲中文字幕无码mv| 色香蕉影院| 国产一区二区福利| 六月婷婷激情综合| 久久精品人人做人人综合试看| 四虎永久免费网站| 国产性生交xxxxx免费| 国产一区二区免费播放| 国产黑丝视频在线观看| 久久综合色天堂av| 国产成人精品一区二区不卡| 99视频在线观看免费| 久久久久久久97|