999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產品意見挖掘研究進展

2014-08-08 12:12:52李光敏張磊趙登科
現代情報 2014年3期

李光敏+張磊+趙登科

基金項目:本文系湖北省教育廳青年科學技術研究項目“非結構化文本評論的情感分析模型構建研究”(項目編號:Q20132503)的研究成果之一。

作者簡介:李光敏(1979-),男,講師,碩士研究生,研究方向:文本挖掘,情感計算。·理論探索·

〔摘要〕隨著Web20技術和電子商務的飛速發展,越來越多的用戶參與到互聯網,分享產品的使用體驗和表達喜惡的觀點,如何從評論文本中分析挖掘出互聯網用戶對產品的意見觀點是消費者和生產商所迫切需要解決的問題。本文首先分析產品意見挖掘的必要性,然后從產品特征識別、產品評論主客觀分類、情感極性分類等方面介紹了國內外的研究進展及所采用的技術,最后指出產品意見挖掘面臨的不足和今后的研究方向。

〔關鍵詞〕意見挖掘;意見識別;特征識別;情感極性分類

DOI:10.3969/j.issn.1008-0821.2014.03.008

〔中圖分類號〕F71336〔文獻標識碼〕A〔文章編號〕1008-0821(2014)03-0032-04

Research Progress in Product Opinion MiningLi Guangmin1Zhang Lei2Zhao Dengke3

(1.College of Computer Science and Technology,Hubei Normal University,Huangshi 435000,China;

2.Institute of Data and Knowledge Engineering,Henan University,Kaifeng 475004,China;

3.Department of Computer,Zhengzhou Vocational College of Economics and Trade,Zhengzhou 450000,China)

〔Abstract〕With the rapid evolution of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.Firstly,this paper presented the necessity of opinion mining on the growing social media and electronic commerce business.Then it introduced the research progress both at home and abroad of the opinion mining on product from the prospect of product feature-based identification,product review subjectivity analysis and sentiment polarity classification.Finally,it summarized the challenge of opinion mining on product and research interests about it.

〔Keywords〕opinion mining;opinion identification;feature identification;polarity classification

隨著Web20技術的蓬勃發展,互聯網用戶完成由被動接受信息到主動參與創造信息的角色轉換,同時電子商務的飛速發展也使用戶創造的內容中包含更多的產品使用體驗和評論,形成所謂的電子口碑(Electronic Word-of-Mouth,eWOM),越來越多的數據表明,電子口碑正影響著人們的消費方式和購買意向。針對日益增長的非結構化產品意見文本評論,如果采用人工方式對這些海量信息進行收集、分析和歸納,顯然是不現實的。因此結合信息檢索、自然語言處理、機器學習等領域知識對非結構化的文本評論進行提取和分類的產品意見挖掘(Opinion Mining)技術受到國內外學者的廣泛關注。

意見挖掘(又稱情感分析)在產品評論方面的研究意義主要體現在兩個方面,一方面幫助商家改進產品質量提高企業競爭力,同時獲取競爭情報,進行產品或服務方面的差異化競爭,這對產品品牌影響力和客戶關系管理有著重要的作用;另一方面幫助潛在消費者了解產品的優勢和不足,結合個人實際需要,迅速做出購買決定,節約決策時間。一般來說,產品意見挖掘主要包括產品特征識別、與特征相關的意見識別、意見極性及強度判斷和用戶觀點匯總顯示4個子任務[1]。因此本文主要從產品特征識別、產品評論的主客觀分析、情感極性分類3個方面介紹國內外相關的研究技術與進展。

1產品特征識別

產品特征描述產品的各個方面,Popescu[1]等人認為產品特征可細分為5個類別,其中包括產品的屬性、部件、部件特征、產品的相關概念和概念特征。如:“手機的攝像頭的分辨率較高,所以拍出來的照片清晰度還可以接受。”中的攝像頭分辨率和照片清晰度表示手機相關概念的特征。產品特征識別屬于意見挖掘中詞和短語級的特征抽取任務,主要分為基于特征知識的人工定義和機器學習的自動識別兩種方法。

11基于產品特征知識的抽取

目前主要有兩種研究思路:一種是根據名稱或名詞短語出現頻率來確定產品特征;另一種思路是通過監督或無監督的機器學習方法進行抽取。

111根據名稱或名詞短語出現頻率

Hu[2]首先識別出句子中的名詞和名詞短語,然后使用Apriori關聯規則挖掘出的頻繁項作為產品特征候選集,最后通過冗余修剪(Redundancy Pruning)去掉包含在其他候選特征中的冗余特征。隨后Popescu[1]基于如下假設:共現的次數越多的兩個詞,則它們之間的聯系也越大,提出的點互信息(Point-wise Mutual Information,PMI)方法提高了22%的準確率但是召回率降低了3%。姚天窻[3]等人利用本體知識建立汽車領域的產品特征集。Raju[4]等人同樣在實驗中排除所有那些相比在產品描述中更為頻繁出現在一般性英文中的名詞短語,然后將剩下的描述產品同一特征的名詞短語進行聚類,該模型通過雙連詞重疊(Bigram Overlap)值來衡量名詞短語間的相似性,最后只保留至少含3個名詞短語的聚類簇。

112通過機器學習方法抽取

基于監督的方法,Blair-Goldensohn[5]實現的最大熵模型在產品特征抽取實驗中達到較好的召回率和準確率。Kobayashi[6]采用三元組〈Attribute,Subject,Value〉表示游戲和汽車領域的產品特征,手工建立特征種子集、意見種子集和二者共現模式集來抽取特征和意見。Jin[7]在Opinion Miner系統中通過自動學習過程中融入多種語言學特征而提出的詞匯式隱馬爾可夫模型(lexicalized HMMs)完成產品特征抽取,實驗結果理想。監督方法中的人工方式標注訓練語料雖然精確度高,但花費時間長且領域移植性不強。

endprint

基于無人監督的方法,Tan[8]等人通過泛化軟模板和特征向量模板識別產品特征。徐葉強[9]等人對特殊詞、評價對象非完整性、評價對象非穩定性等噪聲過濾處理,利用評價對象在評論文本中與評價短語規則出現頻率較高的特征,進行置信度排序,實驗結果的準確率和召回率分別達到605%和78%。無人監督方法通常利用評論上下文的語義關系,結合特征種子集合和句法規則完成產品特征的識別,因此對評論文本的語法結構和產品特征與意見詞之間的相對位置關系要求高。

12基于意見和產品特征共現關系

意見詞是指反映出消費者對產品或產品的某一特征所持有褒貶或中立態度的詞或短語。基于文本評論中意見總是伴隨著評價對象出現的前提考慮,所以利用意見和產品特征共現關系,由已知的意見詞來抽取產品特征。Zhuang[10]利用這種共現關系通過依存語法圖(Dependency Grammar Graph)完成電影評論的意見挖掘和匯總。Qiu[11-12]將Zhuang所提出的依賴關系泛化成雙傳播(Double Propagation)的方法,利用情感詞和評價對象之間的句法關系,結合少量情感種子詞同時抽取意見詞和產品特征詞,通過對數碼相機、DVD播放器、MP3播放器和手機4個領域的訓練集實驗證明F度量值達到86%。Zhao[13]提出的基于模板庫抽取產品特征地同時也完成意見詞的抽取,并且該方法領域適應性。Wu[14]采用短語依存句法分析器來抽取名詞短語和動詞短語來作為產品特征候選詞,這種方法克服了常規的依存句法分析器只能抽取單個詞作為產品特征詞的缺陷,更適合產品評論領域的特征抽取。

2產品評論的主客觀分類

Pang[15-16]等人認為評論文本中夾雜少量客觀信息會干擾意見挖掘的準確率,因此對Web文本進行意見挖掘之前進行主客觀分析是十分必要的工作。產品評論的主客觀分析主要就是對評論文本進行主客觀性分類,即把表達意見情感的主觀性文本從描述事實的客觀性文本中分離出來,完成產品評論意見抽取的任務。

國外方面, Wiebe[17]等人較早將一些詞(形容詞、副詞、代詞、情態動詞和基數詞)、標點和句子位置作為特征,設計了樸素貝葉斯(Naive Bayes)分類器,采用10折交叉驗證的測試方法,并通過實驗證明平均分類準確率達到815%。Wiebe[18]又在此基礎上加入詞性和基于詞典的語義詞兩類特征項,使得分類效果提升明顯。Ohana[19]使用SentiWordNet作為意見詞特征集,并利用支持向量機(Support Vector Machine)機器學習算法,完成對電影評論的意見挖掘。

國內方面,葉強[20]提出根據連續雙詞詞類組合模式(2-POS)自動判斷句子主觀性程度的方法,并在閾值設定為012時,分類查準率和查全率均達到了76%,接近英文同類研究。許鑫[21]等人提出基于詞性的N-Gram模型,先將評論文本中的詞語按語法功能進行詞性標注,再用文本中連續出現的N個詞性的順序進行組合,最后比對文中規定的5種主觀提取模式完成當當網中前20本書籍的27 401條評論文本的主客觀分類。

3情感極性分類

相對于篇章級、句子級的意見挖掘來說,產品評論挖掘需要抽取用戶對產品中某一部件或屬性(如手機的分辨率、待機時間等)的看法,因此更多情況下針對短語級、特征級的文本進行產品意見挖掘更有意義,通常有兩種主要的分類方式:基于人工建立詞典方式和機器學習方式。

31基于人工建立詞典方式

婁德成[22]等人使用HowNet中6 564個詞條和2 454篇汽車評論文本分詞后得到的1 405個極性詞建立情感詞典。Hu[23]通過使用已標注極性的形容詞,結合WordNet中詞間的同義、近義關系來判斷新詞的情感極性的方法來判斷主觀性文本的情感極性。采用手工建立情感極性詞典的方法耗時費力,尤其社會化媒體中不斷涌現的表現情感極性的網絡新詞更增加了情感詞典維護的工作量,因此采用機器學習算法的方式更適合產品意見挖掘方面的極性詞發現。

32基于機器學習方式

Wei[24]提出的利用情感本體樹的層狀分類模型,但無法判斷情感表達范圍。Jiang采用依存句法分析來產生一組依賴屬性的特征項是目前最主要的監督學習方式。Boyi[25]通過解析樹中基于情感詞與產品特征的相對位置進行加權的計算方式來完成極性分類。Li[26]合并兩種條件隨機場變體(Skip-CRF和Tree-CRF)進行主題和極性分類。張清亮[27]等人從詞頻、詞的領域性情感傾向和詞的情感強度3個方面利用PMI-IR算法進行基準詞提取后,再通過計算目標詞與基準詞集間的語義相似度識別出情感詞,實驗結果中,情感極性判斷的準確率達到627%。

監督學習算法通常依賴訓練數據,通過指定領域的標注數據訓練好的分類器未必適合其他領域,盡管有學者提出領域適應性的想法,但目前由于句子級情感特征的稀疏性導致該技術在產品評論方面應用還不成熟。

4結語

產品意見挖掘是一項新興、跨學科的前沿性研究任務,無論對于個人還是機構來說,它在情報分析、決策規劃等方面發揮著巨大的作用。本文從產品特征識別、評論意見抽取和情感極性分類等方面進行了詳細介紹,并認為產品意見挖掘以下的方向需要深入研究:

(1)社會化媒體的興起,導致用戶用不同的詞或短語表示同一個產品特征(如“分量”和“份量”表達同一概念),關于同義產品特征詞的分組與聚類的研究,目前還不多。

(2)獲取高質量的產品評論語料,對于微博中重復轉發的內容、廣告信息、話題標簽、@用戶名和URL等,需要前期大量的文本預處理工作以提高挖掘準確率。

參考文獻

[1]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer,2007:9-28.

[2]Hu M,Liu B.Mining opinion features in customer reviews[C].AAAI,2004:755-760.

[3]姚天,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統[C].中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集.北京:清華大學出版社,2006:260-281.

[4]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.

[5]Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G A,Reynar J.Building a sentiment summarizer for local service reviews[C].WWW Workshop on NLP in the Information Explosion Era,2008.

[6]Kobayashi N,Inui K,Matsumoto Y,Tateishi K,Fukushima T.Collecting evaluative expressions for opinion extraction[M].Natural Language Processing-IJCNLP 2004.Springer,2005:596-605.

endprint

[7]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.

[8]Hongye T,Tiejun Z,Jianmin Y.A study on pattern generalization in extended NER[J].CHINESE JOURNAL OF ELECTRONICS,2007,16(4):675-678.

[9]徐葉強,朱艷輝,王文華,等.中文產品評論中評價對象的識別研究[J].Computer Engineering,2012,38(20)

[10]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.

[11]Qiu G,Liu B,Bu J,Chen C.Expanding Domain Sentiment Lexicon through Double Propagation[C].IJCAI,2009:1199-1204.

[12]Qiu G,Liu B,Bu J,Chen C.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.

[13]Zhao W,Zhou Y.A template-based approach to extract product features and sentiment words[C].Natural Language Processing and Knowledge Engineering,2009 NLP-KE 2009 International Conference on,IEEE,2009:1-5.

[14]Wu Q,Tan S,Cheng X.Graph ranking for sentiment transfer[C].Proceedings of the ACL-IJCNLP 2009 Conference Short Papers,Association for Computational Linguistics,2009:317-320.

[15]Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[C].Proceedings of the 2003 conference on Empirical methods in natural language processing,Association for Computational Linguistics,2003:105-112.

[16]Pang B,Lee L.A sentimental education:Sentiment analysis using subjectivity summarization based on minimum cuts[C].Proceedings of the 42nd annual meeting on Association for Computational Linguistics,Association for Computational Linguistics,2004:271.

[17]Wiebe J M,Bruce R F,OHara T P.Development and use of a gold-standard data set for subjectivity classifications[C].Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:246-253.

[18]Wiebe J.Learning subjective adjectives from corpora[C].AAAI/IAAI,2000:735-740.

[19]Ohana B,Tierney B.Sentiment classification of reviews using SentiWordNet[C].9th IT & T Conference,2009:13.

[20]葉強,張紫瓊,羅振雄.面向互聯網評論情感分析的中文主觀性自動判別方法研究[J].信息系統學報,2007.

[21]許鑫,俞飛,張莉.一種文本傾向性分析方法及其應用[J].現代圖書情報技術,2011,(10):54-62.

[22]婁德成,姚天.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006,26(11):2622-2625.

[23]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

[24]Wei W,Gulla J A.Sentiment learning on product reviews via sentiment ontology tree[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,Association for Computational Linguistics,2010:404-413.

[25]Boiy E,Moens M-F.A machine learning approach to sentiment analysis in multilingual Web texts[J].Information Retrieval,2009,12(5):526-558.

[26]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI,2010.

[27]張清亮,徐健.網絡情感詞自動識別方法研究[J].現代圖書情報技術,2011,(10):24-28.

(本文責任編輯:孫國雷)

endprint

主站蜘蛛池模板: 狠狠亚洲五月天| 99久久无色码中文字幕| 国国产a国产片免费麻豆| 国产网友愉拍精品| 亚亚洲乱码一二三四区| 女人18毛片一级毛片在线| 国产一级α片| 中文字幕av一区二区三区欲色| 最新日本中文字幕| 国产女人在线| 素人激情视频福利| 理论片一区| 亚洲AV无码不卡无码| 一级毛片无毒不卡直接观看| 一级做a爰片久久毛片毛片| 国内精品久久久久鸭| 国产小视频免费观看| 人妻丰满熟妇αv无码| 亚洲中文字幕在线观看| 亚洲天堂成人在线观看| 国产欧美性爱网| 天堂成人在线视频| 丁香婷婷激情综合激情| 国产三级国产精品国产普男人| 丁香婷婷激情综合激情| 成人在线不卡视频| 国产乱子伦视频三区| 一本色道久久88亚洲综合| 九一九色国产| 久热中文字幕在线观看| 在线观看91精品国产剧情免费| 免费人成黄页在线观看国产| 国产精品成人观看视频国产| 亚洲人成成无码网WWW| 国国产a国产片免费麻豆| 国产一区二区三区免费观看| 国产一级毛片在线| 国产精品吹潮在线观看中文| 国产美女精品在线| 欧美成人免费一区在线播放| 久久久久国产精品嫩草影院| 女人18毛片一级毛片在线 | 国产极品美女在线| 亚洲精品自在线拍| 欧美特级AAAAAA视频免费观看| 九色综合视频网| www.亚洲天堂| 亚洲一区二区三区中文字幕5566| 欧美不卡视频一区发布| 中国精品久久| 人人爱天天做夜夜爽| 久久国产高清视频| 人妻91无码色偷偷色噜噜噜| 在线va视频| 无码专区在线观看| 久久特级毛片| 夜色爽爽影院18禁妓女影院| 无码国内精品人妻少妇蜜桃视频| 99久久精品免费看国产免费软件| 国国产a国产片免费麻豆| 亚洲色图欧美| 亚洲无码高清一区| 中文字幕 欧美日韩| 免费看av在线网站网址| 草草线在成年免费视频2| 亚洲91在线精品| 日韩在线影院| 自偷自拍三级全三级视频| 视频二区亚洲精品| 91精品啪在线观看国产| 亚洲日本精品一区二区| 国产一区二区福利| 国产精品亚洲αv天堂无码| 国产综合网站| 欧美精品黑人粗大| 国产自产视频一区二区三区| 国产一级毛片高清完整视频版| 在线免费不卡视频| 99久久精品免费视频| 性色生活片在线观看| 亚洲欧美天堂网| 亚洲永久色|