999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多元特征的電商低質量商品評論識別

2017-02-27 11:09:02付曉東馮旭鵬劉利軍黃青松劉曉梅
計算機應用與軟件 2017年2期
關鍵詞:分類特征文本

欒 杰 付曉東 馮旭鵬 劉利軍 黃青松,3* 劉曉梅

1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)2(昆明理工大學教育技術與網絡中心 云南 昆明 650500)3(云南省計算機應用重點實驗室 云南 昆明 650500)4(昆明佳謙科技有限公司 云南 昆明 650000)

基于多元特征的電商低質量商品評論識別

欒 杰1付曉東1馮旭鵬2劉利軍1黃青松1,3*劉曉梅4

1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)2(昆明理工大學教育技術與網絡中心 云南 昆明 650500)3(云南省計算機應用重點實驗室 云南 昆明 650500)4(昆明佳謙科技有限公司 云南 昆明 650000)

為了改變已有評論識別方法在新興特性(“返現評論”的出現)識別上的不足,根據新興特性提出一種新的“無用評論”劃分方法,定義其為低質量評論。根據其具有的特性,提出基于多元特征(情感強度,是否包含負面情感,主流觀點的包含程度)的識別方法。將提取出的特征放入基于文本特征分類器中,對多元特征與文本特征的不同組合進行有監督的學習,選取出分類效果最好的特征組合。實驗表明在文本特征分類中加入多元特征后,分類準確率能達到83%。

低質量評論 分類 多元特征 監督學習

0 引 言

隨著電子商務的快速發展,網上購物的人數越來越多,大量的商品評論也隨之產生。這些評論信息既可以為消費者購買商品提供指導意見,也可以幫助商家獲取消費者對其商品和服務的反饋信息,以便商家可以根據消費者反饋信息調整市場策略。然而并不是所有的評論都是真實有效的,一些評論并不具有為消費者提供指導意見的作用。先前的研究將這類評論稱為虛假評論[1]。虛假的評論可以分為以下兩類[2-3]:

1) 欺騙性評論:故意寫下好評論促進產品銷售,或故意寫下差評論破壞產品名聲,由此而產生的評論。

2) 破壞性評論:主要是一些無關商品的信息和廣告。

隨著電商的發展,一些新的特性衍生出來。先前的評論劃分并不足以適應新的特性。例如一個普通消費者確實購買了該商品也覺得該商品不錯,但是為了能獲得“返現”而故意夸大商品的效果。這類評論并不能將其定位虛假評論,因為其包含一定量的真實情感。故本文在此對虛假評論重新定位,通過前人分析[2-4]與自己總結將其定位為低質量評論。

低質量評論:不是或不完全是真實反映消費者對商品情感的評論。借鑒虛假評論的分類方法可以對低質量評論進行如下分類,依據真實情感的有無將低質量評論分為包含真實情感(即普通消費者為了獲得“返現”寫下的夸大性評論)和不包含真實情感兩類,依據欺騙情感的有無將不包含真實情感的低質量評論分為欺騙性評論和破壞性評論。依據評論意圖(促進產品銷售或是破壞產品名聲)將欺騙性評論分為欺騙性好評和欺騙性差評兩類。根據上述分析以及前人總結[2-3],本文將低質量評論分為以下四類:

1) 夸大性評論:寫下好評故意夸大商品的效果,評論者本身為普通消費者。

2) 欺騙性好評:故意寫下好評以促進商品的銷量。

3) 欺騙性差評:故意寫下差評來破壞產品的名聲。

4) 破壞性評論:此類評論主要是一些無關評論或者廣告。

其中欺騙性好評和欺騙性差評以及破壞性評論都不是真實反應消費者對商品情感的評論。而夸大性評論雖然包含了一些消費者對商品的情感,但其中有虛假成分。

近年來,國內外研究者們在評論識別上做了大量研究,并取得了一系列成果。Jindal[5-7]提出與垃圾郵件類似也存在垃圾評論,并根據評論本身特征建立不同統計模型,通過所建模型進行評論識別,實驗證明模型具有較高的準確率。與Jindal方式不同,Wang[8]、Hu等[9]從評論者方面考慮,通過識別垃圾評論人來識別垃圾評論。

譚文堂等[10]提出了一種基于電阻網絡的垃圾評論檢測方法,通過建立電離群因子來度量數據的離群程度,以此來識別垃圾評論。而陸軍等[11]則提出一種基于全局用戶意圖的商品評論自動估價方法,根據所提特征建立模型區分“有用”和“無用”評論。然而上述研究主要針對的是破壞性評論,并沒有涉及較難識別的欺騙性評論和夸大性評論。任亞峰等[2]使用機器學習的方法識別虛假評論,建立詞匯,句法,心理學,評論者四個特征進行建模,使用全監督學習評價并選出最好的特征組合。而李雨橋等[12]則在自己定義的特征組合上加入了用戶與用戶之間的交互因子。雖然二者識別的準確率有一定提升,但是都沒有考慮到電商發展而新衍生的夸大性評論。由于電商的快速發展,夸大性評論在低質量評論中將會占據越來越多的份額,所以對夸大性評論識別不可或缺。

通過觀察以及前人的工作研究發現相對于負面的評論,消費者更加認同正面的評論[11]。基于上述方法都沒有對夸大性評論做出識別以及消費者更加認同正面評論這兩方面問題,本文提出一種基于多元特征(情感強度,負面情感,主流觀點的包含程度)組合的方法來識別正面評論中的低質量評論。先前的研究[11,13]主要是通過判斷情感詞的極性(即正負)或多少來定義情感特征。這就導致了“很好”,“還行”這種多詞性組合與“好”這種單一詞性在評論的情感貢獻上是一樣的。為了解決這一問題本文先通過分析與研究提取特征再對提取出的特征設計方法將其從評論中抽取出來。使用抽取出的特征進行建模并根據所建模型進行分類。然后使用監督學習方法來驗證其分類的準確性。

1 特征選取

相對于破壞性評論,夸大性評論和欺騙性好評更加難以識別。主要是由于其隱藏于一般正面評論中且包含較多與商品有關的信息,簡單地通過判別評論與商品相關程度很難將其識別出來。

1.1 情感強度

相比于一般正面評論,夸大性評論和欺騙性好評的評論者會在評論中使用更多的情感詞和程度副詞以達到鼓吹商品的目的[13]。而情感作為消費者對商品的重要反饋一直以來都是評論識別的一個重要特征[11,13-15]。本文通過定義情感強度(E)這一變量來量化評論中各詞性組合(包括單一詞性)所包含的情感。

1.2 負面情感

一般的正面評論可能包含負面的評價,表示的是雖然消費者對商品總體表示支持但是商品的某些方面不盡如人意。例如“質量還可以,就是褲子和衣服的面料不一樣,上衣的面料會比褲子好一些,整體還不錯吧”。與上面情況不同,夸大性評論和欺騙性好評的評論者為了宣揚商品的正面性,其不會在評論中寫下關于商品的負面評價[13]。這與商家的利益不符,也與其評論意圖不符。所以本文定義負面情感(N)作為一個分類特征。其表示如下:

(1)

1.3 主流觀點包含程度

通常情況下,夸大性評論和欺騙性好評的評論者會在評論中加入大量與商品有關且對商品有利的觀點信息以達到讓其他消費者信任的目的[14],而且這些觀點信息與主流觀點(指該商品所有評論中大多數用戶的觀點)有很大的相似性(其基于的原理為相比于一些冷門的觀點,大多數人支持的觀點更容易被人接受)。例如“穿著很舒服,跑起來也很輕便,查過了是正品,這個價格非常不錯,老板服務態度很好,物流也很快。”等。然而與上面低質量評論不同的是一般的正面評論中主流觀點的數量會在一個合適的范圍不會過多[11]。所以本文通過定義主流觀點的包含程度(P)作為分類特征區分二者。

2 特征抽取

對提取出的特征設計方法將其從評論中抽取出來,具體的特征抽取過程以及實驗過程如圖1所示。

圖1 特征抽取與實驗流程

2.1 抽取情感強度

通過對前人研究總結[16-17],由句法分析可以得出句子的情感極性主要由情感詞和否定詞以及程度副詞所決定。而情感強度是對于評論情感的一個量化,其基于的原理仍然是情感極性。而作為情感詞的修飾性詞、程度副詞和否定詞都是位于情感詞之前。

(1) 由此我們可以得到如表1所示的四種句式結構。

表1 句式結構

(2) 根據句式結構通過建立詞典的方式計算情感強度。詞典主要參考臺灣大學的情感詞詞典和知網的程度詞典并結合當前的購物情感詞手動挑選出一些與評論相關的詞進行補充。我們對不同詞性賦予不同的值。將正面情感詞賦值為1,負面情感詞為-1,否定詞也為-1,至于程度副詞則根據詞典劃分及前人總結[15]定義了不同的值。具體可見表2、表3、表4所示。

表2 部分情感詞

表3 部分程度副詞

表4 部分否定詞

(3) 計算情感強度。情感強度計算公式如下:

單個情感詞的情感強度計算如下:

(2)

其中QL表示位置L所對應詞的情感強度,t表示情感詞的編號。我們將情感詞出現的位置定義為1,與之相連的前兩個詞的位置定義為2和3。K為1表示只有情感詞其之前沒有修飾性詞。K為2表示情感詞之前有一個修飾性詞(可能是否定詞也可能是程度副詞)。K為3表示情感詞之前有兩個修飾性詞。

單個分句的情感強度計算如下:

(3)

其中T表示該分句中情感詞的個數。i、j分別表示評論的編號和單個評論中分句的編號。當T等于0時表示該分句沒有情感詞,對于沒有情感詞的分句我們將其情感強度的值定為0。

單個評論的情感強度計算如下:

(4)

其中m為第i個評論的分句數。

通過從實驗數據中選取定量正面評論和低質量評論進行強度計算得到如圖2、圖3所示的情感強度的折線圖。

圖2 低質量評論情感強度折線圖

圖3 正面評論評論情感強度折線圖

可以看出,雖然有些正面評論可能擁有與低質量評論相等的情感強度,但是相對于大多數而言,低質量評論的情感強度是高于一般正面評論的情感強度的。

2.2 抽取負面情感

簡單的通過負性情感詞和否定詞是否出現都不能很好地判斷評論中是否出現了負面評價。因為語言復雜性會導致有時候出現負性情感詞或否定詞并不能判斷其是負面評價。例如“這款手機不是很差”,我們可以發現該句是個正面的評論。但是在評論中既出現了負性情感詞也出現了否定詞。為了解決這一問題,本文通過情感分析判斷每個評論中每個分句的情感極性,如果有一個分句的情感極性為負則將該評論負面情感特征標注為-1。負面情感計算如下:

(5)

2.3 抽取主流觀點包含程度

在各大電商平臺上每個商品的頁面上都有關于這個商品所有評論中主流觀點的統計。例如圖4所示為淘寶平臺上關于某個商品的主流觀點統計。

圖4 主流觀點舉例

本文通過人工標注的方式來標注每個評論中包含的主流觀點數目(點擊每個觀點,頁面上會將包含該觀點的評論展示出來)。使用S表示主流觀點數。

主流觀點包含程度計算如下:

(6)

其中Pi表示第i個評論的主流觀點包含程度,Pij表示第i個評論第j個分句主流觀點包含程度。

3 實 驗

3.1 實驗數據

(1) 數據獲取

本文通過抓取獲得某淘寶店鋪近三個月四種商品的評論數據集R。由于要使用有監督的學習方法驗證準確率所以要有低質量評論數據,本文所識別是夸大性評論和欺騙性好評。而在電商平臺上夸大性評論和欺騙性好評分別對應“返現評論”和“刷單評論”。返現評論是上文提到的消費者為了“返現”而故意寫下的好評,刷單評論則是刷單員寫下的評論(刷單員并沒有購買商品)。考慮到本文識別對象的特殊性,本文通過與商家溝通獲取四種商品的“返現”和“刷單”表格,根據表格信息獲取“返現評論”和“刷單評論”作為實驗要用的低質量評論數據集Low{Al,Bl,Cl,Dl}。與數據集Low對比去除數據集R中的低質量評論獲得普通評論數據集Review{A,B,C,D} 數據詳情如表5所示。

表5 數據詳情表

(2) 數據處理

由于本文要在正面評論中識別出夸大性評論和欺騙性好評所以要對獲取來的數據進行數據清洗去除其中的負面評論。數據清洗的方式為情感分析。本文使用LingPipe工具包對評論進行情感分析,要使用LingPipe進行情感分析必須先建立情感分析模型。為了保證情感分析模型的準確性以達到更好的實驗效果。本文先對鞋類商品評論進行實驗,之后分別對其他幾類商品評論進行了實驗。作者將數據集A分成A1、A2兩個部分,標注數據集A1用數據集A1訓練和測試情感分析模型。用訓練出來的模型去除數據集A2中的負面評論獲得數據集A3。整合數據集A3與數據集Al用做分類實驗的實驗數據,其他類別商品評論實驗的數據處理過程與上述一樣。考慮到方法的應用性問題,本文使用綜合性能較好的SVM算法作為分類算法,使用的工具為LIBSVM,核函數使用RBF。

3.2 情感分析實驗

實驗獲得模型的準確性如表6所示,模型總的準確性達到79%,基本達到后面實驗的準確性要求。

表6 模型實驗情況

3.3 基于文本特征的分類實驗

為了驗證本文所提取特征的有效性,本文通過在文本特征的基礎上分別加入多元特征組合進行試驗,通過對比文本特征實驗結果分析多元特征的有效性。文本特征分類所使用的是文本的基本特征,對于商品評論而言,由于其字數限制。所以其文本特征相較于長文本而言較少。基于上述分析和前人研究[11],本文選取結構特征作為分類的基本特征(包括評論文本長度、分句的數目、和每個分句平均長度等)。使用分類的準確率和識別出的低質量評論數占低質量評論總數的百分比(識別率)對分類的性能進行度量。為了使分類結果更加可靠,所有分類實驗都采用五倍交叉驗證。數據處理完成以后文本特征分類的實驗結果如表7所示。

表7 文本特征分類實驗結果

由實驗可以看出雖然文本分類的準確率比較高但是其識別率較低。

3.4 基于多元特征組合的分類實驗

為了更好地驗證多元特征的作用,將所提的三個多元特征分別與文本特征組合進行實驗。然后再將三個多元特征放在一起與文本特征進行實驗。具體的實驗結果如表8所示。

表8 基于多元特征組合的分類實驗結果

從實驗結果可以看到三個特征皆有助于準確率的提高,情感強度和主流觀點這兩個特征與文本特征的組合僅將分類的準確率提高了1%左右,而負面情感這個特征則將分類的準確率提高了3.6%。從識別率上看三個多元特征對識別率都起到了不小促進作用,最后將三個多元特征與文本特征放在一起的實驗則證明了多元特征組合使用效果更好。由于是本文首次提出了對夸大性評論的識別,所以本文通過對不同類別商品評論進行實驗來驗證所提方法的有效性,實驗結果如表9所示。

表9 對不同商品評論進行多元特征分類的實驗結果

由實驗結果可以看出,對于不同類別的商品評論,本文所提的多元特征分類模型在低質量評論識別上都是有效的。從準確率上看在加入了多元特征組合之后分類的準確率提高了近5%,從識別率上看與未加入多元特征組合相比識別率提升了近42%,平均水平達到了68.6%。

4 結 語

本文所做的研究主要是識別出電商平臺上的低質量商品評論,并提出一種基于多元特征的低質量評論識別方法。對比文本特征分類的實驗結果發現,多元特征組合使用效果最好。其分類準確率能達到83.4%,識別率能達到68.6%。從識別率數據上能夠看出本文所提方法能夠識別出電商平臺上近70%的低質量評論,能夠為消費者獲得更好的指導意見提供支持。

雖然本文所提方法在識別率和準確率有很大提高。但負面情感的抽取方式有待改善。由于使用了機器學習進行情感分析導致了在使用本方法之前要對不同的領域建立不同的情感分析模型,因為不同的領域可能存在著跨領域情感分析問題。所以接下來考慮將句法分析與機器學習結合起來的方式對負面情感這個特征進行特征抽取。希望通過改進特征的抽取方式進一步提高多元特征分類模型的有效性。

[1]OttM,ChoiY,CardieC,etal.Findingdeceptiveopinionspambyanystretchoftheimagination[C]//Proceedingofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.Strougsburg,PA,USA:ACL, 2011:309-319.

[2] 任亞峰, 姬東鴻, 尹蘭. 基于半監督學習算法的虛假評論識別[J]. 四川大學學報(工程科學版), 2014, 46(3):62-69.

[3] 任亞峰, 姬東鴻, 張紅斌, 等. 基于PU學習算法的虛假評論識別研究[J]. 計算機研究與發展, 2015, 52(3):639-648.

[4] 林煜明, 王曉玲, 朱濤, 等. 用戶評論的質量檢測與控制研究綜述[J].軟件學報, 2014, 25(3):506-527.

[5]JindalN,LiuB.Analyzinganddetectingreviewspam[C]//ProceedingsoftheSeventhIEEEInternationalConferenceonDataMining, 2007:547-552.

[6]JindalN,LiuB.Reviewspamdetection[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb,Banff,Alberta,Canada, 2007:1189-1190.

[7]JindalN,LiuB.Opinionspamandanalysis[C]//Proceedingsofthe2008InternationalConferenceonWebSearchandDataMining,PaloAlto,CA,USA, 2008:219-230.

[8]WangG,XieS,LiuB,etal.Identifyonlinestorereviewspammersviasocialreviewgraph[J].ACMTransactionsonIntelligentSystemsandTechnology, 2012, 3(4):1-21.

[9]HuX,TangJ,GaoH,etal.Socialspammerdetectionwithsentimentinformation[C]//2014IEEEInternationalConferenceonDataMining(ICDM), 2014:180-189.

[10] 譚文堂, 朱洪, 葛斌, 等. 垃圾評論自動過濾方法[J]. 國防科技大學學報, 2012, 34(5):153-157,168.

[11] 陸軍, 洪宇, 陸劍江, 等. 基于全局用戶意圖的評論自動估價方法研究[J]. 中文信息學報, 2012, 26(5):79-87.

[12] 李雨橋, 符紅光. 基于社交圖譜模型的虛假評論識別[J]. 計算機應用, 2014, 34(S2):151-153,158.

[13] 任亞峰, 尹蘭, 姬東鴻. 基于語言結構和情感極性的虛假評論識別[J]. 計算機科學與探索, 2014, 8(3):313-320.

[14] 黃鈴, 李學明. 基于AdaBoost的微博垃圾評論識別方法[J]. 計算機應用, 2013, 33(12):3563-3566.

[15] 陳燕方, 李志宇. 基于評論產品屬性情感傾向評估的虛假評論識別研究[J]. 現代圖書情報技術, 2014(9):81-90.

[16] 李婷婷, 姬東鴻. 基于SVM和CRF多特征組合的微博情感分析[J]. 計算機應用研究, 2015, 32(4):978-981.

[17] 萬常選, 江騰蛟, 鐘敏娟, 等. 基于詞性標注和依存句法的Web金融信息情感計算[J]. 計算機研究與發展, 2013,50(12):2554-2569.

LOW QUALITY PRODUCT REVIEW IDENTIFICATION OF THE ELECTRONIC COMMERCE BASED ON MULTIVARIATE CHARACTERISTICS

Luan Jie1Fu Xiaodong1Feng Xupeng2Liu Lijun1Huang Qingsong1,3*Liu Xiaomei4

1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)3(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)4(KunmingJIAQIANTechnologyCo.Ltd,Kunming650000,Yunnan,China)

A new method of dividing the “useless reviews” according to the emerging features is proposed to overcome the shortcomings of the existing methods in the identification of new features (the emergence of the “Paying-back reviews”), which is defined as low quality review in order. According to its features, a method of recognition is proposed based on the multivariate characteristics (emotional intensity, whether it contains negative feelings, the degree of containing the mainstream views). The extracted features are put into the text feature classifier based on text, then, different combinations of multiple features and text features are learnt under supervision to select the best combination of classification results. The experimental results show that the classification accuracy can be achieved by 83% after the feature classification is added to the text.

Low quality review Classification Multivariate characteristics Supervised learning

2015-12-15。國家自然科學基金項目(81360230)。欒杰,碩士,主研領域:機器學習,智能信息系統。付曉東,教授。馮旭鵬,碩士。劉利軍,講師。黃青松,教授。劉曉梅,工程師。

TP391

A

10.3969/j.issn.1000-386x.2017.02.017

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 色天堂无毒不卡| 欧美激情成人网| 久久99蜜桃精品久久久久小说| 国产女人在线| 亚洲区一区| 少妇极品熟妇人妻专区视频| 亚洲黄网在线| 福利视频一区| 国产激爽爽爽大片在线观看| 丁香六月综合网| 色综合热无码热国产| 影音先锋亚洲无码| 久久精品亚洲热综合一区二区| 日本人妻一区二区三区不卡影院| 麻豆精品在线| 992tv国产人成在线观看| 2020久久国产综合精品swag| 午夜激情福利视频| 亚洲国产欧洲精品路线久久| 美女免费黄网站| 综合色亚洲| 国产一级在线播放| 亚洲一区毛片| 无码又爽又刺激的高潮视频| 免费啪啪网址| 国产又色又爽又黄| 99视频在线精品免费观看6| 国产午夜在线观看视频| 美女视频黄又黄又免费高清| 无遮挡国产高潮视频免费观看| 国产男女XX00免费观看| 亚洲成年人网| 欧美特级AAAAAA视频免费观看| 老熟妇喷水一区二区三区| 日本午夜在线视频| 久久精品人妻中文系列| 一级不卡毛片| 欧美性爱精品一区二区三区| 久久久久无码精品国产免费| 亚洲一区精品视频在线| 国产免费看久久久| 成人年鲁鲁在线观看视频| 在线亚洲小视频| 国产原创自拍不卡第一页| 91免费观看视频| 国产欧美在线观看一区| 国产青榴视频| 九九久久99精品| 1769国产精品视频免费观看| 天堂亚洲网| 亚洲经典在线中文字幕| 精品撒尿视频一区二区三区| 欧美日韩国产系列在线观看| 亚洲AV一二三区无码AV蜜桃| 男女精品视频| 最新国产午夜精品视频成人| 午夜一区二区三区| 国产成人1024精品下载| 国产情侣一区二区三区| 久久成人18免费| 亚洲成人在线免费| 69av免费视频| 国产香蕉在线| 成人91在线| 中国国产高清免费AV片| 久久国产精品夜色| 国产精品女熟高潮视频| 亚洲精品无码久久久久苍井空| 99精品欧美一区| 欧美成人第一页| 天天躁日日躁狠狠躁中文字幕| 91无码网站| 手机永久AV在线播放| 成人夜夜嗨| 国产成人精品一区二区| 内射人妻无码色AV天堂| 国产va免费精品观看| 黄片在线永久| 伊人婷婷色香五月综合缴缴情| 亚洲天堂日韩在线| 色综合五月婷婷| 67194在线午夜亚洲|