999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感傾向的眾包模式下接包方聲譽評價模型構建

2018-10-09 05:54:16盧新元黃夢梅李梓奇
統計與決策 2018年17期
關鍵詞:文本情感評價

盧新元,盧 泉,黃夢梅,李梓奇

(華中師范大學 信息管理學院,武漢 430079)

0 引言

在線評論(OnlineCustomerReview,OCR)通常是指由其他購買過特定產品或服務的顧客發表的,在網頁中緊鄰商品描述的,為促進用戶接受、增進用戶交流的第三方評價。在眾包模式中,這種評論信息,實質上就是接包方釋放的一種聲譽信號,是對接包方能力的一種披露方式。接包方通過瀏覽、分析這種聲譽信息,做出購買決策,因此無論在日常網購還是眾包過程中,賣方的聲譽都是潛在買方尤其重視的一種信息。

一般電商網站大多是通過平臺上的每個賣家付出一定的廣告、推廣費用來盈利,因此它希望賣家數量盡可能多。而好的聲譽機制會使低質量賣家交易量減少,直至最終退出電商平臺,因此電商平臺目前的聲譽得分差距小,區分度不明顯。而眾包網站的盈利模式大部分是通過每筆交易抽取一定的中介費用,即使采用高區分度的聲譽機制,導致低質量賣家減少,眾包網站的收益也不會降低。相反,通過幫助發包方方便快捷地找到優質的服務方,眾包網站甚至能實現更多的交易量,獲取更大的收益。

遺憾的是,目前眾包網站所采用基于評論得分(通常為5分制),計算平均分并排序的聲譽評價模型并不能使發包方滿意。本文收集了在線交流社區“知乎”上關于豬八戒網的451條討論,大部分評論為字數超過50字的長篇討論留言,發現絕大多數對于豬八戒網的評價均為負面評價(417/451),這說明眾包網站的使用感受偏向負面。

目前,關于電商網站的評論研究已經取得了實質性進展,不少研究者從評論有用性的角度出發,對評論內容的質量進行區分[1-5]。本文試圖借用評論有用性的研究成果,結合評論得分以及評論文本二者,收集了豬八戒網的95364條評論數據,經過去重、去無用評論的處理后,進行中文分詞并構建了一套評論文本的詞庫。結合人工歸納正、負面情感詞,計算文本的情感傾向,并根據評論有用性影響因素如時間、金額等對評論情感得分進行集結,最后構建出一套接包方聲譽的評價機制。

1 基于眾包網站評論文本的情感詞典生成

1.1 研究設計

因此,本文將整個研究的流程劃分為5步,如圖1所示。首先是對豬八戒網站的評論數據進行抓取與儲存。隨后對這些數據進行預處理,包括去除重復評論及無意義內容,以及對所有文本進行中文分詞之后,進行詞頻統計。接下來將得到的高頻詞按照程度、情感傾向進行人工篩選劃分,構建各類別的情感詞典。最后,對評論文本進行處理,根據文本長度和特征確定評論是否有效,計算文本情感傾向得分,并按任務價格、成交時間等維度對情感傾向得分進行加權,集結得到最終的接包方聲譽得分。

圖1研究流程

通過實際操作發現,高頻詞并沒有出現一定的聚合規律,因此本文并未繼續對高頻詞進行聚類,而是采用人工分類的方式對去重、去停用詞、分詞后所得的11836個詞語進行劃分,得到了正、負面情感詞、最高級、次高級、否定詞等詞典。最后根據這些詞典,構建了一套計算情感傾向的算法,并在此基礎上對聲譽值進行計算。

1.2 數據收集

眾包模式因其高效地發揮利用了外部群體的創造性,得到了如Threadless、Kickstarter、豬八戒、威客中國等網站的廣泛應用。以豬八戒網(http://www.zbj.com/)為例,該公司成立于2006年,是國內較早從事眾包類業務的平臺網站,根據網站公開資料稱,目前擁有500萬家中外雇主,1000萬家服務商,市場占有率超過80%。本文對截止到2017年8月20日的豬八戒網上“logo設計類”店鋪中成交量最高的前81家店鋪的評論數據進行了收集,利用Python語言進行網絡爬蟲的編程實現,共得到95364條評論數據,主要內容如表1所示。

表1 主要評論數據類型及說明

1.3 評論去重與高頻詞提取

在閱覽評論的過程中,“習慣性好評”“系統默認好評”類的評論并不能為其他用戶帶來有用的信息。本文將此類評論認定為并未按照真實想法給出的評論,在分析的過程中予以剔除。本文對收集到的95364條評論數據進行了如下的操作進行篩除。

第1輪:

(1)刪除文本內容重復的評論。

(2)刪除雇主明顯為自身系列店鋪的評論。

以上操作完成后得到59578條數據,對這些數據進行分詞,得到12000余條詞匯,人工對這些詞匯進行整理,找出無意義的評論詞和過短的評論詞,加入停用詞表,共得到1080個停用詞,繼續進行第二輪篩除操作。

第2輪:

(3)刪除文本長度少于2個字節的評論。

(4)刪除內容明顯無意義的評論。

篩選后得到58824條評論數據。其中好評總數為58565條,中評總數154條,差評總數105條。對其進行分詞后,得到11836個詞匯。限于篇幅,現將詞頻前100的詞匯進行簡要的統計,結果表明在這100個詞頻最高的詞匯中,所有詞匯的詞頻均大于600,并且沒有一個負面情感詞匯。表2是對情感詞匯數量的統計結果。

表2 情感詞頻數統計

結果顯示,有效評論占全部評論的61.42%,好評占到全部評價的99.56%,評論文本中正面情感詞的個數為424個,大于負面情感詞個數185個。這一結果充分證明了眾包網站充斥著大量的、無用的好評,因此原有的5分制評價得分機制并不能真實反映接包方的聲譽與能力。

2 眾包模式下接包方聲譽機制影響因素分析

近年來在眾包模式、開放式創新的研究過程中,許多研究者采用購物網站中的聲譽評分機制來解決眾包中的信息不對稱問題。由于開放性網絡建立在不確定性環境中,使用者都以匿名形式進行寬泛靈活的交流。在缺乏強制性法律約束的情況下,信譽是用戶建立相互了解和信任的最重要的手段。然而現存的網站聲譽評價系統還存在以下一種或多種問題:

(1)計算公式并不能準確地反映聲譽。

(2)初始聲譽值設定得太低以至于可能會成為一個新用戶的進入壁壘。

(3)對評價他人的行為缺乏有效的激勵。

(4)不能對聲譽值進行分類或搜尋。

(4)采用的大多為單一簡單的聲譽得分值。

(5)大多數系統按照用戶的全部歷史紀錄計算聲譽。

為了解決這些問題,一方面,計算機領域的研究者們根據不同的應用環境提出了許多用于計算信任和聲譽的模型。比較典型的有基于相關性的聲譽計算公式,用Pearson相關系數計算用戶i和相關物品之間的相關性的值;基于文本的聲譽計算模型,引入權重矩陣與關聯性矩陣,以此來解決不同用戶對因子重視程度不同以及相關任務之間聲譽得分存在關聯的問題。

另一方面,關注聲譽激勵作用的管理學家們對影響聲譽、信任的因素做出了研究,李聰和梁昌勇[6]提出了從交易時間維度、交易金額維度、買家信譽度維度、欺詐懲罰維度、商盟維度、消費者保障服務維度這6個維度計算在線交易中的聲譽;蔣偉進等[7]從信譽反饋的評分、近期信任度、交易價值、時間權重、評分用戶的信任度、社區貢獻6方面構建了動態信任計算模型,孫寶文等[8]和張娥等[9]提出了保證金制度使得交易不偏離誠信交易。如表3所示,時間、交易金額、懲罰與保險3個因子被采納的次數較多,本文將從這3個方面以及文本的情感傾向得分上構建接包方聲譽評價模型。

表3 前人研究中的聲譽影響因子

3 模型構建

本文在得到評論文本的情感傾向得分后,根據此得分和時間、金額、欺詐、聲譽得分這4個因素構建最終的接包方聲譽得分。

(1)時間維度

在時間維度上,如果聲譽得分擁有無限制的記錄,那么對于新賣家來說是不友好的。因為一個新賣家可能并不了解網站的功能或者眾包的規章制度,這使得新用戶需要一段時期去適應,而初期出于無意而導致的違規行為被計入全局的聲譽中將會使該用戶的真實聲譽值受到影響。針對這種問題,有兩類處理方法,一種是截取近期的聲譽計算局部聲譽;另一種是將早期的聲譽值乘以一個系數做衰減。由于單純的截取為聲譽偽造提供了可能,本文采用第二種方式,在時間維度對聲譽值進行衰減。本文構建了時間維度的聲譽因子如公式(1)所示,Rt(i)為第i筆交易的時間維因子,ti為得到第i筆交易的評價的日期,tpre為當前的日期,本文中設為2017年8月20日。之所以采用反余切公式是因為其具有遞減性和收斂性,并且時間間隔越短,函數值差異越小;間隔越大,函數值差異越大。由于反正切函數在(0,+∞)上的值域為,對其除以將R(i)值域變為(0,1〕,并乘上了1000以避免時間

t間隔過大導致最終所得數值過小。

(2)交易金額維度

交易金額能側面反映本次交易的重要性。交易金額越大,該次交易的評價越能反映出個體的真實行為,則該次交易產生的聲譽在最后的模型中所占的比例也應該越重。在評論文本分析過程中發現大部分無用評論的文本僅含“好評”2字,但其交易金額明顯高于店鋪的平均交易金額,這類評論首先就被剔除在情感得分中。同時,還應當保證商家難以通過小額交易的評論改變最后的聲譽得分。因此本文構建的交易金額維度聲譽因子及情感傾向維度如公式(2)所示:

其中,Rm(i)為第i筆交易的聲譽維因子,Mi為第i筆交易的金額,Li是表示交易是否完成的狀態參數,且有:

(3)欺詐懲罰維度

關于網絡誠信交易的研究表明,對于欺詐行為的懲罰是必須的,懲罰一般有兩種類型:一種是直接處以金錢的懲罰,本文將這部分歸結為平臺的保證金維度中去;另一種則是在聲譽評分中扣除一定的數值,并采取相應的措施進行制裁。表4總結了豬八戒網對欺詐行為的懲罰措施。

本文定義如下的欺詐懲罰因子:

將類別為差評的得分記Rb(i),欺詐懲罰因子記為Rd(i)。公式(3)中分母表示所獲得的所有差評總數,分子表示所有差評中金額高于平均交易金額的差評總數。若不存在此類差評,則令Rd(i)=1。

(4)情感傾向維度

本文利用前文收集到的關鍵詞構建了包括正面情感詞、負面情感詞、否定詞(如“不”)、最高級(如“完全”)、次高級(如“非常”)、較高級(如“十分”)、稍微級(如“有點”)、不足級(如“算是”)在內的8項詞典,如表5所示,限于篇幅,只匯報8個情感詞典的前5個詞語。

表5 情感詞典中所含的部分詞匯

在此基礎上本文提出如下的算法計算各條評論文本的情感傾向:

第1步:讀取評論數據,對評論進行分句。

第2步:逐條匹配每一條分句中所含有的情感詞,記錄評論是否含有正、負面情感詞,以布爾變量標注,每一條正面情感詞的基礎得分為1,負面情感詞基礎得分為-1。

第3步:逐個情感詞前匹配程度詞,若程度為最高級的在情感詞得分基礎上乘以4;次高級乘以3;較高級乘以2;稍微級乘以1/2;不足級乘以1/4。采用乘法而非加法更能區分情感傾向的程度。

第4步:在情感詞前查找否定詞,統計否定詞個數,若否定詞總數為奇數,表示該句為否定,在情感詞得分基礎上乘以-1,即該詞表示的是相反的含義,如“不錯”,含有1個否定詞“不”和負面情感詞“錯”,但表示的是情面情感。同理,若否定詞個數為偶數,則在情感分值的基礎上乘以1。

第5步:計算完一條評論所有分句的情感值,若同時含有正、負面情感詞,則用正面情感詞得分減去負面情感詞得分,得出總分。

同理,在對接包方的全部評論進行計算后,也應對情感傾向進行加權處理,定義情感傾向維度聲譽因子如公式(4)所示:

其中,Fi為該名接包方每條評論的情感傾向得分。

將4個維度的因子進行集結,最后得到的全局聲譽為:

由于豬八戒網并未提供每條評論的具體的得分,本文規定,每條好評的評論得分為5分,中評為3分,差評為1分。在每條評論在得分的基礎上乘以3個維度的聲譽得分因子,從而計算得出最終的接包方聲譽,下文將以9家店鋪的計算結果進行說明。

4 實例驗證

本文按照豬八戒網中好評率排名,在“logo設計”任務分類中挑選了好評率在67%~72%之間的9家店鋪,依據前文構建的聲譽評價模型,對其店鋪評論文本進行分析。按照前文的規則計算得出了各自的聲譽得分,將按照好評率排名和按照本文規則排名的結果進行對比,如表6所示。

表6 采用本文規則的9家店鋪聲譽得分與排名結果

通過表6的結果可以發現:

(1)最終聲譽得分及排名基本符合實際情況,“完成質量、工作速度、服務態度”得分高的商家,最終得分相對也更高。但本文的聲譽得分區分度大,分數從0.03到3.71分布廣泛。例如I商家與B商家在得分上僅差1.4分左右,差別并不明顯,但最終聲譽得分相差近10倍,易于區分。

(2)文本信息能夠幫助分辨“刷好評”行為,并反映在最終得分上。由于網頁展示一般不顯示退款率,商家A雖然擁有很高的評論得分和好評率,但實際上通過有效評論數與總評論數的對比,可以推斷該商家存在“刷好評”的行為,故最后得分低于原排名第2的B商家。基于評論文本內容中情感傾向的聲譽得分能夠有效發現其能力與好評率并不相符這一重要信息。

(3)本文得出的最終聲譽評分體現了評論的時效性。例如商家A的評論大多為2012年給出的,對現在的參考價值不大,事實上該店鋪近2年內沒有任何交易。最終的聲譽得分考慮了時間維度的衰減,該店鋪的最終排名由第1降為了第3,且與前2名差距較大。

(4)最終的聲譽得分更能體現買家的真實感受。商家E擁有較高的評論得分(均高于4.8)及好評率(88%),然而,該商家的糾紛退款率高達15.6%,可見買家對于其提供的服務并不滿意。而文本的情感傾向比原有評分更清晰地反映了這一情況,其最終聲譽得分僅為0.15,遠低于原排名6、7的商家。

由此可見,本文構建的這套基于情感傾向的眾包模式下接包方聲譽評價模型能幫助買家更加清晰、便捷地分辨接包方的能力與態度,具有一定的實際應用價值。

5 結論與展望

本文的研究數據主要來源于豬八戒網站中的發包方對接包方的評價,這種單方面的評價本身難免會存在失真的情況。這種失真,一方面是由于存在潛在的“刷單者”發表虛假的評論信息,另一方面是由于缺乏對評論者的激勵,導致現有眾包任務評論信息質量不高。另外,即使不考慮評論數據中存在的噪聲,現有的評價機制規定,發包方必須在和接包方完成交易的基礎之上才能發表評論,這一要求使得在溝通過程中對接包方存在不滿,放棄進行交易的發包方無法發表基于自身經歷的私有信息。這種現象導致了大多數發表評論的發包方都是對交易滿意的,他們也傾向于發表滿意的正面評論,導致了目前網站中接包方聲譽的普遍偏高,以至于現有聲譽機制的有效性不高。本文搜集整理的此類數據也面臨以上兩方面的問題,這是下一步研究需要解決的問題。

猜你喜歡
文本情感評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久婷婷国产综合尤物精品| 久久香蕉国产线看观看亚洲片| 欧美日韩成人| 日本不卡视频在线| 国产精品永久免费嫩草研究院| 一级香蕉人体视频| 亚洲欧美在线精品一区二区| 日韩国产精品无码一区二区三区| 亚洲成年人片| 无码中文字幕精品推荐| 熟女成人国产精品视频| 免费看美女毛片| 91欧美在线| 99在线观看视频免费| a亚洲视频| 国产毛片片精品天天看视频| 国产凹凸一区在线观看视频| 激情五月婷婷综合网| 伊人久久大线影院首页| 免费观看精品视频999| 538精品在线观看| 久996视频精品免费观看| 国产精品手机在线播放| 亚洲天堂首页| 国产va视频| 真人高潮娇喘嗯啊在线观看| 精品撒尿视频一区二区三区| 国产黄在线免费观看| 在线观看国产精美视频| 亚洲激情99| 久久九九热视频| 久久一本日韩精品中文字幕屁孩| 国产网站在线看| 亚洲精品无码AⅤ片青青在线观看| 91美女在线| 一级香蕉视频在线观看| 亚洲国产清纯| 91小视频在线观看| 青草娱乐极品免费视频| 中文字幕无码电影| 国产偷倩视频| 美女无遮挡免费网站| 国产免费精彩视频| 人妻丝袜无码视频| 国产一区亚洲一区| 欧美色视频网站| 自拍偷拍欧美| 五月婷婷欧美| 四虎亚洲国产成人久久精品| 国产欧美日韩精品综合在线| 久草视频一区| 国产丝袜91| 亚洲精品图区| 中文字幕免费在线视频| 无码内射中文字幕岛国片| 狠狠色婷婷丁香综合久久韩国 | 2021国产乱人伦在线播放| 大陆国产精品视频| 精品欧美一区二区三区在线| 亚洲天堂伊人| 好紧好深好大乳无码中文字幕| 欧美性久久久久| 55夜色66夜色国产精品视频| 毛片在线播放网址| 一本视频精品中文字幕| 国产精品白浆在线播放| 99久久精品国产自免费| 夜夜操狠狠操| 毛片网站在线播放| 成人国产一区二区三区| 重口调教一区二区视频| 青青青视频蜜桃一区二区| 国产香蕉一区二区在线网站| 黄色网页在线播放| 1级黄色毛片| 国产成人无码播放| 2021国产在线视频| 欧美a级在线| 伊伊人成亚洲综合人网7777| 免费国产小视频在线观看| 国产精品漂亮美女在线观看| 亚洲黄色视频在线观看一区|