毛郁欣 朱旭東
關鍵詞:電子商務;網站;在線消費者評論;有用性;文本分類;支持向量機
電子商務(簡稱電商)的大規模發展和信息技術的快速進步對人們的日常生活產生了巨大的影響。消費者越來越愿意在電商網站上表達自己的網購體驗和消費態度。另一方面,大多數電商網站為用戶提供了便捷的移動服務.使得用戶能夠充分利用碎片化時間進行網購。允許用戶分享關于商品或者個人生活方式的圖片和評論,是這類網站的主要特征。在線消費者評論已經成為消費者和商家之間一種十分重要的網絡口碑,會直接影響用戶的產品質量認知甚至購買欲望。對線消費者評論的深度理解和挖掘,已經成為電商領域的研究熱點之一。
目前,各大電商網站都產生了海量的評論信息,對于消費者而言,查閱和分析這些信息將面臨巨大的挑戰。通常而言,電商網站會按照發布時間對評論進行排序,新近發布的評論會出現在評論頁的頂部。這種做法會導致用戶難以接觸那些有價值但是發布時間較早的評論,除非多次往后翻頁。因此,為了向用戶突出顯示有用的或者有價值的評論.一些電商網站會提供有用性投票機制——允許用戶給那些他們認為對自身有幫助的評論投票,有用性投票數通常會直接顯示在評論的下方。這種機制使得用戶能夠根據投票數快速判斷和過濾出有用的評論。然而,這種投票機制也存在較大的問題:因為投票數是隨時間累積的,那么最近發布的評論可能在短時間內無法收獲足夠多的投票,從而被用戶所忽略。
為此,除了有用性投票之外,還應該結合更多的因素來對在線消費者評論進行合理地排序。本文試圖研究一種在線消費者評論的有用性評價方法,為消費者的網購決策提供支持。現有的研究工作主要集中在對評論影響因素(如評論長度、評論者特征等)的分析,而對于如何進行評論的有用性評價則較少涉及。另外,單純分析和識別評論的有用性還是不夠的,因為一款熱銷的商品可能會有上萬條評論,而其中有用的評論可能又有數千條,這樣的數據規模對于普通消費者而言依然太大。因此,在評價在線消費者評論有用性的同時,還應進一步對有用的評論排序,便于進一步提取和深度利用其中最有價值的內容。本文的研究不僅關注這些影響因素,同時還將探索如何利用這些因素進行評論的有用性排序。為此,本文提出了一種基于分類算法的排序模型來評價在線消費者評論的有用性和重要性。借助該模型,能夠較為有效地替用戶過濾有用的評論,從而有助于其進行消費決策。
1相關工作
本文的研究和意見挖掘具有較強相關性,而早期面向電商的意見挖掘主要集中在對在線消費者評論情感極性(正面或負面)的分析,這類意見挖掘也被稱為情感分析。而另一類意見挖掘主要關注如何從評論中識別一些潛在信息,例如商品特征、消費偏好等。近年來,越來越多的研究開始關注對評論質量或者有用性的評價。
許多學者試圖利用數據挖掘或者統計的方法來分析在線消費者評論的有用性。例如,Qazi A等利用回歸模型來分析在線消費者評論的有用性。他們主要研究文本中包含的概念數對于在線旅游網站上評論的影響,其研究工作的主要局限在于樣本規模偏?。ㄖ挥?500條評論)。Karimi S等以來自于一個移動游戲應用的評論樣本為數據,研究了評論者檔案圖片(如頭像)對評論有用性的影響。其研究結果顯示,評論者檔案圖片會顯著影響消費者對評論有用性的判斷。Racherla P等對在線消費者評論的感知有用性進行了研究,利用OLS回歸來檢驗他們的假設。其研究結果表明評論者和評論的特征與評論的感知有用性顯著相關。Ngo-Ye T L等利用腳本分析來預測在線消費評論的有用性,他們將腳本詞典中的單詞作為文本回歸模型中的特征來預測評論的有用性。Hong H等通過元分析來對現有關于在線消費者評論決定性因素的研究進行數量聚合。然而,他們搜集到的因素沒有覆蓋在線消費評論的一些典型特征.例如,他們并未考慮評論圖片這一常用因素。李志宇提出了一種在線商品評論效用排序模型,但是在語義特征方面只考慮了產品屬性特征詞和情感特征詞。聶卉提出了一種基于內容分析的用戶評論質量的評價與預測.采用文本內容分析技術提取特征指標,并結合計量分析和機器學習方法來進行驗證,但是該研究采用的特征集合不涉及評論的一些非文本屬性(如用戶檔案、評論圖片等)。吳江等研究了電商網站評論獲得有用性投票的影響因素,主要針對評論者信度、評論信息質量以及評論極性3方面的因素進行分析。
目前也有一部分研究是基于問卷或者實驗的方式來對在線消費者評論的有用性進行實證研究,而這類研究通常需要有實驗人員或者志愿者參與。例如.Lee E J等通過一個基于Web的實驗來研究在線商品評論的質量對于參與者對評論接受度的影響,他們同時還分析了這樣的影響是如何隨著商品類型以及評論者照片的可用性而變化的。Xu Q通過一個基于Web的激勵實驗來探討個人信譽線索和檔案圖片對評論者以及評論可信度的認知信任和情感信任的影響。Casal6 L V等開展了兩個基于Web的實驗,評價來自在線旅游代理網站的在線評論(正面的和負面的)對于高度風險規避型旅客的感知有用性。Weathers D等介紹了一種用于識別評論因素的方法.購物者用這些因素來評價評論有用性。他們對由69名學生提供的分類數據開展了多維尺度分析.其研究的主要不足在于研究結果受到參與者規模的影響。
自動而精確地理解在線消費者評論表達的情感信息,有助于企業理解消費者感知,并更好地開展針對性的營銷。許多現有的相關研究聚焦于對在線消費者評論進行情感分析。例如,Felbermayr A等分析了情感對在線消費者評論感知有用性的影響,測量了不同商品分類中不同情感維度的重要性。他們使用隨機森林分類算法根據情感內容將真實評論分類為有用的和無用的,還將情感特征和若干廣泛使用的特征如文本長度、評分和商品評級等進行了比較。B0P等闡述了一種機器學習方法.該方法對文檔的主觀性內容應用文本分類技術來確定其情感極性。黃仁等描述了一種基于聯合神經網絡對商品屬性進行聚類的方法,并通過使用Word2vec來確定商品評論的情感特征。Tian F等提出了一種基于觀點語句的實例轉移技術,用于對中文商品評論進行情感分類,還利用來自電商網站的數據集將其方法與另外3種分類方法進行了比較分析。
總體來看,目前結合多種因素對線消費者評論的有用性進行深度研究的工作還比較缺乏。許多研究工作受限于評論數據或實驗參與者的規模,進而影響了其研究結論的可靠性和適用性。另外,雖然有不少研究探討了如何識別評論的有用性,但是并未特別有效地解決根據有用性對評論排序的問題。
2理論模型
本節首先針對B2C電商網站的特點提出了一系列用于評價在線消費者評論有用性的特征,并進一步提出了基于支持向量機(Support Vector Ma.chine,SVM)的評論有用性排序算法。
2.1特征集合
為了更好地理解和利用在線消費者評論,許多學者試圖在特征尺度上挖掘和抽取意見。目前絕大部分分類算法都依賴于特征的提取,因此為了實現對評論的評價,必須抽取和識別與評論相關的關鍵特征。為此,本文整合了一部分現有文獻中提及的特征,歸納并提出了符合電商網站消費者評論的特征集合,用于支持后續的分類。
1)文本統計特征
在文本統計方面,本研究主要選取了兩個代表性的相關特征:評論長度和句子數。一般來說,電商網站上的一條消費者評論不會很長,有時候一條短評論可能只包含一句話甚至幾個字。通常來說,較長的評論會顯得更加有用.因為長評論可能會包含更多有效信息。中文評論的長度可以用字數來度量。此外,評論重要性也與其所包含的語句數量有關,有研究表明包含更多語句的評論會顯得更加有用。語句可以被認為是消費者表達對商品意見的最小語義單元。更進一步.還可以通過評論的平均語句長度(Average Sentence Length,ASL)來同時覆蓋評論長度和語句數兩個特征:
2)評論主觀度
網絡消費者通過發布主觀意見來表達其對商品特征的情緒,或者通過客觀陳述來反映商品特征的實際數據,或兩者結合。當我們評價在線消費者評論的有用性時,可以考慮評論的主觀度問題。有研究表明,評論有用性與其情感傾向或內隱意見存在正交關系。然而,文本的主觀度尤其是中文文本的主觀度判斷和分析,是一項較為復雜的工作。Ghose A等提出通過對每條語句進行主客觀性分類來進一步確定評論的主觀度,本研究基于該理論量化地評估在線消費者評論的主觀度。假設評論。
根據Ghose和Ipeirotis的研究,DevProb和評論的有用性投票正相關。如果評論包含的語句之間的主客觀性差異比較大.則DevProb的值也就比較大,那么該評論對消費者的有用性也比較大。為了進一步確定評論中每條語句的主觀度,我們需要借助某種分類算法對句子的極性進行分類。然而,目前絕大部分語句粒度的分類都需要事先標注訓練集作為輸入,而手動標注大量訓練數據本身非常耗時。因此,本文采用了Wiebe J等提出的方法,利用基于規則的分類器處理未標注的語料庫來生成訓練數據。該方法根據規則對語句的主客觀性進行自動分類,而規則又可以根據現有文獻提供的一些研究結論或線索來預先制定。
3)內容相關性
評論內容和商品描述的相關性是判斷評論有用性另一個重要指標。在電商網站上,每一件商品都會有一個對應的關于商品信息的描述性頁面。如果評論的內容和商品描述非常相關,那么對用戶的價值或者有用性也就更大。換句話說,這樣的評論包含了更多正確的商品信息或者以屬性為中心的信息,因而更易于被其他用戶所接受。另外,評論的內容相關性也和主觀度存在一定的關系:如果評論包含更多主觀內容,那么其包含的客觀內容勢必就相對較少,而和商品描述相關的往往是客觀內容。
4)有用性投票
如前文所述,有用性投票有助于用戶識別有價值的評論,收到更多投票的評論對其它用戶而言幫助也更大。然而,有用性投票數是隨時間累積的,因此在分析有用性投票對評論有用性的影響時.還應該考慮時間因素。為此,本文提出時間相關的有用性投票(Time-Dependent Helpful Votes,TDHV)的概念,并定義如下:
5)用戶回復
一些電商網站允許用戶進一步在評論下面進行回復。為了簡化問題,本研究并不直接分析這些回復的內容,而只是單純記錄評論的用戶回復數,并將回復數作為特征值。用戶回復數和有用性投票存在一定的聯系:如果1條評論收獲了較多的回復,說明該評論被較多的用戶所關注和認可:可用性投票的情況也類似。
6)評論圖片
大部分電商網站都允許和鼓勵消費者在發布評論的同時上傳所購買商品的圖片。通過上傳實拍的商品圖片.消費者能讓其評論更吸引人.同時也更加真實可信。對于其他用戶而言,這些圖片是非常重要的購買決策參考。通常來說,商品展示頁上的圖片經過一定的修飾和處理.和實際商品之間會存在一定的差異,而消費者上傳的圖片相對來說則更加真實可靠。因此,包含了圖片的評論對用戶來說有用性更大。類似地,Walther J B等通過研究也發現在新成立的虛擬群組中,群組成員發布的圖片能夠增進情感和社交吸引力。如果將已經購買和打算購買某一款商品的用戶看作一個虛擬的網絡群組,那么圖片的影響是顯而易見的。因此,在線消費者評論中是否包含了已購買的商品圖片對于評論的有用性具有較大的影響。本研究將評論包含的圖片數量作為評論有用性的特征指標之一。
7)評論者檔案
電商網站的用戶檔案通常包括自我創造線索(如個人頭像)和系統生成線索(如信譽)。作為體現來源可靠性的線索.這些檔案特征在消費者的購買決策中也扮演著重要角色_3引。因此,評論者檔案和他們所發布評論的質量之間存在一定的相關性。例如,當用戶決定是否采納一條評論的意見時,評論者的信譽等級就是一個典型的考慮因素。信譽等級較高的用戶通常擁有更多的網購經驗,其評論也就更加可信。Zhou S等將評論者的專業性作為評論有用性的影響因素,并用評論者過去撰寫的評論數量來量化這種專業性。一般來說,出于隱私保護的需要,電商網站不會暴露太多關于評論者的個人信息。換句話說,其他用戶只能獲得評論者的一小部分信息。在這種情況下,評論者的昵稱與其評論的可靠性之間也存在潛在的聯系。因為大多數時候,電商網站的消費者并不太愿意在評論中暴露自己的昵稱,而是選擇匿名發布評論。而那些有經驗的、較為自信的消費者則不太介意公布自己的昵稱,而他們的評論也就更加可靠。
2.2有用性排序算法
在線消費者評論的評價問題可以被歸約為二元分類,即將在線消費者評論分為兩類:有用的和無用的。因此,本研究采用SVM來對評論進行二元分類,數據集中的評論被分為正面(有用)或者負面(無用)。同時,每條評論在被貼上分類標簽的同時,還會被賦予1個分類值(或者分類概率)。對于正面分類下的有用評論,則進一步按照分類概率值大小對其進行排序,一個較大的概率值意味著評論的有用性更強。給出基于SVM的有用性排序算法的描述如表2所示:
3研究方法
3.1數據采集
本文的實證研究數據來自于京東,而京東是目前國內兩大B2C電商平臺之一?;贖tmlUnit實現了一個網絡爬蟲程序,從京東上自動采集商品評論信息和商品描述信息。主要從京東上抓取了3類商品的數據:手機、女鞋和糖果巧克力。在丟棄了一些無效評論之后,最終采集了756756條評論,其中511213條關于手機,160456條關于女鞋,88086條關于糖果巧克力。圖1顯示的就是一條京東上關于手機的評論。所有的評論都以半結構化數據的形式存儲于關系數據庫中用于后續分析。
對抓取到的部分評論數據進行了人工分析和標注,將評論數據標記為有用和無用兩個類別。每條評論數據由3名標注者獨立進行標注,最終評論的類別依據多數原則來確定。例如,某條評論至少被兩名標注者標注為無用評論,該評論才被確定為無用評論。經過標注的數據集被分為兩個子集,一部分作為訓練集,另一部分作為測試集。
3.2分析方法
通過設定一系列參數,利用訓練集構造一個SVM分類模型。而訓練集則用于進一步驗證模型的分類精確度??傮w的分析過程如圖2所示,具體的步驟如下:
1)首先從網站上抓取數據,包括評論數據和商品數據,其中商品數據主要用于計算內容相關性。
2)對評論和商品描述進行分詞,將每一段文本轉化為詞袋模型,與詞在文本中出現的順序無關。分類所需的一部分特征如文本統計、評論主觀度和內容相關性和分詞結果直接相關。
3)針對每一條評論,結合第3節涉及的各個特
4)將原始的評論數據轉化為用于分類的輸入向量集合。輸入向量x的分類概率是從x到決策邊界的有符號距離。正的分類概率表示x被預測屬于該類別,而負值則正好相反。通過分類函數(也稱為值函數)預測x正向屬于某個類別的概率。利用SVM進行分類時,預先設定SVM模型支持概率估計,這樣就能得到每個向量屬于某個類別的概率值。因為本文采用的是二元分類,因此類別只有兩種,可以用1和-1表示。
5)當利用SVM得到所有輸入向量的分類結果時,首先過濾出具有正概率值的向量,然后根據它們的概率值大小進行排序,概率值較大的向量對應的評論被認為更加有用。
6)對于分類預測的結果,進行人工驗證,得到最終的有用性排序結果。
4研究結果與評價
4.1分類測試結果
按照3.2節給出的步驟對數據集進行處理.得到SVM分類的預測結果集。分類所采用的SVM模型參數如表3所示:
將訓練集大小統一設定為1000,測試集大小設定為500。利用評價模型對3個子集(手機、女鞋、糖果巧克力)分別處理,結果如表4所示。
每個子集對應的分類的精確率和召回率都達到了60%以上。雖然分類的精確度并不是特別高,但是對于一個沒有經過任何優化的模型而言,初步的分類結果是可以接受的。其中,女鞋子集對應的精確率最高,達到了65.8%,而糖果巧克力子集的召回率最高,達到了82.3%。
為了進一步驗證評價模型的性能,將該模型的分類預測結果,與京東自身的推薦結果進行比較。京東提供了兩種評論排序方式:按時間排序和按推薦排序。一般來說,類似京東這樣的電商網站不會透露其推薦算法的細節.但是推薦結果是可以公開獲取的。本研究將評價模型和京東的推薦機制進行對比分析,步驟如下:
1)確定一件具體的商品,并采集其對應的所有評論:
2)利用本文提出的評價模型對消費者評論進行排序,得到一個評論序列(記為序列A);
3)按照京東的推薦機制對消費者評論進行排序,得到另一個評論序列(記為序列B);
4)比較序列A和序列B,并分析其差異。
按照上述流程,從手機子集中選取了一件特定商品的評論數據,該商品是一款老年手機。將AB兩個序列的長度都設定為500,即只對前500條有用評論進行對比分析,最終的結果如表5所示。京東上商品的評論是分頁顯示的,每頁10條評論,500條評論會占據50頁。雖然一件商品的評論很多,但是一般的用戶無法遍歷所有的評論頁。因此50頁的內容對于用戶評價一款商品而言已經足夠了。通過對比可以看到,兩個序列的有用評論比例幾乎完全一樣,說明通過兩種不同的機制得到的評論大多數都是有用的。
京東上的每一條評論都會對應一個星級(從1星到5星),5星評論表示極端好評,而l星評論則表示極端差評。為此,根據星級將評論分為3類:1星和2星是負面評論.3星和4星是中性評論,5星是正面評論。而京東的推薦機制最大的問題在于,盡管網站會推薦有用的評論,但卻更傾向于推薦正面評論。換句話說,網站會將那些有用的負面或者中性評論放在后面.以至于一般用戶比較難以接觸到。通過表5可以看到,序列B中甚至沒有任何負面評論,只有少量的中性評論。然而,那些負面或中性評論對用戶的購買決策是有參考價值和意義的。此外,網站還更加傾向于推薦獲得較多有用性投票和用戶回復的評論.而本文提出的評價模型對這兩個因素的依賴性則較小。
4.2有用評論概率伐值分析
在對小規模測試集進行分類的基礎之上,可以利用經過訓練的SVM模型對完整的數據集進行分類,首先對糖果巧克力子集的評論進行分類預測。糖果巧克力子集的原始評論數為88086,其中用于訓練集的1000條評論無需處理,因此,實際需要處理的評論數為87086。對糖果巧克力子集進行分類預測的結果如表6所示。
在對評論數據進行SVM分類之后,可以按照分類概率值高低對結果記錄的進行排序。給定為針對分類概率值的閾值,那么針對分類預測結果,可以得到如下的函數:
一般來說,結果記錄的分類概率值越高,說明對應的評論被劃分到有用分類的可靠性也就越高,或者“有用性”也就越強。對于分類概率值較低的評論,其有用性相對來說也較弱。當th,的值為0.82時,結果集中對應的有用評論數為248。而如果th。將下調至0.74,那么預測有用評論數量將上升到22161條。進一步,對248條概率值超過0.82的評論進行人工驗證.發現其中222條的預測結果是正確的,精確率達到了89.5%,甚至比4.1節中的精確率還要高。因此,可以認為,有用性強的評論在分類預測結果中占極少數。這個研究結論,符合人們對于在線消費者評論的一般認知:電商網站上絕大部分評論的參考價值不大.真正有用的評論或者精華總是占極少數。
通過SVM分類得到的是預測結果,還有待進一步驗證。因為分類結果集的規模太大,人工驗證費時費力,對于實際應用來說不太現實。但是,如果選取一個合適的閾值,只對分類概率值在閾值以上的結果記錄進行人工驗證.就能極大地縮小驗證空間。類似的,對另外兩個子集的評論進行閾值分析,最終的對比結果如圖4所示。其中,手機子集包含的原始評論數量太大,為了縮短處理時間,隨機選取了其中180000條記錄。從圖3可知,手機和女鞋子集的分類預測結果,同樣滿足“有用性強的評論占極少數”的特征。
4.3有用評論描述性統計
對于糖果巧克力子集,從分類結果集中選取了top-n(n=500)條有用評論并對進行描述性統計分析,結果如表7所示。
從表7可知,評價模型在非語義特征(如圖片數量、評論者等級等)不顯著的情況下依然能夠較為有效地識別有用的評論。換句話說,只要評論的語義特征(如評論主觀度、內容相關性等)足夠顯著,模型就能夠識別有用的評論。另外,對500條評論的分類精確性進行人工驗證,精確率達到了94%.高于閾值為0.82時248條評論的分類精確率,進一步說明模型的高概率值分類效果更為理想。
4.4核函數性能比較
評價模型默認的核函數為RBF(Radial BasisFunction),而在實際應用中SVM模型還有多種常用的核函數。因此,可以對不同的核函數對應的分類性能進行比較,并從中選擇最適合核函數。針對4.1節中的糖果巧克力子集,分析不同的核函數對于分類精確率的影響,結果如表8所示。Linear(線性)核函數的性能要明顯優于其它,其次是RBF。因此,可以考慮用Linear替代默認的RBF來優化分類性能。
4.5不同分類方法性能比較
為了進一步評價性能,將本文提出的基于SVM的評價模型(SVM-based Model)與另外兩種常用的分類方法樸素貝葉斯和KNN進行比較。分別用3種方法對相同的訓練集和測試集進行處理,最終的結果如圖5所示。
總的來看,基于SVM的評價模型的表現要優于另外兩種方法。然而,KNN的性能和SVM非常接近。此外,3種方法的召回率比較接近,都達到了80%左右。因此,SVM是比較合適的分類方法,但是KNN也可以作為候選.因為相對來說KNN在計算開銷方面要優于SVM。
4.6算法修正
根據實證分析的結果,進一步從以下兩方面對2.2節給出的排序算法進行修正,有助于提高分類預測的精確度。
1)通過選取合適的分類概率閾值;
2)選擇合適的核函數。
給出修正后的算法描述如表9所示:
5結論
本文主要研究并提出了一個利用SVM分類算法對在線消費者評論進行有用性排序的模型。重點關注兩個研究問題:第一,如何利用基于SVM的分類結果對在線消費者評論進行排序;第二,如何利用來自電商網站的評論數據來驗證評價模型的性能。從實證研究的結果來看,盡管總體的分類精確度并不是特別高,但是對于一個沒有經過任何優化的模型而言,該結果是可以接受的。研究結果顯示,有用性強的評論占極少數,因此通過選擇合適的概率閾值,能夠極大地縮小驗證空間,并顯著提升分類精確度,有助于從分類預測結果中過濾出有價值的評論。根據描述性統計結果,該模型主要依賴語義特征進行排序,而對非語義特征的依賴較少。最后,結果顯示模型在性能方面要略優于電商網站的推薦機制。實證研究結果顯示,長的和高相關性的評論被認為更加有用.而這也符合一般用戶的認知。此外,同時包含主客觀內容的評論也被認為更加有用。另外,正面的和負面的評論對于潛在的消費者而言都有價值。雖然在線零售商和電商網站都傾向于將正面評論突出前置,但是消費者在做出購買決策之前,更希望能全面了解商品的各種評論。
本文的研究工作還存在一定的局限。首先,雖然本文基于現有文獻和作者的認知采用了盡可能多的特征,并基于這些特征也能夠對評論進行基于SVM的分類,但是本文所使用的特征集合依然還是有待完善的,或者說尚未完全體現在線消費者評論的一些特點。因此,在后續的研究中,需要進一步補充有用的特征。其次,本文的數據集中在3類商品,未來可以考慮進一步擴大商品分類,同時研究商品類別(比如耐用型商品和非耐用型商品)對于評論有用性的影響。