吳 璠,王中卿,周夏冰,李壽山,周國棟
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
隨著互聯網技術的普及,網絡購物市場也迅速發展起來,網絡用戶規模不斷擴大,在線評論網站如Yelp、Amazon等也迅速增多。對于網絡購物的潛在消費者而言,其他用戶的在線評論可以幫助他們做出有效的購買決策,他們通過閱讀其他已購買消費的用戶在線評論信息或與其他用戶交流購物感受可以對商品有更深層次的了解,進而做出有效的選擇,買到心儀的產品。而對于商家而言,通過挖掘大量的評論數據來了解該項產品的用戶體驗,發掘用戶最希望提供和改善的功能,以對產品做出針對性的改進。商家合理運用這些在線評論,將會為企業帶來一波生產率的增長和利潤的提高。對于產生在線評論的第三方網站來說,也可以通過提供高質量的評論信息來幫助他們建立良好的口碑,獲取更高的關注度。
但是隨著在線評論數量的不斷增長,評論質量良莠不齊,故并非所有的評論都具備參考價值。同時由于網絡的匿名性,用戶非面對面接觸,溝通成本低,內部操作空間大,以及各大在線評論網站對評論內容的低約束性,導致一些用戶隨意發表評論,或提交一些與商品無關的評論,極端情況下,有的不良商家會找人撰寫虛假、刻意夸大商品功能的評論。甚至一些同行競爭對手,會故意撰寫詆毀對方商品或服務的惡意評論,這些評論對消費者的參考價值極低,甚至會引導消費者做出不正確的決定。在這種情況下,我們迫切地需要一個自動化的方法來輔助識別在線評論的質量。因此,科學、高效地從海量在線評論中幫助消費者抽取對決策參考價值高的評論信息就是本研究的價值所在。
目前,國內外的相關學者已經對評論質量檢測做了相關研究,并取得了顯著的成果。但是,以往的研究都認為每條評論是獨立的,對于每條評論的質量進行單獨的檢測。本文與以往的研究不同,在社交媒體上,每個文本之間不是獨立的,而是可以通過發表文本的用戶與其他文本相關聯的。我們在Yelp 2013實驗數據集中隨機抽取了兩個用戶發表在社交媒體上的兩條評論,表1給出了評論示例及該評論在社交媒體上的得分。

表1 用戶評論示例
從表1的例子可以看出,用戶A在社交媒體上發表的評論文本信息較為單薄,只有簡單的類似“最好”“很棒”等形容詞,具有強烈的個人傾向性,對大多數閱讀評論的消費者參考價值不大,評論的質量普遍偏低。而用戶B發表的評論描述相對仔細,評論有針對性,例如,會具體到“周末有本地人才的音樂表演”“點單服務態度”等相關的描述,這種表述對閱讀評論的消費者選擇的可參考性較大,他們可以根據自己的愛好和需求進行選擇。因此,在社交媒體上,閱讀評論的消費者對用戶A的評論打分普遍偏低,對用戶B的評論打分普遍偏高。這說明同一個用戶或相近用戶,在社交媒體上發表的評論質量具有一定相關性。
在本文的研究中,我們將同時考慮文本信息以及用戶信息對于評論質量的影響。本文首先基于神經網絡模型構建用戶和文本的表示,同時為了研究用戶信息對評論質量檢測的影響,考慮到在線評論網站上的評論與傳統評論文本的不同,社交媒體上,每個文本之間不是相互獨立的,通過用戶之間關聯可以找到這些評論質量之間的相關性。考慮到注意力機制在自然語言處理的其他任務上表現優異,因此,為了放大用戶信息的作用,我們將基于注意力機制的用戶信息融合到文本信息中。通過設計相關實驗,驗證在文本信息中加入針對用戶信息的注意力機制,對評論的質量檢測性能具有明顯的提升作用。
本文組織結構安排如下: 第1節介紹了情感分類和在線評論質量檢測的相關工作;第2節介紹了數據收集的過程,且重點描述了本文構建的模型;第3節是實驗設置的介紹和實驗結果分析;最后,是對研究工作進行總結,同時提出下一步的研究方向。
評論的質量應該是以該條評論給消費者購物帶來的參考價值來衡量的,評論給消費者帶來的參考價值越高,評論質量就越高。所以,有很多在線評論網站會進行“有用性投票”,即通過一條評論所獲得的有用投票數占總投票數的比例來定義它的質量。實際上這種方法存在一定的弊端,可能會淹沒一些高質量的評論。目前,對在線評論質量檢測方面的相關研究主要從以下方面展開。
情感分類一直是自然語言處理領域的研究熱點,該任務的目標是對于給定的文本,推測其對應的情感極性,如Positive、Negative和Neutral。情感分類的方法也有很多,有傳統的基于支持向量機、樸素貝葉斯的分類方法,也有基于熱門的深度學習分類方法。Wang等[1]提出多項樸素貝葉斯(MNB)模型和使用樸素貝葉斯特征的支持向量機模型(NBSVM)來進行情感分類。Pang等[2]以電影評論作為數據集,采用了三種機器學習方法: 樸素貝葉斯、最大熵分類和支持向量機,實驗表明這三種機器學習方法在情感分類中的表現不如在主題分類中。Turney[3]提出了一種基于點互信息值來分析特定短語的情感極性,進而判斷整篇文檔情感傾向性的方法,該方法首先將文本進行分詞和詞性標注并提取出形容詞或副詞短語,然后使用“excellent”和“poor”兩個種子詞與未知詞在搜索網頁中的互信息來計算未知詞的情感極性,并用以計算整個文本的情感極性。近年來,隨著深度學習、神經網絡的快速發展,很多神經網絡技術也被應用到情感分類中,Cao等[4]發現卷積神經網絡(CNN)與支持向量機(SVM)分類器相比,雖然情感分類的準確度得到了提升,但是不能有效地執行非線性分類,因此,他們提出了一個將CNN與SVM結合起來的模型,實驗表明,該模型能達到較高的情感分類準確率。長短時記憶網絡(LSTM)作為一種具有更復雜計算單元的遞歸神經網絡,因其優良的序列信息保存能力,在各種序列建模任務中取得了很好的效果,Socher等[5]將LSTM模型應用到情感分類任務中,也取得了不錯的效果。Tai等[6]將傳統的LSTM結構推廣到樹狀網絡拓撲結構來進行情感分類。Qian等[7]通過損失函數將語言學規則引入到現有的句子級別情感分析的LSTM模型中,在沒有增加模型復雜度的情況下,有效地利用情感詞典、否定詞和程度副詞的信息,在實驗數據集上取得了較好的效果。近年來,對情感分類的研究熱度也一直不減,Songpan等[8]提出了一種新的情感分析方法—情感短語模式匹配(sentiment phrase pattern matching,SPPM),SPPM與其他算法相比較,準確率、召回率和F1值都有較大幅度的提高,該方法可以根據學生的意見來改善教學策略。Shen等[9]提出了一種基于擴展特征和動態合并的雙通道卷積神經網絡的文本情感分類算法,該算法比傳統的單通道卷積神經網絡算法具有更好的分類效果。但是以上研究都沒有考慮評論質量的影響,低質量的評論會影響情感分類的準確率,因此,評論質量檢測就顯得尤為重要。
在線評論質量檢測研究,既可以看作為傳統的文本分類問題,也可以看作成一個回歸問題。以往的評論質量研究都主要集中在利用評論的文本信息,研究影響評論質量的不同特征。例如,Kim 等[10]研究表明,評論發表距今的時間是顯著影響評論質量的元數據特征。如 Ghose 等[11]、Li 等[12]、Liu 等[13]指出影響評論質量檢測主要的語言特征應包括評論字數、句子數、不同詞性(名詞、動詞、形容詞等)的詞語數等。胡學鋼等[14]綜合評論文本屬性、評論者屬性和店鋪屬性這三個影響因素,提出了一種基于多元線性回歸算法的在線評論質量預測模型。Archak等[15]指出評論的極端性、評論的深度、評論的產品類型都將會對評論的質量造成影響。Chen 等[16]強調在評論所包含的名詞中,產品屬性名詞的頻次是重要的語言特征,高質量的評論中應包含一定數量的產品屬性名詞。
近年來,也有一些關于發表評論的用戶信息對評論質量檢測影響的研究。Ghose等[11]認為,評論者相關信息是有效的評論質量檢測特征,例如,評論者以往發表的評論數及有用率、評論者身份等。Cheng等[17]的研究側重于分析評論者追隨者人數、評論圖片質量、評論字數以及周邊路線這些社會因素對評論質量的影響。但是這些研究都是利用評論者自身的屬性,例如,評論者好友的數量、注冊的時間、發表的有用評論數。與上述利用評論者屬性的研究不同,本文直接參考用戶以往發表的在社交網站上的評論文本信息,利用同一個用戶在社交網站上發表的評論質量具有一定的相似性,我們利用用戶發表在社交網站上的歷史評論文本信息構建用戶的表示,以進一步提高評論質量檢測的性能。
近幾年來,注意力機制[18-20]在自然語言處理的其他任務中表現優異。Yang等[21]針對文本分類提出一個層次化的注意力機制,分別就詞和句子構建兩個層次的注意力機制,從而使得文本中重要性不同的句子和詞被給予了不同的“注意力”能力,實驗結果相比以往的模型效果有顯著提升。Zhou等[22]基于注意力的雙向LSTM來進行關系分類也取得了不錯的效果。Sun等[23]利用層次化注意力機制權衡各種語言信息,將其應用到立場檢測上也效果顯著。本文受到啟發,在進行評論質量檢測分析模型構建時引入用戶信息,并且,為了進一步放大用戶信息的影響,我們將基于注意力機制的用戶信息融合到文本中,經過在Yeap.com(1)www.yelp.com數據集上測試,模型的實驗效果得到穩步提升。
本文利用評論的文本信息構建LSTM模型對評論的質量進行檢測,考慮到在線評論網站上的評論與以往獨立的單文本不同,社交網站上,每個評論文本之間不是相互獨立的,通過用戶之間相關性可以找到這些評論質量之間的相關性。一般來說,擁有更多粉絲和已發表的高質量評論數越多的用戶,再次發表的評論質量會更高,因為同一個用戶或者相近的用戶發表的評論質量也是相似的。因此,我們在模型中加入了用戶信息,從而對評論的質量進行全面的預測。最近出現的注意力機制在其他自然語言處理任務上都取得了不錯的效果,注意力機制可以更好地表征文本,在訓練時可以自動獲取更為重要的特征。例如,在情感分類任務中,地名、人名等名詞沒有表達情感類的形容詞重要,所以,在神經網絡訓練時,表達情感的形容詞就應該占有更大的權重。因此,引入注意力機制可以將神經網絡的注意力集中在那些對當前任務更重要的向量上,以提高模型的準確率。所以,為了進一步放大用戶信息的作用,我們結合注意力機制將用戶信息融合到文本信息中。實驗結果表明,評論質量檢測分析的性能得到了進一步提高,本文的整個模型如圖1所示。

圖1 注意力機制模型圖
在線評論是由用戶針對特定產品做出的評價,我們將每條評論表示為由{W1,W2,W3,…,Wn}組成的n個單詞。LSTM長短時記憶網絡是RNN(Recurrent Neural Network)中一種特殊的類型,所有的RNN模型都具有一種重復神經網絡模塊的鏈式形式。與傳統的RNN模型不同,1997年,Hochreiter和Schmidhuber首先提出了LSTM神經單元。將傳統RNN中的隱含層以LSTM單元替代,也就是現在所說的LSTM網絡。對于每一條評論,我們使用LSTM神經網絡來學習評論的深層文本信息表示。首先,通過查找預訓練好的詞向量表將每個標記的Wi轉換為實值向量Xi。然后,我們使用LSTM神經網絡來生成隱藏的向量序列{h1,h2,h3,…,hn}。在LSTM神經網絡的步驟t中,LSTM的隱藏向量ht=LSTM(Ht-1,Xt)均可由當前向量Xt和先前向量ht-1來獲得。LSTM神經網絡中的參數初始化都是隨機初始化,在訓練過程中調整的。
LSTM單元利用記憶細胞(Memory Cell)來傳遞信息,因此細胞狀態是整個LSTM的關鍵,它類似于信息傳統帶,直接在整個循環網絡中運行,且由它來決定該保留或遺棄哪些信息。歷史信息由3個門控制,即輸入門(Input Gate),遺忘門(Forget Gate)和輸出門(Output Gate)。LSTM表示如式(1)~式(6)所示。
其中,it,ft,Ot,和Ct分別表示t時刻對應的三種門結構和細胞狀態。LSTM是一種特殊的RNN,是為了解決RNN中長期依賴問題而專門設計出來的,同時LSTM對于大多數自然語言處理任務也確實展示了更好的性能。采用LSTM模型避免了傳統機器學習模型中的特征工程,而且能取得與當前基于傳統機器學習相當甚至更好的性能。并且LSTM等深度學習模型還可以借助GPU來訓練,大大縮短了訓練時間。
本文的研究目的是在線評論的評論質量。根據日常經驗,很容易聯想到發表評論用戶的相關信息會對評論質量造成影響。擁有更多粉絲數,已發表的有用評論數量越多的用戶,再次發表的評論質量可能會更高,而發表評論質量一直較低的用戶,再次發表的評論質量較低的可能性也比較大。與以往直接利用評論者粉絲數,和評論者發表的評論總數等用戶屬性的研究不同,社交媒體網站上的評論之間并不是相互獨立的,而是可以通過用戶之間的聯系將評論聯系起來。因此,在實驗中,我們考慮加入了用戶在社交媒體上發表的歷史評論信息,利用LSTM模型學習用戶評論深層的信息作為用戶的表示(圖2)。

圖2 用戶的表示示例圖
在LSTM 模型中,將歷史評論信息{ed(ru1),ed(ru2),ed(ru3)…,ed(run)}作為輸入,令hui=LSTM(Hui-1,ed(rui)),經過LSTM神經網絡得到的隱藏狀態向量{hu1,hu2,hu3,…,hun},將其作為每個用戶的表示。在具體實驗中,我們對于每個用戶,抽取其發表的n條評論,并利用LSTM模型基于這些評論構建每個用戶的表示。
注意力機制用于從眾多信息中選擇出對當前任務目標更關鍵的信息。而在該任務中并不是每一個評論都對用戶的表示做出了同等貢獻,因此,我們在獲取了文本表示和用戶表示之后,為了放大用戶信息對評論質量的影響,針對用戶信息引入了注意力機制,用于提取用戶相對重要的評論,形成基于注意力機制新的用戶表示。
注意力機制將每一個輸入狀態{hu1,hu2,hu3,…,hun}作為用戶的表示輸入,從而實現為輸入文本構造一個隱藏狀態hui的加權和,輸出引入用戶注意力機制的文本表示向量v,如式(7)所示。
(7)
其中,T為輸入狀態的數目,?t為輸入狀態hui的權重,?i∈[0,1],并且∑i?i=1,?i的計算如式(8)、式(9)所示。
其中,W為模型中的權重,b為模型中的偏置。
實驗表明,通過針對用戶信息引入注意力機制,使得實驗結果與僅引入用戶信息比較得到了進一步的提高。這說明加入基于用戶信息的注意力機制確實能進一步提高評論質量檢測的準確度。
本文使用的是Yelp Dataset Challenge 2013提供的數據。在實驗中,選取隨機生成的用戶ID中前兩千條用戶ID的評論作為訓練集,兩千到四千條用戶ID的評論作為測試集。表2反映了實驗數據集的分布情況。

表2 數據集分布情況
在Yelp數據集中: 每個評論至少包括以下信息。
(1) 每個評論會有一個useful score,這是該條評論的質量指標,useful score越高,表示該條評論的質量越高,參考價值越大。在實驗中,為了防止極少數useful score極端值對實驗結果的影響,在實驗中將useful score的上限設置為10,大于10的useful score看作10來處理,同時將useful score轉化為0到1之間的數值,在評論質量檢測時作為useful label。
(2) 評論的文本信息。
(3) 評論的用戶ID信息。
(4) 評論的星級。最高星級為五顆星,最低為一顆星。星級用來表示評論的情感傾向,星級越高,表示用戶對該產品越滿意,大于三顆星的評論即為積極情感傾向的評論。
(5) 評論的對象商家或產品的ID信息。
本文采用均方誤差作為評論質量檢測的評價指標,因為均方誤差能很好地反映預測評論質量標簽和真實評論質量標簽的偏離程度,評價標準MSE的公式如式(10)所示。
(10)
其中,N為整個數據集評論數,gri和pri分別為真實評論質量(useful label)和預測的評論質量(useful label)。同時,為了加速訓練,我們限定每條評論最多有40個句子,每個句子不超過40個單詞。均方誤差比較直觀且計算簡單,可以評價數據的變化程度,MSE的值越小,說明預測模型的預測結果具有更好的準確度。
為了獲取模型的最優參數集合,需要調節的參數如表3所示。

表3 模型參數調節列表
在前人評論質量檢測研究的基礎上,我們選用以下方法進行實驗的對比分析。
SVM模型、Decision Tree模型: Liu 等[13]采用支持向量回歸、決策樹等機器學習方法進行評論質量檢測比較,以得到性能最優的模型。本文以單個詞Unigram作為特征,使用傳統機器學習中SVM(2)http://svmlight.joachims.org/( support vector machine )模型、決策樹模型進行回歸分析。
LSTM模型: Bobby[24]使用深度學習模型LSTM對亞馬遜網站上的評論進行質量檢測。該模型不引入用戶信息和注意力機制,我們直接采用LSTM模型對評論文本進行評論質量檢測,作為本文的基準模型。
GRU模型: Cho等[25]提出了另一種循環神經網絡的變體GRU(Gate Recurrent Unit),它的實驗效果與LSTM相似,但更易于計算。
Bidirectional-GRU模型: 雙向的GRU模型優于單向GRU是其可以同時利用過去時刻和未來時刻兩個方向上的信息,從而進一步提高模型的準確度。
LSTM+User模型: 該模型在LSTM模型的基礎上加入了評論的用戶信息,實現評論質量檢測。
LSTM+SelfAttention模型: 該模型在LSTM模型的基礎上加入了自注意力機制,實現評論質量檢測。
LSTM+User+Attention模型: 該模型在LSTM模型的基礎上將基于注意力模型的用戶信息融合文本中,相比以上的幾種模型,實驗性能得到進一步提升。
3.4.1 與傳統方法對比
本文主要進行了兩組實驗。為了體現我們提出的結合用戶信息注意力機制模型的有效性,本文的第一組實驗選擇與前人所使用的SVM、決策樹等傳統機器學習進行對比,同時也與自然語言處理領域一直表現優異的長短時記憶網絡LSTM、GRU、雙向GRU模型進行對比,實驗結果如表4所示。
從表4可以看出,本文提出的基于神經網絡LSTM、GRU模型確實能學習到文本更深層次的信息,比傳統的機器學習方法在評論質量檢測中性能更好,在一定程度上體現了深度學習的優勢。同時,對比前人使用的模型和我們提出的結合用戶注意力機制的模型,發現加入用戶信息注意力機制對評論質量檢測模型性能確實有一定的提升。
3.4.2 網絡結構的影響
為了驗證模型的有效性,考慮不同網絡結構的影響,研究用戶信息注意力機制的作用,我們進行了第二組實驗,實驗結果如表5所示。

表5 不同模型MSE值對比
從表5的實驗結果來看,在LSTM模型中,直接加入用戶信息模型的性能得到了提高。同時,比較“LSTM +SelfAttention”和“LSTM+User+Attention”模型性能,我們發現加入針對用戶信息的注意力機制,能進一步提高評論質量檢測的性能。
通過對比實驗可以看出,逐步加入用戶信息和針對用戶信息引入注意力機制可以降低MSE值,提高評論質量檢測的性能。這表明,在評論質量檢測中評論者以往的評論信息是影響評論質量的一個重要因素,通過將評論的用戶信息和注意力機制相結合,有效增強了模型對于文本信息的捕獲能力,進而提高了評論質量檢測的性能。
互聯網上日益豐富的評論信息確實給人們的生活帶來了便利,為人們在購物時的決策提供了更多的參考。但互聯網上的信息良莠不齊,數據龐大,信息爆炸也為消費者帶來了困惑,同時也影響了評論的參考價值,降低了消費者決策的效率和效果。因此快速地篩選出對消費者決策最有幫助的高質量評論就顯得尤為重要。
考慮到社交媒體上同一個用戶發表評論質量的相似性,本文提出一種基于LSTM神經網絡,針對用戶信息引入注意力機制來預測在線評論質量的模型。該模型能幫助消費者從在線評論網站海量的評論中快速識別出有用的評論,做出正確的購買決策。
類比在模型中加入評論的用戶信息,我們很容易聯想到,加入評論的對象商家信息是否也會提高評論質量分析的性能。我們在分析實驗語料時發現,評論者的好友信息也具備一定的參考價值,有用評論的用戶好友質量普遍比較高,發表的評論數比較多,同時有用的評論也比較多,因此,可以考慮在模型中加入用戶的好友信息。同時,我們受到情感分類的啟發,分析評論的情感信息或許也能更好地篩選質量高的評論。以上所述都有待未來更詳盡的研究工作來完成,本文以后的工作將進一步考慮加入商家信息和情感信息,并探究其對評論質量的影響。