摘 要:如今網絡產品的評論中存在較多垃圾評論,提高垃圾評論的識別效率有非常重要的意義。為此我們將評論以段的形式分為相關評論和不相關評論,將評論向量化,并結合KNN分類器進行垃圾評論識別,進而推廣對一般化產品考慮,提出一種基于層次分析法的垃圾評論識別研究方法。
關鍵詞:垃圾評論識別;KNN;特征提取;層次分析法
引言
近年來,互聯網逐漸發展成為“以用戶為中心,用戶參與”的開放式架構[1],用戶對購買的商品進行評論,消費者和生產商通過產品的評價,也可以了解產品的優勢與不足,把握用戶需求,改善服務。然而,由于網絡評論不受任何約束,使得評論中充斥著大量垃圾評論,故提高垃圾評論的識別效率有非常重要的意義。
1 數據來源與處理
研究以2015年MathorCup數學建模競賽C題垃圾評論識別的評價數據為基礎。文章通過對評論文本進行分析,總結出其在中文評論領域的特點主要表現在以下幾個方面[3]:評論文本格式自由多樣、評論對象的多樣化、評論內容具有近似重復性、不真實評論和廣告和不帶有感色彩的隨機文本。
首先,我們對從京東網站中獲得的iPhone 6 Plus的200條評論分析整理,并對評論屬性提取并進行向量化處理,將處理后的向量作為訓練集。
表1 訓練集向量化處理(部分結果)
iPhone 6 Plus手感很好,上手容易。是正品,快遞師傅服務也很好!商品封條完整。(3,2,0,0,1)
2 垃圾評論識別
2.1 KNN 最近鄰分類算法算法步驟
(1)根據特征項集合重新描述訓練文本向量;
(2)在新文本到達后,根據特征詞分詞新文本,確定新文本的向量表示;
(3)在訓練文本集中選出與新文本最相似的K個文本,計算公式為:
(1)
(4)在新文本的 K個鄰居中,依次計算每類的權重,計算公式如下:
(2)
其中,x為新文本的特征向量,Sim(x,di)為相似度計算公式,y(di,Cj)為類別屬性函數,即如果di屬于類Cj,那么函數值為1,否則為0。
2.2 評論測試集的建立
對附件中的36條評論同樣進行向量化處理,作為測試集,結果如圖2所示。
圖2 訓練集和測試集評論數目
2.3 模型求解
根據上節建立的KNN分類器垃圾識別方法,利用訓練樣本對測試樣本進行識別,識別結果如表2所示。
表2 KNN分類算法垃圾識別結果
3 基于層次分析的垃圾評論分類模型
3.1 相關概念定義
在產品垃圾評價識別模型研究中,為了方便問題的研究,我們定義了量化評論、評論者、商家的變量分別為評論句的價值度、評論者的可信度和商家的可靠度。
(1)評論的價值度:表示為P(x),P(x)代表該評論x具有評論特征的程度。(2)評論者的可信度:表示為B(y),B(y)代表我們相信該評論者y的程度。(3)商家的可靠度:表示為R(z),R(z)代表該商家產品可靠性的程度。
3.2 層次分析法
所謂層次分析法就是將一個復雜的多目標的問題作為一個決策系統,該目標問題又可分為多個準則或目標,進而分成具有多準則、多約束的若干層,然后依據求解判斷矩陣特征向量的方法得到每一層次的各個元素對上一層次元素的權重,最后使用加權和的方法進行歸并,得到對總目標的最終權重,層次分析法的主要的步驟為[4]:
圖3 層次分析法流程圖
3.3 評價指標的確定
3.3.1 評論的價值度檢測
(1)評價句的特征。評價句指構成產品評論文本每個短句中,包含產品特征或評論觀點的句子。產品評論質量的高低很大程度取決于評論文本中評價句數量的多少。因此,如何識別評論中的評價句,經分析,若評論句子中存在產品特征詞,則該句子具有評價句特征的概率很大。為此,我們參考詞性路徑模板并用于評價句的檢測,同時為了提高分詞系統對評價詞的識別率,在分詞系統中加人自定義評價詞順,最終使用表 所示的詞性路徑匹配模板集按優先級順序提取評價句。
圖4 詞性路徑模板集P
圖5 羅杰斯特公式圖像
對于評論中的每個短句,文章認為如果和表中的任一模板匹配,該短句就有評價句特征。
(2)評論的價值度計算。若一句評論里面的評價句比例大,則該評論為正常評論的可能性也就較大。若一個評論的評價句比例過小,則該評論為垃圾評論的可能性也就較大。所以通過比較該評論的評價句數量和整體評論字符數量,就可以可以得到該評論的價值度。
P(x)=■ (3)
其中P(x)表示的是評論價值度, ■xi是整體評論字符數量,gi是評價句的數量。
3.3.2 評論者的可信度檢測
根據評論者可信度和評論價值度的關系以及其變化趨勢的研究,我們可以很容易的得到可信度檢測計算函數圖形為“S”型增長的曲線,如圖5所示。為此我們構造如下的得分函數:
(4)
其中B(y)表示的是評論者可信度,y是評論者信息輸入集元素。
3.3.3 商家的可靠度檢測
若一個商家擁有的來自可信評論者的正面評論越多,它的可靠度值越高,故類似于評論者的分析,我們得到店家的可靠度值變化曲線也是羅杰斯特曲線。所以商家R的可信度關系計算公式如下:
(5)
其中R(r)表示的是商家可靠度度,r是商家信息輸入集元素。
3.3.4 評價指標體系的建立
設模型的評價指標體系S為P、B、R加權之和,所以整體評價指標體系R模型如下:
(6)
3.3.5 指標權重的確定
下面借助層次分析法[4]來確定
綜合評價指標體系的層次結構見如圖6所示 。
圖6 層級分析結構
假設對此評論體系,有專家給出成對比較矩陣
求得:一致性指標:?姿max=0.0193一致性比率:?姿max=0.0370,這樣就可以確定
通過層次分析法確定了所有權重,因此評價指標體系模型W可表示為:
R=0.1047P+0.2583B+0.6370R(7)
4 結果分析及結論
對一般的產品評價集合,如果我們仍然從評論樣本本身單方面考慮會有以下兩個難點。
第一,工作量大,時間冗余度長。從評論本身出發,提取該產品主題的關鍵詞和特征進行樣本訓練,但是這樣處理時,當你換另一個產品是有需要對關鍵詞和樣本特征提取,人工的工作量很復雜。不能討論并建立更一般的模型,并談談你的該類識別問題的看法;第二,一個評論者對某件產品的評論肯定與評論者的可信度和商家的可靠度有關系,所以我們從三者綜合出發,利用層次分析結構分析三者之間復雜的關系,得到三者占評論誠信度的權向量,最后代入得到的指標取值,得到該評論的最后得分,從而判斷改評論的極性(是否是垃圾評論)。
文章給出了一般化產品的研究思路和模型,具有一定的創新性和高效性。
參考文獻
[1]聶卉.產品評論垃圾識別研究綜述[J].情報分析與研究,2014,243(2):63-71.
[2]徐勝國.基于加速近端梯度法和文本語義的垃圾評論信息分類方法[D].江蘇:南京郵電大學,2014.
[3]N. Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search anddata mining 2008:219-229.
[4]司守奎,孫璽菁.數學建模算法與應用[M].國防工業出版社,2011.
[5]游貴榮,吳為,錢 濤.電子商務中垃圾評論檢測的特征提取方法[J].現代圖書情報技術,2014,10.