999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垃圾評論識別的數學建模

2015-04-29 00:00:00汪俊趙坤坤計一凡
科技創新與應用 2015年26期

摘 要:如今網絡產品的評論中存在較多垃圾評論,提高垃圾評論的識別效率有非常重要的意義。為此我們將評論以段的形式分為相關評論和不相關評論,將評論向量化,并結合KNN分類器進行垃圾評論識別,進而推廣對一般化產品考慮,提出一種基于層次分析法的垃圾評論識別研究方法。

關鍵詞:垃圾評論識別;KNN;特征提取;層次分析法

引言

近年來,互聯網逐漸發展成為“以用戶為中心,用戶參與”的開放式架構[1],用戶對購買的商品進行評論,消費者和生產商通過產品的評價,也可以了解產品的優勢與不足,把握用戶需求,改善服務。然而,由于網絡評論不受任何約束,使得評論中充斥著大量垃圾評論,故提高垃圾評論的識別效率有非常重要的意義。

1 數據來源與處理

研究以2015年MathorCup數學建模競賽C題垃圾評論識別的評價數據為基礎。文章通過對評論文本進行分析,總結出其在中文評論領域的特點主要表現在以下幾個方面[3]:評論文本格式自由多樣、評論對象的多樣化、評論內容具有近似重復性、不真實評論和廣告和不帶有感色彩的隨機文本。

首先,我們對從京東網站中獲得的iPhone 6 Plus的200條評論分析整理,并對評論屬性提取并進行向量化處理,將處理后的向量作為訓練集。

表1 訓練集向量化處理(部分結果)

iPhone 6 Plus手感很好,上手容易。是正品,快遞師傅服務也很好!商品封條完整。(3,2,0,0,1)

2 垃圾評論識別

2.1 KNN 最近鄰分類算法算法步驟

(1)根據特征項集合重新描述訓練文本向量;

(2)在新文本到達后,根據特征詞分詞新文本,確定新文本的向量表示;

(3)在訓練文本集中選出與新文本最相似的K個文本,計算公式為:

(1)

(4)在新文本的 K個鄰居中,依次計算每類的權重,計算公式如下:

(2)

其中,x為新文本的特征向量,Sim(x,di)為相似度計算公式,y(di,Cj)為類別屬性函數,即如果di屬于類Cj,那么函數值為1,否則為0。

2.2 評論測試集的建立

對附件中的36條評論同樣進行向量化處理,作為測試集,結果如圖2所示。

圖2 訓練集和測試集評論數目

2.3 模型求解

根據上節建立的KNN分類器垃圾識別方法,利用訓練樣本對測試樣本進行識別,識別結果如表2所示。

表2 KNN分類算法垃圾識別結果

3 基于層次分析的垃圾評論分類模型

3.1 相關概念定義

在產品垃圾評價識別模型研究中,為了方便問題的研究,我們定義了量化評論、評論者、商家的變量分別為評論句的價值度、評論者的可信度和商家的可靠度。

(1)評論的價值度:表示為P(x),P(x)代表該評論x具有評論特征的程度。(2)評論者的可信度:表示為B(y),B(y)代表我們相信該評論者y的程度。(3)商家的可靠度:表示為R(z),R(z)代表該商家產品可靠性的程度。

3.2 層次分析法

所謂層次分析法就是將一個復雜的多目標的問題作為一個決策系統,該目標問題又可分為多個準則或目標,進而分成具有多準則、多約束的若干層,然后依據求解判斷矩陣特征向量的方法得到每一層次的各個元素對上一層次元素的權重,最后使用加權和的方法進行歸并,得到對總目標的最終權重,層次分析法的主要的步驟為[4]:

圖3 層次分析法流程圖

3.3 評價指標的確定

3.3.1 評論的價值度檢測

(1)評價句的特征。評價句指構成產品評論文本每個短句中,包含產品特征或評論觀點的句子。產品評論質量的高低很大程度取決于評論文本中評價句數量的多少。因此,如何識別評論中的評價句,經分析,若評論句子中存在產品特征詞,則該句子具有評價句特征的概率很大。為此,我們參考詞性路徑模板并用于評價句的檢測,同時為了提高分詞系統對評價詞的識別率,在分詞系統中加人自定義評價詞順,最終使用表 所示的詞性路徑匹配模板集按優先級順序提取評價句。

圖4 詞性路徑模板集P

圖5 羅杰斯特公式圖像

對于評論中的每個短句,文章認為如果和表中的任一模板匹配,該短句就有評價句特征。

(2)評論的價值度計算。若一句評論里面的評價句比例大,則該評論為正常評論的可能性也就較大。若一個評論的評價句比例過小,則該評論為垃圾評論的可能性也就較大。所以通過比較該評論的評價句數量和整體評論字符數量,就可以可以得到該評論的價值度。

P(x)=■ (3)

其中P(x)表示的是評論價值度, ■xi是整體評論字符數量,gi是評價句的數量。

3.3.2 評論者的可信度檢測

根據評論者可信度和評論價值度的關系以及其變化趨勢的研究,我們可以很容易的得到可信度檢測計算函數圖形為“S”型增長的曲線,如圖5所示。為此我們構造如下的得分函數:

(4)

其中B(y)表示的是評論者可信度,y是評論者信息輸入集元素。

3.3.3 商家的可靠度檢測

若一個商家擁有的來自可信評論者的正面評論越多,它的可靠度值越高,故類似于評論者的分析,我們得到店家的可靠度值變化曲線也是羅杰斯特曲線。所以商家R的可信度關系計算公式如下:

(5)

其中R(r)表示的是商家可靠度度,r是商家信息輸入集元素。

3.3.4 評價指標體系的建立

設模型的評價指標體系S為P、B、R加權之和,所以整體評價指標體系R模型如下:

(6)

3.3.5 指標權重的確定

下面借助層次分析法[4]來確定

綜合評價指標體系的層次結構見如圖6所示 。

圖6 層級分析結構

假設對此評論體系,有專家給出成對比較矩陣

求得:一致性指標:?姿max=0.0193一致性比率:?姿max=0.0370,這樣就可以確定

通過層次分析法確定了所有權重,因此評價指標體系模型W可表示為:

R=0.1047P+0.2583B+0.6370R(7)

4 結果分析及結論

對一般的產品評價集合,如果我們仍然從評論樣本本身單方面考慮會有以下兩個難點。

第一,工作量大,時間冗余度長。從評論本身出發,提取該產品主題的關鍵詞和特征進行樣本訓練,但是這樣處理時,當你換另一個產品是有需要對關鍵詞和樣本特征提取,人工的工作量很復雜。不能討論并建立更一般的模型,并談談你的該類識別問題的看法;第二,一個評論者對某件產品的評論肯定與評論者的可信度和商家的可靠度有關系,所以我們從三者綜合出發,利用層次分析結構分析三者之間復雜的關系,得到三者占評論誠信度的權向量,最后代入得到的指標取值,得到該評論的最后得分,從而判斷改評論的極性(是否是垃圾評論)。

文章給出了一般化產品的研究思路和模型,具有一定的創新性和高效性。

參考文獻

[1]聶卉.產品評論垃圾識別研究綜述[J].情報分析與研究,2014,243(2):63-71.

[2]徐勝國.基于加速近端梯度法和文本語義的垃圾評論信息分類方法[D].江蘇:南京郵電大學,2014.

[3]N. Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search anddata mining 2008:219-229.

[4]司守奎,孫璽菁.數學建模算法與應用[M].國防工業出版社,2011.

[5]游貴榮,吳為,錢 濤.電子商務中垃圾評論檢測的特征提取方法[J].現代圖書情報技術,2014,10.

主站蜘蛛池模板: 日本人真淫视频一区二区三区| 国产一级无码不卡视频| 一本大道在线一本久道| 欧美一级黄片一区2区| 国内精品自在欧美一区| 久草中文网| 四虎影视8848永久精品| 伊人久久福利中文字幕| 午夜福利网址| 亚洲不卡网| 999精品在线视频| 国产成人精品18| 国产精品福利尤物youwu| 亚洲男人天堂网址| a网站在线观看| 国产99精品久久| 日本免费福利视频| 日韩经典精品无码一区二区| 国产成人乱码一区二区三区在线| 亚洲一区二区无码视频| 精品视频福利| 久久亚洲欧美综合| 一级毛片在线播放| 国产永久在线观看| 亚洲无码高清一区二区| 欧美午夜视频在线| 54pao国产成人免费视频| 国产亚洲精久久久久久无码AV| 91久久偷偷做嫩草影院免费看| 国产在线97| 中文字幕1区2区| 朝桐光一区二区| 亚洲无码熟妇人妻AV在线| www.日韩三级| 欧美一级在线| 亚洲第一香蕉视频| 国产精彩视频在线观看| swag国产精品| 中文字幕av一区二区三区欲色| 国产一级α片| 国产亚洲男人的天堂在线观看| 又黄又湿又爽的视频| av一区二区三区高清久久| 国内精品久久久久久久久久影视 | 国产在线日本| 国产精品va免费视频| 国模私拍一区二区三区| 精品国产福利在线| 中日韩一区二区三区中文免费视频 | 国产精品女人呻吟在线观看| 国产一级无码不卡视频| 欧美视频二区| 欧美精品v日韩精品v国产精品| 欧美在线网| 97se亚洲综合| 一区二区三区四区精品视频 | 91久久国产热精品免费| 亚洲精品高清视频| 高清无码手机在线观看| 伊人成人在线| 久久精品国产999大香线焦| 色妞永久免费视频| 日韩欧美国产三级| 亚洲精品国产成人7777| 国产一区二区三区在线观看免费| 91免费国产在线观看尤物| 成年人国产视频| 国产成熟女人性满足视频| 欧美一级高清片欧美国产欧美| 性视频久久| 狠狠躁天天躁夜夜躁婷婷| 欧美丝袜高跟鞋一区二区 | 一边摸一边做爽的视频17国产| 波多野结衣无码中文字幕在线观看一区二区| 日本在线免费网站| 亚洲精品国产精品乱码不卞| 婷婷综合在线观看丁香| 国产91丝袜| 伊人久久精品无码麻豆精品 | 亚洲成人精品久久| 福利在线不卡一区| 免费jjzz在在线播放国产|