999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于虛假評論識別的微博評論情感分析的研究與應用

2019-04-15 06:54:08羅昌銀但唐朋李艷紅陳昌昊
計算機應用與軟件 2019年4期
關鍵詞:文本情感用戶

羅昌銀 但唐朋 李艷紅 陳昌昊 王 泰,3

1(華中師范大學計算機學院 湖北 武漢 430079) 2(中南民族大學計算機科學學院 湖北 武漢 430074) 3(華中師范大學國家數字化學習工程技術研究中心 湖北 武漢 430079)

0 引 言

移動社交網絡的普及與電子商務的發展促進了互聯網用戶在線評論數量的增長,以微博為代表的評論往往會帶有用戶個人的情感傾向。通過對這些評論文本進行情感分析挖掘,可以獲得用戶對事件的看法或產品的偏好。這些信息可以應用到輿情分析、商品推薦等多個領域。面對大數據時代,如何高效、準確地得評論文本情感傾向信息顯得尤為重要。

情感分析的主要研究工作包含情感傾向性分析、語言分析、觀點提取。這些研究都依賴于準確可信的標準訓練集來訓練的分類模型。然而在現實中,人們對評論信息的依賴導致了虛假評論的產生。比如賣家店鋪發布不實評論誘導買家進行消費,在微博上發布虛假消息騙取流量等。

基于前人的研究[1]。虛假評論被分為以下兩類:

(1) 欺騙性評論。這類評論會誘導其他用戶產生錯誤判斷。如:淘寶網中賣家刻意發布的買家好評就屬于欺騙性評論。

(2) 破壞性評論。這一類評論主要分為以下三個子類別:① 廣告性評論;② 與當前主題的無關評論;③ 不包含任意觀點、內容、難以分辨情感的隨機文本。

人們能夠有效地識別破壞性評論,因為此類評論與整體評論關聯性低。而第一類欺騙性評論由于其與整體評論高度關聯且具有隱藏性與多樣性等特點,所以難以識別。虛假評論的存在會降低傳統情感分析模型的準確度,如何有效識別評論中的虛假評論并對其進行剔除,從而提高情感分析的準確度成為亟待解決的問題。

PU學習算法是一種半監督二元分類模型。不同于傳統的半監督分類模型,PU算法只需要依賴少量標注的正向樣本和大量未標注樣本即可完成訓練。當負向樣本難以通過先驗知識獲得時可以采用PU算法。PU算法可以幫助我們進行虛假評論識別,也有部分學者將PU算法應用于虛假評論識別的研究當中,但這些研究并沒有考慮到用戶與文本之間的特征。本文通過研究用戶狀態指標和行為指標特征設計有效的策略來確定樣例中的類別標簽,提高算法識別的準確度。

本文基于用戶的狀態指標和行為指標設計用戶評論可信度特征提取模型,并結合PU學習算法完成虛假評論識別。待去除虛假評論之后,再利用隨機梯度下降的邏輯回歸模型完成情感分析任務。本文的主要創新如下:

(1) 分析了用戶的狀態與行為指標,并將其與PU學習算法相結合提高了虛假評論的識別性能。傳統基于PU學習算法的虛假評論識別研究通過聚類方式獲得間諜樣例中的相關性,而本文從用戶狀態和行為獲取虛假評論的特征能夠從根源體現間諜樣例的相關性。

(2) 傳統研究路線沒有考慮訓練集與測試集中的虛假評論,從而導致情感分析的準確度難以提高。本文提出先進行虛假評論識別再進行情感分析的研究方法,能夠顯著提高整體情感分析的準確度。

1 相關研究工作

1.1 情感分析

文本情感分析是人工智能領域關注的重點,目前國內外有不少學者取得了一定的研究成果。

Kasabov等[2]將密度估計與邏輯回歸相結合,解決了邏輯回歸方法中存在的非線性問題。Kamps等[3]基于WordNet的同義結構利用其提供的詞語相似度計算方法來計算文本中詞語間的情感極性,再通過與之前所確定的情感強烈詞進行對比來獲得目標詞的褒貶。其優點是通過詞的劃分有效提取了語句中的特征信息,但其只考慮詞語間的同義關系。

Graber等[4]從卡方統計量出發,結合詞頻、詞集中程度、詞分散程度來解決傳統研究方法中特征項指定類出現頻率低的問題。但這類方法并沒有考慮到虛假評論的存在。梁軍等[5]探討了深度學習來完成中文短文本的情感分析可行性。他們不使用任何人工標注的情感詞典與句法分析,僅僅將句子中詞語的標簽關聯性引入情感極性轉移模型,最終獲得了不錯的情感分析準確度。

上述研究方法從文本特征構建的角度來提高分析結果的準確度,但評論集中包含著虛假評論。如果不將其去除則會影響整個分類器的效能,所以對訓練集和測試集中的虛假評論進行識別、去除顯得尤為重要。

1.2 虛假評論識別

虛假評論識別研究開始于評論文本的虛假性檢測研究,其核心難點是如何統合文本、用戶間的相互關系來提高識別的準確度。自2008年Jindal等[6]首次提出虛假評論識別問題以來,已經有不少學者在此方向上進行研究。

Li等[7]從評論文本的語法層面發現,真實評論對比虛假評論在詞性特征上包含更多的名詞、形容詞、介詞、限定詞和連詞。相反虛假評論含有更多的動詞、副詞。但這種識別方式難以識別專家刻意編寫的虛假評論。

Lau等[8]則認為虛假評論中存在互相拷貝的現象,通過語義相似度的判斷能夠進行虛假評論識別。文獻[9-10]基于PU學習算法提出了新的學習模型,并在此基礎下訓練樸素貝葉斯分類器,獲得了較好的結果。為了提高虛假評論的識別率,文獻[11-12]運用元數據特征進行分析且獲得了成效。

文獻[13]利用網絡爬蟲技術從互聯網中獲取關于產品的評論數據,并進行手工標注。再利用半監督算法來進行虛假評論識別研究。Ott等[14]的研究已經說明:人本身難以利用自身的先驗知識來對虛假評論進行判斷,這導致手工標記的訓練集會出現大量錯誤從而影響識別的效果。所以手工標記方法并不適用于虛假評論檢測研究。

通過相關研究,我們發現只依賴少量標注樣本的PU學習算法適合作為我們的核心算法。下面將詳細說明用戶的狀態指標和行為指標可信度評價體系的構建過程,并設計PU算法來完成虛假評論識別。待虛假評論從訓練集中剔除后,利用邏輯回歸模型進行微博評論的情感分析任務。

2 用戶評論可信度評價體系

在文獻[15-16]的基礎上,本文通過對微博平臺進行分析,從用戶的狀態指標和行為兩個方面提出能夠判斷在線評論可信性的6個指標屬性,這些指標能夠反映微博評論的特征。用戶評論可信度指標概念如圖1所示。

圖1 用戶評論可信度指標

微博用戶的狀態指標主要通過該微博賬號的資料以及用戶評論本身來反映。正常的微博用戶會與其他用戶產生互動,用戶關注數和粉絲數結合單位時間瀏覽數和點贊數能判斷該用戶賬號是否可信。所以當計算結果小于設定的閾值就可以確定該用戶評論沒有可信度或者為機器用戶。用戶可信度CL(credility level)是對用戶資料、用戶狀態進行衡量的方法,評論的時效性TE(time effect)反映的是用戶評論在發布時間上的跨度,跨度越小時效性越高。文本長度WS(words size)亦體現評論可信度,當非機器用戶進行操作時往往發布較多的內容,這是因為真實用戶往往需要更多語言來描述自己的情感。

對于行為指標,尤其是對評論用戶而言,注冊賬號的時間間隔RT(register times)是用戶注冊賬號行為異常的衡量標準。對所獲取的數據進行分析表明,正常用戶和虛假用戶在注冊賬號的時間間隔上存在明顯差異。正常用戶注冊賬號的數量在一個范圍以內,而虛假的機器用戶往往會大于閾值。評論的內容也應被我們關注,虛假評論的一個明顯特點是在同一用戶下或是不同用戶間會出現大量相似的評論,這時計算用戶評論內容的相似度RCS(review content similarity)便能判斷該用戶是否可信。而文本中不同情感詞能夠表達文本本身的情感的顯性程度ES(emotion strength)。文本的強烈情感強度越大表明是虛假假評論的可能性就越小。

2.1 用戶的狀態指標

1) 用戶的狀態指標,用戶可信度(CL)為:

(1)

(2)

(3)

式中:fsn(u)和fgn(u)分別表示用戶粉絲數和用戶關注數;Report(P)表示單位時間內的點贊數和瀏覽數之比;fyn(u)表示fsn(u)和fgn(u)的加權平均數。

2) 用戶評論時效性(TE)為:

(4)

為了避免twrite與tread差距過大導致算式失真,使用參數σ來約束Te的范圍。同時本文認為最大發布閱讀間隔時間為一個季度(90天),超過90天將按90天計算;twrite指評論發布日期,tread指評論經過閱讀的日期。σ在本文中取10。

3) 用戶評論文本長度(WS)為:

(5)

根據微博評論長度作為特征進行賦權處理,其中n代表評論文本的實際長度;k表示文本長度在1至120以內文本的特征權值,且k的取值是1至8以內的整數,k將按線性關系進行取值。

2.2 用戶的行為指標

1) 用戶注冊賬號的時間間隔(RT)為:

(6)

式中:avg(|ti|)表示一個用戶多個賬號注冊的平均時間間隔,μi是正常時注冊多個賬號的間隔閾值。

2) 用戶評論內容相似度RCS(review content similarity)為:

(7)

式(7)采用余弦相似度算法來進行計算。其中,rmip和rmiq分別代表該微博話題下的第p條評論和第q條評論;avg(simu(rmip,rmiq))表示每個用戶所發表的評論相似度的均值。如果當前用戶只發表了一條評論,那么該值為0。

3) 情感表達強度(ES)。情感表達強度利用用戶評論中的情感詞來反映用戶的可信程度。本文利用知網公開的HowNet情感詞典[17]并依據匹配原則進行情感強度詞部分的構建。如表1所示,將以情感詞數量為衡量標準并結合特殊關鍵字、網絡顏文字、特殊句式量化情感強度。

表1 部分情感表達強度詞

情感表達強度越強說明該評論越能夠表達用戶的心理狀態從而說明該用戶非機器用戶,該評論非虛假評論。情感表達強度的度量公式為:

N=w1×n1+w2×n2+w3×n3

(8)

式中:w1表示情感詞的權重;n1代表情感詞的數量。同理w2、w3代表關鍵詞、顏文字、特殊句式等特殊屬性的權重;n2代表它們的數量;N表示情感表達強度。

2.3 虛假評論識別

將用戶的狀態指標和行為指標同PU學習算法相結合能夠提升虛假評論識別的準確度,本節將詳細介紹基于PU學習算法所設計的虛假評論識別算法。

2.3.1 相關符號定義

本文將真實評論所構成的正向集合命名為P。相對應的虛假評論所在的集合為負向集合,其中可靠的負向集合定義為RN。未標記的評論集合定義為U,間諜集合定義為US。PU學習算法的算法框架如下:

① 按照所標記的P和未標記的U計算可信負向文本RN;

② 計算集合中的代表性樣例;

③ 確定不同間諜樣例的類別標簽;

④ 基于有偏SVM算法建立最終分類器。

因為數據集中只包含正向集合和未標記集合,PU算法需要對集合中潛在的負向例子進行可信抽取。通常使用Roc-SVM方法來完成可信負例的抽取。抽取完成后可信負向文本將保存在RN中。算法的后續工作主要是計算代表性樣例和間諜樣例的類別標簽。

2.3.2 計算代表性樣例

PU算法分類器的性能與間諜樣例US密切相關。為了確定間諜樣例的標簽,我們要首先計算正向集合和負向集合中的代表性樣例。從現實角度出發,正向集合和負向集合彼此間都應該有潛在的相似關系,且同類型的評論應該含有相似的特征。所以將分別計算2個類別中多個代表性樣例。本文先利用用戶可信度評價模型對不同評論文本進行分類,再在此基礎上采用傳統的Rocchio分類器進行分類,最后輸出正向和負向的5個代表樣例。如算法1所示。

算法1計算代表性樣例

輸入:P和RN

輸出:pk和nk,k=1,2,…,10

① 基于用戶可信度評價體系將RN劃分為5個子類;

② 利用反向文檔評率公式tf×idf將P和RN中所有的樣例向量化;

③ for k=1,k<=5,k++,do;

④ 通過式(9)算pk;

⑤ 通過式(10)計算nk;

⑥ end for

(9)

(10)

2.3.3 子類標簽判別

相同子類中的樣例有更高概率屬于同樣的類別,根據這個思路本文設計了子類的標簽判別算法。首先計算各個樣例中相似度的平均值,再利用少數服從多數的投票法則決定整個類別標簽。如算法2所示。

算法2子類相似度判別

輸入:US

輸出:LPi,LNi,i=1,2,…,m

①LPi=?,LNi=?,P_flag=0,N_flag=0;

② forUS中每一個例子tdo

④ then P_flag++;else N_flag++;

⑤ end if

⑥ end for

⑦ if P_flag > N_flag

⑧ thenLPi=LNi∪US;

⑨ elseLNi=LNi∪US;

⑩ end if

3 情感分析

情感分析依賴機器學習算法,本文進行情感分析分為兩個步驟:(1)對待測數據進行主觀句分類;(2)對主觀句進行積極、消極二分類。

3.1 基于SVM模型確定主觀句

SVM分類器[18]會將評論文本的待處理數據表示為空間中的向量xi。通過在這個空間中創建一個超平面來達到將不同向量分類的目的,超平面的法向量表示為w。yi表示對應數據xi的類別且yi∈{-1,1}。下面分別給出其目標函數和對應最優解。

目標函數:

(11)

最優解:

(12)

式中:αi表示拉格朗日算子,大于0的拉格朗日算子被稱為支持向量,其余的拉格朗日算子等于0。SVM分類器根據計算待測數據并以超平面為界劃分類別。

在研究過程中,使用LIBLINEAR工具包對數據集進行觀點句和非觀點句分類,應用線性核函數,并在BOW模型下利用:

(1) bigram的TF-IDF[19]特征集合,選擇這種特征集合可以降低由于分詞不當帶來的誤差并結合互信息公式進行特征選擇從而實現降維的目的。

互信息公式:

(13)

式中:p(x)表示詞x在訓練數據中出現的概率;p(y)表示屬于y類別的句子概率。

(2) unigram的TF-IDF值:

(14)

式中:dft為包含此單詞的句子數;N為句子總數。所得到的特征向量每一維代表該單詞的w值。

通過上述操作可以得到如表2所示的主觀句識別判斷集。

表2 主觀句判斷特征集

3.2 利用邏輯回歸實現文本情感分析

針對各個分類算法的特點,本文將采用SVM分類獲得主觀句,再利用邏輯回歸進行情感分類。

3.2.1 預測函數

使用邏輯回歸進行分類必須要找到相對應的預測函數,預測函數用以輸入數據結果。設存在待分類集合A={p1,p2,…,pn},對應的類別集合label={y1,y2}。情感分析的結果只存在積極或者消極2種情況。所以對于線性邊界:z=θTx,當z>0時,該判別對象是正類,反之即為負類。像這樣的0、1分類問題滿足Sigmoid函數在0、1兩個點之間的跳躍,Sigmoid函數如下:

(15)

由線性邊界和Sigmoid函數構造預測函數:

(16)

式中:θ表示回歸函數的回歸系數,且函數hθ(x)表示結果為1的概率。所以可以得到相對于輸入x所預測的0、1類別的概率:

p(y=1|x;θ)=hθ(x)

(17)

p(y=0|x;θ)=1-hθ(x)

(18)

3.2.2 建立損失函數

首先將式(17)-式(18)合并得到關于每個樣本(x,y)的統合概率公式:

p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y

(19)

統合概率公式能反映每個樣本的輸入輸出結果,而損失函數用于預測輸出和類別之間的偏差。所以在假設各個樣本之間相互獨立的情況下,整個樣本生成的概率是所有樣本概率的乘積,且形式如下:

(20)

式中:x表示每一個樣本;m表示所擁有的的樣本數量;θ未知,且是該函數的自變量。該函數能夠說明不同參數θ下所取得當前的樣本的可能性,稱參數θ相當于樣本集x的似然函數。取對數似然函數為:

(1-yi)lg(1-hθ(xi)))

(21)

由式 (21)可以看出,當l(θ)最大時可以獲得最佳參數θ,在此為了簡便運算設存在函數J(θ):

(22)

此時當J(θ)最小時可以求得最佳參數θ。為了求解最佳參數J(θ),采用隨機梯度下降算法來解決問題。在隨機梯度下降中對θ求偏導可以得到的如下更新公式:

(23)

本文的技術路線如圖2所示。

圖2 技術路線圖

4 實驗及結果分析

實驗采用的數據來自兩個方面:一是來源自中國計算機學會提供的微博樣例數據,二是利用網絡爬蟲獲取微博熱搜評論數據。評論均與社會熱點事件新聞有關,包括“官宣”婚禮、“中美貿易摩擦”、“紅黃藍幼兒園”事件等用戶寬泛參與討論的事件,具有一定代表性。實驗從中選擇2萬條評論信息并進一步獲取各項特征。采用人工標注數據集來構建訓練集,為了避免人工個體造成的偏差,由兩人獨立標記,若結果不同再由第三人仲裁。

4.1 實驗環境說明

本文的實驗環境為:CPU:Intel Core i7 6700, 內存:DDR4 8 GB,硬盤:固態硬盤120 GB,操作系統:Windows 7,開發環境:Python 3.4.4,sklearn機器學習庫,MATLAB R2014a。為了提高實驗的精度,采用交叉驗證的方式進行實驗。

4.2 實驗步驟

1) 對數據進行預處理,提取相應特征,合并不同文檔的文字信息,做好標記。文本使用“jieba”庫對評論進行分詞。

2) 對合并好的文本信息進行“去停用詞”處理。

3) 利用虛假評論識別體系進行特征提取,并按照層次模型獲得經過賦權的6維特征向量。同時確定特征項相關系數。

4) 應用層次分析法對6維特征向量進行賦權操作。

5) 采用詞袋空間模型(BOW Model)將文本信息轉換為空間向量。

6) 利用PU學習算法進行虛假評論識別,將相應虛假評論剔除出測試集。

7) 利用SVM分類進行主觀句進行分類,在此基礎上運用隨機梯度下降的邏輯回歸分別對已剔除虛假評論的測試集與未剔除虛假評論的測試集進行情感分析對比。

4.3 結果分析

通過用戶的注冊時間間隔(RT),如圖3所示,我們可以發現,微博用戶的注冊時間間隔有明顯的差異,在絕大部分用戶注冊的間隔時間大于40天,小于16天或者小于8天的頻率分別是4.56%和3.31%??紤]到可能有部分用戶存在遺忘老用戶信息而注冊新賬號的情況,取用戶的平均注冊時間閾值μi為8。圖4表示用戶評論相似度的分布情況。

圖3 用戶注冊時間間隔

圖4 用戶評論相似度

表3是本文虛假評論識別的準確率與其他研究實驗結果[20]的對比。對比傳統虛假評論識別方法,結合用戶狀態和行為的識別體系具有更好的識別效果。這說明本文所構建的識別方法要優于傳統研究,可以實際應用于虛假評論的識別過程。

表3 虛假評論識別的準確度比較

圖5-圖7是表4、表5的直觀體現,表示不同維度下評價的各項指標。從圖中能夠直觀地看出去除虛假評論對準確度、F值有明顯的提升。在維度較低的情況下不進行虛假評論識別的召回率要高于進行識別,這可能是由于維度較低導致被錯誤標記為負例的測試樣本增加。

圖5 各維度下情感分析的準確度

圖6 各維度下情感分析的召回率

圖7 各維度下情感分析的F值

表4 進行虛假評論識別的情感分析的結果

表5 未進行虛假評論識別的情感分析的結果

5 結 語

本文基于用戶狀態和行為提出一種虛假評論特征提取方法,并結合PU學習算法完成微博評論集中的虛假評論識別工作。在去除所收集評論中的虛假評論后,運用SVM分類器和邏輯回歸模型分別進行主觀句分類與情感分析。實驗結果分為虛假評論識別結果和情感分析兩個部分。從虛假評論識別的結果來看,采用狀態行為特征所得到的準確率要明顯優于其他方法,表明該方法能夠更好地捕獲虛假評論的特征。從情感分析方面可以看出,去除評論集中的虛假評論后,結果的準確率、召回率均有較大提升,表明本文提出的方法切實有效,滿足了應用的要求。但是通過實驗也可以看出,我們只是將虛假評論進行剔除并沒有挖掘出虛假評論和正常評論間的關系。

下一步我們將探索虛假評論對正常評論的欺騙作用,考慮其中的潛在聯系進一步提升整體方法的準確率,提升本文提出模型的效能。

猜你喜歡
文本情感用戶
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 青青久在线视频免费观看| 国产无码精品在线| 国产资源免费观看| 91探花在线观看国产最新| 激情爆乳一区二区| 国产在线精品人成导航| 国产丝袜无码精品| 麻豆精选在线| 波多野结衣久久高清免费| lhav亚洲精品| 精品国产香蕉在线播出| 美女无遮挡免费视频网站| 国产精品视屏| 黄色网址手机国内免费在线观看| 国产成人超碰无码| 亚洲一区二区约美女探花| 最新国产高清在线| 亚洲日本一本dvd高清| 国产精品区网红主播在线观看| 一本大道视频精品人妻| 色悠久久久久久久综合网伊人| 国产在线自乱拍播放| 亚洲成人播放| 99er精品视频| 五月婷婷亚洲综合| 亚洲av无码牛牛影视在线二区| 天天综合亚洲| 日本一区中文字幕最新在线| 亚洲日本中文综合在线| 久久久精品国产SM调教网站| 成年av福利永久免费观看| 一级香蕉视频在线观看| 久久久久亚洲Av片无码观看| 少妇精品久久久一区二区三区| 亚洲水蜜桃久久综合网站| 99中文字幕亚洲一区二区| 国产精品漂亮美女在线观看| 毛片手机在线看| a天堂视频| 无码'专区第一页| 精品三级网站| 欧美全免费aaaaaa特黄在线| 经典三级久久| 国产精品极品美女自在线| 欧美日韩在线成人| 欧美五月婷婷| 国产精品一区二区在线播放| 国产成人免费手机在线观看视频 | 久久精品一卡日本电影| 国产乱子伦视频三区| 国产精品伦视频观看免费| 日韩av高清无码一区二区三区| jizz亚洲高清在线观看| 91网址在线播放| 国产欧美综合在线观看第七页| 99热精品久久| 国产一级妓女av网站| 免费观看三级毛片| 国产亚洲精品资源在线26u| 亚洲综合一区国产精品| 中文纯内无码H| 午夜不卡福利| 日韩天堂在线观看| 国产精品人人做人人爽人人添| 成人蜜桃网| 波多野结衣无码中文字幕在线观看一区二区| 992Tv视频国产精品| 国产爽爽视频| 这里只有精品免费视频| 99999久久久久久亚洲| 国产真实乱子伦视频播放| 国产激情第一页| 在线看片免费人成视久网下载| 男人的天堂久久精品激情| hezyo加勒比一区二区三区| 国产国语一级毛片| 久久夜色精品| 亚洲伊人电影| 中文字幕第4页| 婷婷亚洲天堂| 色综合久久88色综合天天提莫| 最新无码专区超级碰碰碰|