999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感分析的社交網(wǎng)絡(luò)意見(jiàn)領(lǐng)袖的識(shí)別:以情感分類為手段

2017-11-24 05:39:52蔣瀾,林娜娜,劉陽(yáng),史雪琪,陸詩(shī)慧
教育教學(xué)論壇 2017年47期

蔣瀾,林娜娜,劉陽(yáng),史雪琪,陸詩(shī)慧

摘要:在社交網(wǎng)絡(luò)中進(jìn)行意見(jiàn)領(lǐng)袖的挖掘?qū)π畔鞑ヅc演化的深度分析、輿情監(jiān)控和引導(dǎo)具有重要意義。結(jié)合情感分析,挖掘在專業(yè)知識(shí)領(lǐng)域受到大眾支持的正面意見(jiàn)領(lǐng)袖是本項(xiàng)目研究重點(diǎn)。實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),Leader-PageRank算法能夠結(jié)合社交網(wǎng)絡(luò)的用戶交互,更有效客觀地識(shí)別在專業(yè)領(lǐng)域中的正面意見(jiàn)領(lǐng)袖。

關(guān)鍵詞:社交網(wǎng)絡(luò);意見(jiàn)領(lǐng)袖;情感分析

中圖分類號(hào):G640 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)47-0043-02

近年來(lái),隨著微博、微信等社交媒體的興起,社交網(wǎng)絡(luò)的規(guī)模與影響力不斷地?cái)U(kuò)大,產(chǎn)生了一批具有社會(huì)輿論號(hào)召力的大V,這些能夠引導(dǎo)社會(huì)輿論趨勢(shì),傳播公共信息,推薦商業(yè)產(chǎn)品的網(wǎng)絡(luò)節(jié)點(diǎn)被稱為意見(jiàn)領(lǐng)袖。而情感分析能夠判別社交網(wǎng)絡(luò)用戶間的情感傾向,作為意見(jiàn)領(lǐng)袖的一種挖掘方法,具有一定的科學(xué)依據(jù)。本文將結(jié)合情感分析,探討在專業(yè)領(lǐng)域中具有正面影響力的意見(jiàn)領(lǐng)袖。

一、基于情感分析的意見(jiàn)領(lǐng)袖識(shí)別

基于情感分析的意見(jiàn)領(lǐng)袖的識(shí)別方法研究框架分5步:(1)數(shù)據(jù)收集;(2)文本預(yù)處理;(3)主題帖與評(píng)論特征提取;(4)主題帖分類與情感計(jì)算;(5)構(gòu)建關(guān)注情感綜合矩陣;(6)利用Leader-PageRank算法,計(jì)算意見(jiàn)領(lǐng)袖值。

二、主題帖分類

本文研究的社交網(wǎng)絡(luò)主體是垂直類社交網(wǎng)絡(luò)汽車論壇,關(guān)注汽車知識(shí)類主題帖,如汽車信息、汽車維修等。我們采用LDA主題模型對(duì)主題帖名進(jìn)行分類,它能擴(kuò)展短文本的特征項(xiàng),在一定程度上解決短文本的特征稀疏問(wèn)題。LDA模型的基本思路是:挑選主題帖的有效內(nèi)容作為長(zhǎng)文檔來(lái)訓(xùn)練LDA主題模型,得到隱含主題詞的概率分布;將主題帖名帶入到隱含主題模型中,得到主題詞,增加到主題帖名的特征向量;將特征向量帶入SVM算法分類器進(jìn)行分類,提取汽車相關(guān)的主題帖。

三、文本情感極性分類

1.文本分類研究。文本的情感極性分析是對(duì)帶有主觀情感的文本進(jìn)行語(yǔ)義分析,將文本分為正面、中立、負(fù)面三個(gè)類型。評(píng)論文本中帶有的情感傾向能反映用戶對(duì)主題帖和作者所帶有的情感。但基于情感詞語(yǔ)語(yǔ)義分析的方法需要借助情感詞典,維護(hù)成本較高,不適合在研究中使用。因而,本文采用基于統(tǒng)計(jì)自然語(yǔ)言的方法對(duì)文本評(píng)論進(jìn)行分析。常用的統(tǒng)計(jì)自然語(yǔ)言方法的情感分類器有:支持向量機(jī)(SVM)、樸素貝葉斯(NB)、最大熵(ME)等。本文采用支持SVM作為文本情感分類器。

2.文本特征提取。在主題帖中,評(píng)論多為正面或中立,負(fù)面評(píng)論少容易導(dǎo)致統(tǒng)計(jì)結(jié)果的不準(zhǔn)確。本文在基于統(tǒng)計(jì)自然語(yǔ)言的方法上,針對(duì)實(shí)際不均衡分類方法提出了改進(jìn)的統(tǒng)計(jì)量法。統(tǒng)計(jì)量法假定特征項(xiàng)t與文檔類別c之間符合具有一階自由度的卡方分布。而針對(duì)不均衡集的改進(jìn)CHI特征方法中t對(duì)于c的CHI統(tǒng)計(jì)值的公式(1)如下所示:

(1)

N為訓(xùn)練所用樣本集中所有的文檔總數(shù);A為屬于c類且包含特征t的文檔數(shù);B為不屬于c類但包含特征t的文檔數(shù);C為屬于c類但不包含特征t的文檔數(shù);D為不屬于c類也不包含特征t的文檔數(shù);α為面向小樣本類特征項(xiàng)的選擇傾向因子;M為所有的樣本類別總數(shù);mt為特征t在訓(xùn)練集中所出現(xiàn)過(guò)的類別數(shù)目。此方法能剔除“負(fù)相關(guān)”特征項(xiàng)的影響,保留小類特征項(xiàng)并加入識(shí)別因子,提高比重少但對(duì)分類貢獻(xiàn)較大的特征項(xiàng)權(quán)重。

3.文本分類器算法。支持向量機(jī)(SVM)算法是基于統(tǒng)計(jì)學(xué)原理的一種機(jī)器學(xué)習(xí)算法,通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化的一種分類算法。支持向量機(jī)為二元分類算法,設(shè)線性樣本集T={(x1,y1),……(xi,yi)}∈(X×Y)i,其中xk∈X∈Rn,yk∈Y={-1,1},n維空間中線性判別函數(shù)的一般形式為g(x)=(w.x)+b。如果分類面對(duì)所有樣本進(jìn)行了正確分類,那么應(yīng)滿足約束條件yk(w.x+b)+b-1≥0,k=1,……,i最優(yōu)分類面應(yīng)使兩類樣本決策面的最小距離■最大,在約束條件下最小化Φ(w),即■w.w。再采用lagrange乘子法可以算出原問(wèn)題優(yōu)化問(wèn)題的對(duì)偶形式,約束條件為:

■a■y■=0,a■≥0,k=1……,i(6)

然后對(duì)lagrange函數(shù)的系數(shù)αk進(jìn)行求解下列函數(shù)的最大值

?專(a)=■?墜■-■■■ykyj?墜■?墜j(xkxj)(7)

這是二次函數(shù)最優(yōu)解的問(wèn)題。若?墜k*為最優(yōu)解,則

W*=■yk?墜■*x■(8)

其中等式必須滿足?墜■(yk(w.xk+b)-1)=0 k=1,…i,求解上述問(wèn)題后得到最優(yōu)分類函數(shù)為

f(x)=sgn■w*.x*+b*=sgn■ykak(xk·x)+b(9)

4.Leader-PageRank算法。傳統(tǒng)PageRank可用于社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力的計(jì)算,但忽略了用戶間的互動(dòng)情況。Leader-PageRank算法考慮了社交網(wǎng)絡(luò)中用戶評(píng)論關(guān)注情況,增加了用戶間的情感屬性。邊權(quán)重公式如下(2):Wij=■+F■(2)

Wij為節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i的綜合權(quán)重;■e■為節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i所有回帖評(píng)論的情感傾向綜合,單條正面評(píng)論取值1,中立評(píng)論取值0.5,負(fù)面評(píng)論取值為-2;nij代表節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i所有評(píng)論交互次數(shù);Fij為節(jié)點(diǎn)j是否關(guān)注節(jié)點(diǎn)i。Wij的取值范圍為[2,-2],概括了社交網(wǎng)絡(luò)中用戶之間的關(guān)系。將Wij代入到Leader-PageRank的公式中,具體計(jì)算如公式(3)所示。

LPR(i)=■+d■j∈R(i)LPR(j)■(3)

LPR(i)是節(jié)點(diǎn)i的Leader-PageRank值;d為阻尼因子0.85;N為總數(shù);R(i)為指向節(jié)點(diǎn)i的所有集合;

■|W■|為節(jié)點(diǎn)j鏈接出去的邊的所有權(quán)重絕對(duì)值總和。對(duì)Leader-PageRank多次迭代,得到基于用戶關(guān)注與互動(dòng)情況的社交網(wǎng)絡(luò)正面意見(jiàn)領(lǐng)袖排名。

四、實(shí)驗(yàn)與分析

我們?cè)谄囍揖W(wǎng)上論壇中選取了100名用戶,并且基于上述主題帖分類和情感分類的結(jié)果,我們共提取汽車相關(guān)的主題帖314條,共提取這些主題帖下的互動(dòng)評(píng)論9346條,抽取樣本評(píng)論3216條,其中負(fù)面回復(fù)數(shù)為小類別集,占樣本集的7.11%。利用Leader-PageRank算法算出他們的意見(jiàn)領(lǐng)袖值。

通過(guò)對(duì)比Pagerank算法的值,我們可以分析出結(jié)合情感分析的Leader-Pagerank算法的客觀性。如用戶N054,它在Pagerank算法中的意見(jiàn)領(lǐng)袖值排名第十,但在Leader-Pagerank中意見(jiàn)領(lǐng)袖排名躍居第一,說(shuō)明該意見(jiàn)領(lǐng)袖雖然在社交網(wǎng)絡(luò)結(jié)構(gòu)中的影響力不大,但它發(fā)表了許多專業(yè)性的主題帖且收獲了許多的正面評(píng)價(jià),因此意見(jiàn)領(lǐng)袖值發(fā)生了巨大的變化。

本文基于情感分析特征對(duì)社交網(wǎng)絡(luò)中意見(jiàn)領(lǐng)袖的識(shí)別的問(wèn)題進(jìn)行研究。該算法不僅充分考慮了用戶的顯性能力:信息傳播過(guò)程中的活躍度,更加注重對(duì)用戶在信息傳播過(guò)程中信息質(zhì)量、效果及評(píng)論人的認(rèn)可度等隱性能力的綜合考量。然而本文仍然存在一些不足,如搜集的數(shù)據(jù)比較少,不能更加準(zhǔn)確地比較情感分析的優(yōu)勢(shì)。

參考文獻(xiàn):

[1]鈕亮.基于粗糙集_AHM的新浪微博意見(jiàn)領(lǐng)袖挖掘[M].電子科技大學(xué)學(xué)報(bào),2016,(1).

[2]肖宇,許煒,夏霖.一種基于情感傾向分析的網(wǎng)絡(luò)團(tuán)體意見(jiàn)領(lǐng)袖識(shí)別算法[J].計(jì)算機(jī)科學(xué),2012,39(2):34-37.

主站蜘蛛池模板: 色婷婷电影网| 亚洲欧洲综合| 99国产在线视频| 亚洲午夜片| 亚洲人成网18禁| 小13箩利洗澡无码视频免费网站| 国产办公室秘书无码精品| 亚洲av日韩综合一区尤物| 秋霞一区二区三区| 亚洲成aⅴ人片在线影院八| 一级毛片中文字幕| 999在线免费视频| 国产综合在线观看视频| 成人免费黄色小视频| 亚洲综合久久成人AV| 玩两个丰满老熟女久久网| 国产剧情伊人| 91精品啪在线观看国产60岁 | 中文字幕1区2区| 久久久久久久久久国产精品| 欧美人与牲动交a欧美精品| 四虎成人精品| 国产免费久久精品99re不卡 | 99热这里只有精品5| 97视频在线精品国自产拍| 国内a级毛片| 制服丝袜一区| 在线国产毛片手机小视频| 九九精品在线观看| 久久青草精品一区二区三区| 免费无遮挡AV| 国产成人久视频免费 | 国产爽爽视频| 国产高清自拍视频| 欧美在线视频不卡第一页| 亚洲色图另类| 国产麻豆aⅴ精品无码| 小蝌蚪亚洲精品国产| 婷婷伊人久久| AV不卡在线永久免费观看| 久久香蕉国产线| 久久国产成人精品国产成人亚洲| 99精品热视频这里只有精品7| 伊人色天堂| 九色最新网址| 在线看片免费人成视久网下载| 久久久亚洲色| 国产欧美视频在线| 美女无遮挡拍拍拍免费视频| 无码日韩人妻精品久久蜜桃| 日本a∨在线观看| 久久精品国产免费观看频道 | 中文字幕乱妇无码AV在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 在线播放国产一区| 992tv国产人成在线观看| 国产毛片久久国产| 国产精品va| 精品久久久久久成人AV| 无码福利日韩神码福利片| 91福利免费视频| 秘书高跟黑色丝袜国产91在线| 色综合五月| 国产幂在线无码精品| 东京热av无码电影一区二区| 久热这里只有精品6| 欧美不卡视频在线| 亚洲综合婷婷激情| 美女国产在线| 日韩人妻少妇一区二区| 欧美h在线观看| 日韩精品成人在线| 狠狠躁天天躁夜夜躁婷婷| 国产成人艳妇AA视频在线| 中文无码毛片又爽又刺激| 欧美在线三级| 欧美色伊人| 日本国产在线| 精品视频在线观看你懂的一区| 三上悠亚一区二区| 国禁国产you女视频网站| 欧美色99|