999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本和網絡拓撲結構的用戶立場檢測算法*

2021-09-15 08:48:40尚義博劉笑影
計算機與數字工程 2021年8期
關鍵詞:特征文本用戶

方 冰 尚義博 劉笑影

(上海大學管理學院 上海 200444)

1 引言

在當今時代,社交平臺已成為用戶獲取信息和表達觀點的主要渠道。龐大的社交媒體用戶量以及頻繁的社交活動形成了大量的以博文形式存在的用戶生成內容[1]。因此,基于用戶生成內容的意見挖掘[2]已成為熱門的研究領域。用戶立場檢測作為其中一個重要的新興研究課題,指的是檢測用戶對某一特定事件是否持有立場或立場是支持還是反對[3]。

現有的用戶立場檢測工作可以分為兩類:一類是基于特征工程的機器學習立場檢測方法,通過挖掘豐富的文本語義特征結合特征融合的方法研究立場檢測問題;另一類是基于深度學習,借助CNN、RNN、LSTM等神經網絡模型來開展立場檢測工作。兩類方法均以文本作為唯一研究對象通過機器學習算法來研究立場檢測問題。忽略了除博文信息外其他對于用戶立場檢測的影響因素。為了克服這一局限性,本文提出了一種新的基于文本和網絡拓撲結構的立場檢測算法。該算法基于認知理論,認為用戶的立場是由其先驗立場和外界環境共同作用形成的,通過分析用戶文本語義特征提取先驗立場,通過分析用戶所處的社交網絡結構特征提取外界影響力強度,最后由兩者共同作用確定用戶最終立場。

2 相關工作

現有的社交網絡用戶立場檢測算法研究主要分為以下兩類:基于特征工程的立場檢測方法和基于深度學習的立場檢測方法。兩類方法均通過機器學習算法來研究立場檢測問題。

2.1 基于特征工程的立場檢測方法

最初的立場檢測通過盡可能地挖掘文本特征來開展研究工作。Pang等[4]將文本n-gram、詞性特征置于立場檢測工作中,表明一元文法特征在立場檢測中效果更佳。Xu等[5]采用了更廣泛的文本語義特征,如Para2vec,LDA,LSA,LE,LPI等研究立場檢測中特征適用度與話題相關性問題。Liu等[6]則是在探究不同特征的基礎上將特征進行了融合。Dian等[3]將主題詞和立場標簽共現關系這一特征放入立場檢測研究中,探究微博文本隱含語義問題。

2.2 基于深度學習的立場檢測方法

一般基于深度學習的立場檢測方法大多借助CNN、RNN、LSTM等神經網絡模型來開展立場檢測工作。

Lecun等[7]利用CNN構建了一個多層次的神經網絡學習算法。Wei等[8]則通過谷歌新聞訓練文本詞向量,利用CNN進行特征提取并實現分類。CNN在輸入輸出方面表現優異,但在處理連續序列的樣本時,卻很難將其劃分成獨立的單元進行訓練,所以在自然語言處理領域實際應用比較廣泛的是基于RNN模型的一個特例LSTM[9]。MITRE[10]基于深度學習使用了一種基于RNN的兩層方法進行立場檢測研究。Augenstein等[11]采用了LSTM對文本以及描述文本的主體進行綜合建模。Yu等[12]使用雙層神經網絡,在CNN下嵌套LSTM開展立場檢測工作取得不錯的分類效果。

綜上所述,基于特征工程的方法需要從復雜多變的大量信息中尋找更豐富的文本特征來提升整個實驗的表現;基于深度學習的方法通過計算機自動習得模式特征并將特征融入到模型構建中。這兩類研究都僅僅將微博文本作為唯一的研究對象,忽略了除博文信息外其他信息對于用戶立場檢測的影響。針對這個缺陷,本文提出一種基于文本分析技術和網絡拓撲結構分析技術的立場檢測算法。該算法以認知理論為出發點,在基于特征工程的立場檢測方法的基礎上加入區別于微博文本信息的新特征。這既彌補了基于特征工程方法對于特征的豐富性要求,也為深度學習的特征輸入提供了新的補充,更為重要的是為立場檢測研究提供了一個新的研究方向。

3 研究框架

人類認知理論認為[13~14]人類在生活的過程中首先會形成對于不同事物的先驗認知,繼而通過先驗認知來處理事物,當事物攜帶信息與其先驗認知產生差異時便會出現認知失衡現象,接著人類通過判斷學習形成對于該事物的新認知,如圖1所示。

圖1 人類認知過程

根據人類認知理論,本文認為用戶最終立場的形成過程為首先用戶所處的社會經濟地位決定其先驗立場,接著用戶所處的環境影響用戶的先驗立場,最后在這兩方面因素的共同作用下生成最終立場。如圖2所示。

圖2 用戶立場形成過程

因此用戶立場檢測的核心包含以下兩點:一個是確定用戶所處的社會經濟地位,二是如何有效地選取和評估外界因素。基于此,本文提出了新的立場檢測算法,如圖3所示。

圖3 研究框架

3.1 社區劃分

為了更好地研究基于社交網絡拓撲結構影響的立場檢測,我們將大型的社會網絡劃分成多個獨立的社區。本文采用最大化整個數據模塊度的社區發現算法——Louvain算法[15]。

3.2 特征提取

本文從用戶發布內容數據中提取了文本特征、從用戶社交網絡數據中提取了網絡拓撲結構特征。

3.2.1 基于用戶社交網絡拓撲結構特征

本文將社區結構特征以及用戶結構特征作為立場檢測外界影響的具體反映。

1)度中心性:一個節點的度中心性越高,其在網絡中就越重要。其計算如下:

CD(Ei)表示節點的度中心性,cij表示用戶i與用戶j的聯系。

2)中介中心性:通過一個結點與其他節點相連的最短路徑橋梁的次數來反映一個節點的重要性。其計算如下:

其中CB(Ei)表示節點的中介中心性,bij(Ei)表示用戶i與用戶j連接的最短路徑長度。

3)緊密中心性:通過計算該節點到其他節點的最短路徑和的倒數來衡量一個節點與網絡中其他節點的接近程度。其計算如下:

其中CC(Ei)表示節點的緊密中心性,p(Ei,Ej)表示節點i到節點j的最短路徑。

4)特征向量中心性:根據相鄰節點的中心性來計算該節點的中心性。其計算如下:

其中Ce(Ei)表示節點的特征向量中心性。

5)聚類分數:聚類分數越高的節點,節點間的聯系越緊密。其計算如下:

其中CC-S表示聚類分數,S UM(F)表示與該節點有聯系的所有節點數。

6)社區特征集:本文將基于社區特征的度中心勢、中介中心勢、緊密中心勢、聚類分數進行集合。其計算如下:

Cmix表示特征聚合,Cmax表示網絡的最大中心性。

7)社區歸屬指標:本文通過用戶互動數據來研究社區環境對用戶立場的影響。其表示如下:

3.2.2 基于微博語義特征

本文在先前研究的基礎上提取文本的兩類特征:

1)基于詞頻統計特征

本文選取基于Unigram的詞袋特征對微博進行詞袋化。同時采用最常見的TF-IDF算法[16]對詞袋化的向量進行加權。

2)文本潛在語義特征

(1)段落向量(para2vec)

本文利用Gensim以及原始數據集,訓練了一個100維的word2vec模型。

(2)文檔主題生成模型(LDA)

本文將主題數量設置為50,將每一篇文檔轉化成易于建模的詞頻向量。

(3)潛在語義分析(LSA)

本文首先建立Term-Document矩陣,接著對矩陣進行奇異值分解并構建潛在語義空間。

(4)文本相似性(sim)

本文將篩選后的博文分為11個主題,本文將文本相似性計算放在不同話題下。

3.2.3 分類器選擇

結合先前基于特征工程的立場檢測研究,本文采用支持向量機(SVM),邏輯回歸(LR),樸素貝葉斯(NB),Adaboost(ADA)以及隨機森林(RF)五種機器學習方法進行立場檢測實驗。

4 實驗過程與結果討論

4.1 數據收集

本文基于新浪微博的真實數據集,將社區劃分為548個社區。數據包含40個社區共20730個原創用戶,116538條原創博文以及213450個轉發用戶。基于LDA對微博原始數據集進行主題詞提取分析,一共得到11個主題共8900條微博并完成數據標注工作。

4.2 立場檢測實驗

針對立場檢測研究,本文進行了三組實驗。

實驗1:探究不同主題單體特征下文本特征與用戶社交網絡特征的優劣性。其中所有單體特征相互對照。

實驗2:在實驗1的基礎上探究文本所提出的特征的有效性。實驗2將實驗所需特征重新劃分為三部分,其中文本特征(TFIDF、Para2vec、LDA、LSA、SIM)、拓撲結構特征(度中心性、中介中心性、緊密中心性、特征向量中心性、聚類分數、社區特征集、社區歸屬)分別作為對照組,(文本+拓撲結構特征)作為實驗組。

實驗3:在實驗1,實驗2的基礎上探究本文所提出的特征的話題適應度。實驗3將特征劃分為兩部分,其中對照組包括(TFIDF、Para2vec、LDA、LSA),實驗組則包括所有的十二個特征。本文對以上所有特征依據如下公式進行特征歸一化。

4.3 分類器選擇

對于數據不均衡問題,本文采用欠采樣的方式進行處理。訓練集與測試集按4:1進行劃分。其中實驗1,實驗2采用支持向量機(SVM),樸素貝葉斯(NB),Adaboost(ADA)以及隨機森林(RF)四種機器學習方法進行分類實驗。實驗3在此基礎上增加了邏輯回歸(LR),使用五種機器學習方法進行實驗。所有實驗均采用5折交叉驗證。

4.4 評價指標

本文采用最常用的準確率、召回率和F1值作為評價標準。由于立場檢測更在乎有立場的信息。因此本文增加了支持和反對類的F1均值Favg作為綜合評價指標。

4.5 結果分析

4.5.1 探究不同主題單體特征下文本特征與用戶社交網絡特征的優劣性

本文首先研究不同主題下單一特征的分類情況。以“春晚”主題為例。基于Para2vec的分類結果更好,均值達到72.8%,分別高于TFIDF、LDA、LSA、sim,10.5%、17.2%、11.9%、8.7%。這表明基于word2vec計算的Para2vec能更好地捕捉文本語義信息。反觀拓撲結構特征在單一特征中表現不佳。這是因為在微博立場檢測中,用戶的信息特征更稀疏,在結果預測上圖4反映了基于“春晚”主題單一特征的整體情況。

圖4“春晚”主題特征的情況

4.5.2 探究拓撲結構特征的有效性

考慮到本文探究包含基于網絡拓撲結構部分,因此判斷社區指標在加入立場檢測實驗后的分類表現就變得至關重要。本文將實驗1單一特征調整為三部分特征集:文本特征集(TFIDF、LDA、LSA、Para2vec、sim)、拓撲結構特征集(度中心性、中介中心性、緊密中心性、特征向量中心性、聚類分數、社區特征集、社區歸屬)、(文本特征+拓撲結構)特征集。并將新特征組合放在十一個主題下進行立場檢測。樸素貝葉斯(NB)分類器下,十一個主題基于三個特征組的平均分別為60.45%、49.05%、70.27%。隨機森林(RF)下為62.80%、55.60%、70.00%。支持向量機(SVM)下為67.54%、62.89%、73.81%。Adaboost(ADA)下為61.40%、55.31%、71.34%。從圖5也可以看出不同主題下,基于文本+社區特征的表現最好。這表明本文加入的特征指標的有效性。圖6表明針對本文不同主題的分類實驗中支持向量機(SVM)表現更優。

圖5 多主題多分類器下特征分類情況

圖6 十一個主題下分類器表現

4.5.3 探究基于社交網絡拓撲特征立場檢測方法的話題適應度

實驗3用來探究忽略主題下的立場檢測。本文將采用上文所提出的對照組特征進行對比實驗。圖7~9呈現了實驗的實驗的準確率、召回率以及F1。數據結果表明基于五個機器學習方法的實驗組結果均優于對照組。這表明不考慮特定主題,本文指標仍能夠有效地提高立場檢測結果。

圖7 實驗3準確率

圖8 實驗3召回率

圖9 實驗3 F1

5 結語

本文基于先前立場檢測研究以及人類認知理論提出了基于文本和網絡拓撲結構的用戶立場檢測算法。首先采用Louvain算法,將用戶社交網絡劃分成獨立社區。接著本文根據真實數據集,采用LDA方法進行主題詞提取分析,確定十一個實驗主題并完成數據標注,之后本文通過三個實驗開展立場檢測研究。實驗1研究在不同主題下單一特征的分類情況,結果表明基于文本的特征優于基于拓撲結構的特征。實驗2將原始特征集分為三部分:文本特征、拓撲結構特征、(文本特征+拓撲結構)特征。結果表明基于(文本特征+拓撲結構)特征的立場分類表現最優,這表明本文所提出指標的有效性。實驗3選取基于詞頻統計的特征以及文本的潛在語義特征作為對照組特征。選取基于文本相似性指標以及基于基于用戶社交網絡的拓撲結構的特征作為實驗組結果表明本文提出的特征能有效提升立場分類結果。

本文開展的基于新浪微博的立場檢測研究,還需要借助其他數據來驗證模型的性能。此外本文采用人工標注的方法存在標注誤差。在未來的研究中,將繼續探索其他外界因素對于用戶立場的影響并挖掘更豐富的文本特征以及用戶畫像信息確定用戶先驗立場。

猜你喜歡
特征文本用戶
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 国产日韩欧美在线播放| 日本欧美中文字幕精品亚洲| 日韩人妻精品一区| 国产在线一区视频| 亚洲毛片一级带毛片基地| 中文国产成人久久精品小说| 国产欧美视频综合二区| 在线精品亚洲一区二区古装| 欧美精品啪啪一区二区三区| 亚洲午夜福利在线| 欧美视频在线第一页| 黄色网在线| 另类重口100页在线播放| 国产白浆在线| 亚洲va在线∨a天堂va欧美va| 永久毛片在线播| 超碰91免费人妻| 熟妇人妻无乱码中文字幕真矢织江| 一级毛片无毒不卡直接观看| 人妻出轨无码中文一区二区| 日韩天堂网| 999国内精品视频免费| 波多野结衣一区二区三区四区| 亚洲另类色| 啊嗯不日本网站| 久久精品国产国语对白| 99er这里只有精品| 成人午夜视频网站| 欧美精品二区| 久久99久久无码毛片一区二区| 亚洲美女一级毛片| 最新国产麻豆aⅴ精品无| 国产素人在线| 东京热一区二区三区无码视频| 波多野结衣国产精品| 国产精品hd在线播放| 九色综合伊人久久富二代| 亚洲av无码专区久久蜜芽| 91福利免费视频| 久久九九热视频| 巨熟乳波霸若妻中文观看免费| 中文字幕啪啪| 97在线视频免费观看| 亚洲成人网在线播放| 日本在线视频免费| 国产综合另类小说色区色噜噜| 久久国产精品嫖妓| 日韩在线1| 91蜜芽尤物福利在线观看| jizz国产在线| 国产成人凹凸视频在线| 天堂av高清一区二区三区| 自拍偷拍欧美| 呦女精品网站| 三级欧美在线| 久草视频精品| 成人在线不卡视频| 污视频日本| 国产在线观看精品| 日韩福利视频导航| 日本成人一区| 91九色国产porny| 中文字幕佐山爱一区二区免费| 国产美女一级毛片| 好紧太爽了视频免费无码| 亚洲第一视频网站| 午夜福利网址| 国产精品hd在线播放| 中文字幕无码制服中字| 国产一二视频| 精品久久蜜桃| 国产亚洲精品无码专| 国产精品福利尤物youwu| 亚洲精品桃花岛av在线| 国产欧美日韩在线一区| 婷婷午夜天| 亚洲午夜天堂| 一级黄色片网| www.91在线播放| 国内毛片视频| 国产91麻豆免费观看| 亚洲综合欧美在线一区在线播放|