999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用情緒向量的相似性預測新聞點擊量

2022-01-07 01:23:08畢陽陽
軟件導刊 2021年12期
關鍵詞:情緒文本情感

艾 均,畢陽陽,蘇 湛

(上海理工大學光電信息與計算機工程學院,上海 200093)

0 引言

隨著移動互聯網的發展,智能終端已經普及,中國網民規模達8.54 億,網民使用手機上網的比例達99.1%[1],互聯網成為大眾獲取信息的重要渠道。自媒體等新興形式使普通公眾關注及參與公共事務,對政府動態、國際關系的關注遠遠高于傳統媒體時代。普通民眾參與度提高,而網絡信息良莠不齊,不法分子利用網絡輿情夸大新聞事實,使用夸張的表達吸引讀者,謀取自身特殊利益。因此,把握網絡輿情、理解用戶群體偏好,預測用戶群體對新聞可能出現的關注度,具有重要的理論及現實意義。

目前對互聯網新聞的熱度預測主要集中在兩個方面[2]:①跟蹤研究新聞在互聯網的早期傳播,以及用戶點贊和評論等行為,預測其未來流行度;如文獻[3]研究Twitter新聞傳播,提出了基于新聞傳播過程的新聞流行度預測模型;文獻[4]則通過對評論數、用戶數量、投票得分和爭議程度等挖掘預測新聞受歡迎程度。新聞在發布后預測效果會更好,但具有一定的時間滯后性,需要對研究主體跟蹤觀測;②不使用早期的流行度或普及度指標,僅考慮文本本身的特征,如文獻[5]考慮新聞來源、新聞類別、文本語言的主觀性、文本提到的實體等特征用于新聞報道傳播預測;文獻[6]則通過關鍵字、發布日期和數據渠道提取特征用于流行度預測;文獻[7]提出一個命名實體主題模型,以提取推動人氣增長的文字因素。這種預測方式雖然在準確度上相對較低[8],但預測結果可取,因為它可在發布前進行自定義修改內容,靈活性更強。但是,這些基于文本特征的預測方法側重于文本本身的含義和內容特征,極少考慮文本信息的情感特征。針對這一不足,本文從文本信息特征出發,基于情感特征度量來研究熱點新聞的預測問題。

互聯網上大量的文本信息往往蘊含情感色彩。情感分析又稱為意見挖掘、情感挖掘,是對帶有主觀情感色彩的文本進行分析歸納,是人工智能的熱門研究領域[9]。文獻[10]提出將隱藏主題—情感轉換模型用于檢測文檔級及句子級情感;文獻[11]提出多標簽分類的情感分析方法用于微博的情感分類工作,比較了3 種情感詞典對多標簽分類的影響,結果表明大連理工大學情感詞典表現最佳;文獻[12]關注在線用戶社交情感挖掘,從用戶角度分析社交媒體中的情感因素。挖掘文本的情感因素有助于分析文本中的立場和觀點[13],并應用于輿情管控、觀點分析、商業決策、信息預測等場景。文獻[14]考慮情感信息的大小和極性用于自動檢測有爭議的新聞文章;文獻[15]融合單詞和句子級別的情感特征到人機對話模型中,生成與原始情感一致的對話文本;文獻[16]通過分析Twitter 中情感指數,發現其可在一定程度上預測3、4 天后的股市變化。但這些研究中,未見應用情感分析對新聞點擊量進行預測的相關工作。

針對上述問題,本文通過構建文本的情緒向量度量方法,分析新聞標題中的情感因素,計算新聞情緒向量之間的相似性;基于情緒向量的相似性以及基于相似性的鄰居選擇,采用協同過濾算法預測熱點新聞的時均點擊量;針對新聞點擊量實際波動范圍較大的特點設計了平均絕對比例誤差和均方根比例誤差兩種誤差度量方法。

1 熱點新聞點擊量預測模型

本文基于情緒內容分析文本的情感因素并用于熱點新聞的點擊量預測,算法整體結構如圖1 所示。

Fig.1 Algorithm general steps圖1 算法一般步驟

1.1 使用情感詞典分析并構建情緒向量

本文使用情感詞典[17]方法分析新聞標題的情感因素。在比較了情感分析詞語集(HowNet)[18]、中文情感極性詞典(NTUSD)[19]、情感詞匯本體庫[20](DUTIR)等國內流行的中文情感詞典后,最終選擇使用大連理工大學的情感詞匯本體。DUTIR 是在國外比較有影響的Ekman[21]情感分類基礎上構建的,標注了常用詞語的情感極性和情感強度。最終的詞匯本體將情感分為7 大類21 小類,細粒度比較高。本文使用DUTIR 分別建立基于詞的情緒向量(Word-based emotion vector,WBEV)和基于字的情緒向量(Characterbased emotion vector,CBEV)。

建立基于詞的情緒向量需要對原有文本進行切割,本文采用目前比較流行的文本切割工具Jieba 分詞,并使用精確模式,該模式下試圖將句子最精確地切開,適合進行文本分析[22]。

將DUTIR 中的情感詞匯定義為二元組w,t代表詞的情感類別,s代表情感強度且0≤s≤7,全部情感詞匯定義為集合W={w1,w2,w3,...,wn};新聞標題中所有的詞匯定義為集合O={o1,o2,o3,...,on},其中詞匯使用Jieba 分詞工具對新聞標題分詞得到;情緒向量定義為E=[t1,t2,t3,…,tn],其中n=21,ti表示詞庫某一小類的情感類別,ti表示該類別的情感強度,0 表示不含有此類情感。

新聞標題基于詞的情緒向量構建過程可以表示為:

基于詞的情緒向量流程如圖2 所示。

Fig.2 Word-based emotion vector flow圖2 基于詞的情緒向量流程

情感詞典是以詞為單位,只能識別帶有情緒詞的句子,并且在新聞標題中經常出現表達情感的單個字,例如“爆!”“驚!”等。因此,本文除了上述基于詞的情感建立的情緒向量外,也將基于字的情感建立情緒向量。

首先要得到字的情感強度和大小。定義字的集合C={c1,c2,c3,...,cn},其中cj∈wi,即ci是DUTIR 中組成情感詞匯的字。定義字的情緒向量EC=[t1,t2,t3,…,tn],此時,該向量代表字的情感。借助DUTIR 詞庫,采用復雜網絡中二部圖模型,將詞和字看作兩種不同類型的節點,詞與字的包含關系作為連邊的依據,如圖3 所示。

Fig.3 Character-word bipartite graph圖3 字—詞二部

通過情緒從詞擴散[23]到字,得到字的情感,具體步驟如下:

初始階段,對于wi,把情感和強度分配給組成該詞的字cj,其中,l是詞w的長度:

在二部圖中字cj的情緒向量為:

其中,d(cj)是cj在網絡中的度值。

由此得到詞庫中每個字的情緒向量,代表這個字的情感傾向,由此構建新聞標題的情緒向量。

基于字的情緒向量流程如圖4 所示。

Fig.4 Character-based emotion vector flow圖4 基于字的情緒向量流程

1.2 基于相似性的協同過濾點擊量預測

利用相似性進行預測,一個基本假設是相似性越高,他們之間具有聯系的可能性越大。在本文模型中,假設熱點新聞標題之間包含相似的情感和強度,那他們在用戶之間的傳播和影響是相似的[24],這種傳播和影響則會反映在新聞的熱度或者點擊量上。因此,根據上述方法構建的代表新聞標題情感特性的情緒向量EWBEV和ECBEV,使用相似度的度量方法分別計算新聞節點兩兩之間EWBEV和ECBEV的相似性,得到相似性列表,然后根據相似性進行節點選擇和預測。本文使用根據情緒向量設計的相似度度量方法,其中X,Y代表新聞的情緒向量,xi,yi是情緒向量X,Y對應維度的值,公式如下:

協同過濾算法(Collaborative filtering,CF)[25]廣泛應用于預測和推薦,該方法通過對用戶歷史行為的挖掘來預測用戶未來的行為。一條新聞的點擊量可以看作全體用戶對該新聞的評分,對點擊量的預測問題就可以轉化為預測全體用戶對該新聞的評分問題,這樣就可利用協同過濾算法實現對熱點新聞點擊量的預測。在EWBEV相似度列表和ECBEV相似度列表基礎上,選擇待預測新聞相似度最高的m個節點作為鄰居集合,使用如下評分預測公式:

其中,ri為預測值,rj為選擇的鄰居,為平均值,Sji是ri,rj之間的相似度,即在預測時相似度越高對預測時的影響越大[26]。在基于詞的情緒向量并使用協同過濾算法預測(WBEV-CF)和基于詞的情緒向量并使用協同過濾算法預測(CBEV-CF)中,ri為熱點新聞點擊量的預測值。

2 實驗結果與分析

2.1 實驗數據

在網易24 小時熱點新聞上爬取數據,從2019 年11 月到2020 年1 月共3 個月。數據內容包括新聞標題、新聞正文、新聞發布時間和爬取時間、點擊量等信息;通過去除不完整及無效數據,共得到4 927 條有效數據。

由于點擊量隨時間變化,為簡化討論,采用時均點擊量衡量新聞熱點,即:

同時,不同新聞的熱度持續時間不同。為討論新聞熱度問題,以每條新聞的最大時均點擊量為代表,其分布如圖5 所示。

Fig.5 Distribution of the average hourly maximum hits圖5 時均最大點擊量分布

實驗采用折十驗證的方式,所有新聞數據隨機平均分為10 組,每組依次作為驗證集,其余9 組作為訓練集,取10次的結果平均值作為最終結果。同時,在每個實驗組中,分別依次取相似性鄰居數為1,3,5,10,20,…,200 進行實驗。為驗證本文提出的基于相似性和情緒向量算法的有效性,實驗除了使用本文WBEV-CF 和CBEV-CF 算法,也使用傳統的基于字頻方式作為對比。使用新聞標題之間的統計字頻作為相似度依據,并使用協同過濾用于點擊量預測(Frequency-CF)。

2.2 評價指標

評價指標有平均絕對誤差(mean absolute error,MAE)[27]和均方根誤差(root mean squared error,RMSE)[28]。MAE 反映的是真實誤差,RMSR 則放大了預測誤差,對預測誤差較大的懲罰更重,對算法的要求更嚴苛。誤差值越小說明算法越準確。

其中,T是測試集,ri為測試集中的真實值,為使用本文預測方法得到的預測值。

實際上,MAE 和RMSE 都是計算的誤差平均值,這在評價點擊量預測誤差時具有一定的局限性。如預測誤差值都為100 的兩條新聞:一條新聞真實的點擊量為1 000,而另一條為100,這個誤差可能對于前者可以接受,但對于后者來說,由于本身點擊量相對較小,這個誤差就是不能接受的。因此,基于以上原因本文設計了平均絕對比例誤差(Mean absolute proportional error,MAPE)和均方根比例誤差(root mean squared proportional error,RMSPE)來反映相對于真實值的誤差。

2.3 結果分析

本文使用情感字典構建出代表每條新聞的情緒向量,通過協同過濾算法預測新聞點擊量。根據選取鄰居節點數量的不同得出如圖6、圖7 所示結果,其中WBEV-CF 和CBEV-CF 是本文設計的方法,Frequency-CF 作為對比。

Fig.6 MAE values of different neighbor numbers圖6 不同鄰居數的MAE 值

Fig.7 RMSE values of different neighbor numbers圖7 不同鄰居數的RMSE 值

隨著點擊量預測過程中選用鄰居數量的不斷增大,本文基于情緒向量的預測方法所產生的誤差不斷降低,直至鄰居數量為200。在設計的兩種方法中,WBEV-CF 預測誤差明顯低于CBEV-CF 的預測誤差,與之相對的,Frequency-CF 的預測方法作為對照方法在鄰居數大于70 之后誤差便不再下降。

WBEV-CF 預測方法比Frequency-CF 方法更加準確?;贛AE 進行分析,在選擇鄰居數大于10 之后,預測誤差平均降低3.7%,最小誤差降低4.3%。幾種算法的RMSE 誤差結果相近,在選擇的鄰居數大于10 之后,平均相差2.8%。RMSE 結果相似,且Frequency-CF 的RMSE 值較低,意味著基于情緒向量的預測會產生較大誤差。但MAE 顯示的預測誤差揭示了情緒向量整體上對點擊量的預測更為準確。本文同樣給出了MAPE 和RMSPE 曲線,反映了相對于真實值的誤差。

由圖8、圖9 可知,MAPE 曲線中的WBEV-CF 依然遠好于其他兩種方式。與Frequency-CF 相比,當鄰居數大于5之后,預測誤差比例平均降低23.5%,最小誤差比例降低25.5%。而在RMSPE 曲線中,不同于RMSE,WBEV-CF 反而優于Frequency-CF。當鄰居數大于10 之后,RMSPE 預測誤差比例平均降低22.6%,最小誤差比例降低22.2%。

通過以上分析發現,在新聞標題點擊量預測過程中,無論是平均絕對誤差MAE,還是平均比例誤差MAPE 和均方根比例誤差RMSPE,本文提出的基于相似性和情緒向量的算法都取得了較好效果,算法整體上更準確;但均方根誤差RMSE 差別不大甚至稍差一些,說明有一些點擊數量較高的標題在非比例情況下會產生較大誤差,但在比例上這些誤差相對于真實點擊量是較小的,因此本文提出的基于相似性與情緒向量的方法取得了較好效果。

Fig.8 MAPE values of different neighbor numbers圖8 不同鄰居數的MAPE 值

Fig.9 RMSPE values of different neighbor numbers圖9 不同鄰居數的RMSPE 值

3 結語

針對熱點新聞點擊量預測研究沒有考慮情緒特征這一問題,本文從文本內容分析出發,利用分詞方法對新聞標題進行分析并設計了情緒向量計算方法,以此建立各種情緒傾向和強度的情緒向量。通過計算新聞標題情緒向量之間的相似性,并基于相似性采用協同過濾方法預測熱點新聞的時均點擊量。實驗結果表明,新聞標題中的情緒因素與其時均點擊量相關,基于情緒向量的點擊量預測方法在預測準確度上明顯優于基于詞頻的預測方法。研究結果揭示了大眾對新聞的反應中新聞標題的情緒起到重要的影響作用。新聞標題中的情緒一定程度上包含了作者的觀點、立場和態度,這些信息通過情緒化的表達影響到讀者的點擊行為。此外,在對新聞熱點的點擊量預測中,將情緒因素和其他因素相結合進行預測,可進一步提高預測準確度。

猜你喜歡
情緒文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
小情緒
小情緒
小情緒
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久热这里只有精品6| 国产精品福利在线观看无码卡| 国产精品无码久久久久久| 国产男女XX00免费观看| 久久青草精品一区二区三区| 美女一区二区在线观看| 国语少妇高潮| 女人天堂av免费| 国产精品jizz在线观看软件| www.91在线播放| 天天躁夜夜躁狠狠躁躁88| 丁香婷婷在线视频| 欧美精品影院| 国产69精品久久久久孕妇大杂乱 | 丁香五月婷婷激情基地| 国产精品视屏| 色哟哟国产精品| 国产精品原创不卡在线| 国产精品七七在线播放| 91免费观看视频| 3p叠罗汉国产精品久久| 亚洲VA中文字幕| 亚洲无线一二三四区男男| 波多野结衣一二三| 国产网友愉拍精品| 五月天在线网站| h网址在线观看| 日韩人妻无码制服丝袜视频| 国产人成乱码视频免费观看| 国产一二视频| 亚洲成人网在线播放| 高清视频一区| 91精品久久久无码中文字幕vr| 日韩在线2020专区| 免费国产在线精品一区| 中文无码精品A∨在线观看不卡| 视频二区欧美| 最新亚洲人成无码网站欣赏网| a毛片免费在线观看| 久久99精品久久久久纯品| 一区二区三区国产精品视频| 亚洲综合激情另类专区| 国产十八禁在线观看免费| 一级成人a做片免费| 国产区在线看| 久久精品电影| 伊人91在线| 在线国产你懂的| 欧美一区二区自偷自拍视频| 国产成人永久免费视频| 亚洲欧美另类中文字幕| 久久夜夜视频| 午夜国产理论| 国产美女叼嘿视频免费看| 欧洲极品无码一区二区三区| 国产综合色在线视频播放线视| 亚洲日韩精品欧美中文字幕| 色成人亚洲| 四虎永久在线| 亚洲侵犯无码网址在线观看| 一个色综合久久| 国产精品视频公开费视频| 国产国产人免费视频成18| 本亚洲精品网站| 国产精品专区第1页| 九九九精品成人免费视频7| 日本人妻丰满熟妇区| 欧美综合成人| 国产精品中文免费福利| 91探花国产综合在线精品| 亚洲国产欧洲精品路线久久| 国产精品人成在线播放| 92精品国产自产在线观看| www中文字幕在线观看| 高清视频一区| AV天堂资源福利在线观看| YW尤物AV无码国产在线观看| 亚洲色精品国产一区二区三区| 色欲色欲久久综合网| 日韩欧美国产三级| 久久伊人操| 亚洲精品无码av中文字幕|