999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于民調與網民情感傾向性的選情預測模型

2020-12-26 02:56:54林倩茹劉云清劉小煜劉威鵬
計算機工程與應用 2020年24期
關鍵詞:情感模型

林倩茹,王 博,劉云清,劉小煜,劉威鵬

1.長春理工大學 電子信息工程學院,長春130022

2.北京信息技術研究所,北京100089

3.哈爾濱工業大學 經濟與管理學院,哈爾濱150000

1 引言

世界主要國家或地區的政黨輪換與領導人更替,可能會在軍事、外交、貿易、科技等方面對局部地區甚至整個世界帶來重要影響。準確預測指定國家或地區的選舉結果,是制定針對性應對策略、行動、計劃的重要支撐。然而,選舉預測的影響因素多、不確定性大、信息迭代速度快。當前,迫切需要利用大數據等技術手段推動選情預測工作,由“人工定性分析”向“計算機輔助定量分析”轉型,由“事后分析”向“事前預測”的“預報分析”轉型。

傳統的選情預測研究模型主要基于經濟數據、歷史數據或者民調數據[1-2]。2008 年田興玲等人[3]提出基于小世界網絡的差額選舉模型,研究了刻畫網絡結構的近鄰數和重新連接概率以及選舉的差額度對選舉的影響。2015 年陳陸輝等人[4]基于民意調查數據分析臺灣選舉,利用“涵蓋率模型”結合媒體民調結果、民調中未表態或拒訪網民投票意向,以及無法被電話調查到的網民投票意向,對選前媒體民調與歷史選舉結果進行了對比研究。Wright 等人[5]基于早期選舉和2016 年競選活動數據,采用平滑混合效應模型進行結果聚合。2019年Gaxiola 等人[6]采用粒子群優化方法,預測了尼日利亞Akwa Ibom州的一次選舉活動。

隨著社交網絡的快速發展,越來越多的網民在網上發表政治意見并參與時事討論,出現了利用社交媒體信息進行選情研究的模型[7-9]。在2008 年美國總統大選中,Williams 和Gulati 僅僅根據Facebook 網站上的支持率就成功地預測了總統大選結果[10]。2013 年Gaurav 等人[11]基于候選人在Twitter上的人氣預測選舉結果,利用候選人的名字在選舉前被推文提及的次數,設計了一種基于預定義的關鍵字技術,成功地預測了2013年2月至4月在拉丁美洲舉行的三次總統選舉的獲勝者。路凱麗[12]研究了候選人社交媒體使用情況對選舉結果的影響,發現候選人的網站價值是預測其最終得票數的有效指標,說明候選人對競選網站的使用水平確實會對選舉結果產生影響。2018年Xie等人[13]利用Facebook、Twitter、谷歌媒體數據預測臺灣總統大選,從“信號”角度考慮網絡異構信息,并采用卡爾曼濾波器融合多個信號以預測候選人的得票率。

上述方法雖然在一定程度上刻畫了真實民意,但影響選舉結果的因素是多方面的,采用單一的經濟數據、歷史數據、民調數據或社交媒體數據預測選舉結果,并不能全面反映選民的政治傾向,為此,本文提出基于民調與網民情感傾向性的選情預測模型。針對民調數據,由于不同民意調查機構具有不同的傾向性,為避免機構傾向性導致的誤差,建立基于時間序列的數據修正模型和反向歸一化方法對數據進行修正;針對社交網絡數據,基于Facebook上網民對黨派候選人的評論建立網民情感分類量化模型以分析網民的情感傾向性。最后,為提高選舉預測的準確性,利用熵值法融合修正后的民調結果和網民情感傾向性分析結果。

圖1 選情預測模型總體框架

2 總體模型框架

選情預測模型總體框架如圖1所示,主要包括三個部分:民調數據歸一化修正模型、網民情感分類量化模型和基于熵值法的選情融合預測模型。

其中,民調數據歸一化修正模型包含基于時間序列的數據修正模型和反向歸一化方法,其作用是分別對民調機構數據的傾向性進行糾偏以及對未表態人群的政治態度進行推理。網民情感分類量化模型主要包含詞典創建、情感分類和情感量化三個部分,其首先將輸入的社交媒體數據進行預處理,并結合情感詞典、否定詞詞典和程序詞詞典進行情感傾向性計算,然后進行情感分類,最后對情感分類結果進行量化分析得到網民情感傾向性分析結果。基于熵值法的選情融合預測模型則是將修正后的民調預測結果與網民情感傾向性分析結果通過信息熵進行融合,從而得出最終的選情預測結果。

3 民調數據歸一化修正模型

民調數據歸一化修正模型包含基于時間序列的數據修正模型和反向歸一化方法兩部分。

3.1 基于時間序列的數據修正模型

利用多家民調機構數據,分析不同民調機構對于同一黨派候選人的民調結果偏差。將多家民調機構結果的平均值作為民調結果的基準值,并以此計算各個民調機構的歷史偏差序列,再利用時間序列方法,預測當前時刻各民調機構對該黨派候選人的偏差,對民調結果進行修正。

3.1.1 時間序列方法

移動平均(MA)是給定m個數據點組成的序列{x1,x2,…,xm}和移動平均參數n,通過滑動窗口方式計算得到新的序列,如式(1):

式(1)中,xi(i=1,2,…,m)表示原始序列第i個值,則移動平均模型的輸出序列為{x1,x2,…,xn,x'n+1,x'n+2,…,x'm}。

指數移動平均(EMA)是以指數式遞減加權的移動平均[14]:

式(2)中,參數p為指數衰減因子,給定m個數據點組成的序列{x1,x2,…,xm}和移動平均參數n,則:

3.1.2 民調數據修正模型

為減少不同的民調機構orgk(k=1,2,…,K)對不同的黨派候選人parr(r=1,2,…,R)的傾向性,采用時間序列方法對民調數據進行修正,如表1所示。

表1 民調機構數據

表1 中,設在選區c,民調機構orgk調查出ta時刻支持黨派候選人parr的選民比例為,未選擇支持任何黨派候選人的選民比例為wbtk。基于時間序列對以上結果進行修正,得到修正后的黨派候選人parr支持率為。修正的過程分為5個步驟:

(1)將所有民調機構orgk(k=1,2,…,K)對黨派候選人parr的支持率取平均值:

式(4)中,表示民調機構orgk給出的黨派候選人parr的支持率,表示將所有民調機構對parr調查結果的平均值作為民調基準值。

(2)對民調機構orgk,黨派候選人parr歷史支持率序列為:{(t1,pollk,1),(t2,pollk,2),…,(tA,pollk,A)},由式(1),得到修正后的新序列:{(t1,poll'k,1),(t2,poll'k,2),…,(tA,poll'k,A)}。

(3)對于民調機構orgk,計算ta時刻對黨派候選人parr的偏差:Biask,a=poll'k,a-,則所有時間的偏差組成一個序列:B={(t1,Biask,1),(t2,Biask,2),…,(tA,Biask,A)}。

(4)對于偏差序列B,利用式(2)和式(3),得到新的偏差序列B′={(t1,Bias'k,1),(t2,Bias'k,2),…,(tA,Bias'k,A)}。

(5)ta時刻的民調數據修正:k,a+Bias'k,a,為民調機構orgk對黨派候選人parr修正后的支持率。

3.2 反向歸一化方法

設未表態受訪者符合沉默螺旋理論的推論[15],即選民對黨派候選人parr支持率與未表態選民對黨派候選人parr支持率,呈反比關系。基于該假設,本文采用反向歸一化方法,對未表態選民的傾向性進行推理,過程如下:

(1)設在選區c,ta時刻民調機構orgk對各黨派的修正數據序列為{},未表態數據為wbtk,按降序排列,得到新序列:{}。

(2)將未表態數據wbtk通過公式(5)分加給R個黨派候選人,得到所有黨派候選人的推理支持率:{}。

式(5)中,dt_sortR-r+1表示分加給黨派候選人parr的未表態比重,表示考慮未表態選民的傾向性后,選民對黨派候選人parr的支持率。

(3)將K個民調機構對黨派候選人parr的推理支持率求平均值,并做歸一化處理,如式(6)、式(7)所示。

4 網民情感分類量化模型

網民情感分類量化模型包括3個部分,首先構建情感詞典、否定詞詞典和程度詞詞典,在此基礎上,將爬取的評論語料進行預處理;然后基于情感詞典、否定詞詞典和程度詞詞典進行情感傾向性計算,將網民情感分為積極情感和消極情感;最后,通過移動平均累計概率(MAPP)方法將網民情感進行量化,得到選民情感傾向性預測結果。

4.1 詞典構建

將知網HowNet 詞典中的正負情感詞典、清華大學李軍中文褒貶詞典、大連理工大學情感詞匯本體(DUTIR)和臺灣大學情感詞典(NTUSD)中的積極詞和消極詞去重后融合[16],得到通用情感詞典WT。程度詞詞典來自于知網詞典庫(表2)。由于社交媒體評論中存在表情符號,對積極含義的表情符號和消極含義的表情符號構建表情符號詞典WE,部分表情符號情感極性如表3所示。

表2 部分詞典類型及權重示例

表3 部分表情符號情感極性

由于通用情感詞典對情感詞的概括是有限的,缺乏部分選情領域的情感詞,還需對選情評論中出現頻數較高的詞進行情感識別。本文利用點互信息(Pointwise Mutual Information,PMI)算法對通用情感詞典進行擴充[16],計算選情領域新詞與已知情感詞之間的語義正相關度,確定新詞的情感極性。利用互信息找到與新詞最正相關的情感詞,然后將該詞的情感極性作為新詞的情感極性,詞語w1、w2之間的互信息的計算公式如下:

式(8)中,p(w1,w2)表示(w1,w2)兩個詞共同出現的概率,{p(w1),p(w2)} 分別表示w1、w2單獨出現的概率。PMI(w1,w2)表示{w1,w2}之間的互信息,若PMI(w1,w2)>0 ,則p(w1,w2)>p(w1)p(w2) ,說明兩個詞語具有相關性,值越大,相關性越大。本文從選情領域網民評論數據中選取了30對高頻情感詞,構成正向情感詞集合WP和負向情感詞集合WN,并利用這30對種子詞,計算未包含于通用情感詞典的詞語w?WT的情感極性,判斷公式如(9)所示:

式(9)中,若SO_PMI(w)的值大于0,新詞w的極性為正向;等于0,新詞w的極性為中性;小于0,新詞w的極性為負向。

最終的情感詞典是通用情感詞典、領域情感詞典、表情符號詞典的并集。情感詞典的種類及積極詞、消極詞數量如表4所示。

表4 情感詞典種類及積極詞、消極詞數量 個

4.2 網民情感分類

利用網民在社交媒體Facebook 上對各黨派候選人的評論數據,將網民的情感分為積極和消極兩類,步驟如下:

(1)評論文本預處理。將同一賬號針對黨派候選人parr的評論去重、合并,利用“jieba庫”進行分詞,并采用哈工大停用詞庫,將對情感分析無影響的詞過濾掉,得到每個賬號的關鍵詞集合。

(2)反向遍歷關鍵詞集合,將當前詞wi與情感詞典進行匹配,若為積極詞,則情感值為1;若為消極詞,則情感值為-1。再以wi為基準向前尋找程度詞和否定詞,若含有否定詞和程度詞,則詞wi的情感得分ei為情感值與否定詞、程度詞權重之積。

(3)計算每個賬號評論的情感得分:

式(10)中,如果a >0 表示此網民對黨派候選人parr的情感極性為積極;a=0 表示其情感極性為中性;a <0表示其情感極性為消極。

4.3 網民情感量化

網民情感量化處理詳細步驟如下:

(1)計算黨派候選人parr在時間t獲得網民的支持率:

式(11)中,supr,t表示黨派候選人parr在時間t獲得網民的支持率,posr,t表示黨派候選人parr在時間t情感極性為積極的網民數,totalr,t表示黨派候選人parr在時間t的總評論數。

(2)計算移動平均累積概率MAPP,將黨派候選人parr在某一時間段[t-T,t-1]內網民的平均支持率作為其在t時刻選民支持率的估計[14]:

5 基于熵值法的選情融合預測模型

為盡可能提升模型的預測精度,本文將基于民調的預測結果和基于網民情感傾向性的預測結果進行融合,利用熵值法[17]確定各個模型的權重,以克服人工賦權無法避免的主觀性,以及解決多變量間的信息重疊問題。基于熵值法的選情融合預測過程如圖2所示。

圖2 基于熵值法的選情融合預測過程

如圖2所示,基于熵值法的融合預測過程如下:

(1)將第j個模型對黨派候選人parr的支持率預測結果歸一化:

(3)計算信息熵冗余度:

式(13)至(17)中,hrj表示第j個模型對黨派候選人parr的支持率預測結果,J為模型個數,黨派候選人個數R >1,常數q=1/lnR。

6 實驗

6.1 數據集

民調數據來源于維基百科“某地區直轄市長及縣市長選舉”網站,時間范圍為2017 年5 月4 日至2018 年11月13日,民調機構個數為30,本文重點研究了其中的14個選區。對于社交媒體數據,編寫爬蟲定向采集Facebook上網民對14 個選區的30 個黨派候選人的評論,評論發布 時 間 為2018 年9 月1 日 至2018 年11 月23 日,共 計458 217條數據。數據集信息如表5所示。

表5 數據集信息

6.2 實驗設置

每個選區每個黨派只考慮一個候選人。民調數據修正模型中,只對民意調查次數大于4的民調機構數據進行修正(小于5次不做修正),移動平均模型和指數移動平均模型的滑動窗口n大小設為3,指數衰減因子p設為0.7。情感量化過程中,移動平均累積概率的窗口T設為5。基于熵值法的選情融合預測模型中,模型數為3(民調數據修正模型、反向歸一化方法和情感分類量化模型),每個選區包括3個黨派的候選人。

本文采用準確率和相對誤差兩種指標衡量選情預測的效果,準確率定義為預測正確的選區個數與總選區個數的比值,用Accuracy表示;預測結果與真實結果之間的差異程度用相對誤差(RE)和平均相對誤差(MRE)評價。

式(18)至(20)中,Acurracy表示模型j的預測準確率,Ctrue表示預測正確的選區個數,C表示選區總數;yc,r表示模型j在選區c對黨派候選人parr的預測結果,bc,r表示在選區c黨派候選人parr的真實結果;REc,r表示模型j在選區c對黨派候選人parr預測的相對誤差,MREr表示模型j在所有選區對黨派候選人parr預測的平均相對誤差。

6.3 實驗結果及分析

6.3.1 民調數據預測結果對比分析

原始民調數據如表6所示,基于時間序列的數據修正模型預測結果如表7所示,反向歸一化方法預測結果如表8所示。其中,par1、par2、par3分別表示黨派1、黨派2、黨派3;“—”表示未參選;在準確性一列中,1 表示預測結果與真實結果相同,0則反之;后文與此相同。

表6 原始民調預測結果

表7 基于時間序列的數據修正模型預測結果

表8 反向歸一化方法預測結果

由表6、表7 和表8 可知,在研究的14 個選區中,原始民調、基于時間序列的數據修正模型均在相同的2個選區出現錯誤預測,準確率為85.71%,但后者的相對誤差有所減小。反向歸一化方法對1個選區預測錯誤,準確率提升到92.86%。

6.3.2 情感分類量化預測與民調預測結果對比分析

網民情感分類量化結果如表9所示,在研究的14個選區中,5 個出現預測錯誤,預測準確率約為64%,相較于基于民調的結果而言,準確率偏低。此外,如圖3 所示,M1表示民調歸一化修正模型,M2表示網民情感分類量化模型,M1par1、M1par2、M1par3表示民調歸一化修正模型對黨派parr的相對誤差;M2par1、M2par2、M2par3表示情感分類量化模型對黨派parr的相對誤差。其總體相對誤差比民調歸一化修正模型大。該模型預測效果不佳,一方面可能是社交媒體信息搜集不全或“網絡水軍”帶政治風向導致;另一方面是本文方法對社交媒體數據的處理仍存在一定的缺陷性,需要進一步考慮評論中的語義關系及優化網民政治情感傾向的計算方法。

表9 網民情感分類量化模型預測結果

圖3 M1 模型與M2 模型的相對誤差比較

表10 選情融合預測模型準確性和相對誤差

6.3.3 民調和網民情感傾向性融合預測結果

民調和網民情感傾向性融合預測結果如表10 所示。對比表8、表9和表10,可知反向歸一化方法在選區A9預測錯誤,而在其他13個選區均預測正確;網民情感分類量化模型在選區A9 預測正確,而在其他選區的預測效果不佳;基于熵值法的選情融合預測模型則在研究的14 個選區中均預測正確,說明選情融合預測模型實現了不同模型之間的優勢互補,有效地提高了選舉預測的準確率。

6.3.4 預測結果對比分析

表11 對比了5 種模型的預測準確率和平均相對誤差。在平均相對誤差指標上,5種模型對所有黨派的預測誤差都在22%以下,基于熵值法的選情融合預測模型最小;par3的平均相對誤差小于par1和par2,可能是par3的樣本數量較少導致的。在預測準確率指標上,基于熵值法的選情融合預測模型的準確率最高,達到了100%。綜合而言,利用熵值法融合修正后的民調信息與網民情感傾向性信息,可以有效地提升選舉預測準確率及減小平均相對誤差。

表11 5種模型預測準確率和相對誤差對比

7 結束語

針對基于單一來源數據預測選情不能全面反映選民政治傾向的問題,本文提出了包括基于時間序列的數據修正模型、反向歸一化方法、網民情感分類量化模型和基于熵值法的選情融合預測模型在內的基于民調與網民情感傾向性的選情模型框架。以某地區真實歷史選舉結果為基準的實驗表明,利用基于時間序列的數據修正模型和反向歸一化方法修正后的民調數據,能夠有效地提升預測準確率;根據社交媒體信息得到的網民情感傾向性分析結果較差,不能很好地支持選舉預測;相對比于民調結果和社交媒體情感傾向性分析結果,基于熵值法的選情融合預測模型將二者的部分結果進行了優化,減小了平均相對誤差,提升了總體預測準確率。

下一步工作包括擴充社交媒體語料庫、進一步豐富詞典、考慮評論中的語義關系、探索新的情感分類方法和網民政治傾向性計算方法等,以有效提升基于社交媒體信息的網民情感傾向性預測效果,從而提升選情融合預測模型的總體預測效果。

猜你喜歡
情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
主站蜘蛛池模板: 欧美a在线看| 男女男精品视频| 制服丝袜在线视频香蕉| 国产成人精品免费av| 国产精品极品美女自在线看免费一区二区| 麻豆精品视频在线原创| 久久性视频| 97青草最新免费精品视频| 激情综合婷婷丁香五月尤物| 亚洲国产中文在线二区三区免| 午夜限制老子影院888| 亚洲高清在线天堂精品| 91po国产在线精品免费观看| 欧美一区二区啪啪| 亚洲欧美另类色图| 中文纯内无码H| 露脸国产精品自产在线播| 日韩激情成人| 精品亚洲欧美中文字幕在线看| 欧美精品一二三区| 午夜精品一区二区蜜桃| 日韩无码视频网站| 色偷偷男人的天堂亚洲av| 亚洲最新在线| 国产91熟女高潮一区二区| 日韩午夜伦| 亚洲an第二区国产精品| 国产麻豆另类AV| 国产视频只有无码精品| 一本色道久久88| 女人一级毛片| 欧亚日韩Av| 精品無碼一區在線觀看 | 麻豆国产在线不卡一区二区| 99久久免费精品特色大片| 欧美激情成人网| 久久精品最新免费国产成人| 美女免费精品高清毛片在线视| 亚洲欧美一区二区三区图片| 亚洲欧洲日韩国产综合在线二区| 成人日韩精品| 亚洲欧美日韩天堂| 久久99蜜桃精品久久久久小说| 青青草原国产av福利网站| 不卡午夜视频| 久久综合色天堂av| 国产精品污视频| 亚洲精品波多野结衣| 国产精品福利一区二区久久| 国产精品精品视频| 97国产成人无码精品久久久| 萌白酱国产一区二区| 国产高清免费午夜在线视频| 毛片免费高清免费| 久久精品人人做人人爽电影蜜月| 国产自在线拍| 午夜日b视频| 美女潮喷出白浆在线观看视频| 伊人久久大香线蕉成人综合网| 国产AV毛片| a天堂视频在线| 亚洲综合二区| 天天综合色网| 亚洲av中文无码乱人伦在线r| 国产幂在线无码精品| 成人欧美在线观看| 欧美精品成人| 亚洲一道AV无码午夜福利| 色婷婷电影网| 黄色网在线免费观看| 国产农村1级毛片| 亚洲欧美在线综合一区二区三区| 全免费a级毛片免费看不卡| 中国美女**毛片录像在线| 久久青草免费91线频观看不卡| 强乱中文字幕在线播放不卡| 亚洲欧美激情另类| 粗大猛烈进出高潮视频无码| 亚洲最新在线| 亚洲综合第一页| 亚洲日韩精品欧美中文字幕| 91人妻日韩人妻无码专区精品|