陳路路 張玲 高學攀 杜楚
摘要:針對民調結果精度低的問題,提出了一種基于貝塔—二項概率分布模型的選舉預測方法。利用歷史民調數據,建立貝塔—二項概率分布模型,并采用參數估計方法,實現分布參數的估計,完成民調結果的改善。同時本模型將未表態資料考慮在內,提高了選舉預測結果的精度。實驗結果表明,貝塔—二項概率分布模型能夠達到誤差小于2%的選舉預測結果。
關鍵詞:選舉預測;民調數據;概率分布模型;高精度
中圖分類號:TN713文獻標志碼:A文章編號:1008-1739(2021)18-57-4
0引言
選舉過程中如何精確地預測選民投票意向具有一定的難度,無論在國內還是國外,以民意調查方式是基礎的選舉預測,除了存在訪問失敗的問題或抽樣及估計方式的誤差,導致許多選舉預測經常與選舉結果相悖,或者即使是成功預測候選人,但是預測得票率與實際得票率仍相差甚遠。
有關選舉預測的研究主要分為兩大方向[1]:一是預測模型的構建,二是預測模型的評估,為此專家學者也做了很多研究[2-5]。預測模型的構建主要基于貝氏理論或頻度理論,但貝氏理論與頻度理論的統計推論是建立在不同的統計決策觀點上的[6]。頻度理論的概率觀點及其統計推論是以重復多次試驗的理論為基礎,而貝氏理論的觀點則是承認以歷史結果作為當前的主觀經驗,以此修正當前的觀察結果,并且依據最新的證據不斷更新。就預測模型的評估而言,專家指出,一個好的預測模型由三部分組成:對候選人的得票率提供精確的估計;必須在選舉結果發生之前及時的做出事前預測,預測模型最好是盡可能地簡單易懂和方便操作。
本文以二項分布和貝塔分布[7]為基礎,構建符合貝氏理論觀點的新架構進行預測,提出了一種基于貝塔—二項概率分布模型的選舉預測方法。該方法基于民調數據實現了模型參數的估計,并考慮未表態資料,修正了民調結果,實現了選舉的高精度預測。
1貝塔—二項概率分布模型
1.1二項分布
3數值實驗
選取2組民調數據,分別對其民調值進行改進,并且考慮未表態資料,預測未表態選民的投票意向,獲取最終選舉預測值。表1和表2分別給出了民調資料A和民調資料B。
圖1給出了基于民調資料A的針對候選人A的支持率分布函數和針對候選人B的支持率分布函數。
圖2給出了基于民調資料B的針對候選人A的支持率分布函數和針對候選人B的支持率分布函數。
由圖1和圖2的結果可知,對候選人A和候選人B的支持率偏低。
采用將未表態資料考慮在內的貝塔-二項概率分布模型分別對民調資料A中最后一次民調結果和民調資料B中最后一次民調結果進行民調值的修正,實現選舉的預測,且預測結果如表3和表4所示。
由表3和表4的預測結果可知,貝塔—二項概率分布模型可實現當前民調結果的修正,同時將未表態資料考慮在內,實現了選舉的高精度預測,且基于民調資料A的預測誤差小于2%,基于民調資料B的預測誤差小于10%,民調資料A比民調資料B更加可靠。
4結束語
基于貝塔—二項概率分布模型的選舉預測實現了選舉的定量分析,采用各民調機構的民調數據,通過建立對應的貝塔-二項概率分布模型以及添加未表態資料的選舉意向,修正了預測模型,有效提高了選舉預測定量分析的精度,且通過分析不同民調資料的可靠性,為后期事前選舉預測提供指導。
參考文獻
[1] THOMAS M H, JAY A D. Using State Polls to Forecast Presidential Election Outcomes in the American States[J]. International Journal of Forecasting, 1999,15(2):137-142.
[2]王富迪.臺灣地區選舉中的網絡動員研究[D].廣州:暨南大學,2020.
[3]吳二華.臺灣選舉中的地下賭盤[J].兩岸關系,2020(4):41-43.
[4]金龍,聞杰.回歸分析法在情報預測中的使用—基于“白宮鑰匙”模型的選情分析[J].科技情報研究,2020,2(2):59-66.
[5]夏鳳嵐.社交網站上的美國大選[D].北京:北京外國語大學, 2017.
[6] JAMES O B.Statistical Decision Theory and Bayesian Analysis[M].New York:Springer-Verlag,1985.
[7]范玉妹,汪飛星,王萍,等.概率論與數理統計:第2版.[M].北京:機械工業出版社,2017.
[8] MILTON A,IRENE S. Handbook of Mathematical Functions[J].Am J Phys,1966,34(2):177.