摘要馬爾可夫鏈是一類特殊的時間離散的隨機過程,其最大的特點就是無后效性。本文依據全國體育彩票排列五的歷史數據,建立了彩票預測的馬爾可夫鏈模型,并對利用模型得出的結果進行分析,結果表明該模型對體育彩票排列五中獎號碼的預測具有一定的現實指導意義。
關鍵詞彩票分析馬爾可夫鏈轉移概率矩陣
中圖分類號:G812文獻標識碼:A
1引言
彩票是一種建立在機會均等基礎上,公平競爭的娛樂性游戲,1994年,國家批準發行了中國體育彩票。根據國家有關部門的規定:我國體育彩票發行獎金的構成比例應為返獎率不低于總銷售額的50%,發行費用比例不得高于總銷售額的15%,彩票公益金比例不得低于總銷售額的35%。目前,全國統一發行的體育彩票排列五都是從0—9這十個數字中,可重復地抽出五個數字依次排列組成(這種抽獎屬于典型的“獨立隨機事件”,即其中任何一次事件發生的概率都與此前各事件的結果無關)。對于中大獎來說,這是小概率事件,一般認為在一次試驗中,小概率事件是不可能發生的。彩民在選號的過程中如何科學的選號才能增大獲獎機會呢?本文針對這一問題,依據全國體育彩票排列五的歷史數據,建立了彩票預測的馬爾可夫鏈模型。利用此模型,對彩民如何科學的選號才能增大獲獎機會給出了理論上的解釋。
2 基本知識
設={,}為一隨機過程,其狀態空間為{},若對任意正整數,任意,<及任意非負整數,有(1)
則稱為離散時間的馬爾科夫鏈,稱條件概率為{}時刻的步轉移概率,簡記為,如果有=,則稱此馬爾科夫鏈為齊次的,特別地當時有,稱為一步轉移概率,由一步轉移概率組成的矩陣 (2)
稱為一步轉移概率矩陣[1]。
3 模型的建立
體彩排列五是從0—9這十個數字中隨機抽取五個排列而成,由于每次抽取的號碼與以前抽取的中獎號碼無關,因此可以認為各期抽取中獎號碼的過程構成一個離散時間的馬爾科夫鏈。總共有0—9這十個數字,假設每個數字對應一個狀態,則該馬爾馬爾科夫鏈的狀態空間{}。
依據參考文獻[2]給出了2009年7月13日至2009年8月11日(即9187期—9216期)共30期體彩排列五的歷史數據如下。
利用此數據,就可以通過以下式子算出從狀態經過步轉移到狀態的轉移概率
在上式中,為狀態轉移的次數,為處于狀態的數字的總個數,為由狀態轉移到狀態的數字個數,于是可以得到如下的一步轉移概率矩陣
將此30期的數據作簡單的統計,即可計算出該馬爾科夫鏈的一步轉移概率矩陣與二步轉移概率矩陣如下:
用上述一步轉移概率矩陣與二步轉移概率矩陣,即可對下期開獎號碼作簡單的預測,具體的方法是:
根據預測期數前兩期的開獎號碼,分別從兩個轉移概率矩陣中抽出該數值所對應狀態所在行的轉移概率值;
將抽得的兩行轉移概率值對準排成十列,再將十列轉移概率值同列相加;
以相加后和值最大的一列作為預測結果,寫出預測號碼,若第一列的合計值最大則預測下期可能有的號碼為0,若第二列的合計值最大,則預測下期可能有的號碼為1,以此類推。
4 對開獎號碼的預測
利用上述方法,以2009年8月11日第9216期為例,進行下期開獎號碼的預測。由于本期開獎號碼為1,8,3,8,
5.預測過程為
1的一步轉移概率與二步轉移概率之和為
上表中概率值最大的為,位于第一列,故對應的數字為0,即0有可能在下期開獎號碼中出現。
8的一步轉移概率與二步轉移概率之和為
上表中概率值最大的為,位于第五列,故對應的數字為5,即5有可能在下期開獎號碼中出現。
用此方法同理可計算得3和5的一步轉移概率與二步轉移概率之和中最大概率分別為,,所對應的數字分別為4和1。
由此對下期開獎號碼所作的預測是:最有可能的四個數字是0,5,4,1.而實際的開獎號碼為99004,可以認為有兩個數值預測準了。
5 結束語
根據彩票的發行,搖獎機是隨機的搖出一個號碼,所以每個號碼出現的機會是均等的,然而,把每期的中獎號碼作為歷史數據進行統計,當期數比較大時,各數出現的頻數基本相等。在對歷史數據統計分析的基礎上,運用Markov鏈理論預測分析彩票這種隨機性很強的事件是一種方法,運用此方法進行長期預測時初始狀態和轉移概率矩陣隨著時間的推移在變化,所以我們可以根據最新得到的號碼隨時改變初始狀態和轉移概率矩陣,判斷各個號碼出現的概率。由以上分析顯然可以看出第9216期的開獎號碼1,8,3,8,5中出現了重復數字,預測的數字0,4在下期的開獎號中出現了,而且0是以重復數字的形式出現的,故利用此種方法一般能預測中1到2個號碼,具有一定的可參考性,但這種方法得到一個必中的號碼的概率很低,在實際應用中還有一定的局限性,我們可以運用這種方法再結合其他方法可能得到更大的概率值,為科學的選號提供參考。