曾惠芳,熊培銀
(湖南科技大學 a.商學院;b.信息與電氣工程學院,湖南 湘潭 411201)
?
統計學課程教學的思考
曾惠芳a,熊培銀b
(湖南科技大學 a.商學院;b.信息與電氣工程學院,湖南 湘潭 411201)
統計學是研究數據背后規律的一門科學。為使學生理解抽象的統計概念,培養統計思維,提高統計學修養,圍繞統計學的概念,以生動形象的例子闡述數據的獲得,數據背后規律的刻畫,以及統計推斷的思想。
統計學;規律性;隨機性;統計思維
統計學是研究如何獲取數據、分析數據、解釋數據,從數據中提取信息、尋找規律性的科學。當今,對統計學的理解、研究和實際應用已經擴展到整個自然科學、社會科學、工程技術、管理、經濟、藝術和文學等領域。統計學家威爾斯(H.G. Wells)曾指出:“就像讀和寫的能力一樣,將來有一天統計的思維方法會成為公民的必備能力。”[1]所以,學好統計學對學生來說具有深遠的意義。統計學教學中應注重抽象概念與生動例子的結合,提高學生的學習興趣。同時,培養學生的統計修養,使其學會用統計思維觀察和認識社會現象[2]。
統計學可以應用于各領域。按薩維奇(L.J.Savage)的說法:“統計學基本上是寄生的,靠研究其他領域內的工作而生存。這不是對統計學表示輕視,這是因為對很多寄主來說,如果沒有寄生蟲就會死。對有的動物來說,如果沒有寄生蟲就不能消化它們的食物。因此,人類奮斗的很多領域,如果沒有統計學,雖然不會死亡,但一定會變得很弱。”
統計學是一門非常實用的科學,它的任務就是處理數據。那么什么是數據?拿擲骰子來說,擲骰子會得到什么值,是個隨機變量;而每次取得1~6點中任意點數的概率在理論上都是1/6(如果骰子均勻)。而在實際擲骰子過程中,如果擲100次,會得到100個由1~6點組成的數字串;再擲100次,又得到一個數字串,和前一次的結果很可能不一樣。這些試驗結果就是數據。所以說,數據是關于變量的觀測值。
社會經濟統計數據資料的來源主要有兩種渠道:一種是通過直接的調查獲得原始數據,這是統計數據的直接來源,一般稱之為第一手或直接的統計數據;另一種是別人調查的數據,并將這些數據進行加工和匯總后公布的數據,通常稱之為第二手或間接的統計數據。一切間接的統計數據都是從直接的、第一手數據過渡而來的。
我們處于一個大數據時代,每天都可以獲得大量的信息。應該如何去認識這些信息?如何在具有欺騙性的數據海洋中找到可靠有用的資料?怎樣憑借雙眼就能識破虛假的統計資料并揭穿它?對此,可以從五個方面對數據進行探索檢驗分析:1)數據是如何收集、記錄的?2)數據中含有測量誤差和記錄誤差嗎?有關測量值的概念和定義明確嗎?觀察值之間存在什么區別嗎?3)數據是真實的嗎?是所調查的原樣,還是以任何方式經過人工偽造、編纂或修改過的?是否由觀察者自行決定刪除了任何觀察值?數據中是否存在任何或許會過度影響統計推斷的異常值?4)提供信息的觀察數據來自什么樣的總體?作為抽樣調查總體中所選定部分是否存在沒有回答的(部分或全部)?數據信息是來自單一總體,還是混合總體?與抽出樣本單位的識別和分類有關的因素都記錄下來了嗎?5)對所要調查研究的課題或是觀察數據的性質是否存在任何先驗信息?
任何對數據的探索和檢驗分析都是為了了解數據的性質,剔除測量誤差、記錄誤差和異常值,檢驗先驗信息的有效性,檢測數據的真偽。數據的初始研究也用于檢驗一個指定的模型的有效性或是對進一步的數據分析選擇一個更合適的隨機概率模型或隨機概率模型族[3]。
統計學的重要作用是利用已有的數據來預測未來。利用已有的數據來預測未來,必須要找到一個恰當的統計模型,確切地說,就是一條分布曲線去擬合已有的數據,然后用擬合的分布去預測在未來的觀察中各種值出現的可能性大小[4]。

例1:19世紀末,騎兵部隊是多數軍隊的一個組成部分,在騎兵部隊內間或就有人被馬踢死。俄國統計學家博特基維茨對普魯士軍隊的10個騎兵部隊在1875~1894年這20年間的此類死亡情況進行了記錄,并對此進行了統計分析。表1給出了這200支騎兵部隊一年中被馬踢死的人數信息。

表1 200支騎兵部隊一年中被馬踢死的人數統計
在概率論中,大家對泊松分布產生的一般條件已有所了解,容易想到,200支騎兵部隊一年中被馬踢死的人數,可以用一個泊松隨機變量來近似描述。也就是說,可以假設200支騎兵部隊一年中被馬踢死的人數的分布X近似泊松分布。
現在的問題是:上面的數據能否證實X具有泊松分布的假設是正確的?卡方檢驗法是在總體X的分布未知時,根據來自總體的樣本,檢驗關于總體分布的假設的一種檢驗方法。
提出假設H0:X服從參數為λ的泊松分布。根據觀察結果,得參數λ的極大似然估計為

按參數λ為0.61的泊松分布,計算事件pi=Pr(X=i)的概率,pi的估計為

統計學的作用,一方面是對數據進行概要的描述,另一方面是基于數據做出推斷,包括評價推斷的有效性。所謂統計推斷,是基于一個指定的隨機概率模型來估計未知參數,進行相應的假設檢驗,預測未來的觀測值,以及做出決策等的統計方法。統計分析的目的是“從觀測得到的數據中提取有效的信息”。所記錄的數據中有時有某種缺陷,如存在記錄誤差和異常值,有時甚至可能是偽造的,一個統計學者首先應做的是詳細考察或交叉檢驗數據,以便發現可能有的缺陷并了解數據的特征。下一步則是利用先驗信息和交叉核實技術,對數據提出一個合適的隨機概率模型。基于被選擇的模型進行數據推斷分析,包括未知參數的估計,假設檢驗,對未來觀測值的預報以及做出決策[5]。
例2:一個魚塘的主人想知道池塘中有多少魚,他猜想數量在3 000條左右,但其實可能僅有它的一半,又或者是它的兩倍。逐一數魚是不可能的,那么他該怎么辦?
假設池塘中魚種的平均壽命大約為3年,所以花一個月左右的時間獲取魚的數量的過程,其出生與死亡數對總數量不會產生大的影響。他先捕到400條魚,貼上標簽,再放回池塘。然后再從池塘捕300條魚,其中60條貼有標簽。利用樣本比例估計總體比例,可得到魚塘中貼有標簽的魚的比例的最佳估計為





統計學是一門十分實用的科學,它并不是枯燥的數據和公式的堆砌。為了提高學生的學習興趣,調動學生學習的積極性與主動性,在教學的過程中,應強調統計學的實用性,通過生動形象的例子和故事來表達統計思想。同時,應注重實踐教學,讓學生學會關注社會問題,并通過統計調查和統計分析,提高學生的統計應用能力。
[1] C R 勞.統計與真理——怎樣運用偶然性[M].北京:科學出版社,2004.
[2] 孫曉祥,惠英杰.數理統計課程教學中培養學生統計思維的幾點認識[J].吉林農業科技學院學報,2013,22(1):80-82.
[3] 劉旭華,田英,陳薇.對研究生數理統計課程教學的思考與探索[J].高等農業教育,2010(7):76-78.
[4] 云霞.統計思維是現代人的標簽[J].調研世界,2012(12):58-59.
[5] 劉娟.概率論與數理統計案例教學探討[J].當代教育理論與實踐,2014,6(12):36-37.
(責任校對莫秀珍)
10.13582/j.cnki.1674-5884.2016.09.025
20150722
國家自然科學基金項目(41301421);湖南科技大學教學研究與改革項目(G31533)
曾惠芳(1981-),女,湖南邵陽人,副教授,主要從事貝葉斯統計研究。
F224.9, O212
A
1674-5884(2016)09-0078-03