唐小勇 李小春
(1.湖南農業大學,信息科學技術學院 湖南長沙 410128;2.湖南農業大學東方科技學院 湖南長沙 410128)
隨著高等教育由精英教育向大眾教育的轉型,高等教育在滿足社會精英人才需求的同時,還應該培養適應社會現代化發展的應用型本科人才。作為本科院校大多數專業的公共數學基礎課程之一的《概率論》,一直在自然科學、社會科學、工程技術、經濟生活等領域起著重要的作用。不同于其它兩門公共數學基礎課程《高等數學》、《線性代數》是研究確定性現象的數學分支,《概率論計》是研究隨機現象的數據規律的一門學科。所謂的隨機現象指的是事前不可預言的現象,需要在大量的數據中找出某種規律,然后對這種規律提出合理的假設,再對這種假設進行檢驗,最后根據這種規律來預測未來的發展趨勢。不同于自然科學等存在的客觀現象,社會生活中廣泛存在著隨機現象,因此,概率論也成為處理隨機現象的最好工具。但是,隨著“云時代”的到臨,大數據受到越來越多的關注。根據研究機構Gartner給出的定義,大數據是需要新處理模式才能有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。根據IBM提出的有關大數據的特征,它具有“5V”的特征:規模性(Volume)、高速性(Velocity)、多樣性(Variety)、低價值密度性(Value)、真實性(Veracity)。而隨著大數據大規模的被廣泛使用,不僅僅很多學者和研究機構也開始關注這個問題,各國政府以及企業也非常重視大數據的挖掘工作。大數據所隱藏的價值信息不但成為很多行業贏得競爭的關鍵,還對國家的穩定發展具有重大的戰略意義。為此,李克強總理在2015年9月簽批《促進大數據發展行動綱要》,綱要明確提出在未來5到10年推動大數據的發展和應用。[1]
但是,大數據的數據特征使得傳統的統計學方法不一定再使用,傳統的統計學理論需要更新。因此,與之相對應的《概率論》課程的教學也需要進行改革。
大數據給統計學帶來了新的機遇,但也帶來了一些新的挑戰,一些經典的統計學分析在大數據中已經完全失效。因此,在大數據時代背景下,傳統統計學應該如何發展?相關統計學課程又應當做怎樣的教學改革,這都是統計學家與教學工作者很關注的問題。
1.相關性與因果性。舍恩伯格等在《大數據時代》中提到:“相關關系比因果關系更好地了解這個世界”,這種區別于傳統數學研究“因果關系”的現象引起了更多國外學者的關注。數據之間的相關關系的研究,使得人們對于世界的認識有一個更為開放的信息系統視覺,對事物的認識不再局限于封閉的領域。比如淘寶每年在11.11日舉辦的光棍節大促銷活動,淘寶官網通過hadoop數據平臺,對2011-2015年的淘寶全網數據分析,發現中國人在八大行業如時尚美妝、家電數碼、食品、服裝等方面消費較多,而且對這八大行業給出了行業發展趨勢報告。而且,通過個體的消費偏好、消費金額等數據,利用相關性原理,以計算機強大的分析能力來尋找個體購物的最優的關聯物。很多網站也涌現出大數據相關性的應用成果,不需要個體自行搜索,系統根據歷史記錄,自動給出可視化的數據新聞。
雖然大數據分析的相關性研究的結果價值不凡,但相關性不能反應出事物之間的本質關系,只能反映出數據之間的關系。還有就是事物之間的相關性并不能替代事物之間的因果關系,因為基于相關分析的結果只是反映出事物之間的關聯性,說明事物間有某種相同的變化趨勢,但是事物之間可能并不存在因果關系。故如果做決策分析時,直接采用相關性的結論,可能會導致決策失誤。
2.總體、個體、樣本
總體、個體、樣本是統計學中最基本的概念,也是統計學中最重要的關系,幾乎所有的統計理論都是從這三個概念出發而發展出來的?,F有的統計學中,總體指的是具有某種共同屬性的組成的集合,個體指的是集合中的每個元素,即是符合總體屬性的個別事物,是數據的承擔者或是來源者,樣本指的是從總體中隨機抽取的每個元素組成的集合。統計學研究的是總體的發展規律,但由于一些客觀原因如人力、物力的限制,無法來研究總體的發展規律,就從總體中隨機抽樣出一部分樣本,通過對樣本的研究來探討出總體的發展規律。所以,在一般的統計學中,其研究的邏輯路線是:先確定好研究的對象,然后研究每個個體的性質,從中找出所需的變量或者研究指標,然后再抽樣獲取所需變量的具體數據,進而根據這些數據通過統計分析得出結論,然后對結論進行檢驗。這種思路,很顯然是先確定總體,再由總體來確定研究所需的數據。但是,在大數據背景下,先看到的是數據而不是數據的承擔者,特別是網絡化時代當中的數據,根本無法得知數據的來源以及數據的基本特征,呈現出來的除了數據本身之外并無其他東西。這就導致大多數情況下直接面對全體數據,原來傳統統計學中的抽樣以及統計理論完全失效了。[2]
舍恩伯格等在《大數據時代》中也提出,大數據的“大”不僅僅是數據體量的大,更重要的是數據結構本身的重大改變。因此,他們在書中提出“要全體不要抽樣的”觀點。因為大數據可提供所有數據本身的信息,通過數據不但可以研究事物之間的普遍性規律,還可以具體研究個體的特征信息。但是,對舍恩伯格的“不需要樣本”的觀點,很多人持懷疑態度。因為在探索性的大數據分析中,抽樣分析仍然需要,只是功能會發生改變。而且,從動態的來看,大數據只是某個時刻的總體而已,后面時刻總要包含前面時刻的總體,那么,前面時刻的大數據也只是后面時刻大數據的一個樣本而已。所以,即使大數據的總體、樣本的關系發生了改變,但抽樣分析還是必不可少的,只是需要構建新的方法而已。
大數據時代下,傳統的統計學思維模式發生了改變,一些統計理論需要構建,新的軟件需要學習。因此,在大數據背景下,概率論的教學該怎樣進行?這是每個數學教師所面臨的問題。
1.改變思維模式。由于大數據研究的事物對象發生了改變,直接面對全體數據本身,因此,統計思維模式也應跟著變化。在大數據時代下,數據不僅僅是研究對象,還是研究的基礎資源,數據本身可以反映出事物之間的關系,還可以協助解決其他問題。所以,在現行的統計課堂上,需要改變統計思維模式。對數據的看法需要改變,從原來的研究對象來確定數據轉變成通過數據來研究事物對象。通過對數據的掌握與分析,來進一步揭示事物的本質關系。
2.更新教學內容。由于大數據當中的研究對象發生改變,抽樣的理論需要重新構建,傳統數學當中的確定性關系不再至關重要,事物之間的相關性比因果性更重要,等等這些方法與概念的重新推導與定義,都需要更新教學內容。而且,在傳統概率論教學中,重公式推導輕數值計算。所以,在大數據時代下,數學的理論推導應該讓步與數值計算,統計學課程的設定應該更加重視應用層面的知識,應該培養學生解決實際問題的能力。
3.重視計算機技能。大數據時代下,一些傳統的統計軟件解決不了的問題,可以在新的軟件下得以實現。而且大數據需要的是統計知識與計算機技能的結合,學生除掌握基本的統計理論外,還應該熟練操作計算機。運用計算機與統計方面的知識把數據整合在一起進行分析,轉化成可以分析的統計數據,并對數據的結果進行解釋,這些都需要加強學生的計算機技能的培養。
在大數據時代下,數據比黃金還重要,但如何把這些數據轉化成所需要的知識,這還需要統計學的教學得到改變。因此,教師應該針對現實社會人才的需求狀況,積極改革統計學的教學,來培養出適應時代發展的優秀人才。
[1] 李小平. 概率論與數理統計[M].北京:高等教育出版社, 2013.
[2] 馬雙鴿,方匡南.大數據時代統計學發展的若干問題[J].統計研究,2017,1:5-11.