




【摘" " 要】數據科學與大數據技術專業主要學習的用于數學計算和數據分析的軟件有R語言、Python、MATLAB、SPSS等。“概率論與數理統計”是一門基礎數學課程,理論性較強,相對枯燥,利用Python和MATLAB軟件對概率計算、仿真、數值模擬方面的實驗案例進行探究,可以幫助學生更好地理解和掌握概率論與數理統計的知識和方法,提高學習興趣和學習效果,同時,可將理論知識轉化為實際應用,增強學生的實踐操作能力。學生掌握大數據軟件的使用和概率論與數理統計的知識,可以使其快速適應未來職業發展的需求,為未來的工作做好準備。
【關鍵詞】“概率論與數理統計”課程;實驗教學;Python;數值模擬
【引用格式】王永娟,姚艷,范英兵.大數據專業“概率論與數理統計”課程的實驗教學案例研究[J].黑龍江教育(理論與實踐),2025,79(3):76-78.
【中圖分類號】G640;TP391.6" " " " " " "【文獻標識碼】A" " " " " " "【文章編號】1002-4107(2025)03-0076-03
一、引言
隨著科學技術的發展和社會現代化的推進,社會對大數據科學的研究與應用型人才的需求與日俱增。數據科學與大數據技術專業是近年來國家針對“大數據”時代背景新增的專業[1]。概率論與數理統計是統計學和數據挖掘的理論基礎,在大數據相關專業中尤為重要。大數據的價值體現在其蘊含的規律上,而對數據進行處理、分析離不開統計學和數據挖掘。利用概率論與數理統計的原理對數據中各個屬性進行統計、分析,找出數據蘊含的規律,讓其創造價值,是大數據專業學生必須掌握的基本理論知識,更是大部分學生未來工作和生活的必備技能。
在概率論與數理統計實驗中,經常需要處理大量的數據以驗證或探索統計規律。大數據軟件能夠處理和分析大規模、復雜的數據集,極大地提高數據處理的效率和準確性,使實驗結果更加可靠和精確[2]。同時,大數據專業軟件具有豐富的數據可視化功能,能夠將數據以圖表、圖像等形式展示出來,通過可視化,學生和教師可以更直觀地理解數據的分布、趨勢和關系,從而更深入地掌握相關概念和方法。大數據專業軟件還通常包含強大的數據挖掘和機器學習功能,可以幫助學生發現數據中的隱藏模式和關聯,探索新的統計規律和知識。而這對于培養學生的創新思維和實踐能力具有重要作用,有助于學生在未來的科研和工作中更好地應用概率論與數理統計知識。
數據科學與大數據技術專業主要學習的用于數學計算和數據分析的軟件有R語言、Python、MATLAB、SPSS等,而“概率論與數理統計”課程可以應用的軟件主要有Python、MATLAB和R語言,應用在概率及隨機變量數字特征計算、繪制與驗證分布函數及密度函數圖像、數值模擬、參數估計、假設檢驗等內容[3]。文章對相關軟件在概率計算、驗證分布函數、數值模擬等方面的案例進行探究,幫助學生快速計算的同時,增加動手實踐的機會,更好地理解理論內容。
二、Python軟件在概率計算中的實驗案例
Python軟件在概率計算中的應用廣泛且靈活。在實驗中,可以使用NumPy庫來生成隨機變量樣本,并計算其概率分布。例如,通過NumPy庫的random模塊,可以模擬拋硬幣的過程,計算正面和反面出現的概率。同時,
SciPy庫也提供了豐富的統計函數,可用于計算各種概率分布的參數、概率密度函數值及累積分布函數值等。這些功能使得Python成為概率計算的有力工具[4]。三門問題是概率論中的經典問題,以貝葉斯公式求解三門問題為例,介紹筆算和軟件算法,讓學生體會換門與不換門概率變化的過程,同時,啟發學生對程序進行修改,實現此問題的多種算法表達。
【三門問題】假設你參加一個游戲,要求在三扇門中選擇一扇:一扇門后是汽車,另兩扇門后是山羊。當你選擇了一扇門但未開啟前,知道門后秘密的主持人開啟了剩下兩扇門中的一扇,露出山羊,這時你會改變原來的選擇嗎?
問題分析:假設參賽者一開始選擇了門A,那么汽車在A后面的概率是1/3,也就是說中獎的概率是1/3,未中獎的概率是2/3。假設此時主持人打開了有山羊的B門后,排除了一個沒有中獎的情況,利用貝葉斯公式可以算得,此時參賽者選擇換門中獎的概率即為2/3。在利用貝葉斯公式進行實際筆算過程中,將問題拆解成在A、B、C任一門后有汽車的情況下B門被打開的概率,此時學生不容易理解,這時可以用Python軟件將換門后中獎的所有情況羅列出來,通過古典概型進行計算,使學生更容易理解。
通過Python中的random.choice函數實現隨機放獎品與隨機選門,通過def自定義函數對換門與不換門進行模擬,最終計算結果如圖1所示。利用軟件能幫助學生理解換門與不換門的思維過程,圖像展示結果,驗證了三門問題的數學結論,即換門是一個更好的策略。該實踐加深了學生對概率論中條件概率和獨立事件的理解,提供了一種直觀的方式來解釋和解決看似復雜的概率問題。
三、Python軟件在仿真中的實驗案例
在“概率論與數理統計”課程中,使用Python軟件進行仿真是一種非常有效的教學方法,可以幫助學生直觀地理解抽象的概念和原理。如模擬投擲硬幣的過程并計算正面出現的概率;模擬利用蒙特卡洛法估計圓周率π;模擬二項分布,當試驗次數很大且成功概率適中時,二項分布近似于正態分布。使用Python軟件進行仿真時,常用的庫包括用于離散事件仿真的SimPy庫、數據處理與分析的Pandas庫、數值計算的NumPy庫和數據可視化的Matplotlib等[5]。以下利用Python軟件模擬高爾頓釘板實驗,模擬小球下落過程,繪制小球下落位置圖像,使學生深入理解概率論與數理統計的概念和原理。
【高爾頓釘板】高爾頓釘板(圖2),常常在賭博游戲中見到,即莊家通常在兩邊放置值錢的東西來吸引顧客。現在可用中心極限定理來揭穿這一賭博中的奧秘[6]。
問題分析:假設有n排釘子,記隨機變量Xi表示第i次碰釘后小球從左邊或右邊落下,左邊落下記作1,右邊落下記作-1,Xi服從兩點分布,n次碰釘后小球的位置服從正態分布,所以,落在中間的概率遠遠大于落在兩邊的概率。通過Python軟件可以對小球下落過程進行模擬,并繪制出多個小球下落后的概率分布圖像。
利用Matplotlib庫中函數實現可視化,主程序中主要使用for循環、if語句實現多個小球下落后的頻率分布曲線。
進行3組實驗,小球落下位置的概率結果如圖3所示。通過動態展示小球下落過程,可以觀察到正態分布的形成過程,讓學生體會看似無序但實則有規律的運動。同時,啟發學生思考隨機性、確定性和無序性之間的關系,從而拓展思維視野。
四、MATLAB軟件在數值模擬中的實驗案例
通過MATLAB軟件展示“概率論與數理統計”課程中的一些基本概念和定理,如模擬泊松分布并繪制其概率分布函數圖像;模擬數據進行線性回歸分析,生成正態分布的隨機樣本并繪制直方圖等。通過數值模擬,學生可以更直觀地理解這些概念和定理,并學會使用MATLAB軟件進行相關的數值計算和可視化。MATLAB軟件用于數值模擬的函數豐富多樣,包括用于曲線擬合的polyfit()函數、進行參數估計的最大似然法和矩法函數、實現插值運算的一維插值和樣條插值函數,以及用于微分方程求
解的ode45函數等。以下為利用MATLAB軟件模擬中心極限定理,演示原分布為不同分布時,極限分布為正態分布的案例。
【中心極限定理】設隨機變量X1,X2,…Xn,…相互獨立,服從同一分布,且 這個定理表明,當n充分大時,n個具有期望和方差的獨立同分布的隨機變之和近似服從正態分布。雖然在一般情況下,很難求出X1+X2+…+Xn+…的分布的確切形式,但當n很大時,可以求其近似的分布[7]。單看定理內容比較難理解,此時可利用MATLAB軟件在X1,X2,…Xn,…服從二項分布、泊松分布、指數分布和伽馬分布4種情況下,模擬其和的概率分布函數[8],如圖4所示。
以單變量服從二項分布為例,首先,利用res定義單變量表達式、構造和函數表達式,利用Gamma函數生成變量隨機數,histogram函數繪制單變量直方圖;其次,計算出均值和標準差后,用normpdf函數計算正態分布的概率密度函數[9];最后,用plot()函數畫出伯努利試驗總次數分別為10、20、200、600,概率均為0.5的情況的直方圖與概率密度圖像。通過圖像對比,學生體會隨著試驗次數的增加,二項分布和的分布趨近于正態分布的效果。圖4a為實驗總次數為200、概率為0.5時的擬合效果圖。
是離散型還是連續型,隨著試驗次數的增多,其和都近似服從正態分布。通過圖形對比,增強了中心極限定理的可信度,同時,使枯燥的定理學習變得更加生動有趣,提高了學生學習興趣和學習效果[10]。
五、結束語
“概率論與數理統計”課程為數據科學與大數據技術專業提供了方法支持,在大數據處理和分析中,需要運用概率論與數理統計的原理和方法對數據進行描述、推斷和預測。利用大數據軟件解決“概率論與數理統計”課程" " " " " " " " 中心極限定理為統計推斷提供了理論基礎,在實際
應用中,經常需要根據樣本數據推斷總體的特征,而中心極限定理可以建立置信區間和假設檢驗等統計推斷的方法,是非常重要的定理。通過對比圖4可知,無論單變量
中的問題,可以提高學生的實踐能力和動手能力。學生運用所學的理論知識,結合軟件工具,對數據進行處理、分析和建模。這種實踐過程可以幫助學生將理論知識轉化為實際應用,增強學生的實踐操作能力。引入大數據專業軟件,可以促進“概率論與數理統計”課程與現代信息技術的融合,推動課程教學的改革和創新。這種融合不僅能夠提高學生的學習興趣和積極性,還可以培養學生的數據素養和數據處理能力,為未來的職業發展打下堅實基礎。
【參" "考" "文" "獻】
[1]" 謝桃楓,曹莉.概率論與數理統計的教學研究:基于數據科學與大數據技術專業[J].教育教學論壇,2020(45):299-300.
[2]" 胡嘉卉.實驗輔助概率論與數理統計教學的應用實踐[J].數學學習與研究,2021(32):2-4.
[3]" 王永娟,姜喜春,謝兵兵.Python在概率論與數理統計教學中的應用案例研究[J].黑河學院學報,2022,13(9):104-105.
[4]" 鄒麗珊.基于Python的“概率論與數理統計”課程實驗可視化研究[J].安徽電子信息職業技術學院學報,2024,23(1):49-54.
[5]" 肖進勝,楊力衡,丁玲,等.現代數理統計中假設檢驗的教學探討[J].高教學刊,2024,10(8):117-120.
[6]" 吳贛昌.概率論與數理統計[M].北京:中國人民大學出版社,2022:102-105.
[7]" 王偉珠.論中心極限定理及應用[J].赤峰學院學報(自然科學版),2013,29(19):1-2.
[8]" 章美月.基于Mathematica的《概率論與數理統計》課程教學改革探索與實踐[J].大學數學,2020,36(5):49-56.
[9]" 李守彩,崔建新,候軍麗.基于BOPPPS模式的“中級財務會計”課程探究式課堂教學改革研究與實踐[J].黑龍江教育(理論與實踐),2024,78(10):71-74.
[10]" 韓凌波,李曉玉,石麗梅.面向新工科的“MATLAB" 語言及應用”課程教學改革與探索[J].黑龍江教育" (理論與實踐),2024,78(7):67-69.
編輯∕王力
【收稿日期】2024-04-16" " " " " " " " " " " " " " " " " " " " " " " " " " " " 【修回日期】2024-07-16
【作者簡介】王永娟,女,副教授,研究方向為大數據教學與實驗;姚艷,女,教授,研究方向為數學教學與數學實驗;范英兵,男,副教授,研究方向為數據處理與分析。
【基金項目】教育部產學合作協同育人項目“新工科背景下數據科學與大數據技術專業教師教學與實踐能力提升培訓”(230821263607201);黑龍江省高等教育教學改革研究項目“新工科背景下概率論與數理統計課程混合式教學研究與實踐”(SJGY20220662)