摘 "要:通過揭示統計學與智能化技術核心機器學習之間的重要關系,提出智能化時代下研究生統計學專業教學改革的目標,即把學生培養成為推動統計學以及人工智能發展的重要力量。提出教學內容改革的框架,將機器學習中相關方法分別融入統計學專業各門課程教學中;實施方案為在理論和實踐教學中,將傳統方法與機器學習方法進行結合和比較。最后以時間序列分析課程為例,具體探討怎樣與機器學習深度融合,以此探索研究生教學高質量發展之路。
關鍵詞:智能化;機器學習;研究生;統計學專業;教學改革
中圖分類號:G423.07 " " "文獻標志碼:A " " " " "文章編號:2096-000X(2025)10-0131-05
Abstract: By revealing the important relationship between statistics and machine learning, the core of intelligent technology, this paper puts forward that the goal of teaching reform for postgraduates majoring in statistics in the era of intelligence is to cultivate students as an important force to promote the development of statistics and artificial intelligence. The framework of teaching content reform is proposed as follows: the relevant methods in machine learning are integrated into the teaching of each course of statistics specialty respectively;the implementation plan is to combine and compare traditional methods with machine learning methods in theory and practice teaching. Finally, taking the course of time series analysis as an example, this paper specifically discusses how to deeply integrate with machine learning, so as to explore the road of high-quality development of graduate teaching.
Keywords: intelligence; machine learning; graduate students; statistics; teaching reform
黨的二十大指出,“建設教育強國、科技強國[1]”是我國發展的總目標之一。教育作為中國式現代化的基礎支撐,必須緊跟時代要求,不斷與時俱進地改革,才能培養出在全球具有競爭力的人才,為中國特色社會主義建設服務。通常認為,第三次工業革命的標志是大數據的開發和利用,第四次工業革命是生產方式的智能化。現在正是第三次和第四次工業革命的交替之際,世界即將邁入智能化時代[2-3]。對于即將到來的智能化時代,我們唯有把握機遇,迎接挑戰,對教育進行智能化改革,才能達到時代的要求。特別是研究生教育,肩負著為國家培養高層次人才的重任,更是需要把握時代的脈搏,開展智能化改革,促進研究生教育高質量發展。
教育的中心是教學,教學是實現教育目的的基本途徑。因此,智能化時代下,研究生教學的智能化改革勢在必行。研究生教學智能化改革可以分為兩種:一種是針對所有專業課程的,對其教學方法和教學手段的智能化改革;另一種是針對部分與智能化知識相關的專業課程的,根據研究生課程體系的建設理論,還應該對其教學目標和教學內容等進行智能化時代下的改革[4]。人工智能的核心是機器學習,機器學習是運用計算機,從大量數據中學習復雜的知識,而統計學一直是研究如何搜集數據、分析數據的學科。可見,統計學屬于與智能化知識相關的專業[5-6]。這里,我們以研究生統計學專業為例,討論與智能化知識相關的專業課程的教學目標和教學內容的改革,以此探索智能化時代下研究生教學高質量發展之路。
一 "智能化時代研究生統計學專業教學目標改革
人工智能起源于二十世紀五六十年代,但因受到計算機性能限制,未能得到很大的發展。直到最近二十多年,隨著計算機性能飛速提高,人工智能呈現出勃勃生機。如今人工智能已經在工業、農業、經濟、醫療和教育等領域,展開著廣泛的研究和應用。眾所周知,人工智能是依靠機器學習技術支撐起來的,想要成為智能化時代的主人,掌握機器學習是關鍵[2,5]。
(一) "問題的提出
機器學習作為一門新興的學科,是利用計算機對樣本數據進行學習,找到數據的規律,達到預測和控制數據的目的。機器學習的研究目的與統計學學科的研究目的是一致的。于是有人提出疑問:機器學習對數據的研究是不是涵蓋了統計學對數據的研究?統計學還有存在的意義嗎?智能化時代下研究生統計學專業教學目標究竟應該是什么?
(二) "問題的研究
回答這些問題,需要從如下三個方面探討統計學與機器學習之間的重要關系。
1 "從采集的數據方面
統計學從古時候人類對于人口、財產等數據的統計開始算起,至今已有幾千年的歷史。現在的統計學應用十分廣泛,可以說,統計學存在于任何有人類思維活動的領域[7]。因為統計學發展過程與數學方法關系密切,研究生統計學專業大多屬于理學門類,這樣培養的研究生,統計學和數學知識都比較完備。
統計學的研究對象是數據,這一點與機器學習一樣。不過,傳統統計學研究的數據,一般是通過觀察或調查等方法得到的結構化數據。而機器學習研究的數據,更傾向于數量龐大的大數據,并且可以是從傳感器、網絡上獲得的文本、圖像等非結構化數據[6,8]。所以,從數據類型上看,機器學習比傳統統計學應用更廣泛,這也是目前統計學專業已普遍增設機器學習課程的一個原因。
雖然數據的搜集和存儲方式已經取得長足的進步,它們為統計學和人工智能提供充足的數據信息基礎。然而,只有運用強有力的技術方法加工這些數據信息,才能真正解決實際問題,實現人工智能等用途。
2 "從研究的方法方面
機器學習是運用計算機模擬人類學習行為的學科,它的許多理論與統計學有著直接的關系,不妨來看一些機器學習中使用的統計學方法。
機器學習研究的對象往往是大數據集,數據集中如果含有過多的特征,可能導致構建的模型太復雜、過擬合或者預測誤差偏大等不良結果。為減少數據集中的特征,需要對數據進行特征選擇或者特征提取的工作,以降低數據的維度。關于數據特征的選擇或者提取的機器學習方法中,很多就是統計學的方法[8]。比如,數據特征的選擇中,經常使用統計學中的方差分析、卡方擬合優度檢驗等方法,過濾掉那些對輸出目標影響較小的特征。也常常使用統計學中的嶺回歸、Lasso回歸等,區分數據中重要的特征和不重要的特征。同樣,在數據特征的提取中,經常使用主成分分析、因子分析等經典統計學方法,實現數據的降維。
除了上述數據降維的工作,機器學習中其他常見的任務:回歸、分類、可視化等,往往也是基于統計學方法來完成[5]。比如,以貝葉斯統計學為基礎的貝葉斯學習,就可以用來實現上述所有的任務。其實,貝葉斯學習是機器學習中的重要算法之一,廣泛應用于圖像壓縮、自然語言處理、人工神經網絡等復雜的機器學習。所以,從研究方法上來看,機器學習十分依賴于統計學這個基礎,想要從根本上掌握機器學習方法,就必須掌握其中的統計學原理。
3 "從使用的軟件方面
人工智能和統計學,都是依靠于計算機硬件和軟件的進步而發展起來的學科。關于使用的軟件,所有的統計學方法和機器學習方法,都可以使用當今流行的軟件Python或者R語言實現。而且,Python或者R語言都是性能良好的開源免費軟件[8-9]。
對于統計學專業的學生來說,他們在本科生階段,一般就有這兩種軟件使用方法的教學課程。在研究生階段,他們對于這兩種軟件的掌握更加熟練。統計學方法和機器學習方法能使用同一款軟件實現,意味著我們可以在一個問題中同時使用這兩類方法,這為我們把統計學和機器學習進行深入融合和應用提供方便。
(三) "教學目標改革建議
從上面三點統計學與機器學習密切而又重要的關系可知,統計學是機器學習的起源和基礎,現在它們交互作用,不可分割。尤其是在研究方法上,統計學對機器學習有著重大的影響和貢獻。因此,智能化時代下統計學不但有存在的意義,而且統計學對人工智能的發展十分重要。然而,我們必須對研究生統計學專業的教學進行改革,才能使得培養的研究生在智能化時代中發揮充分積極的作用。
事實上,智能化時代下最需要的是掌握人工智能核心技術——機器學習方法的人才。對于機器學習方法的掌握有兩類人。第一類人掌握機器學習中各種已開發的工具箱和算法,第二類人不但掌握已有的機器學習方法,還能創造新模型、新算法,推動人工智能的發展。顯然,第二類人必須從根本上,即從基礎理論上理解和掌握機器學習方法。眾所周知,機器學習主要理論基礎是計算機、概率論、統計學和數學。統計學專業的研究生,正是同時掌握這幾門基礎課程知識的人。他們作為智能化時代下國家的高層次人才,對他們的培養目標應該是讓他們成為第二類人。
要使得培養的研究生成為掌握機器學習的第二類人,需要對研究生統計學專業各門課程的教學進行深入的改革,這里提出的教學目標改革建議是:不但要讓學生掌握統計學專業各門課程中的傳統方法,以及機器學習中已有的工具,而且要讓他們深入理解機器學習方法中的各種統計學原理,掌握統計學課程中傳統方法與機器學習之間的重要聯系,能夠在創新統計學方法的同時,運用統計學知識創新機器學習的模型和算法。即智能化時代下研究生統計學專業教學目標是把統計學專業的研究生培養成為推動統計學以及人工智能發展的重要力量。
二 "智能化時代研究生統計學專業教學內容改革
為了實現上述智能化時代的教學目標,接下來進一步探討研究生統計學專業各門課程教學內容的改革。目前高校研究生統計學專業課程設置中,雖然大多已經開設機器學習課程,但它與傳統的各門統計學專業核心課程是分開單獨設立的,甚至可能將它當作計算機類的一門課程在講授,注重的是已有算法的運用,而不是將它與統計學專業各門核心課程教學內容融合在一起,深入講授機器學習中的各種統計學原理,將機器學習中相關方法與各門傳統課程中的方法進行結合和比較[10-11]。這樣,學生很可能不能領悟到機器學習與統計學專業各門課程之間深刻的聯系,不能從根本上掌握機器學習方法,以及各門統計學專業課程智能化時代下的重要發展方向,更不能靈活地創造新模型、新方法。因而,智能化時代下研究生統計學專業課程教學內容改革,需要將各門研究生課程教學內容與機器學習進行深度融合。下面初步探討教學內容改革的框架和實施方案,拋磚引玉。
(一) "教學內容改革的框架
這里我們提出的教學內容改革的框架是:將機器學習中與統計學相關的方法,分別深入融合到研究生統計學專業的各門課程教學內容中,即將機器學習結合到統計學各門課程中一起講解和應用。研究生統計學專業核心課程通常包括高等概率論、多元統計分析、時間序列分析等[12]。例如,可以將一些數據特征的選擇或者提取的機器學習方法,結合到研究生多元統計分析課程;可以將隱馬爾可夫模型、循環神經網絡等機器學習方法,結合到研究生時間序列分析課程等等。
1 "機器學習融入各門課程的意義
在研究生統計學專業各門課程教學中,融入相關的機器學習方法,是有益于智能化技術發展的改革。目前,雖然智能化時代即將到來,但作為核心技術支撐的機器學習的理論和方法體系仍然還在構建當中,遠未完善。而且,機器學習的一些不足之處,并不能完全依靠計算機解決,而是需要依靠概率論、統計學、數學等才能得到進步和發展[5]。比如,機器學習方法一般不能顯式表達數據的變化規律,時常導致預測準確率不高,而這一不足可能通過與統計學模型的結合得到解決。因此,統計學不僅僅為機器學習提供理論基礎,更是促進機器學習向前發展的動力之一。
將機器學習深入融合到研究生統計學專業的各門課程教學內容中,有著兩方面的意義。一方面,傳統統計學專業各門課程教學內容,得到與前沿智能化知識相結合的改革和拓展。另一方面,機器學習課程基礎理論的講解,得以深入和完善,并能促進機器學習方法的創新和發展。這樣培養的研究生,才能不僅可以推動統計學學科的發展,而且具有創新機器學習方法的能力,才能符合智能化時代的需求。
2 "機器學習融入各門課程的可行性
各類統計學方法與機器學習方法相結合是可行的,是一種有意義的創新。這一點可以從國內外不少統計學方法與機器學習方法相結合的期刊文獻中得到證實[13-14]。在研究生各門課程教學中,統計學與機器學習的這種交叉融合,極其有利于激發學生的創作靈感。例如,機器學習里的混合模型,其基礎模型通常是傳統統計學模型,由此可以引導學生使用不同的統計學模型,創造不同的機器學習混合模型。可見,在傳統統計學專業各門課程教學內容中融入機器學習,不僅是可以實現的,而且有利于教學、科研和應用的創新和發展。統計學與機器學習這兩個學科本就應該互相補充、互相借鑒,共同發展。
3 "機器學習融入各門課程的合理性
機器學習方法一般屬于非線性方法,通常本科生統計學專業學習的是線性方法,而研究生統計學專業學習的是非線性方法。所以,在研究生統計學專業各門課程教學中,融入機器學習的內容,正是恰當的改革。前面提到,統計學專業的研究生對于機器學習的主要基礎知識:概率論、統計學、數學等,都是熟悉的。故而把機器學習中相關內容引入到統計學專業各門課程教學中,并不會增加學生的負擔,反而會激起他們學習各門傳統課程更大的興趣。
(二) "教學內容改革的實施方案
這里我們提出的教學內容改革的實施方案,計劃從理論教學和實踐教學兩個方面進行。
1 "理論教學內容改革的實施方案
計劃分別將機器學習中相關方法的統計學原理和證明推導等理論知識,融入研究生統計學專業對應課程的理論教學內容中。融入的教學內容,一般需要用教材和教學課件的形式呈現。國外關于機器學習與統計學結合的研究生教材已有少量的出現,國內似乎還沒有,正需要我們去建設。
學術探究性是研究生教育的本質特征,這個特征使得研究生教育區別與其他層次的教育[4]。對于講授的理論知識進行多角度的探究、比較等,能讓研究生的收獲得到顯著性增加[15]。因此,在各門課程的理論教學中,應該融合和比較各種傳統統計學方法與相關機器學習方法的理論,包括模型的定義、建模的原理和結果的分析等。引導學生做一些學術上的探討,比如,這兩類方法構建模型的思路、推導的步驟、預期的效果和適用的數據等有什么異同?兩類方法怎樣結合可能優化模型?等等。并且可以讓學生自由發揮,提出創建新模型、新算法的設想。通過這些理論上的結合和比較,學生才能夠深刻理解這兩類方法之間的區別和聯系,在面對復雜的實際問題時,方能從理論上選擇或創建適當的方法去解決問題。
理論創新是科技發展的根本,在研究生統計學專業各門課程教學內容中,從理論上融入相關的機器學習方法,不但促進學生深入理解機器學習的基礎理論,提升他們的理論創新能力,而且也是對研究生統計學專業各門傳統課程內涵的拓展。
2 "實踐教學內容改革的實施方案
計劃在研究生統計學專業各門課程教學內容中,展示傳統方法與機器學習方法相結合的教學案例,安排課程實踐教學環節。統計學和機器學習都是以應用為導向的學科,實踐教學自然十分重要。前面已經談到,Python和R語言都可以用于統計學和機器學習所有方法的實現,因而將兩類方法結合在一個問題里應用是方便的。
關于創建的教學案例,可以用于演示兩類方法建模效果的差異,也可以用于揭示兩類方法互相補足對方的弱點帶來的效果提升,還可以是呈現基礎模型構建的靈活性等等。通過案例的學習,學生直接看到各種傳統統計學方法與機器學習方法相比的優缺點,啟發他們利用兩類方法各自的優勢和靈活性,更好地解決實際問題。
通常認為,課程教學內容應該既具有客觀性,又具有社會性[16]。在課程實踐教學環節中,引導學生從社會熱點或者職業規劃等出發,選擇一個實際問題進行研究,特別具有社會意義。一般地,可以鼓勵他們將統計學和機器學習兩類方法結合起來建立模型,分析和比較應用的效果,研討模型的優化等;可以組織他們撰寫實踐報告,并在課堂上開展進一步的交流活動等。通常研究生課程授課學時較少,可以采取課內、課外相結合的方式,來完成實踐教學任務。正所謂實踐出真知,實踐教學培養學生的動手能力和應用創新能力,增強學生的獲得感、自信心,為他們未來智能化時代下的科研和工作打下良好的基礎。
三 "時間序列分析課程智能化教學改革
這里以時間序列分析課程為例,具體探討智能化時代下課程教學內容改革如何實施,探討怎樣將時間序列分析課程與機器學習深度融合,以促進彼此的融合和發展。
樣本數據分為與時間有關的數據和與時間無關的數據。時間序列分析是分析與時間有關的數據的統計學專業課程。關于時間序列分析課程教學,一般針對本科生,主要講解的是線性時間序列分析方法,而針對研究生,主要講解的是非線性時間序列分析方法。本質上,世界是非線性的,非線性時間序列分析是目前時間序列分析發展的主流方向[17]。前面談到,機器學習方法通常屬于非線性方法,正是適合將機器學習中關于時間序列的研究方法,加入到研究生時間序列分析課程教學中來。
(一) "教材和課件的改革
據我們所知,國內并無將傳統的時間序列分析方法,與機器學習中的時間序列分析方法編寫在一起的著作。國外已有個別這樣的專著出現,但只是把線性時間序列分析方法與機器學習方法編著在一起,沒有介紹非線性時間序列分析的經典方法與機器學習的結合和比較[18]。因此,在研究生時間序列分析課程教學中,融入機器學習的相關方法時,需要從教材和教學課件的改革入手。
(二) "機器學習融入時間序列分析課程教學內容
傳統的非線性時間序列分析方法常見的有:門限模型、局部多項式回歸、樣條逼近和條件異方差模型等[17]。另一邊機器學習中,其實大部分的方法都不能用于分析時間序列。目前,能用于分析時間序列的機器學習方法主要有兩個:隱馬爾科夫模型和循環神經網絡[5,18]。雖然從實際效果來看,這些機器學習方法并不一定比傳統時間序列分析方法好,但是,隨著智能化時代的到來,機器學習確實有著徹底改變所有傳統方法的潛能,不容忽視。將機器學習中針對時間序列的分析方法,融入到研究生時間序列分析課程的教學中來,是必要的和必須的。
1 "實施方案一:將隱馬爾可夫模型引入門限模型的篇章
隱馬爾科夫模型是多個模型的組合,而門限模型也是由多個模型構成,只不過它們內部模型之間的轉換機制不同。隱馬爾可夫模型是通過引入一個馬爾可夫鏈作為隱性變量,控制數據在不同的內部模型之間轉換。而門限模型則是通過門限變量來控制內部模型之間的轉換,兩類模型有著相似之處。另外,隱馬爾科夫模型與通常的機器學習模型一樣,沒有顯式表達式,而門限模型與傳統統計學模型一樣,有顯式表達式,能對模型的實際意義進行解釋。因此,若將隱馬爾科夫模型和門限模型放在同一篇章中進行教學,在理論教學上,方便引導學生比較這兩類模型的統計學原理和構建步驟,深入討論這兩類模型的優缺點和改進方法等;在實踐教學中,可以創建融合這兩類模型解決實際問題的案例,引導學生實際應用這兩類方法,體會這兩類方法應用效果的差異,研討如何利用各自的優勢更好地解釋數據等。
2 "實施方案二:將循環神經網絡與局部平滑法融合講解
初始的循環神經網絡并不太具有實際使用價值,但改進后得到的長短期記憶神經網絡和門控循環單元神經網絡等,取得了不錯的應用效果。長短期記憶神經網絡模型等的主要構造是:引入門控機制對過去數據進行取舍,通過非線性變換預測未來[19]。從模型的構建來看,改進的循環神經網絡與傳統非線性時間序列分析方法中的局部平滑法有一定的相似性。局部平滑法使用核函數對過去數據進行取舍,也是使用非線性方法預測和控制數據[17]。因此,若將長短期記憶神經網絡和門控循環單元神經網絡等機器學習內容,融入到局部平滑法的課程教學內容中,在理論教學中,可以對比改進的循環神經網絡和局部平滑法的基本原理,使得學生掌握前沿機器學習方法與傳統時間序列分析方法,在模型構建上的異同,激發學生的創新思維和創新能力;在實踐教學中,可以讓學生認識到機器學習方法與傳統方法相比,在數據量需求、運行速度和模型優化等方面的差異,從而鍛煉他們在實際中針對具體問題靈活構建分析方法的能力。
四 "結束語
人工智能蓬勃發展,其核心技術機器學習與研究生統計學專業各門核心課程之間,有著密切而又重要的關系,需要在各門課程的教學中,將它們從理論上和實踐上進行深度融合。這種將機器學習中的相關方法,分別融入到研究生統計學專業各門傳統課程教學中的改革,能夠使得培養的研究生不但在統計學領域有所作為,還能成為人工智能領域的引領者、創造者,促進智能化時代下研究生教學的高質量發展,為教育強國和科技強國作貢獻。
參考文獻:
[1] 習近平.高舉中國特色社會主義偉大旗幟,為全面建設社會主義現代化國家而團結奮斗——在中國共產黨第二十次全國代表大會上的報告[EB/OL].(2022-10-25)[2023-10-2].https://www.163.com/dy/article/HKICALF60521QBNK.html.
[2] FARHAN A. A, SHIRIN A, ADIL H M, et al. The artificial intelligence technologies in Industry 4.0: A taxonomy,approaches, and future directions[J]. Computers amp; Industrial Engineering,2023(185):109662.
[3] 姚錫凡,景軒,張劍銘,等.走向新工業革命的智能制造[J].計算機集成制造系統,2020,26(9):2299-2320.
[4] 羅堯成,謝安邦.論研究生教育課程體系開發的三個理論基礎[J].教育研究,2008(4):30-35.
[5] 須山敦志.機器學習入門[M].王衛兵,楊秋香,等,譯.北京:機械工業出版社,2020:1-29,132-142.
[6] 班尼特,布里格斯,崔奧拉.妙趣橫生的統計學:培養大數據時代的統計思路[M].胡暉,徐斌,譯.北京:人民郵電出版社,2016:1-33.
[7] 斯蒂格勒.統計探源——統計概念和方法的歷史[M].李金昌,等,譯.杭州:浙江工商大學出版社,2022:1.
[8] 薛薇.Python機器學習原理與實踐[M].北京:中國人民大學出版社,2021:1-34,237-288.
[9] 卡巴科弗.R語言實戰[M].王韜譯.北京:人民郵電出版社,2023:1-18.
[10] 魯萬波,董春.優化統計學研究生培養模式:國際經驗與本土探索[J].學位與研究生教育,2021(6):9-15.
[11] 朱建平,張悅涵.大數據時代對傳統統計學變革的思考[J].統計研究,2016,33(2):3-9.
[12] 《面向21世紀的中國院校高級統計人才培養及課程體系研究》課題組.面向21世紀的中國院校高級統計人才培養及課程體系研究[J].統計研究,2001(1):39-44.
[13] DEQIAN L, SHUJUAN H, JINYUAN G, et al. A New Hybrid Machine Learning Model for Short-Term Climate Prediction by PerformingClassification Prediction and Regression Prediction Simultaneously[J]. Journal of Meteorological Research, 2022(36):853-865.
[14] 張穿洋,朱文莉,李曉冉,等.急性腦卒中預后預測模型:機器學習與傳統回歸模型的比較[J].中國CT和MRI雜志,2023,21(7):24-26.
[15] 肖敏,張艷寧,謝妮.有效教學行為對研究生課程學習收獲的影響分析[J].學位與研究生教育,2021(4):80-86.
[16] 鄭紅娜.從建構主義到社會實在:知識教學的反思與重構[J].當代教育科學,2022(2):33-40.
[17] 范劍青,姚琦偉.非線性時間序列——建模、預報及應用[M].陳敏譯.北京:高等教育出版社,2005:11-20.
[18] 拉澤里.時間序列預測:基于機器學習和Python實現[M].郝小可,譯.北京:機械工業出版社,2022:37-39,130-158.
[19] 邱錫鵬.神經網絡與深度學習[M].北京:機械工業出版社,2022:133-154.