朱威 上海電力大學數學系
多元統計分析作為信息與計算科學的一門專業課程,是理論與應用聯系十分緊密的一門學科,在社會學領域和自然科學領域都有著非常廣泛的應用,該門課程的教學需要結合時代對我國人才培養的需求與時俱進。已有文獻中對該課程的教學展開的很多有價值的研究。李衛東(2016)根據多年教學的體會,探討了多元統計分析教學中開展案例教學的必要性,并結合教學內容探討了實例分析在課程教學中的具體應用。馬艷梅、汪冬華(2013)具體研究了如何以案例為導向、以統計思想為主線、以實驗教學為依托培養經管領域學生的統計能力。肖枝洪、郭明月(2009)[3]則是通過國內外多元統計教學現狀進行比較研究后,對研究生的多元統計教學提供改革的方向和途徑。
下面從拓展的意義和必要性、拓展的途徑和方式、拓展預期達到的教學目標三個方面展開論述。
本人在該門課程的長期教學中,體會到學生的迷惑與茫然。首先這門課程是具有相當的難度,它需要基于高等數學、線性代數和概率論與數理統計課程作為先行課,作為本科生,本課程具備一定的難度和深度,有的學校甚至是作為研究生課程開設的。其次,學會了統計知識點,通過了考試,卻不知道如何運用統計知識,典型的落差在于“空有屠龍寶刀,而無屠龍之技”,碰到社會生活或者自然科學中的實際問題,不知道如何從已學的知識庫中調用合適的知識鏈條來解決問題。機器學習的興起和廣泛無疑為運用為該門課程的教學改革提供了契機。
按照Tom T.Mitchell(2003)的定義,機器學習是指計算機程序通過經驗來提升處理某項任務性能的行為。這里的經驗,通常是指歷史統計數據,比如數字記錄、語言、圖像、視頻等。機器學習集中了前人的大量成果,綜合運用了算法理論、優化理論、概率統計理論、信息論等各種學科的知識,借助大數據的時代背景,成為科學理論研究和商業應用的熱土。機器學習中的無監督學習的聚類方法,k-means 近鄰法,邏輯斯諦回歸分類,主成分分析降維等都是多元統計分析的核心理論。本課題將探討如何適當拓展多元統計分析的內容,結合相關的機器學習案例,激發學生興趣和熱情。同時,該課程若能成功的將學生引領進機器學習的領域,便會進一步拓展知識邊界,無論以后是從事技能工作還是學術研究,都大有裨益。從人才培養的角度,該課程向機器學習拓展既整合了已有教學基礎,又呈現開放性。既提升了學生能力和素質,也激勵教師自身不斷地跟蹤前沿領域,教學相長。
以筆者教授的“多元統計分析”課程為例,本課程主要的知識結構為以下幾部分:多元正態,多元線性回歸,邏輯斯蒂回歸,主成分與因子分析,典型相關分析,判別與分類以及聚類分析。機器學習由于發展迅速,知識體系還在不斷更新之中,但目前的主要理論是這幾部分:監督學習、無監督學習、強化學習、深度學習以及新發展出來的遷移學習等。監督學習是指利用一組帶標簽的數據,學習從輸入到輸出的映射,然后將這種映射關系應用到未知數據,達到分類或者回歸的目的。無監督學習是指對無標簽數據的一類學習算法。因為沒有標簽信息,意味著需要從數據集中發現和總結模式或者結構。無監督學習主要用于分類或者聚類。監督學習和無監督學習的重要區別在于數據是否有標簽。深度學習是指一類通過多層非線性變換對高復雜性數據建模算法的合集,其主要特征是多層和非線性,在某種程度上深度學習可以等同于深層神經網絡。
主成分分析和k 均值聚類作為非監督學習的主要算法,在任何多元統計分析教材中都是不可或缺核心理論。這可以作為一個拓展的突破口。多元統計分析主要是介紹學院式的基礎理論,更強調的是理論的嚴謹性,在應用上主要局限于小規模的案例數據集。可以考慮在教學活動中,以一個中小型產業應用的案例提出問題,并且核心解決方案是以主成分分析和k 均值聚類為主要思想方法來鍛煉學生的應用能力。比如人臉識別就是一個極具有吸引力的選項。
邏輯斯蒂回歸是經典的非線性理論,該理論是多元統計分析的重要部分,同時也是深度學習理論的基礎。卷積神經網絡在圖像識別、自然語言處理等領域的高效率大大的改變了產業界的信息處理方式,AlphaGo 在圍棋大戰上的驚艷表現令世人對一度塵封的神經網絡理論再次煥奪目光彩。邏輯斯蒂回歸本質上是基于線性回歸加上了一個sigmoid 函數,sigmoid 函數真是神經網絡理論的基礎。教師可以利用MNIST 手寫體數據集,通過手寫數字的識別問題,來拓展邏輯斯蒂回歸理論。
在多元統計分析向機器學習拓展的過程中,幾乎肯定會涉及到多元統計分析課程教學大綱之外的知識點,但作為一線教師切不可畫地為牢,固步自封。應始終懷有一種開放的心態和終身學習的態度來面對求知若渴的學生。知識體系的不斷更新和創新思想的突進,對高校的教師自身知識結構時刻是一個巨大的挑戰,教師自身的確需要不斷與時俱進。
多元統計分析向機器學習拓展的教學革新有如下目標:
一是為了讓學生將理論與實踐結合的更加緊密,提升學生的動手能力,特別是使用計算機程序解決小型項目的能力;二是使學生的基礎更加牢固,學生之前的先行課如線性代數、高等數學、概率論與數理統計、最優化理論等有了更多的應用場景,促使學生夯實這些理論課基礎;三是拓展學生的知識邊界,讓學生樹立開放的學習態度,不斷關注最前沿科學理論的發展動向。
本論文主要對多元統計分析課程向機器學習拓展進行了初步探討,指出了拓展的意義和必要性,對拓展的途徑的方式給出了具體的建議,對整個教學改革的目標作了清晰的闡述。當然,這里只是初步的探討,作為一門有課時和知識圈限制的課程,我們只能對有限的章節作合適的拓展,具體的教學效果反饋和教學細節上的考慮需要作更進一步的規劃,對教學案例需要做更詳盡的準備。