王超杰
(江蘇大學數學科學學院 江蘇·鎮江 212013)
隨著大數據時代的到來,特別是近幾年人工智能技術的興起,統計學正逐漸成為全國各高等院校中炙手可熱的專業。2011年,國務院學位委員會、教育部下發《關于印發〈學位授予和人才培養學科目錄(2011年)〉的通知》,正式將統計學升格為一級學科,充分體現了國家對統計學學科發展的重視。根據2017年全國第四輪學科評估的結果,統計學學科評估為A類的12所高校中,已有9所成立了獨立的統計學院或研究院。其中評估結果為A+的兩所高校,北京大學于2010年成立了統計科學中心,中國人民大學更是早在2003年就成立了獨立的統計學院。然而,在統計學本科專業的課程設置上,不少高校仍延續過去數學和應用數學專業的培養模式,過于強調數學理論基礎,而忽略了大數據時代下對統計學專業人才應用能力的培養。針對該現狀,已經有一些專家學者對此進行了研究。[1]概括性地介紹了美國統計學會為適應大數據時代于2014年發布的統計學本科專業指導性教學綱要的核心內容,并分析了我國統計類本科專業教育存在的問題。[2]以東華理工大學為例,從“數據分析與處理”與“經濟統計”兩個發展方向對統計學專業的課程體系進行研究。[3][4]研究了大數據時代下經管類統計學專業的課程設置問題。[5]研究了應用統計學專業人才培養的新模式。[6]結合師范院校的特征,研究了大數據背景下統計學人才的培養模式等。
從學科發展的角度看,統計學起源于數學,但又不同于數學的純理論體系,而是側重于解決實際生活問題的應用學科。這要求統計學專業的課程設置應當強調理論與應用的緊密結合,尤其是在當前的大數據時代,更應當注重與計算機科學技術的相互融合。同時,為高年級學生開設合適的應用方向課程,如經濟統計學和生物統計學,使得學生能夠盡早了解統計學前沿應用方向,為后續研究生階段打好基礎。因此,本文將從數理統計理論基礎,計算機技術實踐,以及專業應用方向三個角度分析目前國內高校在統計學專業課程設置上的現狀和問題,并根據作者自身長期從事統計學研究和教學工作的經驗,提出相應的改革措施。
統計學起源于數學,在我國早期的學科分類目錄中,一直是隸屬于數學一級學科下的二級學科。因此,開設統計學專業的高等院校大多將該專業設置在數學學院中,課程體系也與數學類專業類似。
在數學專業基礎課方面,學生通常需要修讀《數學分析》《高等代數》《概率論》《實變函數》《常微分方程》等課程。目前國內大多數院校的課程設置往往過分強調學生抽象數學分析的能力,例如《數學分析》基礎課程就多達3學期12-15學分。這對于數學和應用數學專業的學生來說是必要的,因為其需要扎實的分析功底來適應后續高階課程如《實變函數》《泛函分析》等的學習。然而,對于統計學專業的學生來說,掌握基本的數學分析方法已經足以應對大多數實際應用問題。相對而言,統計學專業中的低年級學生應當將更多的時間精力投入到《高等代數》和《概率論》等課程的學習和理解中。《高等代數》中關于矩陣計算的相關知識在后續高階課程如《多元統計分析》中會被大量涉及,同時矩陣理論也是理解當下最前沿深度學習技術的核心理論基礎。《概率論》更是統計學專業中最核心的課程,其不僅是《數理統計》等其他專業課的必要前置課程,也對學生深入理解概率、隨機等統計學最基本的思想起到非常大的作用。因此,我們建議在數學專業基礎課上,應當適當減少分析類課程的學分和課時量,加強代數和概率類課程的教學內容,以匹配后續專業課程學習的要求。
在統計學專業課方面,學生通常需要修讀《數理統計》《隨機過程》《多元統計分析》《時間序列分析》《回歸分析》等課程。但不少院校由于師資力量的不足,無法將其全部開出,或僅能較淺的涉及相關內容。對于這些院校,我們建議應當至少開設《數理統計》《隨機過程》和《多元統計分析》三門課程,同時將《時間序列分析》和《回歸分析》課程中的基本知識點分別融入《隨機過程》和《多元統計分析》課程的講授當中,使學生對統計學方法有一個更加全面的了解和認識。
在當今的大數據時代,統計學早已不是單純的理論學科,而是需要充分利用計算機技術進行數據分析的應用實踐學科。因此,統計學專業的學生應當至少熟練掌握一門統計編程軟件的使用。
目前市面上用于統計分析的計算機編程語言種類繁多,發展迅速,常用的就有 C,C++,Java,Python,R,Matlab,SPSS,SAS,Eviews等十余種。然而,當前大多數院校的課程設置體系都缺乏一種整體性的規劃,教師在教學時往往只教授自己熟練使用的軟件,而不考慮學生的學習成本和學科的發展趨勢。例如,有些高校統計學專業的學生,大一《計算機基礎》課程學習了C語言,大二《數值分析》課程又改用Matlab進行數值計算,大三《多元統計分析》課程又要求使用R語言進行統計分析,大四《深度學習》專業課又需要Python的深度學習框架來實現。學生看似學習了各種統計軟件的使用方法,事實上卻無法熟練掌握任何其中一門語言。考慮到統計軟件的學習需要進行大量的練習,我們建議在本科四年的課程設置體系中應當教授使用同一種語言。當前主流的Python語言,不僅具有免費開源、學習門檻低、豐富的函數庫等諸多優勢,還擁有成熟的深度學習框架,能夠實現統計學專業全部課程的教學目標,可以說是目前統計學課程教學的首選語言。
在大數據時代,數據分析已經深入到各行各業的應用和研究當中,統計學也因此成為“萬金油”的專業。在統計學本科專業學生培養時,不僅要重視理論基礎的訓練,更要結合合適的實際應用方向,明確其未來專業發展路徑。綜合來看,在應用統計學的各個細分專業中,經濟統計學和生物統計學最具發展前景。從數據量和數據可獲得性的角度看,經濟金融數據和生物醫藥數據天然具有大數據的特征。同時,對于該類數據的分析和挖掘,在金融市場和生物制藥領域具有巨大的商業價值,就業前景廣闊,人才需求巨大。在歐美發達國家,以量化研究員為代表的金融數據分析師和大型制藥企業中生物醫藥數據分析師已經成為最為熱門的高薪就業崗位。
因此,從學生未來專業發展的角度,我們建議對于高年級的統計學專業本科生,應當開設“經濟統計學”和“生物統計學”等專業方向選修課程。具體來說,“經濟統計學”方向應當包括《經濟學導論》《計量經濟學》《量化金融》等選修課程,介紹經濟、金融相關的背景知識以及統計學在其中的應用。“生物統計學”方向應當包括《生物學導論》《遺傳統計學》《貝葉斯分析》等課程,介紹生物學相關背景知識以及常用的統計分析方法。
華為創始人任正非在2018年與中國科技大學校長包信和座談時表示,“在高校學科設置上,我特別支持你們重視統計學。計算機科學不僅僅是技術,還應該以統計學為基礎。大數據需要統計學,信息科學需要統計學,生命科學也需要統計學。國家要搞人工智能,更要重視統計學。統計學不是一個純粹的學科,而是每一個學科都要以統計學為基礎。”在大數據時代,統計學可以說是所有學科應用和研究的基礎工具。借助計算機技術和社會信息化的發展,統計學這一具有悠久歷史的學科,必將在新時代煥發出更加強大的生命力。這也給高等院校統計學人才的培養提出了更高的要求。高校應當不斷改革完善統計學專業的課程設置體系,培養出適應大數據時代、符合社會市場需求的復合型高層次人才。