


[摘 要] 大數據時代背景下統計計算課程體系建設關系到統計學專業人才培養的質量。本文就當前統計計算課程體系建設存在的問題、統計計算課程涉及到的相關課程體系、包含的統計計算內容及方法進行了研究,給出了相關課程體系建設框架,以及具體課程所涉及的統計計算方法。
[關鍵詞] 大數據時代;統計計算;課程體系建設
[基金項目] 華僑大學校級研究生教育教學改革研究項目(18YJG03)
[作者簡介] 張五六(1971—),男,安徽桐城人,博士,副研究員,研究方向為統計理論方法。
[中圖分類號] G642? ? [文獻標識碼] A? ? [文章編號] 1674-9324(2020)26-0246-03? ? [收稿日期] 2020-01-13
統計學是一門歷史悠久的學科,最早關于統計相關的記錄可追溯到17世紀的政治算術學派,其主要代表人物William Patty(1623—1687)主張用大量觀察和數據來分析社會經濟現象。隨著統計學的發展,特別是統計學家Adolphe Quetelet(1796—1874)《概率論書簡》的誕生,將概率論和統計學方法引入社會經濟分析后,標志著現代統計學的發展拉開了序幕,統計計算由此融會于統計學發展的進程。
在當前的信息時代,隨著互聯網、物聯網的興起,以及人工智能及區塊鏈技術的推廣,大數據背后的統計規律探索,商業與社會價值的挖掘,成為統計學發展的必然趨勢。在碩士研究生的培養方案設定及課程教學中,統計計算也面臨著大數據時代帶來的困境及發展機遇,因此,結合統計學碩士研究生的課程建設過程,統計計算課程體系存在哪些問題,統計計算的課程體系核心課程及內容應該包括哪些,如何實施統計計算的課程及內容是本論文研究主要對象。
一、當前統計計算課程體系建設存在問題
(一)統計計算課程對大數據的認知不足
在當今的統計類教學中,大數據科學深度影響著統計學的發展趨勢已經成為普遍共識,但在相關統計計算的課程中,對大數據的認知尚未形成共識,在高校統計類課程建設中,仍然存在兩類典型的做法,一種是開設幾門與大數據相關的統計課程,如數據挖掘、統計學習等類似課程;另一種是開設一些與大數據相關的計算機語言課程,如Java語言、Python語言等。顯然,這些做法具有可取之處,是大數據相關學習的必備課程。但作為對碩士研究生的培養是遠遠不夠的,這幾門課程的開設充其量類似于培訓機構的短期學習。高校對于統計計算中涉及的大數據認知仍然是碎片化的,還沒有形成有機的系統研究,在教學中還需要去探索和實踐。
(二)統計計算課程對大數據融合度較低
從當前各個高校開設的統計學研究生課程設置來看,除了幾門新開設的數據科學課程,如數據挖掘、機器學習、大數據技術等課程外,其他課程鮮有涉及大數據相關的計算及應用的案例。課程中涉及的計算方法及計算的數據、案例仍然停留在傳統的小數據時代,學生對統計計算的認識難以實現對大數據的全面認識。因此,相關的培養方案、教材建設、課程建設必須要實現整體統籌規劃,融合大數據的觀點、算法技術及實際案例的實習,在相關計算內容中穿插大數據背景的實際場景。
(三)統計計算課程缺乏對大數據的實驗與實踐
不同于傳統的統計學試驗及實踐,大數據中的統計計算實踐所需實驗設備及實驗過程都要復雜得多。除了穩定的數據源以外,還必須具備基本的相關統計軟件,如SAS、Matlab、R、Julia、Python等軟件外,還需要具備Hadoop+Spark架構的大數據平臺。學生的實驗與實踐最好放在合適的項目場景下進行,對于這些實驗與實踐要求,目前統計學專業在實際課程建設中執行得并不是太好。特別是對于應用統計專業碩士,尚需要與數據科學關聯的企業,如大數據、人工智能、區塊鏈等相關的企業進行深度合作,尋求理論學習與創新實踐的融合,加強學生在創新創業實踐方面的能力培養。
二、大數據背景下統計計算課程體系建設
在統計類碩士研究生培養方案中,統計計算涉及課程總體上為三類:專業基礎課、專業核心課、專業選修課。由于研究生的總課時有限,不同研究方向的選修課又散落于不同的課程中。在華僑大學統計專業的培養過程中,涉及相關的統計計算知識組成的課程體系如下:
在實際教學中,教師可以根據學生培養所需的知識體系來選擇不同的統計計算知識組合。另外,不同老師可能根據課程的前沿方向提供給學生豐富的文獻閱讀,使得教學中的統計計算體系隨著前沿方向不斷發展。根據課程體系建設,我們將其細分為下面幾個統計計算模塊,并探討其涉及的主要內容。
(一)探索性統計
傳統數據分析著重于初始數據分析,即對已有數據進行驗證性分析,而探索性數據分析注重于對數據的概況性描述,不僅在傳統截面/時間序列中使用,現在空間統計學方面也得到了廣泛的應用。涉及的探索性統計計算如下表2所示:
(二)隨機數生成與抽樣方法
隨機數生成包含一般及不同隨機數生成方法、抽樣包含了蒙特卡羅方法、bootstraps方法、數據分塊方法等。
(三)貝葉斯與非參數統計計算
貝葉斯方法是基于貝葉斯基本原理而構成的一種統計推斷方法,難以進行解析的后驗分布,可以采用MCMC方法進行抽樣,從而獲得其系數。非參數方法在數據具有非線性特征時具有非常好的刻畫功能,在回歸模型中有非參數回歸與半參數回歸。
貝葉斯統計與非參數統計既相互獨立,又有相互交叉的兩類統計計算方法。傳統的非參數回歸如果在采用基函數情況下可以將其參數化,從而可以對參數進行貝葉斯估計,特別是隨著Dirichlet Process過程的引進,許多非參數回歸均可以變換為貝葉斯方法進行計算的可能。具體三個方面的計算如下表4所示:
(四)回歸分析模型計算
回歸分析模型是統計建模的主要組成部分,在不同類型數據或分析框架下,回歸分析方法具有非常好的拓展性,下表給出了不同框架下的回歸分析模型及計算。
從表5的課程知識體系來看,線性與非線性回歸模型構成的單變量、多變量時間序列模型、面板與空間面板數據模型、結構與非結構模型。參數(系數)估計方法內容亦豐富多樣:包括最小二乘方法、GMM估計方法、工具變量估計方法、格子搜索方法、極大似然及擬極大似然方法、貝葉斯推斷的MCMC抽樣方法,卡爾曼濾波的極大似然估計方法。
(五)數據科學課程體系方法
數據科學是統計專業最近5年來發展迅速的一個方向。在傳統統計計算的基礎上,更加專注于大數據的處理。可以將其內容分為兩個方面:一個是與數據挖掘、機器學習、統計學習相關;另一個是與大數據技術相關。主要如下表所示:
參考文獻
[1]蕭政.面板數據分析[M].北京:人民大學出版社,2012.
[2]李航.統計學習方法[M].北京:清華大學出版社,2019.
[3]周志華.機器學習[M].北京:清華大學出版社,2016
Research on the Curriculum System Construction of Statistical Computing in the Big Data Era
ZHANG Wu-liu
(School of Statistics Huaqiao University,Xiamen,Fujian 361021,China)
Abstract:Under the background of big data era,the construction of Statistical Computing curriculum system is related to the training quality of statistics professionals.This paper studies the problems existing in the construction of the current curriculum system of Statistical Computing,the related course systems involved in the curriculum of Statistical Computing,and the contents and methods of Statistical Computing.Then,it gives the construction framework of related curriculum system and the Statistical Computing methods involved in specific courses.
Key words:big data era;Statistical Computing;curriculum system construction