大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學改革的初步探索

2015-12-08 00:29:15周茂袁

教育教學論壇 2015年35期

周茂袁

摘要：大數(shù)據(jù)涵蓋多學科領(lǐng)域的、海量的、各種復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。各學科之間數(shù)據(jù)互相融合和貫通，學科之間的邊界已經(jīng)重疊和模糊。大數(shù)據(jù)涉及各種數(shù)據(jù)類型，包括文本和語言、視頻和圖像、時空數(shù)據(jù)、網(wǎng)絡(luò)和圖形等。對于傳統(tǒng)的統(tǒng)計學專業(yè)來說，大數(shù)據(jù)時代帶來的不僅是機遇還有挑戰(zhàn)。本文初步探索了以下幾個方面：《數(shù)據(jù)挖掘》中引入大數(shù)據(jù)分析方法;《非參數(shù)統(tǒng)計》中引入多元非參數(shù)方法、半?yún)?shù)回歸;《回歸分析》中引入隨機森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法（其中以LASSO回歸為典型代表）;《多元統(tǒng)計》中引入高維統(tǒng)計方法;以上引入的大數(shù)據(jù)分析方法均用R語言來實現(xiàn)。

關(guān)鍵詞：大數(shù)據(jù);統(tǒng)計學;數(shù)據(jù)挖掘;非參數(shù)統(tǒng)計;回歸分析;多元統(tǒng)計

中圖分類號：G642.0 ? ? 文獻標志碼：A ? ? 文章編號：1674-9324（2015）35-0105-02

從狹義上來講，大數(shù)據(jù)的構(gòu)成包括兩方面，一方面是大樣本，在統(tǒng)計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量，對于這一問題則需要采取壓縮、分解以及降維等方法。

一、大數(shù)據(jù)及其意義

大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機存儲的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。

1.流數(shù)據(jù)：數(shù)據(jù)快速地不斷涌來，現(xiàn)有存儲設(shè)備和計算能力難以應(yīng)付這種數(shù)據(jù)流（比如歐洲高能粒子對撞機所產(chǎn)生的數(shù)據(jù)，每秒鐘可以達到500TB）。

2.磁盤存儲限制：數(shù)據(jù)已不能完全存儲在內(nèi)存中，需要硬盤存儲。

3.分布存儲狀態(tài)：數(shù)據(jù)分布存儲在多個計算機中。

4.多線條狀態(tài)：數(shù)據(jù)存儲在一個計算機中，多個處理器共享內(nèi)存。

大數(shù)據(jù)的發(fā)展就是對數(shù)據(jù)產(chǎn)生的機制進行探索，將所產(chǎn)生的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兯枰闹R，進而對相關(guān)政策的制定產(chǎn)生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞，但是根據(jù)一個孩子的年齡確定他掌握的單詞多少則并不科學。

進一步來說，大數(shù)據(jù)有記錄保存自然與社會現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù)，盡管他們還不清楚如何分析大量的數(shù)據(jù)，但是他們相信需要保存現(xiàn)今社會經(jīng)濟高速發(fā)展的過程，期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里，他們認為當今的技術(shù)還不足以測試和分析這些資源，期待今后更先進的測試技術(shù)能夠做到。大數(shù)據(jù)就如同自然和社會的血液那樣記錄著社會的現(xiàn)狀和發(fā)展過程。

17世紀望遠鏡以及顯微鏡的發(fā)明使人類看到了以前從來沒有看到過的宇宙空間和微生物，擴大了人類對自然的基本認識。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣，使得人們能夠通過數(shù)據(jù)來觀察和分析自然、經(jīng)濟、社會的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù)，可以及時了解疾病的疫情、科學的動態(tài)、社會的動態(tài)。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播，哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會的歷史長河，不但能用于探索當代的科學問題，將來也可以用于研究人們食用轉(zhuǎn)基因食品對子孫后代的影響等追蹤研究問題，為未來留下當前的歷史資料。

二、大數(shù)據(jù)帶來的變革

時代的進步有賴于大數(shù)據(jù)的發(fā)展，大數(shù)據(jù)的發(fā)展給時代變革增加了更多的不確定性。就當前研究來看，數(shù)據(jù)的搜集很大程度上依靠所研究問題的出現(xiàn)來推動其向前發(fā)展。不過在不久的將來，隨著大數(shù)據(jù)時代的到來，人們對于問題的研究將會由“數(shù)據(jù)”來驅(qū)動。例如，如果我們想去某地旅行或出差，會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息，但是將來我們可以根據(jù)所查詢的數(shù)據(jù)信息來決定所要去的目的地。在古希臘時代，當時的哲學家無所不知，號稱百科全書，到了文藝復(fù)興時代，隨著學科的不斷細化，不同學科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時代的到來，大百科全書式的人物將有可能再次出現(xiàn)，而不同領(lǐng)域的專家的權(quán)威性將被逐步消弱，隨著大數(shù)據(jù)的不斷發(fā)展，很有可能會逐漸將學科專家消亡掉。例如，隨著計算機專家和統(tǒng)計學家對數(shù)據(jù)的搜集越來越多并且處理能力不斷增強，他們將逐步成為生命科學方面的專家。再比如，如果我們掌握了足夠數(shù)量的相關(guān)專業(yè)書籍和日文譯本，就算我們對日文一無所知，我們也可以采取有效的方法將所需要的中文翻譯成為日文，因為我們有很多非常可靠的翻譯軟件，如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個領(lǐng)域和學科得到了應(yīng)用，例如醫(yī)療領(lǐng)域，大數(shù)據(jù)可以指導人們健康飲食，適時進行身體檢查，并且確定檢查項目，幫助醫(yī)生對患者進行疾病診斷等。

三、大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學現(xiàn)狀

隨著科技的不斷發(fā)展和進步，人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化，電子商務(wù)的發(fā)展和各種多媒體信息技術(shù)的飛速發(fā)展和應(yīng)用，給傳統(tǒng)的統(tǒng)計學應(yīng)用和教學帶來了機遇的同時也帶來了非常大的挑戰(zhàn)。一方面，由于各種信息和數(shù)據(jù)的不斷涌入，人們在被動搜集著各種數(shù)據(jù)。統(tǒng)計學的教學也需要不斷探索新的模式。另一方面，人們在被動接受數(shù)據(jù)的同時也在主動搜集數(shù)據(jù)信息，不同學科有不同的數(shù)據(jù)需要。例如經(jīng)濟學領(lǐng)域的專家每天都在搜集各自的調(diào)查數(shù)據(jù)和觀察數(shù)據(jù)，而自然科學領(lǐng)域的專家學者則不僅搜集宏觀天文數(shù)據(jù)，還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同，有的在實驗室通過試驗進行數(shù)據(jù)搜集，有的人則通過網(wǎng)絡(luò)進行數(shù)據(jù)搜集和研究。

對于當前大數(shù)據(jù)給統(tǒng)計學帶來的挑戰(zhàn)，美國科學院“大數(shù)據(jù)分析委員會”給出了分析，他們認為這些挑戰(zhàn)在于對不同格式和結(jié)構(gòu)的數(shù)據(jù)的處理方面、對于數(shù)據(jù)來源的追蹤方面、對于共享數(shù)據(jù)的安全性問題和完整性問題方面、對于樣本異質(zhì)性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發(fā)時的算法方面的問題等。國內(nèi)相關(guān)部門也對這一問題進行了研討，最早一次是2012年5月在香山召開的“大數(shù)據(jù)科學與工程”會議，第二次是在2013年5月召開的對于大數(shù)據(jù)原理以及發(fā)展前景的探討會，并同時制定了相關(guān)的科研計劃。但關(guān)于大數(shù)據(jù)背景下統(tǒng)計學專業(yè)教學的探索還非常稀缺。

四、統(tǒng)計學專業(yè)課程改革

針對以上所述大數(shù)據(jù)時代的特點和變革意義以及目前統(tǒng)計學專業(yè)教學的現(xiàn)狀，本文進行了相應(yīng)的初步探索。

（一）改革的總體思路

將現(xiàn)有的統(tǒng)計學頂級雜志或著名文獻中的成熟的大數(shù)據(jù)分析方法逐步凝練，形成教學內(nèi)容;將使用R軟件中的函數(shù)包實現(xiàn)這些大數(shù)據(jù)分析方法。

（二）改革的具體內(nèi)容

1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語言的代碼實現(xiàn)。

2.在《非參數(shù)統(tǒng)計》課程中引入多元非參數(shù)統(tǒng)計方法（諸如多元符號、多元秩、多元符號秩等）、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語言的代碼實現(xiàn)。

3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法（比如LASSO回歸、動態(tài)LASSO回歸等）及其R語言的代碼實現(xiàn)。

4.在《多元統(tǒng)計分析》課程中引入高維統(tǒng)計分析方法及其R語言的代碼實現(xiàn)。

5.在工科《概率論與數(shù)理統(tǒng)計》課程中引入R語言的代碼實現(xiàn)。

（三）改革的主要創(chuàng)新點

在傳統(tǒng)的統(tǒng)計學專業(yè)課程教學中引入最新的大數(shù)據(jù)分析方法及其R語言實現(xiàn)。

其中R語言是區(qū)別SAS、SPSS等傻瓜軟件的結(jié)構(gòu)化程序設(shè)計語言，可以靈活實現(xiàn)傻瓜軟件所不能實現(xiàn)的各種高級數(shù)據(jù)分析功能。其非常適應(yīng)于大數(shù)據(jù)統(tǒng)計分析方法的教學。所以大部分國內(nèi)外著名大學已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計軟件進行統(tǒng)計分析方法的教學。R語言已經(jīng)逐步成為統(tǒng)計學系的標準的教學軟件。

參考文獻：

[1]Committee on the Analysis of Massive Data et al. （2013）Frontiers in Massive Data Analysis[J].National Academies Press，Washington. http：/ /www. nap. edu /catalog. php？record_id =18374.

[2]維克托·邁爾-舍恩伯格，肯尼思·庫克耶.大數(shù)據(jù)時代——生活、工作與思維的大變革[M].盛楊燕，周濤，譯.杭州：浙江人民出版社，2013.

[3]NIH Big Data to Knowledge （2013）.http：//bd2k.nih.gov/index.html#sthash.Yu5HxjcM.dpbs.

[4]納特·西爾弗.信號與噪聲[M].胡曉姣，張新，朱辰辰，譯.北京：中信出版社，2013.

[5]Yin J，Zhou Y，Wang C，He P，Zheng C，Geng Z. Partial orientation and local structural learning of causal networks for prediction. Challenges in Causality Volume 1：Causation and prediction challenge. Ed. by I. Guyon，C. Aliferis，G. Cooper，A. Elisseeff，J. Pellet，P. Spirtes and A. Statnikov，2009：93-105.

[6]趙暉，邢攀科，秦樂樂，張會肖.基于“云計算”的人力資源檔案信息決策支持系統(tǒng)的研究[J].河北工業(yè)科技，2013，（02）.

[7]郭海燕，魏遵鋒，石中英.研究生課程與教學現(xiàn)狀調(diào)查分析——以北京師范大學為例[J].中國大學教學，2012，（10）.