王東瑩,孟麗新
(吉林財經大學,吉林 長春)
隨著云計算、人工智能、物聯網等新興科學技術的迅猛發展,各個行業和領域不斷地創造巨量的數據、建立龐大的數據庫,我們正處于前所未有的大數據環境。大數據涉及海量信息,極具研究價值和產業價值,并將深刻影響人類的決策模式[1]。針對大數據的存儲、處理、分析等關鍵技術離不開統計理論的支撐,但經典的統計分析方法不能直接遷移到大數據,統計學科發展面臨著大數據帶來了重大機遇和挑戰。為滿足學科發展需要,統計專業教學需要對教學內容、培養模式進行改革,以培養適合大數據時代需要的高質量人才。
美國統計學會2000年首次發布統計學本科專業指導性教學綱要[2],旨在調整統計專業學生培養模式,以適應大數據時代需求。該綱要于2014年進行了一次全面修訂和更新[3],重點強調統計專業人才技能培養的四個方面:(1)數據科學日益重要,統計專業人才不僅需要扎實的數學和統計基礎,還要有強大的統計計算和編程能力,可以熟練使用專業統計軟件和數據庫;(2)真實數據是統計專業教育的重要組成部分;(3)更加多樣化的統計模型和方法;(4)通過語言、圖表和動畫等用戶易于理解的方式表達數據分析結論的能力。該人才培養模式對于國內統計專業本科教學具有借鑒意義。以往, 國內統計專業教學更多地關注于統計學理論與分析方法的講授,而忽略應用層面上實踐教學[4]。當學生面對結構復雜的真實數據時,會遇到各種各樣無法事先預測的問題,較難給出有效的分析結果。因此,在大數據的時代背景下,統計專業教學應當轉向以真實數據為驅動的人才培養模式,側重于面對真實數據的統計模型、統計計算、統計表述。
大數據時代背景下,真實數據較為顯著的特征可概括為四“V”特征:數據量大 (volume)、數據類型多樣 (variety)、數據價值密度低 (value) 以及速率快 (velocity)[5]?,F有統計學理論和方法在處理大數據的過程中面臨諸多難題,如何建立以數據為驅動的人才培養模式,是統計學科教學亟待認真研究和解決的難題。
由于大數據具有四“V”特征,經典統計分析方法可能失效。例如主成分分析、因子分析等多元統計方法主要針對的是數據量大、解釋變量少的情形,不適用于具有明顯高維度特征的大數據分析。再如,由于數據具有大量性,很容易找到顯著相關關系,但是難以解釋相關的意義,所以顯著性檢驗在大數據分析中不再占據中心位置。面對大數據的統計分析方法更多地依賴于統計模型來刻畫數量關系。然而,在大數據時代,人們更容易從不同渠道獲取數據,為了兼顧不同來源數據的同質性與異質性特征,需要建立更復雜的統計模型。因此,針對大數據的高維數據建模及模型評價是統計學亟待解決的重要問題之一。
在大數據分析中,基于完整數據的運算幾乎難以實現,從中選取具有代表性的部分數據進行分析不失為一個可行辦法。抽樣這一經典的統計方法,可以在大數據分析中發揮重要作用。但是大數據通常是在不同的時間、用不同的方法收集,隨后把整個數據合并起來,這導致大數據內部許多部分的數據存在明顯差異,無法滿足統計抽樣中同質性等基本假設。因此,大數據環境對抽樣方法提出了更加嚴格的要求,需要新的適應性、序貫性、動態的抽樣方法,例如基于案例的抽樣方法和基于事件的抽樣方法[6],以獲取符合統計目的和精度所需的樣本。
大數據涵蓋了豐富的信息,但同時也相當松散且雜亂無章,數據噪音增多。在數據分析之前必須進行數據清洗、降噪、提純等預處理工作,但是預處理如此大量的數據對于機器硬件以及算法都是嚴峻的考驗[5]。目前,機器學習算法和云計算是進行大數據處理的有力工具,這使得將現有統計方法移遷到大數據背景下必須作出調整,以適應機器學習算法和云計算的框架,算法需要變得具有可擴展性。
此外,大數據思維注重全量樣本數據而不是局部數據,當數據量增長到一定規模以后,可以從小量數據中挖掘出有效信息的算法并一定適用于大數據。但在選擇算法處理大數據時仍須謹慎,并且多數情況下須做成調整和修正。以經典的Bootstrap子抽樣方法為例,基于樣本子集構造經驗樣本的方法可以實現降低計算復雜度的目的,但數據變異性的相應降低導致其結果依賴于子樣本的選取。由此看出,此類算法在研究大數據在概率和統計問題中具有優勢,但要達到降低計算復雜度,同時提高計算效率和估計精度的目的,仍需對其進行修正。
大數據時代主要面臨的是非結構化、規模化數據,當前統計專業教學在大數據分析方面具有局限性,主要體現為:統計模型及分析方法主要針對結構化數據、少量數據,不能直接遷移到大數據;側重于理論傳授,實踐環節相對薄弱[7],容易導致學生面對實際數據時無從下手。因此,統計專業教學過程中建立以數據為驅動的人才培養模式以適應大數據時代要求,可以從以下三個方面入手。
面對高速產生、多種類、多來源、多模態的海量數據,如何建立大數據分析方法,是統計專業教學的重大挑戰。以往統計專業本科教學主要圍繞線性回歸模型、時間序列分析和多元統計分析展開,遠遠不能滿足大數據分析的實際需要。大數據分析起源于互聯網數據的高度聚集和流動,具有分布式或數據流形式的存儲結構,需要對傳統數據分析方法進行分解、規約、流分析的改進[8]。因此,統計專業教學中引入新數據分析方法,并與傳統統計數據分析理論進行區分和聯系,對于培養學生的數據思維能力十分必要。
一直以來,大量數學知識、計算機知識被廣泛地用于解決統計問題。而大數據背景下的統計專業面臨的實際問題和具體數據更加繁復,與數學和計算機學科的交叉融合有助于豐富問題的解決方法、簡化問題的解決路徑。
當前統計專業日常教學中融入了數學專業知識,主要包括微積分、線性代數等基礎知識,培養學生的數學運算能力。然而,大數據所涉及的運算量十分巨大,并非數學計算方法能夠解決,需要借助于計算機等外部設備。因此統計與數學專業知識的結合,應當側重于培養學生數學思維而非運算能力。
隨著數據可視化工具、數據庫、分布式計算、數據挖掘、人工智能、機器學習等方法,越來越廣泛地應用于解決統計問題,統計專業技能培養過程中應充分考慮與計算機學科的交叉融合,注重培養學生的編程能力和算法思維。熟練掌握數據庫和統計軟件的使用方法,能夠讀寫數據庫、編寫程序、設計算法、進行統計分析與建模,是當下統計專業畢業生的一項基本技能。
大數據時代,統計工作的研究對象是大規模的半結構化、非結構化數據,具有較強的實際應用背景。然而,我國當前統計教學更多地針對教科書提供的二手數據,數據的應用背景明顯被淡化,這種教學模式忽視了實際問題與數據分析之間的聯系,學生的數據思維和問題解決能力得不到很好的鍛煉,當他們遇到復雜的大數據分析問題時往往無從下手。因此,大數據必然引發新的教學模式,統計學課程應當引入來源于實際應用領域真實數據,引導學生把實際問題轉化為統計問題并進行數據分析,培養學生用數據思考的能力。同時,統計專業教學應當逐步強化實踐教學所占的比重。通過大量的實踐訓練,幫助學生積累統計分析方法的應用經驗,引導學生結合實際問題對各類統計方法的適用性做出評價,并能有效呈現和表達他們的分析結論。這是一項極具挑戰性的教學改革,但對提高統計人才的培養質量意義重大。
隨著大數據不停地快速增長,從基因組到自然科學、再到社會科學,統計方法被廣泛地應用于跨學科的研究領域,統計學知識對社會、經濟、醫學、生物、商業等領域影響越來越大。在這樣的時代背景下,統計人才應該具備交叉學科的綜合性知識與基本技能,通過數據分析解決行業問題,這既是統計人才的機遇也是挑戰。熟悉計算機編程技術,并與業界充分融合的統計專業人才,能夠為科學實踐提供更高效、更穩健的數據處理與分析技術。因此,統計專業人才培養應當注重多學科交叉培養的模式,使學生對于統計問題的實際研究背景有更清晰的認識,能夠根據具體科學領域對統計分析方法進行適當調整,以期獲得可靠的分析結論。
現階段高校存在統計學方法課程過多且平行開設[9],簡化過多的知識層次,建立完善的課程體系,形成清晰的課程模塊對于基本素質教育和基本技能培養具有重要意義。根據美國統計學會統計學本科專業指導性教學綱要[3],統計專業的課程設置應該涵蓋統計方法與統計理論、數據操作與統計計算、數學基礎、實踐訓練四大課程模塊。這對于國內統計專業本科教學具有借鑒意義。統計方法與統計理論必然是核心內容,后三者作為輔助也起到關鍵作用。
其中,統計計算是模擬研究的必要工具。通過隨機模擬來驗證解析方法已經得出的結論,是一種非常有效的學習方法[10]。然而,統計計算方法的模擬過程必須依賴于專門的統計分析軟件。在大數據背景下,R軟件可進行數據挖掘、建立統計模型并求解,在功能上遠超SPSS,與SAS不相上下。應用R軟件以及持續更新的R包進行實踐教學,既可以促進學生對于統計計算技術的理解,也鍛煉了模擬分析的能力,為其從事數據分析相關工作打下理論基礎。
其次,數學基礎的建立是為了加深對統計模型和理論的理解,提高數據分析結果的可靠性。統計專業的本科生應當具備扎實的數學理論基礎?;A課程模塊包括微積分,如一元和多元微積分;線性代數,如矩陣運算、特征根求解、歐式空間投影;隨機過程,如隨機變量、Markov鏈;優化方法,如梯度下降法、牛頓法、擬牛頓法等。對于數學基礎知識的講授過程中應重點強調其在統計中的應用。
實踐訓練部分強調對真實數據的清洗、建模、可視化,鍛煉學生對統計分析方法的應用能力。結合具體行業數據,講解數據分析過程中容易遇到的各類問題,探索統計方法的適用性,有助于加強學生的實操能力,掌握從事數據分析相關工作基本技能。
大數據時代背景下,統計學面臨的數據來源于各個行業,涉及多種學科,在各實踐領域具有廣泛地應用,逐漸成為支撐學科。因此,統計專業教學培養任務愈加繁重、目標對象更為廣泛。對于統計專業人才的具體要求可歸納為:(1)具有扎實的數學、統計學基礎,以及交叉學科綜合性知識;(2)具有統計計算和編程基本能力;(3)具有數據思維和素養;(4)具有創新、分析和解決問題能力。該目標側重于學生三個思維和一種能力,即數據思維、算法思維、創新思維和解決問題的能力,以適應社會的實際需要。
在大數據時代背景下,統計專業人才面臨重大的機遇和挑戰。統計專業教學應當轉向以真實數據為驅動的人才培養模式,以培養具有數據思維、編程能力、實踐能力的應用型數據分析人才為目標,并通過大量行業大數據的實踐訓練,全面提升人才競爭力,以拓寬本專業的就業方向和途徑。