丁娟
[摘? ? ? ? ? ?要]? 近年來數據驅動型崗位需求快速增長,統計建模是其核心技能之一。統計專業人才的培養不僅需要其掌握統計專業知識,還要注重編程能力,與實際需求緊密結合。
[關? ? 鍵? ?詞]? 數據驅動;編程;統計建模
[中圖分類號]? G642? ? ? ? ? ? ? ? ? ? [文獻標志碼]? A? ? ? ? ? ? ? ? ? ?[文章編號]? 2096-0603(2020)27-0086-02
根據Careercast發布的最新報告,數據科學家(Data Scientist)和統計師(Statistician)分別位列2019年工作排名的第一和第二位。兩者的排名得益于大數據的發展以及與數據相關工作需求的快速增長。令人驚訝的是,“數據科學家”這一職位名稱最先出現是在2009年,經過短短幾年時間《哈佛商業評論》在2012年就稱數據科學家是21世紀“最性感”的工作。事實上,Google的HalVarian在2009年稱統計師將是21世紀最性感的工作。這兩者在工作內容方面有重疊也有區別。對于統計學專業的學生來說,就業市場需求的持續增長是一個好消息,但也需要繼續提升自身的競爭力[1]。
各行各業都在產生大量的數據,而這些數據正在成為有價值的資產。如醫療行業中輔助診斷,零售業中精準廣告投放以及能源行業用戶的用電預測等。從海量的數據中如何發現與提取有用的信息來輔助公司決策與發展?數據驅動型工作機會呈現爆炸式增長。統計分析與數學建模是這類工作的核心技能之一。然而,由于數據量多而且數據類型繁雜,有時并不能直接使用傳統的統計模型。這就使經驗豐富的數據分析人才成為稀缺資源。根據2014年針對大數據應用現狀和趨勢展開的調研,受訪者最關注的大數據技術中,排在前三的分別是:數據分析(統計分析與數據挖掘等)、數據采集、數據處理。[2]與之對應的是統計專業知識與計算機編程能力。
2015年印發的《關于引導部分地方普通本科高校向應用型轉變的指導意見》中,高等教育向應用型人才培養傾斜。應用型人才著眼于實踐能力的培養,注重專業技術教育與實際工作需求相結合,符合我國現代化經濟發展的客觀需要。2019年2月教育部發布了《支持應用型本科高校發展有關工作情況》,指出:“推動項目高校將產教融合項目建設和學校轉型深化改革相結合,切實把辦學真正轉到服務地方經濟社會發展上來,轉到產教融合校企合作上來,轉到培養應用型、技術技能型人才上來。”在這個指導準則下,為提高統計專業學生的就業競爭力,應調整相應的教學方式,使學生在校內課堂所學與就業需求緊密銜接。[3]
一、課程設置
目前大多數院校開設了豐富的課程,包括概率論與數理統計、抽樣調查理論與方法、試驗設計與分析、統計模擬與計算、SPSS統計軟件以及常用統計方法等。該系列課程既包括理論知識,也涉及實際應用,使學生在專業知識、實踐技能兩方面同時得到訓練,也為以后從事數據驅動類技術工作打下堅實的基礎。但在課程教學過程中,發現學生缺乏從實際數據中提取信息建模分析的能力,編程能力不足。美國統計學會于2014年發布了統計學本科專業的指導性教學綱要中指出,統計專業人才不僅需要扎實的數學和統計基礎,還要有強大的統計計算和編程能力,可以熟練使用專業統計軟件和數據庫;實際數據是統計專業教育的重要組成部分。
在目前的課堂教學中,教師通常會以一組較為簡單的數據來演示。在學生學習理論知識的初始階段,這是必要也是學生容易接受的方式。在高年級階段,在學生已經學習與掌握了大部分的統計課程之后,可以讓學生分析相對復雜一些的數據集,甚至自行收集數據,從而完成數據收集、數據清理、數據分析、結果展示這樣一個分析過程。在數據的選取方面,教師可以將一些數據比賽的公開數據作為數據源供學生選擇,在課程進行過程中完成該數據的分析并且展示分析結果。同時鼓勵學生嘗試使用一些新的統計建模方法。另外,也有學校采取了校企合作的方式來教授學生應用技能。例如,斯坦福大學與Cloudera公司合作,由Cloudera公司開設大數據挖掘的課程供學生選修。
二、學習能力的培養
對于數據的科學分析,我們需要理論支持,也需要掌握分析的工具。在目前的課程中盡管已經開設了統計軟件課程,包括R、SPSS等。前者需要一定的編程能力,這也是數據驅動型工作所需的。編程能力的培養與提升離不開大量的練習,這就需要學生能夠投入一部分課余時間。新的軟件也在不斷涌現,如Python受到很多企業的歡迎。學生需要密切關注就業市場的需求,同時學校也可以組織一些比賽來促進學生積極學習。例如,北卡羅來納州的學生利用美國郵政總局的數據,分析對垃圾郵件的響應率,找到提升效率的方法。或者參加一些數據競賽,在短時間內通過高強度的學習完成比賽,一方面可以提高數據分析能力,另一方面也鍛煉了自學能力。
在實際應用中,如何展示分析結果也是很重要的一步。這方面課程有SPSS統計軟件應用、常用統計方法等。通過這些課程的學習能夠進行數據的讀取、描述性統計分析、統計建模等,輸出多種形式的圖表。在大數據背景下,數據的可視化是一個重要內容。例如,由于數據的實時更新,可視化圖表也需要實時更新。R語言的ggplot2、shiny,Python語言的Pandas、Matplotlib都是可以實現數據操作、整合及可視化的工具庫。近年來,可視化軟件Tableau很受歡迎,有些公司在招聘廣告中將其列為一個招聘的加分項。將數據可視化可以有效地幫助人們了解數據,用易于理解的圖將有用的信息從紛繁的數據中傳遞出來。對于海量數據,可視化尤為重要。為提升學生這方面的能力,教師需要在課堂教學中適當強調這一點,可以通過具體的例子展示可視化的效果。建議學生選擇一種軟件系統地學習。大數據時代背景下很多新的數據類型和分析方法開始涌現。筆者在講授應用多元統計分析時,鼓勵學生分析文本數據,并用詞頻云圖展示。學生學習的積極性很高,在課程結束時幾乎每個小組的報告中都有這樣的圖。
大數據產業的發展使數據驅動類工作需求激增,但我們也需要認識到目前統計專業學生的知識儲備及技能離實際的應用場景還有一定的差距。[4]真實而具體地展示實際數據的分析過程能夠拓寬學生的思維模式,提高學生的應用能力。[5-6]加強統計軟件的實驗性教學,重視實踐性教學環節,提高學生的編程、建模能力。這需要教師與學生共同努力。
參考文獻:
[1]孟生旺,袁衛.大數據時代的統計教育[J].統計研究,2015,32(4):3-7.
[2]孔曉瑞,劉夢玲,靳俊嬌.大數據時代背景下對應用統計學專業的思考[J].高教學刊,2016(18):41-42.
[3]劉意,劉寧,呂君亮,等.基于應用型人才培養目標的本科教學改革的探討[J].江西教育學院學報,2014,35(2):163-165.
[4]汪寶彬,楊懷奎,吳雪芹.淺析大數據背景下的統計教學[J].湖北科技學院學報,2016,36(3):78-80.
[5]蘇靜,肖攀.以專業應用為導向的概率論與數理統計教學改革研究[J].廣西教育,2014(19):140.
[6]榮竹青,韓曦英.大數據背景下應用統計教學策略研究[J].教育教學論壇,2019(14):263-264.
編輯 馮永霞