[摘要]隨著大數據時代的到來,更多的人開始關注現代統計學教學中學生數據分析能力的培養。本文以大數據背景下如何提高大學生數據分析能力作為目標,分別從實現這一目標的必要性、主要內容、基本途徑以及擬解決的問題四個方面進行了探討和闡述。
[關鍵詞]大學統計學教學數據分析能力必要性途徑分析
[基金項目]安徽省質量工程教學研究項目基金(2020jyxm0649);國家自然科學項目基金(11901006);安徽省自然科學項目基金(1908085QA06)。
[中圖分類號]G64
[文獻標識碼]A
[文章編號]2095-3089(2021)17-0147-03
一、引言
2015年9月5日中國政府網印發國務院促進大數據發展行動綱要的通知,從發展意義與形勢、總的目標與思想、所面臨的任務、相關政策機制四個角度闡述了大數據作為一種重要的新型國家資源,現代社會處在充滿改革與急速發展的各類復雜數據時代。大數據相關文獻也稱為海量數據,它的主要特點可以用四個“V”去描述。第一個是數據的體量很高(Volume)即數據的維數和數據的樣本量都很大;第二個是數據相依結構多樣化(Variety)即包括復雜非線性相依和復雜高維;第三個是數據的稀疏值復雜(Value)即數據的變量很多但有用的變量可能很少;第四個是計算的有效性不穩定(Velocity)即由于數據的高維數和大樣本量常使得傳統的計算方法失效。無論發展中國家還是發達國家都愈發重視大數據技術的發展與應用,這就需要從事海量數據分析的專職人才。統計學是以數據為中心的學科,統計學的本質就是利用統計工具分析和挖掘數據所包含的有用信息。這就需要學生系統地學習概率論與數理統計的基礎知識,能夠從海量的數據中提取有價值的信息,并能夠給出科學的決策建議和意見。隨著大數據時代的到來,更多的人開始關注現代統計學教學中學生數據分析能力的培養。本文以大數據背景下如何提高大學生數據分析能力作為目標,分別從實現這一目標的必要性、主要內容、基本途徑以及擬解決的問題四個方面進行了探討和闡述。
二、現代統計學教學中提高大學生數據分析能力的迫切性和必要性
在上個世紀初期,統計學還處于描述統計階段,沒有形成公理化,人們對數據的定義和觀念只是些數字,比如身高、體重、臂長等,這些數據都是被收集和被記錄的阿拉伯數字所構成,而且這些傳統的經典小數據的收集方法、加工方法、處理方法都與現代統計中的前沿技術有所不同。一個經典的例子就是英國著名生物學家兼統計學家高爾頓于19世紀在研究人類遺傳學所提出的回歸分析問題。高爾頓當年從遺傳學的角度關心的是父母的身高對子女的身高有沒有影響,如果有影響又該如何刻畫這種影響,為此高爾頓在1877年的四月五號、十二號和十九號分別在自然期刊上提出著名的回歸系數,那里的回歸系數就是本科教材中的經典的皮爾遜積矩相關系數,是兩個隨機變量的重要數字特征,這個經典例子說明傳統的數據分析技術從估計、檢驗和預測的角度去挖掘和刻畫和數字數據有關的隨機現象和問題。
然而,在現代統計學中,數據的定義和概念要寬泛了很多。只要能夠被數字化的信息載體,都能夠稱之為數據。例如高速公路上及城市各個路口的攝像頭記錄的影像視頻,消費者網上購物停留在網頁界面的時間流量,公安系統的刑偵人員對嫌疑犯人臉頭像的甄別圖片,生物統計中基因組生物信息載體等等,盡管這些都不是被收集和被記錄的阿拉伯數字所構成,但是它們都是數據或者說都是可以數字化的數據。特別地,這些數據相依類型復雜、數據的價值具有低密度性,當數據的容量達到一定程度后,傳統的經典處理方法都會失效,掌握前沿先進的統計推斷知識技能的數據分析能力就非常有必要了。另一方面,近年來隨著計算機科學技術的快速提升,使得海量數據的采集、處理以及精準高速的運算都成為現實,人們步入大數據時代。在現代統計的實際應用中,經常遇到要處理高維或超大樣本數據的情形,這種情形在經濟、金融、生物醫學、工業工程中尤為常見。
與統計學特別是現代統計學有關的高等教育培養體系目標中,應該把海量數據的處理辦法、加工方法和收集技術包含進來,這些技術方法應該成為當今高等教育中學生的重要學習內容。為了使高等教育中的學生可以較快適應和具備當代統計學的海量數據的分析能力,應該把數據分析的常用技術技巧加入到相關課程中去。現代統計學教學中大學生數據分析能力的培養應該是與高等教育中學生的培養標準是一致的。由于每行每業有海量數據信息需要去挖掘和分析,因此這也一定程度上提升了學生的跨學科進行學術研究的本領。另一方面,從各個行業的需求以及發展的角度來看,適應和掌握大數據特別是海量數據學科思想是迫切的和必須的。在當今信息爆炸的時代,從來不會缺少數據,甚至無處不在,相關統計表明幾乎百分之九十九的海量數據的信息都處于深度睡眠狀態,需要我們去挖掘和開發。因此在新時代的大背景下,高校的學生更應該積極主動地去學習海量數據的處理技巧和統計分析軟件。針對新形式的背景,經典的概率論與數理統計的傳統課程已無法滿足新的需求。因為這些課程都注重理論知識的傳授和培養,常常忽略了統計學的學科思維,即數據思維。因為實踐問題中我們拿到的數據都不是經典的,經常無法滿足理想的模型假設,在這種情況下去利用標準的統計推斷分析方法所得到的結論可能是錯誤的,甚至是不可信的。這就要求高校學生應積極主動學習海量數據思維,特別是當已有模型都無法適應新的數據的時候該如何解決。另外,傳統的統計學教育主要關注學生的考試能力,這種以考試成績為目標的培養是不利于學生的數據分析能力的培養的。因此,為了培養出能夠適應和勝任海量數據分析能力的高等教育人才,就必須也很有必要對現有的課程體系進行相關的革新。
三、現代統計學教學中提高大學生數據分析能力的主要內容
(一)構建教學內容課程體系
海量數據的信息提取必須具有一定的理論基礎,從而線性代數、高等數學、概率論與數理統計等課程是必修的。而過分強調理論會使得高校學生的數據思維被扼殺掉,因此高校應該開設一些數據挖掘,機器學習和人工智能的課程,這些課程應該包含與數據分析特別是海量數據分析有關的無監督學習如大數據降維、向前回歸和向后回歸、特征篩選、變量篩選等;半監督學習如聚類分析、因子分析、主成分分析等;有監督學習如回歸分析、方差分析等。
(二)課程案例教學設計研究
經典和優秀的案例分析不僅能夠加強課程的實踐性,還能提升課程的趣味性。海量數據分析經典案例有很多,比如文本分析、基因路徑分析、數據可視化分析等。把這些優秀例子結合統計學理論進行講授,不僅可以開發學生的數據思維,還能觸通旁類,啟發學生橫向學習和縱向學習的跨學科學習能力。讓學生如何在數據案例中學習理論,學以致用。
(三)課程實踐教學環節研究
經典的教學課程首先向學生呈現的是數學公式,然后把數據當作數字導入公式計算,然后對所得計算結果進行統計解釋。這樣做完全違背了統計學的學科發展過程,統計學首先是從描述統計開始,剛開始只有實際問題沒有任何理論背景,直到前蘇聯的著名數學和統計學家安德雷·尼古拉耶維奇·柯爾莫哥洛夫從測度論角度把統計學進行公理化才有概率論與數理統計這門學科。因此,在教學實踐環節,應該從數據出發,摒棄相關理論,側重統計軟件的運用,有目的地、有組織地展開能夠為學生提升數據思維的環境。
四、現代統計學教學中提高大學生數據分析能力的基本途徑
(一)統計理論和案例應用相結合
以理論為基礎側重統計知識的應用,開展海量數據分析方法,基于統計分析軟件,結合海量數據處理技術,提升高校大學生的數據分析思維。近幾年來,統計建模大賽受到學校和各級部門的高度重視,作為創新創業大賽的一部分和培養創新型人才的重要手段之一,有利于高校學生利用統計計算軟件解決實際問題的本領,特別是統計模型的建立和統計方法的運用。進一步有利于培養學生的創新思維和提高他們的應用知識的水平。特別是伴隨著大數據時代的來臨,重大的變化需求也發生在各行各業對現代統計學高質量人才的要求,這對與統計學相關的高等教育提出新的要求和挑戰。應該積極鼓勵學生參加各類統計和數學建模,通過對統計建模課程教學現狀的調查分析,確定統計建模課程改革的指導思想,探討課程內容體系和教學內容體系的構建,提出實踐性教學環節的實施模式,對大數據時代背景下統計建模教學方法進行探索與實踐。
(二)課程教學和上機實踐相結合
結合課程教學,我們安排上機實踐課程以提高學生的統計軟件能力。運用軟件進行大數據分析,調用函數、編寫復雜程序、仿真、模擬實驗等。運用軟件對統計理論進行驗證。一方面提高學生統計軟件的應用能力,另一方面加深學生對統計理論的理解。進一步布置較為開放性的命題,將學生分成若干組,要求結合自己的專業查找有關資料和大數據,然后利用軟件完成相關的統計分析。結合各組上交的作業情況和各組講解作業完成思路的表現綜合打分。
(三)教師的教研和科研項目與教學相結合
任課教師應該積極主動開展和教學、教研有關的科學研究,并積極主動申請相關項目,并把學生以參與人的方式加入到項目中去。從實際問題出發,和學生一起以合作方式完成相關項目包括論文的撰寫。從數據的收集處理、模型的建立、模型假設的驗證、數據分析結果的解釋說明等內容,能使學生在一個項目中得到收獲激發他們的興趣愛好。
五、現代統計學教學中提高大學生數據分析能力過程中擬解決的問題
(一)課程體系和教學內容體系的構建問題:經典的數理統計類課程不能將所學知識與專業研究有機地聯系起來。在大數據驅動下新課程在教學內容設計上注重理論學習與實踐有機結合,并凸顯數據建模的實踐應用價值,提升統計建模人才的綜合性技能。
(二)開展實踐教學的可行性:從學生的發展和需求及課程本身出發,結合我校實際情況,從實踐教學的硬件和軟件,如大數據實驗室、教學觀念、師資團隊、實踐課程體系設置、數據來源等方面探討新課程實踐教學的可行性。
(三)適合多層次統計應用型人才培養平臺的搭建問題:大數據時代人才的培養需要多方主體的參與,不僅需要具有專業知識的高校,還需要具有熟練實踐知識的政界和企業界,三方交流合作才能培養出適合多層次的統計應用型人才,高校與政府、高校與企業進行多方合作的方式及可操作性問題是需要解決的關鍵問題之一。在我們的研究團隊中已有關注生物大數據應用的業界人員,這為我們解決這一關鍵問題提供了契機。
六、結語
綜上所述,當今的教育體制下學生數據分析能力的培養已經涉及到不同學科。作為一名高校統計學教育教學工作者,應該積極主動地發現自身存在的不足,提出了制定適合信息與統計科學專業學生的數理統計課程大綱、實驗大綱和實驗指導書,編寫具有時代特色的數理統計教材,增加計算機實驗課程,加強案例教學和項目教學,建設網絡課程,改革考核方式等解決辦法,激發學生的學習興趣,提高學生的數據分析能力,適應大數據時代發展的要求,為國家和社會發展輸送更多高素質應用和學術型的人才,積極探索新型的教學手段和教育方法。
參考文獻:
[1]國務院關于印發促進大數據發展行動綱要的通知[R],中國政府網,2015-09-05.
[2]孟生旺,袁衛.大數據時代的統計教育J統計研究,2015.
[3]朱力平大數據面前,統計學的價值在哪里N光明日報,2019-03-30.
作者簡介:
許凱(1988年10月-),男,博士,副教授,主要從事統計推斷及課程教學方面的研究工作。