張蕾+魏立斐
摘要:大數據時代下,迫切需要從海量的數據中揭示內在規律、發掘有用信息、幫助人們科學決策。這正是“數據分析”課程研究的基本內容。本文分析了信息與計算科學等本科專業開設“數據分析”課程中存在的一些問題,從教學目標、教學內容、教學方式與學時分配等方面,提出了“數據分析”課程的一些建議及初步探索方案。
關鍵詞:數據分析;大數據;課程探索
中圖分類號:G642.0 ? ? 文獻標志碼:A ? ? 文章編號:1674-9324(2015)25-0154-02
一、引言
作為最早提出“大數據時代到來”的企業,麥肯錫公司曾指出:“大數據已滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來[1]?!崩^云計算、物聯網、移動互聯網之后,“大數據”作為信息技術領域又一次顛覆性的技術革命,已經在金融、醫藥、交通、海洋等各個行業以及物理學、生物學、環境學、藥學等科學領域廣泛應用[2]。
然而,如何從海量并貌似雜亂無序的數據中揭示內在規律,挖掘有用信息,進而通過輔助決策系統、專家系統等進行科學的決策,是大數據時代面臨的重要科學問題。尤其是對這些紛繁復雜的數據進行科學的分析,實現“數據—信息—知識”[3]三個層次的提煉,正是“數據分析”課程主要研究的內容。
“數據分析”課程是國內絕大多數高校在信息與計算科學等信息類專業的本科生開設的必修課/選修課[4],是“概率論與數理統計”課程的后續延伸及應用,也是“數據挖掘”課程的先修課程?!皵祿治觥闭n程主要介紹了數據分析的基本理論與方法,詳細敘述數據分析中線性回歸分析、方差分析、主成分分析、典型相關分析、判別分析、聚類分析和Bayes分析等重要的分析方法。雖然“數據分析”課程可看作數理統計學理論與方法的綜合應用,但其更注重實際的應用問題解決的全過程,從中得到有價值的信息與知識。
在大數據時代下,大量數據分析處理需求大大助長了各行業及企業對統計、計算機背景相結合的人才的需求[5],如數據分析師、數據工程師、數據科學家等等,迫切需要同時掌握數據分析的基本理論與數據分析具體技術,并且能夠通過計算機軟件(SAS、SPSS、Eviews等)對數據進行分析與處理的復合型人才[6]。通過“數據分析”課程,學生將初步掌握數據分析的基本理論與方法,培養和鍛煉利用實際數據來分析、解決實際問題的能力,這些技能將對學生升學深造和就業工作,具有非常重要的意義。
本文在對“數據分析”課程多年的觀察與教學的基礎上,對本科階段“數據分析”課程存在問題進行深入剖析,并給出一些初步的建議。
二、存在問題
然而,筆者在最近幾年的授課過程中,發現“數據分析”課程在學生的學習過程和能力培養方面容易存在以下問題:
1.理論課程難度較大,造成學生學習困難。“數據分析”課程作為“概率論與數理統計”、“高等代數”等課程的后續課程,需要學生對數學類專業課有比較扎實的基礎與深入的理解。如“數據分析”課程中的回歸方程的顯著性檢驗方法,需要學生已經掌握“概率論與數理統計”的多元正態分布的定義和數字特征、假設檢驗等內容,同時具有“高等代數”的矩陣運算(包括矩陣的加、乘法,求逆陣,計算特征值和特征向量等)的基礎。同時,“數據分析”與“概率論與數理統計”課程在內容上也是有所差異的:前者強調從實際數據中挖掘盡可能多的有用信息,屬于后者的理論與方法的綜合應用。因此,“數據分析”課程的理論難度較大,對于學生學習提出了很高的要求。
2.動手能力要求高,考驗學生的編程能力。“數據分析”課程的知識點不僅僅停留在理論推導上,對于已經建立的數學模型,需要借助與計算機對大批量的數據進行處理,尤其是常用的統計軟件在漢化過程中,不能很好地解決專業術語的翻譯。因此在運用計算機軟件解決實際問題時,對學生計算機編程能力和專業外語知識要求也很高。如在SAS中,有一整套的編程命令,以命令的方式來建立數據集,并對數據集進行操作,甚至在實現某些分析算法(如Box-Cox變換)的時候,還會調用到選擇語句和循環語句。學生往往處于被動學習的地位,只能按照教師的指導,運行一些簡單的程序,如僅僅敲打書上例題程序,缺少實驗過程中的動手分析、設計和測試環節,無法發揮學生的積極性與創造性。這樣的實驗很難讓學生體會到實際的數據處理及編程環境,學會解決編程中碰到的意外問題,因此難以激發學生的實驗興趣,從而降低了教學的效果。
3.對于計算機運行結果,需要較高的分析問題能力,考察學生分析能力。很多同學能夠通過計算機調用統計軟件中各程序模塊的運行,但僅僅能達到驗證結果的目的,往往對計算結果中所包含的統計學等深層次的含義知之甚少,更不必說從中提煉出有用的知識。如很多同學知道某統計量的假設檢驗概率值p<0.0001,僅表示出現的概率極小,但不知道其假設條件,故無法做出統計推斷與檢驗。如此將計算機工具與數據分析強行割裂,使得學生分析問題的能力很難得到提高。因此,對于計算機運行結果,需要較高的分析能力,找出其問題的本質。
三、課程建議
鑒于上述存在問題,筆者對大數據時代下“數據分析”課程進行了探索,提出了如下建議:
1.建議“數據分析”課程緊密銜接“概率論與數理統計”、“高等代數”等數學類基礎課程。在授課過程中,根據學生情況,逐步深入難度。課堂講授理論學時建議在48個學時以上,可確保知識的系統性和正確性,可對教材中內容完整講解。對于定理的證明,建議通過黑板等傳統手段仔細推導與講解,對于部分超出課程要求的繁難的理論證明可以略去或改為學生自學。如在典型相關分析的過程中,對于典型相關變量和典型相關系數的求法,可以先給學生講解有關結果;尤其是計算矩陣平方根的逆矩陣,著重講解算法過程。例題和習題的選取,一般建議選取具有實際背景的觀測數據。通過這些例子的分析,使學生了解數據分析方法的具體應用,體會數據分析的全過程。有條件的學??梢酝ㄟ^微課視頻等形式,將“數據分析”各個知識點制作成微課,供學生反復觀看使用。endprint
2.建議增加實驗學時,培養編程動手能力。建議“數據分析”課程安排上機實驗學時不少于16個學時,選擇對常用統計軟件(SAS、SPSS或Eviews)的一種進行仔細講解,使用SPSS或Eviews,其圖形界面可以幫助學生理解復雜的過程,使用SAS可以讓學生了解SAS的編程語言和語法結構。有條件的高校,建議采用英文版的軟件,可使學生熟悉統計學的專有名詞,為今后的進一步閱讀外文文獻提供幫助。筆者在實際教學過程中,結合SAS 9.4展開介紹,上機實驗學時為16課時,可以使學生有足夠的時間進行例題和習題的操作練習。在安排上機的過程中,根據學生的具體情況,開展如Box-Cox變換等SAS程序的閱讀與編寫,加深對該變換算法的理解和該變換本質——滿足線性回歸模型的假設條件的理解。
3.建議增加課程大作業,實現數據綜合分析。課程大作業可以讓學生接觸到一個完整的分析問題、解決問題的過程。對于本科生來說,建議指導教師給出一些具體的題目,如大城市霧霾天氣的影響因素、景點游客滿意度等。這些熱點問題更容易激發學生的學習興趣。在大作業中,鼓勵學生通過調查問卷或查閱相關統計年鑒,以獲得相應的原始數據,并從實際數據中不斷挖掘盡可能多的有用信息以及希望從數據中得到的知識。根據計算機運行結果,進一步分析數據特征,學會從原始數據到有用信息再到科學知識的一個提煉過程。最后,通過同學討論與發言以及教師的點評,來幫助學生培養分析問題和解決問題的能力。如針對大城市的霧霾天氣,請查找相關數據,對可能的形成原因進行分析,提出合理的假設,并對治理霧霾天氣提出合理化建議??勺寣W生查閱霧霾出現的時間、溫度、濕度以及相關的工農業生產指標進行分析,進行主成分分析等,嘗試尋找導致霧霾的主要原因。
四、結束語
隨著移動設備和各類傳感器的普及,數據量已經從TB級躍升到PB、EB級乃至ZB(1ZB=10~21Byte)級別,大數據時代已經來臨。面對如此驚人的數據,對于數據的分析和挖掘需求已變得十分的迫切;同時,充分利用大數據所帶來的信息,如何充分利用這些數據,使其為國家、企業決策乃至個人服務,是今后很長一段時間內科學研究和工程技術領域的重要內容。
在這種時代背景下,“數據分析”課程作為信息與計算科學等相關專業的一門重要課程,將在很大程度上培養學生的數學思維與計算思維,提升學生的分析與解決實際的問題能力,增強學生在升學深造和就業工作時的核心競爭力,更好地融入到大數據時代中去。
參考文獻:
[1]頁川.大數據時代背景下挖掘教育數據的價值[J].中國遠程教育,2013,(4):94-95.
[2]董志清,廖正琦.《多元統計分析》課程的教學體會及探討[J].重慶文理學院學報(自然科學版),2010,(2):82-84.
[3]董梅生.提高應用統計學課程教學效果的幾點體會[J].安徽工業大學學報(社會科學版),2011,(3):119-120.
[4]梅長林,范金城.數據分析方法[M].北京:高等教育出版社,2006.
[5]向程冠,熊世桓,王東.淺談高校大數據分析人才培養模式[J].中國科技信息,2014,(9):138-139.
[6]姚志勇.SAS編程與數據挖掘商業案例[M].北京:機械工業出版社,2013.endprint