何少芳,周 麗,李緒孟,楊玉蟾,吳自然
(湖南農業大學信息與智能科學技術學院,湖南 長沙 410128)
大數據時代背景下,運用大數據科學技術從海量的、各種各樣的數據源中采集有用的數據信息,并進行數據的預處理(包括數據探索和清洗)、分析與建模并展示,已經被廣泛應用于各個學科領域中。隨著數據信息在現代生活和社會發展中展現出愈發重要的作用,數據分析能力也逐漸成為大數據時代對新型人才提出的新要求[1]。因此,在人才培養中,著重加強數據綜合分析與應用能力尤為重要。統計學已深入醫學、社會學和管理學等眾多研究領域,成為數據分析中不可或缺的手段,而具有數據分析思維和行業數據分析能力的統計學專業人才在各行各業中均發揮著重要的作用[2]。統計學可以分為理論統計學(數理統計學)和應用統計學,相對于理論統計學側重于理論研究,應用統計學以具體問題為研究對象,著重強調統計方法論的實際應用,通過對研究對象的定性分析和統計學領域的定量研究得到有價值的結論[3]。與快速發展的大數據分析技術相比,統計學本科專業實踐課程的改革相對較慢,如何結合高等院校自身學科的特點和優勢,凝練出既能滿足社會需要又具有自身特色的統計學專業培養方向,是一個值得探究的問題。具體的,通過統計學專業相關實踐課程教學改革[4-5](如“大數據分析綜合實踐”課程、“統計學實踐”課程[6]和“時間序列分析實踐”課程[7]等),實現由理論統計學向應用統計學的成功轉變,這是一件非常有意義的工作。
應用統計學人才的培養目標是:培養具有良好的數學和計算機基礎,掌握特定領域的基礎知識和統計學的基本理論、方法和技術,能理論聯系實際,利用統計學專業知識解決該領域具體問題的人才[8]。“大數據分析綜合實踐”是統計學專業的重要實踐課程之一,一般安排在第六學期,共40課時。該課程的教學目標與人才培養目標一致,旨在利用良好的數學基礎、Python或R語言以及多元統計分析、應用回歸分析和時間序列分析等理論方法,對具體問題建模并進行數據處理與分析。它是對統計學相關知識融會貫通并綜合運用到實際問題中的實踐類課程。大數據分析現有的教學研究主要集中于實踐平臺建設[9]和數據分析課程教學資源與教學改革[10]等。本文結合本校統計學專業學生的具體情況,先對“大數據分析綜合實踐”課程教學的必要性進行說明,然后對實踐教學內容與框架進行設計,最后結合源自文獻的實踐項目給出教學案例分析。
為統計學專業學生開設的“大數據分析綜合實踐”課程旨在運用統計學的基本理論、方法和技術解決具體問題。與該門實踐課程密切相關的先修課程主要有“高等數學”“概率論與數理統計”“統計學”“多元統計分析”“應用回歸分析”“時間序列分析”“大數據處理與分析”。“多元統計分析”[11]中的主成分分析、因子分析、聚類分析、判別分析、典型相關分析,“應用回歸分析”[12]中的經典線性回歸、廣義線性模型、縱向數據(分層模型)、回歸與分類方法(決策樹、bagging、隨機森林、人工神經網絡、支持向量機、k最近鄰方法)、生存分析和Cox模型以及“時間序列分析”中處理時間序列的典型方法和模型等,都為大數據分析綜合實踐中用到的機器學習算法提供了豐富的理論基礎。
當前,“大數據分析綜合實踐”的實踐項目一般從大學生統計建模競賽、大學生數學建模競賽、大數據競賽平臺DataFountain[13]的歷屆賽題以及已出版的文獻中選擇,因而,在實踐教學過程中沒有標準的實踐項目指導教材。從另一方面來說,該門課程學習目標明確,完全遵從問題驅動或者數據驅動模式,即從問題或數據出發,除了會靈活運用統計學專業知識外,還得需要什么就臨時學習什么,由此獲得更多的知識和自主學習的能力。
在“大數據分析綜合實踐”教學過程中,學生的學習和實踐情況不僅能有效反映該學生對統計學基本知識與方法的掌握情況,還能體現學生融會貫通、綜合運用知識解決實際問題的能力。通過該課程的學習,不僅能加深學生對統計學相關理論知識的理解,還能深化學生的實踐意識,促使學生選擇適當的模型與方法分析問題和數據,并利用統計學軟件或Python語言對各種數據進行處理與建模分析,進而獲得有價值的結論。換句話說,該門課程既能使學生分析問題和處理數據的能力得到有效提升,還能培養學生科學創新的能力,為順利完成第四學年的大學生畢業論文保駕護航。學習能力較強且實踐項目完成得較好的學生可以通過查閱相關參考文獻,對項目中涉及的模型或方法進一步拓展或改進,將項目內容完善成一篇優秀的本科畢業論文。
結合人才培養方案中統計專業學生開設的課程內容,“大數據分析綜合實踐”教學框架的構建最大限度地利用先修課程知識和現有的實驗室條件。以大數據分析技術與統計學知識完美結合為依托,達到提升統計學專業學生的統計學運用能力的目的。該課程的實踐項目一般來源于大學生統計建模大賽、大學生數學建模競賽、大數據競賽平臺的賽題和已出版的文獻。本文以統計學專業已完成的實踐教學活動為基礎,構建教學框架如下。
考慮到課時有限,教學內容僅包括5個實踐項目,其中,前4個來源于大數據競賽平臺DataFountain,第五個來自已出版的文獻,項目信息如表1所示。項目任務既有回歸也有分類,前3個項目屬于分類問題,后面2個是回歸問題。項目涉及的知識點主要有數據預處理、特征工程、類別不均衡處理、回歸與分類模型、集成學習、模型評估分析以及可視化等。值得注意的是,所涉及的知識點中有部分是以前未學過的,如用戶畫像、RFM模型、海洋漂流軌跡建模、車輛碰撞狀態建模和SHAP模型,它們都需要在實踐過程中即學即用。實踐項目中包含少部分未學知識,旨在拓寬學生的大數據思維,讓其深刻體會“掌握特定領域的基礎知識和統計學的基本理論、方法和技術,理論聯系實際,利用統計學專業知識和大數據分析技術解決該領域的具體問題”。

表1 實踐項目信息
實踐項目內容的一般框架是數據預處理、特征工程、模型預測、模型評估分析以及分析與決策,而可視化貫穿其中,利用圖形繪制的方式對數據處理與分析結果進行展示。以基于隨機森林算法實現電信用戶流失預測任務為例,框架如圖1所示,數據集提供了7 043條用戶樣本,每條樣本包含21列屬性,數據預處理需要做的工作是異常值處理和缺失值處理;考慮到屬性較多,先對特征進行可視化分析,如流失客戶占比,基本特征對客戶流失的影響、業務特征對客戶流失影響和合約特征對流失客戶的影響等,再進入特征工程(特征選擇和特征提取);模型預測中涉及類別不平衡問題處理和交叉驗證調參;模型評估分析采用精確率、召回率和F1值評價模型性能。

圖1 電信用戶流失預測項目框架
本文以源自文獻“基于XGBoost的在線短租市場價格預測及特征分析模型”[14]的實踐項目為例進行實踐教學案例分析。
目前,針對房產相關的研究主要集中在價格預測模型和影響因素分析方面。文獻[14]選取美國洛杉磯2020年最新的Airbnb數據集(含37 048條樣本、105個屬性特征)為研究對象,提出一種基于XGBoost的在線短租市場價格預測及特征分析模型,建模流程[14]如圖2所示。它在對原始數據實施特征工程和特征選擇后,基于XGBoost模型建立了在線短租場景下的價格預測模型,通過與多個已有價格預測模型在性能指標上對比來驗證模型的性能,并采用SHAP值對模型中價格的影響因素進行分析。利用SHAP模型解釋結果,分析影響價格的因素,以增強模型的可解釋性,為房東定價和服務提升提供決策參考。該文獻完整呈現了大數據分析綜合實踐內容框架中的各個要素。通過學習該文獻并進行項目的實踐操作,學生不僅能掌握大數據分析的常用方法和技術,切身體會如何運用所學知識解決實際問題,還能學習論文寫作方法和技巧,為畢業論文寫作打下堅實的基礎。

圖2 XGBoost建模流程
項目實踐教學流程依據文獻內容布局而定,主要包括價格預測問題的國內外研究現狀的了解、模型與方法的學習、特征工程、模型優化和評估以及基于SHAP模型解釋分析的編程實現。模型與方法的學習主要有XGBoost、LightGBM、ExtraTrees、AdaBoost、GBR和SHAP模型。編程部分在Python語言集成環境平臺(如Anaconda、PyCharm)上實現,其中,特征工程需要實現數據異常值及目標變量處理、缺失值處理及獨熱編碼、Lasso特征選擇,并將部分處理結果可視化,包括房源價格分布直方圖、部分特征變量與目標變量熱力圖、數據缺失情況柱狀圖和Lasso特征選擇的特征重要度直方圖;模型優化采用交叉驗證和網格搜索實現超參數調優,而模型收斂情況則通過可視化XGBoost與各分類模型的學習曲線來分析;模型性能采取與同類工作以及其他主流機器學習模型對比的方式來評估;模型解釋用可視化SHAP特征分析摘要和SHAP特征依賴關系來說明。
“大數據分析綜合實踐”的教學效果主要通過學生在實踐過程中的學習情況和項目內容的完成情況來檢驗。學生在每個項目中獲得的成績根據該項目各個部分內容的實際完成情況來綜合評定,對于學習能力強、動手能力強以及有創新意識學生將給予更高的成績。學生的總成績由所有實踐項目成績加權平均獲得,權重因子依據每個項目的難易程度確定。
大數據背景下,將統計學專業知識與大數據分析技術相結合,培養具有數據分析思維和行業數據分析能力的統計學專業人才,有利于優化統計學專業人才培養方案。實踐課程教學在統計學專業教學中具有重要的地位,通過專業課程實踐培養學生的專業技能、實際動手能力和創新思維。本文以統計學專業的“大數據分析綜合實踐”課程為研究對象,從課程實質、教學現狀和課程作用3個方面對“大數據分析綜合實踐”課程教學的必要性進行闡述;對實踐項目內容和教學框架進行設計,并以來自文獻“基于XGBoost的在線短租市場價格預測及特征分析模型”的實踐項目為例進行詳細的實踐教學案例分析。統計學專業2018級學生已完成該課程學習,由教學效果檢驗可知,這屆學生在統計學基礎知識和大數據處理與分析能力等方面都有較大提升。