999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計學專業“大數據分析綜合實踐”教學探究*

2022-08-30 08:17:20何少芳李緒孟楊玉蟾吳自然
科技與創新 2022年17期
關鍵詞:分析模型課程

何少芳,周 麗,李緒孟,楊玉蟾,吳自然

(湖南農業大學信息與智能科學技術學院,湖南 長沙 410128)

大數據時代背景下,運用大數據科學技術從海量的、各種各樣的數據源中采集有用的數據信息,并進行數據的預處理(包括數據探索和清洗)、分析與建模并展示,已經被廣泛應用于各個學科領域中。隨著數據信息在現代生活和社會發展中展現出愈發重要的作用,數據分析能力也逐漸成為大數據時代對新型人才提出的新要求[1]。因此,在人才培養中,著重加強數據綜合分析與應用能力尤為重要。統計學已深入醫學、社會學和管理學等眾多研究領域,成為數據分析中不可或缺的手段,而具有數據分析思維和行業數據分析能力的統計學專業人才在各行各業中均發揮著重要的作用[2]。統計學可以分為理論統計學(數理統計學)和應用統計學,相對于理論統計學側重于理論研究,應用統計學以具體問題為研究對象,著重強調統計方法論的實際應用,通過對研究對象的定性分析和統計學領域的定量研究得到有價值的結論[3]。與快速發展的大數據分析技術相比,統計學本科專業實踐課程的改革相對較慢,如何結合高等院校自身學科的特點和優勢,凝練出既能滿足社會需要又具有自身特色的統計學專業培養方向,是一個值得探究的問題。具體的,通過統計學專業相關實踐課程教學改革[4-5](如“大數據分析綜合實踐”課程、“統計學實踐”課程[6]和“時間序列分析實踐”課程[7]等),實現由理論統計學向應用統計學的成功轉變,這是一件非常有意義的工作。

應用統計學人才的培養目標是:培養具有良好的數學和計算機基礎,掌握特定領域的基礎知識和統計學的基本理論、方法和技術,能理論聯系實際,利用統計學專業知識解決該領域具體問題的人才[8]。“大數據分析綜合實踐”是統計學專業的重要實踐課程之一,一般安排在第六學期,共40課時。該課程的教學目標與人才培養目標一致,旨在利用良好的數學基礎、Python或R語言以及多元統計分析、應用回歸分析和時間序列分析等理論方法,對具體問題建模并進行數據處理與分析。它是對統計學相關知識融會貫通并綜合運用到實際問題中的實踐類課程。大數據分析現有的教學研究主要集中于實踐平臺建設[9]和數據分析課程教學資源與教學改革[10]等。本文結合本校統計學專業學生的具體情況,先對“大數據分析綜合實踐”課程教學的必要性進行說明,然后對實踐教學內容與框架進行設計,最后結合源自文獻的實踐項目給出教學案例分析。

1 “大數據分析綜合實踐”教學的必要性

1.1 “大數據分析綜合實踐”課程實質

為統計學專業學生開設的“大數據分析綜合實踐”課程旨在運用統計學的基本理論、方法和技術解決具體問題。與該門實踐課程密切相關的先修課程主要有“高等數學”“概率論與數理統計”“統計學”“多元統計分析”“應用回歸分析”“時間序列分析”“大數據處理與分析”。“多元統計分析”[11]中的主成分分析、因子分析、聚類分析、判別分析、典型相關分析,“應用回歸分析”[12]中的經典線性回歸、廣義線性模型、縱向數據(分層模型)、回歸與分類方法(決策樹、bagging、隨機森林、人工神經網絡、支持向量機、k最近鄰方法)、生存分析和Cox模型以及“時間序列分析”中處理時間序列的典型方法和模型等,都為大數據分析綜合實踐中用到的機器學習算法提供了豐富的理論基礎。

1.2 “大數據分析綜合實踐”教學現狀

當前,“大數據分析綜合實踐”的實踐項目一般從大學生統計建模競賽、大學生數學建模競賽、大數據競賽平臺DataFountain[13]的歷屆賽題以及已出版的文獻中選擇,因而,在實踐教學過程中沒有標準的實踐項目指導教材。從另一方面來說,該門課程學習目標明確,完全遵從問題驅動或者數據驅動模式,即從問題或數據出發,除了會靈活運用統計學專業知識外,還得需要什么就臨時學習什么,由此獲得更多的知識和自主學習的能力。

1.3 “大數據分析綜合實踐”課程作用

在“大數據分析綜合實踐”教學過程中,學生的學習和實踐情況不僅能有效反映該學生對統計學基本知識與方法的掌握情況,還能體現學生融會貫通、綜合運用知識解決實際問題的能力。通過該課程的學習,不僅能加深學生對統計學相關理論知識的理解,還能深化學生的實踐意識,促使學生選擇適當的模型與方法分析問題和數據,并利用統計學軟件或Python語言對各種數據進行處理與建模分析,進而獲得有價值的結論。換句話說,該門課程既能使學生分析問題和處理數據的能力得到有效提升,還能培養學生科學創新的能力,為順利完成第四學年的大學生畢業論文保駕護航。學習能力較強且實踐項目完成得較好的學生可以通過查閱相關參考文獻,對項目中涉及的模型或方法進一步拓展或改進,將項目內容完善成一篇優秀的本科畢業論文。

2 “大數據分析綜合實踐”教學框架構建

結合人才培養方案中統計專業學生開設的課程內容,“大數據分析綜合實踐”教學框架的構建最大限度地利用先修課程知識和現有的實驗室條件。以大數據分析技術與統計學知識完美結合為依托,達到提升統計學專業學生的統計學運用能力的目的。該課程的實踐項目一般來源于大學生統計建模大賽、大學生數學建模競賽、大數據競賽平臺的賽題和已出版的文獻。本文以統計學專業已完成的實踐教學活動為基礎,構建教學框架如下。

2.1 實踐項目設計

考慮到課時有限,教學內容僅包括5個實踐項目,其中,前4個來源于大數據競賽平臺DataFountain,第五個來自已出版的文獻,項目信息如表1所示。項目任務既有回歸也有分類,前3個項目屬于分類問題,后面2個是回歸問題。項目涉及的知識點主要有數據預處理、特征工程、類別不均衡處理、回歸與分類模型、集成學習、模型評估分析以及可視化等。值得注意的是,所涉及的知識點中有部分是以前未學過的,如用戶畫像、RFM模型、海洋漂流軌跡建模、車輛碰撞狀態建模和SHAP模型,它們都需要在實踐過程中即學即用。實踐項目中包含少部分未學知識,旨在拓寬學生的大數據思維,讓其深刻體會“掌握特定領域的基礎知識和統計學的基本理論、方法和技術,理論聯系實際,利用統計學專業知識和大數據分析技術解決該領域的具體問題”。

表1 實踐項目信息

2.2 實踐項目內容框架

實踐項目內容的一般框架是數據預處理、特征工程、模型預測、模型評估分析以及分析與決策,而可視化貫穿其中,利用圖形繪制的方式對數據處理與分析結果進行展示。以基于隨機森林算法實現電信用戶流失預測任務為例,框架如圖1所示,數據集提供了7 043條用戶樣本,每條樣本包含21列屬性,數據預處理需要做的工作是異常值處理和缺失值處理;考慮到屬性較多,先對特征進行可視化分析,如流失客戶占比,基本特征對客戶流失的影響、業務特征對客戶流失影響和合約特征對流失客戶的影響等,再進入特征工程(特征選擇和特征提取);模型預測中涉及類別不平衡問題處理和交叉驗證調參;模型評估分析采用精確率、召回率和F1值評價模型性能。

圖1 電信用戶流失預測項目框架

3 實踐教學案例分析

本文以源自文獻“基于XGBoost的在線短租市場價格預測及特征分析模型”[14]的實踐項目為例進行實踐教學案例分析。

3.1 案例設計目的

目前,針對房產相關的研究主要集中在價格預測模型和影響因素分析方面。文獻[14]選取美國洛杉磯2020年最新的Airbnb數據集(含37 048條樣本、105個屬性特征)為研究對象,提出一種基于XGBoost的在線短租市場價格預測及特征分析模型,建模流程[14]如圖2所示。它在對原始數據實施特征工程和特征選擇后,基于XGBoost模型建立了在線短租場景下的價格預測模型,通過與多個已有價格預測模型在性能指標上對比來驗證模型的性能,并采用SHAP值對模型中價格的影響因素進行分析。利用SHAP模型解釋結果,分析影響價格的因素,以增強模型的可解釋性,為房東定價和服務提升提供決策參考。該文獻完整呈現了大數據分析綜合實踐內容框架中的各個要素。通過學習該文獻并進行項目的實踐操作,學生不僅能掌握大數據分析的常用方法和技術,切身體會如何運用所學知識解決實際問題,還能學習論文寫作方法和技巧,為畢業論文寫作打下堅實的基礎。

圖2 XGBoost建模流程

3.2 實踐教學開展流程

項目實踐教學流程依據文獻內容布局而定,主要包括價格預測問題的國內外研究現狀的了解、模型與方法的學習、特征工程、模型優化和評估以及基于SHAP模型解釋分析的編程實現。模型與方法的學習主要有XGBoost、LightGBM、ExtraTrees、AdaBoost、GBR和SHAP模型。編程部分在Python語言集成環境平臺(如Anaconda、PyCharm)上實現,其中,特征工程需要實現數據異常值及目標變量處理、缺失值處理及獨熱編碼、Lasso特征選擇,并將部分處理結果可視化,包括房源價格分布直方圖、部分特征變量與目標變量熱力圖、數據缺失情況柱狀圖和Lasso特征選擇的特征重要度直方圖;模型優化采用交叉驗證和網格搜索實現超參數調優,而模型收斂情況則通過可視化XGBoost與各分類模型的學習曲線來分析;模型性能采取與同類工作以及其他主流機器學習模型對比的方式來評估;模型解釋用可視化SHAP特征分析摘要和SHAP特征依賴關系來說明。

3.3 教學效果檢驗

“大數據分析綜合實踐”的教學效果主要通過學生在實踐過程中的學習情況和項目內容的完成情況來檢驗。學生在每個項目中獲得的成績根據該項目各個部分內容的實際完成情況來綜合評定,對于學習能力強、動手能力強以及有創新意識學生將給予更高的成績。學生的總成績由所有實踐項目成績加權平均獲得,權重因子依據每個項目的難易程度確定。

4 結束語

大數據背景下,將統計學專業知識與大數據分析技術相結合,培養具有數據分析思維和行業數據分析能力的統計學專業人才,有利于優化統計學專業人才培養方案。實踐課程教學在統計學專業教學中具有重要的地位,通過專業課程實踐培養學生的專業技能、實際動手能力和創新思維。本文以統計學專業的“大數據分析綜合實踐”課程為研究對象,從課程實質、教學現狀和課程作用3個方面對“大數據分析綜合實踐”課程教學的必要性進行闡述;對實踐項目內容和教學框架進行設計,并以來自文獻“基于XGBoost的在線短租市場價格預測及特征分析模型”的實踐項目為例進行詳細的實踐教學案例分析。統計學專業2018級學生已完成該課程學習,由教學效果檢驗可知,這屆學生在統計學基礎知識和大數據處理與分析能力等方面都有較大提升。

猜你喜歡
分析模型課程
一半模型
數字圖像處理課程混合式教學改革與探索
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
重尾非線性自回歸模型自加權M-估計的漸近分布
為什么要學習HAA課程?
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲无码免费黄色网址| 久久久国产精品免费视频| 国产美女无遮挡免费视频| 久久精品人人做人人综合试看| 亚洲无码高清一区二区| 日韩精品成人网页视频在线 | 国产综合在线观看视频| 国产成人久久综合一区| 亚洲欧美综合在线观看| 91麻豆国产视频| 91无码人妻精品一区| 亚洲综合经典在线一区二区| 亚洲精品无码日韩国产不卡| 大香伊人久久| 亚洲福利视频一区二区| jizz在线观看| 女人18毛片一级毛片在线| 日本久久网站| 在线观看免费黄色网址| 色天堂无毒不卡| 国产欧美精品专区一区二区| 免费国产高清精品一区在线| 欧美久久网| 国产午夜不卡| 99免费视频观看| 国产成人精品视频一区视频二区| 亚洲国产清纯| 亚洲黄色网站视频| 中文字幕丝袜一区二区| 日本欧美中文字幕精品亚洲| 中文成人在线视频| 精品亚洲欧美中文字幕在线看 | 狠狠色香婷婷久久亚洲精品| 国产高清在线精品一区二区三区| 欧美亚洲日韩不卡在线在线观看| 亚洲性影院| AV无码一区二区三区四区| 四虎国产成人免费观看| 国产丰满成熟女性性满足视频 | 内射人妻无套中出无码| 无码福利日韩神码福利片| 美女毛片在线| 国产精品 欧美激情 在线播放 | 毛片视频网| 欧美在线视频a| 国产丝袜一区二区三区视频免下载| 国产精品v欧美| www成人国产在线观看网站| 国产精品蜜芽在线观看| 98精品全国免费观看视频| 亚卅精品无码久久毛片乌克兰| 亚洲水蜜桃久久综合网站| 精品成人一区二区三区电影 | 一本二本三本不卡无码| 嫩草国产在线| 日韩A∨精品日韩精品无码| 77777亚洲午夜久久多人| 国产在线八区| 精品一区二区三区四区五区| 欧美日韩国产在线播放| 欧美a在线看| 九九热精品视频在线| 亚洲欧洲日韩综合色天使| 国产成人1024精品| 大学生久久香蕉国产线观看| 久久久精品久久久久三级| 亚洲精品无码专区在线观看 | 亚洲人成在线免费观看| 蜜桃视频一区二区| 天天综合网站| 中文字幕无码中文字幕有码在线| 国产精品一区在线麻豆| 97国产在线观看| 91在线日韩在线播放| 欧美成人看片一区二区三区 | 国产性生交xxxxx免费| 国产自在线播放| 免费一级毛片在线观看| 久热精品免费| 亚洲天堂精品在线观看| 国产va免费精品| 国产成人超碰无码|