999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Sklearn和PyTorch的數(shù)據(jù)挖掘課程教學設計研究

2024-07-09 12:32:51周峰章蓀
電腦知識與技術 2024年15期
關鍵詞:數(shù)據(jù)挖掘深度學習

周峰 章蓀

關鍵詞:數(shù)據(jù)挖掘;課程設計;Sklearn;PyTorch;深度學習

0引言

隨著科學技術的發(fā)展,人類社會已經(jīng)步入信息時代。日常生活中,人們大量地使用智能手機、電腦、平板電腦等信息化產(chǎn)品進行購物、社交、娛樂等活動,從而產(chǎn)生了大量的數(shù)據(jù)。據(jù)不完全統(tǒng)計,僅經(jīng)過11年,全球數(shù)據(jù)量已由2009年的0.8ZB增長到2020年的60ZB。得益于互聯(lián)網(wǎng)、云計算等技術的快速發(fā)展,這個數(shù)據(jù)量還在以指數(shù)級增長,預計2035年的全球數(shù)據(jù)量可達到2142ZB[1]。近期興起的數(shù)據(jù)分析等科學方法,使得能夠精準分析這些大數(shù)據(jù),這對于改善人們生活、生產(chǎn)具有重要的意義。

大數(shù)據(jù)具有體量大、表現(xiàn)形式多樣、價值高等特點。雖然大數(shù)據(jù)能夠提供有價值的信息,但是體量大、表現(xiàn)形式多樣的特點也導致提取該信息的難度較高。此時,數(shù)據(jù)挖掘技術應運而生,它旨在利用統(tǒng)計學、模式識別、數(shù)據(jù)庫技術、高性能計算等學科知識對大數(shù)據(jù)進行分析,提取有價值的信息。該技術已經(jīng)被廣泛應用于醫(yī)學、軍事、管理等多種領域[2]。因此,各行各業(yè)對能夠熟練掌握數(shù)據(jù)挖掘技術的人才需求越來越大。為了適應社會生產(chǎn)、發(fā)展的需要,國內各高校的計算機類專業(yè)都為本科生開設了數(shù)據(jù)挖掘課程,讓學生能夠擁有分析大數(shù)據(jù)的能力。

1數(shù)據(jù)挖掘課程難點分析

數(shù)據(jù)挖掘是信息時代下的產(chǎn)物,為人們分析和利用大數(shù)據(jù)提供了技術支持。高校的多數(shù)專業(yè),包括計算機類和非計算機類(例如經(jīng)濟類)為本科生開設了數(shù)據(jù)挖掘課程。但是由于該課程交叉了大量不同學科的內容,增加了教學難度[3]。具體而言,目前存在的教學難題如下。

1.1課程的基礎知識要求高

如上所述,數(shù)據(jù)挖掘課程涉及統(tǒng)計學、機器學習、數(shù)據(jù)庫等多個學科的知識,因此要求學生在學習該課程前已經(jīng)掌握這些基礎知識。不僅如此,學生還需要能夠在學習過程中靈活地綜合運用這些知識。但是目前的教學體系還不夠完善,這些前置課程和數(shù)據(jù)挖掘課程無法很好地銜接。與此同時,通過實際教學發(fā)現(xiàn)學生對這些前置課程掌握程度不一,導致如何針對不同基礎的學生設計合理的數(shù)據(jù)挖掘課程教學過程存在難度[4]。例如,支持向量機算法中需要經(jīng)常用到拉格朗日算子,這要求學生能熟練運用高數(shù)知識;程序設計的掌握程度好壞也會直接影響學生在數(shù)據(jù)挖掘算法編程過程中的進度。

1.2課程與社會實際需求脫節(jié)

數(shù)據(jù)挖掘課程包含的諸如決策樹、支持向量機、k均值聚類等傳統(tǒng)算法,已經(jīng)無法應對當今復雜的數(shù)據(jù)環(huán)境。近期涌現(xiàn)的大量深度學習方法,已經(jīng)在數(shù)據(jù)挖掘算法中占據(jù)了主導地位。但是目前高校開設的數(shù)據(jù)挖掘課程大多數(shù)沒有囊括最新的深度學習方法。此外,互聯(lián)網(wǎng)公司在招聘時,會傾向于錄用掌握最新深度學習方法的畢業(yè)生,這使得只掌握傳統(tǒng)數(shù)據(jù)挖掘算法的學生競爭力不足。除了教授的數(shù)據(jù)挖掘算法本身,與社會需求脫節(jié)的還有課程中所使用的數(shù)據(jù)。課程教材中提供的數(shù)據(jù)大多不包含任何噪聲且特征維度較小,這與實際社會生產(chǎn)時處理的數(shù)據(jù)大相徑庭。真實世界中的數(shù)據(jù)大都包含多種形式的噪聲且特征維度高,這使得只接受了課本知識教育的學生在應對真實數(shù)據(jù)時手足無措。

1.3課程的實踐內容不足

通過實際教學發(fā)現(xiàn),大部分教材沒有包含實踐部分,只有理論知識。有一些基于Python編程語言的數(shù)據(jù)挖掘教材,也很難把算法的完整過程講清楚。數(shù)據(jù)挖掘課程的本質是教學生在面對不同的數(shù)據(jù)時,如何選擇合適的算法提取有用的信息。因此,該課程的核心應該是實踐部分,理論只作為實踐的支撐。尤其是計算機類專業(yè)的本科生,他們更應該具備較強的實踐動手能力。正如上一節(jié)所述,目前數(shù)據(jù)挖掘教材中的算法過于陳舊,且使用的數(shù)據(jù)比較干凈。所以,即使這些教材有實驗內容,也很難培養(yǎng)學生的實踐能力。

1.4課程思政融入生硬

在新工科背景下,如何保證學生在掌握專業(yè)知識的同時,能夠具有較高的思想政治素質,堅定準確的政治立場,具備使命責任感,是教師完成立德樹人任務的重要體現(xiàn)。但是,很多工科專業(yè)課程在實現(xiàn)課程思政的時候出現(xiàn)“邊緣化”問題。很多教師認為工科專業(yè)與文科專業(yè)不同,很難找到合適的切入點,只能對思政內容生搬硬套,導致學生很難意識到課程思政的重要性。

1.5課程考核方式單一

目前數(shù)據(jù)挖掘課程的考核方式仍然以閉卷考試為主,單一地將閉卷考試成績作為學生的最終課程成績。這種方式很難考查學生的學習過程以及實踐能力。經(jīng)過實際教學發(fā)現(xiàn),不同學生的學習情況差異較大,一部分學生擅長理論考試,而另一部分學生對實現(xiàn)數(shù)據(jù)挖掘算法較為得心應手。所以只使用閉卷考試作為考查手段,對學生來說是不公平的。教師應該充分考慮學生在理論和實踐兩方面的掌握差異,綜合設計考核方式。

2數(shù)據(jù)挖掘課程設計研究

針對數(shù)據(jù)挖掘課程教學中存在的難題,可以對傳統(tǒng)的教學模式進行改進,提出更加專業(yè)的課堂教學。具體而言,可以研究如何使用開源的機器學習和深度學習開發(fā)工具Sklearn和PyTorch進行課程設計。

2.1開源框架Sklearn和PyTorch

Sklearn是一個基于Python語言的機器學習開發(fā)工具,全稱為Scikit-learn。該工具的基礎為同樣基于Python語言的四種開源庫Numpy、Scipy、Pandas以及Matplotlib。這個庫包含了數(shù)據(jù)預處理、分類、聚類、回歸等算法的實現(xiàn)。僅使用Sklearn,就可以完成幾乎整個數(shù)據(jù)挖掘過程。Sklearn可以直接從官網(wǎng)https://scikit-learn.org/stable/免費下載,并安裝在個人計算機上。

PyTorch框架是由知名的互聯(lián)網(wǎng)公司Facebook研發(fā)的一款基于Python的開源深度學習工具。該工具相關的論文發(fā)表在2019年的國際頂級人工智能會議AdvancesInNeuralInformationProcessingSystems上。PyTorch有著很強的兼容性,目前支持Mac、Linux以及Windows三種操作系統(tǒng)。相比其他深度學習框架,例如TensorFlow、MXNet以及Caffe、PyTorch的函數(shù)封裝程度高,代碼易于理解,入門較快。學生只需要掌握基本的深度學習知識,就可以熟練地使用PyTorch進行編程。

2.2降低課程門檻

由于前面提到的數(shù)據(jù)挖掘課程涵蓋的學科內容較廣,所以必須設計難度適中的教學內容,才能讓學生接受。要做到這點,必須從課前、課中、課后三個方面入手。在開始課程前,教師要明確課程的核心內容,即數(shù)據(jù)挖掘算法的實踐。數(shù)據(jù)挖掘實際包含數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)挖掘等多個步驟,囊括了從數(shù)據(jù)源開始的一系列挖掘信息的過程。但對于學生來說,更重要的應該是掌握多種數(shù)據(jù)挖掘算法。所以,在整個教學過程中,可以簡化其他步驟的講授。在實驗環(huán)節(jié),可以使用Sklearn的函數(shù)直接對原始數(shù)據(jù)進行簡單的加工處理,得到需要的數(shù)據(jù)形式。如果是圖片類型的數(shù)據(jù),可以使用PyTorch的圖像預處理函數(shù)進行加工。與此同時,由于上課時間有限,教師不應該利用太多時間復習前置課程知識。教師應該在課前將本節(jié)課會涉及到的基礎知識告知學生,讓學生能夠提前對這些內容進行回顧。例如,課程實驗過程中需要經(jīng)常用到Sklearn和PyTorch這兩個庫,可以找一些Py?thon基礎語法講解的資料發(fā)給學生。此外,教師也需要將本節(jié)課要介紹的數(shù)據(jù)挖掘算法的產(chǎn)生背景、算法思想以及在生活中的應用等內容以PPT的形式發(fā)放給學生,讓學生能夠對上課內容有一個初步的了解,避免課上跟不上教師的節(jié)奏。最后,應該讓學生在課前將本節(jié)課可能產(chǎn)生的疑難問題整理好,統(tǒng)一告知教師。

在課堂上,教師應該首先對課前學生的疑難問題進行匯總和解答,不能讓學生帶著疑惑上課。講授數(shù)據(jù)挖掘算法時,應該以解釋思路為主,而不是注重公式的每一步推導。課件應該以動畫或者圖片形式為主,取代傳統(tǒng)的公式和文字,這樣可以調動學生的學習熱情和興趣[5]。課中還應該注意和學生的互動交流,必須時刻了解學生的需求和困難。通過課堂提問,側面了解教師在講課時的一些問題,可以將沒有講透徹的地方重新帶著學生梳理一遍。除了課堂提問,還可以讓學生組成小組,對課堂上介紹的特定數(shù)據(jù)挖掘算法如何應用于生活中進行討論,讓學生能夠將課本上的知識轉換到生活實踐中去。

在課后,教師可以布置一些大作業(yè),比如如何使用數(shù)據(jù)挖掘算法對課堂學生積極性進行定量的監(jiān)測。讓學生組成小組,一起查找資料、提出解決方案以及編程實踐,最終以PPT的形式展示小組提出的方案。教師可以另找時間,讓小組進行匯報。匯報主要以講解思路為主,教師也可以對學生的解決方案中存在的問題和不足提出建議。這樣的課后作業(yè)形式,可以讓學生更深入地理解數(shù)據(jù)挖掘算法,教師也可以對學生進行打分評價,計入最后的總評成績。

2.3引入最新的深度學習方法

目前,深度學習方法已經(jīng)從傳統(tǒng)的數(shù)據(jù)挖掘算法中脫穎而出。得益于它出色的性能和簡單的實現(xiàn)過程,現(xiàn)在已經(jīng)被廣泛用于各行各業(yè),例如精準農(nóng)業(yè)、軍事、城市規(guī)劃以及環(huán)境監(jiān)測等。在今后的就業(yè)環(huán)境中,各大互聯(lián)網(wǎng)企業(yè)會希望應聘的畢業(yè)生能夠掌握深度學習方法,而不是僅僅了解一些諸如支持向量機的傳統(tǒng)數(shù)據(jù)挖掘算法。為了提升學生畢業(yè)后的就業(yè)競爭力,教師應該與時俱進,不能局限于教材中的算法,應當適時地引入最新的深度學習方法。同時,教師可以不用講授過于陳舊的數(shù)據(jù)挖掘算法。經(jīng)過教學發(fā)現(xiàn),數(shù)據(jù)挖掘教材中大都包含關聯(lián)分析、分類、聚類三種數(shù)據(jù)挖掘算法。深度學習方法在實際應用中可能更多地關注分類,所以教師可以適當?shù)卦黾臃诸愃惴ㄔ谡麄€課程中的比重,減少其他章節(jié)的內容。

教師更應該將科研與教學結合,把與數(shù)據(jù)挖掘領域相關的最新中英文論文講解給學生聽,讓學生了解前沿的科學方法。學生在了解了這些世界前沿技術可以為生活帶來的好處后,也能調動學習積極性,培養(yǎng)興趣。教師可以在課后讓學生分組,每個小組分配一篇論文,要求小組成員閱讀并嘗試理解論文中的方法,并在下次課上以PPT的形式,講解給全班同學聽。

2.4加強實踐環(huán)節(jié)

大部分數(shù)據(jù)挖掘課程的核心都是介紹課本上的數(shù)據(jù)挖掘算法,實驗內容缺失。即使有些課本里面有基于Python的數(shù)據(jù)挖掘算法,但是大都代碼過長且可讀性較差,學生很難對這樣的代碼感興趣。所以,在增加實驗內容的同時,必須保證新增的編程不能過于復雜。因此,教師可以選擇使用上面介紹的Sklearn和PyTorch兩個公開庫進行實驗課的教授。Sklearn極大地簡化了構建數(shù)據(jù)挖掘算法的過程,通常只需要一到兩行代碼就可以構建一個算法模型。在使用Python編寫k均值分類器算法時,需要多次計算兩點之間距離,且算法是否收斂需要人為設置判斷條件,這都為實現(xiàn)算法帶來難度。而Sklearn只需要使用一行代碼就可以構建一個將數(shù)據(jù)劃分為k個簇的k均值分類器,如表1所示。剩下的諸如支持向量機等復雜算法都可以只用一行代碼實現(xiàn),具體見表1。Sklearn主要用于實現(xiàn)數(shù)據(jù)預處理和傳統(tǒng)的數(shù)據(jù)挖掘算法,無法實現(xiàn)復雜的深度學習方法。PyTorch的引入可以解決這個問題。一個完整的深度學習方法,包括數(shù)據(jù)的加載、模型的定義、模型參數(shù)的優(yōu)化規(guī)則、模型訓練過程、模型驗證過程。如果這些步驟都使用Python編寫,將會耗費大量的時間和精力,而且以本科的知識基礎是無法用Python直接編寫出一些復雜的優(yōu)化規(guī)則的。PyTorch與Sklearn相似,將深度學習過程中的數(shù)據(jù)加載、模型參數(shù)優(yōu)化規(guī)則、訓練和驗證過程都進行了簡化,只用簡單的幾行代碼就可以實現(xiàn)。Py?Torch的重點集中在如何搭建深度學習模型,而這部分也被簡化成積木形式的搭建。例如,深度學習模型中常用的卷積操作、池化操作、激活函數(shù)等都被簡化成了一個函數(shù),如表2所示。

除了使用開源工具簡化數(shù)據(jù)挖掘算法的實驗過程,還可以從以下方面加強課程的實踐環(huán)節(jié)。由于數(shù)據(jù)挖掘課程涵蓋的知識面范圍較廣,與目前許多學科和技能競賽有一定的交叉,所以教師可以指導學生積極參加類似軟件杯、計算機設計大賽等競賽。

2.5課程內容導向的課程思政

任何專業(yè)課程都應該包括德育教育,也就是課程思政。學生不僅需要通過專業(yè)課了解專業(yè)知識,還應該能夠通過課程學習提高自己的思政素質。但是,由于數(shù)據(jù)挖掘課程的特殊性,很多教師在教學過程中只是將思政內容生搬硬套,強行加到課程中。這種課程思政模式很難讓學生接受,甚至會影響到學生對整個課程的態(tài)度,對專業(yè)知識也產(chǎn)生排斥。

事實上,任何一門學科的發(fā)展過程,都必然能和傳統(tǒng)的中華優(yōu)秀傳統(tǒng)文化以及馬克思主義基本原理產(chǎn)生聯(lián)系,正確的課程思政能夠讓學生同時加深對專業(yè)知識以及德育教育的理解[6]。從課程內容出發(fā),例如對數(shù)據(jù)挖掘課程做出突出貢獻的科學家軼事,天然就是課程自身包含的思政內容。此外,還有其他角度可以從課程內容出發(fā)延伸至思政內容,以下案例可以為教師提供參考。首先,數(shù)據(jù)挖掘是利用各種算法從數(shù)據(jù)中挖掘出有價值的信息,這種數(shù)據(jù)驅動的信息挖掘體現(xiàn)了唯物主義精神,一切從物質本身出發(fā),而不是憑空出現(xiàn)。其次,深度學習方法雖然現(xiàn)在大受稱贊并被廣泛使用,但是它被提出的時候并不被人看好,很多科學家都不相信這類方法。深度學習總共經(jīng)歷了3次高潮和2次低谷。從深度學習的歷史來看,很多事物的發(fā)展都不是一帆風順,只有不放棄,保持初心,才能大放光彩。此外,數(shù)據(jù)挖掘算法容易將訓練樣本上得到的經(jīng)驗直接套用到測試樣本上,得到錯誤的結果,即過擬合問題。過擬合問題反映了經(jīng)驗主義的錯誤性,對于任何事物,不能一成不變地照搬以往的經(jīng)驗,一定要與時俱進。

2.6多元化考核形式

學生的學習能力和學習基礎存在差異,只以期末考試的成績來評定學生一學期的學習效果是不合適的。此外,由于數(shù)據(jù)挖掘課程是理論和實踐結合的課程,大部分學生都會傾向于擅長理論或者實踐中的一種,所以只以閉卷考試的分數(shù)作為總評成績更顯得不合理。為了不以期末考試成績單一地評價學生的學習效果,教師應當引入過程性評價,構建多元化的考核體系[7]。首先,總評成績的20%為平時成績。具體而言,這部分是由學生簽到、課堂提問、實驗報告、平時作業(yè)構成。針對學生簽到,教師應當充分利用現(xiàn)代化技術,例如超星學習通的掃碼簽到,解決學生代簽的問題。平時分充分體現(xiàn)了學生的整個學習過程,使整個評價體系更加合理、完整。剩下的80%分別由理論分和實踐分構成。理論分是由期末的閉卷考試分數(shù)決定,這一部分主要考查學生對數(shù)據(jù)挖掘算法理論知識的掌握程度,課堂中涉及到思政內容也會出現(xiàn)在試卷的案例分析題中。實踐分是通過對學生的實踐大作業(yè)打分獲得。這部分主要考查學生是否能夠將所學的數(shù)據(jù)挖掘算法用于解決現(xiàn)實生活中的難題。為了突出理論和實踐同等的重要性,這兩部分各占總分的40%。構建這樣多元化的考核形式,既能對教學過程進行監(jiān)督和評價,也能讓學生體驗到完整、多樣化的數(shù)據(jù)挖掘課程。

3結束語

信息時代背景下,互聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包含了寶貴的信息。但是,如果這些數(shù)據(jù)不加以正確使用,就會變成垃圾數(shù)據(jù),也會造成個人信息的泄漏。因此,數(shù)據(jù)挖掘技術應運而生,用于挖掘大數(shù)據(jù)中有價值的信息。數(shù)據(jù)挖掘課程目前已經(jīng)成為計算機類和非計算機類本科專業(yè)的必修課程。但是,在實際教學過程中,該課程還存在以下問題:課程入門門檻較高,涉及多門基礎學科;課程內容陳舊,無法跟上快速發(fā)展的社會需求;課程講授大都停留在理論層面,實踐內容較少,很難鍛煉學生的實踐動手能力;課程思政切入點生硬;考核形式單一,無法全面地評價學生的學習效果。本文針對這些問題,對數(shù)據(jù)挖掘課程設計進行研究,提出針對課前、課中、課后三階段降低課程門檻的教學方法;引入最新的深度學習方法,充實課本內容;適當?shù)卦黾訉嵺`內容的比重,讓學生掌握數(shù)據(jù)挖掘算法編程能力;創(chuàng)新了課程思政的切入點,能夠讓學生更好地理解思政的重要性;提出將平時成績、理論分以及實踐分融合,形成多元化的評價方式。

猜你喜歡
數(shù)據(jù)挖掘深度學習
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據(jù)技術在反恐怖主義中的應用展望
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 福利片91| 永久免费精品视频| 午夜成人在线视频| 久久美女精品| 99青青青精品视频在线| 久久综合久久鬼| 亚洲一区二区三区香蕉| 亚洲无码37.| 国产视频 第一页| 免费在线观看av| 91国内在线观看| 国产不卡一级毛片视频| 国产原创演绎剧情有字幕的| 91在线视频福利| 老色鬼欧美精品| 精品国产自| 久久99国产综合精品女同| 91亚洲影院| 亚洲v日韩v欧美在线观看| 成人亚洲国产| 69综合网| 免费一级毛片在线观看| 亚洲婷婷在线视频| 国产精品欧美亚洲韩国日本不卡| 久久精品午夜视频| 91青青视频| 99精品这里只有精品高清视频| 九九热视频精品在线| 国产成人高清精品免费软件| 午夜性刺激在线观看免费| 欧美成人午夜视频免看| 99热免费在线| 国产av一码二码三码无码 | 国产精品观看视频免费完整版| 久久青青草原亚洲av无码| 久操中文在线| 在线视频一区二区三区不卡| 亚洲国产精品一区二区第一页免| 69av免费视频| 麻豆精品在线视频| 亚洲中文字幕无码爆乳| 一级毛片免费不卡在线| 精品成人免费自拍视频| 99热国产在线精品99| 欧美日韩成人在线观看| 亚洲综合专区| 国产成人亚洲无码淙合青草| 久久无码av一区二区三区| 欧美在线精品怡红院| 久久香蕉国产线看观看式| 国产日韩精品欧美一区喷| 欧美亚洲国产一区| 亚洲无码视频图片| 天堂av综合网| 午夜福利视频一区| 在线观看免费黄色网址| 91精品国产自产在线观看| 亚洲一区毛片| 欧美在线观看不卡| 国产乱人伦偷精品视频AAA| 欧洲高清无码在线| 久久免费视频6| 欧美a级在线| www.99在线观看| a色毛片免费视频| 激情无码视频在线看| 亚洲第一精品福利| 华人在线亚洲欧美精品| 97色伦色在线综合视频| 无码国产伊人| 亚洲国产一成久久精品国产成人综合| 伊人色天堂| 国内精品视频区在线2021| 波多野结衣中文字幕一区二区| 亚洲天堂免费在线视频| 人妻精品全国免费视频| 波多野结衣爽到高潮漏水大喷| 精品91视频| 久久综合丝袜长腿丝袜| 亚洲欧美成人影院| 国产一二视频| 91精品网站|