王熙,朱亭瑤,李惠
(中央財經(jīng)大學(xué) 信息學(xué)院,北京)
隨著人工智能時代的悄然走近,數(shù)據(jù)類課程作為高等教育中各專業(yè)學(xué)生的熱門進修課程,已經(jīng)逐漸受到越來越多的關(guān)注。《數(shù)據(jù)挖掘》課程設(shè)置從數(shù)據(jù)的預(yù)處理入手,討論數(shù)據(jù)驅(qū)動相關(guān)的分析和挖掘算法,并通過真實數(shù)據(jù)集進行挖掘分析,培養(yǎng)學(xué)生通過實踐解決實際問題的能力。但是本課程知識點相對較多,內(nèi)容復(fù)雜抽象,章節(jié)之間獨立性較強[1],學(xué)生較難將所有知識點融會貫通應(yīng)用在一個課程實踐項目中。另外,由于與學(xué)生社會經(jīng)歷不足,往往與課程設(shè)置中講述的一些經(jīng)典商業(yè)決策案例存在知識結(jié)構(gòu)上的脫節(jié),學(xué)生參與程度不高。鑒于此,本課程組在近一年的課程建設(shè)中充分考慮學(xué)生能力及高校學(xué)生愿意關(guān)注的數(shù)據(jù)驅(qū)動相關(guān)社會問題,對《數(shù)據(jù)挖掘》課程實踐環(huán)節(jié)做出改革,增強學(xué)生知識運用的能力,提高學(xué)生獲得感。
在數(shù)據(jù)驅(qū)動生活的大時代背景下,提高學(xué)生通過人工智能手段理解數(shù)據(jù)、分析數(shù)據(jù)、運用數(shù)據(jù)、從而進行決策的能力有著重要社會意義。《數(shù)據(jù)挖掘》本身作為一門交叉學(xué)科課程,在培養(yǎng)學(xué)生的數(shù)理統(tǒng)計能力、編程邏輯能力和數(shù)據(jù)庫運用能力的同時,也需要學(xué)生對于其他學(xué)科,例如管理學(xué)、社會學(xué)等的基礎(chǔ)知識理論有一定的了解。學(xué)生通過2~3學(xué)分對應(yīng)學(xué)時的學(xué)習(xí),能夠掌握數(shù)據(jù)分析與處理的基本方法。現(xiàn)實的教學(xué)過程中,對于各種數(shù)據(jù)挖掘方式,教師都應(yīng)給出合理的案例以加深學(xué)生對于相關(guān)概念的理解;同時在學(xué)生動手實踐的環(huán)節(jié),學(xué)生可以在自選的數(shù)據(jù)集上實踐相應(yīng)的數(shù)據(jù)挖掘算法。 然而經(jīng)過幾年的教學(xué)時間,筆者發(fā)現(xiàn)這種案例實踐的數(shù)據(jù)資源選取方式存在一些問題。
(一) 數(shù)據(jù)源陳舊,學(xué)生缺乏興趣
《數(shù)據(jù)挖掘》課程相關(guān)教材的數(shù)據(jù)資源多為公共數(shù)據(jù)資源,例如基于Kaggle數(shù)據(jù)競賽的數(shù)據(jù)[2],UCI機器學(xué)習(xí)資料庫①等。這些數(shù)據(jù)集相對陳舊、數(shù)據(jù)量小,很多數(shù)據(jù)集不但已經(jīng)過預(yù)處理,也被全世界的初學(xué)者們反復(fù)使用過多次,完整的挖掘方法和對應(yīng)答案隨處可見,不利于培養(yǎng)學(xué)生獨立思考和動手實踐的能力。另外,數(shù)據(jù)庫本身與學(xué)生的關(guān)注點脫節(jié)嚴(yán)重。例如財經(jīng)類院校的學(xué)生往往更加關(guān)注金融、會計類主題相關(guān)的數(shù)據(jù)挖掘,一些簡單的IRIS②、Wine Quality③或泰坦尼克生存預(yù)測案例④盡管能夠很好地給予學(xué)生對于分類預(yù)測問題的理解,卻難以引起學(xué)生真正的興趣。究其原因,“預(yù)測鳶尾花的分類”“預(yù)測紅酒的品質(zhì)得分”以及“預(yù)測船上乘客的生存概率”等并不是學(xué)生自己提出的研究問題。由于缺乏興趣,學(xué)生對挖掘結(jié)果缺少深層次的思考,也進而會導(dǎo)致學(xué)生很快遺忘所學(xué)知識。
(二) 數(shù)據(jù)源分散,數(shù)據(jù)挖掘缺乏連貫
《數(shù)據(jù)挖掘》中各知識模塊間存在較強的獨立性,很難啟用一個數(shù)據(jù)集貫穿始終。例如,在分類問題中,教師常采用“房價”或“用戶忠誠度”的預(yù)測來解釋相關(guān)理論;在聚類分析問題時,“信用卡欺詐檢測”“學(xué)生一卡通消費”等案例又是首選;關(guān)聯(lián)分析則主要注重于商場訂單的分析,“牛奶咖啡可樂的購買”,萬變不離其宗。筆者在近幾年的教學(xué)過程中發(fā)現(xiàn),盡管學(xué)生對于每一個數(shù)據(jù)集所要處理的問題都很了解,但在解決現(xiàn)實問題時應(yīng)該使用哪一種挖掘方法出現(xiàn)區(qū)分困難的現(xiàn)象,因為不知道自己手中的數(shù)據(jù)源和學(xué)知識時用到的數(shù)據(jù)集哪個最貼近。南京大學(xué)周志華教授的《機器學(xué)習(xí)》一書(網(wǎng)稱“西瓜書”)[3]很好地解決了數(shù)據(jù)源分散的問題——用區(qū)分“好瓜”和“壞瓜”的需求,完成多種挖掘算法的計算。但是,該數(shù)據(jù)集相對簡單,學(xué)生學(xué)習(xí)之后較難將數(shù)據(jù)挖掘的過程復(fù)制到其他實際應(yīng)用分析中。
(三) 數(shù)據(jù)源單一,交叉學(xué)科思維培養(yǎng)不到位
《數(shù)據(jù)挖掘》課程作為一個教程學(xué)科課程,希望培養(yǎng)學(xué)生能夠從數(shù)據(jù)中提取有隱含的、未知的、有價值的潛在信息,常常用于商業(yè)決策的制定。尤其財經(jīng)類院校中,《數(shù)據(jù)挖掘》課程中涉及到的數(shù)據(jù)源多與企業(yè)發(fā)展息息相關(guān),例如根據(jù)企業(yè)信息及經(jīng)營狀態(tài)等,預(yù)測股票價格。但是現(xiàn)實世界中的數(shù)據(jù)往往豐富多樣:無論文本數(shù)據(jù)還是多媒體數(shù)據(jù)、無論單純的數(shù)值型數(shù)據(jù)還是類別型數(shù)據(jù)、無論是社會學(xué)科還是自然學(xué)科的數(shù)據(jù),都可以作為學(xué)生數(shù)據(jù)挖掘?qū)嵺`的對象。采用單一類型的數(shù)據(jù)源容易導(dǎo)致學(xué)生思維固化,無法達到培養(yǎng)交叉學(xué)科思維的目的。
筆者自2020年秋季學(xué)期起,連續(xù)嘗試在2個研究生教學(xué)班及2個本科生教學(xué)班中實施現(xiàn)實社會事件背景下的數(shù)據(jù)挖掘教學(xué)改革,讓學(xué)生自己找尋感興趣的研究問題,結(jié)合多數(shù)據(jù)源,展開多維度、多層次的數(shù)據(jù)挖掘。下面具體說明如何實現(xiàn)課程目標(biāo)的制定、落實與考核。
(一) 課程目標(biāo)的設(shè)立
課程初期教師向?qū)W生明確課程時間線及內(nèi)容安排,讓學(xué)生對課程內(nèi)容有充分的認(rèn)知。在學(xué)期的第一節(jié)課中,筆者會向?qū)W生介紹數(shù)據(jù)挖掘的基本概念,以及需要完成的數(shù)據(jù)挖掘任務(wù)。課程要求學(xué)生自愿組成小組,對網(wǎng)絡(luò)上公開的數(shù)據(jù)集或是自己感興趣爬取到的數(shù)據(jù)集進行實際應(yīng)用分析,學(xué)生通過人工智能的手段和機器學(xué)習(xí)的方法,簡單地實施一個現(xiàn)實社會事件背景下的知識發(fā)現(xiàn)或商業(yè)決策過程,以獲得初步解決問題的能力。學(xué)生可形成2~4人小組,小組人數(shù)與選取的數(shù)據(jù)集數(shù)量直接相關(guān):即2個學(xué)生一組,必須要找尋至少2個感興趣的數(shù)據(jù)源進行結(jié)合,3個學(xué)生一組則必須要尋找至少3個感興趣的數(shù)據(jù)源進行結(jié)合,以此類推。學(xué)生需要經(jīng)過一個學(xué)期的學(xué)習(xí),對整合后的數(shù)據(jù)集進行合理的關(guān)聯(lián)規(guī)則挖掘、聚類分析和分類預(yù)測,同時要包含多種算法運行結(jié)果的對比及基于政府政策、客觀事實或客觀理論對于結(jié)果的解釋說明。另外,課程對于研究生層次的學(xué)生文獻閱讀能力有明顯更高級別的要求——與本科生相比,要求他們在閱讀10~15篇文獻的基礎(chǔ)之上總結(jié)科學(xué)問題,然后再尋找合適數(shù)據(jù)集。這樣設(shè)置課程的目的主要在于可以讓學(xué)生找到他們自己真正感興趣的實驗數(shù)據(jù)集及研究問題,激發(fā)學(xué)生自己的求知欲,同時也可以避免學(xué)生為了完成作業(yè)互相抄襲或從網(wǎng)絡(luò)上尋找已有的基于公開數(shù)據(jù)集挖掘的結(jié)果。
(二) 教學(xué)手段的改進
本課程的教學(xué)改進主要涉及兩個方面,一是特色教學(xué)案例的建設(shè),二是網(wǎng)絡(luò)多媒體教學(xué)資源的引入。首先,示例教學(xué)的導(dǎo)入能夠提高學(xué)生對知識的興趣和渴望程度,因此在知識模塊講授時,需要從貼合學(xué)生知識背景的示例出發(fā)提出數(shù)據(jù)挖掘的需求并逐步解決研究問題。舉例來說,當(dāng)今大學(xué)生都有刷知乎看微博熱搜的習(xí)慣,那么可以向他們提出的問題是,“給你一組論壇或微博的數(shù)據(jù),你能做些什么分析呢?” 筆者基于自己博士期間研究項目的經(jīng)歷,用自己爬取的社區(qū)論壇和微博數(shù)據(jù)作為切入點,構(gòu)造課程專屬講解案例[4-5],向?qū)W生解釋一個基于文本的數(shù)據(jù)挖掘過程:首先要對網(wǎng)絡(luò)數(shù)據(jù)進行爬取和預(yù)處理;然后可以對用戶生成內(nèi)容進行文本分類,預(yù)測某一條帖子是否包含我們關(guān)注的信息,或?qū)τ脩羯蓛?nèi)容進行主題聚類,探尋用戶所討論的話題,或是對用戶行為進行分類或聚類,辨識用戶的忠誠度或用戶的群體行為模式。由于數(shù)據(jù)的出處和學(xué)生每天接觸的互聯(lián)網(wǎng)信息十分相近,學(xué)生不會產(chǎn)生疏遠(yuǎn)感,也因此更容易接受和掌握示例分析時所采用的挖掘方法。
其次,深度學(xué)習(xí)在數(shù)據(jù)挖掘中的地位近年來明顯提升,為了讓學(xué)生更好地與最先進的知識和實際應(yīng)用技術(shù)接軌,筆者也會引入一些深度學(xué)習(xí)知識的講解。學(xué)生可以根據(jù)自己的興趣在原有的數(shù)據(jù)集上實現(xiàn)深度學(xué)習(xí)的算法,以比較深度學(xué)習(xí)和傳統(tǒng)的機器學(xué)習(xí)的區(qū)別和優(yōu)勢(例如用循環(huán)神經(jīng)網(wǎng)絡(luò)進行文本分析),也可以嘗試引入其他類型數(shù)據(jù),例如圖片等,進行更多維度的分析(例如用卷積神經(jīng)網(wǎng)絡(luò)進行圖像識別)。但是深度學(xué)習(xí)的內(nèi)容本身涵蓋面非常廣,完全可以獨立成為一門高學(xué)分課程。在不需要要求初學(xué)者掌握所有算法內(nèi)部運行細(xì)節(jié)的數(shù)據(jù)挖掘課程中,網(wǎng)絡(luò)中的多媒體資源(例如嗶哩嗶哩)是很好地向?qū)W生介紹相關(guān)知識點的教學(xué)材料。學(xué)生通過視頻、動畫以及相關(guān)應(yīng)用案例的觀看,能夠很好地了解算法間的大致區(qū)別和不同應(yīng)用場景。筆者在網(wǎng)絡(luò)資源的彈幕和評論區(qū)發(fā)現(xiàn)很多在校學(xué)生選擇摒棄老師課堂面授知識,而依賴于網(wǎng)絡(luò)資源。因此,若能很好地利用網(wǎng)絡(luò)資源,與課堂所講授知識相結(jié)合,往往能夠達到事半功倍的效果。
(三) 考核評價的設(shè)置
在數(shù)據(jù)挖掘的過程中,往往沒有完全準(zhǔn)確的挖掘結(jié)果,對于實驗設(shè)置的合理性、挖掘結(jié)果的解釋性通常需要探討而確定。在本課程的設(shè)計中,考核方式采用同行評議原則:每位同學(xué)都需要為其他組貢獻有價值的修改建議或評論。同學(xué)的分?jǐn)?shù)由三部分組成:同行評議得分、為他人提供建議得分以及教師評分。同學(xué)們在開學(xué)初進行小組演講,提出問題,同時對相關(guān)問題在學(xué)術(shù)界及工業(yè)界的解決方式進行全方位總結(jié),進而從其他小組獲得后續(xù)工作建議;學(xué)期末課程將再次使學(xué)生回歸到其開始提出的問題中,通過課程的學(xué)習(xí)使其對現(xiàn)有學(xué)術(shù)及工業(yè)界的解決方案的優(yōu)劣結(jié)合自己的認(rèn)識加以闡述,并可以提出新的解決方案,對于之前被其他同學(xué)提出的修改意見可以考慮采納(改進數(shù)據(jù)挖掘過程)并進行展示,或堅持己見并給出合理原因,以說服曾經(jīng)對他的工作提出問題的同學(xué)。這種演示、討論、同行評議的機制,可以有效激發(fā)學(xué)生學(xué)習(xí)興趣,提高學(xué)生參與度。
通過一年的教學(xué)改革和探索,學(xué)生的課堂主動參與度有了明顯提高。筆者將一年時間內(nèi)講授的4個教學(xué)班(2個本科生班,2個研究生班)共52組學(xué)生選題進行歸納和總結(jié),對教學(xué)效果和教學(xué)感受進行如下三方面的總結(jié):
(一)學(xué)生對于數(shù)據(jù)挖掘過程興趣濃厚,但對于數(shù)據(jù)挖掘結(jié)果的合理解讀仍存在一定的欠缺。首先,在教學(xué)過程中,筆者發(fā)現(xiàn)學(xué)生很容易確定好自己感興趣的方向,很多同學(xué)會把日常生活所接觸的數(shù)據(jù)作為研究對象,例如微博數(shù)據(jù)、B 站數(shù)據(jù)、評論數(shù)據(jù),等等。盡管很多小組同學(xué)設(shè)置研究問題的出發(fā)點是合理的,但是由于缺乏相關(guān)的理論知識和實驗經(jīng)驗等,往往在分析過程中會出現(xiàn)牽強地將不同數(shù)據(jù)源的數(shù)據(jù)結(jié)合在一起的情況。有些同學(xué)為解決類似問題,在后期轉(zhuǎn)變自己的研究問題或補充更多的相關(guān)數(shù)據(jù)集。另外,學(xué)生對于挖掘結(jié)果的解讀往往不夠充分,很多情況下學(xué)生發(fā)現(xiàn)了有趣的挖掘結(jié)果,但不知道其出現(xiàn)的具體原因。由于缺乏“用戶行為理論”“信息傳播理論”等知識,學(xué)生對于挖掘結(jié)果的合理解讀尚存缺陷。筆者后期得到學(xué)生的反饋:“我們一直在想,還能用些什么算法提高這個數(shù)據(jù)分析的準(zhǔn)確率或是再補充點什么數(shù)據(jù)能夠完全回答我們學(xué)期初提出的研究問題?”由此可見,課程的設(shè)置方式的確激發(fā)了學(xué)生的創(chuàng)新性思維,學(xué)生樂于主動思考如何解決生活中相關(guān)的數(shù)據(jù)挖掘問題,但交叉學(xué)科特性決定了學(xué)生在其他相關(guān)學(xué)科背景的知識理論厚度有待加強。
(二) 學(xué)生樂于學(xué)習(xí)并且使用更復(fù)雜的研究算法,追求實踐中的挑戰(zhàn)往往比完成作業(yè)更得學(xué)生們的青睞。課程中,筆者要求學(xué)生實施聚類算法,簡單的K-means或?qū)哟尉垲惙椒纯伞5趯W(xué)生的學(xué)習(xí)結(jié)果來看,學(xué)生大多不拘泥于簡單的基于距離的聚類方法,很多人選擇實施主體聚類模型以處理文本數(shù)據(jù),并根據(jù)聚類結(jié)果進行分析。另外,筆者在講授神經(jīng)網(wǎng)絡(luò)時也介紹了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的原理及應(yīng)用,結(jié)合視頻網(wǎng)站的視頻為學(xué)生介紹其在現(xiàn)實生活中的應(yīng)用,但并未要求學(xué)生進行圖像處理任務(wù)。然而有很多組同學(xué)在分類任務(wù)中用到循環(huán)神經(jīng)網(wǎng)絡(luò),有的組直接選擇實施基于卷積神經(jīng)網(wǎng)絡(luò)的佩戴口罩的圖像識別。學(xué)生多希望能夠在同行評議里獲得更高的分?jǐn)?shù),內(nèi)部高度競爭的機制激勵他們更加用心地完成數(shù)據(jù)挖掘?qū)嵺`,解決現(xiàn)實問題,同時也向授課老師提出了新的要求——《數(shù)據(jù)挖掘》課程不能是紙上談兵,不能拘泥于教材上的知識,要更多地吸取學(xué)界及業(yè)界流行的知識及相關(guān)應(yīng)用,立足于解決現(xiàn)實問題,才能讓學(xué)生更好地吸收知識及思考問題。
(三)學(xué)生對時政熱點和民生問題具有高度的研究興趣,教學(xué)過程中應(yīng)著力發(fā)揮課堂育人主渠道作用,推進課程思政建設(shè)實效。根據(jù)52組學(xué)生選取的研究主題和呈現(xiàn)的挖掘結(jié)果,筆者發(fā)現(xiàn)學(xué)生樂于探索和思考,受現(xiàn)實社會事件影響下,國內(nèi)和國際政治、經(jīng)濟、文化和民生領(lǐng)域面臨的新問題和未來發(fā)展趨勢,通過對相關(guān)數(shù)據(jù)的挖掘和分析,嘗試解釋某些現(xiàn)象或問題的產(chǎn)生原因并為現(xiàn)實問題提供解決方案。教師應(yīng)當(dāng)積極把握教育教學(xué)規(guī)律,圍繞學(xué)生的興趣方向和發(fā)展需求,在教學(xué)過程中將時事熱點問題與專業(yè)知識技能有機融合,回應(yīng)學(xué)生的關(guān)切和訴求。例如在本課程教學(xué)中,一部分學(xué)生以國內(nèi)數(shù)據(jù)為研究對象,一部分學(xué)生選取了美國等西方國家數(shù)據(jù)作為研究對象,教師可以啟發(fā)和引導(dǎo)學(xué)生在學(xué)習(xí)過程中正確理解中國特色和國際比較,全面客觀地認(rèn)識當(dāng)代中國、看待外部世界。在數(shù)據(jù)挖掘知識傳授和能力培養(yǎng)的同時,引導(dǎo)學(xué)生樹立正確的世界觀和價值觀,在具體問題分析思考中增強中國特色社會主義道路自信、理論自信、制度自信和文化自信。
綜上所述,《數(shù)據(jù)挖掘》課程中的教學(xué)案例和學(xué)生實踐數(shù)據(jù)仍有很大的改進空間。作為人工智能時代學(xué)生必須掌握的基本知識和專業(yè)技能,學(xué)生需要在有求知興趣的前提下理解并掌握相關(guān)理論和算法,能夠根據(jù)挖掘技術(shù)的不同之處,合理將其利用在各個領(lǐng)域進行知識發(fā)現(xiàn)。教師在課程設(shè)計時應(yīng)當(dāng)充分考慮時下學(xué)界和業(yè)界的關(guān)注點、學(xué)生的興趣點及課程思政的注入點。數(shù)據(jù)挖掘的結(jié)果可以很好地解決現(xiàn)實世界的問題,同時,恰逢數(shù)據(jù)挖掘課程能夠激發(fā)學(xué)生學(xué)習(xí)的自覺性和思考的主動性,教師更要把握好思政元素融入的節(jié)點和時機,實現(xiàn)數(shù)據(jù)挖掘知識技能傳授與學(xué)生理想信念教育的內(nèi)在融合。
注釋
① https://archive.ics.uci.edu/ml/index.php.
② https://archive.ics.uci.edu/ml/datasets/Iris.
③ https://archive.ics.uci.edu/ml/datasets/Wine+Quality.
④ https://www.kaggle.com/c/titanic.