衛志華,孔思尹,丁志軍,趙才榮
(同濟大學 電子與信息工程學院,上海 201804)
21 世紀信息技術的發展使得萬物互聯成為可能,標志著全面互聯時代的到來。互聯網時代全球數據量爆炸性增長,數據和互聯網的深度融合形成新的行業創新點不僅帶來了新的經濟增長點,也使得數據挖掘技術產生的價值受到越來越廣泛的關注。目前國內高校人才培養仍然呈現出重基礎理論輕實踐的現狀[1],沒有真正建立以應用為目標和主線的課程體系和教材體系[2]。面對新一輪科技革命和產業革命的歷史性交匯帶來的新機遇以及國家產業發展的新形態,傳統從事數據分析和應用的人才已經難以適應互聯網時代的新要求[3-4],產業界迫切需要新興工科人才的支持。在新工科背景下,數據挖掘課程實驗應當以解決工業界實際問題為導向,摒棄傳統的以單一理論和算法為主的設計,增強學生綜合利用所學知識解決實際問題的能力,從而達到新型工科人才的培養標準。根據新工科背景下大數據人才的培養要求,結合數據挖掘課程挑戰性[5]實驗的定位,重新設計綜合實驗的內容、教學和評價體系。
綜合實驗的設計應貫徹“以學生為本,以能力培養為核心”[1]的教學理念,從學生的興趣和互聯網實際應用場景出發,選擇微博評論或話題的情感分析作為主題,由學生選擇他們關注的熱門評論或話題作為切入點,形成完整的從數據采集、存儲到分析并評價結果的流程。在實驗過程中始終遵循新工科人才的培養標準,在提升學生學習和思考等硬實力的同時,也要兼顧學生溝通和表達能力等軟實力的提升。綜上,實驗方案的總體設計見表1。
實驗內容設計需要兼顧完成度和挑戰性,循序漸進,在提升學生自信心的同時,進一步挖掘學生的潛力。在完成度方面,將綜合性實驗細化、拆分成3 個小實驗,引導學生思考并解決此類綜合性問題。在挑戰性方面,為每個小實驗都設置不同的進階難度,并設置相應的分數值以及加分項,以激勵學生從不同的視角進一步探索該問題,舉一反三。微博評論或話題的情感分析實驗內容簡要總結見表2。

表1 綜合實驗方案總體設計

表2 微博評論或話題的情感分析(代碼部分共50 分,最高加10 分)
實驗3 是整個實驗的核心部分,按照不同的粒度對文本的情感做出分析,難度也有所不同。學生可結合自身情況選擇不同的分析粒度,采取不同的方式來完成數據分析,并嘗試改進算法,提升實驗的準確率。由于不同的方式均有不同的優缺點和實現難度,挑戰也有所不同,因此在設計時把該部分單獨提出來,只進行進一步縱向區分實驗難度和挑戰性。該部分加分項的設計主要是考查學生對問題進行迭代思考和解決的過程,不設立具體的加分點,鼓勵學生自由探索和嘗試。加分項遵循性能提升的準則,加分的多少則視學生思考的深度和廣度而定。詞語級別的情感分析僅考慮文本中單個詞語的情感強度,以基于詞典的情感分析為例,主要統計文本中情感詞強度以及計算近似情感詞強度,其實驗內容簡要總結如圖1 所示。

圖1 詞語級別的情感分析實驗內容
句子級別的情感分析除考慮單個詞語情感強度外還需要考慮詞語之間的關系,以基于word2vec 的情感分析為例,主要就是通過詞向量進一步細化程度副詞修飾下的情感詞強度,其實驗內容簡要總結如圖2 所示。
篇章級別的情感分析需要確定一個整體情緒的方向性,綜合考慮詞語之間、句子之間的情感強度,以基于LSTM 情感分析為例,進一步考慮句子之間的情感關系,其實驗內容簡要總結如圖3 所示。

圖2 句子級別的情感分析實驗內容

圖3 篇章級別的情感分析實驗內容
基于詞典的情感分析鼓勵學生從詞語的層面出發,思考和改進情感詞典構建、新詞發現、語義相似度評估等[6];基于word2vec 的情感分析鼓勵學生從句子層面出發,利用情感特征聚類、多特征融合、多種分類方式相輔助等[7]機器學習的方式去完善和改進分析結果;基于LSTM 的情感分析則鼓勵學生從篇章角度出發,采用層次化、Attention 機制以及Bi-LSTM 等[8]深度學習的方式去優化網絡。三者的目的都是為了拋磚引玉,引導學生深入思考并發現創新點。
學生在綜合性實驗中的收獲很大程度上依賴教學手段,傳統教學模式主要是“聽中學”,學生很容易出現“一聽就懂,一用就錯”的情況,因此新工科背景下教學方式也應當進行相應改革,培養學生解決實際問題的能力,真正實現“做中學”。此外,還可引入公共競賽機制,即學生采用同樣的數據集完成對比實驗,并將結果指標作為評分依據之一,激勵學生進一步探索解決問題的新方式。
在教學過程中,教師的職能從傳統的理論逐點講解轉變為拋出問題、引導思考、答疑解惑,應當充分發揮學生的主觀能動性,促使學生能夠通過查閱資料、做實驗、與教師和同學討論等多種方式自主探索并解決問題[9]。在完成基礎性實驗的過程中,將實驗內容進行拆解,并給予一定的參考思路,培養學生對綜合性復雜問題進行拆分和解決的能力。在完成挑戰性實驗的過程中,用加分的方式鼓勵學生對實驗結果做進一步的思考和分析,探索現有方案存在的問題和可改進的措施,迭代更新實驗方案,培養學生創新性思考和解決問題的能力。教學實施方案如圖4 所示。
在實驗評價過程中遵循多角度、全方位評價準則,細化實驗評價指標,在對學生進行橫向比較的同時兼顧縱向評估。細化實驗評價指標是指盡量做到每一步驟評分都有跡可循,在代碼實現方面強調學生的動手能力,表現為列出每一個完成項和挑戰項可得的相應分數;在報告和PPT 方面強調學生的思考和表達能力,闡明相應的思路和觀點即可得到對應的分數。對學生進行橫向比較是指在同樣的實驗條件下,對同一小組成員綜合實驗的完成情況作對比,作為整體實驗難度和指標進一步調整的依據,避免出現實驗太簡單沒有挑戰性或者是太難令學生喪失信心的情況。對學生進行縱向比較則是根據學生個人能力和努力程度對分數進行微調,學生成長環境和個人經歷有很大的差異,知識和能力的積累也有所不同,恰當的鼓勵和肯定能夠更好地促進學生的提升。綜上,實驗整體結果評價方式見表3。

圖4 教學手段實施方案
教師在授課過程中,強調以“學生為主,教師為輔”,啟發引導學生完成探索和實踐,進一步提高學生能力。首先,在選題方面考慮學生的興趣和互聯網中的真實場景,定為微博評論或話題的情感分析;其次,在實驗內容方面考慮學生的完成度和挑戰度,將綜合實驗拆分成一系列由易到難的小實驗;然后,在實驗教學方法方面,考慮培養學生的自主性和解決實際問題的能力,用提供參考資料的方式取代完整的實驗指導書;最后,在實驗評價方面,考慮學生的縱向和橫向對比,采用實驗報告、性能指標、答辯等成績的加權平均作為最終成績。該綜合性實驗以數據挖掘課程為切入點,積極發揮教師的鼓勵、啟發和引導作用,并且充分考慮了學生的主觀能動性,與新工科背景下計算機人才的培養標準相契合,提升了學生幾方面的能力:①培養學生靈活運用數據挖掘課程中所學的各種算法和模型的能力;②在啟發式教學過程中提高學生對復雜的綜合性問題進行拆分和逐步解決的能力;③在提升學生基于實驗方案正確編寫實驗代碼能力的同時,拓寬了學生的視野,使學生了解并在一定程度上掌握數據挖掘的各類工具;④培養學生查閱并利用參考資料的能力,在學習其他文獻的分析方法中針對自己的實驗作出獨立思考和分析,探索并改進方案的缺陷;⑤提高學生溝通、表達以及團隊協作的能力,在解決問題時做到事半功倍。

表3 實驗結果評價方式
挑戰性綜合實驗在課程的教學過程中反饋良好,整體上學生表示通過綜合性實驗能夠逐步提升分析和解決問題的能力,所學知識能夠真正與課本中的理論結合起來并運用在職業生涯中,但兩極分化現象仍然存在,有的學生在迭代分析改進過程中能創新性地提出文獻中沒有的思路和解決方式,有的學生卻因為種種原因連最低要求都不能完成。因此,在教學過程中,教師在認識到差距不能避免的同時,應該盡量為學生提供幫助,避免學生因為求助無門而導致學習困難、任務無法完成的情況。