呂 品,于文兵,汪 鑫,王淮亭
(1. 上海電機學院 電子信息學院,上海 201306;2. 上海電機學院 工業技術中心,上海 201306)
數據挖掘挑戰賽驅動的本科生大數據分析能力培養
——以上海電機學院軟件工程專業學生為例
呂 品1,于文兵2,汪 鑫1,王淮亭1
(1. 上海電機學院 電子信息學院,上海 201306;2. 上海電機學院 工業技術中心,上海 201306)
針對大數據時代應用型大數據人才大量短缺的問題,分析數據挖掘挑戰賽對培養學生大數據分析能力的重要作用,以上海市教委大力倡導的本科院校激勵計劃為切入點,以數據挖掘挑戰賽為驅動平臺,圍繞數據分析的核心知識,探討如何通過數據挖掘挑戰賽培養軟件工程專業學生大數據分析能力的新型軟件人才培養模式。
數據挖掘挑戰賽;大數據分析;激勵計劃
自2015年國務院發布《促進大數據發展行動綱要》以來,隨著大數據政策環境和技術手段的不斷完善,大數據行業應用持續升溫,國內企業大數據市場進入快速發展時期[12]。2016 年中國大數據核心產業的市場規模約為168 億元,較2015 年增速達45%[3],并且隨著國家政策激勵以及大數據應用模式的逐步成熟,未來幾年中國大數據市場仍將保持快速增長趨勢。越來越多的企業已經從大數據技術應用中獲得了更智能的決策、更高的運營效率、更有效的風險管理、更多的業務收入等諸多利益,盡管如此,幾乎所有企業還是一致認為大數據的應用仍存在諸多障礙,如企業的隱私保護、數據權屬、數據資源短缺以及大數據人才短缺,其中大數據人才短缺是公認的最主要問題[4]。因此,在大數據時代背景下,培養學生的大數據分析能力尤為重要。
隨著“互聯網+”應用的普及,人們獲取數據的途徑變得更加方便,獲得的數據量也呈爆炸性增長。如何從這些種類繁多、更新速度快的海量數據中挖掘出有價值的信息,是每一個把數據視為資產的企業的頭等大事,因此在大數據時代,軟件工程專業人才不僅需要有扎實的程序設計能力和計算機學科的基礎知識,還需要具備大數據思維與分析能力。若能在軟件人才培養過程中,有意識地注重培養學生以上兩方面的能力,則這樣的軟件人才不僅能應對計算機技術在跨領域中的交叉應用,還能有效緩解當前大數據人才需求與供給極度不平衡的問題。
雖然大數據分析的理論內涵與外延以及應用層面的創新層出不窮,人工智能等炙手可熱的技術成為大數據高端人才出奇制勝的“法寶”,但是在本科學習階段培養軟件工程專業學生的大數據分析能力,仍須制訂核心課程和學生應了解的外圍知識體系。針對軟件工程專業目前實施的培養方案中并沒有涉及培養學生大數據分析能力相關課程的問題,一方面,可以利用課外學時開設機器學習課程,讓學生掌握數據分析的常用機器學習算法;另一方面,要求學生利用課余時間了解常用的大數據開發技術以及如何在大數據平臺上對數據進行存儲與處理,采用理論與應用相結合的方式,力圖使應用型大數據人才在培養方案之外的學習中具有持續創新的基礎。
為適應大數據時代的需求,國內許多應用型本科院校紛紛啟動大數據背景下相關專業的課程體系重構、教學方法與方式改革、數據科學或大數據專業培養計劃制訂等措施,以期培養應用型大數據人才,提高高校對相關人才的輸出能力,解決大數據人才的需求瓶頸。例如,貴州師范學院領跑大數據人才培養,首屆大數據專業本科畢業實習已經啟動[4];重慶工程學院的應用型智能科學與技術專業根據大數據應用人才的崗位需求和其所必備的專門知識結構,提出基于崗位目標的大數據課程群建設,學生對該試點的開展產生濃厚興趣[5];常州工學院、云南大學等高校的計算機專業為培養出符合企業單位需求的大數據設計與管理人才,在傳統數據庫的教學內容和實驗設計中構建新的大數據知識結構體系、大數據的設計方法和開發工具[67];華南農業大學軟件學院立足于大數據時代對計算機學科人才知識結構、能力結構以及整體素質的要求,密切加強校企在大數據方面的合作,力圖通過教學團隊、課程教材、教學方式、教學管理等環節的綜合改革,實現培養具備堅實的數據科學基礎、具有較強大數據處理實踐應用能力的計算機科學與技術專門人才[8];西華師范大學、湖南商學院、廣東第二師范學院等院校積極探索在大數據時代背景下,培養既具備前沿軟件工程思想,又具備大數據分析與處理能力的軟件人才的模式[911];湖南科技大學電氣工程及自動化專業以智能電網為背景,從電氣專業大數據人才需求特點出發,探討智能電網應用型大數據人才的培養目標、課程體系和培養方案[12]。
以上各高校積極探索的應用型大數據人才培養模式雖然取得了一定的成果,但都忽視了大數據競賽在人才培養過程中所發揮的重要作用,因此,在培養軟件工程專業學生的大數據分析能力時,我們采用了大數據競賽驅動的方法。近年來,許多著名機構和企業紛紛舉辦各種大數據競賽,目的是發現和培養大數據技術人才,嘗試創新大數據技術,改善大數據技術在產業化應用中的技術問題。大數據競賽的最大特點:①題目均來自于實際應用;②競賽規格越高,獲獎參賽者的獎金越高。大數據競賽可以激勵和引導許多在校大學生組隊參賽并協作創新,相應地促進其在參賽過程中利用大數據相關知識解決真實的業務和社會問題。
針對軟件工程專業學生的學業基礎,結合對大數據相關競賽官方網站的了解,我們以全國大學生數學建模競賽委員會舉辦的全國“泰迪杯”數據挖掘挑戰賽為大數據競賽平臺,擬通過激勵計劃與學科競賽的對接,依托該競賽培養學生利用機器學習算法對原始數據進行挖掘分析,積累數據分析的相關經驗。
激勵計劃是上海市教委推出的一項旨在激發上海高校教師從事本科教育教學動力和能力的教學提升計劃。激勵計劃主要通過開展坐班答疑和晚自習輔導兩種形式,進一步促進學校進行教育教學改革,強化本科教學的中心地位,通過鼓勵大學生參加各類學科競賽和科學創新創業活動,最終全面提升本科教學質量,切實提高人才培養質量。機器學習課程常常是計算機相關專業研究生階段學習的課程,由本科生自學具有一定難度。為了通過數據挖掘挑戰賽平臺培養學生的數據分析能力,在競賽準備階段與競賽過程中,我們充分利用激勵計劃的時間組織學生學習機器學習課程。
以數據挖掘挑戰賽為驅動的本科生數據分析基本功訓練主要在沒有競賽任務的學習過程中開展。一方面,充分利用晚自習輔導時間,以教師講解機器學習算法為主,學生聽講為輔;另一方面,通過每周布置一項實驗任務,教師利用坐班答疑時間檢查學生的任務完成情況和對算法的掌握情況。以樸素貝葉斯算法為例,訓練學生實現非結構化數據分析的基本功的步驟如下。
1)獲取數據源。
擁有真實的數據源,數據分析才具有實際意義,學生才能從自己分析的結果中真實地體會到數據背后隱藏的信息。針對樸素貝葉斯算法,可要求學生編寫Python程序,從指定網站上抓取iPhone 7與華為榮耀V8系列兩種品牌手機的消費者評論。布置這項實驗任務的目的是要求學生:①掌握數據采集的技能;②掌握文本分詞、向量空間模型的建立、文本的表示以及文本數據的預處理方法,為文本數據的挖掘分析奠定基礎。
2) 指定具體數據分析任務。
針對學生在天貓商城品牌官方旗艦店爬取的10 000條文本數據,要求學生分析兩種品牌手機的差異化和消費者的購買行為。布置這項實驗任務的目的是要求學生:①掌握Python中用于數據分析的pandas包;②掌握Python中用于可視化分析結果的matplotlib包,為實現利用樸素貝葉斯算法對評論進行情感極性分析奠定基礎。
3)用樸素貝葉斯算法預測評論的情感極性。
首先,要求學生仔細閱讀獲取的10 000條評論,并對每一篇評論進行情感極性(褒貶)標注。一方面,利用這項任務讓學生掌握在訓練一個機器學習算法時,什么是訓練集;另一方面,讓學生真正理解樸素貝葉斯算法為什么是一個監督學習算法。
其次,要求學生運用分詞技術和向量空間模型對每一篇評論進行向量化,形成訓練樸素貝葉斯算法的輸入;再從10 000條評論中隨機抽取80%的評論作為訓練集,選擇多項式模型或者伯努利模型實現樸素貝葉斯算法,并對樸素貝葉斯的參數進行估計。
第三,從20%的測試集中隨機選擇任意一篇評論作為預測文本,要求學生觀察預測結果與標注的真實結果是否相同;以準確率、召回率以及F值作為評價指標,分析模型的預測準確率。
最后,學生以科技論文的形式,從數據采集、數據預處理、算法的原理、利用算法進行挖掘分析、分析結果的可視化等環節,展示完成的實驗任務。這種以實驗任務驅動數據分析基本功訓練的方式,采用循序漸進的問題求解方法,教師的主要工作是向學生傳授機器學習算法的原理,幫助學生定義問題,輔助學生完成數據分析任務和總結評價;學生則通過完成數據分析各階段的教學活動,得到數據思維方法訓練,培養大數據分析能力。
數據分析實踐訓練是在競賽舉辦方公布競賽題目之后,教師利用晚自習輔導時間組織學生展開選題討論、組長任命、任務安排、資料查閱、進度管理等多項工作,以3人團隊合作的形式完成競賽題目要求,實現數據分析的實戰演練。以學生參加第五屆全國“泰迪杯”數據挖掘挑戰賽為例,通過實戰訓練學生數據分析能力的過程如下。
數據分析實戰訓練采取集中討論、進度匯報與現學現用3個環節。其中,每周晚自習輔導是集中討論時間,討論內容由3部分構成:①每位學生講解自己對賽題的理解,教師記錄并聽取學生的思路;②教師從學生的講解中選定某一主題,由學生自由討論,教師記錄討論情況;③針對討論過程中形成的問題,教師發問、學生解答,最終形成對某一問題的解決方案。學生通過課外查閱相關資料,在集中討論環節積極發表自己的觀點,不僅可以有效培養查閱文獻資料的能力,還能訓練分析問題與解決問題的邏輯思維能力。
每周坐班答疑時間,由學生向教師匯報各自負責任務的完成情況,以便教師及時了解學生編寫的程序是否真正反映學生對問題的正確理解。這一環節在數據分析實戰訓練中十分重要,如在今年的賽題B“中央空調系統的數據分析與控制策略”的挖掘與分析中,從討論環節來看,似乎每位學生都掌握了k-means聚類算法的原理,但是在學生的匯報環節,通過程序的運行結果發現部分學生并沒有真正理解如何通過正確的計算判斷樣本的相似性。因此,匯報環節能及時發現學生在實戰訓練環節中存在的問題,有效管理競賽進度。
一般情況下,平時學習到的方法和技術有時并不能用于解決賽題的所有任務問題,因此,現學現用環節也是數據分析實戰中一個重要組成部分。賽題B“中央空調系統的數據分析與控制策略”中涉及優化策略的分析,而平時的數據分析訓練中,學生并沒有學習優化算法,因此在競賽過程中,由于競賽時間有限,基于學生的數學基礎以及各種不同優化算法的理解難易程度,本次競賽的優化策略選用了遺傳算法。在學習完遺傳算法的思想并利用它解決競賽任務之前,先要求學生利用遺傳算法實現簡單實例的優化,以正確理解遺傳算法的實現原理,再分析賽題B的具體要求,選用合適的二進制編碼方式、最佳適應度函數、變異概率等。現學現用環節要求學生在較短時間內運用某一算法解決實際應用,可以有效檢驗學生查閱文獻資料的能力、熟練運用Python的編程能力以及靈活應變能力,對培養應用型創新人才具有極大的幫助。
數據分析的基本功訓練和實戰訓練既相互聯系,又有所區別。相同點是基本功訓練和實戰訓練都需要學生利用數據分析的知識完成數據分析任務;不同點是基本功訓練過程中所使用的數據通常是已有的公開數據集,這些數據集都是經過預處理的“干凈”數據,然而在實戰訓練中,學生接觸的實際應用問題往往包含許多“噪音”的“臟”數據,需要學生根據實際問題的需要對數據進行清洗。另外,基本功訓練通常是給定算法解決一個實際問題,而實戰訓練常常需要學生根據實際問題選擇算法。因此,實踐訓練更能考查學生對每一種機器學習算法的特點以及應用場景是否深入了解,如在閱讀完賽題B“中央空調系統的數據分析與控制策略”的數據集后,要求學生分析已學習過的幾種機器學習算法特點與它們最適合的應用場景,然后結合賽題要求,采用排除法,找到合理解決方法。
在培養學生數據分析能力的過程中,數據分析的基本功訓練和實戰訓練相輔相成,缺一不可。基本功訓練能培養學生的自學能力;實戰訓練不僅能培養學生分析與解決問題的能力、競爭意識與合作精神,還能使學生增長見識、提高綜合素質。
大數據的發展和應用催生了社會對應用型大數據人才的需求。在教學過程中,通過采用基于激勵計劃與學科競賽對接的教學模式以及任務驅動的“基本功訓練——實戰訓練”,促進學生對數據分析知識的融會貫通,潛移默化地推進學生數據思維的形成。學生通過數據挖掘挑戰賽夯實了自己的專業功底,通過獲獎成績也證明了分析與解決問題的能力和創新能力,為將來就業和進一步深造奠定了堅實的基礎。
[1] 朱揚勇, 熊贇. 大數據人才培養的基礎條件初探[J]. 大數據, 2016(5): 107-114.
[2] 吳力波. 多“源”異“構”培養大數據創新型人才[J]. 大數據, 2016(5): 89-94.
[3] 朱揚勇, 熊贇. 大數據時代的數據科學家培養[J]. 大數據, 2016(3): 106-112.
[4] 張宇敬, 許美玲, 臧麗娜, 等. 京津冀協同發展背景下的大數據人才培養研究[J]. 經營管理者, 2016(12): 115-116.
[5] 曹耀欽, 李發陵, 周龍福. 應用型智能科學與技術專業大數據課程群建設研究[J]. 計算機教育, 2016(10): 22-25.
[6] 王樹鋒, 費賢舉, 胡智喜. 基于大數據的數據庫課程探究式教學方法研究[J]. 計算機教育, 2014(11): 99-102.
[7] 岳昆, 陳紅梅, 王麗珍. 大數據時代本科數據庫課程體系改革設想[J]. 計算機教育, 2015(11): 104-107.
[8] 田緒紅, 肖磊, 黃瓊, 等. 大數據時代的計算機科學與技術專業綜合改革[J]. 計算機教育, 2015(19): 12-16.
[9] 沈海波, 周如旗, 朱雄泳. 大數據時代軟件工程專業建設的思考[J]. 計算機教育, 2015(23): 98-100.
[10] 毛嘉莉, 劉敏, 董文, 等. 大數據時代軟件人才培養新模式[J]. 計算機教育, 2016(5): 36-40.
[11] 佘亮, 曾陽艷, 陳榮元. 大數據時代下軟件工程專業教學改革的探討[J]. 計算機教育, 2016(2): 127-129.
[12] 劉朝華, 李小花, 肖小石, 等. 面向智能電網的電氣專業大數據人才培養探究[J]. 當代教育理論與實踐, 2016(7): 69-71.
1672-5913(2017)11-0036-04
G642
上海市教育科學研究項目“基于大數據技術的自適應學習研究”(C17014/17AR04);上海電機學院重點教研教改項目“大數據競賽對應用型大數據人才培養作用的研究”(A1-0224-17-009-05)。
呂品,女,副教授,研究方向為數據挖掘、情感分析,lvp@sdju.edu.cn。
(編輯:宋文婷)