劉漢興,田緒紅,孫微微
(華南農業大學數學與信息學院,廣州 510642)
2016 年以來,為適應新時期科技革命的發展和經濟增長復蘇期的需要,我國積極推進高校新工科建設,期待培養出新產業新技術新業態急需的應用和工程技術人才,其中以智能化與信息化為特征的IT 人才需求量巨大。伴隨國產技術安全可控的要求,大數據技術研究與應用服務重要性日漸凸顯,如果能在這一新興技術領域搶占先機,將在大數據領域突破國外技術壟斷和形成國際競爭優勢。
目前,全國已有近五百所高校開設“數據科學與大數據技術”專業,一些雙一流高校和地方高校前期已嘗試對大數據人才的培養方案和培養模式作出探索和實踐,各高校的大數據專業基本是依托自身的優勢學科和行業領域,實現多學科融合,培養具有行業特色的大數據人才[1]。目前來看,我國高校設置的大數據專業以計算機學科或者數學學科為基礎學科,其中基于計算機學科開設的院校更多更普遍,大數據行業領域主要涉及金融、商業、電信、醫學、交通、生產、農業等方面。這種以行業問題為核心,以大數據技術為工具,實現多元化、跨學科、產學融合的培養模式恰好契合了新工科專業課程建設的要求,也滿足了不同行業亟需大數據技術助力生產和發展的實際要求。因此,大數據專業的開設和人才培養順應時代需求,正逢其時。
在新工科背景下,大數據人才主要有以下兩種分類:一類是偏向理論的大數據研發類,側重于對數據科學的數學模型和算法的理解與設計,未來就業以大數據系統研發、算法分析、系統架構等方向為主,學歷要求以碩士博士為主;一類是偏向實踐的大數據應用類,側重于以大數據技術為工具,解決實際的行業應用問題,未來就業以大數據分析、大型數據庫運行維護、數據挖掘及可視化等方向為主,學歷要求以本科為主。顯然,不同類型的人才在需具備的素質能力方面也會有不同要求,在課程設置時也應有各自的側重。
從產業需求和市場調研總體來看,近半數大數據人才需求集中在軟件和信息服務業(如計算機軟件、硬件、網絡等相關企業),其次是電信、廣播電視、商業服務、文化藝術、教育等行業,說明大數據專業人才的就業領域廣泛;超六成的大數據人才需求企業規模較大,且位于北上廣深杭等經濟發達城市;應用型的大數據開發和分析崗位數量占人才總需求量的九成,而理論型的算法研發崗位數量較少;除學歷等硬性要求以外,用人企業也看重團隊溝通合作等軟性能力[2]。以國外高校的大數據人才培養模式來看,未來應以培養能夠結合行業領域并綜合運用大數據方法,解決行業問題的應用型人才為主要方向[2]。
就本院校實際而言,學生多以本科畢業后直接就業為主,因此,確定以“能力導向的大數據應用型人才”為本科階段的培養目標。怎樣讓大數據方向學生具有“計算機科學+大數據”的知識結構,同時提升學生的實踐能力、應變能力和團隊合作能力,使之具有就業選擇多樣性和競爭力,是本院校在設置理論課程和實踐課程時探索和努力的方向。
從針對國外高校的大數據專業課程設置的調研結果看,雖然多所國外高校的行業領域和側重點不同,但基本都看重培養學生在數據采集、預處理與清洗、存儲與管理、數據挖掘與分析、可視化、大數據應用與實務等方面的能力[3]。在設置課程體系時,涵蓋數學∕統計學、計算機科學、模型分析、數據系統管理、數據可視化、行業領域應用、綜合訓練、倫理與知識產權保護等幾類課程[4]。
在能力導向的大數據應用型人才的培養過程中,可分為三個階段,各階段著重培養的知識、能力和核心課程如下[5]。
初級階段是專業基礎知識學習階段,需學習數學∕統計學基礎知識,計算機系統基礎知識(如計算機體系結構、操作系統、計算機網絡等),以及訓練編程能力(如數據結構、面向對象程序設計、C∕Python 語言、R 語言等);
中級階段是專業核心知識學習與實踐訓練階段,需要培養:數據處理能力(如數據庫原理、數據采集與清洗技術等),大數據平臺管理與開發能力(如虛擬機與容器、分布式計算框架、分布式數據庫、分布式文件系統、數據遷移等技術),以及大數據分析及展示能力(如深度學習∕機器學習、數據倉庫∕數據挖掘Hive、數據可視化等工具);
高級階段是綜合運用專業知識解決實際應用問題階段,需要培養:大數據系統綜合應用能力(包括分布式服務器與應用、搜索引擎技術與應用、實時流處理技術等),以及項目開發與實施能力(包括大數據項目綜合實訓、行業大數據案例復現與分析等)。
在設置大數據應用型本科人才的培養方案時,應該以各階段的素質能力需求為基本框架,以能力為導向設置理論與實踐課程體系,使學生既有理論學習能力又有實踐操作能力,具備良好的就業前景和可深造潛力。
考慮到自身學科特色、專業培養目標和產業需求等因素,本院校的大數據專業培養以計算機科學與技術為主干學科,在專業方向培養時以大數據分析與處理、云計算、人工智能等知識為拓展。
除了通識教育課程、學術道德規范教育、形勢與政策等本科基本課程之外,根據大數據應用型人才的培養目標,分解得到以下人才能力構成以及培養順序,并為之設置相關專業課程和選修課程。
其中,專業核心課程有數據結構、操作系統、計算機系統、數據庫系統、大數據技術原理、分布式數據庫、分布式計算框架、機器學習與深度學習、數據倉庫與數據挖掘、大數據可視化技術等。
除了理論課程的學習之外,實踐操作能力也是應用型人才培養模式中不可或缺的部分。在培養工程應用與實踐能力方面,要求學生掌握大數據處理語言與相關工具如Python、Hadoop、Spark 等,掌握完整的大數據處理流程,能夠運用專業知識對相關應用問題進行分析,并提出及主導實施解決方案,能夠將大數據處理技術轉化為商業價值。為實現實踐能力預設的培養目標,建立了多層次的實踐教學方式,包括課程實驗、課程實習、課賽結合、雙導師制項目訓練和企業實訓等。
大數據技術相關的課程實驗主要是在大數據技術實踐教學云平臺上完成,采用虛擬機和容器Docker 技術為每位學生提供實驗環境[6]。以《大數據技術原理》課程實驗為例,包括Hadoop 集群偽分布式安裝、分布式文件系統HDFS 的使用、分布式計算MapReduce 編程、Hive 數據倉庫統計分析、HBase 分布式數據庫操作、高可用集群的搭建和Hadoop 生態系統應用等幾項實驗內容。

圖1 大數據應用型人才的能力構成及培養順序
為訓練團隊合作和溝通能力,課程實習多采用若干個學生組成小組形式,采用案例教學和項目驅動方式,要求綜合運用(多門)課程知識,系統性地實現一個完整的項目實踐,是培養學生實踐能力的重要形式。以高年級的“大數據處理綜合實習”為例,可分為數據爬取、數據分析、數據可視化和數據挖掘四個模塊,由學生分工合作完成。涉及知識包括數據采集(爬蟲、Flume)、Hadoop 生態(MapReduce 編程、Sqoop 數據遷移、分布式數據庫 HBase、Hive 交互分析)、Flink∕Spark∕Strom 實時計算、Python 數據可視化、Mahout 大數據分析等方面。例如“外賣店選址”案例:首先爬取已有外賣網站數據,并對爬取到的外賣數據進行數據清洗(提取商家類型、品種、銷量等數據)得到原始數據;將外賣店原始數據上傳到HDFS 中,利用Hive 統計分析并將統計結果寫入到MySQL 數據庫;對原始數據和統計數據返回前端頁面進行數據可視化展示;最后對統計數據進行數據挖掘分析,如為新開外賣店提出地址、營業時間、品種、價位等建議。
課程實驗和實習可以培養和鞏固大多數學生的實踐技能。對于學有余力的優秀學生,選拔并推薦其參加大數據競賽,以賽促學,以賽促教,課賽結合,通過競賽認識到與其他高校的差距,彌補不足[7]。已派學生參加“聯想杯”等大數據技能競賽并獲得個人賽和團體賽獎項,學生反映在短時間內完成環環相扣的多道題目,不僅鍛煉了合作溝通能力、應變反應能力和獨立解決問題能力,更重要的是提升了自信和學習興趣,明確了將來深造方向和職業方向。
高校教師優勢在于理論教學和科研能力強,但大多缺乏實操項目的經歷,因此在實習實訓項目中引入有豐富行業實踐經驗的企業導師,與學校導師共同培養學生,學生參與行業真實案例的復現過程;同時利用本院校與廣東溫氏等農業龍頭企業的合作關系,依托橫向項目和行業真實數據,引導學生運用大數據和數據挖掘技術,發現諸如飼料成分價格、能繁母豬數量、生豬銷量、豬肉價格等波動相關性,為企業調整生產策略提供預測依據。這些校企合作協同育人的實訓項目實現了雙方的優勢互補,縮短了學生適應企業要求的磨合期,提高了學生的就業競爭力。
我國大數據與數據科學專業開辦不久,雙一流高校和地方高校對培養理論型和應用型人才培養模式都在探索。著眼于應用型人才的培養,剖析了其所應具有的培養階段和素質能力,針對性地設置理論課程和實踐實訓課程,期待培養出基于計算機學科的“即插即用”大數據應用型人才,盡量縮小院校培養和社會需求之間的偏差。大數據技術發展日新月異,培養方案也應與時俱進,緊跟行業發展動態,適時作出調整,實現新工科所期望的前瞻性和不斷創新。在學科實踐中如何學習其他先進院校的培養措施,縮短與先進院校的差距,也是本院校不斷探索和實踐的方向。