王國卿,吳慧欣,韓珂
(華北水利水電大學信息工程學院,河南鄭州 450046)
隨著云計算、物聯網等技術的普及,中國大數據產業技術發展迅速,廣泛運用在金融、農業、水利、教育、管理、醫療等各個領域,大數據產業發展造成了人才需求的急劇上升。
高等院校承擔著大數據人才培養的重任,因此,各高等院校非常重視大數據課程的開設,大數據課程已經成為信息相關專業的重要核心課程[1]。大數據系列課程以計算機業界需求與發展態勢映射為教學內容,以數學、統計學原理為基礎,以Java等編程語言為工具,以企業實際案例為導向,旨在讓學生了解和掌握大數據及其相關技術的基本概念、關鍵技術和典型應用,提升其對大數據行業的總體認知能力和分析復雜工程問題的綜合能力。
通過中國信息通訊研究院的大數據白皮書(2020年)了解到,我國目前大數據領域的企業超3000余家。大數據企業主要分布在北京、廣東、上海、浙江等經濟發達地區[2]。
但是,在產教融合中,存在企業和高校目標不一致、學生基礎參差不齊、課程內容涉及面廣、雙方一線教師合作交流少等問題,本文旨在分析這些問題的關鍵,探求通過設計合理的課程內容、改革傳統教學模式,將教育鏈、人才鏈和產業鏈、創新鏈有機銜接。為企事業單位、高校科研院所輸送學以致用、具有探索精神和創新意識的復合型人才。
華北水利水電大學信息工程學院秉承學校辦學理念,于2020年獲批成立示范性軟件學院,設立了計算機科學技術、軟件工程與人工智能三個專業,面向三個專業開設大數據系列選修課程,旨在拓寬學生專業范圍,深化學生的專業知識應用,探索大數據專業的課程體系建設。當前在以鯤鵬應用技術與實踐課程為產教融合契合點的背景下,我院設置大數據系列課程主要存在的問題如下:
首先,企業與高校培養目標不協調的問題。
企業運維成本比較高,安排入校的教師在時間上沒有高校專職教師時間寬裕,因此,往往課程安排緊湊,一般集中在一至三周完成授課[3]。學生缺少消化吸收知識的緩沖時間,一個環節沒有跟上,后續就難以繼續保持學習的熱情。例如大數據環境搭建復雜,配置煩瑣,而這又是學習大數據的必要實驗平臺。大數據環境搭建失敗,將導致實驗無法進行,應用課程變成理論課程,學生學習興趣下降、疲憊倦怠。無法領會課程精髓,最終與高校期望學生達到的目標相違背。
其次,企業提供的大數據課程面向學院的三個專業培養方案不一致,在OBE 產出導向下,大數據系列課程與畢業指標的映射關系問題。
遵循OBE理念,反向設計,正向實施,三個專業細化的畢業要求和畢業指標點也略有差別。從而導致各專業課程設置有所區分,學生對鯤鵬應用技術與實踐課程的基礎知識儲備不一致。例如計算機科學技術和人工智能專業沒有先修Java 和Linux 相關課程,而軟件工程專業學生已經系統學過Java和Linux操作系統;人工智能專業學生系統學過Python和機器學習等。學生沒有系統學習過數據采集、數據可視化、Scala、R語言等相關課程。還有些學生雖然修過這些基礎課程,但是知識掌握不扎實。
大數據是一門綜合交叉性學科,要求學生具備較強的數學(高等數學、線性代數、離散數學、數學建模等)、統計學(概率論與數理統計、多元統計分析等)基礎,扎實的計算機編程(高級編程語言、算法、數據結構、程序設計、數據庫、操作系統、數據挖掘等)能力,同時還應具備各相關領域知識[1]。這就要求學院提供既有扎實的理論儲備、又擁有豐富的實踐經驗的雙師型教師,才能解答學生在理論學習和不同軟硬件條件下遇到的各種問題。
但是,學院缺乏雙師型教師。企業教師具有一線開發經驗,但對學生接受能力和動手能力等情況不夠了解、對學生的課程體系及培養目標也沒有宏觀認識。目前的校企合作模式往往以課程為單位,在高校和企業之間以課程為單位劃清界限,高校教師與企業教師交流不夠深入,相互的優勢難以在學生個體上體現。
依據現有的培養方案,在鯤鵬應用技術與實踐課程開設之前,開設32課時的《大數據技術基礎》課程,該課程內容的選擇可以解決上述學生學習基礎不一致的問題,對后續大數據課程能否順利進行起著至關重要的作用。在鯤鵬應用技術與實踐課程開設之后,開設了結合學校特色的水利大數據分析課程,深化校企合作,加強知識技能的應用。本節就這三門課程內容的選擇提出如下建議,探求解決上述問題的方案。
在大數據的研究和應用中,數學是其堅實的理論基礎,在數據預處理、數據分析與建模、模型評價預優化等過程中,數學方法扮演著至關重要的角色[4]。該部分包含如下內容:微積分基礎、線性代數基礎、概率論與數理統計基礎、數值計算基礎、多元統計分析和運籌學等。
這些數學基礎的大部分內容學生已經在低年級學習過,如微積分、線性代數、概率論和數理統計等,但是這些課程往往是由數學科學學院開設,更注重數學理論的嚴謹性,從理論的層面來研究大數據相關的基礎和技術。因此,在大數據技術基礎課程中應當注重理論與應用的聯系。
在微觀方面將理論知識點用Python 或R 語言實現出來,例如用計算機計算函數的導數、積分和拐點,求解線性方程組等;
從宏觀上串聯這些理論知識點與大數據技術之間的關系。例如極限論是微積分的基礎,微積分是概率論的基礎,微積分和概率論又應用到機器學習中的優化算法;用矩陣表示大數據中數據與數據之間的關系,矩陣的運算用于分析大數據中對象的特征;統計工作本身就是對數據進行搜集、整理、分析和解釋,統計方法是大數據常用到的算法如樸素貝葉斯、Apriori關聯規則等的基礎等。
大數據技術之所以受到熱捧,主要在于以Hadoop和Spark為代表的分布式框架解決了以較低的成本實現海量數據的存儲和計算的問題[1]。考慮到Linux 系統的便捷性和穩定性,Hadoop 集群一般搭建在Linux系統上,并且使用虛擬機軟件,構建多臺機器的虛擬環境,由于Hadoop 由Java 開發,其關鍵的分布式計算框架MapReduce均由Java語言編寫。據此,學生需要先修Linux操作系統和Java編程語言。
Spark 作為大數據計算平臺的后起之秀,在2014年打破了Hadoop 保持的基準排序記錄,使用約十分之一的計算資源,獲得了比Hadoop 快約3 倍的速度。Spark 的主要編程語言是Scala,也支持Java、Python 和R 作為編程語言。其生態系統中的Spark SQL 組件,使得開發人員可以使用SQL 命令進行查詢及更復雜的數據分析。因此,學生需要先修Scala 語言和數據庫系統相關課程。
此外,還有其他方面的基礎,如數據預處理方面:獲取網絡數據的Python 爬蟲技術和建立數據倉庫的Kettle工具等。
大數據的核心技術主要包括存儲、處理、分析,在本科高年級開設的鯤鵬應用技術與實踐課程中,注重技術與應用的交叉結合,增強學生學習興趣和動手能力,將理論與實驗穿插進行,相互鞏固。以Hadoop 和Spark 生態系統為核心,選取以下知識點作為教學內容:鯤鵬云與Hadoop 集群搭建,HDFS 分布式文件系統,MapReduce 分布式計算框架,Zookeeper 分布式協調服務,HBase分布式數據庫,Hive數據倉庫;Spark集群部署,Spark Core 處理引擎,Spark SQL 數據管理與查詢,Spark Streaming實時流數據處理等。
在相應知識點理論講解結束之后,及時安排如下實驗(如表1所示),鞏固學習內容,鍛煉學生實際操作能力:
大數據技術是一個完整的體系或生態,高校開設的各門大數據課程的實驗教學往往是松散的、各自為政,缺少從技術體系角度設置的綜合性實驗[5]。大數據綜合實訓案例建設涉及知識面廣,數據獲取困難等問題,目前存在數據分析處理算法(如機器學習、數據挖掘、統計分析、模糊集理論、神經網絡等)與傳統理解的大數據框架Hadoop 和Spark 分離的情形,不能很好地將算法與大數據平臺的優勢有機融合。應用案例的開發應當結合高校和企業優勢,將算法理論有機融入結合新需求如智慧水利等場景,形成完整的綜合案例,貫穿大數據知識點,鍛煉學生知識的綜合運用能力和解決復雜工程問題的能力。
目前已有許多高校建立了大數據專業,但是本學院擬在已有的3個專業的基礎上拓展大數據方向,即將大數據融入已有專業中,這與建設完整的大數據專業有較大區別。因此需要探求合適的教學模式,才能讓學生在有限的課時內,達到教學目標,獲得相應的能力。
大數據技術基礎課程的開設,不只是單純地按專業給學生分班,而是設計一套基礎知識和技能的問卷調查。該套問卷針對上文闡述的數學理論基礎和計算機基礎進行調查,使用線上教學平臺統計功能,按學生知識短板分類,分出2~4 類學生,有針對性地制定授課內容。
該課程主要講授的基礎性知識,已經有很多優質的線上資源,教師篩選出合適的無版權糾紛的教學視頻放置在一個教學平臺上,并配套相應的練習題。學生可以自主調整播放速度及播放次數,完成習題鞏固和檢驗所學知識,過關斬將,環環相扣,增加了學習的趣味性。學生把握了學習的主動性,真正實現“以學生為中心”的教學方式。
該課程關于基礎理論知識與大數據技術銜接的內容,需要教師線下講解,翻轉課堂,課題研討的形式完成。
如此線上線下結合,既減少了課時,鍛煉了學生的自學能力,豐富了課程內容,又增強了師生互動,教師減少了知識的重復傳輸,有更多時間和精力投入課程建設和新知識新方法的研究之中。
課程建設采用校企合作的方式,雙方自頂向下增強溝通交流。從校領導到一線教師,從學生學習基礎調查、課程內容的制定、教學模式的選擇到學生的考核評價方式,雙方都進行深入溝通交流。交流方式采取會議、備課及聽課等多種形式,深度融合。
例如鯤鵬應用技術與實踐課程,將企業真實案例引入課堂。以一個大型應用案例為主線,從案例概述開始,分析案例多種可能的解決方案,選取大數據技術解決的必要性;然后搭建大數據實驗環境、安裝相關工具和數據庫等;講解案例涉及的關鍵理論知識及相應的大數據算法的實現;最后講解與實踐數據可視化的多種方法及選取適合本案例的可視化方法。
全程企業教師、高校教師和學生三者一起參與線下課堂,企業教師主講,高校教師輔導補充,學生動手操作。高校教師學習和累計一線案例教學經驗,企業教師了解學情和深入理解教學目標,學生在兩類各有所長的教師引領下,扎實地學會大數據技術的整個應用過程,達到相應能力。
在水利大數據分析課程中,高校教師提供水利大數據及需求分析,企業教師研究使用大數據技術的解決方案,共同備課,探討并實現水利大數據方面的真實案例,鼓勵學生挖掘數據中的有價值的信息。
在大學生創新項目、計算機設計大賽和數字科技節等活動中,鼓勵學生運用大數據技術處理和分析數據,并得出有價值的結論。數據的來源可以選擇學生成績數據、體測數據、統計調查數據、社區服務數據、網絡爬蟲數據、政務網或統計局網站的數據等提供的公開數據,倡導一切與數據有關的組織觀念與行為方式,并將數據分析應用于生活、學習和一切實踐中。例如大學生成績與身體健康大數據分析、熱門品類分析、氣象大數據分析等。學生通過比賽解決實際問題,不斷學習成長,加強與兄弟院校及企業交流,更新專業方向的知識庫,如前沿的數據挖掘、深度學習理論、神經網絡知識等,不斷提升從數據中提取有價值信息的思維能力同時,讓學生的技能素養更貼近企業需求。
教師在帶領學生參加項目和比賽過程中,加強高校與企業之間的交流,并將前沿熱門技術平移到教學中,更新教學內容,豐富教學案例。
本文以原有專業基礎上拓展大數據方向為例,從分析產教融合的必要性及問題出發,到探求教學內容和教學模式兩方面的解決方案,提出了一些思路,希望有志研究、教授或學習大數據相關內容的教師或學生通過閱讀此文能有所啟發,并提出寶貴建議。后續將進一步探究大數據課程體系基礎知識點與應用之間的銜接、案例驅動的混合教學設計方法,期望能讓課程形成體系,環環相扣,減少教師重復的工作量,增強學生學習的信心和興趣。