管 濤,劉 寧
(1.鄭州航空工業管理學院 計算機科學與應用系,河南 鄭州 450015;2.航空經濟發展河南省協同創新中心,河南 鄭州 450015)
大數據是國家的戰略資源,是當今國內外主流的發展趨勢之一。發展大數據有利于推動相關產業的進步,引導企業向互聯網領域轉型,提高政府決策的效率和質量。當前,國內的大數據政策積極向好。2017年,第12屆全國人民代表大會第五次會議上李克強總理作政府工作報告,指出要深入實施“中國制造2025”,加快大數據、云計算、物聯網應用。
在大數據教育領域,教育部發布了大數據相關專業的政策。2016年,教育部發布的“2015年度普通高等學校本科專業備案和審批結果”中首次增加了“數據科學與大數據技術專業”,北京大學、對外經濟貿易大學及中南大學獲批。2017年3月,教育部發布了“教育部關于公布2016年度普通高等學校本科專業備案和審批結果的通知”,共32所高校獲批“數據科學與大數據技術專業”。紐約大學Vasant Dhar指出:“Data science is the study of the generalizable extraction of knowledge from data。”[1]周傲英等人在《大數據》中介紹了國內外大學開設數據科學課程的分布情況,指出了開設數據科學的必要性[2]。徐吳等人強調數據科學作為通識教育的重要性[3]。
大數據領域就業前景廣闊,目前國內外大數據人才缺口巨大,及早完善大數據專業培養體系對人才隊伍建設具有重要的意義。2016年,北京大學成立博雅大數據學院,積極探索大數據人才培養模式,致力于解決我國大數據人才極度缺少的問題。博雅大數據學院院長歐高炎指出“人才是大數據產業生存和發展的命脈”[4]。
如何建設大數據專業,開展大數據教研、人才培養工作,目前沒有統一的標準,缺少系統化的方法。走在前列的大學積極探索適合自己的教育模式。例如,復旦大學采取“2+2”的本科大數據培養模式;清華大學數據科學研究院開展了大數據碩士項目;鄂維南院士在北京大學建成了本碩博3個層次的大數據教育體系。
解決大數據教育問題,需要根據學校的定位及跨學科、復合型人才的積極參與和領導的前瞻性決策,做好大數據專業的頂層設計,構建大數據專業建設方法論,建立具有學校特色的OBE模式培養體系。
在傳統的教學模式中,課堂教學、課后輔導視角教學更注重知識的傳授、解惑和知識模板的套用,較少注重學生在相關學科的能力的培養。為了提高學生的綜合能力和素質,國外提出了一種面向基礎教育的新模式——outcomes-based education(OBE),目標在于通過課程學習提高學生的分析和解決問題的能力,而不僅僅是學習到課本知識。在OBE的模式中,教師需要根據課程的內容,設置需要達到的目標點(能力達到目標),然后根據知識點撰寫教學計劃、教學大綱、OBE教案,提出面向能力培養的教學方法、準備相應的課件、制定合理的評價方式等[5-6]。
大數據是一個多學科交叉的領域,涉及數學、計算機科學、應用領域學科,對人才培養提出了很高的要求。Vasant Dhar教授提到:“A data scientist requires an integrated skill set spanning mathematics,machine learning,arti fi cial intelligence,statistics,databases,and optimization,along with a deep understanding of the craft of problem formulation to engineer effective solutions。”[1]可見,大數據科學家需要涉獵的專業課程十分廣泛。對于大數據分析工程師而言,同樣要求具備這種多學科交叉的知識,并且需要熟練掌握開源平臺的原理和應用。圖1展示了大數據從業者需要掌握的基本的學科知識體系。
從數學體系看,高等數學、線性代數是非數學專業學生的基礎性課程,是大學生必備的基本知識。離散數學是計算機領域的基礎課程,內容覆蓋面廣,可以擴大學生的知識面。矩陣計算課程具有一定的難度,適合高年級本科生學習。在應用中,許多大數據問題需要計算大規模矩陣,而這些矩陣規模龐大,或稠密、或稀疏、或對稱、或奇異,分解、抽樣、求解特征系統、降維、投影都能在該課程中找到經典的解決方法。數理統計是數據分析課程的重中之重,可描述數據統計規律,實現數據清理、變換、分類、降維、聚類、光滑、推斷、預測、抽樣等功能。隨機過程的思想在數據分析多有應用,如時間序列分析、馬爾科夫決策過程、高斯過程等,內容適合高年級本科生學習。最優化技術在聚類分析、支撐向量機(SVM)、神經網絡模型、EM算法、粒子群優化、蟻群算法、遺傳算法、增強學習等領域應用廣泛,而這些方法在數據分析領域各有優勢。除了圖1所示課程之外,在算法分析的過程中,還會涉及組合數學、泛函分析、算子理論、調和分析、圖論等內容。圖2展示這些數學課程之間大概的層次關系。
從計算機領域看,操作系統、數據庫原理、數據結構、程序設計都是基礎性的必修課程。分布式數據庫、分布式操作系統是大數據分析的基本平臺配置,必須熟悉其基本原理和操作。算法分析與設計課程覆蓋了貪心算法、動態規劃、回溯法、迭代法、分支定界法等經典方法,用途廣泛,如網頁搜索、路徑規劃。該課程具有一定的難度,適合高年級本科生學習。數據挖掘和人工智能是專業性較強的課程,內容包括數據分析的常見模型和算法,可作為大數據專業的高年級的必修課程。除了這些基本課程之外,與大數據平臺有關的課程細分領域還包括分布式計算模型、并行計算模型、計算機網絡、信息安全、機器學習、數據質量、可視化技術等。實踐課程是大數據走向應用的重要一環,實習、競賽、項目開發、模擬都是合適的形式。圖3展示了計算機相關課程之間的關系。

圖1 大數據的基礎課程體系

圖2 數學課程層次

圖3 計算機課程層次
從工程應用的角度看,不同領域的課程體系有差別,但都側重于學習與數據分析緊密相關的課程。此外,不同領域生產過程產生的數據種類有差別,需要根據不同的需求選擇合適的模型或算法。
綜合以上可知,大數據知識體系具有如下特點:①體系完整,層次清晰。與大數據技術緊密相關的課程形成了完整的知識層次,由淺入深,從理論到實踐。不同定位的大學都可以構建符合要求的知識培養體系。②覆蓋面廣,具有深度。大數據技術專業學習需要理解深刻的數學原理,熟悉計算機實現手段,還要具備完整的專業領域的知識和數據思維。③跨學科、跨領域集成。大數據專業具有數學、計算機、專業領域屬性,前兩者是解決問題的工具,后者是工程問題的來源。只有將這3種學科有機整合、形成特色,才能有效地發掘大數據的價值。④應用領域廣,分析方法可選擇性多。不同的專業領域產生的數據格式、類型、容量、時效性均不同,數據分析的需求和目標亦有差異,從而導致分析工具和方法的不同。
根據不同學校的性質和需求,大數據專業會有不同的定位。研究型大學更重視大數據基礎理論、方法、技術的研究,鍛煉3種思維:數學思維、計算思維、數據思維,提升數據分析的分析、綜合和深度探索能力,關注大數據核心技術的探索和突破,包括算法、模型、平臺架構等。這類研究要求更好的數學基礎和計算機綜合能力,在人才培養上可以定位為高端研究人員。應用型院校更側重于大數據與領域結合的應用、創新和實踐,滿足行業領域的大數據應用分析需求,培養對于工程問題的分析和建模能力、算法設計和實現能力。培養目標更適合定位于工程技術研發人員,歸納3個工程方向:大數據平臺的開發;數據挖掘、數據分析和機器學習基礎和算法;大數據運維。在OBE的模式下大數據專業建設可以從目標設置、教學內容及教學方式等方面考慮。
不同的大學對于數據科學的目標不一樣,在OBE目標設定的過程中存在一定的差異。從理論角度看,大數據研究可以在兩個方面開展:①數學能力。注重數學抽象和建模的能力、算法的創新和改進的能力、從工程實踐中抽象建模并加以解決的能力、指導工程人員實踐的能力。②數據挖掘能力。注重根據工程問題,設計計算可行的算法;數據平臺和源碼的設計和創新能力。從實踐角度,注重以下研究工作:①大數據系統。注重大數據平臺的二次開發、優化和運維的能力;②大數據項目開發實踐研究。結合應用場景提出大數據項目實施和方案,開展數據分析和挖掘的能力,總結見表1。

表1 研究型和應用型大學OBE目標設置
大數據的教學需要通過理論教學和實踐訓練完成。二者缺一不可,對于數據分析工程師來講尤其重要。大數據課程的設置與專業定位有關。結合實踐經驗,建議授課內容從兩個方面考慮:一是大數據基礎性課程,提升對問題的理解、抽象和綜合分析的能力;二是大數據實踐性課程,提升知識應用、動手實踐能力,避免眼高手低。課程設置見表2,通過這些課程的學習和訓練,可以全面提升學生的綜合素質。
首先需要明白幾個關系:①大數據理論與大數據實踐。大數據理論融合了數學、計算機理論、應用基礎領域的知識。大數據實踐要在一定的軟件架構上實現,使用工具操作和調優,協調各個工具之間的關系。②數學與計算機。大數據是數學與計算機的交叉領域。數學提供了內部的計算方法和技術,計算機科學展示了計算能力,突出直觀感受。③大數據平臺和數據挖掘。大數據平臺是軟硬件基礎架構,數據挖掘面向行業應用,二者不在同一層次,但是,應用決定基礎架構的形式,平臺決定應用的水平和性能。

表2 大數據課程設置
在理順3個關系之后,給出以下3點教學建議:①選擇數學課程中與大數據相關的內容重點課堂講解。傳統的數學課程講究知識的系統性、完整性,在大數據中需要的是能夠解決實際問題的數學知識,不追求數學體系的完整性。②講解計算機重點課程,突出現代性、先進性,刪除過時、淘汰的內容。目前大多數計算機課程停留在傳統的教學內容上,跟不上科技趨勢的發展,這種局面亟待改變。③結合大數據案例,在實踐中完整與系統地講解大數據的基本架構、原理和實現路徑。讓學生通過開源軟件、開放數據進行實踐,增加切身感受和成就感。
大數據涉及的理論內容眾多,既有理論又有實踐,那么如何開展大數據的教育教學?從幾個方面考慮。
(1)教師隊伍。可以考慮從數學、計算機專業選拔具有大數據相關課程專長、不同學歷層次的教師組成教學隊伍,從基礎課程到專業課程講授。對于研究生教學,以不同的大數據領域研究團隊、實驗室、研究中心為主導,在理論和工程方向分別開展工作,培養研究型或者工程技術人才。
(2)教材選擇。目前,還沒有大數據方面的統一教材,主要原因在于大數據涉及領域太廣,從基礎理論到工程實踐,有數學的深度,又有工程的復雜。在每個學習階段,可以選擇的傳統教材很多,但不足之處在于缺乏大數據內容的闡述。因此,建議在采用傳統教材的基礎上,補充大數據相關資料,如慕課、學術論文、學術報告、視頻、書籍章節等,并選擇合適的軟件平臺或開源軟件自擬定項目進行開發。
(3)教學環節。在本科生教學階段,注重基礎理論知識的學習,擴大知識面。同時,利用常用統計分析工具、開源平臺開展基本的數據分析工程訓練,更多地培養初級數據分析師或培育研究性人才。研究生教學注重深入課程的學習、工程或理論研究,側重在某些領域的深入和細化。目標是培養高級數據分析師與高級數據分析研究人員。
(4)實踐環節。無論是研究型人才,還是工程技術人才,都應當參與一定的工程實踐訓練。一方面,可以提高研究人員的感性認識、動手能力,讓研究人員了解數據的來源和問題的本質,便于更好地在實驗室完成需求分析、算法測試、模型優化和過程模擬。另一方面,工程技術人員應當側重工程實踐鍛煉,通過項目實戰、競賽、練習等形式開展大數據分析任務。通過學校的產學研合作、校企合作形式及早參與到企業的大數據開發項目中。
面向OBE的大數據專業教育是一門新興的領域,在建設的過程中會遇到很多困難和問題,都是前所未有的。問題解決和專業規劃需要從頂層進行設計,逐步細化、完善,并在研究和教學實踐中積累經驗,反饋并調整,最終形成比較完善的教學體系。