孫書韜,朱立谷,李春芳
(中國傳媒大學 計算機與網(wǎng)絡(luò)空間安全學院,北京 100024)
當前,社會媒體以及各種社會和經(jīng)濟活動每天都在產(chǎn)生海量的數(shù)據(jù),對這些數(shù)據(jù)進行充分的利用,基于大數(shù)據(jù)進行決策分析、個性化服務、建立人工智能系統(tǒng)等,有著廣闊的應用前景。大數(shù)據(jù)技術(shù)受到國家和工業(yè)界的高度重視,市場對于大數(shù)據(jù)人才的需求日益增多,許多高校順應技術(shù)潮流和市場需求,開設(shè)了大數(shù)據(jù)技術(shù)的相關(guān)課程,部分高校建立起了數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)。從2016 年2 月教育部批準北京大學、對外經(jīng)濟貿(mào)易大學、中南大學等開設(shè)數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)起,截至目前我國共有近480 所高校獲批設(shè)立該專業(yè)。
大數(shù)據(jù)技術(shù)包含大數(shù)據(jù)的采集、存儲、處理分析與應用。從知識支撐角度看,數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)涉及傳統(tǒng)的數(shù)學、統(tǒng)計科學、計算機科學與工程專業(yè)知識。但數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)又派生出許多針對海量數(shù)據(jù)處理和面向不同應用學科的特定知識,出現(xiàn)了面向大數(shù)據(jù)處理的許多新的技術(shù)、方法和平臺。
如何設(shè)置數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)核心課程和開展教學,是高等學校這一年輕專業(yè)亟需解決的問題,國內(nèi)高校根據(jù)自身的特點進行了許多有益的探索。李莎莎等分析了數(shù)據(jù)科學與大數(shù)據(jù)人才專業(yè)課程體系,給出了北京大學、復旦大學、中南大學、美國舊金山大學和英國華威大學數(shù)據(jù)科學專業(yè)開設(shè)課程的合集,并分析了各部分課程所占用的比重[1]。崔燕探討了面向大數(shù)據(jù)分析的信息管理實踐教學體系[2],偏向于計算機技術(shù)基礎(chǔ)知識與大數(shù)據(jù)處理平臺的建立與使用。許安見、鄒楊等探討了數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案[3]。
本文收集整理了美國加州大學伯克利分校、麻省理工學院、斯坦福大學以及加拿大滑鐵盧大學等北美四所知名高校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)相關(guān)專業(yè)設(shè)置與專業(yè)要求以及課程設(shè)置情況,分析了該專業(yè)和課程設(shè)置的特點,對我國數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)建設(shè)提出了相關(guān)建議。
北美相關(guān)專業(yè)設(shè)置一般不叫數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè),主流的專業(yè)名稱為數(shù)據(jù)科學(Data Science),設(shè)置數(shù)據(jù)科學的教學單位一般為計算機、數(shù)學、統(tǒng)計、文理學院等學院或系。麻省理工學院將相關(guān)專業(yè)命名為計算機科學、經(jīng)濟與數(shù)據(jù)科學(Computer Science,Economics,and Data Science)。
加州大學伯克利分校數(shù)據(jù)科學專業(yè)設(shè)在文理學院,除了要求學生的數(shù)理和計算機科學基礎(chǔ)外,還要求學生在文學藝術(shù)(Arts and Literature)、生物科學(Biological Science)、歷史研究(Historical Studies)、國際研究(International Studies)、哲學和價值觀(Philosophy and Values)、物理科學(Physical Science)、社會與行為科學(Social and Behavioral Sciences)等7 個方向,每個方向選擇一門課程,滿足知識寬廣度的要求。在此基礎(chǔ)上,在高階課程階段還需要專門在選定的方向上學習兩門深度要求的課程。表1 給出了該校的數(shù)據(jù)科學專業(yè)課程設(shè)置和要求[4]。
麻省理工學院設(shè)置了“計算機科學、經(jīng)濟與數(shù)據(jù)科學”專業(yè)[5],可能是考慮到數(shù)據(jù)科學本身還不足以支撐一個專業(yè)或考慮到數(shù)據(jù)科學要與具體應用相結(jié)合。事實上,許多國外知名高校沒有設(shè)置數(shù)據(jù)科學專業(yè),但一些學校設(shè)置了數(shù)據(jù)科學的輔修(Minor)。表2 給出了麻省理工學院相關(guān)專業(yè)的課程學習要求。
從麻省理工學院的課程設(shè)置可以看出,學校也比較注重人文藝術(shù)和基礎(chǔ)科學的通識教育,但與加州大學伯克利分校相比,給學生提供的深度方向選擇指定了經(jīng)濟類。和加州大學伯克利分校一樣,學生可以在7 個領(lǐng)域自行確定自己感興趣的數(shù)據(jù)科學結(jié)合的領(lǐng)域應用。從上述兩所北美頂級名校的課程設(shè)置來看,二者都十分重視基礎(chǔ)理論的教育。同時也提供了一定數(shù)量的選修課,使學生可以發(fā)揮自己的興趣,培養(yǎng)某一方面的專長。

表1 加州大學伯克利分校數(shù)據(jù)科學專業(yè)課程設(shè)置及修課要求

表2 麻省理工學院計科、經(jīng)濟與數(shù)據(jù)科學專業(yè)課程設(shè)置及修課要求
斯坦福大學在碩士階段設(shè)置了數(shù)據(jù)科學項目,但在本科階段沒有設(shè)置專門的數(shù)據(jù)科學專業(yè)。統(tǒng)計系提供了數(shù)據(jù)科學的輔修模塊(Minor)[6],目的是為人文與計算科學學院(Humatical and Computational Science)各專業(yè)提供感興趣領(lǐng)域的統(tǒng)計數(shù)據(jù)分析方法。數(shù)據(jù)科學輔修專業(yè)要求完成線性代數(shù)、程序設(shè)計、R 程序設(shè)計、數(shù)據(jù)科學、統(tǒng)計、數(shù)據(jù)挖掘與分析、領(lǐng)域相關(guān)的數(shù)據(jù)科學方法論等7門相關(guān)課程。這7 門相關(guān)課程除了2 門是只有一個課程供選擇外,其他都提供了多于一門的課程供選擇。
北美信息學科教育另一所具有代表性的學校是加拿大的滑鐵盧大學,它是以進行多次強制性實習(Coop)的項目而出名的,實習極大地提高了學生的就業(yè)能力。加拿大大學的本科專業(yè)設(shè)置與國內(nèi)略有不同。在教學中提供了職業(yè)專家(Professional specialist)、主修(Major)、輔修(Minor)幾類教學體系。其本科畢業(yè)要求一般要學30余門課,這可以由一個Professional specialist 課程組支持,也可以由兩個Major 課程組或一個Major、兩個Minor 課程組支持。Major 約16 門課程,Minor 約8 門課程。滑鐵盧大學也開設(shè)了本科數(shù)據(jù)科學專業(yè),學生申請滑鐵盧大學的計算機科學或統(tǒng)計項目,在學習計算機科學或統(tǒng)計時,可以選擇數(shù)據(jù)科學專業(yè)方向(Major)的學位,所以其專業(yè)設(shè)置在計算機科學與統(tǒng)計方面的課程設(shè)置較多[7]。但其畢業(yè)要求中也要求學生修學一定的廣度課程和在除計算機科學和統(tǒng)計之外的其他專業(yè)的某一個領(lǐng)域修習幾門課程,達到一定的深度,這點與美國高校要求類似,但從課程比例上來看,分量不如美國的頂尖高校重,具體見表3。

表3 滑鐵盧大學數(shù)據(jù)科學專業(yè)課程設(shè)置及修課要求
綜合北美知名高校的課程設(shè)置,可以看出數(shù)據(jù)科學的課程群主要包括以下幾個部分:
(1)數(shù)學基礎(chǔ)課。包括基礎(chǔ)課程:微積分、線性代數(shù)、概率論、統(tǒng)計、概率與隨機變量、最優(yōu)化方法、計算機科學的數(shù)學等。高階課程:隨機過程、線性建模理論與應用、時間序列導論、實驗設(shè)計與分析、再生與協(xié)同統(tǒng)計數(shù)據(jù)科學等。
(2)計算機相關(guān)課程。包括基礎(chǔ)課程:計算機科學導論、Python 編程、程序設(shè)計基礎(chǔ)、計算機程序結(jié)構(gòu)與解析、算法導論、算法設(shè)計與分析、網(wǎng)絡(luò)。高階課程:計算機安全、操作系統(tǒng)、程序設(shè)計語言與編譯、Internet 導論、軟件工程、數(shù)據(jù)庫導論、人工智能導論、自然語言處理、信號處理、可視化與理解神經(jīng)網(wǎng)絡(luò)等。
(3)數(shù)據(jù)科學相關(guān)課程。包括數(shù)據(jù)科學導論、機器學習、數(shù)據(jù)科學中的計算結(jié)構(gòu)、數(shù)據(jù)挖掘與分析、數(shù)據(jù)可視化導論、現(xiàn)代統(tǒng)計預測與機器學習、數(shù)據(jù)的人文與倫理、社會生活計算、數(shù)據(jù)科學倫理問題等。
(4)領(lǐng)域相關(guān)課程。這是以UC Berkelev 為標志的學校強調(diào)的課程設(shè)置。這部分課程豐富多彩,一般每個領(lǐng)域都會提供幾門低階課程供學生選擇,滿足寬廣度的基本要求,另外還會提供10 門左右的課程供數(shù)據(jù)科學專業(yè)的學生選擇,來滿足某一領(lǐng)域深入學習的要求。這些課程加起來約有上百門,給學生提供了充分的選擇余地。其他學校也有類似的要求。
上述課程設(shè)置并不會要求所有課程都需要學習,學生可以根據(jù)興趣和自身特點在課程群內(nèi)部做出選擇,只要修夠一定的學分即可。在頂級學府中,更強調(diào)數(shù)據(jù)科學與領(lǐng)域知識的結(jié)合,這樣數(shù)據(jù)科學的畢業(yè)生畢業(yè)時就具有了在某一個領(lǐng)域從事數(shù)據(jù)分析工作的能力。
上述高校都強調(diào)數(shù)據(jù)科學專業(yè)畢業(yè)生的知識體系要保持一定的寬廣度和某一特定領(lǐng)域的深度。一般情況下在某一特定學科要選修4 門以上課程。麻省理工學院要深入學習經(jīng)濟類課程,其他兩所院校比較靈活,學生自己選擇一個專業(yè)進行深入學習。通過這種機制,使學生掌握特定領(lǐng)域的知識和數(shù)據(jù)分析技術(shù),能夠增強就業(yè)市場上的競爭力,也能增加以后轉(zhuǎn)移到其他領(lǐng)域的經(jīng)驗。對比我國高校給出的課程設(shè)置[1],可以看出除了經(jīng)濟類選修課程較多,我國各高校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)并沒有給學生提供很多的領(lǐng)域課程進行學習,面向行業(yè)的大數(shù)據(jù)人才培養(yǎng)特色并不突出。
所有學校都要求學生選擇一定的人文類課程,這其中不僅有歷史、文化等,還有一類重要課程是培養(yǎng)學生的交流能力,包括寫作、人際交流、公共演說、跨文化交流、領(lǐng)導力、沖突管理等等。這些課程對于學生走向社會后的成長具有十分重要的作用。國內(nèi)該課程設(shè)置中對學生的交流能力培養(yǎng)不是很充分。
國內(nèi)高校將相關(guān)專業(yè)定位為數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè),在課程設(shè)置中開設(shè)了一些大數(shù)據(jù)平臺相關(guān)的課程,如Hadoop 編程、Hive 編程、大數(shù)據(jù)系統(tǒng)應用實驗等,相當比例課程以大數(shù)據(jù)為名稱來命名。在國外的幾所高校中,很少有以某一平臺或語言名稱命名的課程。課程還是以技術(shù)為統(tǒng)領(lǐng),平臺和語言是技術(shù)實現(xiàn)的依托或案例。上述國外高校純編程語言課程的教學很少,學生需要在課程實踐或?qū)嵙曋芯邆漭^強的自學編程語言的能力和使用大數(shù)據(jù)平臺的能力。
數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)作為一個新興學科在我國得到了長足的發(fā)展,與國外相比,我們在順應社會對數(shù)據(jù)處理和分析人才需求方面的進步非常迅速,具有自己鮮明的辦學特色。我國的數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)學生的培養(yǎng)在與領(lǐng)域和行業(yè)結(jié)合上、在綜合能力的培養(yǎng)上,與國外知名高校相比還存在一定的差距。如何改進課程設(shè)置體系,夯實基礎(chǔ),增加學生的選擇范圍,使學生在掌握數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)所需的計算機科學與數(shù)理統(tǒng)計核心知識的基礎(chǔ)上,在本科階段就完全具備從事某一領(lǐng)域與行業(yè)數(shù)據(jù)相關(guān)的科學研究與工程開發(fā)能力,是我國數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)的重點的努力方向之一。