李佩潔,王 娟
(1.中國人民大學 經濟學院,北京 100872;2.北京大學 數學科學學院,北京 100871)
國家《“十四五”規劃和2035年遠景目標綱要》中提出,要堅持創新驅動發展,強化國家戰略科技力量。這就需要激發人才創新活力,培養造就高水平人才隊伍,包括創新型、應用型、技能型人才。在數字時代,驅動經濟社會發展的核心動力來源于對數據的創新應用,而這離不開能夠發現、開發和實現數據價值的數字人才,即從事數字戰略管理、深度分析、產品研發、先進制造、數字化運營和數字營銷等人群(陳煜波和馬曄風,2018)。[1]2019年4月,人社部等部門向社會發布13個新增職業,其中一半與數字人才緊密相關,包括云計算工程技術人員以及數字化管理師、物聯網安裝調試員等。我們將數字人才定義為能夠促進數據要素資源有效利用并推動其他生產要素優化配置,支撐引領數字經濟創新發展的技術研發與經濟管理人才。
數字人才儲備不足已經成為制約我國乃至全球經濟高質量發展的瓶頸之一。根據麥肯錫預測,2018年美國在具有深入分析能力的人才方面存在14萬-19萬人的缺口,而可以利用大數據分析來做出有效決策的經理和分析師缺口則高達150萬。中國是繼美國之后數字經濟規模最大、發展速度也最快的國家,數據人才的缺口也最大。早在2015年5月,中國信息通信研究院在其研究報告中指出,預計5年內大數據人才缺口將高達130萬。2020年7月,工業和信息化部人才交流中心在報告中指出,按照2020年實現人工智能核心產業規模超過1500億元的目標,預計當前我國人工智能產業內有效人才缺口30萬。由于現有的人才培養體系并未調整,人才供需結構矛盾依然突出,尤其是高端人才極度緊缺。例如高校和科研機構中的人工智能人才,按高H因子衡量,我國杰出人才只有不到一千人,不及美國的五分之一。盡管薪資遠高于市場均值,但是數字人才的國內市場需求遠得不到滿足,一部分海外歸國的數字人才相對日益井噴的人才需求缺口而言是杯水車薪。依靠本土高校培養出大規模、高質量的數字人才是有效支撐國家數字經濟發展戰略的必由之路。
與歐美頂尖大學相比,國內大學在學科建設方面存在片面強調單一學科發展的問題。隨著經濟社會的進一步發展,新的學術問題不斷涌現,新的方法論和研究手段也越來越多,原有過于細化的學科劃分掣肘了符合新時代要求的人才培養(張平文,2020)。培養數字人才的關鍵在于高校不斷完善數據科學教育體系。本文重點對歐美國家和我國的頂尖大學數據科學教育體系建設歷程進行梳理與總結。
數據科學本科專業推廣之前,許多美國大學就根據市場需求以及學院優勢開發數據科學類碩士項目,并聯合不同學院成立大數據科學研究所,共同開展數據科學教學和研究工作。2016年12月份,來自美國25個本科院系的專家學者團體在2016屆本科學科建設大會上提出一整套數據科學學科的建設方案,并列出數學、計算機科學和統計學三個學科領域的重點課程(Veaux等,2016),[2]其中數學課程開設微積分、線性代數、概率論、離散數學等;計算機科學課程開設計算機科學導論和數據算法、計算機系統與架構、數據庫、軟件工程等;統計學課程開設統計學導論、統計建模與回歸、機器學習、數據挖掘、統計理論等;其他還建議配套教學科技論文寫作、演講學以及倫理學等課程。
作為全球科研中心和大數據的發源地,美國高校數據科學建設相對比較成熟。一方面充分利用校內資源優勢來開展教學,將原有特色專業與數據科學交叉結合,在學科創新過程中產生新方向、新思路、新人才(朝樂門等,2018);[3]另一方面重視校企合作,提升學生的實際應用能力。從培養目標來看,大部分美國高校旨在培養數據科學領域的領導者,注重培養數據分析師和應用型數據科學家,具體而言側重培養學生運用數字化的新工具和新方法,從現實數據中獲得洞見后能有效闡釋研究發現,以培養改變他人行動和思想的能力,這類代表高校有加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學等。另有高校側重于培養統計學家,特點是將數據科學作為統計學的一個分支,強調數據科學與統計學的深度融合,代表高校有斯坦福大學等。還有高校側重于培養數據科學家,強調跨學科方法,重視統計學、計算機科學和具體應用領域知識的深入融合,因此數據科學專業分散在多個學位項目中,如公共政策、信息系統管理、工商管理、計算數據科學、智能信息系統、統計實踐等,代表高校為卡內基梅隆大學。
歐洲是高校的發源地,在學科建設上一直走在世界前列。隨著數字時代的到來,歐洲高校同樣在數據科學教育體系的各個方向都進行了有益探索,歐洲數據科學體系建設主要表現為以下四類模式。
第一類是統計學主導模式。歐洲很多高校設計了偏向統計學方向的數據科學教育體系,如英國倫敦政治經濟學院和倫敦大學學院,強調學生能夠應用數據科學和統計方法來解決真實世界的問題,運用嚴謹的統計思想并使用現代計算方法來解決復雜的技術問題。以倫敦政治經濟學院為例,數據科學專業的學生將獲得全面的理論基礎,必修課程包括數據管理與可視化、數學分析和統計方法、機器學習與數據挖掘,選修課程包括大數據和統計的分布式計算、金融統計、風險管理和保險的概率方法等。
第二類是數學主導模式。偏向數學方向的數據科學教育體系建設,強調數據編輯和數據分析技巧,如將抽象復雜模型進行組合和重新開發以推導預測和分類模型的能力。例如,慕尼黑工業大學數據工程與分析碩士學位著重培養處理和分析大量數據的新穎方法和技術,具體包括數據工程、數據工程與分析、數據分析三個研究方向。
第三類是計算機主導模式。偏向計算機學科方向的數據科學教育體系建設,強調運用機器學習、圖像分析、數據安全和網絡安全等方法培養大數據處理和分析應用能力。這類學校的優勢學科是計算機科學,側重學生信息技術專業技能的培養與訓練。以雷丁大學為例,數據科學專業的高級計算機碩士項目主要面向計算機科學相關專業的畢業生、IT專業人員和數據分析師,著重培養大數據分析及其在各個領域的應用能力,包括天氣預測、通信數據流分析、計算機視覺應用以及網絡安全等方面。
第四類是綜合學科模式。偏向綜合學科式的數據科學教育體系建設的高校,如英國帝國理工學院、倫敦城市大學和法國綜合理工大學,強調數學、統計學和計算機學科以及商業學科的緊密結合。這些學校會提供學生到大型科技公司的實習機會,培養學生全面的數據思維、數據技術和大數據研究方法,讓學生獲得數據技術、科研、戰略、商業等方面技能。以帝國理工學院為例,數據科學專業培養統計學、計算機學、商業分析、生物醫學等四種理學碩士,其中統計學理學碩士又分為統計學、應用統計學、生物統計學、統計金融學、理論與方法等多個方向。最能體現綜合特色的是商業分析理學碩士課程體系,必修課包括會計、財務、商業分析數學,選修課包括商業分析、數據結構和算法、數據庫技術、數學和統計基礎、網絡分析、優化和決策模型、統計和計量經濟學等。
面對快速發展的數字經濟,以及對數據人才的強勁需求,我國亟待建立和完善數據科學教育體系,為實現“數字中國”戰略提供人才資源支撐。在國內,數據科學專業建設在近幾年受到了政府、高校和產業界各方的高度重視,處于快速發展過程中。本文將對國內率先探索建立數據科學專業的高校進行簡要介紹。
北京大學是國內數據科學建設最早的一批高校。2016年,北京大學成為教育部批準開設大數據專業的三所高校之一,建立和完善了數據科學專業課程體系,研發了教學實訓平臺,開創了國內數據科學教學模式。北京大學數據科學與大數據技術專業培養方案主要設置統計學習、應用與計算數學、信息科學和領域專題研討這四個模塊課程:統計學習模塊包括數據科學導引、高等統計學與概率論、因果推斷等課程;應用與計算機數學模塊包括凸優化、數值代數、并行計算、偏微分方程數值解等課程;信息科學模塊包括自然語言處理導論、數據庫原理與技術、數據可視化、數字視頻分析與理解、應用密碼學等課程;領域專題研討模塊包括醫學科研數據挖掘、藥學信息學、保險大數據、時空大數據等課程。為了服務國家戰略需求,解決最緊急、最核心、最緊迫的實際問題,北京大學圍繞大數據分析與應用技術國家工程實驗室這一樞紐中心積極打造大數據學術創新鏈,探索滿足數字政府建設、數字經濟發展、數字社會完善和數字生態繁榮等現實需求的綜合人才培養模式。
中國人民大學依托統計學院、信息學院共同建設了數據科學與大數據專業,并聯合北京大學、中國科學院大學、中央財經大學、首都經貿大學于2014年在全國首創了五校聯合的大數據分析碩士培養協同創新平臺。數據科學與大數據技術專業本科生培養方案關注學生在數學、計算機、統計學等基礎知識方面的教育,相關課程偏重產業實踐,基礎課程內容沿著數據處理的全部過程展開,包括數據抽樣、數據預處理、數據探索性分析、數據可視化展示等基礎知識,也包括大數據挖掘與機器學習、大數據統計建模、非結構化大數據分析等基本技能。另外依托于商科和經濟學的傳統優勢,通過創建數字治理及數字經濟研究中心、舉辦數字經濟理論與實踐論壇等方式,探索數字經濟專業方向的人才培養模式。
中南大學是首批開設數據科學與大數據技術專業的高校之一,教學側重于計算機科學方向。該專業于2016年開始統一招生,培養方案中將數據科學的培養分為基本理論及數據架構、數據分析、數據應用三個層面。由于中南大學信息安全與大數據研究院的前身等歷史原因,具體課程包括計算機科學與技術、軟件工程、信息與通信工程、網絡空間安全、數學等基礎學科,領域知識多與信息安全和醫療大數據有關。
上海財經大學數據科學與大數據技術專業教學側重于商科方向。該專業碩士項目于2017年開始招生,以培養高水平、復合型的財經大數據人才作為支持財經行業數字化轉型升級的重要抓手。在人才培養方面強調實踐性教學環節與專業實驗相互結合,與中國電信、IBM、國金證券等企業合作建立實習基地,通過對真實數據資源的分析建立“干中學”培養方案。
以上高校分別代表國內高校數據科學體系的基本類型,總結來看具有兩大特征。一是充分體現交叉學科特征,課程設置基本涵蓋了數學、統計學、計算機學科和大數據實踐這四類領域的所有基本知識。二是側重大數據領域應用人才的培養。學生不僅要掌握基本的數據科學基本原理與方法,還要精通大數據在某一領域的應用知識,以成為具有專業特色的數字人才。
高校和科研院所是為新興產業發展提供智力支持的教育基地,對培養適合當今社會實際需求的數字人才責無旁貸。我國政府高度重視數據科學教育。2015年8月31日,國務院印發《促進大數據發展行動綱要》,其中指出要加強大數據相關專業人才培養,鼓勵高校設立數據科學和數據工程相關專業,重點培養專業化數據工程師等大數據專業人才,鼓勵采取跨校聯合培養等方式開展跨學科大數據綜合型人才培養,大力培養具有統計分析、計算機技術、經濟管理等多學科知識的跨界復合型人才。
數據科學是一個典型的交叉學科。2010年DrewConway提出了第一張揭示數據科學地位的維恩圖,認為數據科學是一門以統計學、機器學習和領域知識為理論基礎的新興學科,并且數據科學家需要具備數學與統計學知識、領域實踐和黑客精神。朝樂門,邢春曉和張勇(2018)提出,數據科學的三個基本要素是理論(數學與統計學)、實踐(領域實務)和精神(黑客精神)。因此,數字人才需要具備三方面素質:一是理解和運用算法和模型的理論性能力;二是處理實際數據的實踐性能力;三是利用大數據方法解決具體行業實際問題的應用性能力(歐高炎等,2017)。[4]根據國內外高校在數據科學教育體系建設方面的經驗,我們認為數字人才需要在數據科學的專業體系中進行培養,在課程設置上需要強調基于數學、統計學和計算機等學科的交叉特征,同時注重針對某個行業的大數據應用和實踐能力培養。因此,數據科學教育體系需要從四個方面進行構建,如圖1所示。

圖1 數據科學教育體系框架圖
一是培養數據邏輯的支撐學科,包括數學、統計學和計算機學科等基礎學科的基礎課程,主要介紹有關數據的計算和分析方法。數學中與大數據技術有密切關系的基礎內容主要是概率論與數理統計、線性代數、最優化方法、離散數學等(曾劍平,2017),[5]是數據分析和數據建模的理論基礎。數據科學與統計學的關系主要體現為推斷統計學,因為預測是大數據的核心價值體現,而統計學主要通過利用概率論建立數學模型,并通過抽樣的方法進行數據分析,以因果假設檢驗為基本方法。數據科學與計算機學科的關系最為密切,數據庫知識和技術、分布式系統、計算機語言等都是大數據的基礎知識,例如分布式系統的開發與運營使得基于海量數據的存儲與計算變得可行,計算機語言使得基于數學和統計學的計算方法可以通過計算機來實現。
二是有關數據知識的核心內容,是對數據從產生到應用的整個生命周期過程中的知識進行學習,包括數據采集與治理、數據存儲與管理、數據分析、數據可視化、數據安全與應用、數字經濟與制度等。數據采集與治理指的是要能夠對來自傳感器和互聯網等大數據資源進行感知與獲取,如網絡爬蟲等技術;數據存儲與管理方面要了解大數據架構的數據庫知識,如Hadoop、Storm和Spark等;數據分析指的是要從大量的結構化、半結構化、非結構化數據中分析出人可以理解的有價值信息,包含機器學習、深度學習、自然語言處理、知識圖譜等方法;數據可視化是對數據分析結果的可視化展示與解釋,如通過圖形、圖像處理,計算機視覺以及用戶界面來表達;數據安全與應用方面要了解網絡安全技術以及密碼學知識;最后數字經濟與制度是從宏觀角度了解數據作為新的生產要素對經濟模式的影響和社會制度的改造等知識,如數據產權、數據權利、數據主體等。
三是有關前沿信息技術的關聯學科,包括物聯網、云計算、人工智能、區塊鏈等前沿熱點技術課程。物聯網是重要的數據來源,能夠推動大數據處理技術在很多應用領域的落地實踐。云計算是大數據處理的基礎,分布式存儲和計算架構為大數據的快速處理和智能分析提供了一種合適的解決方案。人工智能是大數據技術在具體場景中的應用,促進了以感知為中心的人工智能范式的發展,例如無人駕駛和智能機器人正在成為研發熱點等。區塊鏈將為數據的可信確權與交換交易提供技術保障。
四是有關數據實踐知識的應用學科,包括時空大數據、交通大數據、健康醫療大數據等課程。大數據技術如今以超出預期的速度逐步深入到各個行業和國民生活中,在互聯網、金融、商業、電信、醫療健康等行業掀起了一場數據革命,改變著這些行業的運營方式和盈利模式,使民眾體會到智能交通、智能醫療、智慧城市等以大數據技術為核心的城市智能化便利。數據科學一定要與各相關領域知識相結合,設置應用類學科,培養滿足不同行業對大數據技術應用需求的人才。
數字人才是長期投入和持續培養的綜合結果,需要全國高校進行長期系統的專業體系建設,更需要強大的師資力量和完善的學科體系來做支撐。未來需要繼續完善核心數字人才培養體系,在加強數據科學教育體系建設的基礎上,進一步促進學界與業界的人才流通,夯實數字人才滿足市場需求的實踐基礎。
提高數字人才的實踐性與應用性。數據科學教育體系的發展是由實際問題驅動的,關鍵突破點都是來自解決實際問題的需求,比如深度學習就是在解決計算機視覺的實際問題過程中發展起來的。與此同時,很多大數據計算和分析技術的突破也會很快促進產業發展,如深度學習的科研成果往往很快就被谷歌、百度等企業運用到圖像、語音、文本分析等許多領域。因此有必要將數據科學教育與行業應用實踐緊密結合起來。為了將行業實踐中真實產生的大數據直接使用到數據科研和教學過程中,有必要依托數據資源豐富的政府單位或企業組織搭建一個大數據實驗平臺或實訓基地,提高教學內容的實用性和實踐模擬情境的實操性。只有立足實際問題需要,將教學內容與社會需求對接,學習的知識技能與行業應用接軌,高校才能為社會培養出解決實際問題的數字人才。
施行按需施教的培養策略。從人才類型上來看,數據科學教育體系建設的目標是培養四類數字人才,即前沿問題研究的數據科學家、職場中的數據分析師、商業創新中的數據工程師以及面向高校的數據教育家。按照社會對這四類數字人才的需求,可以安排不同的課程體系和培養方案。例如,可以構建“1+X”的數字人才培養模式,其中1代表基礎理論和科研方法,X代表按照特定數字人才培養目標,或者面向不同應用領域的人才需要,而構建成基礎知識統一且實際功能多樣的課程體系與培養方案。這些方案要尋求多學科協作和信息資源共享,還要針對數據的收集與爬取、清洗與降維、分析與挖掘、結果與展示等實踐知識進行教育體系的突破性改革。
引導數據科學的有序發展。面對目前數字人才培養結構與市場需求崗位結構的不匹配問題,政府和教育管理部門應給予相關政策支持,鼓勵和促進高校在產學研合作中發揮引領作用,加強基礎研究型人才的培養。同時政府還應加強宏觀調控力度,引導高校學科專業建設因地制宜發展,不斷探索和完善“高職-本科-碩士-博士”不同層次的數據科學課程開設和培養模式,并隨當前和當地數字經濟核心產業發展及時調整、優化人才培養結構。