迪莉婭



[摘 ? ?要] ? ?隨著大數據的興起,數據科學家的短缺受到普遍的關注。高校承擔著培養數據科學人才的使命。探討了數據科學家的含義和所具備的素質,分析了國內外高校數據科學專業碩士課程設置的內容和特點,提出了完善我國高校數據科學專業碩士課程建設的策略。
[關鍵詞] ? ?高校;數據科學;碩士;課程
[中圖分類號] ? ?G642.0 ? ? ? ?[文獻標志碼] ? ?A ? ? ? ?[文章編號] ? ?1005-4634(2014)06-0039-05
數據科學這個詞早在20世紀60年代就已經出現,但直到今天,數據科學才開始在統計學和數據挖掘社區的應用中實現。數據科學是通過數據推理和探索發現深層次知識的科學。這一學科通過使用數學和算法技術來解決一些最復雜的商業分析問題,利用原始信息數據找出隱藏在表面之下的洞見。它嚴格地以基于證據的分析和建立強大的決策能力為中心[1]。在數據科學出現之前,高校設置的商業智能課程受到普遍歡迎。雖然數據科學是商業智能的進一步發展,但二者在內容、工具、應用的方法上有很大差異,對企業的運營模式產生了重要的影響(見表1[2])。
因為數據科學的興起,數據科學家也同樣成為炙手可熱的詞匯。2009年,數據科學家這個詞由 DJ Patil 和 Jeff Hammerbacker第一次使用并引起熱議。引起熱議的原因之一是其稀缺性。從全球范圍來看,數據科學家的短缺成為普遍現象。根據麥肯錫預計,到2018年,僅在美國市場,數據科學家人才短缺將達到14萬至19萬,而相關方面的管理人才短缺將達到150萬[3]。同樣,著名的咨詢公司埃森哲在《數據分析在行動:通向高投資回報率之路的突破與壁壘》報告中也預計,到2018年,僅美國和英國,需要具備高深科學、技術、工程和數學知識的職位,其增長速度將是其他職業的五倍,是金融服務等信息密集型行業職位的四倍[4]。
1 ? ?何為數據科學家
雖然學術界和實踐領域對于何為數據科學家尚無定論。但從對數據科學家的描述和具備的素養方面能夠更好地認識數據科學家的內涵。
1.1 ? ?數據科學家是什么
《哈佛商業評論》認為數據科學家是集“數據黑客、分析師、溝通大師和受信任的顧問”于一身的職業[5]。IBM大數據產品副總裁Anjul Bhambhri認為,數據科學家是“半個分析家,半個藝術家”。因為數據科學家具有好奇心,他們審視著數據和尋找事物發展的趨勢,就像文藝復興時期的人們想真正地學習和帶來組織機構的變化[6]。LinkedIn首席科學家DJ Patil認為最好的數據科學家往往是“硬的科學家”,更像是物理學家,而不是計算機科學專業的學生。因為物理學家有很強的數學背景,計算機技能,并且這個學科發展主要來自于數據[7]。
1.2 ? ?數據科學家應具有的素養
目前,數據科學家應具備的條件和背景也眾說不一。Kaggle總裁兼首席科學家Jeremy Howard認為,一個偉大的數據科學家應具備創新、堅韌、好奇、技術功底深厚這四項素質。一方面數據科學家要具有科學家的基本素質,比如客觀、誠實、嚴謹;另一方面,數據科學家主要是用數據說話,應具備數據收集、數據改寫、可視化、機器學習、計算機編程等能力,能使數據驅動決策并主導產品的開發[8]。
學者Chris Wiggins認為數據科學家應該具備三大能力:分析能力、技術能力、溝通合作能力。分析能力主要指能夠靈活應用統計工具和數學工具進行數據分析和可視化的能力;技術能力又包括五種能力,具體表現為:(1)處理分布式文件系統工具的能力,如Hadoop、MapReduce等;(2)掌握Python、Java、 Pig與Hive等編程語言的能力;(3)機器學習能力;(4)掌握非傳統型數據庫工具的能力,如Vertica及MongoDB等;(5)掌握自然語言處理的能力;數據科學家還應該具備良好的與同事、客戶溝通的技巧和合作的精神和能力[9]。
人人游戲高級數據科學家陳弢認為數據科學家除了具備科學家的基本素養和技術能力之外,在理念上的突破顯得更為重要。因為很多數據科學家都具有深厚的統計學背景,而統計學的目標是從各種類型的數據中提取有價值的信息,但不強調對事物的洞察力和深度的知識。所以,如何實現從固有的統計思維到數據思維的突破是一大挑戰[8]。
綜上所述,數據科學家是高端復合型的人才,融數據分析家、科學家、物理學家、藝術家的基本素質于一身。其具備的能力主要體現在以下幾個方面:(1)科學家的基本素質:好奇、創新性、客觀、誠實、嚴謹;(2)掌握數據科學領域的各種技術能力;(3)一定的溝通、合作和管理能力。具體見表2[2]。
2 ? ?國外高校數據科學碩士課程設置情況分析
隨著大數據的應用和研究的興起,為更好地滿足社會需求,2009年后,世界許多著名大學都設置了數據科學專業碩士學位課程,其目標是培養具備像數據科學家一樣的基本素質和能力的復合型人才。根據EMC的調查顯示,目前數據科學比商業智能在學位教育中尤其在研究生和博士學位教育中所含的比例越來越高。由此可見,數據科學家的培養在高等教育中的地位越來越高(見圖1[10])。
目前,世界各國名校的數據科學研究生課程設置具有以下特點:(1)數據科學專業碩士的培養機構主要由高校計算機科學學院或信息科學的學院承擔;(2)授課方式分為網絡授課和在校授課兩種方式;(3)授課內容除了增加大數據、云計算等方面的內容,有的學校增加了管理學方面的課程,如企業管理、金融管理等,但核心課程主要圍繞數據技術方面展開。同時,還有些高校,如鄧迪大學、圣徒彼得大學還開設了學生實踐課,讓學生參與大數據領域的項目,培養學生的實踐能力(見表3)。
除了采用實地授課的方式外,在美國的紐約市立大學專業進修學院、艾姆赫斯特學院、美國西北大學等高校為數據科學專業碩士的培養還開設了網絡課程(見表4)。
另外,還有一些大學,例如美國的約翰霍普金斯大學、斯坦福大學開設了數據科學的網上免費課程,采用視頻和網絡交流的方式學習,學生通過考核可以獲得約翰霍普金斯大學、斯坦福大學頒發的所學數據科學相關課程的證書(見圖2[11])。
3 ? ? 我國高校數據科學碩士課程設置情況分析
隨著大數據理念和技術的深入發展,為滿足數據科學家人才的需求,我國一些高校以所在的信息學院、計算機學院和研究生院為主,采用大學+政府+企業聯合培養的模式,開設了與數據科學相關的專業碩士課程。
最早開始我國數據科學碩士培養的高校是北京航空航天大學,于2013年設立了數據科學專業碩士課程。2014年,清華大學宣布成立數據科學研究院,并推出多學科交叉培養的大數據碩士項目。同年,中國科學院大學研究生院與中國科技服務企業文思海輝和IBM三方聯合開設大數據研究生班(見表5)。
從課程設置來說,我國的數據科學專業碩士的培養重點也放在技術能力的培養上,例如,北京航空航天大學數據科學專業碩士課程分為專業核心課程、專業基礎課程和學位基礎課程,課程上除開設大數據技術方面的內容外,還融入了數學、統計方面的教學內容,但對管理學方面的內容卻甚少涉及(見圖3[13])。
總體來講,我國高校非常重視數據科學人才復合型特點的培養,在課程教學方面,將理論和實踐緊密結合,加強與企業的緊密合作,有些采取聯合辦學的方式,這為數據科學人才的培養提供了重要的實踐場所,但還需要進一步增強管理和專業方面的課程內容。
4 ? ?完善我國高校數據科學碩士課程設置的 ? ? ? 策略
1)加強高校+政府+企業數據科學人才的培養模式。政府、大學、企業合作,是培養大數據人才的重要途徑。因為在大數據理論和技術研究領域,大學具有一定的優勢,但是大學不生產大數據,政府和企業的大數據為人才培養提供了重要的實踐場所。比較而言,雖然我國高校數據科學碩士培養建立較晚,但是在數據人才的培養上,依托所在高校的綜合力量聯合辦學,加強與企業與政府的合作成為我國數據科學人才培養的重要特點。但目前我國只有為數不多的學校開設數據科學相關的學位課程,很難滿足當前數據人才的需求,這就需要更多的高校加強數據科學專業方面的學科建設,與企業、政府緊密合作,不斷提升我國數據科學人才在理論和實踐方面的培養水平。
2)建立專業+大數據人才的培養方向。目前我國數據科學課程設置多注重大數據技術應用課程,融入專業內容較少。數據科學家不僅需要懂技術,還需要懂專業和管理。因此,未來高校能否具備培養專業大數據人才的條件和能力將更具挑戰。
2014年,美國政府就如何充分利用生物醫學大數據而啟動Big Data to Knowledge計劃,這是繼2012年美國國家大數據計劃實施后新一輪面向生物大數據的基礎研究計劃[13]。為此,美國設立專門的生物大數據人才培養計劃和專業。我國的生物大數據技術發展和應用還處于起步階段,人才缺乏是重要的制約因素。生物大數據人才需要既懂生物專業又要懂大數據技術方面的人才,目前我國大數據人才培養的專業設置狀況很難滿足這方面的需求。因此,高校需要承擔起這方面的使命,專業+大數據人才的培養才能更好地應對我國眾多專業領域數據的利用和挖掘方面的需求。
3)建立線下+線上+免費的多樣化授課方式。目前我國高校數據科學專業碩士的培養主要以線下課堂教學為主,形式比較單一。在大數據時代,充分利用現代信息技術,豐富授課的方式和內容是未來教學的趨勢,當下興起的慕課通過平臺發布和分享全球各大高校課程的教學內容就是很好的說明。例如在Coursera慕課平臺可以搜索到大量的數據科學課程資源,學生可以在不同的大學享受全球最優秀的課程資源,并通過學習和相應的考核獲得課程的學習證書(見表6[14])。
在數據科學領域,慕課平臺上英文的課程資源比較豐富,中文的課程比較缺乏。這就需要我國高校通過網絡技術不斷加強和豐富數據科學線上和網絡課程內容,增加授課方式和內容的靈活度,更好地普及大數據的知識,提高學生數據利用方面的素養。
參考文獻
[1]Frank L.What is Data Science?What is analytics? What is a data scientist?[EB/OL].(2014-07-25)[2014-09-23].https://datajobs.com/what-is-data-science.
[2]Damian R M.What Is Data Science Anyway? [EB/OL].(2014-07-26)[2014-9-23].http://www.linkedin.com/today/post/article/20140416153636-24302729-what-is-data-science-anyway.
[3]James M,Michael C,Brad B.Big Data:the Next Frontier for Innovation,Competition and Productivity[R].Mckinsey Global Institute,2011:1-156.
[4]保羅索爾曼.數據科學家炙手可熱[N/OL].(2013-04-02)[2014-09-23].http://www.ftchinese.com/story/001049735.
[5]哈佛商業評論.數據科學家,21 世紀最性感的職業[J].21 世紀商業評論,2012,(10):2.
[6]IBM.what is a data scientist[EB/OL].[2014-09-23].http://www-01.ibm.com/software/data/infosphere/data-scientist/.
[7]Mike L.what is data science? [EB/OL].(2010-06-02][2014-09-23].http://radar.oreilly.com/2010/06/what-is-data-science.html.
[8]賽迪網.揭密數據科學家[EB/OL].(2013-10-21)[2014-09-23]. http://tech.cnr.cn/techgd/201310/t20131021_513890666.shtml.
[9]Chris W.The Data Science Revolution[EB/OL].[2014-09-23].http://www.mathaware.org/mam/2012/pdfs/DataScienceRevolution.pdf.
[10]EMC2.Career of the Future: Data Scientist Study Results Infographic[EB/OL].[2014-09-23].http://www.emc.com/microsites/bigdata/infographic.htm.
[11]Paul M.The Johns Hopkins Data Science Specialization[EB/OL].[2014-09-23]. http://jhudatascience.org/.
[12]2013年北航大數據碩士高端班9月招生簡章[EB/OL].[2014-09-23].http://bigdata.beihangsoft.cn/news.asp?id=77.
[13]李勤.生物大數據“行路難”[N/OL].(2014-08-12)[2014-09-23].http://www.cas.cn/xw/cmsm/201408/t20140812_4183586.shtml.
[14]Coursera慕課網站[EB/OL].[2014-09-23].https://www.coursera.org/#courses?search=data science.