許嘉 呂品
【摘 要】在大數據時代,各行各業對數據科學人才的需求量大幅增長,而我國尚未建立起成熟有效的數據科學人才培養體系。本文從領域知識、基礎理論、計算機工具和社會實踐等四個方面對如何培養數據科學人才進行了探討,以期為我國高校制定數據科學人才培養方案提供參考。
【關鍵詞】數據科學人才 領域知識 基礎理論 計算機工具 社會實踐
一、引言
隨著大數據時代的到來,無處不在的“數據”引發了人們空前的關注,各行各業對數據科學人才的需求量都呈現出大幅增長的趨勢。然而,當前不論是國內還是國外,數據科學人才的數量與實際需求相比都存在很大的缺口。培養大量合格的數據科學人才成為一項急迫的任務。本文根據數據科學人才應當具有的知識結構,從領域知識、基礎理論、計算機工具和社會實踐四個方面對如何培養數據科學人才進行探討,為國內高校建立數據科學人才培養機制提供參考。
二、領域知識
數據科學人才的職責是解決特定領域的問題。因此,數據科學人才必須具備一定的業務領域知識,包括行業信息和業務信息。一方面,這是正確開展數據分析工作的前提和保障;另一方面,積累足夠的領域知識有助于評價和區分有價值的數據分析結果。
三、基礎理論
數據科學人才因為是與數據打交道,所以需要具有扎實的數學理論基礎。高等數學、線性代數、概率論、離散數學等課程都是需要學習的理論基礎課。除此之外,統計學、數據挖掘等方面的基礎理論對于建立數據科學人才的知識體系非常必要,應當重點加強。
統計學是應用數學的分支,包括描述統計和推斷統計。描述統計主要研究如何收集、處理和描述數據,推斷統計則是研究如何利用樣本數據來推斷總體特征。統計學是數據分析的靈魂,可以實現對數據的量化分析、總結、推斷和預測,為相關領域問題的決策提供依據和參考。
數據挖掘是數據科學的必備理論工具。數據科學把原始數據看作是形成知識的源泉,作為交叉學科的數據挖掘正是綜合運用數學、數據庫、人工智能、機器學習、可視化和并行計算等方面的知識從數據海洋中提煉出有價值的信息,為領域決策提供重要支持。
四、計算機工具
在這個數據爆炸的時代,僅依靠人力處理快速增長的數據并不現實,人們必須借助計算機來進行處理大量的數據。因此,數據科學人才需要熟練掌握相應的計算機工具。
數據科學人才需要掌握的計算機工具之一就是用于存儲數據的數據庫管理系統,包括傳統的關系數據庫和新興的NoSQL數據庫。對于結構化數據,使用關系數據庫和結構化查詢語言(SQL)對其進行存儲和查詢的技術已非常成熟。隨著數據多樣性的程度越來越高,半結構化或非結構化數據(如文檔、圖像、音頻、視頻數據)所占的比重越來越大。這類數據更適合使用非關系的NoSQL數據庫進行存儲與查詢。目前常用的NoSQL數據庫有MongoDB、HBase等。
除了數據庫,用于數據處理的編程框架和編程語言也是數據科學人才需要掌握的。當前廣受關注的開源數據處理編程框架包括Hadoop、Spark、Storm等。Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,其核心是分布式文件系統HDFS和MapReduce編程模型,能夠充分利用集群的計算能力和存儲能力來處理大規模數據。Spark與Hadoop的工作原理類似,但由于Spark是把中間計算結果保存在內存中而非分布式文件系統中,因此比Hadoop具有更快的運算速度。Storm是一個分布式的實時計算系統,主要針對流式數據進行處理,適用于對實時性要求較高的系統。上述三個編程框架都主要使用Java作為編程語言。此外,Scala、Python、R等也都是在數據處理中常用的編程語言。
為了將數據分析結果用最易于理解的方式呈現出來,數據可視化工具必不可少。常用的數據可視化工具包括Excel、R和Google Chart API等。另外還有不少值得關注的國產數據可視化工具,例如大數據魔鏡。
五、社會實踐
數據通常是來源于人們的生產生活,研究數據科學的目的也是為了更好地服務于人們的生產生活。因此,培養數據科學人才必須注重理論聯系實際,通過社會實踐來提高數據科學人才分析和解決實際問題的能力。
社會實踐一方面是要讓學生接觸產業界,了解不同行業的背景和需求,特別是要利用在實際生產生活中產生的大數據進行學習,這樣能夠更好地理解理論知識。除了在不同的行業進行實習,參加各類大數據競賽也是一個接觸產業界的很好的方式。現在不少政府部門、學術組織、企業、高校都通過組織大數據競賽的方式促進人才培養,推動產業發展。影響力比較大的競賽包括中國計算機學會主辦的中國大數據技術創新大賽、全國青年大數據創新大賽,阿里巴巴集團舉辦的天池大數據競賽,百度和西安交通大學舉辦的大數據競賽等等。通過實習或競賽,學生能夠在實踐中鍛煉能力,從而能夠更快地成長為合格的數據科學人才。
社會實踐的另一方面是培養學生的溝通與表達能力。因為數據科學是為各行各業服務的,所以數據科學人才需要同非數據科學專業的人士交流,了解其需求,并向其解釋數據分析的結果。這就需要數據科學人才在掌握專業能力之外,同時需要具備良好的交流能力。因此,人際交往能力是數據科學人才培養的重要方面。
六、總結
數據科學是一門綜合性的學科,培養數據科學人才也是一項系統工程。只有從領域知識、基礎理論、計算機工具和社會實踐這幾個方面統籌規劃,制定合理的培養方案,才能培養出既有理論水平又有實踐經驗的數據科學人才,這樣的人才將更受社會歡迎。
【參考文獻】
[1]許嘉,呂品.哈佛大學數據科學課程教學初探[J].教育界,2015(15).
[2]Rachel Schutt, Cathy O'Neil. Doing Data Science[M].O'Reilly,2013.
[3]楊旭,湯海京,丁剛毅.數據科學導論[M].北京:北京理工大學出版社,2014.