姚力 朱龍飛 崔晨
摘 要: 隨著信息技術(shù)與人類生產(chǎn)生活的交匯融合,數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)給科學(xué)研究帶來了巨大變化,數(shù)據(jù)驅(qū)動的研究范式在各學(xué)科領(lǐng)域興起,數(shù)據(jù)科學(xué)人才培養(yǎng)成了應(yīng)對大數(shù)據(jù)時代所面臨挑戰(zhàn)的關(guān)鍵。文章從數(shù)據(jù)科學(xué)人才培育的機(jī)遇與現(xiàn)狀出發(fā),調(diào)研了國內(nèi)外高校在數(shù)據(jù)科學(xué)專業(yè)建設(shè)方面的案例。在此基礎(chǔ)上,探索并提出數(shù)據(jù)科學(xué)教育體系中可采用的具體策略和方法,為高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的發(fā)展提供了思路。
關(guān)鍵詞: 大數(shù)據(jù); 數(shù)據(jù)科學(xué); 人才培養(yǎng); 專業(yè)建設(shè)
中圖分類號:TP309 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2018)11-87-04
Abstract: The convergence of information technology and human life has led to the rapid growth of data, which becomes the basic strategic resource of the country. Big data brings great changes to scientific research, and data driven research paradigms are rising in various disciplines. Data science education is the key to success in coping with the challenges in the era of big data. This paper reviews the opportunity and current situation in data science education, and investigates on the cases of data science specialty construction in colleges and universities. Specific strategies and methods that can be used in the data science education system are proposed, which provides a way for the development of data science and big data specialties in universities.
Key words: big data; data science; talent cultivation; specialty construction
0 引言
數(shù)據(jù)科學(xué)在20世紀(jì)60年代被提出,在當(dāng)時并未獲得學(xué)術(shù)界的注意和認(rèn)可。1974年,計算機(jī)科學(xué)家、圖靈獎獲得者Peter Naur在其著作《計算機(jī)方法的簡明調(diào)研》的前言中首次明確提出了數(shù)據(jù)科學(xué)(Data Science)的概念,“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué),一旦數(shù)據(jù)與其代表事物的關(guān)系被建立起來,將為其他領(lǐng)域與科學(xué)提供借鑒”。2001年美國統(tǒng)計學(xué)教授William Cleveland發(fā)表了《數(shù)據(jù)科學(xué):拓展統(tǒng)計學(xué)的技術(shù)領(lǐng)域的行動計劃》,首次將數(shù)據(jù)科學(xué)作為一個單獨學(xué)科,并把數(shù)據(jù)科學(xué)定義為統(tǒng)計學(xué)領(lǐng)域擴(kuò)展到以數(shù)據(jù)作為現(xiàn)金計算對象相結(jié)合的部分,奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)[1]。數(shù)據(jù)科學(xué)作為一門較為新興的學(xué)科,所關(guān)注的正是在大數(shù)據(jù)時代的背景下,如何應(yīng)用和數(shù)據(jù)相關(guān)的技術(shù)和理論來服務(wù)社會。
在數(shù)據(jù)科學(xué)課程理論的研究中,經(jīng)常會提及數(shù)據(jù)、信息和知識這三個概念。一個稱為“知識金字塔”(圖1)的模型被廣泛用于表示三者之間的關(guān)系。如今,由于大量的數(shù)據(jù)正在以前所未有的速度產(chǎn)生,而這些數(shù)據(jù)沒有被有效地處理轉(zhuǎn)化成信息,從而延誤了知識的提取和產(chǎn)生。從原始數(shù)據(jù)中提取價值需要一種明確的系統(tǒng)和方法,數(shù)據(jù)科學(xué)代表了解決大數(shù)據(jù)挑戰(zhàn)所必需的一門學(xué)科。教育應(yīng)發(fā)揮其作用,培養(yǎng)具備適應(yīng)數(shù)據(jù)科學(xué)領(lǐng)域知識,能批判性地思考并正確利用相應(yīng)技術(shù)來解決大數(shù)據(jù)問題的人才[2]。
1 大數(shù)據(jù)、數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家的概念
1.1 大數(shù)據(jù)
大數(shù)據(jù)描述了我們正面臨的數(shù)據(jù)挑戰(zhàn)。一家產(chǎn)業(yè)咨詢服務(wù)機(jī)構(gòu)的研究報告稱,2016年,全球大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模為1403億美元,預(yù)計到2020年將達(dá)到10270億美元。促成大數(shù)據(jù)時代出現(xiàn)的兩個主要因素是計算技術(shù)的快速發(fā)展和由此產(chǎn)生的數(shù)據(jù)爆炸。前者包括硬件技術(shù),如CPU速度和網(wǎng)絡(luò)帶寬,以及軟件技術(shù),如分布式并行處理框架的出現(xiàn);后者包括基于網(wǎng)絡(luò)的軟件的日益普及以及各種傳感器的廣泛使用。
如何定義大數(shù)據(jù)?Gartner將其定義為3V特征,即“高容量,高速度和高多樣性的信息資產(chǎn),這些資產(chǎn)具有成本效益,創(chuàng)新形式的信息處理形式,以增強洞察力和決策能力”[3]。在此定義的基礎(chǔ)上,IBM提出了大數(shù)據(jù)5V特點。①Volume:數(shù)據(jù)量大,包括采集、存儲和計算的量都非常大。②Variety:數(shù)據(jù)類型、來源和處理方式的多樣性。③Value:數(shù)據(jù)價值密度相對較低。隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,價值是迄今為止最具挑戰(zhàn)性的維度。④Velocity:數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。⑤Veracity:數(shù)據(jù)的準(zhǔn)確性是指數(shù)據(jù)的質(zhì)量、可靠性和不確定性。
1.2 數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是門包羅萬象的學(xué)科涉及很多方面的內(nèi)容,涵蓋數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)、人工智能、模式識別、分布式計算、圖形學(xué)等多個領(lǐng)域的技術(shù)和理論。我們可以這樣定義數(shù)據(jù)科學(xué):數(shù)據(jù)科學(xué)是一門通過系統(tǒng)性研究來獲取與數(shù)據(jù)相關(guān)的知識體系的科學(xué)[4]。這里有兩個層面的含義:一是研究數(shù)據(jù)本身,數(shù)據(jù)的各種類型、結(jié)構(gòu)、狀態(tài)、屬性、變化形式和變化規(guī)律;二是通過對數(shù)據(jù)的研究,為自然科學(xué)和社會科學(xué)的研究提供一種新的方法,稱為科學(xué)研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。
2010年,Drew Conway提出了第一張揭示數(shù)據(jù)科學(xué)的學(xué)科地位的維恩圖(圖2),首次明確探討了數(shù)據(jù)科學(xué)的學(xué)科定位問題。從數(shù)據(jù)科學(xué)維恩圖的中心部分可看出,數(shù)據(jù)科學(xué)位于統(tǒng)計學(xué)、機(jī)器學(xué)和某一領(lǐng)域知識的交叉之處,具備較為顯著的交叉型學(xué)科的特點,即數(shù)據(jù)科學(xué)是一門以統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識為理論基礎(chǔ)的新興學(xué)科。同時,從該圖的外圍可看出,數(shù)據(jù)科學(xué)家需要具備數(shù)學(xué)與統(tǒng)計學(xué)知識、領(lǐng)域?qū)崙?zhàn)和黑客精神,即數(shù)據(jù)科學(xué)具有三個基本要素:理論知識(數(shù)學(xué)與統(tǒng)計學(xué))、實踐經(jīng)驗(領(lǐng)域?qū)崉?wù))和精神(黑客精神)。
1.3 數(shù)據(jù)科學(xué)家
“數(shù)據(jù)科學(xué)家”是在2009年由Natahn Yau首次提出,其概念是采用科學(xué)方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。數(shù)據(jù)科學(xué)家通過精深的專業(yè)知識,包括數(shù)學(xué),統(tǒng)計學(xué)和計算機(jī)科學(xué),在某具體學(xué)科解決復(fù)雜的數(shù)據(jù)問題。
數(shù)據(jù)科學(xué)家專注于從數(shù)據(jù)中提取可操作的知識,以解決業(yè)務(wù)問題。他們在一定的期限內(nèi),完成假設(shè)驅(qū)動的分析,深入持續(xù)的對那些容量大,且結(jié)構(gòu)錯綜復(fù)雜的數(shù)據(jù)進(jìn)行探索和挖掘。他們利用簡單的方法,并通過簡單明了的可視化操作,把科學(xué)家的復(fù)雜的想法傳達(dá)到人們手中,從而領(lǐng)導(dǎo)一個團(tuán)隊進(jìn)行方法選擇、評估結(jié)果以實施效果[5]。
數(shù)據(jù)科學(xué)家所需硬件技能主要包括計算機(jī)科學(xué)、統(tǒng)計數(shù)學(xué)、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、領(lǐng)導(dǎo)力和軟技能。目前,許多數(shù)據(jù)科學(xué)家在接受正規(guī)數(shù)據(jù)科學(xué)學(xué)位課程的教育,國內(nèi)外一些大學(xué)也正在或計劃提供這類課程。
2 數(shù)據(jù)科學(xué)教育的現(xiàn)狀
在國外,數(shù)據(jù)科學(xué)專業(yè)是以數(shù)據(jù)分析學(xué)專業(yè)為基礎(chǔ)發(fā)展而來的,可追溯至2007年北卡羅來納州立大學(xué)率先設(shè)立的數(shù)據(jù)分析碩士學(xué)位。之后,美國諸多高校也都陸續(xù)開始在計算機(jī)、管理、金融等專業(yè)中開設(shè)數(shù)據(jù)科學(xué)的系列課程。其中,數(shù)據(jù)科學(xué)概論課程起到一個統(tǒng)領(lǐng)的作用。以美國哈佛大學(xué)“數(shù)據(jù)科學(xué)”課程為例,其內(nèi)容全面廣泛,強調(diào)學(xué)生動手實踐能力的培養(yǎng)。華盛頓大學(xué)開設(shè)的“數(shù)據(jù)科學(xué)導(dǎo)論”課程同樣表現(xiàn)出內(nèi)容的豐富性。麻省理工學(xué)院開設(shè)了“計算思維和數(shù)據(jù)科學(xué)導(dǎo)論”課程,介紹如何利用計算機(jī)來理解真實世界的現(xiàn)象。該課程為學(xué)生提供許多主題的淺顯介紹, 讓學(xué)生知道在他們的職業(yè)生涯中可以用計算機(jī)完成什么樣的任務(wù)。華盛頓大學(xué)開設(shè)了“數(shù)據(jù)科學(xué)簡介”,介紹了關(guān)系型數(shù)據(jù)庫、MapReduce、NoSQL、基礎(chǔ)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、可視化、圖論等。
通過這些知名高校的網(wǎng)站上的數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),“概率統(tǒng)計”和“數(shù)據(jù)挖掘”是最受歡迎的課程。在數(shù)據(jù)科學(xué)中,概率和統(tǒng)計是最基本和必要的知識。數(shù)據(jù)挖掘在數(shù)據(jù)科學(xué)出現(xiàn)之前便是一門受歡迎的課程,其在數(shù)據(jù)科學(xué)課程中仍然很重要。進(jìn)一步調(diào)研了碩士的數(shù)據(jù)科學(xué)課程發(fā)現(xiàn),在碩士課程中教授許多不同的高級課程,如“信息檢索”、“信息和社會網(wǎng)絡(luò)分析”、“文本挖掘”。 一些課程則同時出現(xiàn)在學(xué)士課程和碩士課程中,包括“數(shù)據(jù)挖掘”、“數(shù)據(jù)庫”、“機(jī)器學(xué)習(xí)”、“數(shù)據(jù)可視化”、“統(tǒng)計建模”、“算法”和“數(shù)據(jù)科學(xué)導(dǎo)論”。 最普遍開設(shè)的課程是統(tǒng)計學(xué)相關(guān)的如“探索性數(shù)據(jù)分析”和“數(shù)據(jù)庫”,這表明,統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)教育和計算機(jī)科學(xué)的另一個核心組成部分。
相比而言,國內(nèi)數(shù)據(jù)科學(xué)專業(yè)起步較晚,2015年,教育部首次設(shè)立了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。包括清華大學(xué)、北京大學(xué)、中國科學(xué)院大學(xué)等開設(shè)了大數(shù)據(jù)和數(shù)據(jù)科學(xué)相關(guān)課程。其中,中國人民大學(xué)信息資源管理學(xué)院朝樂門老師編寫的《數(shù)據(jù)科學(xué)》,是國內(nèi)較早的關(guān)于數(shù)據(jù)科學(xué)的教材。清華大學(xué)成立了“數(shù)據(jù)科學(xué)研究院”,是國內(nèi)首批培養(yǎng)數(shù)據(jù)科學(xué)人才的研究院,目的是培養(yǎng)更多有跨界意識和跨界實踐的人才。
基于上述調(diào)研,我們觀察到:數(shù)據(jù)科學(xué)學(xué)士課程還處于起步階段,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化是最受歡迎的核心課程,而統(tǒng)計學(xué)和數(shù)據(jù)庫是學(xué)士和碩士課程的兩個基礎(chǔ)通識課程。
3 數(shù)據(jù)科學(xué)教育的途徑
根據(jù)前文對數(shù)據(jù)科學(xué)教育的調(diào)查和學(xué)科研究,我們提出以下數(shù)據(jù)科學(xué)教育實現(xiàn)的途徑。
3.1 開設(shè)CDO相關(guān)技能課程
首席數(shù)據(jù)官(Chief Data Officer,簡稱CDO)是以數(shù)據(jù)為中心的組織高層管理角色,是大數(shù)據(jù)戰(zhàn)略的制定者和推動者,負(fù)責(zé)數(shù)據(jù)資產(chǎn)的管理和開發(fā)利用,通過數(shù)據(jù)推動業(yè)務(wù)的創(chuàng)新和發(fā)展。我們將CDO定義為一位高級數(shù)據(jù)科學(xué)家,他們有很強的領(lǐng)導(dǎo)能力、溝通能力、項目管理技能、系統(tǒng)思考能力和數(shù)據(jù)方面的技術(shù)知識。他們還需要對大數(shù)據(jù)技術(shù)和解決方案、大數(shù)據(jù)分析生命周期、數(shù)據(jù)管理有很好的理解。雖然要同時具備上述全部知識和技能并不容易,然而一個大數(shù)據(jù)項目的領(lǐng)導(dǎo)者應(yīng)該在這些領(lǐng)域擁有盡可能多的知識。
3.2 在教學(xué)中牢記數(shù)據(jù)分析生命周期
數(shù)據(jù)分析生命周期是專門為大數(shù)據(jù)問題和數(shù)據(jù)科學(xué)項目而設(shè)計的。它定義了從項目開始到項目結(jié)束整個分析流程的最佳實踐,脫胎于數(shù)據(jù)分析和決策科學(xué)領(lǐng)域中的成熟方法,并建立在廣泛收集了數(shù)據(jù)科學(xué)家的反饋并參考了其他成熟的流程的基礎(chǔ)上。
最著名和最廣泛使用的數(shù)據(jù)挖掘過程模型是CRISP-DM,即“跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”[6]。該框架提供了一種用于數(shù)據(jù)分析項目的方法,其中涉及組織技能、數(shù)據(jù)集以及領(lǐng)導(dǎo)者的參與。在此基礎(chǔ)上,我們重新完善了數(shù)據(jù)分析生命周期的6個階段。如圖3所示,這6個階段形成一個循環(huán)。
下面概述數(shù)據(jù)分析生命周期主要階段的任務(wù)。第1階段:發(fā)現(xiàn)。在這個階段,成員需要學(xué)習(xí)業(yè)務(wù)領(lǐng)域的相關(guān)知識,重點把業(yè)務(wù)問題轉(zhuǎn)化為分析挑戰(zhàn)以待在后續(xù)解決。第2階段:數(shù)據(jù)準(zhǔn)備。團(tuán)隊需要執(zhí)行提取、加載和轉(zhuǎn)換,將數(shù)據(jù)導(dǎo)入準(zhǔn)備好的分析沙盤中,以便在項目過程中進(jìn)行數(shù)據(jù)和進(jìn)行數(shù)據(jù)分析。第3階段:規(guī)劃模型。在該階段,團(tuán)隊需要確定在后續(xù)模型構(gòu)建階段所采用的方法、技術(shù)和工作流程,挑選最合適的模型。第4階段:建立模型。團(tuán)隊在這個階段構(gòu)建并運行由上階段確定的模型,創(chuàng)建用于測試、培訓(xùn)和生產(chǎn)的數(shù)據(jù)集。第5階段:溝通結(jié)果。團(tuán)隊需要與主要利益相關(guān)人進(jìn)行合作,以第1階段所制定的標(biāo)準(zhǔn)來判斷項目結(jié)果是成功還是失敗。第6階段:實施。團(tuán)隊?wèi)?yīng)該提交最終報告、簡報、代碼和技術(shù)文檔。
每個學(xué)院可以在不同的階段中找到自己的優(yōu)勢。例如,商學(xué)院在商業(yè)理解方面有優(yōu)勢,信息學(xué)院在數(shù)據(jù)理解方面有優(yōu)勢,統(tǒng)計學(xué)系在模型規(guī)劃方面有優(yōu)勢,計算機(jī)科學(xué)系則在建模方面有優(yōu)勢。
3.3 傳授大數(shù)據(jù)技術(shù)和建模技術(shù)
大數(shù)據(jù)技術(shù)和模型建立技術(shù)是數(shù)據(jù)科學(xué)的兩個最技術(shù)性的組成部分,應(yīng)在教學(xué)方案中作為重點。重要的大數(shù)據(jù)技術(shù)包括Hadoop及其生態(tài)系統(tǒng)和分布式并行處理框架[7]。這兩類技術(shù)被廣泛應(yīng)用于處理社交網(wǎng)絡(luò)數(shù)據(jù)、傳感器位置流數(shù)據(jù)和Web日志數(shù)據(jù)。其他重要的大數(shù)據(jù)技術(shù)包括NoSQL數(shù)據(jù)庫、內(nèi)存計算、云計算、大數(shù)據(jù)倉庫和數(shù)據(jù)虛擬化。
在模型構(gòu)建方面的挑戰(zhàn)主要包括處理實時流數(shù)據(jù)、可伸縮的機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)允許數(shù)據(jù)學(xué)習(xí)的范式,并提供了從大數(shù)據(jù)集中發(fā)現(xiàn)知識的有效方法,是數(shù)據(jù)科學(xué)教育的重要組成部分。在數(shù)據(jù)科學(xué)教育中,應(yīng)有效地將機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析結(jié)合起來,以應(yīng)對大數(shù)據(jù)時代不斷發(fā)展的挑戰(zhàn)。
3.4 將研究方法納入數(shù)據(jù)分析的教學(xué)
數(shù)據(jù)科學(xué)學(xué)生應(yīng)接受科學(xué)思維、推理和分析方法的培訓(xùn)。盡管大數(shù)據(jù)問題本質(zhì)上是基于發(fā)現(xiàn)和學(xué)習(xí)的,但學(xué)生應(yīng)該學(xué)會如何提出一個研究問題,如何處理這個問題,以及如何驗證結(jié)果。學(xué)生應(yīng)該能夠區(qū)分基于發(fā)現(xiàn)的研究問題和傳統(tǒng)的假設(shè)驅(qū)動的研究問題。研究方法相關(guān)的課程可以幫助學(xué)生提高批判性思維的能力,吸收來自各個學(xué)科的知識,用科學(xué)的方法解決問題,并評估結(jié)果,因此建議將研究方法納入數(shù)據(jù)分析課程。
3.5 為學(xué)生提供真實的工程項目
數(shù)據(jù)科學(xué)通過使用真實數(shù)據(jù)來解決現(xiàn)實世界的問題,這意味著傳統(tǒng)的以教科書為基礎(chǔ)的教育方式不適合數(shù)據(jù)科學(xué)教育。通過參與現(xiàn)實世界的實際項目或案例研究來學(xué)習(xí)是數(shù)據(jù)科學(xué)教育的重要組成部分。也就是說,學(xué)生應(yīng)該在一個通過實踐學(xué)習(xí)的環(huán)境中學(xué)習(xí),在這個環(huán)境中,學(xué)生可以獲得關(guān)于數(shù)據(jù)科學(xué)如何使用大數(shù)據(jù)技術(shù)來解決現(xiàn)實世界問題的經(jīng)驗。這是數(shù)據(jù)科學(xué)教育的一個必修課。
3.6 與多個教學(xué)部門協(xié)作
數(shù)據(jù)科學(xué)是一門多學(xué)科的研究,其課程通常是在大學(xué)內(nèi)聯(lián)合各系部級提供的。例如,數(shù)據(jù)科學(xué)課程可以由計算機(jī)科學(xué)系、統(tǒng)計學(xué)系或商學(xué)院聯(lián)合提供,也可以通過共享教師資源來實現(xiàn)協(xié)作。又或者,由計算機(jī)科學(xué)系提供數(shù)據(jù)科學(xué)教育方案,而其他院系負(fù)責(zé)講授一些相關(guān)課程。
3.7 與產(chǎn)業(yè)界和政府部門合作
產(chǎn)業(yè)界和政府是真實世界數(shù)據(jù)的良好來源,不僅是針對數(shù)據(jù)的教學(xué)資源,也包括其他教學(xué)外的組成部分,如計算資源、培訓(xùn)、證書、學(xué)生實習(xí)和工作。產(chǎn)學(xué)研合作研究是推動教育向前發(fā)展的既定模式,公司會很樂意招聘這些曾實習(xí)過的學(xué)生,因為這些學(xué)生已經(jīng)參與了這些項目,并且很清楚他們的業(yè)務(wù)問題。大學(xué)也可以通過與產(chǎn)業(yè)界和政府的合作獲得資金,以促進(jìn)數(shù)據(jù)科學(xué)教育。
4 結(jié)束語
大數(shù)據(jù)改變了人們的工作、生活與思維模式,已成為包括計算機(jī)科學(xué)和統(tǒng)計學(xué)在內(nèi)的多個學(xué)科領(lǐng)域的新研究方向。現(xiàn)代社會需要一門新學(xué)科來系統(tǒng)研究大數(shù)據(jù)時代的新現(xiàn)象、理念、理論、方法、技術(shù)、工具和實踐,即數(shù)據(jù)科學(xué)。
本文探討了數(shù)據(jù)科學(xué)的發(fā)展、學(xué)科地位、知識體系等基本問題,并提出了數(shù)據(jù)科學(xué)專業(yè)建設(shè)的核心內(nèi)容,即對數(shù)據(jù)進(jìn)行管理和分析,從而提取其價值,獲得對事物洞察的各種技術(shù)手段,把學(xué)生引進(jìn)數(shù)據(jù)科學(xué)的大門。
與傳統(tǒng)科學(xué)不同,數(shù)據(jù)科學(xué)人才培養(yǎng)既要有傳統(tǒng)科學(xué)中的理論與實踐,還需要有數(shù)據(jù)科學(xué)家的精神素質(zhì),即原創(chuàng)性設(shè)計、批判性思考、好奇心等。未來數(shù)據(jù)科學(xué)專業(yè)的建設(shè)應(yīng)圍繞數(shù)據(jù)科學(xué)的三個基本要素,加強數(shù)學(xué)、統(tǒng)計學(xué)和計算機(jī)科學(xué)等學(xué)科之間的合作,調(diào)動社會、產(chǎn)業(yè)界的數(shù)據(jù)資源,更好的培養(yǎng)“理論、實踐和精神為一體”的綜合性人才。
參考文獻(xiàn)(References):
[1] Data science: history [EB /OL]. https://en.wikipedia.org/wiki/Data_science.
[2] 甘容輝,何高大.大數(shù)據(jù)時代高等教育改革的價值取向及實現(xiàn)路徑[J].中國電化教育,2015.11:70-76
[3] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應(yīng)用與影響[J].情報科學(xué),2013.9:10-14
[4] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014.31(2):10-19
[5] 秦小燕,初景利.國外數(shù)據(jù)科學(xué)家能力體系研究現(xiàn)狀與啟示[J].圖書情報工作,2017.61(23):40-50
[6] CRISP-DM [EB /OL].https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.
[7] 陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機(jī)工程與科學(xué),2013.35(10):25-35