張小松 郭琳虹


摘 要:大數(shù)據(jù)技術的快速發(fā)展,導致大數(shù)據(jù)人才市場需求也在發(fā)生著變化。對應大數(shù)據(jù)技術體系各個階段的技術人才需求,根據(jù)數(shù)據(jù)科學學科特點和專業(yè)關鍵能力研究,通過數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)課程建設實踐,構建符合新工科要求的以培養(yǎng)能夠從事大數(shù)據(jù)相關工作的應用型和創(chuàng)新型大數(shù)據(jù)專門技術人才為目標的課程體系。
關鍵詞:數(shù)據(jù)科學;大數(shù)據(jù)技術;課程體系
中圖分類號:G642 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2021.02.017
本文著錄格式:張小松,郭琳虹.新工科背景下數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)課程體系建設探索與實踐[J].軟件,2021,42(02):
057-060
Exploration and Practice of the Construction of Data Science and Big Data Technology Major Curriculum System under the Background of New Engineering
ZHANG Xiaosong, GUO Linhong
(Tangshan University, Tangshan? HeBei? 063000)
【Abstract】:The rapid development of big data technology has led to changes in the market demand for big data talents. Corresponding to the needs of technical talents at each stage of the big data technology system, the characteristics of the data science discipline and the research of key professional capabilities are researched and analyzed. Through the practice of data science and big data technology major curriculum construction, the curriculum system that meets the requirements of the new engineering is constructed with the goal of cultivating applied and innovative big data specialized technical talents who can engage in big data-related work.
【Key words】:data science;big data technology;curriculum system;
0引言
數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)的設置,完全契合了“新工科”建設的需求,即學科交叉融合、解決產業(yè)新問題與引領未來技術和產業(yè)。作為本地區(qū)第一所開設該專業(yè)的高校,在多年應用型人才培養(yǎng)經(jīng)驗的基礎上,引入新工科專業(yè)建設思維,加強專業(yè)課程體系建設,采用“大數(shù)據(jù)+”的培養(yǎng)模式,努力培養(yǎng)具有多學科交叉能力的大數(shù)據(jù)工程與應用實踐方面的人才。對于數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的人才培養(yǎng),從專業(yè)要求角度看,“有技術、懂業(yè)務”應是人才培養(yǎng)設計的核心[1]。而文獻[2]給出了數(shù)據(jù)科學人才培養(yǎng)的四點建議:重視基礎學科的學習,系統(tǒng)地掌握知識發(fā)掘方法,掌握高效的數(shù)據(jù)處理方法以及精通數(shù)據(jù)科學在不同領域中的應用。
數(shù)據(jù)科學是一個新興的科學領域,它需要一種多學科的方法,并且與大數(shù)據(jù)和數(shù)據(jù)驅動技術有著緊密的聯(lián)系,這些技術為所有研究和行業(yè)領域帶來了變革性的影響。他們的可持續(xù)發(fā)展需要對傳統(tǒng)的教育模式和現(xiàn)有課程進行重新思考和重新設計。但是,目前大多數(shù)現(xiàn)有的大學課程和培訓計劃都是基于可用的課程構建的,涵蓋了數(shù)據(jù)科學和通用數(shù)據(jù)管理專業(yè)人員相關的有限能力和知識領域。這可能會導致未來的數(shù)據(jù)科學畢業(yè)生在實際工作環(huán)境中,在知識和能力方面造成差距。
數(shù)據(jù)科學教育需要新方法,教育和培訓數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員需要一個新模型,該模型必須在設計中反映研究和行業(yè)領域中數(shù)據(jù)的整個生命周期,并要求擁有廣泛的技能來使用數(shù)據(jù)洞悉組織過程及其改進[3]。這種模型必須建立在對現(xiàn)代數(shù)據(jù)科學要求的透徹分析之上,以定義能力概況、所需技能和其他專業(yè)智能特征。在科學、技術、研究、商業(yè)和教育等相互聯(lián)系的部門中連接不同的術語,操作模型也面臨著概念上的挑戰(zhàn),這些共同為一個新興的職業(yè)創(chuàng)造了一個生態(tài)系統(tǒng)。
圖1說明了EDISON數(shù)據(jù)科學框架[3]的主要組成部分及其相互關系,這些概念為數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的發(fā)展提供了概念基礎。數(shù)據(jù)科學能力框架包括數(shù)據(jù)專業(yè)人員在工業(yè),研究和整個職業(yè)道路的不同工作環(huán)境中成功工作所需的共同能力。數(shù)據(jù)科學能力框架包括使數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員參與團隊并在現(xiàn)代敏捷數(shù)據(jù)驅動型企業(yè)中工作所需的常見軟硬技能。數(shù)據(jù)科學能力框架為定義數(shù)據(jù)科學知識體系提供了基礎,數(shù)據(jù)科學知識體系是數(shù)據(jù)科學從業(yè)人員執(zhí)行其職業(yè)中與數(shù)據(jù)相關的所有過程所需的知識。數(shù)據(jù)科學示范課程可以被視為一個藍圖,教育者和培訓者可以使用它來制定各種教育機構和針對不同目標群體的課程。數(shù)據(jù)科學示范課程的定義應結合最佳實踐,并以教育理論為基礎,以實現(xiàn)所需的學習成果。數(shù)據(jù)科學人才與職業(yè)分類定義有效的組織結構和相應的角色,同時還可以用于建立個人職業(yè)道路以及組織和經(jīng)濟部門之間的相應能力和技能轉移能力。數(shù)據(jù)科學科學學科分類將用于保持四個核心組成部分之間的一致性。
2 數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的特點
2.1數(shù)據(jù)科學的跨學科性質
數(shù)據(jù)科學本質上是跨學科的。處理數(shù)據(jù)需要掌握各種能力和概念,包括許多傳統(tǒng)上與統(tǒng)計、計算機科學和數(shù)學領域相關的能力和概念。數(shù)據(jù)科學融合了所有這三個學科的許多教學內容,但它既不是這三個學科的簡單交集,也不是這三個學科的超集。以數(shù)據(jù)為中心的課程整合是有效的數(shù)據(jù)科學教學計劃的基本特征,并導致以協(xié)同方式解決問題。
2.2 以數(shù)據(jù)為核心
獲取數(shù)據(jù)、整理數(shù)據(jù)、管理和處理數(shù)據(jù)、探索數(shù)據(jù)、定義問題、執(zhí)行分析以及傳達結果的遞歸數(shù)據(jù)周期是數(shù)據(jù)科學經(jīng)驗的核心。本科生需要理解和實踐數(shù)據(jù)周期的所有步驟,以便參與實質性的開發(fā)和研究問題,學生需要具備“思考數(shù)據(jù)”的能力[4]。從基礎課程到專業(yè)課程再到選修課程,數(shù)據(jù)實踐經(jīng)驗都必須在所有課程中發(fā)揮核心作用。這些實踐經(jīng)驗應包括來自各種來源的原始數(shù)據(jù),并應涉及清洗、轉換和構建數(shù)據(jù)以進行分析的過程。數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的學生必須經(jīng)常遇到基于項目的具有真實數(shù)據(jù)的真實世界的應用程序,以補充基礎算法和模型,實踐經(jīng)驗至關重要。
2.3 分析思維
數(shù)據(jù)科學提供了整合和使用計算和統(tǒng)計思維來解決問題的機會,而不是一味強調某一種思維。計算和統(tǒng)計思維的兩個支柱不應分開教授。它們之間的平衡可能會從一門課程轉換為另一門課程,但是為了實現(xiàn)最有效且最高效的教學效果,應該同時存在兩者。
2.4 數(shù)學基礎
數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員使用模型來理解世界,而數(shù)學為這些模型提供了語言,因此,數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員需要在數(shù)學上有堅實的基礎。但是,傳統(tǒng)的數(shù)學課程通常會延遲抽象數(shù)學與混亂的現(xiàn)實世界中的問題之間的聯(lián)系,尤其是涉及數(shù)據(jù)的問題。因此,在對數(shù)據(jù)驅動的問題進行建模的背景下,高效的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)應該簡化數(shù)學課程,將重點放在數(shù)據(jù)科學上,而不是理論推導或證明上。矩陣代數(shù)是通過求解線性系統(tǒng)來激發(fā)的,導數(shù)是通過優(yōu)化和靈敏度分析來激發(fā)的,而積分是通過概率應用來激發(fā)的。
3 數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的關鍵能力
3.1計算和統(tǒng)計能力
數(shù)據(jù)科學由一種解決問題的方法組成,用于在經(jīng)驗環(huán)境中工作,必須從數(shù)據(jù)中提取含義。這種方法是統(tǒng)計、計算機科學和數(shù)學中思維方式的綜合。處理數(shù)據(jù)需要全面的計算能力,數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)學生必須準備好使用工作場所和研究實驗室中常見的數(shù)據(jù)。例如,訪問和組織數(shù)據(jù)庫中的數(shù)據(jù),從網(wǎng)站上抓取數(shù)據(jù),將文本處理成可以分析的數(shù)據(jù)以及確保安全和機密的數(shù)據(jù)存儲,都需要具備全面的計算能力。這些計算問題解決能力會在數(shù)據(jù)科學專業(yè)人員的整個工作流程中反復出現(xiàn)。該專業(yè)的畢業(yè)生應該精通許多基礎軟件能力、計算機科學學科的相關算法和計算問題解決方案。為了為數(shù)據(jù)科學職業(yè)做好準備,學生還需要配備并接觸專業(yè)的數(shù)據(jù)分析軟件包,并且需要理解構成這些軟件包的編程原理和算法問題解決原理。另外,統(tǒng)計思維是一種通過數(shù)據(jù)了解世界的方法,涉及從問題提出到結論的所有內容。數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員需要了解基本的統(tǒng)計理論。學生應了解數(shù)據(jù)分析、數(shù)據(jù)收集、建模和推理的基本統(tǒng)計概念。具備基本的理論基礎的豐富知識將有助于為他們的分析和模型的局限性提供信息。成功的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的畢業(yè)生將能夠運用統(tǒng)計知識和計算能力來制定問題、計劃數(shù)據(jù)收集活動或識別和收集相關的現(xiàn)有數(shù)據(jù),然后分析數(shù)據(jù)以提供見解。
3.2 數(shù)學基礎能力
從數(shù)學方面來看,數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的重點應該放在選擇、擬合和使用數(shù)學模型上。由于數(shù)據(jù)驅動的問題通常是混亂且不精確的,因此學生應能夠通過培養(yǎng)結構化的數(shù)學問題解決能力來對這些問題設計數(shù)學結構。學生應具有足夠的數(shù)學知識,以了解統(tǒng)計和機器學習中常用模型的基本結構以及相關算法的優(yōu)化和收斂性問題。盡管這些工具所需的工具包括微積分、線性代數(shù)、概率論和離散數(shù)學,但這些課程中的內容將進行適當調整,使其更符合該專業(yè)的數(shù)學基礎能力需求。
3.3 模型建立與評估能力
首先,統(tǒng)計模型用于描述、預測和解釋過程,但它們也用于傳達理解并為將來的模型奠定基礎。非正式建模涉及識別潛在的變異源,辨別隨機變異和確定性變異,以及了解如何用數(shù)學和計算方法對它們進行建模。畢業(yè)生還必須精通數(shù)據(jù)可視化,這是非正式建模中的重要工具,因為它可用于與其他人進行交流并找出擬議模型中的弱點。其次,畢業(yè)生應該能夠建立和評估統(tǒng)計數(shù)據(jù)和機器學習模型,采用各種形式的推理程序,并從分析中得出適當范圍的結論。這包括了解數(shù)據(jù)問題如何影響統(tǒng)計結果的分析、解釋和概括。畢業(yè)生還應該能夠在數(shù)據(jù)分析中考慮包括規(guī)模問題的計算因素。
3.4 算法設計和軟件開發(fā)能力
數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的畢業(yè)生應該能夠運用算法解決問題的能力來完成當前的任務。這些措施包括定義問題的明確要求、分解問題、使用有效策略來獲得算法解決方案以及通過使用合適的高級語言進行編程來實現(xiàn)解決方案。畢業(yè)生應該了解所設計軟件以及所使用的庫和軟件包的內存和執(zhí)行性能,并能夠使用適當?shù)墓ぞ邅砭S護其軟件,能夠利用現(xiàn)有的軟件包和工具來解決其計算問題。
3.5 數(shù)據(jù)治理能力
數(shù)據(jù)治理涉及在整個問題解決過程中管理數(shù)據(jù),主要包含兩個主要步驟。一是數(shù)據(jù)準備,畢業(yè)生應該能夠處理來自各種來源和格式的數(shù)據(jù)。數(shù)據(jù)可能來自網(wǎng)頁、數(shù)據(jù)庫或流,并且可能包含圖像、聲音或視頻以及數(shù)字或文本。這些數(shù)據(jù)可能是通過受控實驗或觀察性研究收集的,也可能是通過傳感器或自動化程序收集的機會數(shù)據(jù)。在給定特定數(shù)據(jù)集的情況下,畢業(yè)生應該能夠準備將數(shù)據(jù)用于各種統(tǒng)計方法和模型,并應認識到數(shù)據(jù)質量和數(shù)據(jù)收集方式如何影響結論。二是數(shù)據(jù)管理。數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人員不僅必須準備數(shù)據(jù)進行分析,還必須確保數(shù)據(jù)在通過分析的所有階段時的完整性。這需要使用關系數(shù)據(jù)庫維護版本控制,并在合并來自多個源的數(shù)據(jù)時跟蹤數(shù)據(jù)出處。
4 數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)課程體系
數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)課程知識體系流程圖如圖2所示,整個課程體系包含數(shù)據(jù)科學基礎、數(shù)學基礎、統(tǒng)計模型、算法設計與軟件開發(fā)、機器學習與數(shù)據(jù)分析、數(shù)據(jù)治理及綜合性項目實踐等七個方面的課程。只有依托專業(yè)領域,建設數(shù)據(jù)科學類課程,與大數(shù)據(jù)技術專業(yè)教育相輔相成,方能適應不同層次的人才需求[5]。
4.1 數(shù)據(jù)科學基礎
學生將理解使用高級語言來探索、可視化和提出有關數(shù)據(jù)的問題。引入一種更具算法性的語言,以幫助學生理解自己所體驗的高級功能背后的思想和結構。數(shù)據(jù)科學基礎方面涉及到的課程主要有數(shù)據(jù)科學與大數(shù)據(jù)技術導論等。
4.2 數(shù)學基礎
數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的學生將數(shù)學工具與實際問題聯(lián)系起來。與純粹的數(shù)學尋求建立理論并證明命題的方法不同,數(shù)據(jù)科學是在了解數(shù)學方法的價值的同時了解它們的局限性。數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的學生在整個數(shù)學訓練中還應發(fā)展出一種幾何、直觀、可視化的思維方式。該課程強調數(shù)學建模,尤其是線性和多項式模型。數(shù)學基礎方面涉及到的課程主要有高等數(shù)學、線性代數(shù)、離散數(shù)學、概率論與數(shù)理統(tǒng)計等。
4.3 算法設計和軟件開發(fā)
為了培養(yǎng)扎實的計算能力,數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的本科生應學習基礎計算機科學,并為算法問題解決和軟件開發(fā)提供支持。學生必須培養(yǎng)算法設計能力來理解問題,將其分解為可管理的部分,評估替代性問題解決策略,并得出可以有效解決問題的算法。學生應能夠使用過程和功能編程技術及其相關的數(shù)據(jù)結構補充其算法,應了解工具的適當用法和可用的軟件包。隨著與數(shù)據(jù)科學相關的數(shù)據(jù)和處理的不斷發(fā)展,從規(guī)模上講,該專業(yè)的學生應該培養(yǎng)處理更大數(shù)據(jù)集的能力,能夠在并發(fā)編程中應用技術來構建執(zhí)行數(shù)據(jù)并行處理的系統(tǒng),還必須能夠使用當前和新形式的分布式數(shù)據(jù)存儲,作為上述數(shù)據(jù)管理領域的一部分。算法設計與軟件開發(fā)方面涉及的課程主要有程序設計基礎、數(shù)據(jù)結構、面向對象程序設計、大數(shù)據(jù)應用開發(fā)語言等。
4.4 數(shù)據(jù)治理
數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)學生必須理解并能夠有效地應用數(shù)據(jù)治理原理。它比傳統(tǒng)的數(shù)據(jù)庫管理要廣泛得多,并且必須包括支持大數(shù)據(jù)所帶來的數(shù)量和速度的系統(tǒng)。因此,該專業(yè)必須將數(shù)據(jù)查詢語言的知識應用于關系數(shù)據(jù)庫和新興的大型存儲NoSQL數(shù)據(jù)系統(tǒng),并且必須能夠通過Web服務從結構較少的系統(tǒng)訪問數(shù)據(jù),對數(shù)據(jù)進行較低級別的訪問可從Internet上獲取。收集完數(shù)據(jù)后,數(shù)據(jù)治理包括使用軟件知識和技能進行清理和初始結構化,然后將數(shù)據(jù)轉換為探索、可視化和分析所需的結構化形式。數(shù)據(jù)治理方面涉及的課程主要有數(shù)據(jù)采集與網(wǎng)絡爬蟲、數(shù)據(jù)導入與預處理、大數(shù)據(jù)技術原理與應用、非結構化數(shù)據(jù)存儲與分析等。
4.5 統(tǒng)計模型
統(tǒng)計模型方面的課程有助于向學生介紹數(shù)據(jù)的統(tǒng)計分析和推理框架的要素。基礎是線性模型,然后將其與非線性方法進行比較。以第一年數(shù)據(jù)科學導論課程中引入的重要概念為基礎,這些概念構成了任何統(tǒng)計分析的基礎。所有的想法都牢固地扎根于現(xiàn)實數(shù)據(jù)中并從中得到啟發(fā)。課程內容包括:探索性數(shù)據(jù)分析方法和圖形數(shù)據(jù)分析方法、估計和檢驗、仿真和重采樣、模型選擇與性能等。統(tǒng)計模型方面涉及的課程主要有統(tǒng)計學、數(shù)值分析、數(shù)據(jù)建模等。
4.6 機器學習與數(shù)據(jù)分析
該方面的課程融合計算機科學中機器學習的算法觀點和統(tǒng)計思維的預測觀點。重點是常見的機器學習方法及其在各種學科中的應用。學生不僅將了解統(tǒng)計學學習的理論基礎,還將獲得成功應用科學和工業(yè)新問題所必需的實踐技能。包括進一步探索經(jīng)典回歸和分類的替代方法、模型的算法分析、性能指標和預測以及交叉驗證、數(shù)據(jù)轉換、有監(jiān)督學習與無監(jiān)督學習、集成學習方法等。機器學習與數(shù)據(jù)分析方面涉及的課程主要有數(shù)據(jù)挖掘與分析、深度學習等。
4.7 綜合性項目實踐
學生可以通過綜合性項目實踐,考慮科學問題、收集和分析數(shù)據(jù)并獲得可視化的結果。綜合性項目實踐主要涉及的課程有大數(shù)據(jù)技術實訓、數(shù)據(jù)存儲與處理技術實訓、專業(yè)實習、畢業(yè)實習和畢業(yè)設計等實踐環(huán)節(jié)。
5 結語
數(shù)據(jù)科學是一門快速發(fā)展的學科,以數(shù)據(jù)的獲取、管理和分析為中心。目前,數(shù)學、統(tǒng)計學和計算機科學等傳統(tǒng)學科的課程為該專業(yè)提供了基礎。對課程的重新設計,將各個層次的數(shù)學基礎以及計算和統(tǒng)計思維的要素整合在一起,將提供一系列豐富而有效的課程,為畢業(yè)生提供從事數(shù)據(jù)科學職業(yè)的準備。大數(shù)據(jù)專業(yè)與我校其他專業(yè)密切相關,“大數(shù)據(jù)+電子商務”“大數(shù)據(jù)+交通”“大數(shù)據(jù)+建筑”等必將促進我校學科間的融合發(fā)展,大數(shù)據(jù)專業(yè)必將與相關聯(lián)學科專業(yè)互相促進共同成長,形成我校特色的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的課程體系,也將為我校人才培養(yǎng)、教學科研等方面帶來極大促進作用,同時為智慧城市建設乃至京津冀地區(qū)新型產業(yè)建設提供強有力的智力支持。
參考文獻
[1] 賈蓓.學科融合視角下的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人才培養(yǎng)思考[J].大學教育,2020(1):166-169.
[2] 陳振沖,賀田田.數(shù)據(jù)科學人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016,
2(5):95-106.
[3] Demchenko Y,Belloum A,Los W,et al.EDISON Data Science Framework:A Foundation for Building Data Science Profession for Research and Industry[C]// IEEE International Conference on Cloud Computing Technology & Science.IEEE,2017.
[4] Horton N J,Hardin J S.Teaching the Next Generation of Statistics Students to "Think With Data":Special Issue on Statistics and the Undergraduate Curriculum[J].The American Statistician,2015,69(4):259-265.
[5] 賀文武,劉國買.數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)核心課程建設的探索與研究[J].教育評論,2017(11):31-35.