應毅+任凱+顧問



摘 要:大數據和云計算是當前IT行業兩個最大的創新,新技術的高速發展帶動人才需求的高速增長。在分析計算機專業人才培養現狀的基礎上,提出在軟件工程專業下設置數據工程方向;對應用型數據工程師的能力培養進行剖析,給出數據工程課程群的整體設計,詳述實驗課和實驗室建設的思路和方法。
關鍵詞:大數據;云計算;軟件工程;數據工程;課程群設計
文章編號:1672-5913(2017)05-0025-05
中圖分類號:G642
1 背 景
近10年來,信息呈爆炸式增長。據EMC公司的“Digital Universe”項目統計,2011年和2012年全球新增數據總量分別為1.8ZB和2.8ZB[1-2],2013年數據總量高達4.4ZB[3]。Gartner認為“大數據是需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產”。它已經成為一種重要的戰略資源,引起了各國政府、工業界和學術界的高度關注。2012年3月奧巴馬政府宣布啟動“大數據研究與開發計劃”[4];2015年8月國務院通過《關于促進大數據發展的行動綱要》[5]。
從2009年起,云計算技術開始迅猛發展,它是一種基于互聯網的、大眾參與的計算模式,其計算資源是動態、可伸縮、被虛擬化的,且以服務的方式提供。如今云計算已成為企業實力競爭的核心以及國家競爭和戰略發展的核心,我國政府在《國民經濟和社會發展第十二個五年規劃綱要》[6]中指出要大力發展新一代信息技術,重點發展云計算、物聯網、高端軟件等產業;美國政府也于2011年出臺《聯邦云計算戰略》[7]。
大數據和云計算是目前IT行業兩個最大的創新,它們將改變商業管理的方式并從最重要的信息資產中獲取相應的價值,二者之間的相互需求與密切關系已得到公認。傳統的單機技術在處理大數據時遇到了瓶頸,需要借助云計算平臺的大規模數據存儲環境和并發計算能力來破解。云計算通過整合軟硬件資源,使用負載均衡、虛擬化、并行計算、網絡存儲、統一管理等技術手段,實現了IT服務的無縫化、定制化和彈性服務,可以使大數據平臺的復雜性大為降低,能方便地存儲與處理異構系統中的海量數據,提升資源的利用效率。
2 計算機專業人才培養現狀
在大數據和云計算產業高速發展的背景下,計算機專業的高等教育凸顯出以下兩大問題。
(1)新技術人才需求缺口大。麥肯錫全球研究院在2011年5月發表的報告中指出,預計美國具備數據高級分析技能的人才供給量,到2018年將產生14~19萬人的缺口[8]。研究機構IDC在2012年的調查發現,亞太地區的云計算相關人才年需求增長率為32%,到2015年人才缺口將達到230萬人[9]。中國軟件開發聯盟CSDN發布的《2014年IT企業招聘趨勢調研報告》[10]指出,大數據、云計算技術崗位市場需求比例為6.65%; 《2015年IT人才招聘趨勢分析》[11]指出,該類職位平均薪酬高達33萬元/年,人才稀缺且身價昂貴。
(2)技術人才培養與社會需求脫節。傳統IT類專業學生就業越來越困難。麥可思研究院在2013年發布的中國大學生就業報告中指出,2012屆IT相關專業的本科畢業生半年后失業率為8.5%,計算機科學與技術、信息管理與信息系統、電子信息科學與技術等專業就業情況被亮黃牌[12]。
以上兩個問題不僅造成計算機專業畢業生就業壓力加劇,也嚴重制約了我國新技術產業的發展。
2011年,軟件工程被增設為一級學科(專業代碼為0835)。軟件作為經濟建設、日常工作及社會生活中不可缺少的重要工具,已滲透到各個應用領域,在高等教育中也產生了許多專業方向,如軟件開發、軟件測試、移動開發、服務外包等。作為交叉性極強的學科,大數據應用涉及數學、統計學、計算機技術、經濟學、行業知識等各個領域,與傳統的計算機科學與技術專業和當前的軟件工程專業差別較大,考慮到大數據技術的重要性,可以將數據工程設置為軟件工程學科的一個專業方向,主動適應經濟社會發展需要,促進學生就業,為大數據產業的發展奠定人才基礎。
3 數據工程師的能力培養
大數據時代的到來,加劇了培養相關專業人才的緊迫性。當前,國內外部分高校已經開始進行大數據及云計算專業人才的培養。美國有60多所大學、歐洲有30多所大學、全球有近170所大學開設了大數據相關專業,其中約150所大學開設了碩士研究生以上的學位課程[8]。國內有少數重點院校,如上海交通大學、浙江大學、中國人民大學和北京航空航天大學,也開始嘗試培養大數據及云計算專業人才。然而,這些知名高校絕大多數是在碩士研究生以上層次,圍繞商業數據分析和數據科學范疇進行研究型人才的培養,應用型院校開設相關專業進行工程人才的培養還非常欠缺。新建本科院校應以服務區域經濟發展為主,著力培養能在生產和工程第一線從事工程實施和管理的應用型工程師,而軟件工程專業數據工程方向所培養的數據工程師就是能使用云計算平臺進行大數據分析和應用的新技術人才。
早期高校培養的是“I型”專業人才,注重知識和技術的深厚;之后,大學強調培養“T型”通用人才,除加深專業知識外,還強調知識面的擴展。在大數據時代,數據處理將更為復雜,只有那些具備統計分析、數據庫、分布式計算、編程技能和相關專業知識的人才,才能把混亂龐雜的數據轉化為有價值的資源;也只有那些能夠深刻理解大數據并懂得如何利用和分析大數據的人,才有更大的競爭優勢。因此,當前更需要的是具備多種能力的復合型人才,數據工程專業方向要培養的是“技術+業務”的“Π型”復合人才。
應用型工程師區別于研究型人才的關鍵在于培養人才的工程能力,強調動手能力和解決實際問題的能力。教師可通過分布式存儲和海量數據管理、并行編程和大數據分析挖掘、PaaS平臺應用3方面的能力訓練,培養掌握設計、開發和調優技能的數據分析工程師以及掌握規劃、安裝和管理大數據環境的運維工程師。
4 數據工程課程群設計
課程群的建設不是簡單的概念組合和課程堆積,尤其是針對新技術方向,須從實際應用角度系統地對教學內容進行再設計,對相關課程的結構、關聯性和實踐環節進行整體優化。數據工程是一個典型的交叉學科,涉及眾多領域,如數學和統計學、數據庫與數據挖掘、分布式系統、計算機編程語言等,所以它的人才培養體系較為復雜。根據“Π型”復合人才的培養要求,課程群以云計算作為技術平臺,以大數據應用作為業務領域,對教學體系進行整體設計和構建。
數據工程課程群劃分為4條課程主線,每條課程主線包含如下若干門專業課。
(1)操作系統與網絡:操作系統原理、計算機網絡和Linux操作系統;
(2)云計算與并行編程:云計算基礎、云基礎架構與虛擬化、Java程序設計以及Hadoop與分布式系統;
(3)數據庫與數據挖掘:數據庫原理、MySQL與關系數據庫、NoSQL與云數據庫以及數據倉庫與數據挖掘;
(4)大數據及其統計分析:統計學原理、大數據概論、大數據分析與挖掘以及R語言。
整個課程群還涉及幾門平臺基礎課,即計算機組成原理、數據結構和概率論與數理統計,還包含少量選修課,如商業智能和數據可視化。數據工程課程群中課程設置的先后關系大致如圖1所示。
由于計算機學科本身專業課程多、課時量大,在課程總學時不變的情況下,可能無法完成上述所有課程。為此,可將數據工程專業的專業課分成云計算課程模塊、大數據課程模塊以及技術要求更高的選修課。教師可根據學生的具體情況,選擇一個課程模塊進行培養,將專業選修課提供給有興趣和學有余力的學生進階學習。課程的模塊劃分見表1。
應用型工程師的培養主要強調對軟件及工具的學習與掌握,教學設計方面要強化實驗及實踐課程。作為Google MapReduce和GFS技術的開源實現,Apache Hadoop集成了數據存儲、數據處理、系統管理等功能,提供了強大的系統級解決方案,已經成為大數據領域事實上的標準。數據工程的大部分課程都圍繞Hadoop生態圈中的軟件或平臺開展實驗教學活動,主要學習Hadoop的以下開源產品:HDFS、MapReduce、HBase、Hive、Pig、Spark、Mahout。各門課程的實驗工具見表2。
5 大數據實驗室建設
大數據主要來自于物理世界(如科學實驗數據和傳感數據)和互聯網(如社交網站和電子商務),包括大量的半結構化數據(如HTML和XML)和非結構化數據(如文本、圖片、音頻、視頻和UGC)。云計算則可以為大數據處理提供強大的計算能力。作為技術平臺的云計算環境與以往高校計算機專業的實驗室環境完全不同,以往實驗課的計算機通常是1:1使用,即一名學生使用一臺計算機,如語言類課程和數據庫課程;或者是N:1使用,即多名學生使用一臺服務器,如軟件工程和項目管理課程。
云計算環境的計算機是N:N使用,即一組學生使用一個集群并涉及多種計算機技術,如Linux系統、Shell命令、虛擬化技術、分布式存儲、并行計算、Java編程、數據挖掘算法等,這在軟硬件環境、實驗管理、人員組織與搭配等方面,對高校實驗室建設是一個新挑戰。
每個云計算環境都由硬件和軟件兩部分構成。硬件方面至少由3~4臺PC組成,其中1臺Master、2臺以上Slave和1臺監控機;軟件方面,Master/Slave可以由物理機安裝CentOS或者VMware Workstation安裝CentOS,之后安裝JDK和Hadoop、HBase、Spark等軟件工具,監控機安裝Windows系統,使用SecureCRT、CuteFTP、UltraEdit對Master/Slave進行配置和管理,使用Eclipse作為開發工具。
3~5名學生組成一個實驗小組,使用一個云計算環境,一個大數據實驗室包含6~8個云計算環境,可以支持30~40名學生同時開展實驗課;學生使用Java語言,結合MapReduce編程框架,完成數據挖掘和統計分析算法。這樣的大數據實驗室能夠支持Hadoop與分布式系統、數據倉庫與數據挖掘、大數據分析與挖掘等課程的使用。
6 結 語
在信息技術快速發展的今天,各行業對大數據人才的需求激增,如何開展大數據及云計算人才培養工作是目前國內外各層次院校都在思考的問題。我們提出在軟件工程學科下設立數據工程專業方向,并在課程設置和實驗室建設方面進行了初步研究,希望能為同類型的地方本科院校培養應用型新技術人才,為民辦高校和獨立學院不斷提高辦學水平,提供技術性和理論性的重要參考和依據。
參考文獻:
[1] 李國杰. 大數據研究的科學價值[J]. 中國計算機學會通訊, 2012, 8(9): 8-15.
[2] IDC發布最新《數字宇宙研究報告》[EB/OL]. (2012-12-29)[2016-12-21]. http://old.ecas.cas.cn/xxkw/kbcd/201115_93655/ml/xxhjsyjcss/201212/t20121229_3730152.html.
[3] DELL EMC. Digital universe invaded by sensors[EB/OL]. [2016-12-21]. http://www.emc.com/about/news/press/2014/20140409-01.htm.
[4] 中華人民共和國科學技術部. 美國政府出臺大數據研發計劃[EB/OL]. (2012-04-24)[2016-12-21]. http://www.most.gov.cn/gnwkjdt/201204/t20120424_93877.htm.
[5] 新華網. 國務院常務會通過《關于促進大數據發展的行動綱要》[EB/OL]. (2015-08-19)[2016-12-21]. http://news.xinhuanet.com/politics/2015-08/19/c_1116309958.htm.
[6] 中央政府門戶網站. 國民經濟和社會發展第十二個五年規劃綱要(全文)[EB/OL]. (2011-03-16)[2016-12-21]. http://www.gov.cn/2011lh/content_1825838.htm.
[7] 中國國家級經濟技術開發區和邊境經濟合作區. 國外云計算技術概況[EB/OL]. (2014-08-07)[2016-12-21]. http://ezone.mofcom.gov.cn/article/ztxw/201408/20140800689701.shtml.
[8] 何海地. 美國大數據專業碩士研究生教育的背景、現狀、特色與啟示——全美23所知名大學數據分析碩士課程網站及相關信息分析研究[J]. 圖書與情報, 2014(2): 48-56.
[9] IT經理網. IDC: 云計算人才缺口正在加大[EB/OL]. [2016-12-21]. http://www.ctocio.com/ccnews/10704.html.
[10] CSDN. 2014年IT企業招聘趨勢調研報告: 外資企業招聘規模偏大、技術人員比重高[EB/OL]. (2014-01-24)[2016-12-21]. http://www.csdn.net/article/2014-01-24/2818263-IT-survey.
[11] CSDN. 最受程序員歡迎的公司榜單發布: 2015 IT人才招聘趨勢分析[EB/OL]. (2015-01-20)[2016-12-21]. http://www.csdn.net/article/2015-01-16/2823595-careerfocus.
[12] 羅福強, 熊永福. 基于CDIO的云計算與大數據專業人才培養方案[J]. 計算機教育, 2015(1): 52-56.
(編輯:宋文婷)