王宏志,劉顯敏,史 寧
(哈爾濱工業大學 英才學院,黑龍江 哈爾濱 150001)
大數據產業是指以數據生產、采集、存儲、加工、分析、服務為主的相關經濟活動以及相關信息技術服務。大數據產業是智力密集型產業,需要大量專業技術和應用人才,目前具有較全面大數據知識和技能的人才還非常缺乏,難以滿足發展需要。為了保障我國大數據產業的健康快速發展,高等學校承擔著為國家培養大數據基礎研究、產品研發和業務應用等各類人才的社會重任。為更好地構建拔尖人才培養體系,加強體系建設,結合當下人才培養現狀對目前大數據相關職位進行了需求調研工作,本文結合當前需求,提出了可供參考的體系建設,為拔尖人才培養提供了新的角度。
針對網絡公司的職位需求,對目前大數據行業市場進行調研。雖然很多崗位有不同的名字,但職位需求基本相似,根據職位需求,將崗位分為以下五類。
該類崗位主要進行平臺開發工作。按照順序進行進階,最基礎的職位是大數據研發工程師,進階則是大數據平臺開發工程師,最終可以到達大數據平臺架構師的高度。
1.大數據研發工程師。該職位主要進行大數據平臺上的應用開發,屬于應用層開發。一般要求應聘人員為計算機相關專業,有扎實的計算機理論基礎;熟練掌握Java、Python服務端編程,有良好的編碼習慣;深入理解MapReduce,熟練使用Storm、Hadoop和Spark,并閱讀部分源碼;熟練使用HDFS、Hbase、Kafka、ElasticSearch和Solr;深入理解Lucene、ElasticSearch、Solr等,有優化經驗者優先;具備良好的學習能力、分析解決問題能力;具有高度的責任心和團隊合作精神;有大數據平臺產品建設經驗者優先。
2.大數據平臺開發工程師。該職位要求勝任大數據平臺的框架方面的修改工作,需要有非常豐富的開源平臺框架經驗。其基本工作要求為:扎實的數據結構及算法功底,優秀的工程實現能力;熟悉Linux開發環境,精通C/C++、Java;有Storm、Hadoop、Spark、Kafka、Hbase等開源框架經驗者優先;有機器學習知識背景,有實踐經驗更佳;優秀的分析問題解決問題能力、學習能力、團隊合作意識。
3.大數據架構師。該職位需要有非常豐富的工作經驗,并對大數據平臺有非常深入的了解,能夠進行平臺構建等相關開發。基本工作要求為:扎實的Java基礎知識,5年以上的Java Spring研發和大型系統架構經驗,熟悉分布式系統的設計和應用,熟悉大數據領域的開源產品,清楚原理和機制;熟悉Hadoop、Hbase、MYSQL等數據存儲產品使用方法和特性;有基于Kylin或Greenplum等平臺應用研發經驗者優先;有云平臺架構研發經驗和5人以上團隊管理經驗者優先;清晰的邏輯分析和表達能力,熱愛技術,樂于分享,對行業和技術的發展有自己的見解,在大數據領域內有深入的研究和積累者優先;有Spring Cloud Data Flow開發經驗者優先。
該類崗位主要進行大數據平臺的運維工作。其基礎為大數據運維工程師,為系統提供運維工作,其進階為大數據運維架構工程師,負責更加復雜的運維工作。
1.大數據運維工程師。該職位主要對大數據平臺進行運維工作,主要負責日常維護工作。基本工作要求為:計算機相關專業本科以上學歷,2年以上大型系統運營經驗。有監控和容災的實際經驗;具備發現問題、分析問題、解決問題的能力;能出具系統優化的整體解決方案;具備良好的自學能力。責任心強,有良好的對外溝通和團隊協作能力;運營過Hadoop、Spark、Hive、Hbase、Storm、PostgreSQL等相關系統,有從事過海量數據分布式處理、各種分布式計算,或者分布式存儲、分布式計算系統相關的工作經驗。
2.大數據運維架構師。該職位需要有非常豐富的運維工作經驗,并需要從系統架構層面進行運維思考。其基本工作要求為:負責分布式集群的運維,包括版本升級、系統優化、故障處理、集群監控;掌握Hadoop、Hive、Spark、Yarn、Kafka、Hbase、Flume、ES 等組件的安裝、配置、使用和優化;熟悉源碼者優先;熟悉 HDP 者優先;掌握Linux 操作系統的配置、管理及優化,能夠獨立排查及解決操作系統層的各類問題;熟悉至少一門腳本語言(Python/Shell),有自動化運維工具開發經驗者優先。
該類崗位主要進行數據分析方面的工作,分為大數據分析師和大數據算法工程師,其中大數據分析師主要對數據進行基礎分析,而大數據算法工程師則主要通過機器學習和數據挖掘算法進行分析設計,屬于更加有難度的工作。
1.大數據分析師。該職位需要運用數據分析的基本手段對大數據進行分析并生成分析報告。一般要求應聘人員熟悉各種數據挖掘算法(如邏輯回歸、決策樹、貝葉斯、神經網絡等)及其原理,能根據業務分析專題,建立挖掘模型,選擇最合適和高效的算法并實現;熟練使用R、Mahout、SPSS、SAS中某一種或多種分析軟件,熟悉SQL語言;具有海量數據挖掘及分析相關項目經驗,熟悉文本分類、聚類、機器學習,有相關項目經驗者(互聯網分析挖掘經驗、文本挖掘經驗,微博數據可視化和圖片識別經驗)優先;能跟進業務線項目的數據分析工作,完成上線前后的數據調研、效果評估等分析報告;能夠根據產品運營數據,出具產品分析報告,并對產品提出優化建議
2.大數據算法工程師。該職位需要機器學習和數據挖掘的相關知識,并涉及一些算法設計相關內容。基本工作要求為:精通SPSS Clementine、SAS EM等各類型數據分析工具,能制作專業分析報告,精通統計學,數據挖掘技術,尤其是回歸模型、決策樹模型;熟悉常用數據挖掘算法,包括但不限于決策樹、邏輯回歸、支持向量機、神經網絡等;有金融、通信或互聯網某一行業實際數據挖掘項目經驗,并對此行業業務有深刻認識;熟悉Hadoop的體系架構和運行原理,熟悉Hadoop 的MapReduce 原理,有使用Python、Shell、Java的MapReduce開發實戰經驗者優先;熟悉Java、Scala、R、Python至少一種;了解大數據框架Hadoop、Spark等。
這個崗位有其特殊性,既要求對數據分析有一定了解,也要求對大數據平臺有一定了解。基本要求是其中一項突出,另一項需要了解并會使用。其基本工作要求為:要求具備編程、計算機科學相關專業背景。掌握處理大數據所必需的Hadoop、Mahout等大規模并行處理技術與機器學習相關的技能;除了數學、統計方面的素養之外,還需具備使用SPSS、SAS等主流統計分析軟件技能;數據可視化,對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化。
這個崗位主要是負責產品運營,由于其與大數據相關,所以有其專業特殊性。
1.數據產品經理。需要利用大數據分析相關知識對產品進行設計,需要極強的綜合能力。一般要求3年以上數據分析、數據挖掘、推薦系統等相關產品策劃經驗;熟悉DSP、SSP、ADX平臺,了解廣告RTB原理和算法;熟悉精準投放和DMP用戶畫像的領域知識等;熟悉廣告平臺運營模式,充分理解品牌廣告和效果類廣告的投放特點;對機器學習、概率統計、最優化算法原理有深入理解;具備較強的團隊協作能力和溝通能力,思維活躍,學習能力強。
2.數據運營專員。需要利用大數據分析,進行運營體系的構建與支持,需要數據建模等相關知識。要求應聘人員可以根據公司業務發展規劃,構建高效的大數據運營支撐體系,提升大數據對生產經營的支撐能力;根據生產需要,負責個性化分析應用的支撐工作,包括需求分析、口徑管理、腳本開發、數據提取、數據分析等工作;基于大數據分析結果,主導用戶和產品的大數據運營專項策劃并組織實施,確保關鍵運營指標的達成;負責用戶行為數據建模,主動挖掘用戶特征并將結果應用于業務推廣,提升業務推廣的質量和效率;根據公司發展戰略,主動發現運營中存在的問題,并形成大數據分析報告給公司領導或業務部門決策。
具體的職位體系圖譜如圖1所示。其更能直觀地展示出我們的市場調研結果。

圖1 大數據職位體系
大數據的興起與眾多領域的大型數據集的出現直接相關。科學、社會科學、商業、人文和工業都在產生前所未有的原始數據或結構化數據。數據量的增長導致我們通常無法在沒有自動化軟件的幫助下進行直接有效的人工分析。大數據是將計算機科學領域和用于詢問數據提取有用信息的統計領域匯集在一起的新興學科。多領域交叉學科對課程體系設置有了新的要求。
我們根據每個職位的要求,整理出能力點,并根據其具體需求,整理出知識點,根據知識點,結合ACM DSTF中推薦的相關課程體系設置課程,通過對知識點的總結和歸納,使課程在符合學生學習能力的合理可接受范圍。我們將課程分為6大部分。
數據科學嚴重依賴計算和計算設備:收集和存儲數據,了解數據的數字表示影響精度的方式,以及不同處理器類型和配置如何影響計算效率的方式,了解在處理過程中存儲和移動數據。由于大數據專業學生將與其他系統進行交互,因此他們應該能夠開發能夠獨立或與現有軟件和/或工具集成的程序。鑒于它們在許多數據科學應用中的作用,對矩陣表示和操作給予了特殊的要求。該類課程為基礎必修課,主要為學生建立牢固的計算機知識體系。主要包括程序語言設計:Java基礎開發、C++、Python基礎開發(二選一)、計算機系統、數據結構與算法、數據庫系統、計算機網絡、軟件工程等課程。對應職業需求中語言類、計算機基礎類需求,如:Java基礎扎實,熟悉io、多線程、集合等基礎框架;熟悉分布式、緩存、消息、搜索等機制;了解Sring MVC等框架;了解計算機網絡;具有防火墻、入侵防御、VPN等網絡安全系統的應用經驗等。
該課程為大數據方向的基礎課程。在我們日益依賴各種形式的決策數據的數量和質量時,大數據專業學生負有保護數據完整性和正確使用數據的道德責任。數據挖掘的核心是處理、分析和呈現數據,以獲得有價值的信息。分析的基本類型包括聚類、分類、回歸、模式挖掘、預測、關聯和異常值檢測,并注意各種形式的數據,包括時間序列數據和Web數據。該接口的質量顯著影響所有形式的可用性,并包括廣泛的技術:動畫、可視化、模擬、語音、視頻、識別(人臉、手寫等)和圖形。這部分課程包括統計語言編程:R語言編程、應用統計、數據挖掘、實用機器學習、數據管理、數據分析與管理建模、數據可視化等課程。修讀完該部分課程,學生將具備基礎的數據分析能力,明晰基礎的數據分析流程。滿足職業需求中“了解數據挖掘算法如邏輯回歸、決策樹、貝葉斯、神經網絡等及其原理,能根據業務分析專題,建立挖掘模型,選擇最合適和高效的算法;熟練使用統計工具;熟練使用數據分析工具:熟練使用R、Mahout、SPSS、SAS中某一種或多種分析軟件,熟悉SQL語言;熟悉Java、Scala、R、Python至少一種;精通SPSS Clementine、SAS EM等各類型數據分析工具,能制作專業分析報告”等要求。有助于從事數據分析師、數據運營專員等一系列基礎數據崗位。
管理和處理大量數據時,相關的計算問題通常會隨著數據量的增加而增加。大數據應用程序受益于可擴展的數據存儲方法,可能跨越各種計算機,同時便于在適當的時間范圍內進行處理。大數據應用程序還受益于可擴展的數據存儲方法,這些方法可容納大量數據,同時便于在適當的時間范圍內進行處理。大數據專業學生還應該能夠實現和理解數據收集和分析算法,具備基本的算法問題解決技能。他們應該了解算法的時空考慮,以及圍繞數值計算的部分性拉爾問題。機器學習是指用于識別數據模式的廣泛算法,先構建模型,然后生成模型,并可能進行產品化。機器學習方法的一個主要的類別可以描述為“監督學習”,包括分類和回歸的技術;另一類為“無監督學習”,包括聚類和降維技術。數據科學家應了解這些類型的算法,包括此類學習所特有的挑戰和方法。這些方法對數據科學至關重要。數據科學家應該了解他們應用的算法,并做出關于其使用的原則性決策。
“大數據”用來描述真正大型的系統,包括無法容納在單個服務器上的視頻、圖像、手寫等文件。此類系統具有規模問題:如何存儲大量數據,如何確定數據是否高質量,如何以高效的方式處理數據,以及如何獲得有用的見解。這些問題將在規模、數據存儲、高性能計算和復雜性理論標題下討論。這樣的系統可能很復雜,因此要考慮到對大數據應用程序的軟件支持。這類課程為大數據方向的進階課程,包括linux系統的配置與維護、NoSQL與大數據管理系統、大數據工具箱、大數據計算平臺的搭建部署及維護、MapReduce編程、大數據系統調優與運維工具、大數據可視化工具、設計模式(選修)、系統架構開發導論(選修)等課程。修讀完該部分課程,學生預期可掌握大數據平臺的搭建與編程工作,并會對系統進行調優與運維。設計模式與系統架構開發導論兩門選修課程,可為學生提供未來的架構師基礎。學完本部分課程,程度較好的同學可從事架構師見習工作,一般的同學可從事平臺開發工程師、研發工程師、運維工程師、算法工程師等一系列工作。
在技術活動中,大數據專業學生應該以負責任的方式行事,為專業帶來榮譽。對于所學知識,應當積極投入訓練,確保實踐效果,從做中學,及時鞏固所學知識,促進理論與實踐相融合。同時,在實踐過程中,除了熟練知識技能之外,還會遇到課堂上沒有遇到的新知識、新問題,通過進一步學習,擴展知識面,進一步提升自己的專業技能。這部分課程包括大數據課程設計I-III、項目實訓等課程,通過3個課程設計和一個項目實訓,提高同學的動手能力。目前對大數據從業者的項目經驗要求較高,據此設計了本次的實訓課程。對應有Spark、Storm、Kafka等主流大數據計算組件開發和使用經驗;熟練使用Spark機器學習算法包;熟悉高并發、高性能的分布式系統的設計及應用、調優;有基于Kylin或Greenplum等平臺應用研發經驗;熟悉Hadoop ecosystem,包括Hadoop(MapReduce,YARN,HDFS)、Spark、HBase、Hive、Flink、Storm、Drill、Presto、Impala等,具備兩年以上開發和使用經驗等需求,用以豐富同學們的項目經驗。
大數據專業學生掌握大數據相關領域的應用信息,有益于實現知識落地,同時也能把握行業發展方向,啟發研究內容。這部分課程包括工業大數據、金融大數據、教育大數據、商務大數據等。該課程為同學提供了一個了解相關的領域的平臺,大數據的應用范圍廣泛,提早對方向進行了解有助于就業和擇業。
高校是國之重器,國家最優秀的科研人才集中在這里,彌補大數據行業的人才缺口是國家和高校面臨的重要挑戰和機遇。為實現創新驅動和應用引領,必須發揮高校的創新優勢,加強大數據基礎研究,建立數據科學理論體系,在辦學過程中總結數據科學與大數據技術專業的辦學經驗,摸索規律,積極探索出一條適合中國國情的數據科學與大數據技術專業的科學研究與人才培養之路,為國家培養更多優秀的大數據技術專業人才。