吳賀俊?饒洋輝

摘 要:當前,傳統信息技術類專業教育的發展面臨重大挑戰,新技術層出不窮,企業新技術高校不教,教學慣性形成阻力。新工科建設就是要解決工科專業教育滯后于新經濟新技術發展的深層次問題。本文以大數據專業方向課程建設為具體實踐基礎,提出將專業建設中新科目和基礎科目的有機融合,避免“因循守舊”和“沙上建塔”兩個極端,從而主動適應并引領新工科的建設過程。
關鍵詞:大數據;新工科;課程建設;教學內容;能力培養
我國高校都在面向未來布局新工科建設,積極探索更多樣化和個性化的人才培養模式,培養具有創新能力和跨界整合能力的系統工程科技人才。以大數據專業方向課程建設為具體實踐基礎,本文提出將新科目和基礎科目的有機融合,科學選擇安排教學內容,既重視多年來計算機科學專業積累的理論基礎教學,又要開放引入新的教學內容。
具體來說,新科目新內容怎么安排呢?新工科建設“天大行動”和“北京指南”提出的新工科三“新”就給出了方向[1-2]:(1)新理念——要應對變化,塑造未來;(2)新要求——要培養多元化、創新型卓越工程人才;(3)新途徑——要繼承與創新、交叉與融合、協調與共享。
根據以上原則,面向新工科的專業課程建設應有以下三點體現:一要體現未來發展趨勢;二要體現卓越人才培養的高要求;三要體現產學、科教融合,學科交叉,共享共建的新
模式。
大數據專業方向屬于“新興工科方向”。大數據技術是專門應對大規模超復雜關聯數據的分析處理挑戰的一門新型信息技術,其重點關注如何對數據進行智能加工處理,篩選出有用信息,通過對數據的加工進一步挖掘數據的價值。據IDC(國際數據公司)預測:到2019年,大數據技術與服務市場復合年均增長率將達23.1%,而來自大數據分析的年度全球收入將達1870億美元。
大數據技術中的數據源來自于各個行業的方方面面:工業制造、供銷物流、農業生產、交通運輸、生物、醫療、金融、氣象、海洋、航空、航天、軍事等。設計高效的統計分析及機器學習算法,采用高性能的分布式并行計算資源,對這些海量非結構化復雜關聯的數據進行處理,這些是大數據技術的核心任務。這需要信息計算科學中幾乎所有方向科研人員合作,也需要不同科學領域人員協同配合[3]。
信息技術類專業新工科建設中的重點應該放在新工科方向上,促進這些新工科在計算科學上繼續創新、交叉融合。學院以新經濟發展為導向,創新性卓越工程人才培養為主線,循序漸進,在原有專業基礎上,提出了新專業課程建設中新科目和基礎科目的繼承融合發展,逐步開展大數據專業課程建設。
一、信息技術類專業現狀和大數據專業迫切需求
當前,很多高校的工科課程體系多年來變化不大,從當前畢業生和用人單位反饋來看,很多課程體系已經不適合當前經濟社會發展的需要。尤其是新經濟發展帶來以信息技術為核心的革命性的產業變革,由此,我們急需建設新的交叉型信息課程體系。當前高校的計算機科學專業課程尤其是較高年級的課程體系設置過于單一,未考慮實際應用,范圍狹窄,與新經濟新技術發展相脫節,需要引入新專業方向課程以跟上新技術的發展[4-5]。
當前,無論是互聯網行業、金融業,還是服務業都需要大量的大數據人才;各大企業也迫切需要大數據人才來合理利用大數據技術為自身服務。各類單位也越來越重視大數據及相關技術,投入經費逐步增加。我國的綜合性行業巨頭,如華為、百度、騰訊、阿里巴巴、京東等企業,為了應對大數據挑戰,均招納了非常多的大數據人才和數據分析人才,并且京東、騰訊、阿里巴巴公司近幾年對大數據人才的招納力度大幅度上漲。由此可見當今時代大數據人才的稀少以及珍貴。根據中國通信研究院的預測,5年內國內大數據相關專業人才的缺口將高達130萬左右。
數據科學與大數據技術專業畢業生的就業面要比計算機或者純數學廣泛很多。一方面,大批畢業生可進入IT行業從事大數據的工作,如國外的Facebook和Amazon等,中國的京東、淘寶等公司也急需數據科學與大數據技術專業相關人才;另一方面,隨著很多傳統行業數據的急劇增長,如信用卡刷卡記錄、顧客消費數據、實時監控錄像數據等,傳統行業對數據分析方向的人才也呈現出了大量需求。
二、大數據專業準備工作
作為數據科學的學院,在新工科建設中,我們較早地開始關注、研究并逐步深度探索大數據這一新興方向。我們認為,新的專業或方向建設應該做好充足的準備工作。前沿方向尤其應該“科研先行、產業結合、前沿教學、教研相長、產學共建”。
2015年開始,學院開展了多個關于大數據方向的科研課題,以人工智能、數據庫等研究領域的教師和科研人員為主導,形成以大數據為核心,涵蓋人工智能、數據庫、高性能計算、云計算、網絡安全、生物醫藥信息等相關領域的研究團隊。
本學院建立了一個以“天河二號”超級計算機為依托,涵蓋高層次人才培養、軟件技術研發和支撐、面向產業和科研的高水平應用服務“三位一體”的新型管理運行機制。學院籌建了“大數據科學研究中心”,與“廣州超算中心”形成了“一院兩中心”的發展格局,互相支撐、共同發展。學術研究上形成了“數據、智能、計算”的三角結構,三者互為依托,協同發展。
但是,學院在人工智能和交叉領域方向上還相對薄弱,尤其是在專業數據挖掘、統計分析、深度學習方向上只有人數較少的團隊從事研究。然而,大數據技術中關鍵一環是人工智能與傳統工程產業結合、交叉應用:首先利用人工智能方法采集過濾清洗數據,其次采用高級統計分析方法或者機器學習方法進行關聯分析、分類或者檢測識別。以上都需要人工智能算法在理解該數據所屬工程產業的基礎上才能做到高準確率的分析識別。
學院在三個方面做了準備工作:(1)引進人才。學院從海外引進了生物信息、人工智能等專業人才。(2)成長培養。學院通過科研項目、教育部高校人工智能教師培訓等方式,培養現有教師團隊,跟進前沿技術發展。(3)結合產業。通過產學研合作,讓工科的科研能夠結合實際,尤其是非基礎理論的應用類工科的研究,需要接地氣,解決實際問題。產業界擁有很多數據資源但欠缺前沿技術,而高校科研機構缺乏豐富的數據資源但在前沿技術領域積累了大量研究成果,所以二者合作是共贏的。同時,由于大數據領域是前沿研究,所以不存在產業浪費學術時間的問題。
經過科研項目和工程實踐的積累,下一步就是小范圍開展前沿教學。本學院在計算機科學專業中分設了不同方向,包括人工智能與大數據方向、超級計算方向等,每個方向以40人為上限。在課程設置上,也從計算機科學專業延續而來,循序漸進,注重繼承與創新的統一。
三、大數據專業課程建設探索
大數據專業方向的培養目標是讓學生能夠系統掌握數據科學以及統計學、人工智能等基礎理論、基礎知識和基本技能與方法,使得學生在課程學習和實踐后具有較好的數據工程實踐能力、較強的學習能力和很強的數據科學研究素質。學生畢業后將能從事大規模數據庫的開發維護、各類數據的挖掘與分析、商業分析與預測、工農業產品的品質提升等相關大數據工程應用,成為數據計算、人工智能及其相關技術領域的系統設計研發、算法研發、數據科學研究與教學的復合型人才。
大數據專業系統能力培養要求則分為兩個層面:
(1)掌握大數據科學相關的基礎知識,掌握大規模、異構、多源、多維度、分布式、結構化和非結構化數據存儲技術以及網絡數據搜集及分布式存儲技術,掌握格式化數據分析挖掘的基本方法,具備數據建模能力和數據可視化展現能力。
(2)對超級計算機、高性能計算、數據中心等基礎設施有較好的了解,具有比較系統的大數據工程實踐經驗;具有較強的利用機器學習方法和運用高級統計學進行數據分析統計的能力,能夠綜合高效應用并行算法和計算資源如GPU集群、FPGA板等解決實際大數據工程問題。
根據以上培養目標和專業基礎培養要求,我們可以看出該專業方向與計算機科學專業的重合以及區別。
首先,重合部分主要是在專業基礎部分。包括:數學分析、概率論與數理統計、高等代數、回歸分析、數值計算、程序設計、數據結構與算法(含實驗)、算法分析與設計、機器學習與數據挖掘(計算機科學專業選修課程)、數據庫系統原理及其實驗課程、人工智能(計算機科學專業學習人工智能導論)。
其次,需要在繼承計算機科學專業課程的基礎上,繼續發展大數據專業方向的四大系統課程,即:操作系統、編譯原理、計算機組成原理和計算機體系結構。由于大數據專業方向后續還有很多分布式系統、并行體系結構、超級計算機原理等高級的系統基礎課,并且,如果完全重合計算機系統類課程會導致學時不夠用,學習內容過多等問題,因此我們這里把四大計算機系統類課程整合成一門課程——計算機系統。該課程結合后續實踐課程,高效地培養學生計算機系統能力。
再次,與計算機科學專業課程不同,大數據專業核心課程主要包括:分布式與并行計算、高級人工智能原理、大數據處理(包含高等統計學、貝葉斯統計、多變量分析、并行機器學習算法、大規模數據并行處理)、高性能計算程序設計基礎、超級計算機原理與操作、多核程序設計、圖論及其應用、算法設計與應用基礎、高級編程技術、智能算法及應用、機器學習與數據挖掘、云計算概論、優化理論、生物信息學引論等。
最后,大數據專業方向的主要實踐性教學環節和主要專業實驗包括:程序設計實驗、數據結構與算法實驗、操作系統原理實驗、高性能計算程序設計基礎實驗、計算機組成與原理實驗、并行機器學習算法實驗、大數據應用實踐、程序設計與數據結構綜合實踐、高級數據庫技術及實踐、多核程序設計與實踐、數據分析實踐、云計算項目實踐、超級計算實踐、專業技術綜合實踐等。
基于以上課程分析,我們探索針對性地建設教研相長、產學共建的共享共建開放實踐教學平臺。該平臺的系統架構如下圖所示。該平臺的基礎是一個遠程網絡虛擬實驗室,通過虛擬現實設備和仿真節點,學生可以遠程實驗及硬件交互,例如遠程運行超級計算程序和測試算法等。
該平臺將在使用中持續開展產學共享共建,支持其他學院和其他經過學院認證的科研及企業機構上傳題目、標準答案、評價標準,經審批后擴充教學平臺題庫等。平臺建設采用通用框架,按照平臺定義的協議由教學助理導入課程庫、實驗庫、題目庫和考核庫,第三方機構提供的課題由管理員審批后擴充題目庫。框架協議由平臺的內核系統通過各種模塊支撐。
參考文獻:
[1] “新工科”建設行動路線:“天大行動”[J]. 高等工程教育研究,2017(2):24-25.
[2] “新工科” 建設指南:“北京指南”[J]. 高等工程教育研究,2017(4):20-12.
[3] 何海地. 美國大數據專業碩士研究生教育的背景、現狀、特色與啟示[J]. 圖書與情報,2014(2):48-56.
[4] 鄭慶華. 以創新創業教育引領創建新工科教育模式[J]. 中國大學教學,2017(12):8-12.
[5] 馮亞青,楊光. 理工融合:新工科教育改革的新探索[J]. 中國大學教學,2017(9):16-20.