郭嬌
校長強調了兩點:創新實驗室(i-lab)和慕課平臺(edx)。在介紹edx時,按照傳統,校長不忘“黑”一下競爭對手耶魯。她說在edx上的cs50(一門面向新生的計算機導論課程)如此受歡迎,連耶魯都決定把它列為大一課程。耶魯改變它對現代技術敬而遠之的態度,還直接引進哈佛的課程,這在兩校相愛相殺的200多年歷史上是前所未有的。在這背后的推動力量就是cs50、i-lab、edx所代表的顛覆高等教育的技術革命。它不僅體現在校園里新建的創新實驗室、課程平臺、創業空間等,更影響到課程設計、專業設置等核心元素。提到的這些新生事物是否曇花一現?我們暫無結論。相比之下,課程、專業等方面發生的變化更值得關注。這種變化傳遞出來的關鍵信息究竟是什么?對選擇課程、專業及未來的職業方向有何啟示?
集體刷夜“黑客馬拉松”
這門讓哈佛與耶魯共同熱愛的cs50到底有何魅力?
2007年以前,選修這門課的學生從來沒突破過200人。即使臉書創始人扎克伯格回母校捧場,上座率也稀稀落落。但是從2007至2014年間,這門課的選修人數一路攀升,超過了800人,成為了哈佛最受歡迎的本科課程。從課程內容來看,它覆蓋了算法、程序設計、數據存儲等計算機科學的入門知識。據統計,選修這門課的78%學生都沒有計算機科學的背景知識,所以是一門計算機入門課程。從授課方式來看,教師David Malan年輕有活力,講解生動,會結合社會熱點,還有一支來自不同學科的“助教軍團”。從課程設計來看,cs50強調學生的實際動手編程能力與團隊合作能力。在期末考試之前會集體刷夜“黑客馬拉松(cs50 Hackathon)”,從晚7點到早7點,學生們聚在一起,吃著披薩喝著可樂做項目,助教們也全程參與提供協助。最后一節課是開放日(cs50 fair),學生們展示做的手機APP、游戲、網站等。開放日就像哈佛新生的共同節日,他們邀請親朋,還有其他教授和企業代表出席。在哈佛新生里,不學cs50就成了少數派,尤其是不懂計算機科學還不學cs50,那就更罕見了。
為什么cs50大受歡迎?我認為,驅動力來自計算機科學里算法和數據可視化這兩個領域的突破。這種突破讓某些過去不可能實現的研究變得不再遙遠。
3月15日福斯特校長講話前,哈佛還派了兩位領軍教授來中國,與我們分享他們最前沿的研究成果。一位是生物化學與物理的雙科教授莊小威(本科畢業于中科大少年班,伯克利物理學博士,34歲成為哈佛正教授,40歲成為美國科學院院士,曾獲麥克阿瑟天才獎)。她在2006年首創STORM方法,實時揭示復雜的生物體中單個分子及其變化過程。傳統的方法通過熒光染色后,只能觀察到多個分子的共同運動。莊小威的創新可以把單個分子分離出來成像,再把這些單個分子重新“縫”在一起,還原整個復雜的變化過程。這種創新推動了生物領域的很多重大研究,包括對老年癡呆等疑難病癥的研究。對分子進行分離并重組,需要無數次的隨機實驗,這離不開算法;對整個過程進行全面觀測與動態展示,離不開可視化。
另一位教授Ali Malkawi加入哈佛設計學院之前曾在賓夕法尼亞大學任教多年。如果說莊小威的研究是微觀,聚焦單個分子及其變化過程,那么Ali的研究就是宏觀,致力于設計整個城市、國家甚至世界的可持續發展系統。他的研究興趣在于通過計算機模擬、高級可視化等技術來優化與能源消耗相關的設計方案,小到一棟房屋,大到整個世界。以卡塔爾可持續評估系統為例,在五年的項目執行期內,這套評估標準被奧委會認可并用于包括2022年卡塔爾世界杯在內的多項國際比賽,還被卡塔爾當地的大學引入并開發成環境設計課程。未來Ali計劃把這套評估標準推廣到世界各國,形成全球可持續評估系統。在這套系統的設計、展示、模擬、評估各關鍵環節里,算法和數據可視化的重要性一再體現,例如通過可佩戴的模擬設備測試一棟房屋,在屏幕上會顯示出紅色的耗能最大的位置是屋頂。
各自分享后,兩名教授驚喜地發現了共同愛好——算法和數據可視化。400多名校友見證了他們的驚喜和默契。他們表示回哈佛后,會促進各自負責的研究中心跨領域合作。
170個行業61種職業
對生物或能源環保都不感興趣,還用算法和數據可視化嗎?從若干關系人類未來的重大主題里,哈佛選擇了生物醫學與可持續發展來突出使命和優勢。選擇這兩個領域有偶然性,但是以算法和可視化為代表的數據科學,將對我們的生活產生更深遠的影響。數據科學,是對具有時效性與多樣性的海量數據(即大數據)進行存儲、選擇、處理、分析與可視化的科學。2011年麥肯錫全球研究院發布《大數據:創新、競爭和生產力的下一個新領域》,預測數據革命將顛覆健康、零售、政府、制造等各大行業,并估計在2015年,美國共有170個行業的61種職業會因為這場數據革命而改變。考慮在這些職業行業里就業,選修cs50這樣的課程,提高算法和數據可視化方面的能力,就成了一項面向未來的必備通行證。
數據革命給這些職業行業帶來了哪些變化?提出了什么新的能力需求?在麥肯錫報告里,這種能力需求以及對應的職業行業被分為三類:深度分析師(deep analytical)、大數據高手(big data savvy)和技術支持人員(supporting technology)。深度分析師是在統計、機器學習等領域接受過高級訓練后能進行數據分析的人,包括數學家、統計學家、精算師、經濟學家、行業工程師、流行病學家等。大數據高手是具有基本的統計和機器學習知識,包括經理、工程師、生物科學家、社會學家、市場分析人員等。技術支持人員是數據庫管理人員和程序員等,包括計算機軟件工程師、系統工程師等。據麥肯錫預測,在2015年,美國對深度分析師的需求是14~19萬人,對大數據高手的需求是150萬。勞動力市場反饋信息也驗證了這種需求,2014年美國最受歡迎的三種工作分別是應用數學家、(已經獲得終身教職的)大學教授和統計學家,難怪2012年10月的《哈佛商業評論》引用Google首席經濟學家Hal Varian對數據科學家的評價,說這是“未來十年最性感的職業”。
究竟怎樣才能成為一名數據科學家?除了數學、統計、計算機等傳統學科,還有哪些新的選擇?如果考慮出國留學,紐約大學2013年啟動了數據科學的碩士項目,每年招30人。如果考慮在國內深造,清華2014年跟青島共建了數據科學研究院,由信息、公管、經管、社科、交叉信息研究院、五道口金融學院等6個學院聯手推出,首次招生從清華內部選出150個本科畢業生攻讀碩士,方向包括商務分析、社會數據、大數據與國家治理等。如果考慮在線課程,Coursera上推出了約翰霍普金斯大學的數據科學專業(data science track)的證書,為期4周,包括9門課程,費用470美元。不需要證書的話,可以考慮零成本自學。想在教育領域里做一名數據科學家,可以在線學習哥倫比亞大學Ryan Baker教授在edx上的《教育、分析與學習》課程,熟悉他推薦的Rapidminer或其他常用的數據挖掘工具。
哈佛和耶魯的新生都選修計算機入門課程,紐約大學和清華大學都開設數據科學的碩士項目,edx和Coursera兩大慕課平臺都提供平價甚至免費的數據科學課程,生物和能源環保等研究前沿領域的教授都需要精通算法和數據可視化的人才,麥肯錫報告估算在2015年美國需要上百萬的大數據高手,Google里的專家預測這種需求在未來十年會一直存在,那么我們還有什么理由不行動起來?
責任編輯:尹穎堯