文/金耀輝 符冰 王罡 王永坤
上海交通大學基于數(shù)據(jù)掀起創(chuàng)新浪潮
文/金耀輝符冰王罡王永坤
學生的參與度、想象力和數(shù)據(jù)分析能力超乎想象,甚至通過數(shù)據(jù)挖掘發(fā)現(xiàn)了校園管理的盲區(qū)。

隨著高等教育信息化水平的不斷提升,產(chǎn)生并積累了大量的數(shù)據(jù),過去這些數(shù)據(jù)封閉、沉睡、孤島現(xiàn)象嚴重,2015年國務院《促進大數(shù)據(jù)發(fā)展行動綱要》中明確提出,要大力推動政府信息系統(tǒng)和公共數(shù)據(jù)互聯(lián)開放共享,加快政府信息平臺整合,消除信息孤島,推進數(shù)據(jù)資源向社會開放。數(shù)據(jù)開放將會有力推動產(chǎn)業(yè)的創(chuàng)新發(fā)展,培育新興業(yè)態(tài),促進分享經(jīng)濟的發(fā)展。
互聯(lián)網(wǎng)的普及促進了開源文化,也推動了開放數(shù)據(jù)運動。嚴格意義上講,維基百科定義的開放數(shù)據(jù)(Open data) 指的是一種經(jīng)過挑選與許可的數(shù)據(jù),這些數(shù)據(jù)不受著作權、專利權以及其他管理機制所限制,可以開放給社會公眾,任何人都可以自由出版使用,不論是要拿來出版或是做其他的運用都不加以限制。但在目前絕大多數(shù)信息系統(tǒng)封閉的現(xiàn)實下,依據(jù)不同的應用場景,制定不同類型的數(shù)據(jù)開放和共享可用規(guī)則更有操作意義。
簡單來說,數(shù)據(jù)若想被認作是“開放”的,其必須滿足:1.可訪問,通常意味著在網(wǎng)上公開發(fā)布;2.以機器可讀的格式提供;3.具有允許任何人訪問、使用和分享的許可證——可以是商業(yè)的,也可以是非商業(yè)的。
世界銀行發(fā)布題為《2016世界發(fā)展報告:數(shù)字紅利》的報告,盡管互聯(lián)網(wǎng)、移動電話和其他數(shù)字技術在發(fā)展中國家快速推廣,預期中的數(shù)字紅利,如更高的經(jīng)濟增長、更多就業(yè)機會以及更好的公共服務卻沒有如期而至。互聯(lián)網(wǎng)通過三種重要機制推動發(fā)展,促進包容、提高效率、推動創(chuàng)新。世行解釋了三種機制如何作用到企業(yè)、個人和政府。
按照世行這個思路,筆者嘗試用包容、效率、創(chuàng)新三種機制作用到大學校園中三個主體:教授、學生和管理,關于教授和學生的部分限于篇幅,不贅述。管理部門在事前事中事后,可以利用互聯(lián)網(wǎng)技術鼓勵師生更廣泛地參與,更快速地了解主體需求、適時調(diào)整決策、評估決策效果。最終,高校的創(chuàng)新成果需要得到社會的認同,為社會培養(yǎng)更多的高水平有責任感的人才,教授的學術追求能得到更多的社會支持。所有這些的核心要求是管理部門的數(shù)據(jù)能力提升,大數(shù)據(jù)時代需要重新定位高校信息化部門。
數(shù)據(jù)是智慧校園的基礎,數(shù)據(jù)平臺作用是數(shù)據(jù)的管理和共享,包括數(shù)據(jù)采集、治理、存儲、計算、應用等等。高等學校的數(shù)據(jù)產(chǎn)生除了教務、科研、財務、人事和資產(chǎn)等核心業(yè)務系統(tǒng),隨著高校信息化建設的不斷完善,數(shù)據(jù)逐步延伸到校園文化、學工、校友等內(nèi)涵建設,這類數(shù)據(jù)以結構化數(shù)據(jù)為主,但由于各種原因,數(shù)據(jù)質(zhì)量普遍不高,需要加強數(shù)據(jù)治理。網(wǎng)絡信息安全在高等教育領域越來越受到重視,各高校加強了網(wǎng)絡流量和系統(tǒng)日志的收集,這類數(shù)據(jù)量巨大,異構復雜,同時還需要有實時處理能力。物聯(lián)網(wǎng)、視頻監(jiān)控網(wǎng)的應用在各高校也得到了應用,社交網(wǎng)絡和輿情新聞受到高校宣傳部門的關注,這些都是非結構化多媒體數(shù)據(jù),對這類數(shù)據(jù)的分析應用各高校都在探索中。不同于一般企業(yè)的數(shù)據(jù),高校的統(tǒng)一身份認證和一卡通系統(tǒng)普遍應用,因此上述幾類數(shù)據(jù)都可以通過身份數(shù)據(jù)關聯(lián)起來。
在建設數(shù)據(jù)平臺過程中,雖然有很多方案可以選擇,架構也日趨成熟,但目前還沒有一個一站式方案解決采集、治理、存儲、計算和應用等所有問題。尤其在上海交通大學這樣的以科研創(chuàng)新為主的高校,不僅要滿足日常信息系統(tǒng)業(yè)務的需要,更要滿足科學研究和教學創(chuàng)新的需要。因此,我們的目標是完全獨立地使用開源社區(qū)的解決方案來搭建一個一站式的共享數(shù)據(jù)、計算和代碼的數(shù)據(jù)平臺。我們的平臺完全使用開源軟件,自己選取設計組件,包括了Hadoop、Cassandra、Kafka、Gitlab、OpenRefine、Kibana、Grafana、Jupyter等20多個開源軟件,自己搭建和運維。開源軟件代碼公開并且由開源社區(qū)維護,非常適合高校這種IT經(jīng)費相對較少但是智力資源較多的環(huán)境。我們的平臺用于校內(nèi)部分公開服務,也定期提供給數(shù)據(jù)大賽這種大規(guī)模、高強度、集中式、密集計算的場景使用。
在開放數(shù)據(jù)門戶建設方面,我們采用了CKAN開源軟件搭建了data.sjtu.edu. cn。CKAN是可以方便搭建集數(shù)據(jù)發(fā)布、數(shù)據(jù)共享、數(shù)據(jù)搜索和數(shù)據(jù)使用為一體的管理平臺,并且提供了強大而完善的RPC APIs供用戶調(diào)用。它的基本組成是數(shù)據(jù)集和組織,數(shù)據(jù)集是數(shù)據(jù)存儲的基本單元,其中可以包含多個資源文件,提供豐富的元數(shù)據(jù),同時可以方便快速地搜索和下載使用。組織是用來創(chuàng)建、管理、發(fā)布數(shù)據(jù)集集合的,用戶可以在組織中扮演不同的角色,并被賦予不同級別的權限來創(chuàng)建、編輯和發(fā)布數(shù)據(jù)。CKAN已被美國、英國、澳大利亞部署用于國家層面的政府開放數(shù)據(jù)平臺建設。上海交通大學在國內(nèi)較早使用CKAN,Bing用CKAN關鍵詞搜索,data.sjtu.edu.cn網(wǎng)站排名第三,第一是CKAN官方網(wǎng)站,第二是CKAN的維基百科。
上海交通大學于2015年在國內(nèi)高校率先舉辦了智慧校園開放數(shù)據(jù)大賽,我們開放了2014年8月~ 2015年3月WiFi網(wǎng)絡、一卡通、氣象三個數(shù)據(jù)集。網(wǎng)絡數(shù)據(jù)集由上海交大 WiFi 網(wǎng)絡用戶的上網(wǎng)流量統(tǒng)計產(chǎn)生,該 WiFi 網(wǎng)絡覆蓋交大主要校區(qū),WiFi 熱點涵蓋了教室、宿舍、公共活動建筑以及部分室外開闊場地,包含了20000個匿名用戶,1200萬條數(shù)據(jù)記錄,包括上網(wǎng)地點、上網(wǎng)時間、應用類型等。用戶特征包括了性別、年齡、年級、本科或研究生等。一卡通數(shù)據(jù)集由上海交通大學一卡通的消費記錄產(chǎn)生,消費包括了食堂餐飲、洗浴、超市購物等,包含了30000匿名用戶、300+校園商戶、420萬交易流水。氣象數(shù)據(jù)包括了上海氣象局交大觀測點每10分鐘采集的數(shù)據(jù),溫度濕度風速降水等14個氣象要素。
大賽吸引了校內(nèi)外500多人參與,經(jīng)過宣講會、數(shù)據(jù)訓練營、初賽決賽,最終60個隊伍提交作品,冠軍由中科院聯(lián)隊獲得。學生的參與度、想象力和數(shù)據(jù)分析能力超乎想象,甚至通過數(shù)據(jù)挖掘發(fā)現(xiàn)了管理的盲區(qū)。
大賽請到了復旦大學公管學院、校內(nèi)電信學院、管理學院、數(shù)學系、工業(yè)設計系等多個院系的專家教授以及學校后勤集團、贊助企業(yè)、投資人,匯集各方力量,從可行性的角度共同商討智慧校園開放數(shù)據(jù)環(huán)境下的創(chuàng)新創(chuàng)業(yè)機會,促進作品以校內(nèi)應用或創(chuàng)業(yè)項目的形式落地。
大賽直接孵化了科賽學生創(chuàng)業(yè)團隊,目前已經(jīng)成為國內(nèi)知名的大數(shù)據(jù)競賽平臺,獲得了數(shù)百萬的天使投資。大賽的所有成果也在kesci(www.kesci.com)網(wǎng)上開源。開放數(shù)據(jù)的理念在上海交通大學也催生了多個學生創(chuàng)業(yè)團隊,比如邁科技致力于高校科技成果轉化,獲得了數(shù)百萬天使投資。執(zhí)楠信息是上海交通大學與上海氣象局共同孵化的創(chuàng)客團隊,利用氣象開放數(shù)據(jù)研發(fā)了可穿戴設備“氣象徽章”,得到了國家氣象局的高度肯定。
數(shù)據(jù)開放可能會涉及國家安全、商業(yè)機密和個人隱私,因此數(shù)據(jù)開放共享的同時一定要做好風險防范,加強法規(guī)監(jiān)管。對于數(shù)據(jù)的誤讀也是數(shù)據(jù)開放共享中的主要風險,由于院校合并、部門調(diào)整、集成商變更等原因造成目前高校基礎數(shù)據(jù)的質(zhì)量普遍不高,數(shù)據(jù)沖突、數(shù)據(jù)缺失、數(shù)據(jù)錯誤、數(shù)據(jù)雜亂導致分析結果不可信,因此需要加強數(shù)據(jù)治理。
我們的思路是做好學校的數(shù)據(jù)編目、數(shù)據(jù)資產(chǎn)和數(shù)據(jù)血緣的梳理,聯(lián)合業(yè)務部門共同做好數(shù)據(jù)治理以及開放共享風險評估。這里我們強調(diào)風險評估一定是基于應用而不是基于數(shù)據(jù)集的,不同的應用可能并不需要原始數(shù)據(jù),僅僅需要脫敏數(shù)據(jù)或者統(tǒng)計數(shù)據(jù)。然而,由于確定數(shù)據(jù)應用風險無經(jīng)驗可循,需要業(yè)務部門付出很多額外精力,對于風險評估可能存在潛在的消極影響。
他山之石,可以攻玉。我們借鑒了美國華盛頓大學的案例。華盛頓大學信息技術中心設立了信息集成與分析部門,該部門負責數(shù)據(jù)集成、元數(shù)據(jù)管理、信息設計與架構、數(shù)據(jù)倉庫、商務智能、數(shù)據(jù)管理和分析工具等技術解決方案,為學術和管理提供決策支持,并提供培訓服務。這個技術部門接受數(shù)據(jù)管理委員會的指導和監(jiān)督,數(shù)據(jù)管理委員會由教授和職能部門官員共同組成。各類系統(tǒng)應用和教職員工可以向數(shù)據(jù)管理委員會申請訪問數(shù)據(jù)。
(為上海交通大學網(wǎng)絡信息中心)