☉華東師范大學數據科學與工程學院 王 偉
在上一期的《摭談數據科學在中學通識教育中的作用》一文中,我們給大家介紹了以“思考點”和“實踐點”為中心的中學通識課程的重要性,并提出了“數據科學作為一門通識課程”的觀點.隨著2017年教育部新一輪的高中課程標準的更新,數學與信息技術兩門基礎課程備受矚目,其也是和數據科學最為密切相關的課程.本期我們就“如何開設中學數據科學通識課程”這一話題給大家做進一步的闡釋,同時也看看高中課程標準的改革是如何對數據科學的普及起到支撐作用的.
要說清楚什么是數據科學,首先要把這個詞放到數據學科(或數據專業)這個更大的語境下去考量.雖然當下的數據學科還沒有像其他傳統學科一樣標準化,但不妨礙我們從自身的認識出發來進行探討.在現階段,可以初步認為數據專業至少包括下面四個方面的內容:
數據學(Dataology):研究探索數字空間中數據界(Data nature)的理論、技術以及相關方法,對象是數字空間中數據界里的數據,以此來獲悉數據的類型、狀態、屬性、變化形式以及變化規律,即數據專業的數據本體內涵;
數據科學(Data science):是以數據為中心,通過計算思維與數據思維的方法,來理解我們所處的世界,并實現問題的求解,即數據專業的學科方法內涵;
數據工程(Data engineering):支持數據學和數據科學的工程實現,即為數據相關基礎設施、數據全部生命周期管理過程、數據科學過程方法論和工具、數據處理與分析系統、數據分析編程語言、可視化工具等,即數據專業的工程實現內涵;
數據道德與職業行為準則(Data of Ethics&Professional Conduct):在數據的整個生命周期過程中所可能涉及的道德規范、社會問題、倫理問題、職業行為準則等,即數據專業的道德與職業內涵.
我們首先來區分一下數據、信息和知識這三個概念.數據是數字空間中的個體;信息是自然世界及人類社會中的各種現象;知識則是通過實踐得到的認識和經驗.數據是信息、知識的符號表示或者是載體,然而數據自身并非是信息或知識.故數據學所研究的對象并不是信息或知識,而是數據;若是對數據進一步研究,不僅能夠認識自然、生命和行為,還能獲得信息和知識.
復旦大學的朱楊勇教授認為,人類在探索現實自然界和人類社會時,用計算機在處理人-自然-社會的整個過程中,一個復雜且龐大的數據世界應運而生.自從數據爆炸以來,人們除了生活在一直以來存在的自然界外,還生活在新的數據世界中.人類能夠通過探索數據界來了解世界,同時更需要探索數據界中的各種現象以及規律,這即為數據學的任務.能夠預見到,目前全部科學研究領域,都會形成其相應的數據學,并且伴隨著數據學的發展,更多的科學研究工作將會直接針對數據進行,以此認識數據、自然、社會以及人類的行為.
從這個角度看,數據學(Dataology)和美食學(Gastronomy)非常類似,前者是研究數據界中的數據,研究并認識數據的各種類型、狀態、屬性及其變化形式和變化規律,而后者則是研究自然界中的各種食材,研究并認識這些不同食材的類型、色澤、味道、以及烹飪加工變化中的形式與規律;廚師以食材作為原材料,利用菜譜和各種廚具,做成美味佳肴,而數據科學家則以數據為原材料,借助模型、算法和軟件工具,形成數據產品和應用洞見.
因此,數據學所包含的研究對象、目的以及方法等都與現有的計算機科學、信息科學乃至統計學有著根本上的不同.
鄂維南院士曾這樣論述數據科學所包含的兩方面內容,即為:用數據的方法來研究科學、用科學的方法來研究數據.前者的包含面很廣,囊括了地理信息學、神經信息學、數字地球、生物信息學、網絡信息學、天體信息學、商務智能與社會計算等多個領域.后者囊括了數理統計、數據挖掘、模式識別、機器學習、數據庫、信息管理、數據可視化等領域.故從技術的角度來看,前者關注的是數據技術如何在各行各業中發揮作用;后者關注的則是如何用信息技術收集、傳輸、處理、存儲和顯示數據.
“數據科學”概念的出現要早于我們今天炒的熱火朝天的“大數據”,其研究的并非只是大數據,隨著數據量的井噴式增長,數據科學在其中扮演的角色也越來越重要,同時這也使得數據科學獲得更廣泛的理論內涵和實踐意義.
上世紀六十年代《數據分析的未來》一書中,J.W.Tukey就預見了數據分析的新方法將會成為一門新的科學.而在七十年代,P.Naur在《計算機方法的簡明調查》中第一次定義并提出了數據科學是“一門研究數據處理的科學,創立之初,數據與其所代表的事物之間的關系隸屬于其他學科領域的研究范疇”.
數據科學的發展與計算機、互聯網、大數據緊密相關,是以問題為根本指導的交叉型學科創新和新的知識體系.因此,與數據學以數據為導向不同,我們認為數據科學的核心是以問題為導向的.
基于上述內容,按照計算機科學中流行的計算思維的提法,數據科學可以定義為:以數據為中心,通過計算思維與數據思維的方法,來理解我們所處的世界(科學),以及對現實問題的求解(工程).其最重要的思維方式是數據思維,簡單來說就是以數據為中心的問題求解.這也是貫徹后面中學數據科學通識課程中最重要的一條線.
數據思維是基于計算思維,因此數據思維的養成自然也就包括計算思維的養成,但數據思維可以解決部分用傳統計算思維所解決不了的問題.
“數據工程”和上面所說的“數據學”與“數據科學”有什么區別呢?
實際上,現代“科學技術”中包含了科學、技術與工程三個不同領域或不同層次.科學,是對外在客觀世界的本質規律的一種探索與認識.其主要形態即為發現(Discovery),主要手段是研究(Research),其獲得的成果則大都是學術論文或專著.技術是溝通科學和工程的橋梁.其主要形態即為發明(Innovation),主要手段是研發(Research&Development),其主要成果是專利以及相關論文和專著.工程是科學與技術的應用,是通過創新思想(New idea)來對現實中的新問題進行求解(Solution).其形態是綜合集成(Integration),手段主要是設計(Design)、制造(Manufacture)、應用(Application)與服務(Service),主要的成果是產品、作品、工程實現與產業化.科學家的工作是發現,工程師的工作是創造.
有了這些概念后,回過頭再來看就比較明白了.數據科學是以問題為導向對自然世界和數據世界的本質規律進行探索與認識,是用創新的思想對現實世界中的問題進行求解;數據技術是數據科學與數據工程之間的橋梁.包括數據的采集與感知技術、數據的存儲技術、數據的計算與分析技術、數據的可視化技術等;數據工程則是數據科學與數據技術的應用和歸宿,是利用工程的觀點進行數據管理和分析以及開展系統的研發和應用,是支持數據學和數據科學兩類活動的工程實現,其包括數據基礎設施、數據全生命周期管理過程、數據科學過程方法論和工具、數據處理與分析系統、數據分析編程語言、可視化工具等.
有了上面的認識,我們可以看到,數據科學就是研究數據的產生、獲取、存儲、傳輸、處理、可視化、利用及其相互關系的一個當代科學的前沿學科,對幾乎所有其他學科都有很強的協同性和滲透性,體現出整個基礎學科在大數據時代科技進步中的先導作用.
今天,人類處于一個科學高度分化又高度綜合的時代,數據科學在整個科學體系之中將是發展最迅速的領域,充當著人類發展最強大的引擎,其成為支撐學科交叉、技術創新、經濟發展的主導力量,向全社會全方位滲透,并推動人類社會不斷轉型.
數據科學是一門典型的跨專業學科,第一張關于“數據科學”概念的韋恩圖是由Drew Conway在2010年制作.圖中的中心部分是數據科學,韋恩圖表明了數據科學是數學、統計學、計算機、編程和領域專業知識的組合.

圖1 數據科學的韋恩圖

圖2 數據科學的五大要素
可以將數據科學總結為三大支柱和五大要素.
三大支柱分別為數據學(Dataology)、分析學(Analytics)和算法學(Algorithmics);而五大要素則包括數據思維、數學基礎、算法分析、工程技術和領域應用,如圖2所示.
(1)數據思維:即數據驅動的問題求解,包括計算思維和統計思維.
(2)數學基礎:以數學和統計學為基礎的數據分析方法.
(3)算法分析:問題求解與數學分析方法的具體落實,通過作用在數據之上的算法來實現.
(4)工程技術:即數據采集、數據存儲、數據計算、數據分析、數據展示等數據管理全生命周期技術.
(5)領域應用:結合領域知識,數據科學在各個行業的應用.
在該模型下,利于我們獲悉數據科學的相關知識點.我們不妨把這門課程稱作《中學數據科學與工程》,圖3是我們構建的一個課程參考模型,供大家在做課程建設的時候參考.

圖3 《中學數據科學與工程》參考模型
從圖3中可以看出,該參考模型完全覆蓋了前面所提到的數據科學的三大支柱與五大要素.同時也可以看到,其中很多模塊和目前2017年新版的高中課程標準有著對應關系,以高中數學為例,新課標中數學核心素養中的數學抽象、數學建模、數學計算和數據分析在上面的參考模型中均有不同程度的涉及,而像“統計與概率”、“數學建模與數學探究”這樣的課程模塊更是有直接的對應.值得一提的是,在領域篇中的“科學研究”單元,還可以設計利用數據科學與工程來支持中學其他課程的內容模塊,例如生物信息模塊、計算物理模塊等,這樣就進一步打通了數據科學與其他學科之間的聯系,非常符合新版高中課程標準的改革方向.
隨著大數據與人工智能時代的到來,以及教育部新一輪的高中課程標準的改革,推動中學通識課程的改革恰逢其時.本文初步分析了目前在高等教育中扮演著重要角色的“數據科學”這個新的學科,在數據專業這個語境下分析了數據科學的內涵與外延,并以《中學數據科學與工程》為例,給出了開設相關課程的參考模型,希望對大家在中學開展數據科學的教學實踐起到積極的推動作用.