孔令敏
今天,人們稱數據科學是研究的第四范式,是未來具有潛力的科學領域,但什么是數據科學?數據科學在教育領域應用的特點是什么?公眾仍然缺乏詳細的了解。澳大利亞悉尼科技大學工程與信息技術學院高級分析研究所所長操龍兵教授對此提出了獨特而富有啟發的觀點。他帶領的研究所主要研究大數據科學基礎理論以及大數據分析應用,在大數據分析技術、異常檢測技術方面有最新的研究成果以及相應的應用前景。操龍兵教授很早就在國際上致力于數據科學與分析學的產學研工作,注重從涉及重大民生與經濟、社會問題中提煉具有前瞻性的研究課題。他提出了一系列數據科學中新的研究問題與創新思想,包括行為信息學(Behavior Informatics)、非獨立同分布學習(Non-IID Learning)、決策知識發現(Actionable Knowledge Discovery)。本文對他的觀點加以介紹,從而啟迪我們思考:我們為什么需要數據科學,什么使數據科學成為一門科學,以及數據科學在教育領域應用的挑戰和方向。
數據科學是一個跨學科領域
數據科學的大多數(可能超過95%)文獻與統計學、數據挖掘、機器學習和廣泛數據分析等有關,這表明數據科學是從現有的統計學、計算科學和信息學中產生的。今天的數據科學已經超越了數據挖掘和機器學習等特殊領域,形成一個新的跨學科領域,它綜合了一些相關的學科知識體系,包括統計、信息學、計算、通信、管理和社會學(如圖1),我們可以用一個公式來表達數據科學的領域和范疇:數據科學=統計+信息學+計算+通信+社會學+管理|數據+領域+思考(“|”的意思是“有條件的”)。
數據科學的復雜性及其七個維度
數據科學的重點是系統了解復雜的數據和相關的業務問題,將數據轉化為洞察和智能以進行決策。因此,數據科學具有兩大特點:復雜性和智能性。
數據科學的復雜性可以從七個維度來理解。
(1)數據復雜性:數據復雜性反映在復雜的數據環境和特征上,包括大規模、跨媒體應用、混合源、強動態性、高頻率、不確定度等特征。除此之外還包括噪聲混合導致的層次不清、分布不均勻、稀疏性強的數據以及關鍵數據的可用性不清楚。數據科學家面臨的一個重要問題是隱藏數據的復雜關系。復雜關聯可以由綜合耦合組成,但通過現有的關聯、依賴、因果關系等理論和系統是無法描述的。這類耦合包括顯式和隱式、結構和非結構、語義和句法、等級和垂直、局部和全局、傳統和非傳統關系以及進化和效果。數據的復雜性激發了新的觀點,而這些視角以前是沒有做好或者是可以做到更好。
例如,傳統的大規模傳感器數據調查,包括統計人員的問題和調查參與者,已被證明不那么有效,如相關的問題可見(如目標參與者不滿意、總體答復率低和問題更難回答)。但是,數據驅動的發現可以幫助確定誰將接受調查、哪些問題需要回答、調查操作模型以及調查的成本效益。
(2)行為復雜性:由于數據采集和管理系統中由物理活動到數據的轉換而產生的數據常常被忽略或簡化,行為復雜性體現在個人和群體的耦合行為、網絡行為、集體行為、分歧行為、隱藏行為、網絡演變行為、推理群體行為等在物理世界中實際發生或將要發生的事情的還原。
(3)領域復雜性:領域復雜性是數據科學中發現內在數據特征、價值和洞察力的一個關鍵方面。領域復雜性反映在一個問題領域的復雜上,如領域因素、領域過程、規范、政策、領域知識、專家知識、假設、元知識、領域專家的參與和與領域專家互動的專業人員。
(4)社會復雜性:社會復雜性嵌入到業務活動及其相關數據中,是數據和業務理解的關鍵部分。它可能體現在商業問題的一些方面,如社會網絡、社區出現、社會動態、社會習俗、社會背景、社會認知、社會智慧、社會媒體、群體形成和演變,群體互動和協作、經濟和文化因素、社會規范、情感和輿論影響過程以及社會問題,社會問題包括社會背景下的安全、隱私、信任、風險和問責制。當社會科學與數據科學相遇時,就會出現跨學科現象。
(5)環境復雜性:環境復雜性是理解復雜數據和業務問題的另一個重要因素,這反映在環境(上下文)因素、問題和數據的背景、語境的動態、環境的自適應性、復雜的業務環境和數據系統之間的交互關系、業務環境的重大變化及其變化對數據系統的影響。這些方面的系統環境具有連續性、開放性、復雜性,但還沒有數據科學。如果忽略,就會出現適用于一個領域的模型可能會在另一個域中產生誤導性結果的現象。
(6)學習復雜性:為了實現數據分析,必須解決學習過程和系統的復雜性問題。分析數據的挑戰包括開發方法、通用任務框架和學習模式。數據科學家必須能支持實時在無限動態中學習;支持在計算資源貧乏的環境(如嵌入式傳感器) 中自適應地學習,以及多源學習,同時考慮傳感器之間的關系和相互作用;支持跨多個學習目標、來源、功能集、分析方法、框架和結果的組合學習;支持學習具有的異質性的非數據混合耦合關系,并確保學習模型和結果的透明度和確定性。
(7)可交付成果:一般來說,業務用戶的數據交付成果必須易于理解和解釋,揭示直接為決策提供信息和實現決策的見解,并對業務流程和問題產生變革性解決。當可操作的數據產品成為數據應用程序的焦點時,數據產品的復雜性,或者說“更高的復雜性”就成為了一個障礙。這種復雜性要求從客觀和主觀兩個角度確定和評價滿足技術意義和具有較高商業價值的成果。數據科學家面臨的相關挑戰還包括設計合適的輔助、演示、可視化、重新評估以及學習結果的處方,滿足不同的業務需求。
數據科學的智能性及其八個維度
數據科學具有智能性,是一種旨在將數據轉化為知識、智能和智慧的“智能科學”。在從數據到智慧的轉變中,“X-智能”被用來解決一個復雜的數據科學問題,可以幫助更深入、更有組織地理解和解決潛在的復雜性和挑戰的問題。如在教育領域,我們可以使用“教育智能”這樣的提法。
數據科學的智能性可以從八個維度來理解。
(1)數據智能:突出了最有價值的信息。隱藏在數據中的智能是由數據科學通過其理解數據特征和復雜性而發現的。除了通常關注數據結構、分布、數量、速度和質量的復雜性外,數據科學的重點還在于圖2中隱藏在未知的“空間D”中的智能。數據智能的水平取決于數據科學家能夠在多大程度上深入了解數據特征和復雜性。
(2)行為智能:數據科學家通過查看個人和團體參與者的活動來發現行為智能,這樣的發現要求他們通過行為信息學將問題中發生的事情和將要發生的事情聯系起來并發現行為洞察力來縮小數據世界和物理世界之間的差距。構造序列行為向量空間,并在給定時間內與其他賬戶建立交互模型,然后再與其他異常行為進行建模,可能有助于理解異常行為。
(3)領域智能:產生于相關的領域因素、知識、元知識以及與問題及其目標數據相關的其他特定領域資源。定性與定量的領域智能可以幫助數據科學家更深入地理解領域的復雜性及其在發現未知知識和可操作洞察力方面的作用。例如,學習用于股票數據的高頻交易策略,一種戰略必須把“訂單”和相關的“限制市場”聯系起來。
(4)人的智能:在復雜的數據科學系統中,人的智能通過明確的涉及到人類的直覺、想象、先驗的知識、信念、意圖、期望,再加上專門知識發揮著核心作用。它還涉及到人類智力以想象、情緒化、靈感、頭腦風暴、推理、具體化認知的形式的隱性或間接的參與,類似通過與人類的互動來思考。就像“數據科學思維”對于解決復雜的數據問題至關重要,數據科學家必須能夠運用主觀因素、定性推理和批判性思維來解決問題。
(5)網絡智能:基于Web智能和廣泛的網絡連接的活動和資源,特別是通過物聯網、社交媒體和移動網絡獲取的資源。從涉及目標問題的網絡中獲取的信息,可以為復雜的數據科學問題的解決提供有用的建議,一個相關的例子就是基于開放源碼的開發與算法設計。
(6)組織智能:數據科學系統要對目標、行為者、組織結構和動態管理、預防、過程和工作流程產生正確理解并建模。例如,企業的成本效益和數據科學團隊的運作都要依靠組織智能。
(7)社會智能:是從前面討論的社會復雜性中產生的。人類的社會智能包括社會互動、群體目標與意向、社會認知、情感智力、共識建構、群體決策等。社會智能也與社會網絡智能和社會系統以及商業規則、法律、信任和管理社會智慧的聲譽之間的集體互動有關。典型的人工社會制度在社交網絡和社交媒體中,數據驅動的社會復雜性可以通過社會影響建模、潛在關系建模以及在線社區的形成和演變來理解。
(8)環境智能:隱藏在數據科學問題中,具體表現為底層領域和相關的組織、社會、人類和網絡智能。數據科學系統是開放的,轉換后的數據世界與物理世界之間的相互作用作為整體數據環境發揮作用。例子包括上下文感知的、涉及因素的、不斷發展的交互和數據與上下文之間的變化,如社交網絡中的無限動態關系建模。
走向教育數據科學的探索路徑
數據科學家進行的復雜數據科學之旅代表了從已知到未知復雜性的認知過程,以便將數據轉化為知識、智能以及通過應用數據智能進行決策。上頁圖2概述了旨在減少能力(y軸)的數據科學進展,以更好地理解數據(x軸)從100%已知狀態到100%未知狀態的復雜性知識和智能。基于數據/物理世界的可見性和能力/容量成熟度,數據科學可分為四個數據挑戰:
(1)“空間A”代表已知的空間,也就是說,“我(我的成熟能力/能力)知道我所知道的(關于可見世界)”。這就像視力正常的人能認出大象的能力一樣,而無視力的人可能只能通過觸摸來識別動物的一部分。具備成熟能力的人都知道有關可見數據的知識,也就是說,他們的能力成熟度足以理解數據/物理世界的不可見性。
(2)“空間B”代表隱藏的空間,也就是說,“我知道我不知道什么(關于看不見的世界)”。對某些人或學科來說,即使他們的能力的某些方面已經成熟,但隱藏的復雜性數據在當前的數據科學中無法被解決,因此需要更先進的能力。
(3)“空間C”代表的是盲區,也就是說,“我(我的不成熟能力)不知道我知道什么(關于這個世界)”。雖然對某些人或學科是可見的,他們的能力也是成熟的,但是與能力并不匹配;不成熟使他們對世界視而不見。一個例子可能是,即使是成熟的社會科學家也試圖解決數據科學問題。
(4)“空間D”代表未知,也就是說,“我不知道什么,所以隱藏世界中復雜數據由于不成熟的能力而不為人所知”。這是今天數據科學關注的領域。隨著生產能力的增加,缺乏能力成熟度也隨之增加。在快速發展的大數據的世界里,不合格的數據越來越多,導致了一個越來越大的未知空間。
基于上述探索的路徑,我們可以知道,數據科學的發展,要提升數據能力和素養,數據能力意味著增強數據的能力和容量成熟度,數據素養意味著增強數據的可視性。這啟示我們,走向教育數據科學有兩條關鍵路徑:第一,建設完備強大的教育數據云平臺,增強數據能力;第二,加強教師和學生的教育數據素養發展,增強數據素養。由此,教育數據科學方能越來越成熟,繼續成長發展。