吳 忭 David Shaffer
(1.華東師范大學 教育信息技術學系,上海 200062;2.威斯康辛大學麥迪遜分校 教育心理系,美國)
我們置身于數據大爆炸的時代。新興技術加速并徹底改變知識的生產周期及獲取方式,這也使在諸如教育、政府管理、經濟、公共安全、政治等領域,數據逐步取代經驗,成為幫助人類作出重大決定的依據。然而,對大多數人而言,理解和分析數據,實現從數據到信息、信息到知識、知識到智慧的升華更像是一門黑暗藝術。
在探討數據的作用之前,我們需要對“什么是數據”有深刻的理解。這常常像是一個容易被人們忽略的技術性細節?!癲ata”一詞源自希臘文字“datum”的復數形式,人們通常談論或書寫所謂的“數據”時,指的是一般意義上的信息。韋氏詞典對“數據”的定義是:作為推斷、討論或者計算基礎的事實類信息。牛津高階詞典將其界定為“事實或信息,尤其是把它們用來核查、探尋事物的本質或進行決策時?!边€原到日常生活對數據的理解,我們認為數據是一個連續體的一部分,它從原始信息發展到可操作的知識,從而幫助決策。它包括定量或定性的事實、數字、材料或結果等。
在信息時代,人類無時無刻不在生產數據,這為社會學家提供了前所未有的研究人類行為的機會。雖然計算機可以從海量數據中找到統計顯著的關聯模式,但再精妙復雜的算法也無法從海量數據的隨機關聯中區分出有意義的模式?!袄斎?、垃圾輸出(garbage in, garbage out)”的忠告暗示我們,如果不思考數據背后的意義,而將所能夠收集的海量數據都扔進統計模型,得到的關聯模式甚至會誘導我們作出錯誤的、帶偏見的解讀。
教育數據常指圍繞著教育活動所產生的數據集合。它產生于各種教育實踐場景中,諸如課堂教學、學校管理、教師教研活動、校園活動等。在傳統教學場景中,教育數據常常是課程活動、學習測評結果、學習觀察、學習檔案袋等以紙質或視頻媒介記錄的證據。隨著創新學習環境的增多,學習的技術創新、模式創新、非正式學習場景下的多元化學習目標創新使教育數據也變得海量而復雜,教育大數據應運而生。教育大數據涵蓋了教育系統收集的學校層面的大規模標準化考試數據,或者是利用在線學習系統、物聯網傳感器技術等數據采集技術收集的線上或者線下的學習行為數據。
面對海量的教育大數據,如何從混亂中找出有意義的信息,能夠回答教育利益相關者所關心問題的數據有哪些,或者說分析數據的目的是什么,是了解學生的迷思概念、學科思維、元認知技能、社交能力、批判性思維、問題解決能力、創新能力?……在從知識導向向能力素養導向轉變的教育大背景下,這些訴求并非以往直觀經驗所能滿足,變得愈加復雜而難以決斷,有賴于證據的支持。
基于證據的評估和決策絕非新生事物,在商業智能、循證醫學、用戶中心的產品設計、數據驅動的運動員訓練等眾多行業的應用由來已久。而教育領域為何這一問題今天會變得尤為突出,主要原因還是學習形態的日益多樣化。這從學習科學的研究主題可以略窺一二:多媒體學習、慕課、移動學習、游戲化學習、創客教育、翻轉課堂、基于項目的學習、問題解決學習、虛擬現實/增強現實的學習、基于場所的學習等。但是,人類如何學習至少在目前還是無法計算的問題。這就像搜索引擎對于搜索結果的意義一無所知一樣,它僅僅是依據詞與詞之間的相關性進行計算而得到的結果。因此,教育數據本身不能保證我們對于學習有深入的理解,也不會自動呈現學習的證據,而需要人對數據背后的含義進行詮釋。
教育研究和實踐對數據的理解離不開與之相關的特定情境,這樣的教育數據被稱為胖數據(fat data),即對教學實踐活動的現象和意義的深描,包括敘述和詮釋。這里的情境包括生產和收集數據的全過程——誰、什么時候、在哪里、通過何種方式產生或收集這些數據?以及為什么會產生或者要收集這些數據?認識教育數據的情境性,或許是教育大數據分析能夠被教師采納并應用于教學實踐的前提。
教育實證研究方法一直有定量與定性之分,但兩種研究方法在教育研究中各具優劣。定量研究的目的是利用基于大樣本的瘦數據進行統計分析,獲得關于總體一般教學規律的證據,比如某種教學方法對提高學生成績是否有效。然而,真實復雜的學習情境,比如課堂難以像封閉可控的心理學實驗研究環境一樣保證量化研究的生態效度和內在效度。定性研究則往往通過對小樣本的胖數據的細致觀察和深描,對特定教學現象形成深度的理解和認識,回答如何在課堂采用某種教學方法以及通過采用這種方法,學生如何學習,產生了怎樣的效果等。但是,這種通過“典型”案例舉證,常常因為分析過程缺乏透明性而帶有主觀偏見,并因為研究結論不具有泛化效果而常受到質疑。
近年來,教育實證研究的趨勢是包含這兩種方法的混合分析策略,即將定量和定性研究并列或按順序進行,分別構建獨立的定量和定性分析模型,希望通過兩個模型結果的相互佐證,支持彼此的結論。但是,定性和定量研究一直存在彼此獨立的鴻溝,如何整合兩種研究方式,有效利用大數據時代所能提供的基于大樣本的胖數據,需要新的研究思路。
首先,我們需要在定性和定量研究之間構建一套可以相互理解的話語體系。例如,定量研究的分類或者指標,與定性研究的編碼,都對應于研究者所感興趣的理論構念。而從大數據中識別特定理論構念,在定量研究和定性研究中分別被稱為分類和編碼的過程。定量和定性研究又通過統計顯著和理論飽和確保數據發現的指標體系或者叫作編碼方案在樣本所在總體中是反復出現的。但不管定性還是定量模型,都不只滿足于從數據中識別出單一的理論構念,而是揭示多個理論構念之間的關聯模式,這在定量研究中被稱為研究假設,在定性研究中是對編碼之間關系的深描,又被稱為敘事。這種數據(實證層面)和意義(理論層面)的雙向互動就是研究的概念化和操作化過程。
有了上述方法論層面的相似性比較,再來看待理解學習的研究目標。當前,學習科學和教育測量領域分別倡導的學習設計和證據支持的測評設計,不約而同地指向能力模型、證據模型和任務模型三者的相互映射。培養學生像科學家、工程師或者其他特定社會文化的成員一樣思維和實踐,意味著在對特定文化群體調查的基礎上,建立關于該文化群體的知識、技能、認識論、價值觀和專業身份的認知模型。因此,學習也可以視作是一種教化(encultration)的過程,目的是使學生建立符合某種文化的規范和認識。這種進入真實學習情境,理解教化過程的研究工作,類似于社會學的民族志研究,是一種情境化的能力、證據和任務建模。而質性分析的扎根理論正是獲得理論創新、建立可解釋和可檢驗模型的有效途徑,進一步通過定量分析大樣本數據,提供該模型關于理論構念,以及理論構念之間關聯關系的統計學證據。數據、理論構念以及構念間關聯三者的雙向迭代循環,確保了定量和定性的相互佐證,確保我們對于學習的深度理解是可靠的。
過去20年的技術進步徹底改變了人類消費和生產數據的方式。這些變化促使研究人員尋找新的方法,對現有的大量數據進行有意義的分析。教育和社會科學領域的類似變革正在到來。在數字時代,質性研究和定量研究、科學和人文、數字和理解這種舊的區分方式,在某些情況下限制了研究者的思維,而在另一些時候又迫使我們接受一些浮于表面的答案。這也正是當前對于學習的理解存在的誤區。在教育大數據盛行時期,許多教育研究者和管理者主張教育元素能夠通過數據處理完全捕捉和表達,甚至是簡化為一些孤立的“指標”。這些關注遠遠超出了數據有效性的傳統概念,挑戰了使用數據充分地建模教育過程和實踐的適當性。就模擬人類學習者和教師的行為而言,這些對胖數據的忽視其實值得警惕。學習分析要避免被用于夸大教育的普遍一般規律,而低估不同教室、學校和學生生活的獨特性和復雜性。因此,真正的理解學習,需要我們在“學習和教學可以被客觀地定義、測量和建模”與“所有形式的數據都是社會構建的,任何數據處理或分析的實例本質上都是由先驗理論、思想、解釋結構和假設形成的”之間建立關聯與平衡。這也是質性和量化分析融合的關鍵,更是量化民族志(quantitative ethnography)研究方法的精髓所在。