DING Lin 張 萍 賈澤皓
(1長江大學物理與光電工程學院,湖北 荊州 434023 ; 2俄亥俄州立大學教育學院,美國 俄亥俄哥倫布 43210;3 北京師范大學物理學系,北京 100875)
物理教育研究對每一個物理教師來說既需要也重要,它可以幫助教師理解教育規律,更有效地進行教學活動,利于學生的發展,同時也利于教師的專業成長。
事實上,教師在日常的教學過程中都會或多或少地對自己的教學進行反思和總結,在遇到的問題時會對自己的教學行為進行調整,這就是教育研究的原始狀態,是一種不自覺的行動研究,形成了很多零散的,碎片化的個人經驗、印象、感想和觀點。如果能對教學中遇到的問題和個人反思進行更深入的探索,用科學的實證研究方法對教學進行研究,就可以使研究結果在物理教育研究領域中進行比較和整合,形成共識,利于同行之間交流,并與國際標準接軌。
實證研究方法分為量化研究(Quantitative Research Methods)、質性研究(Qualitative Research Methods)(也稱為定量研究和定性研究),及將兩者相結合的混合研究方法(Mixed-Methods Approach)。由于PER的研究者主要是物理教師,而量化研究遵循傳統的科學研究方法,包括提出假設、構建模型、創設實驗、收集數據和驗證假設,因此最容易被物理教育者接受,在學科教育研究領域中最早使用量化研究方法的多是PER研究者。在PER的歷史上量化研究一直居于主導的地位,質性研究的發展較為緩慢。
PER量化研究主要是使用統計測量原理獲得數字資料來研究物理教育的問題,通過收集、整理、描述各類物理教育現象中蘊含的數字信息,探明研究對象的屬性特征,分析和判斷影響物理教育現象變化因素,研究物理教育現象之間的關系,比較教育現象之間的差異,發現物理教育發展變化的特征及規律,解決物理教學中存在的問題,或者對研究結果的數據處理進行統計推斷,由樣本推斷總體,從而做出正確的決策。
盡管PER也是物理研究的一個分支,但是PER的量化研究方法和物理其他領域的量化研究方法有所不同。由于對物理教育研究感興趣的多是有物理專業研究背景的教師,有必要先討論一下量化研究在PER和物理其他領域的差異,說明無論是物理測量還是物理教育的測量,其正確性都不是絕對的,物理測量結果也會受到實驗條件的影響,而物理教育研究對象是一個非常復雜的系統,發展的歷史還很短,因此在物理教育量化研究中一味地追求絕對的測量是不現實的。
首先,傳統物理中的測量涉及有形物體和無形物體(例如電磁場)及其物理屬性,測量的主體是明確的,被測物理量有明確的定義,存在大家公認的與被測物理量相關的一組變量,對這些變量的測量和數據分析通常遵循一些成熟的規則,這些規則幫助物理學家建立起物理世界是如何運作的模型。但是, PER的量化研究是為了探索人們在學習物理過程中是如何思考和表現的,研究主體是教學活動中教師和學生的非物質特性(心理屬性),它們是概念理解、推理能力、科學實踐、信仰、態度和認知等等。這些心理屬性往往不能直接觀察和測量,需要通過教師或學生在完成某些任務上的表現來探測。另外,人的心理屬性,往往難以明確界定,有些甚至缺乏公認的定義,易受條件的影響發生變化,制約它們的變化因素很多,因此相比物理學研究,PER量化研究面臨更大的挑戰。
PER量化研究的另一個獨特之處在于它使用的測試工具。在傳統的物理學量化研究中,絕大多數的測量工具已在全球范圍內校準和標準化,使用不同儀器收集和計算的數字信息很少引起爭議。即使用不同單位制(如SI和英制)的儀器進行測量,利用單位變換規則就可以輕松地對數據進行定量分析與比較[1]。在PER領域中,研究的內容通常是一個多層次、多元化的復雜系統,一般而言都涉及二階建構:第一階是人們理解物理世界的過程,第二階是我們研究人員理解一階建構的過程。而物理學所研究的內容直接與物質世界及其相互作用有關,處于一階建構的層面。因此,盡管PER研究人員已經開發出一些測試工具,但是由于測試工具的開發通常基于設計團隊的認知,加上PER的測量存在樣本依賴性,所以在PER領域(包括任何教育和心理測量領域)幾乎沒有一套測試工具可以被全球接受,用來對某一個感興趣的變量進行全球標準化測量。
此外,由于量化研究使用的數據類型不同,PER與物理學其他領域在數據分析方法上存在很大差異。定量數據有4種類型,簡單介紹如下:
(1) 定類數據(nominal)是一種分類數據,它是離散的并且沒有順序關系。例如,在研究物理學習過程中男女生差異時,我們可能會使用的“1” 和“0”分別表示男性和女性,這里并不表示1比0更大。
(2) 定序數據(ordinal)是另一種分類數據,也是離散的但具有順序。例如,研究高中階段三個年級的學生對一些物理概念理解水平的發展變化時,分別用數字1,2,3表示高中一年級,二年級和三年級。定序數據用數字表示個體在某個有序狀態中所處的位置,不能做數學計算。例如,PER的測試工具中的科羅拉多物理學習態度調查(Colorado learning attitude survey about sciences,簡稱C-LASS)和馬里蘭州物理期望調查(Maryland physics expectations survey,簡稱MPES)[2],它們是李克特量表(Likert-scale inventory),是由一組陳述組成,每一陳述都有:1(非常不同意),2(同意),3(中立),4(同意)到5(非常同意)五種回答,數值越大表明同意的程度越高,但5(非常同意)和4(同意)之間的差距與4(同意)和3(中立)之間的差距不一定相同。
(3) 定距數據(interval)是具有相等間隔的連續數據,并且有順序。例如,溫度,1℃、2℃之間的差與20℃和21℃之間的差是相同的。定距數據有單位,沒有絕對零點,可以做加減運算,不能做乘除運算。
(4) 定比數據(ratio)不僅具有定距數據的全部屬性,同時具有絕對原點(即0),且兩個數值之間的比值是有意義的。例如:質量就是一個定比變量,我們可以說一個質子的質量為一個電子的1836倍。
上述4類數據是從低到高的次序排列,排在后面的數據類型除了包含前面數據類型的所有性質外還具有更多的性質,數據能參與的運算更多。
在傳統的物理學中,量化研究的數據基本上是定距和定比數據(也有例外,如電子自旋是離散狀態,不是定距數據)。這意味著我們可以用數據執行多種數學運算,其結果仍具有物理意義。與之不同的是,PER定量數據大多為定類和定序數據,只有極少的定距數據,且從無定比數據。 例如PER常用的幾個測試工具:力的概念測試(force concept inventory,簡稱FCI)[3],力與運動概念評測(force and motion conceptual evaluation,簡稱FMCE)[4],電磁學概念調查(conceptual survey of electricity and magnetism,簡稱CSEM)[5]中都沒有出現過定距數據。因為,我們不能說在FCI測試中獲得1分和2分的兩名學生之間在力的概念理解上的差距與獲得20分和21分的兩名學生之間的差距相同[6,7]。然而,如果樣本中的學生分數分布遵循正態分布,在統計上可以將學生分數的數據轉換成間隔相等的標準分數,此時研究人員就可以把測試分數近似看作定距數據,計算均值和標準差,并進行參數統計分析。在一般情況下,對定序和定類數據(也被稱為分類數據),通常以其頻率呈現出一定特征,并可進行非參數統計分析(nonparametric statistical analysis)。總之,在數據連續的情況下,當樣本量足夠大,通常可以滿足正態假設。但是,當涉及分類數據或小規模連續數據時,正態假設很可能會不適用,在這種情況下,傳統的參數統計分析不再有效。非參數統計并不基于正態分布假設,可以用于在傳統參數統計不適用的多數情況。
鑒于定量數據的上述性質,可以想象,相比其他的物理研究領域,PER中的定量研究更難達到有效、可靠的水平,更難令人滿意。然而,需要指出的是:無論對PER定量數據進行如何仔細的測量和分析,我們也只能用觀察到的結果來推斷我們真正感興趣的部分,而那些不能被直接觀察到的才是我們真正感興趣的東西,這就是為什么PER量化研究在解決有效性和可靠性方面常常遇到很大困難的原因,也是物理學家在理解PER量化研究時常常產生質疑的原因。
PER量化研究在某些方面類似于物理學家所熟知的熱力學中的微觀態和宏觀態,其中宏觀態是大量微觀態的統計平均結果,并且宏觀態不需要對應任何特定的微觀態。同樣,PER的研究結果也不可能映射到某個學生身上。
簡而言之,量化研究是通過一些統計技術進行定量觀測,獲得數字資料,對物理教育中的事件、想法或行動進行描述、解釋和推論的研究方法。量化研究的優點在于它允許研究人員專注于所感興趣的變量,測試與分析變量之間的各類關系,如變量之間的相關,甚至是因果關系。相比于質性研究,量化方法主要處理數值數據,因此在處理和傳播信息的過程中,由于研究者個人主觀因素而引起的偏差相對較少。 在PER中常用的量化研究方法有:描述統計,推斷統計、測試工具的開發和檢驗。對應于PER的3種主要研究類型:調查研究(survey research)、實驗/準實驗研究(experimental/quasi-experimental studies)、測量與評價研究(evaluation research)[8]。
描述統計主要用來描繪或概括獲得數據的基本情況,顯示其分布特征,研究不涉及因果,重點描述物理教育中的現象 “是什么”而非“可能是”。例如,研究人員想調查“在某幾個大學的學生們完成FCI測試的平均表現如何?” 解決這個問題就可以利用描述統計,通過計算平均數和中位數來反映數據的集中趨勢,通過計算標準差、差異系數等差異變量來反映數據的離散程度。一般而言,采用描述統計方法的研究報告比采用其他方法的研究論文更容易理解。
推斷統計主要是根據樣本數據信息,運用概率理論分析論證,在一定的可靠程度上推斷出總體的有關特征。在PER中最典型的應用是實驗/準實驗研究,受試者個體(在實驗設計中)或受試者群體(在準實驗設計中)被隨機取樣并分配到對照組或實驗組中,通過對比不同的群體表現,研究人員可以推斷出實驗干預后的有效性。使用該研究方法的一個實例是:與傳統大學物理教學相比,使用同伴教學法后學生在C-LASS中的表現更接近物理專家[9]。
如果我們想測量學生學習物理過程中的某些心理屬性,就要編制一種測驗來引起與該種心理屬性相應的行為反應,通過測量學生完成測驗的行為反應,來估計和推測這種屬性。PER中第三類量化研究是測試工具的開發和校準,用于評估研究,使其能匹配特定的評估計劃,并提供具有有效性和可靠性的證據。經典測量理論(classical test theory, 簡稱CTT)是其他測量理論的基礎,它的數學模型簡單,涉及的基本概念有平均分、標準差、難度、區分度、信度、效度等,都易于理解和計算,但是這些測量常常依賴被試樣本,因此很難獲得一個客觀的尺度對不同情境下的測量結果進行有意義的比較。除了CTT外,還有項目反應理論(item response theory,簡稱IRT),它建立在更復雜的數學模型之上。另外,在解決CTT測量結果依賴樣本的局限性、實現測試的客觀性上, Rasch模型提供了一個可行性很高的方案,使不同情境下的測量可以在相對一致的框架下進行比較和解讀。
隨著技術的進步,數據獲取和數據分析變得越來越容易,大數據和大數據分析應用越來越廣泛,也拓展了物理教育量化研究思路和空間。但是大數據分析不等同于教育領域的量化研究,兩者在研究范式、數據獲取和數據分析方法等方面是不同的。PER量化研究是基于問題,選取適合的樣本收集數據,基于統計原理處理和分析數據,由樣本推斷總體。大數據分析是采用基于數據庫原理和計算機技術的數據挖掘和分析技術,通常是先有數據,但是一般而言它的數據生成具有隨機性,富含大量繁雜信息,從而稀釋了有用信息,因此“大數據”盡管數據量大但價值密度卻低。
具備PER量化研究方法的知識可以使教育研究和教育實踐都“基于證據”(evidence-based),這對物理教育工作者來說非常重要。一方面,在做物理教育研究時,使用量化研究方法可以提高研究的科學性,有多少證據說多少話。另一方面,了解PER量化研究的知識可以讓教師讀懂國內外物理教育研究成果的文獻,判斷其質量,決定是否將其運用于教學中改進教學,做到在教學改革過程中既開放思想又不隨波逐流。為此,我們試圖以實踐合理性的視角介紹PER量化研究,打開窗口、留出接口,使教師初步了解PER量化研究方法,在需要的時候可以繼續學習達到精通。本文作為一個開篇,后面幾篇將分別按照PER量化研究的3種主要類型(調查研究、實驗/準實驗研究、測量與評價研究)具體介紹其研究方法。