張屹 陳鄧康 付衛東 劉金芳 林裕如 丁雙婷



[摘 ? 要] 對學生計算思維的培養已成為數字時代的核心議題,科學、精準的評價則是培養學生計算思維能力的基礎。然而,針對義務教育階段學生的計算思維測評,目前國內尚無依托相關課程標準制定的本土化的、權威的量表。為此,研究首次依托《義務教育信息科技課程標準(2022年版)》(以下簡稱“新課標”)中的計算思維定義及培養要求,共以12920名(N1=1029,N2=1458,N3=10433)小學生和初中生為研究樣本,運用收斂混合方法構建一個面向我國教育實際的、經嚴格論證的中小學生計算思維量表。結果顯示:經過兩輪的收斂混合分析,修改后的計算思維量表共包含5個因子及15個題項,具有良好的內容效度;經過大樣本實證檢驗分析,量表具有良好的信效度,且具有跨性別、年級和地區測量等值性,可以用來測量中小學生的計算思維水平。
[關鍵詞] 新課標; 計算思維量表; 收斂混合方法; 大樣本實證調研; 義務教育
[中圖分類號] G434 ? ? ? ? ? ?[文獻標志碼] A
[作者簡介] 張屹(1967—),女,湖北武漢人。教授,博士,主要從事智慧教育、計算思維教育、教育信息化測評與發展戰略研究。E-mail: zhangyi@mail.ccnu.edu.cn。
一、引 ? 言
計算思維(Computational Thinking)指“運用計算機科學的基礎概念解決問題、設計系統和理解人類行為的一系列思維活動”[1],是個體在數字社會生存發展所需要的關鍵能力[2]。作為21世紀學生的必備素養,計算思維自提出以來就獲得了世界各國的高度重視。美國 2011 年修訂的《CSTA K-12 計算機科學標準》、英國 2013 年開展的“新課程計劃”以及澳大利亞 2015 年制定的“新課程方案”等都強調了對學生計算思維的培養。2022年4月,我國教育部發布《義務教育信息科技課程標準(2022年版)》(以下簡稱“新課標”),首次在課程標準層面明確指出我國義務教育階段學生的計算思維培養要求[3]。可見,對學生計算思維的培養已成為數字時代的核心議題。
科學、精準的評價是培養學生計算思維能力的基礎,然而,針對義務教育階段學生的計算思維評價,目前國內尚無依托相關課程標準制定的本土化的、權威的測評量表。近年來,雖然學者們已經形成了一些使用和引證廣泛的計算思維量表[4-5],但這些量表大多改編自國外,其文化適用性和有效性等問題逐漸被國內研究者所關注[6]。課程標準是綱領性的教學文件,對指導學生的能力培養有著不可替代的作用,有學者立足中國教育實際,依托《普通高中信息技術課程標準(2017年版)》,構建了本土化的高中生計算思維評價指標體系[7]。但值得注意的是,發展心理學研究結果明確表示,學生的認知特點和學習需求隨年齡增長而有所變化,教學評價也應隨這種變化而適當有所反映[8]。因此,對于義務教育階段學生而言,基于新課標開發更具針對性的本土化計算思維量表顯得尤為必要和迫切。
基于此,本研究首次依托新課標中的計算思維定義與培養要求,運用兼顧定性研究與定量研究優勢的收斂混合方法開發、驗證適切我國當前教育情境的中小學生計算思維測評量表,并通過大樣本實證檢驗確定量表的有效性和適用性,旨在為我國中小學生計算思維的培養、評價以及相關研究提供工具支持。
二、文獻綜述
(一) 計算思維的定義與測評框架
隨著計算思維相關研究在國內外日益升溫,學者們對計算思維的解讀也呈現出不同的視角[9-10],但總體上可以分為兩類:特定領域視角(Domain-specific)和一般領域視角(Domain-general)。特定領域視角下的計算思維指系統地解決計算機科學或計算機編程主題中的問題所需的特定領域知識或技能[11],突出強調計算思維與具體學科之間的關系[12]。然而,隨著數字時代的不斷發展,計算思維不再僅是計算學科關注的重點,學者開始從一般領域的視角出發,將其視為一種普適化的問題解決方法或能力[13]。例如,2011年,周以真教授重新審視計算思維并對其定義做出進一步的澄清,提出計算思維應該被視為一種解決問題的思維過程[14]。國際教育技術協會(ISTE)和計算機科學教師協會(CSTA)也提出了類似的計算思維操作性定義。Selby 和 Woollard則通過綜述文獻,進一步總結了所有問題解決情境下計算思維的五個基本要素,即抽象、分解、算法思維、評估和概括[15]。
基于一般領域視角下的計算思維概念框架,國內外學者已經開發了一些經典的測評量表[16]。例如:Kukul和Karatas在推理、抽象、分解和概括維度框架內開發了計算思維自我效能感量表[17];白雪梅和顧小清將Korkmaz等人開發的計算思維量表進行漢化改編,形成了包含5個維度、21個指標的K12階段學生計算思維量表[6]。但有學者指出,國內外學生所處文化情境不同,國外的計算思維測評量表可能并不完全適用于我國中小學生的計算思維調查[6-7,18]。而課程標準是綱領性的教學文件,對學生的培養和能力評估有著關鍵的指導作用,因此,國內學者開始基于課標,開發本土化的計算思維測評量表。比如,陳興冶和馬穎瑩針對高中學生群體,重點解析我國《普通高中信息技術課程標準(2017 年版)》中的計算思維要求,開發出包含情感態度、合作學習、分解、抽象、概括、算法和評估7個維度的高中生計算思維量表[7]。然而,針對義務教育階段學生的計算思維評價,目前國內卻尚無依托相關課程標準制定的權威測評工具,這可能導致計算思維教育發展的脫節,影響計算思維教育教學質量。
2022年,我國發布的新課標則與一般領域視角相契合,首次從課程標準層面明確了義務教育階段學生計算思維培養的核心要素,為計算思維測評框架的確立提供了重要依據。新課標明確指出,計算思維是指個體運用計算機科學領域的思想方法,在問題解決過程中涉及的抽象、分解、建模、算法設計等思維活動。此外,具備計算思維的學生還應能夠嘗試模擬、仿真、驗證解決問題的過程,反思、優化解決問題的方案,并將其遷移運用于解決其他問題。重點解析新課標中的培養要求,并結合一般領域視角下的計算思維發展脈絡可知,對于我國義務教育階段學生的計算思維發展而言,以下五個共同的核心要素至關重要:(1)分解,即將一個事物或問題拆分成易于處理的部分或子問題,以促進問題解決的思維過程[19] 。(2)抽象,即隱去問題的細節,關注問題的關鍵信息[14,19]。(3)建模,即借助一些特定的工具和方法將內在思維過程建立模型,進行可視化表征的認知方法[14]。(4)算法設計,即以序列和規則來思考解決或理解問題的能力[19,20]。(5)評估,即對解決方案不斷論證、反思和迭代優化,確保形成一個最恰當、最適合的方案的過程,在該維度下,還對泛化技能進行了測評,即將問題解決方案遷移運用于解決其他問題的能力[21]。本研究將基于上述五因素構成的概念框架,開發相應的計算思維評價指標。
(二) 計算思維測評量表的構建方法
一般來說,測評量表的構建包含以下三個階段:量表結構的確定與初始題項的生成、量表的驗證與修訂,以及量表的檢驗與最終確立[22-23],且主要基于實證數據采用自下而上的方式[24],或基于專家審查數據采用自上而下的方式構建量表[25]。隨著測評工具相關研究的不斷深入,研究者們不斷推陳出新,提出了更多高信度與效度的測評量表構建方法,如混合方法(Mixed Method)[26]。混合方法指研究人員綜合分析定量數據與定性數據,以保證結論有效性和可靠性的方法。例如:Ya■ci在初始量表的開發階段,邀請10名專家對題項進行審查以確保內容效度,之后再選取785名高中生開展調研收集定量數據以對量表進行驗證與修訂,最后形成有效、可靠的高中生計算思維量表[27];Tsai等人邀請3名教師定性審查初始量表的內容效度后,再以388名初中生為研究對象開展問卷調查,分析定量數據以對量表進行驗證與修訂,經檢驗最終量表可作為測量學生計算思維的有效工具[9]。
混合方法雖然已被證實是構建測評工具的有效方法,但許多研究者在應用此方法時只關注量表構建不同階段間的定性與定量混合,而忽視了某一具體階段對混合數據的需求。例如,在量表的驗證與修訂階段,大多研究僅基于定量的調研數據結果對題項進行刪減,然而有學者指出,定性的專家審查在該階段同樣必要以保證其內容效度[26]。De León提出運用收斂混合方法(Convergent Mixed Method),通過召開會議開發初始量表后,在量表的驗證與修訂階段,同時收集7名專家的定性審查數據和面向88名研究對象的定量調研數據,收斂分析混合數據以對題項進行修改或刪除,最終形成的數字素養測評量表具有良好的信效度[28]。可見,收斂混合方法為我們更好地將混合方法應用于測評量表的構建提供了新的思路。
此外,雖然隨著時間的推移,計算思維量表的數量呈現上升趨勢,但超過一半量表的信度和效度卻并沒有得到充分的說明[12],且少有研究在多個省市開展大樣本實證調研以檢驗最終量表的適用性。陳興冶強調教育的直接目標是培養人,評價工具中的指標體系也應充分考慮學生的性別、學段、所處地域等諸多因素[7]。因此,在量表的檢驗與確立階段,采用大樣本實證調研對修改后的量表進行信效度檢驗和測量不變性檢驗,可以為量表的有效性和適用性提供更有力的保障。
綜上所述,本研究的主要目標是:(1)基于新課標,采用“分解、抽象、建模、算法設計和評估”的計算思維概念框架,運用收斂混合方法構建一個本土化的、經嚴格論證的中小學生計算思維測評量表;(2)基于大樣本實證調研檢驗所構建量表的信效度,并考察量表在不同性別、年級與地區學生中的適用性,以支持計算思維教育的有效推進。
三、研究過程及方法
本研究的計算思維量表構建過程總體上分為三個階段:基于新課標的量表初步開發,基于收斂混合方法的量表驗證與修訂,以及基于大樣本實證調研的量表檢驗與確立。具體過程及方法如圖1所示。
(一) 基于新課標的量表初步開發
量表的初步開發包含以下四個步驟:(1)確定概念框架。根據研究需要,我們選取了具有一定研究工作經驗、對信息技術教育領域比較熟悉的研究者,組建了一個15人的專家團隊,其中包含2位教授、1位副教授、9位博碩士以及3位信息科技學科教師。為確定計算思維的測評維度,專家團隊進行了全面的研究回顧和深入的內容分析,并以會議研討的形式重點解析新課標中的計算思維定義及培養要求,最終提出了計算思維的五個測評要素:分解、抽象、建模、算法設計和評估。(2)生成項目池。基于以上五個要素,檢索已有計算思維量表并結合專家的貢獻,建立了共包含58個題項的初始項目池。(3)審查題項。專家團隊在對項目池的每個題項進行深入審查后,提出了反饋意見,即合并或刪除了相似題項。例如,“我通常會為問題找到最有效的解決方案”和“我通常會為問題找到一個快速的解決方案”兩項合并為“我能夠為問題找到最優的解決方案”。此外,還對部分題項的表述進行了修改。(4)確定初始量表。最終形成包含19個題項的初始量表,并采用李克特5點計分法。
(二) 基于收斂混合方法的量表驗證與修訂
根據Creswell和Zhou等人關于收斂混合方法的使用建議[22,26],本研究在量表的驗證與修訂階段將同時收集基于專家審查的定性數據和基于試點調研的定量數據,并確定相應的題項標記標準,最后通過收斂分析兩種數據的重疊和互補視圖,對被標記的題項進行審查、刪除或修改。經過兩輪的收斂混合驗證與修訂,專家對量表的認同度和調研數據分析結果逐漸趨同,且量表表現出較高的有效性。
1. 基于試點調研的定量數據收集與分析
(1) 研究對象
本研究在同一省份的W市和H市先后開展了兩輪試點調研。第一輪試點調研共計回收有效問卷1029份,其中,男生528人,占51.3%;女生501人,占48.7%;小學672人,占比65.3%,初中357人,占比34.7%。
第二輪試點調研共計回收有效問卷1458份,其中,男生746人,占51.2%;女生712人,占48.8%;小學686人,占比47.1%,初中772人,占比52.9%。
(2) 數據收集與分析方法
本研究采用問卷星與紙質問卷兩種方式進行數據收集,針對兩輪回收的有效問卷(N1=1029,N2= 1458),我們運用SPSS23.0進行數據整理和分析。本研究的試點調研定量數據分析主要包括兩個部分,并針對每個部分確定了相應的題項標記標準:首先,進行題項的區分度分析,主要采用題總相關分析和獨立樣本t檢驗兩種方式。一般來說,如果個別題項與總分的相關達到顯著水平,且系數大于0.4,并且在獨立樣本t檢驗中也處于顯著水平,則說明該題項具有可接受的區分度,反之,如果不滿足上述的任一標準,則對該題項進行標記。其次,進行探索性因素分析。研究采用主成分分析法抽取因子,選擇Promax斜交轉軸法進行旋轉。對于各題項的標記,有以下兩點標準:①題項的因子載荷小于0.4;②同時屬于多個因子且因子載荷絕對值相近(差異小于0.1)的題項。如果存在以上任一情況,則對該題項進行標記。
2. 基于專家審查的定性數據收集與分析
(1)專家選取
針對義務教育階段學生計算思維的評價要求,為充分聽取不同領域專家的建議,我們邀請了計算思維研究、信息技術課程研究、信息技術教學研究等方面的8名研究者擔任專家組成員對量表進行內容審查,專家組成員均對新課標具有深刻理解。
(2)數據收集與分析方法
為了確保計算思維量表構建過程中的內容效度,我們根據De León提到的評估準則形成了專家審查評估工具,要求專家從以下三個方面對量表的每個題項進行評判:①質量,即編寫的題項質量高,題項內容能夠反映新課標下的計算思維培養要求。②相關性,即題項能夠準確反映所屬維度的評估內容。 ③清晰度,即題項的表述清晰,不存在容易混淆的術語。專家根據上述標準對每個題項按照五點計分制進行打分,并被要求提出相應的修改建議。最后計算每個題項在以上三個維度上各自的平均值,如果有一個維度上的均值低于4分,則對該題項予以標記。
3. 定性與定量數據的收斂分析
對收集的混合數據進行收斂分析,每個題項存在四類標記結果,并被歸納為三類處理情況(刪除、修訂和審查):①在定性和定量分析時均被標記,則該題項予以刪除;②僅在定性分析時被標記且專家給出了具體的緣由或修改建議,則參照專家意見進行修訂;③ 僅在定性分析時被標記但沒有具體的緣由或修改建議,則該題項予以審查,即保留至下一輪驗證中再次分析;④僅在定量分析時被標記,則該題項也予以審查。
(三)基于大樣本實證調研的量表檢驗與確立
1. 研究對象
為了確保量表的適用性,本研究面向我國東中西部7個省份(東部:廣東省、浙江省;中部:湖南省、湖北省、江西省;西部:貴州省、四川省)開展大樣本實證調研。共計回收有效問卷10433份;其中,男生5287名,占比50.7%,女生5146名,占比49.3%;小學6530人,占比62.6%,初中3903人,占比37.4%。
2. 數據收集與分析方法
本次大樣本實證調研同樣采用問卷星與紙質問卷兩種方式進行數據收集,運用SPSS23.0和Mplus7.4對回收的有效問卷(N3=10433)進行分析,主要包含以下三個部分:首先,通過計算Cronbach's α系數和折半信度系數來評估整體量表及分維度量表的信度。其次,對樣本進行驗證性因素分析,以檢驗結構效度和聚合效度,從而確定前一階段建立的量表因素結構是否充分。最后,運用Mplus7.4建構一系列嵌套模型,使用驗證性因素分析考察計算思維的多組測量等值性,以確保該量表在不同群體之間具有相同的意義和功能。
四、研究結果
(一)量表的驗證與修訂
1. 量表的第一輪驗證與修訂
(1)試點調研結果分析
對第一輪試點調研的數據(N1=1029)進行題總相關分析和獨立樣本t檢驗,以分析量表題項的區分度。題總相關分析結果顯示,各題項與總分的相關系數位于0.679~0.803之間,且均在0.01水平上達到顯著。此外,按總分高低對所有被試進行排序,分為高分組(即得分前27%)和低分組(即得分后27%),對高低分組被試在19個題項上的得分進行獨立樣本t檢驗,結果顯示,兩組被試在每個題項上的得分均差異顯著(p<0.001)。兩種方法都說明量表所有題項均具有較好的區分度。
之后采用探索性因素分析方法探究計算思維量表的內部維度構成。首先,采用KMO和Bartlette球形檢驗判斷樣本數據是否適用于因素分析。結果顯示,KMO=0.973>0.9,Bartlett 的球形檢驗結果達到顯著性水平(χ2=11710.403,df=153,p<0.001),綜合說明該數據適合進行因素分析。其次,采用主成分分析法提取因子,使用Promax斜交轉軸法進行旋轉,旋轉在10次迭代后收斂。然后,使用探索性序貫設計,采用“逐個指標試驗、逐個分析,可下結論即可停止”的方法進行驗證性測試,標記載荷值小于0.4或在同一緯度載荷值相近的指標。結果顯示,有2個題項(T7和T12)的因子載荷值小于0.4,且有1個題項(T11)在兩個因素上的載荷之差為0.02,存在雙負荷的情況。對這3個題項進行標記,最終其他題項的因子載荷值位于0.409~0.949,均大于0.4,共扭轉出5個因子,累計解釋總方差為72.8%。
(2)專家審查結果分析
為確保計算思維量表的內容效度,專家組成員仔細審查每個題項,并根據質量、相關性和清晰度三個方面的標準對其進行打分。表1列出了部分題項的專家審查結果。結果顯示,在計算思維量表的19個題項中,有6個題項(T6、T7、T8、T11、T12、T19)在三個標準中的至少一個上平均得分低于4,因此被標記,并記錄相應的專家建議。
(3)混合數據的收斂分析
通過收斂分析試點調研數據和專家審查數據的重疊和互補視圖,確定被標記為“刪除、修訂或審查”的題項。最終共有6個題項被標記見表2,其中,有3個題項(T7、T11和T12)由于在定量和定性分析階段均被標記,因此,予以刪除;此外,有3個題項(T6、T8和T19)僅在定性分析階段被標記,其中,題項T6和T19僅在清晰度上的得分較低,且專家給出了具體的修改建議,因此,參照專家意見對這兩個題項的表述進行修改,如“T19我能夠用某一方法解決其他問題”改為“T19我能夠將某一問題的解決方案應用于解決其他問題”;對于僅在定性階段被標記但沒有被提供具體改進信息的題項T8,則予以審查,即直接保留至下一輪驗證中被重新分析。
2. 量表的第二輪驗證與修訂
(1)試點調研結果分析
經過第一輪的驗證與修訂,計算思維量表還剩余16個題項,我們利用修訂后的量表開展了第二輪試點調研(N2=1458)。區分度分析結果顯示,各題項與總分的相關系數均在0.5以上(p<0.01),且在獨立樣本t檢驗中,高分組和低分組在每個題項上的得分均差異顯著(p<0.001),可知所有測量指標均具有較好的區分度。
其次,進行探索性因素分析。結果顯示,KMO = 0.942>0.9,Bartlett球形檢驗χ2(120)=10739.696,p< 0.001,說明該數據滿足進行探索性因素分析的前提條件。在此基礎上采用主成分分析法提取因子,使用Promax斜交轉軸法進行旋轉,旋轉在6次迭代后收斂。結果發現,所有題項的因子載荷均大于0.4,且不存在雙載荷的情況。然而,在第一輪驗證中被標記為審查的T8題項與其負荷所在的因素上的其他項目存在語義沖突,且無法進行合理解釋,因此,仍然予以標記。最終其他題項的因子載荷值位于0.422~0.921之間(見表3),均大于0.4,共扭轉出5個因子,累計解釋總方差為69.6%。
(2)專家審查結果分析
專家審查結果顯示,除了在第一輪驗證中被標記為審查的T8題項外,其他15個題項在質量、相關性以及清晰度上的平均得分均高于4,說明修改后的量表的內容效度得到了明顯提升。
(3)混合數據的收斂分析
通過對第二輪試點調研數據和專家審查數據進行收斂混合分析,最終決定刪除T8題項。經過兩輪的驗證與修訂,優化后的計算思維量表共包含15個題項,分別聚合在5個主要因子中,其中,分解維度包含3個題項(T1-T3),抽象維度3個題項(T4-T6),建模維度2個題項(T9-T10),算法設計維度2個題項(T13-T14),評估維度5個題項(T15-T19)。
(二)量表的檢驗與確立
1. 信度分析
信度分析用于檢驗收集到的數據結果是否一致,本文采取的檢驗指標是Cronbach's α系數和折半信度系數。由表4可知,修訂后總量表的α值和折半信度系數分別為0.934和0.914,且5個分維度的α值和折半信度系數也都超過了0.7的較高信度標準,表明本研究編制的計算思維量表具有較好的信度。
2. 效度分析
針對探索性因素分析的結果,使用大樣本實證調研獲得的10433份有效數據和Mplus7.4分析軟件進行驗證性因素分析,以計算數據的因素載荷量,同時分析其結構效度和聚斂效度。
結構效度指測驗某一特定測量工具與其所依據理論或概念框架之間的一致程度[29]。本研究主要通過整體擬合系數來檢驗量表的結構效度。經計算,標準化殘差均方根SRMR=0.016<0.06,近似誤差均方根RMSEA=0.026<0.08,Tucker-Lewis指數TLI=0.984>0.9,相對擬合指數CFI=0.988>0.9。綜合來看,經過兩輪修訂優化后的計算思維量表具有良好的結構效度。
聚合效度分析的主要目的在于檢驗同一變量的各指標之間的相關程度[30]。由表5可知,5個潛變量所對應各個題項的標準化因素載荷范圍為0.737~0.859,均大于0.5,說明各潛變量對應所屬題項具有較好的代表性。此外,量表5個維度的平均方差提取(AVE)值在0.560~0.716之間,均大于0.5;組合信度(CR)值在0.719~0.864之間,均大于0.7,說明該量表具有良好的聚合效度。
3. 多組測量不變性檢驗
為了檢驗量表在不同學生群體中的適用性,我們采用驗證性因素分析考察其多組測量等值性。具體通過比較以下三個嵌套模型之間的差異來實現:(1)形態等值,即檢驗不同群組之間潛變量與指標的從屬關系是否相同;(2)負荷等值,即檢驗因子負荷是否跨組不變;(3)尺度等值,即檢驗觀測變量的截距是否具有不變性。如表6所示,數據結果支持計算思維量表的五維測量結構在性別、年級和地區上的形態等值,負荷等值和尺度等值,且CFI和RMSEA的變化量均未超過建議的臨界值(即ΔCFI≤0.01,ΔRMSEA≤0.015)[31],說明量表在不同性別、年級和地區之間具有相同的意義和功能。
五、結論與討論
(一)基于新課標確定計算思維測評框架,確保量表的本土化和合理性
本研究基于新課標確定義務教育階段學生的計算思維測評框架,確保了量表的本土化和權威性,且研究結果顯示該量表具有較高的結構合理性。計算思維的評價一直是該領域的重點和難點,盡管近年來國際上相關的測評量表逐漸涌現并得到廣泛應用,但其結構是否符合中國化實際和教育情境、是否與時俱進,符合我國最新的計算思維培養要求等問題也日益受到國內學者的廣泛關注。課程標準是國家綱領性的教學文件,對學生的發展和能力評估起著關鍵的指導作用。本研究針對義務教育階段學生群體,首次依托新課標,提取計算思維培養的五個共同核心要素(分解、抽象、建模、算法設計和評估),在此基礎上開發相關測評指標,確保了量表的本土化和權威性。此外,通過驗證性因素分析結果可知,各項擬合指數均達到理想標準,說明了該量表的結構具有較高的合理性。
(二)采用收斂混合方法和大樣本實證檢驗構建量表,確保量表的有效性及在不同學生群體間的適用性
本研究嚴格遵守量表的構建程序,并在量表構建的各個階段采用合理有效的方法(如收斂混合法、大樣本實證檢驗等),保證了計算思維量表構建過程的科學性和創新性,且其具有一定的可借鑒性。首先,在初始量表的開發階段,組建專家團隊,對計算思維定義進行全面的研究回顧和深入的內容分析,并重點解析新課標,確定計算思維測評的概念框架,經過生成項目池、審查題項,編制了包含19個題項的量表初稿。
其次,運用收斂混合方法對量表進行驗證與修訂。以往研究在該階段大多僅基于定量的調研數據結果對題項進行刪減,導致量表的內容效度缺乏保證。因此,本研究在將量表用于試點調研以收集定量數據的同時,也收集了基于專家審查的定性數據。在第一輪的收斂混合分析中:(1) 3個題項在定量和定性分析階段均被標記,因此予以刪除;(2) 2個題項僅在定性分析階段被標記且專家給出了具體的修改建議,因此按照專家意見對其進行修改;(3) 1個題項僅在定性分析階段被標記且專家沒有給出具體的意見,因此保留至下一輪驗證中被重新分析。在第二輪的收斂混合分析中,刪除1個同時在定量和定性分析階段被標記的題項。經過兩輪的收斂混合分析,優化后的計算思維量表包含5個維度和15個關鍵指標。
最后,基于大樣本實證調研數據,運用信度分析、驗證性因素分析等方法檢驗量表的信效度。研究結果顯示,總量表及其5個分維度的α值和折半信度系數均超過了0.7的較高信度標準,說明量表具有較好的信度。另外,本研究還分析了量表的結構效度和聚斂效度。驗證性因素分析結果表明,各項擬合指數均達到理想標準,說明量表具有良好的結構效度。量表5個維度平均方差提取值均大于0.5,組合信度均大于0.7,說明其具有良好的聚合效度。
此外,本研究的又一個重要貢獻是考察了計算思維量表在不同學生群組中是否具有相同的意義和潛在結構,證明了量表的適用性。我們具體通過比較不同性別、年級和地區分組中,下列三個嵌套模型之間的差異來進行分析:形態等值、負荷等值和尺度等值。結果表明,各模型均達理想的擬合水平,且模型間CFI和RMSEA的變化量均未超過建議的臨界值,說明本研究所構建的量表在不同學生群組間具有相同的意義和功能。該量表為我國中小學生計算思維的性別、年級及地區差異研究提供了有效的工具。
六、結 ? 語
本土化的、權威的測評工具是培養學生計算思維能力的基礎,也是檢驗培養成果的重要手段。本研究首次依托新課標,確定計算思維的五因素測評框架,運用收斂混合方法、大樣本實證檢驗構建了最終包含15個題項的中小學生計算思維測評量表。經驗證,該量表具有較高的信效度,且具有廣泛的適用性。在未來的研究中,可以使用該量表進一步探究我國中小學生計算思維發展的總體水平及群體差異,以及不同群體學生計算思維的影響因素,為研究者和教學實踐者制定科學有效的計算思維教育計劃提供參考。
[參考文獻]
[1] WING J M. Computational thinking[J]. Communications of the ACM,2006,49(3):33-35.
[2] PEDRO F, SUBOSA M, RIVAS A, VALVERDE P. Artificial intelligence in education: challenges and opportunities for sustainable development [R]. Paris: UNECO,2019:18-20.
[3] 中華人民共和國教育部.義務教育信息科技課程標準(2022年版)[S].北京:北京師范大學出版社,2022.
[4] 惠恭健,蘭小芳,錢逸舟.計算思維該如何評?——基于國內外14種評價工具的比較分析[J].遠程教育雜志,2020,38(4):84-94.
[5] 房敏,孫穎,呂慎敏,等.基于教學勝任力的師范生計算思維評價量表開發——以斯滕伯格成功智力理論與思維教學理論為支點的探索[J].電化教育研究,2021,42(2):112-120.
[6] 白雪梅,顧小清.K12階段學生計算思維評價工具構建與應用[J].中國電化教育,2019(10):83-90.
[7] 陳興冶,馬穎瑩.本土化計算思維評價指標體系的構建與探索——基于1410名高中生的樣本分析與驗證[J].遠程教育雜志,2020,38(5):70-80.
[8] 孫立會.聚焦思維素養的兒童編程教育:概念、理路與目標[J].中國電化教育,2019(7):22-30.
[9] TSAI M J, LIANG J C, HSU C Y. The computational thinking scale for computer literacy education[J]. Journal of educational computing research,2021,59(4):579-602.
[10] 張立國,王國華.計算思維:信息技術學科核心素養培養的核心議題[J].電化教育研究,2018,39(5):115-121.
[11] 馮友梅,王昕怡,劉曉蕊,等.計算思維不是什么:論計算思維的邊界及其何以成為信息技術學科的立足之本[J].電化教育研究,2023,44(1):84-90.
[12] WEINTROP D, BEHESHT E, et al. Defining computational thinking for mathematics and science classrooms [J]. Journal of science education and technology,2016,25(1):127-147.
[13] GUZDIAL M. Education paving the way for computational thinking[J]. Communications of the ACM,2008,51(8):25-27.
[14] WING J. Research notebook: computational thinking—what and why[J]. The link magazine, 2011,6:20-23.
[15] SELBY C, WOOLLARD J. Computational thinking: the developing definition[R]. Southampton: University of Southampton (E-prints), 2013.
[16] 朱珂,徐紫娟,陳婉旖.國際視閾下計算思維評價研究的理論和實踐[J].電化教育研究,2020,41(12):20-27.
[17] KUKUL V, KARATAS S. Computational thinking self-efficacy scale: development, validity and reliability[J]. Informatics in education, 2019,18(1):151-164.
[18] 張屹,莫尉,張巖,等.我國小學生計算思維量表研發與應用[J].中國電化教育,2020(10):49-57.
[19] CSIZMADIA A, CURZON P, DORLING M, et al. Computational thinking—a guide for teachers [M/OL]. Swindon: Computing at school,2015 [2023-11-20]. https://eprints.soton.ac.uk/424545/. html.
[20] CURZON P, DORLING M, NG T, et al. Developing computational thinking in the classroom: a framework [M/OL]. Swindon: Computing at school, 2014 [2023-11-20]. https://eprints.soton.ac.uk/369594/. html.
[21] KILI?覶 S, G?魻KO■LU S, ?魻ZT?譈RK M. A valid and reliable scale for developing programming-oriented computational thinking[J]. Journal of educational computing research, 2021, 59(2):257-286.
[22] CRESWELL J W, CLARK V L P. Designing and conducting mixed methods research[M]. Thousand Oaks, CA, US: Sage publications, 2017.
[23] BURTON L J, MAZEROLLE S M. Survey instrument validity part I: principles of survey instrument development and validation in athletic training education research[J]. Athletic training education journal, 2011,6(1):27-35.
[24] 張靜,劉笛月.社會與情感能力測評三問[J].中國教育學刊,2021(2):18-24.
[25] NORTH B. Developing descriptor scales of language proficiency for the CEF common reference levels[C]//AIDERSON J C,et al.Common european framework of reference for languages: learning, teaching, assessment: case studies. Strasbourg: Council of Europe, 2002.
[26] ZHOU Y. A mixed methods model of scale development and validation analysis[J]. Measurement: interdisciplinary research and perspectives,2019,17(1):38-47.
[27] YACI M. A valid and reliable tool for examining computational thinking skills[J]. Education and information technologies, 2019,24(1):929-951.
[28] DE LE?魷N L, CORBEIL R, CORBEIL M E. The development and validation of a teacher education digital literacy and digital pedagogy evaluation[J]. Journal of research on technology in education, 2023,55(3):477-489.
[29] CARMINES E G, ZELLER R A. Reliability and validity assessment[M]. ?Thousand Oaks, CA, US: Sage publications, 1979.
[30] 陳維,黃程琰,毛天欣,等.多維測評工具聚斂和區分效度的SEM分析——以領悟社會支持量表為例[J].西南師范大學學報(自然科學版),2016,41(2):136-140.
[31] CHEUNG G W, RENSVOLD R B. Evaluating goodness-of-fit indexes for testing measurement invariance[J]. Structural equation modeling, 2002,9(2):233-255.
A Study on the Construction of Computational Thinking Scale for Primary and Secondary School Students Based on New Curriculum Standards
ZHANG Yi, ?CHEN Dengkang, ?FU Weidong, ?LIU Jinfang, ?LIN Yuru, ?DING Shuangting
(Faculty of Artificial Inteligence in Education, Central China Normal University, Wuhan Hubei 430079)
[Abstract] The cultivation of students' computational thinking has become a core issue in the digital era, and scientific and accurate assessment is the basis for cultivating students' computational thinking skills. However, there is no localized and authoritative scale based on relevant curriculum standards to measure students' computational thinking in compulsory education. Therefore, for the first time, this study relies on the definition and cultivation requirements of computational thinking in the Compulsory Education Information Technology Curriculum Standards (2022 Edition) (hereinafter referred to as "the new standards"), takes a total of 12,920 (N1=1029, N2=1458, N3=10433) primary and junior high school students as research samples, and uses the convergent mixed method to construct a rigorously validated computational thinking scale for primary and secondary school students in China. The results show that after two rounds of convergent mixed analyses, the modified computational thinking scale contains 5 factors and 15 items with good content validity. After large-sample empirical test analysis, the scale has good reliability and validity, and has measurement equivalence across gender, grade and region, which can be used to measure the level of computational thinking of primary and secondary school students.
[Keywords] New Curriculum Standards; Computational Thinking Scale; Convergent Mixed Methods; Large-sample Empirical Test; Compulsory Education