周琴, 鄧玉
西南大學 教師教育學院,重慶 400715
計算思維(Computational Thinking, 簡稱CT)融合了解決問題、 設計系統和理解人類行為等多種思維活動, 已成為信息化和數字化進程加速的智能環境中重要的思維能力[1]. 卡內基·梅隆大學(CMU)計算思維中心特別強調了計算思維對所有學科的重要性, 指出沒有計算思維就幾乎不可能在任何學術領域進行研究[2]. 計算思維教育在國際上受到高度關注. 澳大利亞、 英國、 波蘭、 韓國等國先后將計算思維納入課程大綱, 以培養學生的信息技術能力和數字素養. 截至2021年, 已有55個國家正式加入全球最大的推動計算思維教育的主題活動——國際計算思維挑戰賽(Bebras). 我國教育部于2018年1月印發《普通高中信息技術課程標準(2017年版)》, “信息意識、 計算思維、 數字化學習與創新、 信息社會責任”等逐漸進入人們的視野. 2019年3月, 教育部發布《2019年教育信息化和網絡安全工作要點》, 計劃通過人工智能、 計算機編程、 大數據等技術推動學生計算思維的培養, 表明我國對計算思維教育日趨重視.
國際上有大量研究證實, 基于技術進行教學干預對學生的計算思維培養具有顯著正向影響. 譬如, 寧可為等[3]基于App Inventor編程應用開展初中信息技術課程教學, 結果發現學生的計算思維能力顯著提升; Chou[4]將ScratchJr整合到編程課程中, 發現幼兒的計算思維能力經過8周課程學習后有顯著進步. 但也有實驗得出不同結論, 岳彥龍等[5]構建了人工智能案例驅動的 Python 編程教學模型, 發現其對學生計算思維的干預作用不明顯; Rodríguez-Martínez等[6]設計了使用Scratch進行教學干預的實驗組和在紙筆環境中教學的對照組, 發現兩組學生的計算思維成績在統計學上沒有顯著差異. 由此可見, 技術支持型教學干預對學生計算思維培養的效果仍有待進一步檢驗.
綜上, 本研究擬通過元分析方法對2006年1月至2022年10月國內外的實證研究進行分析, 重點探索技術支持型教學干預對學生計算思維的影響, 以及學科、 干預工具、 評估工具、 國家(地區)、 不同學段、 實驗周期、 樣本量大小、 性別對學生計算思維培養的調節作用, 以期為計算思維培養的研究與實踐提供理論依據和路徑參考.
計算思維的概念出現于20世紀中后期, 它源自物理、 生物、 工程等眾多學科, 而非僅來自計算機學科. 1980年, Papert[7]首次提出計算思維概念, 他認為計算思維可以改變兒童跨領域思考的方式. 這一觀點與Berland等[8]提出的 “計算思維即將計算機作為工具進行思考的能力”相吻合. 國際教育技術學會(International Society for Technology in Education, 簡稱ISTE)認為計算思維是一種基于算法思維和自動化的問題解決過程[9]. 《計算機教育與可持續競爭力》(簡稱“藍皮書”)寫道: 計算思維是以信息獲取和計算實現認知世界和問題解決的思想及方法論[10]. 2006年, 周以真發表《計算思維》, 她將計算思維定義為一種能夠清晰地將問題和解決方案用計算科學或人類行為有效執行出來的思維過程和思維能力, 該定義被廣泛認可[11].
教學干預是一個約定俗成且意義較廣的概念, 泛指一切對學習者產生影響的介入手段[12]. 盡管已被視為覆蓋眾多學科的思維模式, 但計算思維的教育仍有待開發, 特別是K-12學校. 研究者們開展了大量培養計算思維的實證研究, 這些研究大部分依賴一定的教學設計和技術且得到的結論有所差異, 因此, 本文重點關注不同類型的技術支持型教學干預對計算思維培養的影響. 根據已有研究和納入的文獻, 下文從計算思維教學干預的學科、 干預工具和評估工具3個方面進行分析.
從理論上講, 計算思維可在多種學科培養過程中體現, 其蘊含的抽象、 分解和自動化素養能為學科方案設計和問題解決提供有效支撐, 同時具體學科問題能為計算思維的培養提供情境支持. 研究者們嘗試在不同的教學環境中實施干預以促進學生計算思維的發展. 從現有教學實踐來看, 編程教育是重要途徑之一, 如多召軍等[13]探究編程教育促進學生計算思維發展的內在機理, 構建了分階段和結構化的兒童編程學習活動的框架. 在計算機和科學(數學、 化學、 物理和生物)課程中融入計算思維訓練也是教學研究的主要內容. Peel等[14]成功利用蛋白質合成進行計算思維教學. Bundy[15]認為計算思維幾乎影響所有學科, 既包括科學領域, 也包括人文領域. Kafai等[16]提出通過參與其他學科實踐來提高計算素養. Petrie[17]發現計算思維能夠為音樂和編程學習提供有效支持. 這些研究都側重于在特定學習環境的背景下考察計算思維培養的重要性, 但少有研究對不同學科干預環境進行橫向比較, 元分析則提供了彌補該空缺的工具.
有效的教學工具可以在計算思維的培養過程中發揮增效提質的作用. 由于在培養學生計算思維的過程中不可避免地涉及算法和邏輯, 故傳統的計算思維教學工具常常基于計算機語言進行開發設計. 隨著技術飛速發展, 基于文本的單一形式的教學工具已不能滿足K-12各學段計算思維培養的需求, 圖形或模塊化的、 游戲形式的教學工具被廣泛應用. 國外對促進計算思維的教學工具的研究較為豐富, 大多學者認為選擇計算思維教學工具應遵循“低地板, 高天花”原則, 即選擇工具既要滿足基礎學習的需要, 還要滿足高級程序設計的需要. 國內計算思維培養的工具則較為單一, 常用的有Scratch和App Inventor, 如熊秋娥等[18]通過教學實踐驗證了Scratch可視化編程軟件對學生計算思維能力的培養有顯著促進作用. 已有研究通常分析某一具體教學干預工具的效果, 而缺乏對不同工具干預效果的比較. 故本文將干預工具作為調節因素之一, 主要目的在于檢驗不同教學干預工具對提升學生計算思維的差異性.
作為教學過程的重要環節, 適切的評價和反饋也是研究者關注較多的干預措施之一. 本研究參考已有 研究[19]將教學評估工具分為4類: 第一類是基于編程任務的評價, 一般將評價過程融入計算思維的培養過程, 通常伴隨學生編程任務的進行并及時給予反饋, 如TDIA[20]; 第二類是基于量表的評價, 即采用已開發的信效度較高的成熟量表進行測量, 通過學生的量表得分反映計算思維能力, 如CTt[21]; 第三類是基于試題的評價, 往往建立在試卷和測試的基礎上, 以客觀題的形式測量學生的計算思維能力, 如Bebras國際測試; 第四類是基于系統環境的評價, 這類評價依托一定的計算思維培養的系統環境, 通過系統設置固定的計算方式, 自動收集學生計算思維的評價數據, 在學習任務完成之后自動生成反饋和評價報告, 如Dr.Scratch 、 Code Master、 REACT.
除了干預工具、 學科和評估工具會影響計算思維教學干預的效果, 實驗設計本身也會導致研究結果有所差異. 首先, 在教學實驗中, 參與者認知水平的差異會影響實驗結果[22]. 研究表明, 培養低年級學生的計算思維比高年級學生有更顯著的效果[23]. 考慮到這一干擾因素, 本研究以學段為調節因素探究其對計算思維培養的影響, 并縱向比較技術支持型教學干預在什么學段對學生計算思維的影響最大. 其次, 作為實驗設計的重要因素, 樣本量對學生計算思維的教學干預結果有顯著影響[24]. 因此, 研究將樣本量作為元分析的調節因素進行分析, 測試樣本量對學生計算思維的影響是否顯著, 為特定計算思維教學的學生人數設置提供新思路. 在計算思維的培養中是否存在性別差異仍有爭議. Atmatzidou等[25]在教育機器人學習活動的背景下發現, 與男孩相比, 女孩似乎需要更多的訓練時間才能達到相同的技能水平. 然而, Milto等[26]發現, 在入門工程課程的機器人活動中, 男性和女性實力相當. 故本文將性別作為調節因素之一進行檢驗, 探究性別對計算思維教學干預的效果是否有顯著影響. 最后, 王勝蘭等[27]通過元分析發現, 樣本所在地區不同, 教學干預對學生深度學習的影響有顯著差異. 據此可以推測, 不同文化背景下的學生在認知方式和學習習慣上存在差異, 這可能會導致不同國家(地區)的樣本在計算思維教學干預效果上有差異. 對以上文獻進行梳理, 將學段、 樣本量、 國家(地區)、 性別也納入調節因素, 檢驗它們是否會在技術支持型教學干預與學生計算思維培養的影響效應中產生調節作用.
為盡可能囊括各個數據庫中已有的文獻樣本, 本研究在中國知網、 維普、 萬方3大中文數據庫, 以及Web of Science、 ProQuest Central、 ERIC、 Elsevier SDOL、 Google Scholar 5個外文數據庫進行了全面搜索, 類型涵蓋了期刊論文、 學位論文和學術會議論文, 時間跨度為2006年1月-2022年10月.
首先, 對本研究的因變量展開檢索, 中文檢索設置主題詞為“計算思維”, 外文以“computer thinking”為主題詞檢索; 再運用各檢索引擎的高級檢索功能選擇主題檢索模式進行檢索, 并加入相關教學技術和工具(編程、 編碼、 樂高等), 限制文獻為實驗研究或者案例, 在檢索框中輸入檢索公式“(Programming or Code or LOGO or Scratch or Robotics*) AND (Computational Thinking) AND (Research or Study or Case)”, 其他檢索條件設為默認, 運行檢索并將所得文獻導出匯總, 共獲得文獻472篇. 在此基礎上, 依據第一輪檢索的文獻所提供的參考文獻進行第二輪檢索, 以滾雪球的方式獲得104篇與主題相關的文獻, 隨后將兩輪文獻檢索結果進行匯總和整理, 刪除重復文獻32篇, 共產生544篇可供進一步篩選分析的候選文獻.
根據Meta分析的文獻輸入要求, 納入的文獻均需采用隨機實驗或準實驗方法. 由于不是所有文獻都符合納入要求, 本研究制定了嚴格的遴選標準, 包括以下4點: (1) 研究為準實驗或隨機實驗研究, 且必須是實證研究. 有實驗組和對照組, 或者有前測和后測的比較, 有一定周期的干預并用實證研究的方法收集數據, 否則予以排除. (2) 研究主題與計算思維培養相關, 計算思維是研究的因變量或者因變量結果的一部分. (3) 研究需報告效應量或有足量用于計算效應量的數據信息, 否則予以排除. (4) 數據重復發表的研究選擇其中一篇論文, 其余研究則予以排除. 根據以上標準進行納入和排除文獻的流程如圖1所示, 篩選后共有37篇文獻被納入分析.

圖1 納入和排除文獻流程圖
本研究對文獻基本信息(作者和發表時間)、 樣本所在國家(地區)、 干預的周期、 樣本量大小、 學段、 性別、 學科、 教學干預的工具、 評估工具以及結果變量類型進行編碼, 同時提取和計算文獻中能夠衡量干預效果的效應量(表2). 若同一篇文章中出現多個獨立樣本, 則分開編碼.

表2 文獻編碼信息
為確保納入研究的文獻質量, 本文參照Valentine等[28]對文獻質量的評估方法, 從干預措施、 樣本特征、 實驗設計、 測量工具和測量過程5個方面對文獻質量賦分, “不清晰”為0分, “較清晰”為1分, “清晰”為2分, 分數越高代表文獻質量越高. 經作者評分, 本研究各文獻得分范圍在6~10分, 表明納入文獻的質量基本滿足元分析要求.
常用的元分析數據處理軟件有Revman(Review Manager)、 STATA、 R和CMA(Comprehensive Meta Analysis)等, 本文選用CMA 3.3軟件進行Meta分析. 當計算樣本量小于20的研究的標準均值差時, 應選用g值作為效應量指標以減小偏差[29]. 本文有11項研究的樣本量小于20, 故選用g值作為統一效應量指標. 參考Ishinuki等[30]的研究, 當同一篇文章中出現多個測量維度時, 研究使用StatsToDo網站合并多個維度的均值和方差作為該文章的總均值和方差.
需要注意的是, Borenstein等[31]發現當一篇文章有多個獨立研究而產生多個效應量時, 可能導致文獻占比過重而使結果產生偏差. 故研究運用CMA3.3軟件將這部分實驗的效應量合并作為該研究的最終效應量, 效應量的置信區間(CI)為95%.
鑒于CMA3.3可以直接得出I2值, 因此本研究選擇I2檢驗來判斷異質性. 根據Higgins等人的標準,I2<25%表示研究存在低異質性, 25%≤I2≤75%表示研究存在中異質性,I2>75%表示研究存在高異質性[32]. 本研究樣本的異質性檢驗結果顯示I2為90.318%>75%(見表3), 說明研究樣本間存在明顯的高度異質性. Borenstein等[31]指出, 存在異質性時, 應選取隨機效應模型, 因此, 本研究采用隨機模型計算合并效應值, 同時進行調節變量分析, 厘清異質性來源.

表3 技術支持型教學干預對學生計算思維的整體影響效應
發表偏倚指科學研究的傳播受到發表、 時滯、 多重發表、 地域、 結果報告等多種因素影響, 造成系統評價的偏差, 即現有研究中大量存在的陽性結果, 而對陰性結果加以忽視或排斥發表, 造成Meta分析結果的偏倚. 最常用的檢測方法是漏斗法, 本研究的大部分樣本聚集在漏斗頂端, 均勻分布在漏斗中心兩側, 初步說明存在發表偏倚的可能性(圖2). 為進一步驗證, 選擇Egger法對發表偏倚的統計量進行檢驗, 發現t=3.66(p<0.05), 說明存在發表偏倚. 采用剪補法進行修正, 在隨機模型條件下評估發表偏倚對研究結果穩健性的影響, 沒有納入虛擬文獻, 前后結果未發生變化, 說明發表偏倚對合并效應量不存在顯著影響.

圖2 元分析漏斗圖
Classic失安全系數(Fail-safe N)主要評估有多少未發表的研究才能使得已經發表研究的總體效應值不顯著. 衡量標準為5*n+10, 其中n代表本研究中納入元分析的文獻數量, CMA3.3得出本研究中失安全系數為6 761, 遠大于195(n=37). 這表示還需要6 761個研究才能推翻本研究的結論, 說明未發表研究的效應值對已經發表的總體效應值影響較小.
4.4.1 對計算思維整體的影響效果檢驗
合并37篇文獻的效應量作為結果變量, 在選定隨機效應模型下得出的合并效應量均大于0, 且p值小于0.001, 說明技術支持型教學干預對學生計算思維的培養具有顯著正向影響. 當0.2≤g<0.5時, 被認為是小效應, 當0.5≤g<0.8時具有中上等影響, 大于0.8為大效應[33]. 本研究的合并效應量g=0.780(95%CI、 0.631~0.929)(表3), 表明技術支持型教學干預對學生的計算思維培養具有中等以上的顯著效應.
4.4.2 對計算思維不同維度的影響效果
Brennan等[34]將計算思維劃分為計算思維概念、 計算思維實踐和計算思維態度3個內容維度, 該框架在計算思維研究中被廣泛引用[35]. 在37篇文獻的45項獨立研究中, 有30項研究關注計算思維的整體效果, 8項研究關注計算思維概念, 6項研究關注計算思維概念和實踐. 如表4所示, 盡管組間效應的差異不顯著(p>0.05), 但從效應量大小比較來看, 僅關注計算思維概念的教學干預效果最差, 對計算思維概念和實踐進行整合干預的效果最好.
4.5.1 不同學科的調節效應檢驗
本研究中, 依托編程課(n=11)和STEAM課程(n=9)進行教學干預最為常見(表5). 編程課、 計算機科學、 西班牙語課和信息技術課的g值均為超過0.8的大效應量, 但是西班牙語課的數據是由同一作者(zha2018)給予相同指導下的研究提供的數據, 可能存在偏差.

表5 不同學科的調節效應檢驗
4.5.2 干預工具類型的調節效應檢驗
對文獻報告的技術型教學干預工具的類型進行調節效應檢驗, 發現不同類型的技術型教學干預工具對學生計算思維的培養沒有顯著差異(p>0.05)(表6). 從雙尾檢驗的結果來看, 圖形或模塊化的編程語言、 游戲化的編程環境、 開源電子原型平臺均對學生的計算思維培養產生顯著正向影響. 其中游戲化編程環境的合并效應量最大(g=0.993), 圖形或模塊化編程語言次之(g=0.818).

表6 不同干預工具的調節效應檢驗
4.5.3 評估工具類型的調節效應檢驗
將37項研究的評估工具分為基于編程任務的評價(n=12)、 基于量表的評價(n=11)、 基于試題的評價(n=11)和基于系統環境的評價(n=9) 4類(表7). 整體來看, 4類計算思維評價工具都對計算思維教學干預的效果具有顯著的積極效應(p<0.001). 從組間效應來看, 4類評估工具存在顯著性差異(p<0.001). 基于系統環境的評價具有最大的合并效應量(g=1.520>0.8), 其次是基于量表的評價工具(g=0.846).

表7 不同評估工具的調節效應檢驗
4.5.4 不同國家(地區)的調節效應檢驗
不同國家(地區)在計算思維教學干預效果上有顯著差異(Q=88.122,p<0.001)(表8). 結合各組的合并效應值和雙尾檢驗的結果, 中國臺灣、 中國香港、 印度尼西亞、 美國、 土耳其教學干預的效果較好, 韓國、 希臘、 新加坡教學干預的效果相對較差, 其余國家的教學干預效果不顯著(p>0.05).

表8 不同國家(地區)的調節效應檢驗
4.5.5 不同干預周期的調節效應檢驗
為進一步探究不同周期的技術型教學干預對學生計算思維培養的影響, 將文獻報告的實驗周期劃分為0~5周、 6~11周和12周及以上3類. 由表9可知, 3類干預周期都對計算思維的培養產生顯著影響(p<0.01). 對比效應量值發現, 實驗效應量由大到小依次為6~11周(g=0.866)>0~5周(g=0.700)>12周及以上(g=0.680). 從組間效應來看, 3類實驗周期的教學干預效果沒有顯著性差異(p>0.05).

表9 不同干預周期的調節效應檢驗
4.5.6 不同樣本大小的調節效應檢驗
本研究將樣本量分為0~30、 31~50、 51~100、 101及以上4組, 組間效應差異顯著(p<0.01)(表10), 表明樣本量對技術型教學干預的效果有影響. 樣本量為0~30的組(n=18)和樣本量為31~50的組(n=8)均達到了大效應, 樣本量在101及以上的組僅表現為小效應.

表10 不同樣本大小的調節效應檢驗
4.5.7 不同學段的調節效應檢驗
由雙尾檢驗的結果可知, 技術支持型教學干預對不同學段學生計算思維的培養均有顯著影響(p<0.05), 各學段的調節作用效果表現不同(p<0.05)(表11). 由于大學階段的樣本量較少(n=1), 所以主要比較學前至高中4個階段. 從效應值(g)大小來看, 技術支持型教學干預對初中階段學生計算思維培養的作用效應值最大(g=1.615,p<0.001), 其次是學前階段(g=0.891,p<0.001), 小學階段和高中階段產生了相同大小的效應值(g=0.625,p<0.001).

表11 不同學段的調節效應檢驗
4.5.8 性別差異的調節效應檢驗
為探究計算思維的培養是否受到性別影響, 本研究對樣本的男性比例進行了統計, 由于男性比例數據是連續性變量, 故采用元回歸分析進行檢驗. 通過元回歸分析, 選取隨機效應模型, 獲得回歸模型的F=0.04(p>0.05)不顯著, 可知計算思維的培養在性別上沒有顯著的統計學差異.
本研究采用元分析方法, 分析了國際上37篇技術支持型教學干預對學生計算思維培養的實證研究, 從主效應檢驗的結果看, 技術支持型教學干預對學生計算思維的促進作用達到了顯著水平(p<0.001), 且95%CI下限大于0, 合成后的效應量g=0.780, 為中等效應, 表明技術支持型教學干預對計算思維具有中等程度的顯著正向影響. 對比馬志強等[36]關于計算思維教學的元分析研究(SDM=0.35), 本研究得到的合并效應量明顯更大. 相較而言, 本研究更為綜合地考慮了技術支持型教學干預對學生計算思維培養的影響, 內容更為全面, 研究對象更為廣泛, 且對多個可能影響研究結果的調節變量進行了分析, 經過嚴格的結果穩定性檢驗, 研究結論可信度高.
如前所述, 不管是關注計算思維整體, 亦或計算思維的不同維度, 合并效應量值都較為可觀, 均獲得了中等及以上的效應量大小, 且不存在顯著的組間差異(p>0.05). 相對計算思維的實踐和態度, 研究者們更多地探討了學生計算思維整體和概念認知的培養. 但本研究結果表明, 僅關注計算思維概念的干預效果相對其他3組(計算思維整體、 計算思維概念和實踐、 計算思維實踐)偏低. 作為一種在大數據時代、 人工智能環境中生存所需的習得性技能, 計算思維的培養是全面、 系統、 長期的過程. 研究者需要多維立體地關注學習者的計算思維培養, 結合計算思維的科學本質和內在范疇設計教學干預方案.
本研究通過調節效應檢驗進一步分析了各研究結果間存在差異的原因. 整體來說, 納入調節變量的因素主要有兩類: 一類是關于教學干預的變量, 包含本研究選取的學科、 干預工具和評估工具3個角度, 對這類調節變量的分析便于了解哪些教學干預措施和工具更為有效; 另一類是實驗設計本身差異造成的不同, 如考慮到計算思維教育在各國和各地區的實施方式不同, 或由于受到不同硬件和軟件環境的影響, 可推測國家和地區因素會對實驗結果造成一定影響. 同時, 除了外在的地域差異外, 實驗設計本身的樣本量大小、 樣本中男女生的結構占比、 被試樣本的學段以及干預周期也是影響實驗結果的重要因素.
5.2.1 不同學科中計算思維的教學有效性差異顯著
不同學科中計算思維的教學干預效果呈現出顯著的組間差異. 英語和信息學課程中計算思維教學的效果不顯著, 在西班牙語和舞蹈課上教授計算思維卻產生了顯著效應, 這說明本研究無法求證在非計算機相關或非編程類學科中教授計算思維是否有效. 有研究對該問題進行了探討, 如Ye等[37]對55項研究的元分析發現, 計算思維與非STEAM學科領域(包括語言學習、 社會科學和音樂等)整合的研究具有顯著效應. 目前這方面的實證研究數量仍較少, 但很多研究已表明在計算機科學以外的領域開展計算思維教育極具潛力. 還有學者指出在教學過程中將問題情境設置在真實場景中并給予學生展示機會, 能顯著提升學生的計算思維在各學科的遷移和運用能力[38].
5.2.2 游戲化的編程環境培養學生的計算思維效益較高
研究發現, 圖形或模塊化編程語言、 游戲化編程環境的干預效果均為大效應, 即這兩類工具對學生的計算思維培養能夠產生較大效益, 這與傅騫等[39]的研究相符. 圖形或模塊化編程語言可降低學生的認知負荷、 提升其學習興趣. 相對簡單的高級編程語言對學生計算思維的培養效果不顯著(p>0.05). 究其原因, 相比圖形或模塊化的編程語言和基于游戲的編程語言, 這類編程語言(如Python、 Java、 Ruby等)的學習形式主要圍繞語法展開, 內容較為枯燥, 對學習者而言難度較高. 然而, 也有研究指出[40], 選擇的計算思維教學工具并不是越簡單越好, 工具與教學對象之間有高度適配性才能產生好的教學效果. 此外, 選擇計算思維教學工具時除了考慮學習者的基礎, 還應注意教學目標是否契合. 因為大部分計算系統或工具最初的設計目標是滿足用戶的廣泛需求, 而非專門為培養計算思維所開發. 因此, 在教育教學實踐中, 所選用的工具需要兼顧不斷訓練學生計算思維各方面能力的功能以及滿足學生解決問題和進階學習的需要.
5.2.3 基于系統環境的過程性評價工具更具時效性和真實性
對學生的計算思維進行評價是課堂教學的關鍵一環. 經調節效應檢驗發現, 4類評價工具的效果具有顯著差異(p<0.05), 其中基于系統環境的評價工具達到相對較大的效應量(g=1.520). 目前對計算思維的評估大多傾向于在各種系統環境中進行, 以檢查學生在特定平臺產生的學習結果. 如Koh等[41]開發了一個實時計算思維評估系統, 強調對學生創建的游戲或模擬進行語義分析. 基于系統環境的評價主要是利用學習系統來評估學習者的學習過程并自動生成過程性評價的數據, 進而反饋真實全面的評價結果. 這一特征與計算思維在問題解決情境中的思維過程相吻合, 能在學生的學習過程中提供較為及時準確的反饋. 但這種評價方式相對其他幾類工具而言, 對技術開發的要求較高. 單一評價工具不能適用于所有的教育情境, 綜合使用多種評價工具是一種必然的趨勢. 目前, 計算思維評價工具大多是由歐美學者開發的, 國內在自主開發本土化的計算思維評價工具方面仍有很大的發展空間. 教育者要合理看待國外開發設計的評價工具, 直接編譯和引入的評價工具不能很好地適應我國的課程和教學環境, 需從實踐研究出發, 以科學探究的結果作為研發工具的參照, 自主研發更有針對性的評價工具, 以促進計算思維教育的發展.
5.2.4 小樣本量、 初中生以及6~11周的教學干預效果更優
本研究中不同國家之間計算思維的教學干預情況具有顯著的組間差異(Q=88.122,p<0.001), 這說明實驗所在國家與計算思維教育干預的效果顯著相關. 不同干預周期對計算思維教學干預沒有顯著影響, 但6~11周的干預周期能夠獲得相對更大的干預成效(g=0.866).
就樣本量而言, 不同大小的樣本量在計算思維教學干預的效果上呈現顯著差異, 小班教學干預的效果更好. 與大班教學相比, 小班教學中可以配置的教學資源占整體資源的比例會增加, 教師有更多的教學時間, 更易進行班級管理和控制課堂節奏. 但小班化教學對教師的素質要求往往更高, 教育硬件和軟件的投入也會增加. 因此, 未來計算思維的教學干預研究應探索適合不同班級規模的教學模式, 教育者應根據自己的需求和情況控制班級規模.
本研究中, 初中生的計算思維教學干預取得了較好效果. 瑞士認知心理學家皮亞杰(Jean Piaget)認為, 初中階段(12~15歲)的孩子開始出現接近成人水平的抽象邏輯思維能力, 故與計算思維相關的概念認知和技能增長較快, 這可能是原因之一[42]. 在我國, 計算思維的培養正由高等教育向中小學教育遷移, 雖然已有部分研究成果圍繞小學生計算思維的發展進行了初步探討, 但我國對基礎教育開展計算思維培養的重視程度仍然不足. 當前的首要任務是建立以中等和高等教育階段為主且相互銜接的計算思維培養一體化路徑, 從實踐層面加強學習環境建設, 構建支持計算思維發展的橫向和縱向生態系統. 另一方面, 需要積極推進計算思維培養學段下移. 計算思維在K-12落地已是必然的趨勢, 將深刻影響一國未來的科技競爭力和創新力. 在后續研究中, 教育者應關注計算思維對中小學生核心素養發展的促進作用, 設計適合我國中小學生的科學方案. 這需要政府、 學校和社會多方面的協同聯動, 加快推進計算思維教育的普及.
本研究對性別進行了元回歸分析, 發現性別對學生的計算思維培養未產生顯著影響(p>0.05). 然而, 現實中仍存在諸多性別刻板印象. 早在20世紀初就有研究發現, 由于在計算機科學、 數學、 環境科學與電子工程等領域中, 男性人數遠超女性, 故女性對這些領域的信心和興趣持續降低. 有研究發現, 女性可以更專注地進行編程和計算機學習, 如Nourbakhsh等[43]對高中機器人課程中的性別差異進行研究, 發現女孩比男孩更專注; 鑒于此, 計算思維的教學應注意避免由刻板印象造成教學資源分配不均的可能性, 并且積極對學生進行正向鼓勵以提升學生學習的自信心.
本研究運用元分析方法, 系統整理了國內外技術支持型教學干預對學生計算思維培養影響的實證研究, 可為后續開展計算思維培養的理論研究和教學實踐提供理論依據和路徑參考. 但受納入的文獻信息所限, 本研究未能證實在非計算機相關或非編程類學科中教授計算思維是否有效. 值得注意的是, 不同的教學方式(如問題解決教學、 項目式教學、 合作教學等)、 教學評價(形成性評價、 總結性評價等)、 不同的實驗類型(如前實驗、 準實驗、 隨機實驗)也是影響學生計算思維的重要因素. 此外, 國內外有關計算思維態度傾向的研究較少, 但有學者意識到態度傾向和自信心在學生計算思維培養過程中的重要性[44]. 期待有更多的教學干預實驗提供相關信息, 例如關注不插電式、 基于紙筆的計算思維教學干預模式, 以針對不同階段、 不同基礎的學生進行多樣化的設計與指導.