陳智敏 廣東省中山市中山紀念中學
《義務教育信息科技課程標準(2022年版)》強調通過相關的實驗探究活動幫助學生在感知、理解和應用人工智能技術的過程中增強人工智能意識,感受機器計算與人工計算的異同等,從而培養學生的核心素養。筆者認為,借助恰當的學習支架開展人工智能教學,可以引導學生通過實驗探究的方式學習人工智能知識與技能,并了解科學探究的方法與步驟,有助于培養其分析、理解、創造性解決問題的能力以及適應智能化社會的公民素養。然而,目前由于人工智能教育在實驗教學層面缺乏學習支架的支持,無法有效開展科學探究。[1]因此,初中人工智能教學有必要科學設計并開展實驗探究,借助學習支架的支持,將知識建構、技能培養與思維發展融入實驗過程,促進學生核心素養的發展。
網絡上有豐富的人工智能開源平臺和框架,也有科研機構等提供的免費體驗平臺及實驗項目。實驗過程多為采集數據,通過調用接口將數據上傳到人工智能平臺,再返回預測結果,或者調用已有數學模型進行結果預測。因此,大量的人工智能實驗項目可以借助平臺的支持得到實現,然而對初中學生來說,資源的起點高、難度大,同時由于受到注冊、登錄賬號等問題的影響,在教學中的應用也存在較大的困難,無法進行大規模教學,這也是很多無需安裝且具有實用價值的免費平臺存在的問題。[2]
現有的圖形化編程軟件及平臺因趣味性強、易上手、可擴展等而成為常用的工具,尤其是在加入多樣化的人工智能模塊后,極大地降低了學生操作人工智能的門檻。目前,一些軟件平臺還能與微控制器、單板機等開源硬件連接,加強人工智能與開源硬件的聯動。[3]但由于其定位為初步體驗智能技術,并不具備調整相關模型參數的功能等,因此,模型解決實際問題的能力有所欠缺,不利于探究實驗的開展。
當然,也可以基于Python編程工具等選擇適當的第三方擴展庫,采集數據進行模型的訓練和可視化操作等,從而開展人工智能實驗教學,在一定程度上能夠有效促進學生的計算思維發展。然而,初中學生的認知規律和數理基礎不足以支撐其開展探究,對學生的編程水平要求也較高,難度較大。
學習支架又稱“腳手架”,維果斯基將學生的實際發展水平和潛在發展水平相交疊的區域稱為最近發展區,而學習支架則是在學生穿越最近發展區時所給予的幫助。在初中人工智能實驗教學的開展過程中,需要借助經濟實用、方便快捷、安全且邏輯清晰的可視化機器學習軟平臺或者軟件幫助開展模塊參數的快速調整等。Orange是由斯洛文尼亞的盧布爾雅那大學計算機與信息科學學院的生物信息實驗室開發的一款基于組件的開源可視化數據挖掘及機器學習軟件[4],開源的低成本為普及中小學人工智能實驗教學提供了合適的學習支架。
Orange安裝版和便攜版的功能一致,擁有非常直觀的交互式用戶界面,近2 0 個大類、220個左右的組件提供了數據采集、數據分析、建立模型功能,可直接下載、使用設計好的實驗項目,或將預先定義好的多種組件拖拽到畫布中以組成工作流,結合交互式的數據探索和清晰的可視化操作,幫助學生更容易地了解機器學習(無需深入學習程序設計知識)。因此,利用Orange開展初中人工智能實驗教學是一種有意義的嘗試,有助于降低學習難度,提升學生的學習參與度。通過簡易的學習活動驅動學生開展實踐體驗并收集記錄實驗數據,有助于學生在應用過程中進一步理解機器學習的過程及實現的原理。
決策樹是經典的機器學習算法,基于訓練集中的各個特征,通過一系列問題來推測樣本的所屬類別,是記錄決策過程的一種樹狀結構。筆者以“基于決策樹算法處理鳶尾花分類”實驗為例,引導學生在導入數據集后,根據相關特征,對已知品種的鳶尾花測量數據進行學習進而構建出基于決策樹的機器學習模型,并測試評估分類效果,著重探究有效特征設計的重要性。實驗設計如圖1所示。
鳶尾花分類實驗數據集分為3類,每類50個數據,每個數據包含花萼長度、花萼寬度、花瓣長度、花瓣寬度4個特征和1個類別信息。學生根據指引對比在File組件中同時選擇4個特征,或者只選擇花瓣長度和花瓣寬度等特征組合來訓練機器模型Test and Score組件中顯示的模型測試結果,從而理解特征的質量很大程度上決定了最終分類結果的好壞,并借助組件Tree Viewer進一步理解決策樹算法的實現原理。當然,實驗還可以借助Orange軟件的智能可視化功能,通過Scatter plot、Distributions等組件觀察哪些特征組合能夠提供最多的信息并達到最佳的區分效果,或者使用Rank組件根據變量之間的相關性對數據集的特征屬性進行評分,從而發現有效的特征屬性。
k 近鄰算法是指對每個給定的待預測數據,找出k個與其距離最接近的點,根據這些點的類別頻數對未知數據的類別進行預測。k近鄰算法的思路很簡單,但卻比較依賴一個合理的k值。那么,k的選取有沒有要求?值過大或過小會產生什么樣的影響?筆者以“基于k近鄰算法處理鳶尾花分類”實驗為例,引導學生在導入數據集后,根據相關特征,對已知品種的鳶尾花測量數據進行學習,進而構建一個基于k近鄰算法的機器學習模型,并測試評估分類效果,著重探究模型參數調整的必要性。實驗設計如圖2所示。

圖2

圖3
在實驗過程中,學生通過對比在KNN組件中選擇不同的k值,以及在Test and Score組件中改變數據集劃分訓練集和測試集的具體參數時所訓練的機器模型的測試結果,從而理解k值需要根據數據情況動態調整,如果選取的k值太小,預測結果對鄰近的實例點就會非常敏感,如果選取的k值較大,則相當于用較大鄰域的訓練數據進行預測,整體模型又會變得簡單而不具備預測能力。
機器學習的過程就是通過訓練已有數據得到某個模型,并且期望該模型能夠很好地契合新數據。筆者以“不同分類模型預測效果對比”實驗為例,引導學生分別根據鳶尾花數據集等構建基于決策樹和k近鄰算法的機器學習模型,引導學生通過對比不同模型預測效果,理解機器學習的原理及不同模型的特點。實驗設計如圖3所示。
在實驗過程中,學生通過對比選擇不同數據集時在組件Test and Score、ROC Analysis、Confusion Matrix中顯示的兩種模型的測試結果發現,在鳶尾花數據集上兩種模型并沒有明顯的差異,但是在泰坦尼克號的數據集上兩者的分類效果具有明顯差異:基于k近鄰算法的分類模型的ROC曲線被基于決策樹算法的分類模型曲線完全包住,后者的性能優于前者。學生通過測試結果明確,機器學習過程中特定數據集需要通過評估不同模型的訓練效果最終選擇性能較好的模型。
本文利用可視化機器學習軟件Orange有效開展了初中人工智能實驗教學,為學生提供適切的學習支架,降低了學習難度,引導學生直觀對比選擇不同特征構建模型的預測效果,理解有效特征設計的重要性;直觀對比選擇不同模型參數所產生的預測效果,理解模型參數調整的必要性;直觀對比選擇不同的機器學習模型的預測效果,理解機器學習模型的適用性等,幫助學生在應用過程中進一步理解機器學習的過程及實現的原理。后續,筆者還將挖掘更多類型且有效的學習支架,為初中人工智能的回歸、分類等教學實驗助力,并進一步探尋培養和提升學生核心素養和能力的方法和途徑。