葉礫, 陳劍, 樂海平
(肇慶醫學高等專科學校,公共基礎部,廣東,肇慶 526020)
利用大數據的個性化英語教學,主要通過考試成績判別學生的個性化學習成績,然后出自因材施教的理念,對學生進行針對性的教學設計。這一工作需要分為2個實現部分:一是構建題庫,對詞匯、語法、句式、聽力、寫作等知識點進行歸類;二是構建動態課件,對其薄弱環節進行補強,對其優勢環節充分強化訓練。該系統屬于應試教育的典型實現模式,可以應用于初高中基礎英語教育,也可以應用于高校英語教育中的四六級、專八、雅思、托福等相關教育。
蘇布德提出了高校英語教學中的對分課堂模式并開發了其基于大數據的人工智能英語教學系統[1];王辰針對高職英語教學開發了基于大數據的英語教學系統[2];陸志慧針對英語寫作能力教學提出了大數據技術在英語教學工作中的應用策略[3];阮婭麗及周謹平從不同開發思路研究了英語教學的相關教學輔助軟件的開發過程[4-5]。
這些英語教學設計,適用于非學校平臺的英語教育,屬于專業全民英語教育服務系統的開發范疇。
該個性化英語教學大數據系統的核心是其大數據工程架構的開發,主要包括4個核心數據來源,分別為知識點題庫來源、知識點課件來源、知識點得分來源、學生對課件的瀏覽數據來源,其結構如圖1所示。

圖1 大數據系統應用模式圖
在圖1中,上述4個數據來源的數據匯總到數據庫中,在數據實時挖掘系統中,對教師的側重點做出評價,對學生的學習側重點做出評價,同時根據學生學習課件的側重點與其學習成績做出教師到學生的關聯性評價。根據該關聯性評價和學生的知識儲備和得分能力,對學生推薦匹配度較高的教師編輯的學習課件,同時根據學生的知識儲備和得分能力,推薦測試試題[6-7]。
該系統的核心亮點是對教師和學生之間構建匹配模型,為學生推薦匹配度較高的老師。
教師推薦模型共包含以下幾個判斷標準。
(1)學生參與的課件學習記錄中,提取課件的關聯知識點、課件上傳教師ID、學習時長等信息。
(2)學生參與的考試成績記錄中,提取每道試題的關聯知識點、得分情況,將該得分情況與學生參與該知識點學習的課件學習記錄進行對應,分析學生在該知識點的學習時長記錄、學習課件量,關聯到相關課件的上傳教師ID。
(3)如果學生對某知識點的學習時間長于其他知識點,且該知識點得分高于其他知識點得分時,減少對該類試題的推薦量。
(4)如果學生對某知識點的學習時間短于其他知識點,且該知識點得分低于其他知識點得分時,增加對該類試題和課件的推薦量。
(5)如果學生對某知識點的學習時間短于其他知識點,且該知識點得分高于其他知識點得分時,該學生對相關課件教師的關聯度指標提升,認為該教師編制的課件適用于該學生的學習習慣,在推薦其他知識點課件時,增加該教師編制的相關課件的推薦量。
(6)如果學生對某知識點的學習時間長于其他知識點,且該知識點得分低于其他知識點得分時,該學生對相關課件教師的關聯度指標下降,認為該教師編制的課件不適用于該學生的學習習慣,向學生推薦關聯度較高的教師課件,同時在推薦其他知識點課件時,減少該教師編制的相關課件的推薦量。
該模型基于一個教育學基本原理,即教師與學生匹配度較高時,學生可以在更短時間內獲得更佳的學習成果,反之,學生會額外消耗更多的學習成本且無法獲得滿意的學習成果[8-9]。
根據前文分析,發現教師/學生關聯分析模塊的主要輸入數據來自學生學習模塊,主要包括以下輸入數據。
(1)學生學習數據:該數據來源如表1所示。

表1 學生學習數據的構成模式
該數據主要用于構建2個鏈接:① 學生與知識點學習成本之間的鏈接;② 學生+知識點與教師之間的鏈接。
(2)學生考試數據:該數據來源如表2所示。

表2 學生學習數據的構成模式
該數據主要用于構建1個鏈接,即學生對知識點掌握程度鏈接。
根據前文列出的教師推薦模型基本算法,要計算出學生對各知識點的學習時長與學習分數之間對應關系,即以知識點ID為控制變量i,分別統計學習時長T(i)與得分R(i)。且使用min max投影法,對T(i)和R(i)進行分別投影,如式(1),
(1)
式中,max、min分別為該式處理的T(i)或R(i)的最大值及最小值,Xi、Yi分別為輸入數據和輸出數據。
此時,根據處理過的T(i)和R(i)依照表3中模糊矩陣進行策略選擇。

表3 教師推薦模型的核心模糊矩陣設計
表3中,針對教師學生匹配度,共給出了4種策略,如表4所示。

表4 策略執行模式設計
該人工智能實現模式為一種基于模糊矩陣的大數據+人工智能實現模式,其原理如前文分析為增加教師與學生的匹配度,使學生可以跟隨匹配度更高的教師學習,以提高學習效率。
系統中的學生畫像模型分為前臺畫像和后臺畫像。前臺畫像主要供學生對知識點掌握情況進行自我認知,與傳統的考試分數式評價方法相比,該方法可以更顯著反映出學生的學習情況;后臺畫像主要用于系統內部對學生進行知識點匹配,用于推薦算法。
后臺畫像數據的本質是前文中表1數據和表2數據的整合,對學生在不同知識點索引下的學習時長、測試得分數據進行描述,同時對學生的學習次數、測試次數等數據進行描述,其數據量較大,但可以歸納成圖2形式。

圖2 后臺畫像數據結構示意圖
圖2中,后臺畫像數據主要包括2部分:一部分是當前總時長與總得分以及二者計算所得的總學習效率的實時數據;另一部分是每次測試到該題目之間的時序序列[10]。
前臺畫像模型來自對后臺畫像模型的匯總過程,將英語學習中的數千個知識點索引進行匯總,得到詞匯(動詞、名詞、介詞、副詞、詞組、固定搭配)、語法、英語文化等知識點的匯總情況,包括實時成績匯總數據、學習效率數據等,形成雷達圖。同時評價學生的詞匯量,給出可能通過四六級、專八、雅思、托福等相關英語考試的可能性評價。軟件前臺畫像運行界面如圖3。

圖3 軟件前臺畫像運行界面
2020年1月3日至2020年12月15日,該軟件進行了小范圍內測,內測期間,共服務學生客戶3 275人,引入英語教師182人,實測包括軟件對學生考試通過率與學生實際參加考試通過率的對比、教師與學生的匹配度、學生及教師對軟件做出的主觀評價等。
所有參加內測用戶中,最短使用該系統學習時間為397小時,最長使用該系統學習時間為2 192小時,平均使用該系統學習時間為1 294±108(均值±方差)小時。所有3 275名學生用戶中,參加四級考試1 029人,占31.4%;參加六級考試438人,占13.4%;參加專八考試102人,占3.1%;參加雅思考試43人,占1.3%;參加托福考試38人,占1.2%。比較上述參加內測的學生用戶在實際考試過程中的通過率與該系統根據用戶畫像給出的考試成功率預測值,得到該軟件實際效能評價結果對比數據,如表5所示。
表5中,所有考試的學生實際通過率均高于軟件給出的預測考試通過率,但偏差值均小于10個百分點。標志著該系統對學生考試通過率的畫像預測結果略顯保守,特異度較低,但敏感度較高。

表5 考試通過率預測能力
該系統共引入英語教師182人,內測期間上傳各類課件48 932條,在前文設計的教師匹配算法下,教師與學生之間的匹配度指標在理論上應處于冪次分布狀態,所以對該算法的頭部效應進行計算,如圖4所示。

圖4 教師推薦量實際分布狀態實測圖
在圖4中,182名教師中有65人提交的課件能確保每天被推薦至少10條,有15人日推薦量在7 000條以上,但推薦量最高的教師,日推薦量達到216 296條,日推薦量超過1萬條的教師,為13人。這說明該推薦模式可以確保經過篩選的“大V”級教師可以達到總教師比例的7.1%。該平臺軟件對教師的推薦結果,符合頭部效應。
要求3 275名學生內測用戶和182名教師用戶給出感性評價,分為1星至5星,其評價結果如表6所示。

表6 用戶評價結果表
在表6中,學生用戶給出的評價遠高于教師用戶,這一結果與該軟件面向學生的服務目標有關,學生用戶將在該軟件中保持較友好的服務體驗,但教師用戶給出的評價較低。學生用戶中,給出5星、4星評價的用戶共占比為87.0%,給出2星、1星評價的用戶僅占3.1%。而教師用戶中,大部分用戶給出了4星、3星評價,共占67.0%。
但應看到,雖然該系統的教師頭部效應決定了只有約7.1%的教師提交資料會被系統推薦,但有17.6%的教師用戶給出了5星評價。該5星評價量雖然遠低于學生用戶給出的58.8%的5星評價比率,但仍表現出更多教師用戶因為該軟件利于學生學習而給出較高評價。
該軟件在內測過程中,遇到教師評價低于學生評價的情況,這需要在后續設計中,給教師用戶更多其他激勵,以提升教師用戶的黏性。而對激勵措施考量并未在該軟件核心算法設計任務中,故不多做論述。
本文研究中設計的基于大數據的個性化英語教學系統的核心優勢,在于增加教師與學生的匹配度,使學生可以匹配到更適合自己的教師設計的課件資料,以增加其學習效率。且該軟件將英語學習知識點劃分成數千個知識點,并針對學生對知識點的掌握情況,對其進行有計劃有目的的精準推送,使學生的學習過程可以根據其對知識點的掌握情況作出個性化的配置。通過學生對各知識點的掌握情況,該系統整合學生的學習大數據,分析該學生通過常規考試的預期通過率,且該預期預測結果,擁有較高的敏感性,略低于學生實際參加考試時的實際通過率。內測過程中,學生用戶給出的評價結果遠高于教師用戶給出的評價結果,這與教師推薦算法的頭部效應有關,所以在后續開發中,應針對教師用戶提出更新的激勵政策,以增加教師用戶的黏性。