馮秀強
(上海師范大學 教育學院,上海 200000)
關于個性化學習的討論由來已久。早在兩千五百年前,孔子就提出因材施教的教育思想,關注不同學生的個性區別及能力差異,實施不同的教學內容和教學方法。個性化學習的實現要能夠了解學習者的不同需求,為學習者提供針對性的學習支持。然而,無論是精英教育向大眾教育的過渡,還是班級授課制的廣泛應用,都在一定程度上限制了教育的個性化,使得學習者的個性特點、經驗背景以及需求偏好等信息難以準確把握。信息化、智能化信息處理技術的興起,特別是數據挖掘技術的應用,為個性化學習的發展開辟了新的方向。數據挖掘技術能在大量不完全或模糊的數據中提取潛在的有用信息或知識[1]。本文借助CiteSpace V 軟件,對個性化學習中數據挖掘技術的已有研究進行可視化分析,從而展示和分析個性化學習中數據挖掘技術應用的研究現狀、熱點問題以及發展趨勢。
CiteSpace 是需要在Java 環境下運行的一款信息可視化軟件,它的開發和使用以共引分析理論和尋徑網絡算法為主要基礎。該軟件能夠對某領域的樣本文獻進行計算,分析該學科研究內容演化的主要路徑和知識的轉換節點,并且通過分析所生成的可視化圖譜可以發現該學科演化的內在動力及其發展的前沿內容[2]。本研究利用CiteSpace V.5.3.R4 繪制可視化知識圖譜。將檢索到的樣本研究文獻的題錄以“Refworks”的格式導出,并按該軟件的格式要求命名為“download_data mining.txt”。因為CiteSpace 讀取數據的標準是Web of Science 數據庫所對應的數據格式,所以在處理數據之前使用CiteSpace的內置轉換工具對導出的文獻題錄數據進行格式轉換。
本文以CNKI(中國期刊全文數據庫)為樣本來源,以“個性化學習”和“數據挖掘”為“主題”,以“精確”為匹配模式,對截至2019 年6 月28 日的文獻進行檢索。共搜索到文獻316 篇,篩選并剔除無效文獻4 篇,共得到有效文獻312 篇。其中包括183 篇期刊論文、117 篇碩士論文、7 篇博士論文和5 篇會議論文。
通過文獻檢索發現,若單獨以“個性化學習”或“數據挖掘”為主題進行檢索,可分別得到6150 篇、80643 篇文獻,發文量均較多。而將兩個主題詞組合搜索,則得到如圖1 所示的發文量時間分布圖。由圖可見,首篇文章發表于2001 年,隨后有所增長。進入21 世紀以后,數據挖掘技術的研究相對成熟,并逐漸應用于教育領域,為個性化學習的發展提供了新的方向。經過幾年相對穩定的發展之后,2016 年的發文量達到峰值47 篇。其原因可能與2015 年8 月31 日國務院發布的《促進大數據發展行動綱要》有關。數據挖掘是大數據技術的重要組成部分,二者具有密切的聯系。大數據的發展也為個性化學習注入了新的活力。通過搜索發現,僅2016 年以來,以“個性化學習”和“大數據”為主題的文獻就有363 篇。隨著個性化學習中以大數據為主題研究的迅速增長,數據挖掘逐漸內含于大數據之中并被取代,進而導致以個性化學習和數據挖掘為主題的相關文獻數量減少,甚至2019 年上半年僅有三篇文獻發表。

圖1 文獻量時間分布
從發文情況來看,關于個性化學習中數據挖掘技術的研究相對薄弱。由于個性化學習和數據挖掘分別屬于兩個截然不同的學科門類,關于二者相結合的研究,可能存在一定的困難。從載文期刊的學科分布(如圖2 所示)也可以看出,關于個性化學習中數據挖掘的研究,有47%的文獻發表于計算機學科類別中,43%的文獻發表于教育學科類別中,其他學科類別中的文獻僅占10%。計算機學科和教育學科期刊是相關文獻發表的主要載體,均占有近乎一半的比重。數據挖掘和個性化學習分別與計算機和教育類別相對應,二者相互滲透,在研究中各有側重。此外,在檢索得到的183 篇期刊文獻中,核心期刊共有49 篇。其中教育學科期刊35 篇,計算機學科期刊8 篇,其他類別期刊6 篇。雖然教育學科期刊發文總量(43%)不如計算機學科(47%),但文獻質量相對較高,約占核心期刊和CSSCI 總量的71%,具有更高的參考價值。

圖2 期刊學科分類
對作者或機構的合作網絡分析,可以了解研究者或機構之間的合作關系以及影響力比較突出的研究者或團隊。在CiteSpace 中導入轉換格式后的文獻數據,根據已有文獻發表時間選擇時間區間為2001-2019 年,在“Node Types”面板中分別選擇“Author”和“Institution”,分別生成作者和機構合作網絡圖譜(如圖3、圖4 所示)。其中,節點大小反映的是作者或機構發文數量,作者或機構之間的連線反映的是其合作關系。

圖3 作者合作網絡圖譜

圖4 機構合作網絡圖譜
通過圖譜可以看出,作者和機構合作較少,研究力量均相對分散,并沒有形成一定規模的合作群體,且發文量較少。在作者合作網絡中,兩人及以上的合作團體只有七個,并且合作次數最多的也只有兩次。此外,多數合作團體中的成員來自同一院校,如余明華、馮翔、祝智庭均來自華東師范大學,徐鵬、王以寧、張海均來自東北師范大學。研究者之間不僅合作較少,更缺少學校之間的合作。同時,在機構合作網絡中出現的合作關系也基本存在于校內不同部門之間,缺乏校際合作,如華東師范大學教育信息技術學系、華東師范大學開放教育學院、華東師范大學上海數字化教育裝備工程技術研究中心之間的合作。進一步分析發現,在該領域發文量超過兩篇的研究者只有何克抗和余延冬兩人,其中何克抗是以獨立作者發表文章,其研究領域主要為教育技術理論與應用,文章涉及促進個性化學習的理論和關鍵技術方法的系統介紹。而余延冬有兩篇文章是在與趙蔚和張賽男合作下完成的,其研究致力于解決在線學習中個性化系統存在的問題和挑戰,主要涉及Web 數據挖掘技術的應用。雖然所得圖譜并沒有顯示出明顯的合作關系和影響力較大的研究者,但是以上兩人的研究內容也反映了該領域研究的主要內容。而反觀四人的學科背景均同時包含教育和計算機兩個方向,其他研究者的學科背景以計算機方向為主。說明一定的計算機基礎是進行該方面研究的前提,學科的交叉可能在一定程度上限制了研究的發展。
文獻中的關鍵詞是對全文內容主題的濃縮表達。通過CiteSpace 軟件對關鍵詞進行共現分析,有助于把握個性化學習中數據挖掘技術的研究熱點。將CiteSpace的時間跨度設置為2001-2019 年,單個時間分區設置為1 年,在“Node Types”面板中選擇“Keyword”,同時將閾值設置為“Top50”,即在每個時間分段中選擇出現次數排名前50 的關鍵詞,生成關鍵詞共現網絡圖譜。由于不同學者對同一類型問題的表達可能會選擇不同的關鍵詞,并且部分關鍵詞之間具有明顯的包含關系,筆者將此類關鍵詞進行了合并處理。例如在“Web 挖掘”關鍵詞中,合并后包括“Web 數據挖掘”、“Web 日志”、“Web 日志挖掘”、“Web 使用挖掘”和“Web 挖掘技術”等關鍵詞。為了使結果顯示更加簡潔,圖譜中已去掉了頻次低于10 且中心性小于0.1 的關鍵詞。最后對節點、標簽和連線的大小和顏色進行調整,從而使最終生成的圖譜更加清晰。在如圖5 所示的圖譜中,節點大小表示關鍵詞共現的次數,節點越大說明其所對應的關鍵詞出現的次數越多。具有深色外圈圍繞的節點表示該節點在圖譜中具有關鍵性的決定作用,即中心性較高,它反映的是該節點在網絡中的“媒介”能力。各節點之間的連線表示關鍵詞之間的共現關系。其粗細表示共現的強度,連線越粗說明相關關系越密切。顏色則對應年份,即首次共現出現的時間,從冷色調到暖色調的變化代表早期到近期的變化。

圖5 關鍵詞共現網絡圖譜
通過圖譜可以發現,各節點所代表的關鍵詞以個性化學習和數據挖掘為核心緊密相連,充分表明圖譜所顯示的關鍵詞之間具有密切聯系且相互交叉。個性化服務雖然出現頻次不多,但卻具有較高的中心性,說明個性化服務在相關研究中具有關鍵性“媒介”作用。此外,遠程教育和Web 挖掘節點較大且顏色較深,是研究之初的熱點問題。關聯規則和聚類分析也受到了一定的關注,而學習分析和大數據則是近年來關注的焦點。以上關鍵詞反映了2001 年以來個性化學習中數據挖掘技術的研究熱點。由于個性化學習和數據挖掘是檢索文獻的兩個主題詞,并且在引言中已經介紹,因此不再作為熱點關鍵詞進行分析。圖譜中的熱點關鍵詞按照研究傾向可分為三個維度:聚焦技術的研究、聚焦應用環境的研究和聚焦學習者的研究。聚焦技術的研究傾向于從技術特點出發研究其應用的價值和功能,包括關聯規則、聚類分析、大數據和學習分析等關鍵詞;聚焦應用環境的研究傾向于從學習的具體情境出發探尋技術實施的可行性,包括遠程教育和Web 挖掘兩個關鍵詞;聚焦學習者的研究傾向于從學習者的角度出發滿足不同學習者的個性化需求,包含的關鍵詞為個性化服務。
(1)聚焦技術的研究
第一,關聯規則。關聯規則是數據挖掘中相對成熟且重要的研究方法之一,其目的是為了發掘數據之間的某種關系,最初是用于分析消費者的購買習慣[3]。將關聯規則應用于個性化學習中,能夠有效地挖掘出學習者的學習關聯,掌握學生的學習動態,進而更深入地了解學生的學習規律與特點[4]。例如,劉愛民將關聯規則應用于成績分析系統中,分析影響學生學習結果的各種因素,從而為學生提供針對性指導[3];文堂柳、李雯應用關聯規則算法對學生個人信息、行為信息和評價信息等遠程教學反饋信息進行數據挖掘,幫助教師制定個性化的教學策略[5]。
第二,聚類分析。聚類分析是按照相似程度把數據劃分為不同的組,每個聚類(或組)均由具有相似特征的對象構成。在教育領域中,可使用聚類分析輔助進行分組教學,為分組提供科學的數據支持,進而有利于合作學習的開展,提高團隊學習的質量[6]。例如,首先按照學習進程和知識掌握程度的差別將學習者分為不同的組群,然后根據制定好的教學策略為學習者提供個性化的學習資料和指導,并且隨著學習過程的變化及時調整分組情況,能夠使學習者長期保持良好的學習狀態[7]。
第三,大數據。大數據的概念還沒有確切的定義,很多人將大數據視為各種各樣的海量數據,也就是傳統工具不能有效處理的數據;也有一些人將大數據視為一種技術方法,即收集、挖掘和分析大量復雜的數據,從而得出趨勢預測的方法[8]。2012 年10 月,美國教育部發布的題為《通過教育數據挖掘和學習分析技術來提高教與學:問題簡述》(Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief)的報告中提出,大數據應用于教育主要體現在教育數據挖掘和學習分析兩大技術領域,主張利用大數據技術對自適應學習系統進行改進,促進個性化學習的發展[9]。在探討了科學范式、大數據在教育技術領域的應用以及不同的教育技術范式后,祝智庭、沈德梅認為個性化自適應學習系統能夠更好地貫徹“以學習者為中心”的教育理念,將成為以大數據為基礎的新的教育技術范式[10]。應用大數據技術實現精準的個性化學習是未來教育的發展方向,使得每個學習者的學習活動都能夠建立在對以往各類數據分析的前提下[11]。
第四,學習分析。2011 年,由美國多位國際知名學者組織的跨學科團體——學習分析研究協會(The Society for Learning Analytics Research,簡稱SoLAR)成立,標志著學習分析作為一個新興領域從數據挖掘中獨立出來。學習分析是對學習者和學習環境中的相關數據進行測量、收集、分析和報告的過程,從而有助于剖析和完善學習及其發生環境。隨著大數據在教育領域的滲透,學習分析已經成為國內外教育工作者關注的熱點[12]。例如,鄭曉薇利用學習分析技術構建了面向對象的學習分析模型。通過實驗證明,該模型能夠在教學過程中進行個性化的干預,有效提升教學效果,促進個性化教學[13]。除此之外,唐麗以學習分析技術為基礎,探討了學習分析系統中的干預措施。個性化的干預流程首先要挖掘學習者的個性信息、行為信息、社會網絡關系等隱含信息,并將當前成績與目標成績進行比較,然后根據系統結果分別利用基于內容的過濾技術和基于協作的過濾技術對學習者做出干預,從而促進個性化學習的實現[14]。
(2)聚焦應用環境的研究
第一,遠程教育。遠程教育又稱網絡教育,是利用網絡和多媒體等技術手段進行教學的一種模式。相對于傳統教育,遠程教育中師生分離,以學生自學為主。遠程教育對象在年齡、學習基礎和學習方式等多方面具有較大差異性。然而,無論是學習內容還是學習反饋等方面,現有的遠程教育均不能很好地適應個性化學習存在的問題[15]。數據挖掘技術的應用可以有效促進遠程教育的個性化發展。因此遠程教育成為個性化學習中數據挖掘技術應用的熱點研究方向之一。例如,宋永生針對網絡學習在學習氛圍、學習管理和因材施教等方面存在的問題,利用數據挖掘技術設計了個性化的網絡學習平臺,從而實現個性化教學[16]。鄧暉則認為,個體的學習特征會影響在遠程教育中的學習行為,通過構建學生特征分析系統,對包含知識結構、信息加工方式、社會特征和情感、意動類型等因素的學習特征進行挖掘和分析,可以促進在網絡教育中實現個性化學習[17]。
第二,Web 挖掘。Web 挖掘是指利用數據挖掘技術從Web 文檔和訪問數據中發現和抽取知識。因其具有相應的處理步驟和對象,也可視作一種數據挖掘的方法[18]。實現個性化的遠程教育需要從以網站為中心向以學生為中心轉變。將Web 挖掘應用于遠程教育,能夠在海量的Web 數據中發現學習者的學習規律、學習興趣和學習取向,進而為學習者提供個性化的定制網站、推薦個性化的學習內容,同時教師也可以根據個性化的反饋及時做出相適應的策略調整[19]。例如,趙蔚利用Web 挖掘處理了E-learning 解決方案推薦系統存在的學習者兼容性、資源充足性、智能挖掘性、推薦整合性等四大問題,促進了數字學習服務的個性化[20]。
(3)聚焦學習者的研究
個性化服務關注用戶的個性化需求,致力于為用戶提供針對性的信息,在收集、整理和分析各類資源的基礎上,盡可能滿足用戶的需求[21]。數據挖掘應用于個性化學習的主要目的,就是為了進行個性化的數據分析,從而推薦個性化的學習內容、選擇適合的學習方法、做出針對性的學習評價和規劃等,也就是提供個性化服務。例如,個性化服務在個性化的遠程教育中主要體現在以下幾個方面:向學習者推薦感興趣或與其能力相適應的學習內容;通過學習者的提問或考核情況發現薄弱知識點并提供補習內容和學習建議;輔助教師全面把握學習者的個性、學習習慣和評價反饋,為學生制定個性化的教學策略[22]。
在運行軟件得到關鍵詞共現網絡圖譜的基礎上,選擇時間線視圖(Timeline View),并選擇關鍵詞(Keyword)進行聚類,得到如圖6 所示的時間線圖譜。時間線視圖(Timeline)主要用于展現聚類之間的關系以及各聚類中對應文獻的時間跨度。為了說明聚類后的結構及其清晰度,證明圖譜呈現效果的有效性,CiteSpace 提供了可供參考的兩個指標Q 值(模塊值)和S值(平均輪廓值)。一般情況下,當Q 值大于0.3 時,表明所劃分出的網絡結構是顯著的,當S 值大于0.5 時,表明聚類的結果是有效的[2]。從圖中聚類結果可以看出:Q=0.3714、S=0.6021,說明所得圖譜相對有效。圖中共形成四個反映該領域研究熱點的聚類中心,分別是:#0 個性化學習、#1 數據挖掘、#2 個性化推薦、#3 學習分析。
“#0 個性化學習”聚類包括自適應學習系統、學習者特征、學習者模型、智慧教育、人工智能等關鍵詞。此類關鍵詞反映了通過數據挖掘技術實現個性化學習的主要方式,即通過構建各種學習系統或學習者模型,利用數據挖掘技術發現學習者特征等個性化信息。數據挖掘技術的應用往往與信息化、智能化等技術手段結合以促進個性化學習,也是智慧教育的體現。
“#1 數據挖掘”聚類包括決策樹、agent、E-learning等關鍵詞。決策樹和agent 是數據挖掘技術的兩種算法,E-learning 則體現出數據挖掘技術應用的主要載體。
“#2 個性化推薦”聚類包括遠程教育、Web 挖掘、關聯規則、個性化服務、聚類分析、移動學習、協同過濾等關鍵詞。個性化推薦是為學習者提供個性化服務的主要方式,相關研究主要聚焦于遠程教育和移動學習領域,Web 挖掘、關聯規則、聚類分析和協同過濾是進行數據挖掘的主要方法。
“#3 學習分析”聚類包括學習分析、社會網絡分析、大數據等關鍵詞。學習分析和教育數據挖掘是大數據在教育領域的兩個主要技術,而結合社會網絡分析則可以獲得更豐富、更準確的信息。
通過圖譜可以看出,“#0 個性化學習”和“#2 個性化推薦”聚類中所包含的相關研究主題,從該領域研究初始至今,除中期相對停滯外,始終受到一定的關注。“#1數據挖掘”聚類中的相關主題,雖然在前期具有較高的中心性,但在2008 年后終斷。而“#3 學習分析”聚類中的相關內容凸現為近幾年的研究熱點。研究發現,雖然個性化學習中數據挖掘的研究在早期受到了一定的關注,但研究者和發文量仍相對匱乏。并且隨著數據量的增多,單純的數據挖掘技術已無法滿足技術需求,因此經過幾年發展后便陷入瓶頸。隨著技術的發展以及學科之間的交叉越來越多,為研究帶來了新的活力。而數據挖掘技術在不斷發展中逐漸內含于學習分析、大數據、人工智能等相關技術中,成為各類技術中必不可少的關鍵技術。個性化學習隨著技術的進步和更迭逐漸發展。

圖6 研究熱點演變的時間線圖譜
本研究對近20 年來CNKI 數據庫關于個性化學習中數據挖掘技術研究的相關文獻進行梳理,并通過CiteSpace V 對作者、機構、關鍵詞等進行可視化分析,得出以下結論:
第一,研究成果數量較少,且研究力量分散。相關研究成果的年發文量均比較穩定,但是300 多篇的文獻總數仍顯不足。數據挖掘技術在教育領域的應用促進了學習的個性化,為個性化學習的研究開拓了新的思路,并在應用研究的過程中使得技術自身逐漸發展和完善。但學科的交叉也為相關研究增加了一定的難度。跨學科人才短缺使得具有不同專業背景的研究者之間的合作顯得尤為重要。然而研究發現,作者和機構合作較少,并沒有形成一定規模的合作群體。并且,研究者和研究機構之間的合作關系大多為校內合作,缺乏校際合作。具有不同學科背景的研究者和研究機構各自為營,使得研究力量和資源分散。
第二,技術方法研究較多,但應用領域有限。雖然關聯規則和聚類分析是數據挖掘中比較常用的兩種方法,但也有研究涉及決策樹、Agent 和協同過濾等方法。同時,學習分析、大數據、人工智能等新興技術領域也逐漸脫離單純的數據挖掘技術,成為近幾年研究的熱點話題。個性化學習中關于數據挖掘技術的方法研究越來越豐富。由于在遠程教育過程中會產生較多便于挖掘的數據,數據挖掘技術的應用研究多集中在遠程教育領域。相關研究涉及學習策略、學習內容、學習評價與反饋等方方面面的內容,但是對于遠程教育之外存在的海量數據信息關注度較低。個性化學習中數據挖掘技術的應用范圍仍顯狹窄。
第三,技術優勢發揮充分,但風險意識淡薄。無論是應用關聯規則發現學習者的學習關聯,還是利用聚類分析進行分組教學,研究者均能充分認識技術的特點,發揮技術優勢。各種數據挖掘方法及其相關技術的應用,多角度、全方位地促進了個性化學習的發展。然而,相關研究在感嘆技術發展為個性化學習帶來巨大收益的同時,卻忽視了技術應用過程中可能存在的數據安全和隱私風險等潛在問題。少部分研究者雖在文獻結尾論及此類問題,但也只是停留在表面,缺乏系統的研究。該領域并沒有得到應有的關注,研究者對技術應用的風險意識相對淡薄。
基于對已有研究的分析和總結,筆者認為,促進個性化學習中數據挖掘技術的研究應注意以下幾個方面:
第一,加強溝通交流,促進合作研究。信息化、智能化的社會背景下,原有技術方法更新迅速,各種新興技術蓬勃興起。個性化學習的發展也應與時俱進,及時吸納新技術并靈活運用于教育中來。由于數據挖掘、學習分析和大數據等技術均比較復雜,其在個性化學習中的應用研究需要具有一定專業知識的人來實現,而這些人往往不具備相應的教育理論知識。這就直接決定了具有單一學科背景的研究者難以進行該領域的研究或者研究質量不高。因此,不同學科領域的研究者和研究機構之間應該加強溝通和交流,促進合作研究,實現優勢互補。
第二,拓展研究視野,轉換研究視角。《教育信息化十年發展規劃(2011-2020 年)》提出,要“努力為每一名學生和學習者提供個性化學習的信息化環境和服務”。《中國教育現代化2035》也提出,要“利用現代技術加快推動人才培養模式改革,實現規模化教育與個性化培養的有機結合”。應用現代技術促進個性化學習應面向所有學習者并適用于各種學習環境,使每個學習者都能隨時隨地享受到個性化的學習服務。因此,在應用數據挖掘、學習分析和大數據等現代技術時,不能僅聚焦在遠程教育領域。研究者應該將視野放寬,全方位關注各種教育領域和教育形式中的學習,努力挖掘更加全面、有效的信息。此外,要積極轉換研究視角,從以技術為中心逐漸向以學習者為中心轉變。研究者要站在學習者的立場,從學習者的個性化需求出發,尋找解決問題的方法。
第三,增強安全意識,防范潛在風險。事物的發展都有其兩面性。數據挖掘等現代技術的廣泛應用在為學習者帶來極大便利的同時,也可能存在一些潛在的危險。如何保障海量的數據信息不被非法利用、數據的收集和分析是否需要征得用戶同意、分析所得結果會不會給當事人帶來不平等待遇、技術的發展和應用究竟是促進了教育公平還是拉大了教育不平衡的差距等等,諸如此類問題必須得到足夠重視。個性化學習的實現不能以損害學習者利益為代價,更不能影響教育和社會的長期穩定發展。因此,研究者應提高警惕,認真反思數據挖掘及其相關技術在應用過程中可能存在的諸多挑戰。