聶靜雨
摘 要 近年來,學(xué)習(xí)分析技術(shù)的需求伴隨著教育大數(shù)據(jù)的浪潮越來越大。基于文獻(xiàn)計(jì)量分析法,對(duì)國內(nèi)外近幾年來關(guān)于學(xué)習(xí)分析的期刊論文進(jìn)行梳理,對(duì)學(xué)習(xí)分析工具進(jìn)行劃分,主要討論23種應(yīng)用廣泛的學(xué)習(xí)分析工具,從其各個(gè)方面進(jìn)行分析比較,并提供各個(gè)工具的相關(guān)鏈接,以期為研究學(xué)習(xí)分析的教育實(shí)踐者提供參考。
關(guān)鍵詞 學(xué)習(xí)分析技術(shù);教育大數(shù)據(jù);Microsoft Excel;GoogleSheets
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-489X(2018)23-0022-05
Abstract In recent years, the demand for learning analytics has beenaccompanied by a growing wave of educational big data. Based on related literatures, this paper reviews domestic and foreign journal papers on learning analysis in recent years, and divides learn analysistools. It mainly discusses 23 widely used learning and analysis tools. We analyze them from all aspects comparison, and provide a rela-tional link for each tool, in order to provide a reference for educa-tional practitioners who study learning analytics.
Key words learning analytics; educational big data; Microsoft Excel; Google Sheets
1 引言
十九大報(bào)告明確提出“到2020年基本實(shí)現(xiàn)教育現(xiàn)代化”的戰(zhàn)略目標(biāo),而實(shí)現(xiàn)這個(gè)目標(biāo)的重要途徑是讓大數(shù)據(jù)技術(shù)助力教育變革。Big Data一詞最早出現(xiàn)在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時(shí)代》這本書中,是指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理[1]。在首屆中國教育大數(shù)據(jù)發(fā)展論壇探析中,維克托·邁爾-舍恩伯格在他的演講《大數(shù)據(jù)與教育的未來》中指出,教育的關(guān)鍵在于對(duì)教育數(shù)據(jù)的分析[2],而對(duì)于教育大數(shù)據(jù)的挖掘關(guān)鍵就在于學(xué)習(xí)分析技術(shù)。
本文將會(huì)詳細(xì)介紹EDM或LA研究及從業(yè)人員使用廣泛、功能強(qiáng)大的學(xué)習(xí)分析工具。文章首先概述兩種非常適合用于特征工程和數(shù)據(jù)創(chuàng)建的工具——Microsoft Excel & Google Sheets和EDM Workbench,緊接著討論了編程語言Python和SQL的優(yōu)點(diǎn)。文章還討論了Rapid、WEKA、KEEL、KNIME、Orange等九種常用的算法分析工具,并探索了Tableau、D3.js兩種可視化工具。
2 研究方法
本研究基于文獻(xiàn)調(diào)研。在中國知網(wǎng)中,于高級(jí)檢索下以“主題=學(xué)習(xí)分析技術(shù)并且主題=工具”進(jìn)行檢索,查詢到93篇中文文獻(xiàn)。根據(jù)計(jì)量可視化分析,發(fā)現(xiàn)有關(guān)學(xué)習(xí)分析工具的文獻(xiàn)從2012年的四篇逐年增加,其中以社會(huì)網(wǎng)絡(luò)分析、學(xué)習(xí)分析儀表盤、大數(shù)據(jù)、可視化、學(xué)習(xí)行為、智慧教室這幾個(gè)詞為中心點(diǎn)進(jìn)行聚類分析,從檢索結(jié)果中也可以發(fā)現(xiàn)各大知名高校都在對(duì)學(xué)習(xí)分析工具進(jìn)行研究,可見學(xué)習(xí)分析工具才是真正助力學(xué)習(xí)分析技術(shù)面向教育教學(xué)的關(guān)鍵。在SSCI數(shù)據(jù)庫中,以“Learning Analytics”為關(guān)鍵詞進(jìn)行搜索,限定領(lǐng)域?yàn)榻逃茖W(xué),共得到核心期刊英文文獻(xiàn)82篇,其研究包含學(xué)習(xí)分析的理論研究、學(xué)習(xí)分析技術(shù)在教學(xué)中的研究、學(xué)習(xí)分析模型研究、學(xué)習(xí)分析工具研究等。本文僅針對(duì)學(xué)習(xí)分析工具進(jìn)行討論。
3 學(xué)習(xí)分析工具分類及比較
學(xué)習(xí)分析工具的種類有很多,有專用型的(如SNAPP、ELLIment等),也有通用型的(如SPSS、WEKA等);有適合文本分析的(如CATPAC、LIWC等),也有適合圖像化分析的(如Nvivo、Socrato等)。不同學(xué)者對(duì)于學(xué)習(xí)分析工具的種類也從多個(gè)不同的角度來劃分。孟玲玲、顧小清等根據(jù)學(xué)習(xí)工具分析對(duì)象與類型側(cè)重的不同,將學(xué)習(xí)分析工具分為學(xué)習(xí)網(wǎng)絡(luò)分析工具、學(xué)習(xí)內(nèi)容分析工具、學(xué)習(xí)能力分析工具、學(xué)習(xí)行為分析工具、其他綜合分析工具[3]。Verbert和Govaerts等人根據(jù)學(xué)習(xí)分析工具應(yīng)用的環(huán)境不同,將其分為支持面對(duì)面教學(xué)的工具、支持小組合作的工具、支持混合學(xué)習(xí)或在線學(xué)習(xí)的工具[4]。郭烱和鄭曉俊等根據(jù)工具服務(wù)對(duì)象不同,將學(xué)習(xí)分析工具劃分為支持教師教學(xué)的學(xué)習(xí)分析工具、支持學(xué)生個(gè)性化學(xué)習(xí)的學(xué)習(xí)分析工具、支持教育決策的學(xué)習(xí)分析工具[5]。
本文則根據(jù)研究人員探索分析問題時(shí)使用工具的路徑,將學(xué)習(xí)分析工具劃分為數(shù)據(jù)預(yù)處理與特征工程工具、算法分析工具、可視化工具、專用工具。
數(shù)據(jù)預(yù)處理與特征工程工具 在進(jìn)行數(shù)據(jù)挖掘之前,所有的數(shù)據(jù)必須首先進(jìn)行“清洗”,以提高數(shù)據(jù)挖掘的質(zhì)量。通過特征提取,可以得到許多未經(jīng)處理的特征,通過數(shù)據(jù)預(yù)處理使數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化,最后僅需通過特征選擇就可得到與研究緊密相關(guān)的信息。數(shù)據(jù)預(yù)處理與特征工程工具就是這樣一個(gè)用于清理、組織和創(chuàng)建有效數(shù)據(jù)的工具,使研究者解決面臨大量數(shù)據(jù)無從下手的問題。常用的數(shù)據(jù)預(yù)處理與特征工程工具有Microsoft Excel & Google Sheets、EDM Workbench、Python、Jupyter、SQL等。
1)Microsoft Excel & Google Sheets。Microsoft Ex-cel(https://www.microsoft.com/zh-cn/)和Google Sheets(https://www.thoughtco.com/google-spreadsheets-4133440)對(duì)于新數(shù)據(jù)特征(變量)第一階段的原型分析非常有用,它是數(shù)據(jù)研究者在操作和設(shè)計(jì)數(shù)據(jù)中最常使用的工具。這類工具主要用于小規(guī)模特征工程,因?yàn)槠淇梢允箶?shù)據(jù)完全可視化,所以很容易識(shí)別數(shù)據(jù)中的結(jié)構(gòu)和語義問題,像存在異常值、缺失值及信息冗余等問題。此外,還可以利用它們非常直觀地設(shè)計(jì)新功能,快速將這些功能應(yīng)用于整個(gè)工作表,并通過一系列數(shù)據(jù)直觀地檢查功能以確保正常工作,像對(duì)數(shù)據(jù)集合匯總、水平鏈接及篩選求和等功能應(yīng)用。
但是,Excel和Sheets不適合所有類型的功能創(chuàng)建。因?yàn)閯?chuàng)建功能需要不同的數(shù)據(jù)匯總,其中涉及多次對(duì)數(shù)據(jù)進(jìn)行分類和重新排序,這導(dǎo)致保存記錄十分麻煩,且易更改語義特征。更重要的是,Excel和Sheets對(duì)可加載和操作的數(shù)據(jù)量十分有限,必須保持一定合理的性能。而且Excel和Sheets中的幾個(gè)常見操作符會(huì)進(jìn)一步降低性能。
2)EDM Workbench。EDM工作臺(tái)(http://penoy.admu.edu.ph/~alls/downloads-2)是主要用于自動(dòng)化特征過濾和數(shù)據(jù)標(biāo)記的工具[6]。EDM Workbench的自動(dòng)過濾功能彌補(bǔ)了Excel和Sheets無法進(jìn)行大規(guī)模工程設(shè)計(jì)的缺陷。研究人員能夠在EDM Workbench中基于xml創(chuàng)建功能,也能夠使用智能輔導(dǎo)系統(tǒng)中的26個(gè)功能,像學(xué)生解決問題所花費(fèi)的時(shí)間及對(duì)于最后n個(gè)步驟,分析學(xué)生所做的動(dòng)作是否正確,有多少人做對(duì)了,以及做對(duì)的比例為多少等功能。而且,EDM Workbench具有文本回放的功能,它支持?jǐn)?shù)據(jù)采樣、評(píng)估者之間的可靠性檢查以及標(biāo)簽與特征之間同步。
3)Python。Python(https://www.python.org/)是一種解釋型、面向?qū)ο蟮母呒?jí)程序設(shè)計(jì)語言,它提供了簡易的用戶文檔,簡單易學(xué)且完全免費(fèi)。Python有非常清晰的語法,其設(shè)計(jì)理念強(qiáng)調(diào)代碼可讀性,特色之一是強(qiáng)制用空白符(white space)作為語句縮進(jìn)。在建模工具中,Python比大多數(shù)模型具備更多優(yōu)勢(shì),如循環(huán)(for,while)、決策(條件)這樣的基礎(chǔ)程序結(jié)構(gòu)都可以得到較好的運(yùn)用。此外,它可以通過在Python結(jié)構(gòu)中編程—嘗試來避免程序運(yùn)行過程中產(chǎn)生的錯(cuò)誤。
Python是一種特別適合于數(shù)據(jù)處理和功能設(shè)計(jì)的語言。它不僅可以添加通知消息到用戶窗口反映批量數(shù)據(jù)處理進(jìn)程,而且可以將輸出信息重點(diǎn)標(biāo)注出來[7]。特別是Python中的工程上下文相關(guān)性比Excel或Google表格好,且能夠處理許多不同類型的異常或特殊的數(shù)據(jù)格式,如JavaScript
對(duì)象符號(hào)(JSON)由若干MOOC和在線學(xué)習(xí)平臺(tái)產(chǎn)生的文件。
4)Jupyter notebook。Jupyter notebook(http://jupyter.org/)是一種保存分析記錄和中間結(jié)果的工具,其按順序顯示每個(gè)用戶操作及結(jié)果,有利于構(gòu)建可讀性分析。Jupyter notebook其實(shí)就是一個(gè)Web應(yīng)用程序,便于創(chuàng)建和共享交互式文檔,且支持實(shí)時(shí)代碼、數(shù)學(xué)方程、可視化和markdown。相比較而言,其實(shí)在Microsoft Excel或Google Sheets中創(chuàng)建的數(shù)據(jù)和功能檢查起來更易可視化,特別是在數(shù)據(jù)集合中數(shù)據(jù)缺少、重復(fù)或異常情況下用Jupyter可能特別難以識(shí)別,并且工程特征的驗(yàn)證會(huì)更耗時(shí),所以在這里不推介新手程序員使用。Jupyter notebook還有一個(gè)缺點(diǎn)是其受到大小的限制,在研究計(jì)算機(jī)的1000萬行數(shù)據(jù)范圍內(nèi)會(huì)變得很慢。
5)SQL。結(jié)構(gòu)化查詢語言SQL(https://www.microsoft.
com/en-us/sql-server)是一種數(shù)據(jù)庫查詢和程序設(shè)計(jì)語言,用于組織一些數(shù)據(jù)庫。它可以有效精確地提取所需求數(shù)據(jù),并可以跨多個(gè)數(shù)據(jù)庫表進(jìn)行集成(即“連接”)。它不指定用戶對(duì)數(shù)據(jù)的存放方法,且可以使用相同的結(jié)構(gòu)化查詢語言作為數(shù)據(jù)輸入與管理的接口。SQL具有極大的靈活性和強(qiáng)大的功能,可以嵌套使用。此外,在SQL等數(shù)據(jù)庫語言中,許多基本的過濾任務(wù)(如選擇特定的學(xué)生子集或從特定日期范圍獲取數(shù)據(jù))比上述任何工具都要快得多。但是在特征工程過程中,SQL不適合創(chuàng)建復(fù)雜工程。不過SQL可以與上述其他工具一起有效地工作,比如用SQL執(zhí)行Excel或Python中非常緩慢的批量排序和篩選任務(wù)。
算法分析工具 在解決完清理、組織和創(chuàng)建有效數(shù)據(jù)后,研究人員面臨的問題是可以進(jìn)行哪些測試,可以構(gòu)建哪些模型,可以映射和探索哪些關(guān)系,以及如何驗(yàn)證發(fā)現(xiàn),如何建立算法,通過何種建模方法進(jìn)行數(shù)據(jù)的結(jié)構(gòu)分析等,此時(shí)就需要算法分析工具來解決這些問題。這類工具一是可以提供廣泛的算法和建模框架,二是可用于模擬和預(yù)測教育數(shù)據(jù)中的關(guān)系。常用的算法分析工具有RapidMiner、WEKA、SPSS等八種。
1)RapidMiner。RapidMiner(http://rapid-i.com/content/view/181/190/)是一個(gè)可視化開源數(shù)據(jù)挖掘工具,可進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和商業(yè)預(yù)測分析[8]。它擁有非常廣泛的分類、回歸以及用于聚類、關(guān)聯(lián)規(guī)則挖掘的算法。RapidMiner的圖形化編程語言比其他大多數(shù)數(shù)據(jù)挖掘工具的功能相對(duì)更強(qiáng)大,如可以用于使用Batch Cross Valida-tion運(yùn)算符在多個(gè)級(jí)別進(jìn)行交叉驗(yàn)證,這對(duì)于概括性分析來說是非常有用的,而且相比于其他所述數(shù)據(jù)挖掘軟件包中的圖形化語言是極大優(yōu)勢(shì)。RapidMiner還有一系列可用于模型評(píng)估的度量標(biāo)準(zhǔn),并可以通過可視化文件(如Receiver-Operating Curves)幫助用戶評(píng)估模型擬合,其中模型既可以根據(jù)實(shí)際的數(shù)學(xué)模型輸出,也可以在xml文件中輸出。可以說RapidMiner有一套廣泛的教程,對(duì)學(xué)習(xí)如何使用圖形化編程語言非常有用。不過它支持的重采樣方法(如引導(dǎo))相比其他數(shù)據(jù)挖掘軟件包更受限制。
2)WEKA。WEKA(http://www.cs.waikato.ac.nz/ml/Weka/)具有一套廣泛的分類、聚類和關(guān)聯(lián)挖掘算法,是一個(gè)免費(fèi)的開放源代碼軟件包。WEKA可對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則分析以及在新的交互式界面上的可視化。用戶使用時(shí),可以從命令行、GUI(圖形用戶界面)或通過Java API調(diào)用數(shù)據(jù)挖掘算法,并且它的命令行界面和API功能比GUI更強(qiáng)大,其不允許用戶訪問所有高級(jí)功能。此外,WEKA可以根據(jù)實(shí)際的數(shù)學(xué)模型或PMML(Predictive Modeling Markup Language)文件輸出它生成的模型,這些模型可以用WEKA評(píng)分插件運(yùn)行。不過WEKA僅可以選擇功能,不支持創(chuàng)建新功能。
3)SPSS。SPSS(http://www.ibm.com/analytics/us/en/technology/spss/)是一個(gè)統(tǒng)計(jì)軟件包,集數(shù)據(jù)錄入、資料編輯、數(shù)據(jù)管理、統(tǒng)計(jì)分析、報(bào)表制作、圖形繪制于一體,可提供一系列的統(tǒng)計(jì)測試、回歸框架、相關(guān)性和因子分析等功能。SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,最突出的特點(diǎn)就是操作界面極為友好,輸出結(jié)果美觀漂亮。其中,SPSS Modeler具有從現(xiàn)有功能創(chuàng)建新功能,進(jìn)行數(shù)據(jù)過濾,功能選擇和縮減功能空間的優(yōu)點(diǎn)。雖然SPSS是一個(gè)綜合的統(tǒng)計(jì)分析工具,但是其建模功能比文中提到的幾種同類別工具要差一些,因?yàn)樗鄬?duì)于其他工具較不靈活,難以進(jìn)行特征選擇,也沒有記錄功能。
4)KNIME。KNIME(www.knime.org)是基于Eclipse的開源數(shù)據(jù)挖掘軟件,與RapidMiner和WEKA大致相似。它提供了許多與這類工具一樣的功能,像RapidMiner一樣整合了WEKA的所有算法。此外,它還提供了一系列專業(yè)算法,如情感分析和社交網(wǎng)絡(luò)分析。它通過工作流的方式來完成數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘中數(shù)據(jù)的抽取—轉(zhuǎn)換—加載操作。KNIME的一個(gè)優(yōu)勢(shì)在于它能夠在同一分析中整合不同來源的數(shù)據(jù)(如工程功能的CSV,文本響應(yīng)的文字文檔,以及學(xué)生人口統(tǒng)計(jì)數(shù)據(jù)庫)。而且KNIME可擴(kuò)展性強(qiáng),允許與R、Python、Java還有SQL進(jìn)行交互。不過在其設(shè)計(jì)中,因?yàn)樗鼪]有端口概念的出現(xiàn),當(dāng)其進(jìn)行錯(cuò)誤信息的處理流程時(shí),看其過程定義生成的xml文件會(huì)發(fā)現(xiàn),錯(cuò)誤流定義在xml文件中加入得很不規(guī)整,是以補(bǔ)丁的方式加入的,這影響了系統(tǒng)整體設(shè)計(jì)的完整性與美觀度。
5)Orange。Orange(https://orange.biolab.si/)是一個(gè)數(shù)據(jù)可視化分析軟件包。雖然它比RapidMiner、WEKA以及KNIME的算法少得多,但是它的界面清晰、易于理解,比如顏色編碼的工具會(huì)區(qū)分?jǐn)?shù)據(jù)輸入、清理、可視化、回歸和集群這些方面;而且它提供了許多常用的算法,如決策樹、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)分析等。Orange還具有多功能的可視化編程前端,可用合理的文檔形式呈現(xiàn)模型結(jié)果。但是相比于Excel,它處理的數(shù)據(jù)規(guī)模有一定的局限性。所以基于簡單的GUI和菜單布局,Orange可能更適合小型項(xiàng)目或新手研究人員使用。
6)KEEL。KEEL(http://sci2s.ugr.es/keel/)是許多EDM研究人員使用的數(shù)據(jù)挖掘工具。與上面列出的一些工具的不同之處在于,KEEL有更廣泛的算法,而且支持各種各樣的功能選擇,包括支持對(duì)缺失數(shù)據(jù)進(jìn)行估算和對(duì)數(shù)據(jù)重新采樣的功能。作為建模工具,KEEL有一套廣泛的分類和回歸算法,支持其他類型的數(shù)據(jù)挖掘算法,如聚類和因子分析,但相比其他軟件包更加受到限制。
7)Spark MLLib。Spark(http://spark.apache.org/mllib/)是一個(gè)可跨多個(gè)計(jì)算機(jī)處理器,以分布式方式進(jìn)行大規(guī)模數(shù)據(jù)處理的計(jì)算框架,包含基于彈性數(shù)據(jù)集(RDD)的低階Spark機(jī)器學(xué)習(xí)API。Spark可以通過API連接多種編程語言,包括Java、Python和SQL,且允許這些語言用于分布式處理。Spark MLLib機(jī)器學(xué)習(xí)框架支持分類、回歸、聚類、協(xié)同過濾、降維等主要機(jī)器學(xué)習(xí)算法。盡管MLLib的功能有限,且只是一個(gè)純粹的編程工具,但它的分布式特性依舊使它成為一個(gè)不錯(cuò)的工具選擇。
8)R語言。R語言(https://www.r-project.org/)是用于統(tǒng)計(jì)分析和繪圖的優(yōu)秀工具。與其他工具相比,R語言能夠?qū)崿F(xiàn)更加復(fù)雜的數(shù)據(jù)處理,且處理效果較為理想[9]。它不單是一門語言,更是一個(gè)數(shù)據(jù)計(jì)算與分析的環(huán)境。R語言有著簡單而明顯的吸引力,使用R語言,只需要短短的幾行代碼,就可以在復(fù)雜的數(shù)據(jù)集中篩選。R語言的最大優(yōu)勢(shì)在于畫圖,像ggplot2、plotly、shiny、ggmap等用起來真的很方便。不過當(dāng)數(shù)據(jù)量過大時(shí),因內(nèi)存原因,R語言不再適用;且它的package太泛,使用中可能存在很多bug。
可視化工具 上面所討論的兩類工具都與一系列的數(shù)據(jù)及分析相關(guān),可以極大地幫助研究人員分析并獲得經(jīng)過驗(yàn)證表現(xiàn)良好的模型。但是在各大學(xué)術(shù)討論會(huì)議中,研究者要想完整表達(dá)出自己的科研成果,此時(shí)就需要借助一些可視化工具,使數(shù)據(jù)科學(xué)家能夠創(chuàng)建精美的圖表、模型、網(wǎng)絡(luò)及其他可視化信息。同時(shí),通過良好的可視化方法,也可以使學(xué)習(xí)者從數(shù)據(jù)中獲取更多的知識(shí)點(diǎn)。因此,可視化工具不可或缺。常用的可視化工具有Tableau、D3.js。
1)Tableau。Tableau(www.tableau.com)提供了一系列用于交互式數(shù)據(jù)分析和可視化的產(chǎn)品。在教育教學(xué)中,它可用于分析學(xué)生數(shù)據(jù),提供可操作的見解,優(yōu)化教學(xué)實(shí)踐和精簡教育報(bào)告等。Tableau的最大優(yōu)勢(shì)在于不需要編程知識(shí)來分析不同來源的大量數(shù)據(jù),就可輕松獲得可視化效果。Tableau提供了便于存儲(chǔ)數(shù)據(jù)的連接和導(dǎo)入數(shù)據(jù)功能。Tableau還具有構(gòu)建豐富的交互式儀表板的功能,這使得它能夠?qū)崟r(shí)地向用戶動(dòng)態(tài)顯示可視化信息。但是,Tableau不支持預(yù)測分析和關(guān)系數(shù)據(jù)挖掘,而且作為商業(yè)工具不可擴(kuò)展,不支持與其他軟件平臺(tái)的集成。
2)D3.js。D3.js(www.d3js.org)是一個(gè)允許操作數(shù)據(jù)驅(qū)動(dòng)文檔的JavaScript庫,研究人員和從業(yè)者可以通過D3.js建立復(fù)雜的交互式可視化數(shù)據(jù)。它的優(yōu)點(diǎn)在于它在構(gòu)建各種數(shù)據(jù)可視化方面靈活性強(qiáng),且無須安裝,支持代碼重用,并且是免費(fèi)和開源的。不過學(xué)習(xí)D3.js需要廣泛的編程知識(shí),而且其具有兼容性問題,不提供任何手段來隱藏可視化的用戶數(shù)據(jù),這就存在很大的用戶數(shù)據(jù)隱私問題。因此,用戶使用時(shí)要進(jìn)行數(shù)據(jù)預(yù)處理,以確保隱私和數(shù)據(jù)安全問題。
專用工具 已經(jīng)討論了用于EDM建模和分析的通用工具,但是特定類型的教育數(shù)據(jù)挖掘與學(xué)習(xí)分析技術(shù)通常需要更多的專用算法工具(簡稱專用工具),包括知識(shí)跟蹤算法、文本挖掘、社交網(wǎng)絡(luò)分析、序列挖掘和過程挖掘等類型工具。對(duì)于這些情況,研究人員和從業(yè)人員通常會(huì)使用針對(duì)這些情況而設(shè)計(jì)的專用工具。常用的專用工具有BTK-BF、LIWC、Gephi、ProM等。
1)貝葉斯知識(shí)追蹤工具。貝葉斯知識(shí)追蹤(BKT)(http://www.columbia.edu/~rsb2162/BKT-BruteForce.zip)是一種常用的潛在知識(shí)評(píng)估方法,可于在線學(xué)習(xí)期間測量學(xué)生的知識(shí)水平。它的優(yōu)勢(shì)就在于可以測量在線學(xué)習(xí)過程中正在變化的知識(shí)水平。BKT模型通常使用強(qiáng)力網(wǎng)格搜索和期望最大化(EM)這兩種算法之一進(jìn)行擬合,兩種算法在預(yù)測性能方面都不錯(cuò)。可以說,貝葉斯知識(shí)追蹤是一個(gè)隱馬爾可夫模型,它可以反映學(xué)生學(xué)習(xí)過程中的狀態(tài),是學(xué)習(xí)分析領(lǐng)域常用的技術(shù),像BKT-BF就屬于這類工具。
2)文本處理。文本挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱點(diǎn),文本分析工具可以處理文本內(nèi)容的詞性、句子結(jié)構(gòu)和語義詞義等。現(xiàn)如今已有大量的程序、APP和API可用于標(biāo)記、處理和識(shí)別文本數(shù)據(jù),此外還有一些工具能夠識(shí)別不同單詞和句子之間的表示關(guān)系。可用的文本挖掘和語料庫分析工具種類繁多,下面介紹幾種一般適用于文本挖掘的方法以及調(diào)查文本和語篇中特定結(jié)構(gòu)的工具。
①LIWC。LIWC(http://liwc.wpengine.com/)即自然語言處理技術(shù),是一個(gè)旨在用電腦程序取代專家來對(duì)各種文本進(jìn)行分析的軟件程序。它可以對(duì)文本內(nèi)容進(jìn)行量化分析,并將文本中的各類詞語(尤其是心理學(xué)類詞語)進(jìn)行計(jì)量,如因果詞、情緒詞、認(rèn)知詞等心理詞類在整個(gè)文本中的使用情況[10]。目前,LIWC已提供超過80種不同心理類別的詞匯,如認(rèn)知詞匯、情感詞匯、功能詞匯、分析詞匯等,它通過分析所用詞匯來衡量文本的潛在特征,已在大量研究中得到廣泛使用。
②WMatrix。WMatrix(http://ucrel.lancs.ac.uk/wmatrix/)是用于文本語料庫的詞頻分析和可視化的文本分析工具,主要在特征工程階段用來提取語言特征,包括單詞n-gram、詞性標(biāo)簽和單詞語義類別。WMatrix主要優(yōu)勢(shì)在是語義歸類和范疇研究,且可根據(jù)研究自建語料庫。此外,它還可以通過文字云的形式提供文本語料庫的可視化,并提供用于同時(shí)比較幾個(gè)文本語料庫的界面。
③Coh-Metrix。Coh-Metrix(http://www.memphis.edu/iis/projects/coh-metrix.php)是一個(gè)基于網(wǎng)絡(luò)的文本分析工具,提供了超過100種、大致11類的文本語料庫。與以上工具相比,Coh-Metrix的優(yōu)勢(shì)在于可通過一系列文本特征來分析文本的銜接性,且其具有多個(gè)標(biāo)簽,可用于評(píng)估深度文本內(nèi)聚,如敘述性度量和參考內(nèi)聚性。因?yàn)镃oh-Metrix擁有巨大的文本語料庫,其已被廣泛應(yīng)用于自動(dòng)測量文本難易度及銜接性。
3)社交網(wǎng)絡(luò)分析工具。社會(huì)網(wǎng)絡(luò)分析(Social NetworkAnalysis,SNA)是一種基于多個(gè)學(xué)科融合,用于研究人類社會(huì)關(guān)系、行為特點(diǎn)及信息傳播的定量方法。SNA通常用于分析在線學(xué)習(xí)中的交互現(xiàn)象,如平臺(tái)活躍度如何,個(gè)體間的關(guān)系如何,等等,幫助教師更好地完成課堂任務(wù)。下面介紹幾種社交網(wǎng)絡(luò)分析中常用的工具。
①Gephi。Gephi(https://gephi.org)是一款廣泛用于分析不同類型社交網(wǎng)絡(luò)的交互式工具,通常被用作探索性分析的工具,且不僅提供了一組圖形化工具,而且提供了操縱社交網(wǎng)絡(luò)圖、多重量度(如密度、平均路徑、介數(shù)中間性)計(jì)算以及社交網(wǎng)絡(luò)分析中常用算法(如圖類聚)的Java API。近些年來,Gephi被廣泛用于學(xué)習(xí)分析研究,特點(diǎn)是快速、簡單及模塊化,且支持各種社交網(wǎng)絡(luò)的輸入數(shù)據(jù)格式。因此,Gephi適合做可視化數(shù)據(jù)分析探索和生成研究發(fā)布的效果圖。
②EgoNet。EgoNet(http://egonet.sf.net)是一款主要以自我為中心來進(jìn)行重點(diǎn)分析的免費(fèi)社交網(wǎng)絡(luò)分析工具。這款工具一般使用調(diào)查工具從個(gè)體網(wǎng)絡(luò)的角度構(gòu)建社交網(wǎng)絡(luò),再通過創(chuàng)建問卷、收集數(shù)據(jù),提供可用于其他軟件進(jìn)行后續(xù)分析的綜合措施,計(jì)算用于分析社交網(wǎng)絡(luò)和生產(chǎn)圖的相關(guān)測量。且EgoNet具有可視化的優(yōu)點(diǎn),便于研究者更好地了解整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
③NodeXL。NodeXL(http://nodexl.codeplex.com)是一款簡單易用的開源社交網(wǎng)絡(luò)可視化分析軟件,是Micro-soft Excel的一個(gè)擴(kuò)展,優(yōu)點(diǎn)是有靈活的輸入輸出及布局靈活。與Gephi類似,它不僅提供了一組用于過濾數(shù)據(jù)的可視化工具,而且可計(jì)算基本網(wǎng)絡(luò)性質(zhì)(如半徑、直徑、密度等)、節(jié)點(diǎn)屬性(如度中心性、中介中心性、特征向量中心性等)以及其他網(wǎng)絡(luò)分析方法(如社群挖掘的聚類分析等)。除了可以進(jìn)行社交網(wǎng)絡(luò)分析,NodeXL Pro還包含來自多個(gè)社交媒體平臺(tái)(如Twitter、YouTube)的數(shù)據(jù);不過它的速度比較慢,只適合處理小規(guī)模的數(shù)據(jù)。
4)過程與序列挖掘工具。除了傳統(tǒng)的教育數(shù)據(jù)分析方法,如預(yù)測學(xué)習(xí)成果或課程持續(xù)性,研究人員還旨在追蹤學(xué)習(xí)者活動(dòng)的順序,以了解學(xué)習(xí)策略和過程[11],此時(shí)就需要過程與序列挖掘工具。下面介紹通常用于這方面研究的ProM工具。
ProM(www.promtools.org/doku.php)支持多種過程挖掘技術(shù),通常用于分析過程,同時(shí)可以進(jìn)行某種級(jí)別的數(shù)據(jù)預(yù)處理。ProM 6就支持在分布式設(shè)置和批處理中實(shí)現(xiàn)過程挖掘。ProM不僅支持多個(gè)進(jìn)程挖掘算法的連接,還可以在運(yùn)行時(shí)添加新的插件,以便直接集成到分析過程中。更重要的是,ProM允許與現(xiàn)有信息系統(tǒng)輕松集成,無須編程。
4 結(jié)語
學(xué)習(xí)分析工具在學(xué)習(xí)分析過程中起到很大作用,是促進(jìn)教育教學(xué)發(fā)展的關(guān)鍵。本文根據(jù)研究者探索問題的路徑,討論教育領(lǐng)域常用于學(xué)習(xí)分析的20多種工具。教育的需求在不斷增長,新的工具也在不斷涌現(xiàn),選擇合適的工具進(jìn)行研究是必要的。因此,筆者希望這篇綜述能夠?qū)ρ芯窟@些新興方法的研究人員在實(shí)際應(yīng)用和使用方面有所幫助。
參考文獻(xiàn)
[1]Mayer-Sch?nberger V, Cukier K. Big Data: A Revo-lution That Will Transform How We Live, Work and Think[M].New York: Houghton Miffin Harcourt Publishing Company,2014:181-183.
[2]孟志遠(yuǎn),盧瀟,胡凡剛.大數(shù)據(jù)驅(qū)動(dòng)教育變革的理論路徑與應(yīng)用思考:首屆中國教育大數(shù)據(jù)發(fā)展論壇探析[J].遠(yuǎn)程教育雜志,2017(2):9-18.
[3]孟玲玲,顧小清,李澤.學(xué)習(xí)分析工具比較研究[J].開放教育研究,2014(4):66-75.
[4]Verbert K, Govaerts S, Duval E, et al. Learning dashboards: an overview and future research oppor-tunities[J].Personal And Ubiquitous Computing,2014,18(6):1499-1514.
[5]郭炯,鄭曉俊.基于大數(shù)據(jù)的學(xué)習(xí)分析研究綜述[J].中國電化教育,2017(1):121-130.
[6]Rodrigo T, Mercedes M, Baker R, et al. Develop-ment of a Workbench to Address the Educational Data Mining Bottleneck[J].International Educational Data Mining Society,2012.
[7]何麗嫻,甘淑,陳應(yīng)躍.基于Python語言的空間數(shù)據(jù)處理[J].價(jià)值工程,2014(36):207-208,209.
[8]陳葡,陳葵,游子毅.基于RapidMiner的SVM分類方法設(shè)計(jì)[J].電子世界,2015(16):73-74.
[9]周蕓韜.基于R語言的大數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017(2):53-56,59.
[10]張信勇.LIWC:一種基于語詞計(jì)量的文本分析工具[J].西南民族大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2015(4):101-104.
[11]Bogarín A, Romero C, Cerezo R, et al. Clustering for improving educational process mining[M]//ACM: In Proceedings of the FourthInternational Conference on Learning Analytics And Knowledge,2014:11-15.