


摘? 要:為深入探究在線課程評論文本數(shù)據(jù),有效識別出參與在線學習過程中學習者關注的話題,改進在線學習效果,該研究利用LDA主題模型對課程評論文本進行主題挖掘。實驗結果表明,學習者在線課程評論話題主要聚焦在授課方式、受眾群體、學習平臺、教學效果、課程質(zhì)量五個方面。因此,可以根據(jù)這五個主題對在線學習平臺進行建設,進而提高學生在線學習效果。
關鍵詞:LDA;MOOC;課程評論;文本分析
中圖分類號:TP391.1? 文獻標識碼:A? 文章編號:2096-4706(2023)04-0043-04
Analysis of MOOC Course Review Text Based on LDA Topic Model
LAI Xianjing
(School of Education Science, Kaili University, Kaili? 556011, China)
Abstract: In order to deeply explore the online course review text data, effectively identify the topics that learners pay attention to in the online learning process, and improve the online learning effect, this study uses the LDA topic model to mine the topic of the course review text. The experimental results show that learners' online course review topics mainly focus on five aspects: teaching methods, audience groups, learning platforms, teaching effects, and course quality. Therefore, the online learning platform can be built according to these five themes, so as to improve the online learning effect of students.
Keywords: LDA; MOOC; course review; text analysis
0? 引? 言
隨著“互聯(lián)網(wǎng)+教育”的不斷發(fā)展,在線教育受到各方關注。2021年6月,CNNIC發(fā)布《中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》中顯示,我國在線教育用戶為3.25億,占整體網(wǎng)名的32.1%[1]。越來越多學習者傾向于在線學習,各式各樣的在線學習平臺應運而生,不僅為學習者提供豐富的學習資源,而且還為學習者搭建了交互式學習平臺。MOOC(Massive Open Online)作為“互聯(lián)網(wǎng)+教育”的重要產(chǎn)物之一,具有規(guī)模大、開放性、個性化、免費等特征[2],滿足眾多學習者個性化學習需求。并且成為眾多研究者關注的焦點。
學生在使用MOOC平臺學習的過程中,產(chǎn)生的各種行為數(shù)據(jù)真實反映學習者的各種學習狀態(tài)[3]。隨著大數(shù)據(jù)與教育的不斷融合,學習分析技術能夠?qū)π袨閿?shù)據(jù)進行分析。該技術不僅能夠基于統(tǒng)計方法對結構化數(shù)據(jù)[4]—考試成績、評論次數(shù)、觀看時長與次數(shù)等進行分析以外,還可以對非結構化數(shù)據(jù)的分析—文本數(shù)據(jù),例如評論數(shù)據(jù)、評論回復、答疑、彈幕數(shù)據(jù)等[5]。隨著MOOC平臺的不斷發(fā)展,學習者在使用過程中產(chǎn)生了大量的非結構化互動文本數(shù)據(jù),主要在討論區(qū)、實施答疑、實時彈幕等。評論文本中蘊含大量的信息,對其進行挖掘和解釋能夠發(fā)現(xiàn)學習者關注的重點,為提高在線學習體驗感、滿意度等提供參考和借鑒。因此,本研究以MOOC評論區(qū)文本數(shù)據(jù)作為研究對象,基于LDA主題模型挖掘非結構化互動文本,探討學習者在使用MOOC平臺學習過程中所關注的重點,以期為后續(xù)建設在MOOC平臺提供參考和借鑒。
1? 相關研究
評論文本作為在線學習過程中重要的互動載體,比較真實的反映了學習者的學習體驗、興趣話題、情感態(tài)度等特征[6]。通過對評論文本進行挖掘,能夠提取學習者在在線學習過程中關注的隱藏焦點。目前已有部分研究者對MOOC評論文本內(nèi)容進行分析,例如:吳林靜等提出面向大數(shù)據(jù)的慕課評論文本語義分析模型,該模型能夠有效對評論文本進行分類[7]。胡榮等人采用極性計算方法對MOOC評論情感極性進行探究,發(fā)現(xiàn)該方法能夠有效判斷評論文本的情感極性[8]。因此可以發(fā)現(xiàn),研究者們已經(jīng)開始對MOOC非結構化文本數(shù)據(jù)展開研究。
LDA模型常用于社交媒體、圖像處理、文本分類和聚類、社區(qū)方法等領域[9]。在文本分類和聚類方面,LDA主題模型通過對文檔進行主題概率分布計算最終找到主題集合[10],以此來挖掘出文本主題。已有研究證明,基于LDA主題模型-詞分布矩陣主題分布向量能夠有效對短文本進行分類[11]。目前已有研究者使用LDA模型對MOOC評論文本進行分析,例如,劉三女牙等人利用LDA模型探究學習者關注話題及其演化趨勢,為后續(xù)研究提供了新思路[12]。陳秀明等利用該方法實現(xiàn)主題挖掘及趨勢演化,并結合共現(xiàn)網(wǎng)絡圖探究主題分布[13]。王洪鑫等使用LDA模型和CNN算法,構造主題挖掘與情感分析模型,該模型挖掘出學習者關注主題并對情感極性展開分析[14]。由此可以發(fā)現(xiàn),研究者們已經(jīng)將LDA模型運用在教育領域,通過對不同類型評論文本數(shù)據(jù)進行分析,以此來發(fā)現(xiàn)學習者所關注的話題分布情況。
以上研究從不同角度對MOOC評論數(shù)據(jù)進行分析,MOOC平臺課程資源豐富,學習者在學習過程中產(chǎn)生的非結構互動文本數(shù)據(jù),其增長速度較快、數(shù)據(jù)繁雜多樣,因此,對MOOC課程評論文本進行分析仍然具有重要意義。所以,本研究利用LDA主題模型研究學習者在使用MOOC平臺學習過程中留下的評論文本,挖掘?qū)W習者關注主題,以此來發(fā)現(xiàn)學習者關注的焦點,為后續(xù)更好建設在線教育平臺提供參考和借鑒。
2? 研究設計
2.1? 研究框架
本研究利用LDA主題模型挖掘出MOOC課程評論文本主題,發(fā)現(xiàn)學習者在在線學習過程中關注的重點。因此,本研究通過爬取MOOC課程評論文本數(shù)據(jù)、預處理、建模分析、可視化等階段實現(xiàn)MOOC評論數(shù)據(jù)的主題分析,研究框架如圖1所示。
2.2? 研究方法
2.2.1? 數(shù)據(jù)預處理
數(shù)據(jù)預處理作為本文挖掘的基本步驟,其目的是為確保數(shù)據(jù)的有效性,刪除評論數(shù)據(jù)中噪聲數(shù)據(jù)和無用信息。本研究首先爬取中國大學MOOC學習者評論數(shù)據(jù),其次對MOOC評論文本數(shù)據(jù)進行預處理,使用停用詞表,去除數(shù)據(jù)中的重復詞、停用詞、無用詞匯等,得到標準化文本數(shù)據(jù)。最后,利用jiaba分詞工具對數(shù)據(jù)進行分詞處理。
2.2.2? 在線評論文本主題建模
首先,建立樸素貝葉斯模型(Naive Bayesian),將MOOC評論文本分為正面和負面評論,并分別進行詞頻分析。因為樸素貝葉斯模型具有分類準確度高、建模簡單等特點,因此,本研究選擇樸素貝葉斯算法對MOOC評論進行情感分類。
其次,使用LDA模型挖掘文本主題數(shù)。LDA模型包含文檔、主題、詞三個層次,該方法能夠從文檔中提煉出主題模型,并通過詞匯的概率分布反映文檔的潛在主題[15]。并且采用無監(jiān)督方法進行訓練,適合處理大規(guī)模文本語料[16]。為了找到最優(yōu)的主題數(shù),本研究使用困惑度(perplexity)和一致性(coherence)評價指標確定評論文本中的最優(yōu)主題個數(shù)[17]。其中困惑度數(shù)值一般隨著潛在主題數(shù)量的增加呈現(xiàn)遞減的規(guī)律,困惑度數(shù)值越小,該主題模型的生成能力越強[18]。一致性指標則是使用每個主題出現(xiàn)頻率最多的詞語計算他們的語義相似性,一致性得分越高,模型解釋性更好。
最后,使用LDAvis庫對LDA模型結果進行可視化呈現(xiàn)。
3? 實證分析
3.1? 數(shù)據(jù)描述
本研究使用八爪魚工具爬取中國大學MOOC學習者評論數(shù)據(jù),采集課程為“Python語言程序設計”,該課程在新課排行榜位居第一,課程一共有24 152人參加,采集數(shù)據(jù)時間確定在2019年1月—2022年1月,一共獲取數(shù)據(jù)21 137條。數(shù)據(jù)集字段包括用戶ID、評論內(nèi)容、發(fā)表時間、開課次數(shù)等。本文對刪除重復評論、過長或過短評論、無效評論數(shù)據(jù)后,最終獲得15 030條有效數(shù)據(jù)。
3.2? 文本情感分類結果
使用樸素貝葉斯文本分類對MOOC評論數(shù)據(jù)進行情感分析,其中正面評論13 477條,占比89.67%;負面評論1 553條,占比為10.33%。說明大部分學習者在在線學習過程中的體驗感較好,滿足其基本學習需求。有少部分學習者的學習體驗沒有達到預期。其中正面評論高頻詞匯包括:老師、課程、學習、講解、內(nèi)容、Python、清晰、基礎、不錯、入門等,負面評論高頻詞匯包括:老師、課程、編程、學習、理解、Python、基礎、沒有、代碼、視頻等。
3.3? LDA模型主題聚類結果
本研究運用Python中的Gensim包中的Lad Model函數(shù)對MOOC評論文本數(shù)據(jù)進行主題建模。首先,使用困惑度和一致性指標判斷最優(yōu)主題數(shù)量,其中困惑度分析結果如圖2所示。一致性分析結果如圖3所示。根據(jù)圖中可知,當主題數(shù)為5左右時,困惑度指標數(shù)值最低,一致性指標數(shù)值最高。因此。本研究確定MOOC評論文本主題數(shù)為5。
根據(jù)困惑和一致性指標分析結果,結合已有研究將MOOC評論文本的主題分為五大類—“教師授課風格”“課程受眾群體”“教學效果”“課程內(nèi)容”“課程質(zhì)量”。MOOC課程評論文本數(shù)據(jù)LDA主題部分特征詞如表1所示。
接下來對LDA模型進行可視化處理,結果如圖4所示。一個圓圈代表一個主題,當主題數(shù)為5時,各圓圈分散互不相交,說明主題數(shù)為5是能夠很好涵蓋評論文本的大部分內(nèi)容,主題建模較好。其中,圓圈1對應主題一“教師授課方式”、圓圈2對應主題二“課程受眾群體”、圓圈3對應主題三“學習效果”、圓圈4對應主題四“學習平臺”、圓圈5對應主題五“課程質(zhì)量”。
3.4? 結果分析
通過樸素貝葉斯文本分類結果顯示,大部分學習者在使用MOOC平臺時的體驗感較好,根據(jù)正面評論的高頻詞匯發(fā)現(xiàn),正面評論主要集中在授課方式、教學效果、受眾群體等方面。負面評論主要集中在課程內(nèi)容,例如:編程較難、代碼不好理解、平臺問題等方面。
通過LDA主題模型分析結果顯示。MOOC評論文本包含5個主題及特征詞。結果顯示,MOOC評論文本中的主題包括授課方式、受眾群體、學習平臺、教學效果、課程質(zhì)量五個主題。
主題一:“授課方式”包括老師、講解、清晰、通俗易懂等特征詞,占全部評論的26.5%,說明學習者在該課程學習過程中比較喜歡老師的授課風格,并且認為老師講課通俗易懂。并且主題一占比較高,這說明老師授課風格是學習者關注的關鍵內(nèi)容,同時也是學習者持續(xù)學習的影響因素之一。由于編程課程對于部分學生來說難度較大、枯燥,老師能夠生動有趣的講解課程是學生能夠持續(xù)學習的重要原因。
主題二:“受眾群體”包括課程、入門、小白、基礎等特征詞,占全部評論的24.8%,
說明大部分學習者都認為該門課程比較適合作為Python入門基礎,受眾群體比較適合新手或小白。這一主題的發(fā)現(xiàn)有利于MOOC平臺為后續(xù)學習者推薦有關學習資源提供參考和借鑒。
主題三:“課程內(nèi)容”主要包括課程、系統(tǒng)、視頻、平臺等特征詞,占全部評論的19%,說明大部分學習者認為該平臺比較適合學習,主要關注點聚焦在視頻資源、作業(yè)布置、課程設置等方面。通過特征詞發(fā)現(xiàn),全面且系統(tǒng)的學習資源、方便操作的學習平臺、合理的作業(yè)布置等能夠吸引學習者學習。
主題四:“學習效果”主要包括知識、使用、推薦、興趣等特征詞,占全部評論的16.7%,說明部分學習者比較關注學習效果的問題,主要聚焦在理論和實踐、學習興趣、體驗感等方面。通過特征詞發(fā)現(xiàn),該門學生學習該門課程的學習效果較好,不僅將理論與實踐相結合,而且學生樂于推薦該門課程給其他學習者
主題五:“課程質(zhì)量”主要包括質(zhì)量、課程、資源、例題等特征詞,占全部評論的13.9%,說明部分學習者關注到了課程質(zhì)量的問題,主要聚焦在課程建設、學習資源等方面。課程質(zhì)量會影響學生的學習效果,根據(jù)特征詞顯示可以看出大部分學習者認為該門課的課程質(zhì)量較高,資源豐富、老師講課專業(yè)產(chǎn)生了較好的學習效果。
4? 總結與建議
實驗結果表明,使用LDA主題模型可以挖掘出學習者在在線學習過程中所關注的主要內(nèi)容。研究結果發(fā)現(xiàn)在線學習過程中關注內(nèi)容聚焦在授課方式、課程內(nèi)容、學習效果、課程質(zhì)量等方面,并且通過學習課程發(fā)現(xiàn)了該門課程適合學習的群體。在這些關注點上,學習者比較側重于教師授課方式、課程內(nèi)容等方面的表達。基于此,本文提出一下建議。
篩選優(yōu)質(zhì)課程資源。根據(jù)研究結果發(fā)現(xiàn),學習者在學習過程中比較注重教師授課方式、課程內(nèi)容、課程質(zhì)量等方面。MOOC平臺課程完成率較低,所以平臺在上線課程資源的過程中,應該對這幾個維度展開評價。還可以讓學習者學習前、學習中、學習后對課程資源進行簡單評價,以此來完善課程資源建設。
推薦個性化學習資源。根據(jù)研究結果發(fā)現(xiàn),部分學習者會在評論區(qū)對課程受眾群體展開討論。根據(jù)該主題占比情況,可以向新加入平臺的學習者推薦不同類型的課程學習資源,以此來滿足學習者這的個性化學習需要。這一主題發(fā)現(xiàn)對于在線學習平臺管理人員完善學習平臺推薦功能具有重要意義。
5? 結? 論
本研究基于MOOC評論區(qū)文本數(shù)據(jù),構建一種面向MOOC課程評論文本的主體挖掘模型,并以“Python語言程序設計”課程為例,挖掘出學習者對于在線學習的態(tài)度和主題結構分布,結果表明該方法能夠有效挖掘出評論數(shù)據(jù)中的隱藏信息,準確找到學習者在MOOC平臺上學習關注的重點,研究結果有助于在線教育平臺建設、在線課程設計、教學策略優(yōu)化、課程資源推送等方面提供參考。但是,本研究在MOOC評論文本情感分析方面還有進一步探索的空間,只對情感傾向進行粗粒度分析。在后續(xù)研究中,應該嘗試構建在線課程評論情感詞典,以此來提高在線課程評論情感傾向的準確性,或者可以嘗試采用其他發(fā)放對文本進行聚類分析,提高研究結果的準確性。
參考文獻:
[1] 中國互聯(lián)網(wǎng)信息中心.中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告 [EB/OL].(2021-9-15).http://www.cnnic.cn/NMediaFile/old_attach/P020210915523670981527.pdf.
[2] 王永固,張慶.MOOC:特征與學習機制 [J].教育研究,2014,35(9):112-120+133.
[3] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學習行為分析與預測 [J].計算機研究與發(fā)展,2015,52(3):614-628.
[4] 孔嘯,劉乃嘉,張夢豪,等.COVID-19疫情前后高校在線教學數(shù)據(jù)分析 [J].清華大學學報:自然科學版,2021,61(2):104-116.
[5] 景永霞,茍和平,劉強,等.基于主題模型的在線課程評論情感分析研究 [J].蘭州文理學院學報:自然科學版,2020,34(1):54-56+61.
[6] 劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學習者話題挖掘研究 [J].電化教育研究,2017,38(10):30-36.
[7] 吳林靜,劉清堂,毛剛,等.大數(shù)據(jù)視角下的慕課評論語義分析模型及應用研究 [J].電化教育研究,2017,38(11):43-48.
[8] 胡榮,崔榮一,趙亞慧.基于情感詞典的課程評論情感分析 [J].延邊大學學報:自然科學版,2019,45(2):153-160.
[9] 韓亞楠,劉建偉,羅雄麟.概率主題模型綜述 [J].計算機學報,2021,44(6):1095-1139.
[10] 肖明,商慧語,肖毅,等.基于LDA模型的統(tǒng)計學熱門主題挖掘及知識圖譜分析 [J].華中師范大學學報:自然科學版,2022,56(5):781-788+802.
[11] 楊萌萌,黃浩,程露紅,等.基于LDA主題模型的短文本分類 [J].計算機工程與設計,2016,37(12):3371-3377.
[12] 劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學習者話題挖掘研究 [J].電化教育研究,2017,38(10):30-36.
[13] 陳秀明,張晨晨,王峰,等.基于LDA主題模型的MOOC評論回復特征維度分析 [J].阜陽師范大學學報:自然科學版,2021,38(4):73-81.
[14] 王洪鑫,閆志明,陳效玉,等.面向MOOC課程評論的主題挖掘與情感分析研究 [J].開放學習研究,2021,26(4):16-23.
[15] BLEI D M,NG AY,JORDAN M I. Latent dirichlet allocation [J].Journal of Machine Learning Research,2003(3):993-1022.
[16] 阮光冊.基于LDA的網(wǎng)絡評論主題發(fā)現(xiàn)研究 [J].情報雜志,2014,33(3):161-164.
[17] HANNIGAN T R,HANNS R F J,VAKILI K,et al. Topic Modeling in Management Research:Rendering New Theory from Textual Data [J].Academy of Management Annals,2019,13(2):586-632.
[18] DU Y J,YI Y T,LI X Y,et al. Extracting and tracking hot topics of micro-blogs based on improved latent dirichlet allocation [J].Eng Appl Artif Intell,2020,87(C):103279.
作者簡介:賴顯靜(1998—),女,漢族,貴州甕安人,碩士在讀,研究方向:在線教育。
收稿日期:2022-10-03
基金項目:凱里學院聯(lián)合培養(yǎng)研究生專項課題(LHYJS2101)