田娜 周驛 嚴蓉



摘 要:為深入挖掘和分析在線課程討論區中的文本數據,有效識別出參與該課程學習者關注的話題,改進在線課程教學效果,通過對學習者討論文本進行高頻詞匯分析,得到詞云圖,形成對學習者關注內容的整體認識;利用LDA話題模型對學習者的討論文本數據進行話題挖掘,得到9個熱點話題。實驗結果表明,學習者在線討論關注話題主要涉及Python語言編程基礎知識、課程證書、作業測試、開發環境配置以及第三方庫的安裝等。利用LDA模型可以從大量課程討論文本數據中有效識別出學習者關注話題,進而改進在線課程。
關鍵詞:MOOC;課程討論話題;LDA;主題模型;話題挖掘
DOI:10. 11907/rjdk. 191855 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP391文獻標識碼:A 文章編號:1672-7800(2020)005-0168-05
0 引言
MOOC一詞自出現以來,就以其課程資源開放性、不受觀看時間地點限制等特點引起廣泛關注[1]。這種新型的課程教學方式打破了傳統教學局限于教室、學校的時空界限,使教學內容不再局限于課本,推動了傳統教育教學模式的轉變,給教育教學注入了新活力[2]。教育部《2019年教育信息化和網絡安全工作要點》中提出:“要擴大高校優質教育資源覆蓋面,積極服務學習型社會建設,繼續推動國家開放大學網絡學習課程、通識課程、五分鐘課程等,使上線的網絡課程總量超過350門,啟動100門大規模在線開放課程建設[3]。”在這樣的背景下,各高校積極進行MOOC課程建設,涌現了一批優秀在線課程學習平臺,如中國大學MOOC、網易云課堂、愛課程網等。
在線課程討論區作為在線學習平臺學習者與學習者之間、學習者與教師之間最直接的交流空間,是當前在線課程教學常用的輔助手段之一,其中包含學習者的重要學習內容與學習行為數據,對學習者的知識建構、增強學習者之間的互動以及教師進行教學設計等具有重要意義[4]。但實踐中發現也有學習者沒有從MOOC平臺的學習中獲得足夠的知識,MOOC未體現出應有的價值,導致MOOC的高退學率。在MOOC論壇開展相互討論在一定程度上可以解決該問題[5]。
Kiemer等[6]研究證明,通過課堂的交互性對話,能夠激發學習者的內在學習動機和能力,增強課堂活力。雖然在線課程討論區具有眾多優勢,但是許多討論區存在學習者參與互動頻率低、互動話語質量差等問題。由于缺乏積極有效的引導,在討論區中進行討論時,學習者之間的對話稍有不慎就會偏離主題;而討論區主題大都強調以教師為中心,忽視了不同學習者的個性化需求,造成學習者參與討論不積極。現在的在線課程討論區支持學習者發布文本,以此表達對某一問題的看法或提出自己的問題。文本作為學習群體之間一種普遍的交流方式,能夠表現出學習者自身心理加工過程,是學習動機、認知發展、情感態度、學習體驗等的真實表現[7]。通過對在線課程討論區學習者互動文本進行挖掘與分析,可以有效反映學習者的學習現狀、促進教師教學方法創新,對學生整體行為進行監控和預警。當前,在線學習平臺主要依賴學習時長、觀看視頻時長、參與討論次數、考試成績等結構化數據反饋學習情況,較少對半結構化或非結構化數據(文本、圖片、視頻等)進行研究與運用 [8]。如果采用傳統的內容分析法會存在費時費力、評價主觀性和反饋滯后性等問題[9]。因此,通過對在線課程論壇中的文本數據進行挖掘與分析,對促進在線課程開展具有重要意義。
1 文獻綜述
國外對在線學習研究起步較早,主要聚焦于學習行為研究、學習效果影響因素研究及在線學習工具、學習預警等。對于在線課程論壇,國外研究者也從聚焦于研究行為數據轉向分析論壇文本,關注于發現與挖掘論壇討論主題。Ezen-Can等[10]使用聚類方法對系統平臺發表的文本數據進行自動識別,以此幫助理解學習者之間的學習行為和交互內容;Ramesh等[11]以學習者文本數據為研究對象,提出基于種子詞的話題模型方法以預測學習者的課程通過率;Gianluca等[12]設計了RAMS(Rapid Monitoring of Learners' Satisfaction)系統,通過挖掘Moodle討論區中的文本數據以及問卷調查數據,分析單個學習者的學習狀態并評估學習者對于該課程的滿意度。
目前國內對于在線課程論壇文本數據的研究逐漸增多。如劉三等[13]以某課程為例,應用非監督學習方法LDA模型對某在線課程中未完成和已完成兩種類型的學習者的評論文本信息特征結構及語義內容進行挖掘,為改進該課程提供建議;劉智等[4]通過概率話題建模,分析論壇發帖,提取不同學習群體的熱點話題以及不同成效的學習者在不同時間段的學習情緒,為學習者知識建構過程提供干預;左明章等[7]以互動話語分析理論為基礎,對某大學云平臺的課程論壇發帖進行實證研究,構建基于在線學習平臺的互動話語分析模型,旨在描述在線課程論壇學習行為,幫助教師識別特殊學習者并進行干預。
2 研究設計
2.1 研究思路
本實驗首先通過網絡爬蟲獲取學習者討論文本并對原始數據進行預處理,然后通過編程對預處理數據進行詞云分析,形成對學習者關注內容的整體印象;之后利用LDA主題模型方法對學習者討論文本進行聚類,找出學習者關注的話題。將獲得結果反饋給教師以改進教學,也可幫助教學管理者完善在線平臺功能,實現更好的用戶體驗,還可幫助學習者對該課程形成基本的了解。研究框架如圖1所示。
2.2 研究對象
本實驗研究對象是中國大學MOOC平臺上某課程討論區的發帖內容。該課程作為中國大學MOOC上的一門國家級精品課程,課程共9周,開課時間為2018年9月18日至2018年11月30日,擁有較多的學習參與者和豐富的交互數據,本實驗主要對課程討論區文本數據進行研究。討論區包括教師答疑區、課堂交流區和綜合討論區3部分。
2.3 數據收集與預處理
網頁包含許多信息,如文本、script腳本、html標記等,網絡數據收集指利用一種程序自動收集網絡中包含的有用信息,一般是文本信息。現有的網絡數據收集方法主要分為兩種:①采用商業爬蟲軟件獲取數據,如八爪魚采集器;②編寫網絡爬蟲程序獲取網絡數據。本實驗通過編寫Python程序獲取學習者討論區發帖文本數據,收集到的數據主要包含發帖者的用戶名或ID、發帖時間、發帖內容。在去除空值、無效數據之后,得到學習者論壇發帖數據共8 090條。
在獲取學習者論壇討論文本后,需要對原始論壇數據進行預處理,主要目的是將在線課程論壇討論文本轉化為主題挖掘模型能夠識別的文本詞向量形式,有中文分詞、去重及去停用詞、詞頻統計、文本向量化幾個過程[14]。
2.3.1 分詞處理
不同于英文文本采用空格區分詞,中文文本詞與詞之間的間隔不明確,需要對文本進行分詞操作。在眾多的中文分詞軟件中,本文采用中國科學院計算技術研究所開發的ICTCLAS漢語分詞系統作為分詞工具對討論文本進行分詞處理。
2.3.2 去重與去停用詞
仔細觀察會發現文本中包含著大量的重復及無效詞匯,比如“啊”、“雖然”、“是的”、“好好好”等,這些詞匯會對LDA建模結果產生很大影響。對于文本中出現的虛詞、介詞等無實際意義詞匯,通過引用停用詞詞典(將哈工大停用詞表、四川大學機器智能實驗室停用詞庫和百度停用詞表整理去重得到本實驗所用停用詞表)進行過濾。對于重復文本,本文在不考慮語義關系的情況下將其強制壓縮成單個詞語。
2.4 研究方法
主題模型主要用于計算機及相關領域,潛在語義分析(Latent Semantic Analysis,LSA)、概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)以及潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)等都屬于傳統的主題模型方法。數據爬取、數據獲取、文本預處理、主題挖掘算法、主題建模與主題生成是主題挖掘的主要工作流程[15]。隨著模型的深入應用,研究者發現LDA模型在文本方面有很好的處理效果,比如Phan等[16]發現LDA主題模型在表達文本主題時具有很好的聚類效果;Basher[17]運用LDA主題處理交互式文本,為文本主題抽取提供了新思路。
LDA由Blei[18]等于2003提出,其由文檔、主題和詞3層結構組成,適合挖掘大規模文檔集中潛藏的主題信息。基于“詞袋(Bag of words)”假設,LDA把文檔視為多個潛在主題,每個主題又滿足單詞的多項式分布。因此,一篇文檔可以看作由多個主題構成,每個主題又由多個單詞構成[19]。對于一篇文檔來說,其生成過程如下:首先從代表文檔主題分布向量的θ中抽取一個主題,之后從抽取到的主題對應的詞分布中抽取一個單詞,不斷重復此過程N,直至生成一篇含有N個詞的文檔。
3 研究結果分析
3.1 高頻詞匯分析
從圖3可以看出,學習者參與討論文本中出現頻率較高的詞為“Python”、“老師”、“代碼”、“視頻”、“作業”、“成績”、“課件”、“證書”等,這些詞匯大致反映出學習者學習該課程的主要目的以及該課程的基本內容,即該課程是一門介紹Python編程的網絡課程,學習者對該課程的視頻資源、作業測試、課程證書等方面討論較多。此外,還有一些單詞是對該課程內容的表述,如“Jieba”、“判斷”、“循環”、“函數”、“變量”、“字符”、“版本”等,這些詞在一定程度上是該課程主要知識內容的總結,比如“Jieba”作為目前中文文本預處理的主要工具,在該課程涉及文本處理的代碼中廣泛使用;而“判斷”、“循環”等屬于該課程第三節中程序控制結構的重要內容。
3.2 LDA話題聚類
通過詞云圖對學習者參與討論的主要內容形成整體印象,利用LDA模型對經過預處理之后的討論文本進行主題建模。首先確定主題個數,研究發現,在LDA話題模型中先驗參數一般設定為[20]:[α]=0.1,[β]=0.01,經過多次調參實驗,發現當主題數目num_topics=9時表1實驗效果最為顯著。表1是學習者參與課程討論的話題—詞匯矩陣,在代碼編寫過程中,通過計算學習者關注話題概率值,抽取概率值較高的9個話題,并抽取每個話題中出現概率較大的前10個單詞,這些單詞在一定程度上可以表現出該話題下的主要內容。
由表1可以看出,話題1中學習者關注該課程學習之后證書的獲得,說明參與該課程的學習者希望獲得課程證書,而這些學習者大都能持續參與學習,是該課程的主要參與者,是研究學習行為的主要對象;話題2主要是關于課程學習平臺以及課后作業、測驗,以及對該課程視頻資源、課件等內容的關注,說明該平臺功能還有需完善的地方。學習者對于作業、測驗的關注,在一定程度上說明了學習者參與學習的積極性,后期作業設置時要引起注意;話題3 中“turtle”是Python編程中常用的一種庫,也是課程進行蟒蛇繪制的主要工具,此外還有“溫度轉換”實例,也是該課程的主要實例之一,說明學習者對蟒蛇繪制和溫度轉換兩個例子還存在問題;話題4中出現概率較高的前4個單詞分別是“函數”、“定義”、“調用”、“變量”,說明學習者主要關注函數相關知識,如何定義一個函數、如何調用函數、函數的執行等都是學習者關注的重點;從話題5 中的單詞分布可以看出該話題主要集中于文本數據處理和格式化,其中“Jieba”庫是編程人員進行中文文本分詞的主要工具包,也是繪制詞云,進行詞頻統計以及其它文本操作需要用到的工具,“解答”、“疑問”等詞說明學習者在進行文本數據處理過程中還存在一定問題,需要教師或同學幫助;話題6中“元組”、“集合”、“列表”、“字典”等是Python編程中的數據類型,說明該話題主要是關于組合數據類型的描述;話題7中“if”、“else”、“for”是Python編程語言中循環結構的基本構成。此外,“分支”一詞說明學習者對分支結構也有所關注,由此可見,該話題主要是對Python編程語言中程序控制結構的描述;在話題8中“字符串”、“字符”、“類型”等詞說明該話題主要表達學習者對基本數據類型的關注;話題9主要是Python學習所需開發環境的配置以及第三方庫安裝。
[11] RAMESH A,GOLDWASSER D, HUANG B,et al. Understanding MOOC discussion forums using seeded LDA[C]. Proceedings of the 9th ACL Workshop on Innovative Use of NLP for Building Educational Applications. New York:ACM Press,2014:28-33.
[12] GIANLUCA ELIA,GIANLUCA SOLAZZO,GIANLUCA LORENZO,et al. Assessing learners' satisfaction in collaborative online courses through a big data approach[J]. Computers in Human Behavior, 2019(92): 589-599.
[13] 劉三,彭晛,劉智,等. 面向MOOC課程評論的學習者話題挖掘研究[J]. 電化教育研究,2017,38(10):30-36.
[14] 潘怡,葉輝,鄒軍華. E-learning評論文本的情感分類研究[J]. 開放教育研究,2014,20(2):88-94.
[15] 陳迪,代艷君,王志鋒. 論壇主題挖掘研究綜述[J]. 計算機工程與應用,2017,53(16):36-44.
[16] PHAN X H,NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]. Proceedings of the 17th Inter?national Conference on World Wide Web. ACM, 2008:91-100.
[17] BASHER A R M A, FUNG B C M. Analyzing topics and authors in chat logs for crime investigation[J]. Knowledge and Information Systems, 2014, 39(2): 351-381.
[18] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(3):993-1022.
[19] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學,2015,33(1):63-68.
[20] HAO H, ZHANG K, WANG W, et al. A tale of two countries: International comparison of online doctor reviews between china and the united states[J]. International Journal of Medical Informatics, 2017(99):37-44.
(責任編輯:杜能鋼)