唐青 余金松 林君賢 胡林偉 虞宇翔 薛義博

摘要:自從新冠病毒疫情爆發以來,社會經濟教育等方面發生了巨大的改變,在線學習成為了中國大學生學習的主要方式之一。在線學習依托于互聯網,其不同于傳統的現場教學,本文通過Python編程爬蟲搜詞、數據清洗、詞頻統計和聚類分析,使用大數據技術研究目前在線學習中學生體驗現狀和趨勢以及一些未解決的問題。
關鍵字:網絡爬蟲;輿情數據分析
1.獲取數據源
網絡爬蟲技術是指一種按照一定的規則,自動地抓取互聯網信息的程序或者腳本。本項目為了獲取到大量數據需要使用到網絡爬蟲模擬用戶操作向服務端發起請求提取有用的數據存儲到本地,其中包括利用Cookie技術模擬用戶登錄、第三方平臺API搜索兩種途徑,分別從新浪微博、知乎、慕課網、百度貼吧等在線學習平臺爬取用戶評論數據。考慮到疫情爆發和大學生復學的時間,本項目爬取了2019年1月至6月以及2020年1月至6月的數據,一共獲取5萬余條數據記錄。
2.數據清洗
數據信息的中分詞是統計詞頻的重要步驟之一,?本文使用了python第三方庫jieba,jieba是優秀的中文分詞第三方庫,支持三種分詞模式:精確模式、全模式和搜索引擎模式,精確模式可以將語句精確切分,不存在冗余數據,適合本項目做文本分析。經過分詞之后,詞頻中仍然存在大量的無用詞語,類似于“那個”、“啊哦”、“這個”等等,所以在統計詞頻前需要進行數據清洗,即刪除停用詞。筆者采用的方法是提前創建一個停用詞列表“stopwords”,遍歷每一條初步分詞后的文本數據,如果存在即把這個詞刪去。
2.詞頻統計和聚類分析
經過在線數據清洗后,本文從清洗后的數據源,獲取各時段詞頻前20名作為聚類分析的數據源。本文聚類分析是將詞頻數據利用Python生成詞頻矩陣,詞頻矩陣中每一列代表一個關鍵詞,用數字1表示該評論中含有對應的關鍵詞,數字0表示該評論不包含關鍵詞。
通過詞頻矩陣的形式,可以將每條文本數據轉換為 n 維 1/0 值向量的形式,對比分析每個向量之間的相似性從而給文本數據進行分類處理。利用SPSS軟件進行分析-分類-系統聚類,經過多次試驗發現,系統聚類的方法選擇組間連接-歐氏距離效果較好,此法采用簡單匹配系數度量評論之間的相似性,簡單匹配系數是當兩條評論在關鍵詞上的數值相同時出現的頻率,頻率越高說明兩條評論越相似。
3.自然語言處理與情感分析過程
(1)加載語料數據,并將每條數據保存為list的元素; (2)計算 TF-IDF。計算 TF-IDF 時還可以選擇將出現頻率高于一定值,以及出現次數非常低的詞語刪去,同時還可以借助正則表達式去除數字、符號等不利于分析的元素; (3)獲取模型中的所有字詞特征(如果特征數量非常多的情況下可以按照權重降維),經過程序統計一般有 20000個左右的特征詞;(4)導出權重矩陣,此時已經實現了將文字向量化的過程,矩陣中的每一行就是一條文本的向量表示;(5)將文本數據的向量進行 k 均值聚類,K 均值聚類算法是在向量空間中分配 k 個隨機點作為 k 個簇的初始虛擬均值。然后,將每個數據點分配給平均值最近的聚類。接下來,重新計算每個聚類的實際平均值。根據均值的偏移,重新分配數據點。重復此過程,直到集群的平均值停止移動;(6)利用sklearn機器學習庫,得出聚類結果進行詞頻統計。
本文目選用了情感分析作為參考大學生對于線上教學的評價標準之一。情感是文本所具有的屬性,這里我們使用了Python的SnowNLP 庫,可以粗略判斷文本的情感,得出的數值是該文本蘊含積極情感的概率。根據統計結果得出,疫情前都是一些主動去接觸在線學習的同學,所以對于在線學習的評價大多表現為積極情感,疫情到來之后,在線學習人數激增,對于在線學習消極評論的比例明顯提高,特別是在2020年2月大學開學并且普遍實行在線學習網課的第一個月,積極情緒文本占比最少。總體而言,2020 年的每月積極文本占比均小于 2019 年同期,但是隨著時間推移,線上教學的軟件、硬件條件發展以及學生們對于線上教學形式的熟悉,大家對于在線學習模式的評價逐漸升高。
3.結果分析與趨勢預測
根據對比疫情前后的文本類型可以發現,在疫情爆發大學生普遍參與線上學習后,關于“網課感受”的評論數量大大增加,同時因為疫情前大部分人是主動自愿使用網課學習,而疫情后是學校要求,所以2020年類型出現了關于“上課形式”的種類。在疫情前,大部分同學是出于自己的需要,例如“課程種類”中的“考研”等而主動選擇了線上學習,結合情緒分析結果可以發現主動選擇線上學習的這部分同學對于這種學習方式還是比較認可的。在疫情后,有些同學較線下教學更喜歡線上學習的方式,認為網課可以重復觀看,并且不受場地的限制,甚至對于有些人可以節省住宿的費用,上網課不用浪費路途中的時間,自由度高,可以休息得更好等優點。但是通過調查發現,線上教學仍存在許多問題。通過分析 2019 年至 2020年聚類后的 7 類文本,統計出每個類別的詞頻得到高頻詞,歸納總結其中的關鍵詞可以將 7 類文本歸類,得到相關信息如圖1所示。
圖1 2019年及2020年高關聯度關鍵詞
4總結
線上教學是運用互聯網、多媒體、人工智能等現代信息技術進行教與學互動的教育方式,是教育服務的重要組成部分。教育信息化已成為教育現代化的重要內涵和顯著特征,充分運用信息技術促進教育觀念更新、模式變革是信息化社會的時代要求。疫情給高校正常教學帶來了沖擊,也為提升線上教學質量提供了機遇,通過疫情前后學生線上教學的評價分析,根據學生體驗現狀可以發現線上教學并不能完全取代線下教學,不過經過技術的發展,學生對于線上教學的評價正逐漸增高。疫情爆發以來,得益于線上教學的實現與進步,線上與線下教學協同發力、融合互補的教學模式正逐步完善,學生對于線上學習認可程度將越來越高,這將是今后高校教學改革的重要任務和努力方向。
參考文獻:
[1]殷鳳敏.突發事件網絡輿情的引導策略[J].法制博覽.2020(03)
[2]吳婧鈺,張歡.大數據時代高校思政教育的推進對策探析[J].科教文匯.2021(05)
資助項目:國家大學生科技創新項目(202011488026,202011488025)作者唐青,衢州學院2019級物聯網工程專業本科學生。