余婉風 許夢 吳明濤



摘要:針對《應用統計學與R語言建模》實驗教學的實際情況,總結實驗環節中遇到的問題,提出了應用統計分析實驗應與教學和實際生活相結合、增加趣味性、降低理解難度的觀點。基于課程改革的要求,重新設計和優化實驗,以系統聚類為例,取得了較好的實驗效果。
關鍵詞:博思平臺;電子作業;系統聚類;R語言
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)21-0023-03
開放科學(資源服務)標識碼(OSID):
1 引言
《應用統計學與R語言建模》課程采用線上+線下結合的方式,在博思平臺發布作業,學生提交Word文檔形式的電子作業。由于部分學生數理知識薄弱,對應用統計學方法理解困難,不能靈活運用,且大二學生幾乎都缺乏數據分析經驗,所以博思平臺收集的電子作業經常出現集中抄襲等不誠信行為,參考博思平臺排查不誠信行為的功能和排查結果,本著讓實驗案例盡量貼近實際學習生活、增加趣味性的原則,將應用統計學方法應用到識別電子作業不誠信行為中,重新設計實驗。
2 實驗設計
2.1 實驗課題
實驗課題為“聚類分析在博思平臺電子作業不誠信行為識別中的應用”,以培養學生提高應用統計學應用水平和編程實踐能力為實驗目的,貼近學生的學習生活,鍛煉學生數據分析能力。
2.2 實驗工具
目前常用的統計分析軟件有Excel、SPSS、MATLAB、Python和R等,本課程實踐課以R/Rstudio軟件為實驗工具,在實驗過程中利用R語言免費、開源包含眾多統計分析方法內置函數和強大的繪圖功能等特點,將抽象的統計方法可視化,促進學生對統計方法的理解,提高學生學習效率[1]。
2.3 數據來源
從博思平臺教學班級中導出前面某一次全班電子作業壓縮包,在教師機利用紅蜘蛛傳輸給每一臺學生機。基于學生缺乏數據分析基礎,實驗開始之前引導學生從Word版本的電子作業中提取有用信息。首先,分析常見的作業不誠信行為形式,有些同學直接將其他同學的文檔拿過來改成自己的文件名提交,另外一些同學是在其他同學的文檔上做極小面積改動、提交,基于常見的兩種集中作弊形式,建議學生提取“文件內存大小”指標。接下來,由學生自己思考,提取更多有效指標,如“字符數”“段落數”“圖片數量”和“圖片大小”等,構成識別電子作業不誠信行為的評價體系,制成Excel表格。
針對課程教學過程中的教學和實驗案例,授課老師往往會提煉好數據發給學生,導致學生忽略掉收集數據的重要性。讓學生自己學會從電子作業Word文檔提取數據形成有效評價指標是這個實驗的特色和難點。90分鐘的實驗時間內要求學生在前45分鐘從全班57份電子作業中提取數據,這對于缺乏數據采集經驗的學生來說,是一個較大的工作量,所以本次實驗采取分組完成的形式,分成28組,表1是其中某一組學生收集的數據。
2.4 聚類方法之系統聚類
《應用統計學與R語言建模》課程學習兩種聚類方法:快速聚類(Kmeans聚類)和系統聚類,根據聚類對象又分成Q型聚類和R型聚類[2],R軟件及其相關軟件包提供了相應的聚類函數[3]。快速聚類不需要計算類別之間的距離,相對計算量較小,比系統聚類更適合大樣本數據。這里只有57個樣本,對樣本進行分類,這里采用Q型系統聚類,畫出譜系圖。
(1)將數據讀取成數據框,綁定數據即定義各變量,為了消除各變量數量級和量綱上的不同進行標準化處理,R語言函數scale();
(2)針對標準化之后的數據框,計算樣本兩兩之間的距離,R語言函數dist(數據框,method=“...”, ...),常用距離計算公式有歐式距離、Manhattan距離和Maximun距離等,分別用“euclidean”“maximum”“manhattan”表示;
(3)每個樣本當作一個類,即構造n個類,每個類只包含一個樣本;
(4)合并距離最近的兩個類為一個新類;
(5)計算新類與當前各類兩兩之間的距離,類間距常用計算方法有最短距離法、最長距離法和重心法等[4-5]。將間距最小的兩個類合并,重復(4)(5)操作,直到類個數為1;
最短距離法:兩個簇最近樣本之間的距離。如圖1所示,兩個簇內有多個樣本,利用樣本間距計算公式如歐式距離計算不同簇內樣本兩兩之間的距離,選擇最短距離作為簇間距。
最長距離法:兩個簇最遠樣本之間的距離。利用歐式距離計算不同簇內樣本兩兩之間的距離,選擇最長距離作為簇間距。
重心法:兩個簇中點之間的距離。如圖2所示計算兩個簇的重心(即該簇樣本的均值),利用樣本計算公式如歐式距離計算重心之間的距離作為簇間距。
R語言系統聚類函數hclust(dist(A),method="...", ...),其中A是標準化之后的數據框,method是系統聚類簇間距計算方法,最短距離法、最長距離法和重心法分別表示為single、complete和centroid。
(6)畫出聚類譜系圖。
(7)決定類的個數,確定每個類別中的樣本[6]。
2.5實驗結果
系統聚類譜系圖如圖3所示,評價體系包含六個指標,譜系圖可以將多維空間表達在二維空間中,非常直觀地表達出分類系統。左邊的“Height”權值即距離,距離越小,相似度越大,通過對比權值,定量分析樣本相似度大小,如學生方*雨和洪*成的權值很小即這兩個樣本距離很近,說明相似度很高,可以判定這兩位學生本次作業中存在不誠信行為。從譜系圖中明顯能夠看出大部分學生的電子作業互相之間的相似度很高,該次電子作業存在明顯的抄襲情況。
畫出譜系圖以后,參考博思平臺“團伙作案”判定結果,分11個類別,如圖4和表2所示。
根據分類結果,如果類里面只有一個樣本則該同學可以排除參與集中作弊的嫌疑,如毛*雨和黃*凡。最后,學生撰寫數據分析文檔作為本次實驗報告,利用紅蜘蛛提交,教師機收集到28份實驗報告。實驗過程中,學生注意力集中,所有學生都能參與進去,實驗完成以后,各小組之間分享實驗結果,氣氛歡快。
3 教學效果
從教務系統導出《應用統計學與R語言建模》實踐課程“平均成績”和“教學滿意度”兩個教學質量維度來評價過去四屆學生對本課程的滿意程度,如表3所示。
隨著課程改革實施過程中教學材料不斷積累、教學實驗不斷優化,教學滿意程度明顯上升,證實了課程改革的必要性。總結本次實踐課教學經驗,實驗報告應要求學生撰寫完整的數據分析報告;實驗案例盡量貼近學生的學習生活,增加趣味性;提高學生利用R語言實現應用統計方法的同時要強調原始數據的重要性,讓學生自主獲取數據,培養學生數據采集的能力。
4 結束語
通過上述系統聚類的具體實驗案例,充分將R語言引入到應用統計學的實踐教學中。設計貼合生活的案例,有助于學生對應用統計學理論知識的理解,激發學習興趣,教會學生如何使用應用統計分析方法,達到學以致用的教學效果。
參考文獻:
[1] 黎中彥,陳建超.R語言在《應用多元統計分析》教學中的應用[J].大眾科技,2020,22(9):120-123.
[2] 吳海建.多元統計的聚類分析方法及應用[J].河南省情與統計,2003(3):34-35.
[3] 賈俊平.統計學基于R應用[M].北京:機械工業出版社,2014.
[4] 王懷亮.R軟件在系統聚類分析中的應用[J].合作經濟與科技,2011(14):126-127.
[5] 安尼卡爾·艾斯卡爾,祖來克孜·米吉提.系統聚類法及其應用研究[J].價值工程,2019,38(17):254-258.
[6] 王斌會.多元統計分析及R語言建模[M].4版.廣州:暨南大學出版社,2016.
【通聯編輯:聞翔軍】