999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于線性回歸算法的在線學習行為分析

2022-08-02 01:44:56郭玲玲范思萌蘇冬娜
計算機技術與發展 2022年7期
關鍵詞:特征分析課程

郭玲玲,范思萌,王 梅,蘇冬娜

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

0 引 言

網絡教育是通過互聯網途徑傳播教學內容的一種方法。在“網絡+教育”的推動下,網絡教育得到了迅速發展,各種教育資源在該平臺上不斷完善。這些平臺上匯聚了大量的資源,學習者和教育從業人士,形成了平臺的大數據[1]。這些大數據由學習者和教育人士在教學過程中的各種動態數據組成。這就促使在線分析成為教育領域的研究重點之一,它根據獲取到的學生在線平臺產生的動態數據[2],利用數據分析算法對學生實際的學習行為進行分析,根據分析結果達到提升教師教學水平與學生學習能力的目的[3]。

選取該校計算機科學與技術專業學生及相關課程為研究對象,從在線學習平臺的學生學習行為分析著手,跟蹤課程學習過程,利用機器語言中的算法對學生的學習行為進行分析,以便從中挖掘學習行為與學習結果之間的映射關系,從而使得教師能夠更客觀更科學地了解到影響學生成績的因素[4]。教師還可以根據每個學生的學習行為來分析學生學習特點,采取針對性教學,根據不同的情況給予不同的建議,有效改善學生學習結果。

1 理論基礎

1.1 在線學習行為

學習分為外顯學習和內隱學習。在傳統教學中,學習者在課堂環境中與學習者、教師和教學資源互動的行為稱為學習行為。這樣的學習行為只能通過教師的觀察、視頻存儲和問卷調查來記錄。但是這些方式不能每時每刻,十分全面地記錄學生在課堂上的學習行為,會導致對學習行為分析造成一定的困難。始終缺少一手的實際數據,且沒構成系統的理論分析體系是對于內隱的學習行為潛能的研討的現狀。由于在線課程的發展,在線學習應運而生。在線學習行為一般包括:在線學習時長、學生測試成績以及學習者對教學視頻、簽到、教學安排等活動的點擊行為。更多的是憑借學生自己的喜好自主進行選擇,自然地呈現學習者的一些隱性學習行為[5]。因此,對在線學習行為的研究變得越來越有意義,研究對象也逐漸從離線學習行為轉向了在線學習行為。

1.2 機器學習

機器學習的目的在于通過算法讓機器從海量歷史數據中學習的規律,主動發現模式并用于推斷未來的行為,是通過經歷或數據來改良算法的研究[6]。在學習分析中,機器學習的作用在于數據挖掘和數據解釋,致力于完成傳統教育無法完成的任務。機器學習包括:無監督學習、監督學習、半監督學習等[7]。

1.2.1 無監督學習

無監督學習旨在挖掘整體數據集內部含有的隱含內容和規律,從而建立相應的模型實現對樣本的剖析,主要針對的對象是沒有標簽的未標記數據集。

常見的無監督學習算法:聚類和降維。

(1)聚類:將數據分為多類的過程是根據數據的“相似性”。三種聚類算法比較如表1所示。

表1 三種聚類算法比較

經過比較,該文使用K-means聚類算法,優點在于算法較簡易;收斂速度快;便于理解;當處理海量數據時有較高的可伸縮性;是很好的聚類算法即使數據集呈凸形和球形分布[8]。

(2)降維:能夠確保含有象征性的數據的特征或分布,同時將高維數據轉化為低維數據。它通常可以用來可視化數據或中間過程,減少數據數量,提高其他機器學習算法的效率。常用的降維方法有:主成分分析(PCA)、局部線性嵌入(LLE)、拉普拉斯特征映射[8]。

由于PCA降維具有計算方法簡單,便于實現;使用方差權衡信息量,不受數據集之外的要素影響等優勢,因此,這里使用PCA降維方法。

1.2.2 監督學習

監督學習的訓練集含有輸入和輸出,輸入的是模型中的特征,輸出的是目標。從已有的訓練數據集中學習出來特定的函數(模型參數),當新數據到來時,能夠依據該函數推測結果。監督學習常見的是分類問題,根據模型將一切輸入映射為相應的輸出,依據已有的訓練樣本得到一個最優模型,完成分類的目的根據的是對輸出進行判斷,模型應具備對隨機輸入進行分類的能力。

普遍的監督學習算法有統計分類和回歸分析兩種。統計分類的目標變量是標稱型的,而回歸分析的目標變量是連續數值型的。因此對于在線學習行為分析采用回歸分析進行數據分析[9]。回歸分析常用的算法有線性回歸和邏輯回歸。線性回歸具有建模速度快,可以根據系數給出每個變量的理解和解釋;對異常值很敏感的優點,因此采用線性回歸進行分析數據。

2 基于K-means聚類和線性回歸建模

2.1 K-means聚類

K-means聚類算法先隨機設定k個聚類中心,根據距離把樣本點劃分到所屬類別,依次計算每個樣本點到每個聚類中心的距離,并且選取最小距離,對每個樣本點進行類別劃分。之后在k個劃分的類別中求出每個類別的質心位置,以該位置作為新的聚類中心,不停地迭代,直到聚類中心不再發生變化為止[10]。K-means聚類的具體流程如圖1所示。

圖1 K-means聚類具體流程示意圖

2.2 PCA降維

在K-means聚類分析中,會遇到特征維度比樣本數量多得多的狀況,導致效果不一定好。一是由于冗余特征可能會導致一些噪音,影響計算的結果;二是因為無關的特征會造成計算量加大,消耗時間和資源。因而要對數據進行降維,縮小特征空間的維度,抽取子空間的數據來最優地表明實驗所需的數據,從而減少參數預估的誤差。

樣本經過皮爾森系數篩選以及一些手動篩選剩余12個特征,特征維度較大,采取PCA降維對樣本中的特征進行降維。具體運用機器學習sk-learn模塊中的PCA函數來實現對特征進行降維。在聚類中刪除了相關性弱的特征,僅用到6個特征;但在畫圖時,為了便于觀察使用了全部特征來進行PCA降維,降至2維。

2.3 線性回歸

建立模型之后,可以將問題轉換為線性回歸問題。由于線性回歸算法簡單,易于實現,這里選擇線性回歸算法分析學生不同的行為特征和成績的關系。實驗中在對聚類結果的每個簇內特征的均值和方差進行分析后,發現簇內方差較小,均值差距明顯;但由于數據規模較小,且較多數據方差較小,很難使用多變量非線性回歸的方法處理,因此,選用單變量回歸方法,分析單一特征對于成績的關系,具體分析作業得分,觀看視頻時長,課程測試得分,訪問數得分,任務點完成百分比,期末前綜合成績等對最終成績的影響關系。

在分析單一特征對于成績的關系時,對聚類后的6個點進行回歸作圖和折線作圖。在回歸作圖中通過觀察最小二乘回歸模型的斜率以及陰影部分的面積(表示斜率的可能范圍)可以知道該特征對成績的影響趨勢;在折線作圖中,可以根據波動情況知道該特征對成績影響的穩定性。

3 實驗詳細設計與實現

針對該校計科16級同學的《操作系統》課程數據,通過K-means聚類算法和線性回歸算法,使用Python語言進行編寫,實現學生在線學習行為數據分析[11],主要功能與技術模塊包括數據預處理、數據聚類分析、學習成績與特征的線性回歸分析[12],如圖2所示。

圖2 主要功能模塊示意圖

3.1 數據預處理

(1)對采集的數據進行清洗。

將現有的學習數據通過刪除、填充、重命名轉換成算法可以分析的數據格式。

例如:學習者觀看視頻情況中存在學習者觀看視頻時長為空值,將這些空值以該列均值補全;有些學生因特殊情況退出本次課程學習,導致接下來學習得分全為空值,將這些數據進行刪除。

(2)進行特征篩選。

①具有共線性的特征只選擇其中一個,關鍵代碼如下:

def delete_correlation(df, threshold=0.99):

check_df = df.copy()

if "學號賬號" in df.columns:

check_df = df.drop(["學號賬號"], axis=1).copy()

corr=np.abs(check_df.corr().values) > threshold

to_delete=[]

for i in range(corr.shape[0]):

if np.sum(corr[i, i+1:]) > 1:

to_delete.append(check_df.columns[i])

cols=[col for col in df.columns if col not in to_delete]

return df[cols]

②標準差小于0.5的刪除,關鍵代碼如下:

def std_analysis(df, threshold=0.5):

std_filter = ['學號賬號']

process_col = [col for col in df.columns if col not in std_filter]

for col in process_col:

if df[col].std() > threshold:

std_filter.append(col)

return df[std_filter]

③計算皮爾森系數,系數高于0.5的特征保留,關鍵代碼如下:

def corr_analyse(df, score_col, thres=0.5):

strong_feature = []

corr_dict = {}

for col in df.columns:

if col not in ['學號賬號', 'UID', '表6-綜合成績', '表5-綜合成績']:

corr = pearson(df, col, score_col)

if corr>thres:

strong_feature.append(col)

corr_dict[col] = corr

return strong_feature, corr_dict

經過皮爾森算法的篩選,學習行為特征包括:期末前綜合測試成績、五級制等級(ABCDE)、考試得分、課程視頻得分、課程視頻進度、課程測驗得分、視頻觀看時間、任務完成百分比等[13]。

這里以課程考試統計情況表為例說明一下統計情況,如表2所示。

表2 課程考試統計情況

篩選過后的特征皮爾森系數如表3所示。

表3 特征皮爾森系數統計

3.2 實驗結果

(1)聚類分析。

聚類時,僅使用了每個子表的總計特征,其中相關性弱的特征被刪除,用到的特征包括:作業得分、觀看視頻時長、課程測試得分、任務點完成百分比、期末前綜合成績等。畫圖時,使用全部特征進行PCA降維,降到2維,進行描點。

①PCA降維結果如圖3所示。

圖3 降維結果展示圖

聚類時通過PCA降維方法將聚類使用的特征映射到x軸,y軸為最后的得分,并且將不同的簇表示成不同的顏色。

②聚類分析結果如圖4所示。

圖4 聚類結果可視化

通過畫圖可以看出使用篩選后的特征進行聚類之后,在成績層面有很好的區分度[14]。聚類結果的每個簇內,對統計特征的均值和方差進行分析可以得出,簇內方差較小,均值差距明顯,聚類效果合理[15-16]。因此統計每個簇內的特征均值,如表4所示。

表4 簇內特征均值統計

結合統計表與可視化可以看出,對于視頻觀看時長、訪問數、任務點完成百分比和期末前綜合成績四個特征,獲得的經驗越高,最終成績越高;而對于作業得分和課程測試兩個特征,結合6個聚類群體來看,對最終成績影響不大。

(2)回歸分析。

以“任務點完成百分比”特征為例進行說明。圖5統計六個簇的簇內平均任務點完成百分比,上子圖為回歸分析圖,下子圖為折線圖。

從圖5中可以看出:

圖5 任務完成百分比-最終成績回歸分析

①上子圖斜率明顯,且陰影面積較窄,可得出任務完成百分比得分與最終成績正相關線性關系明顯;

②下子圖波動較小,且有明顯上升趨勢,與上子圖得出相同結論。

3.3 實驗結果分析

通過對實驗結果可視化進行的分析得出了各個特征對于最終成績的影響程度,基于影響程度響學生以及教師給出以下建議。

(1)從學生的角度來看:

①從影響比較大的因素(觀看視頻時長、平臺訪問數、任務完成百分比、期末前綜合測試)觀察:其中影響最大的是任務完成百分比,其次是視頻觀看時長,然后是訪問數,最后是期末前綜合測試。應多花些時間去完成老師布置的任務;對于老師在平臺上發布的視頻應該及時觀看,并且掌握其中的知識點;應多次進入在線教學平臺去鞏固自己的知識,預習或復習課程知識點;對于期末前綜合測試應給予一定的重視積極復習。

②從影響比較小的因素(作業得分和課程測驗得分)觀察:只要認真對待課后作業和課程測驗即可,不必在上邊浪費太多時間。

(2)從教師的角度來看:

①從影響比較大的因素(觀看視頻時長、平臺訪問數、任務完成百分比、期末前綜合測試)觀察:首先發布任務之后應該督促學生及時完成,并且給予一定的指導;多發布一些與課程相關的視頻,以便于學生觀看學習。

②從影響比較小的因素(作業得分和課程測驗得分)觀察:應該盡量減少布置作業的數量,進行適當的課程測驗即可。

4 結束語

通過使用機器學習算法中的K-means聚類算法來對在線課程教學數據進行分析。實驗數據來源于東北石油大學16級計算機科學與技術學生使用在線平臺學習《操作系統》產生的數據,對在線教學數據的分析取得了階段性的成果。具體完成的研究工作如下:

(1)對學習者進行聚類建模。

使用該模型能根據學生的學習行為對學習者進行聚類。教師可根據聚類結果給予學生更為優質更為科學的學習資源,對不同類型的學生給予不同的指導建議。

(2)對學生學習行為進行分析。

在線平臺給予學生的在線活動很多,導致衡量學生學習成效的考慮因素很多,對學生最終學習成績影響因素進行篩選。從在線平臺上學生學習行為中選取對學生最終成績產生較大的行為,并確定篩選出來的影響因素的重要程度。給予教師指導意見,以便于教學幫助學生提高學習能力。

猜你喜歡
特征分析課程
數字圖像處理課程混合式教學改革與探索
隱蔽失效適航要求符合性驗證分析
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
如何表達“特征”
為什么要學習HAA課程?
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲综合极品香蕉久久网| 青青草一区| 欧美啪啪一区| 色香蕉网站| 手机永久AV在线播放| 91精品啪在线观看国产91| 正在播放久久| 国产sm重味一区二区三区| 亚洲视频黄| 欧美成人精品在线| 亚洲无线一二三四区男男| 亚洲av日韩av制服丝袜| 亚洲天堂伊人| 国产91线观看| 亚洲精品手机在线| 狠狠干综合| 亚洲丝袜第一页| 国模视频一区二区| 日本三级精品| 国产午夜不卡| 午夜天堂视频| 在线观看欧美国产| 国产剧情无码视频在线观看| 青青青国产视频| 亚洲伦理一区二区| 91麻豆精品国产高清在线| 欧美日韩免费| 伊人精品视频免费在线| 亚洲人成网站在线观看播放不卡| 精品伊人久久久久7777人| 国产精品视频猛进猛出| 91日本在线观看亚洲精品| 日本少妇又色又爽又高潮| 亚洲Aⅴ无码专区在线观看q| 久久国产亚洲偷自| 欧美黄色a| 欧美亚洲国产一区| 日日噜噜夜夜狠狠视频| 1769国产精品视频免费观看| 久久 午夜福利 张柏芝| 国产成人久视频免费| 在线观看无码av免费不卡网站| a级毛片一区二区免费视频| 色欲色欲久久综合网| 成人国产小视频| 国产精品午夜电影| 亚洲 成人国产| 亚洲精品成人7777在线观看| 92午夜福利影院一区二区三区| 在线播放91| 国产精品漂亮美女在线观看| 999福利激情视频| 日本高清免费一本在线观看| 在线网站18禁| 色网站在线免费观看| 婷婷激情五月网| 免费人成网站在线观看欧美| 91精品国产丝袜| 亚洲an第二区国产精品| 国产精品视频观看裸模| 99人体免费视频| 91亚洲免费| 九九视频免费看| 国内精品一区二区在线观看 | 亚洲91在线精品| 夜夜高潮夜夜爽国产伦精品| 国产欧美中文字幕| 青青草原国产免费av观看| 国产精品综合色区在线观看| 国产99精品久久| 97国产在线播放| 91精品亚洲| 午夜色综合| 亚洲看片网| 亚洲国产精品一区二区第一页免 | 日韩亚洲高清一区二区| 伊人成人在线| 成人永久免费A∨一级在线播放| 国产精品伦视频观看免费| 国产激情国语对白普通话| 精品国产成人av免费| 女人毛片a级大学毛片免费|