999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實驗教學研究方法(3):數據處理

2016-05-11 02:26:27
中國現代教育裝備 2016年6期
關鍵詞:數據挖掘實驗教學

艾 倫

?

實驗教學研究方法(3):數據處理

艾 倫

摘 要:從回收到的問卷中得到大量數據需要處理。說明了數據處理的目的和任務,并通過實例介紹了部分數據處理的方法。

關鍵詞:實驗教學;數據挖掘;異常檢測;預測建模;關聯分析

中小學實驗教學研究需要對問卷調查采集的數據進行處理,通過數據編碼、數據預處理、數據分析等過程從中發現規律性的東西。

圖1 本文邏輯思維導圖

一、數據類型

在數據處理之前需要對數據的類型進行分析,其目的是為了分別對待,使數據分析的結論有效。數據分類的依據主要從三方面考慮:數據的來源、數據的取值特點以及數據表征的原始意義。

1.數據來源

在中小學實驗教學問題研究的過程中,數據來源一般可分為兩大類型:一種是通過問卷回收而得到的數據(以下簡稱“問卷數據”),另一類是依靠互聯網而直接采集到的大數據(以下簡稱“大數據”),將要使用的數據挖掘技術針對這兩種數據的處理方式是不同的。

由于大數據存在稀疏性、重復性、時效性、不穩定性以及強噪聲性等特點,有時還會出現所謂維數災難(curse of dimensionality)等問題,所以處理起來需要考慮的因素很多,數據挖掘技術在解決這些問題時投入了相當大的力量。而問卷數據在生成之初就建立了科學的框架,嚴格控制變量,數據有效性遠大于大數據,所以與其對應的數據挖掘技術與大數據的數據挖掘有著本質的不同。例如,在大數據處理中被極為推崇的聚類分析,在問卷數據處理中幾乎不使用,因為問卷數據所表征的變量性質已經先天地被確定了下來,沒有必要再進行人工分類。本文主要討論問卷數據的處理問題。

2.數據數值

問卷數據的數值有3種類型。

(1)連續數據。這是最多、最常見的數據,例如學生的成績、教師的工齡、設備的金額等。

(2)離散數據。這更多的是因為對變量賦值而產生的數據,例如用里克特5級量化得到的數據,數值分布1,2,3,4,5分別對應選項值A,B,C,D,E。

(3)二值數據。表示是或否、對或錯、男或女等數據只有兩個取值1或0,稱為二值數據。

不同數值類型的數據在處理時不能夠隨意放在一起,不加區分。同時,對它們的處理方式也有不同,應給予充分注意。

3.數據表征

表征原是心理學概念,它是信息在頭腦中的呈現方式。在這里我們用它說明數據歸屬變量所代表那個原來事物的屬性,或者說事物屬性通過數據在系統中的呈現方式。問卷數據的數據表征有兩種類型。

(1)定性數據。這是一般不參與計算的數據,而只具有標識的特性,如學生編號ID就屬于這類數據。

(2)定量數據。用于參與計算的數據,采集來的大部分數據屬于此類,如學生動手實驗平均時間、教師學科、實驗室生均活動面積等。

二、數據處理的目的與任務

數據處理的目的主要是用于對事物的特性進行描述和對事物的發展進行預測。對于大數據,數據挖掘技術的主要任務有4個:關聯分析、預測建模、聚類分析以及異常檢測[1]。而對于問卷數據處理,除了聚類分析意義不大外,其他任務都保留了下來。

1.異常檢測

異常檢測任務在問卷數據處理中表現為消除數據的干擾噪聲。在問卷填寫和問卷回收編碼整理中,會出現個別不可避免的錯誤,這將產生一些無效數據,主要表現在:數據缺失、奇異數據、離群數據等。數據缺失是漏填或漏錄造成,奇異數據包括變量類型填寫錯誤或數字類型填寫錯誤(如:使用了全角字錄入),離群數據則是指數據類型無誤但數值大小明顯偏離正常值。這些無效數據在進行統計計算之前必須進行檢測和處理,對它們予以剔除,稱為數據的預處理。

2.預測建模

預測建模任務在問卷數據處理中就是預測被研究對象事物的發展趨勢。代表被研究對象事物發展的應該有一些產出變量和指標,例如,學生能力水平變量的變化可以反映出實驗教學的發展情況,實驗教學評價指標也可以反映其發展情況,建立預測模型對學生能力水平和實驗教學評價指標進行預測是數據處理的一項最為重要的任務。

3.關聯分析

關聯分析任務在問卷數據處理中就是找到變量之間相互影響的因素。發現變量之間的相關性強度是統計分析中最為常用的一個方法,對于實驗教學研究這種方法能夠幫助找到變量之間的因果關系,而得到決定產出變量的那個輸入變量是我們進行教育教學研究孜孜以求的任務。例如,若能夠通過關聯分析協助找到決定學生能力提高的那些因素,而且只要普遍地控制這些因素就可以達到預期目的,這件事就變得十分有意義。但是需要注意的是,關聯分析只能發現變量之間的相關關系,而絕非因果關系,如果需要得到因果關系還要做大量的后期研究工作。

三、數據處理方法實例

以下通過3個實例說明對問卷數據進行處理的過程,其中數據預處理屬于異常檢測,馬爾科夫分析屬于預測建模,多元線性回歸屬于關聯分析。

1.數據預處理

在數據處理初始階段,應對數據中那些不合理的異常數值進行剔除,常用的方法是數據頻次分析和分布圖像分析。圖2是根據采集到國內某地區統計的1 200個小學實驗室個數得到的分布直方圖,這些數據未經過預處理。運用SPSS軟件得到此圖的命令為:在“Graphs”菜單命令中選擇“Histogram”選項。

圖2 未做預處理數據的分布圖

由圖2可見,樣本數(學校個數)N=1200,學校具有實驗室數的平均值(Mean)為5.8,標準差(Std.Dev) 為7.25。同時還可以從分布圖上看出,數據存在著大量的離群數值,而且最大離群值已經超過220(即一個小學有200多個實驗室已經非常不可信了)。進一步,用SPSS的頻次分析功能(“Analyze”→“Descriptive Statistics”→“Frequencies”)可得數據頻次統計分析表(如圖3所示)。由圖3分析表可見,具有實驗室數在20個以內的學校已經占全部學校總數的99.3%,具有20個以上實驗室數的學校只有8個,其中有59個、77個、221個實驗室的學校各有1個。顯然應將這3個學校的數據剔除掉。進一步根據實際情況分析,還可將具有30個以上實驗室學校的數據剔除掉。

圖3 未做預處理數據的頻次統計輸出

剔除離群數據,可以借助SPSS軟件完成(“Data”→“Select Cases”→“If Condition”→“if”→“選擇篩選條件”→“Continue”→“Unselected Cases Are-Deleted”)。上述數據經篩選剔除后再進行頻次統計分析和輸出數據分布直方圖(如圖4所示)。

圖4 做過預處理數據的分布圖

2.馬爾科夫分析

馬爾可夫(Markov)分析又稱為蒙特-卡羅(Mote-Carlo)法,是用于分析隨機事件發展趨勢的統計測量工具。這里我們根據國內某地區1 675所中小學校2006年和2007年實驗室標準化配備的統計數據,利用馬爾科夫分析對其到2010年達標的情況進行預測。表1是各校2006年和2007年達標評估得分學校數量遷移情況。評估分數被分為5個分數段(60分以上為達標),第2行第2列數據38表示在2006年得分為30分以下,而在2007年得分仍然為30分以下的學校共有38個;第2行第3列數據22表示在2006年得分為30分以下,而在2007年得分上升為30~40分之間的學校有22個;第3行第2列數據6表示在2006年得分為30~40分之間,而在2007年得分下降為30分以下的學校有6個;其他數據以此類推。

表1 2006~2007年達標學校數量遷移表

將表1中的數據進行行歸一化處理后得到表2所示的歸一化遷移表。所謂行歸一化,就是計算出每個數字在本行全部數字之和中所占比例,使每行比例數字之和等于1。

表2 歸一化后的2006~2007年達標學校數量遷移表

由歸一化后的2006~2007年達標學校數量遷移表可得遷移矩陣A,因為該矩陣的每行之和為1,所以被稱為概率矩陣。概率矩陣的特點是其n次冪仍然是一個概率矩陣。遷移矩陣A為:

從2006年到2010年一共經歷了4年。根據馬爾可夫分析的方法,計算出遷移矩陣A的4次冪矩陣A[4](即A[4]= A?A?A?A),然后對A[4]提供的數據進行分析,即可預測達標情況。使用MATLab軟件計算概率矩陣A的4次冪矩陣如下:

A[4]矩陣中的第5列的5個元素表達出的信息為:0.088 2表示在2006年30分以下的學校到2010年達標(60分以上)的概率為0.088 2;0.184 4表示在2006 年30~40分的學校到2010年達標的概率為0.184 4;0.344 1表示在2006年40~50分的學校到2010年達標的概率為0.344 1;0.569 9表示在2006年50~60分的學校到2010年達標的概率為0.569 9;0.773 5表示在2006年50~60分的學校到2010年達標的概率為0.773 5。

由表2可見,2006年30分以下、30~40分、40~50分、50~60分、60分以上5個分數段學校的數量分別為69,295,665,542,104;學校總數為1 675。于是可以計算出各分數段的學校比例分別為:0.041 2、0.176 1、0.397 0、0.323 6、0.062 1(即:69/1675,295/1675,665/1675,542/1675,104/1675)。最后計算出2010年全部學校達標(60分以上)的平均概率為:

這個數據被解釋為:按現行的實驗室配備標準和實驗室達標評價指標體系進行評估,到2010年應有40.52%的學校可以達標。

3.多元線性回歸分析

表3為某市7個區縣(DMU1~DMU7)初中校圖書的數量(單位為冊)與儀器設備經費投入(單位為萬元)的情況,同時列出了逐年學生中考的平均成績。對這些數據進行的回歸分析是希望查看學生學業水平與哪些投入因素相關。

表3 初中校投入與產出情況

分析工具使用SPSS。在“Analyze”菜單命令中選擇“Regression”的“Linear”選項,將中考成績(Y)設為因變量,而將理科設備(X1)、文科設備(X2)、藝術設備(X3)、健康設備(X4)、教育技術設備(X5)、圖書資料(X6)設為自變量,回歸方法“Method”選擇“Backward”(反向剔除法),最后得到如表4所示的計算結果。

表4 線性回歸分析結果

表中數據顯示出:第一次回歸計算保留了全部6個自變量(X1~X6),其中因變量Y與自變量X6的相關性很差(相關系數為-1.808×10-5)。第二次回歸計算剔除了X6,但顯示出X1與Y的相關性也較差(相關系數為8.806×10-3)。第三次回歸計算剔除了X1,只保留了X2~X5。最后得到的多元線性回歸方程為:Y = 0.117X2 + 0.108X3 - 0.310X4 + 0.01442X5。方程表明,首先學生學業水平(Y)與學校圖書資料(X6)、理科設備(X1)的配備和投入基本無關,與教育技術設備(X5)投入呈現弱相關性;同時反映出學生學業水平與健康設備投入(X4)之間具有負相關性,即投入越多對學業水平提高越是不利;而學生學業水平僅與文科設備(X2)、藝術設備(X3)之間具有稍高一些的相關性。

需要對此進行說明的是中考成績只反映學生顯性知識獲得的情況,而學生能力水平的提高或許會與學校實驗儀器設備的投入具有直接關系。另外,圖書對一個人的影響是遲效的,即會在長期大量閱讀后才能發生巨大作用,短期效果并不明顯,所以在此例中對圖書的分析也容易理解。應該指出,這些也正是我們將要進行重點研究的課題。

參考文獻

[1] [美]陳封能,斯坦巴赫,庫馬爾.據挖掘導論:完整版[M].范明,范宏建,等譯.北京:人民郵電出版社,2011:4.

作者信息

艾倫,教授,本刊特約撰稿人。首都師范大學,100048

Research Method of Experimental Teaching (3):Data Processing

Ai Lun

Abstract:A large amount of data is needed to be processed from the recovered questionnaires. Describes the purpose and task of data processing, and introduces some methods of data processing through examples.

Key words:experimental teaching; data mining; anomaly detection; prediction model; correlation analysis

猜你喜歡
數據挖掘實驗教學
關于基礎教育階段實驗教學的幾點看法
科學與社會(2022年1期)2022-04-19 11:38:42
探討人工智能與數據挖掘發展趨勢
小議初中化學演示實驗教學
甘肅教育(2020年4期)2020-09-11 07:42:36
電容器的實驗教學
物理之友(2020年12期)2020-07-16 05:39:20
對初中化學實驗教學的認識和體會
甘肅教育(2020年8期)2020-06-11 06:10:04
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
幾何體在高中數學實驗教學中的應用
數據挖掘技術在中醫診療數據分析中的應用
基于云計算的計算機實驗教學探討
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产一二视频| 台湾AV国片精品女同性| 一区二区三区四区日韩| 黄色网站不卡无码| 在线一级毛片| 国产午夜福利亚洲第一| 亚洲天堂视频在线播放| 9966国产精品视频| yjizz视频最新网站在线| 国产99免费视频| 91亚洲免费视频| 伊人久久大香线蕉aⅴ色| 69综合网| 波多野结衣亚洲一区| 自慰网址在线观看| 欧美精品综合视频一区二区| 国产精品亚洲一区二区三区z| 亚洲国产精品日韩av专区| 高清国产va日韩亚洲免费午夜电影| 国产91熟女高潮一区二区| 亚洲男人的天堂久久香蕉 | 五月天天天色| 国产成人三级| 久久久久亚洲精品无码网站| 国国产a国产片免费麻豆| 欧美曰批视频免费播放免费| 亚洲AV一二三区无码AV蜜桃| 国产精品手机在线播放| 夜夜操狠狠操| 欧亚日韩Av| 精品91自产拍在线| 91亚洲精品国产自在现线| 无码AV日韩一二三区| 国产激爽大片高清在线观看| 美女国产在线| 亚洲精品成人片在线观看| 2020国产精品视频| 波多野结衣一区二区三区四区| 国产精品欧美在线观看| 亚洲大学生视频在线播放| 亚洲第一色网站| 在线欧美一区| 毛片手机在线看| 久久精品国产91久久综合麻豆自制| 亚洲精品波多野结衣| 一级毛片免费不卡在线| 欧美全免费aaaaaa特黄在线| 国产成人永久免费视频| 午夜人性色福利无码视频在线观看| 伊人久久婷婷五月综合97色| 成人久久18免费网站| 亚洲AⅤ综合在线欧美一区| 国产成人精品三级| 国产免费人成视频网| 最新痴汉在线无码AV| 久久久久久久久18禁秘| 国产日韩av在线播放| 亚洲一区二区日韩欧美gif| 18禁黄无遮挡免费动漫网站| 国产视频只有无码精品| 亚洲天堂伊人| 国产极品美女在线播放| 色婷婷综合在线| 精品亚洲国产成人AV| 在线观看免费黄色网址| 亚洲永久免费网站| 亚洲系列中文字幕一区二区| 中文字幕中文字字幕码一二区| 国产成人亚洲无吗淙合青草| 免费在线a视频| 国产麻豆va精品视频| 国产91特黄特色A级毛片| 国产在线日本| 日本高清有码人妻| 青青草原国产av福利网站| www亚洲精品| 久久精品亚洲中文字幕乱码| 精品人妻AV区| 久久国产精品影院| 国产在线精品99一区不卡| 亚洲男人的天堂视频| 久久亚洲欧美综合|