艾 倫
?
實驗教學研究方法(3):數據處理
艾 倫
摘 要:從回收到的問卷中得到大量數據需要處理。說明了數據處理的目的和任務,并通過實例介紹了部分數據處理的方法。
關鍵詞:實驗教學;數據挖掘;異常檢測;預測建模;關聯分析
中小學實驗教學研究需要對問卷調查采集的數據進行處理,通過數據編碼、數據預處理、數據分析等過程從中發現規律性的東西。

圖1 本文邏輯思維導圖
在數據處理之前需要對數據的類型進行分析,其目的是為了分別對待,使數據分析的結論有效。數據分類的依據主要從三方面考慮:數據的來源、數據的取值特點以及數據表征的原始意義。
1.數據來源
在中小學實驗教學問題研究的過程中,數據來源一般可分為兩大類型:一種是通過問卷回收而得到的數據(以下簡稱“問卷數據”),另一類是依靠互聯網而直接采集到的大數據(以下簡稱“大數據”),將要使用的數據挖掘技術針對這兩種數據的處理方式是不同的。
由于大數據存在稀疏性、重復性、時效性、不穩定性以及強噪聲性等特點,有時還會出現所謂維數災難(curse of dimensionality)等問題,所以處理起來需要考慮的因素很多,數據挖掘技術在解決這些問題時投入了相當大的力量。而問卷數據在生成之初就建立了科學的框架,嚴格控制變量,數據有效性遠大于大數據,所以與其對應的數據挖掘技術與大數據的數據挖掘有著本質的不同。例如,在大數據處理中被極為推崇的聚類分析,在問卷數據處理中幾乎不使用,因為問卷數據所表征的變量性質已經先天地被確定了下來,沒有必要再進行人工分類。本文主要討論問卷數據的處理問題。
2.數據數值
問卷數據的數值有3種類型。
(1)連續數據。這是最多、最常見的數據,例如學生的成績、教師的工齡、設備的金額等。
(2)離散數據。這更多的是因為對變量賦值而產生的數據,例如用里克特5級量化得到的數據,數值分布1,2,3,4,5分別對應選項值A,B,C,D,E。
(3)二值數據。表示是或否、對或錯、男或女等數據只有兩個取值1或0,稱為二值數據。
不同數值類型的數據在處理時不能夠隨意放在一起,不加區分。同時,對它們的處理方式也有不同,應給予充分注意。
3.數據表征
表征原是心理學概念,它是信息在頭腦中的呈現方式。在這里我們用它說明數據歸屬變量所代表那個原來事物的屬性,或者說事物屬性通過數據在系統中的呈現方式。問卷數據的數據表征有兩種類型。
(1)定性數據。這是一般不參與計算的數據,而只具有標識的特性,如學生編號ID就屬于這類數據。
(2)定量數據。用于參與計算的數據,采集來的大部分數據屬于此類,如學生動手實驗平均時間、教師學科、實驗室生均活動面積等。
數據處理的目的主要是用于對事物的特性進行描述和對事物的發展進行預測。對于大數據,數據挖掘技術的主要任務有4個:關聯分析、預測建模、聚類分析以及異常檢測[1]。而對于問卷數據處理,除了聚類分析意義不大外,其他任務都保留了下來。
1.異常檢測
異常檢測任務在問卷數據處理中表現為消除數據的干擾噪聲。在問卷填寫和問卷回收編碼整理中,會出現個別不可避免的錯誤,這將產生一些無效數據,主要表現在:數據缺失、奇異數據、離群數據等。數據缺失是漏填或漏錄造成,奇異數據包括變量類型填寫錯誤或數字類型填寫錯誤(如:使用了全角字錄入),離群數據則是指數據類型無誤但數值大小明顯偏離正常值。這些無效數據在進行統計計算之前必須進行檢測和處理,對它們予以剔除,稱為數據的預處理。
2.預測建模
預測建模任務在問卷數據處理中就是預測被研究對象事物的發展趨勢。代表被研究對象事物發展的應該有一些產出變量和指標,例如,學生能力水平變量的變化可以反映出實驗教學的發展情況,實驗教學評價指標也可以反映其發展情況,建立預測模型對學生能力水平和實驗教學評價指標進行預測是數據處理的一項最為重要的任務。
3.關聯分析
關聯分析任務在問卷數據處理中就是找到變量之間相互影響的因素。發現變量之間的相關性強度是統計分析中最為常用的一個方法,對于實驗教學研究這種方法能夠幫助找到變量之間的因果關系,而得到決定產出變量的那個輸入變量是我們進行教育教學研究孜孜以求的任務。例如,若能夠通過關聯分析協助找到決定學生能力提高的那些因素,而且只要普遍地控制這些因素就可以達到預期目的,這件事就變得十分有意義。但是需要注意的是,關聯分析只能發現變量之間的相關關系,而絕非因果關系,如果需要得到因果關系還要做大量的后期研究工作。
以下通過3個實例說明對問卷數據進行處理的過程,其中數據預處理屬于異常檢測,馬爾科夫分析屬于預測建模,多元線性回歸屬于關聯分析。
1.數據預處理
在數據處理初始階段,應對數據中那些不合理的異常數值進行剔除,常用的方法是數據頻次分析和分布圖像分析。圖2是根據采集到國內某地區統計的1 200個小學實驗室個數得到的分布直方圖,這些數據未經過預處理。運用SPSS軟件得到此圖的命令為:在“Graphs”菜單命令中選擇“Histogram”選項。

圖2 未做預處理數據的分布圖
由圖2可見,樣本數(學校個數)N=1200,學校具有實驗室數的平均值(Mean)為5.8,標準差(Std.Dev) 為7.25。同時還可以從分布圖上看出,數據存在著大量的離群數值,而且最大離群值已經超過220(即一個小學有200多個實驗室已經非常不可信了)。進一步,用SPSS的頻次分析功能(“Analyze”→“Descriptive Statistics”→“Frequencies”)可得數據頻次統計分析表(如圖3所示)。由圖3分析表可見,具有實驗室數在20個以內的學校已經占全部學校總數的99.3%,具有20個以上實驗室數的學校只有8個,其中有59個、77個、221個實驗室的學校各有1個。顯然應將這3個學校的數據剔除掉。進一步根據實際情況分析,還可將具有30個以上實驗室學校的數據剔除掉。

圖3 未做預處理數據的頻次統計輸出
剔除離群數據,可以借助SPSS軟件完成(“Data”→“Select Cases”→“If Condition”→“if”→“選擇篩選條件”→“Continue”→“Unselected Cases Are-Deleted”)。上述數據經篩選剔除后再進行頻次統計分析和輸出數據分布直方圖(如圖4所示)。

圖4 做過預處理數據的分布圖
2.馬爾科夫分析
馬爾可夫(Markov)分析又稱為蒙特-卡羅(Mote-Carlo)法,是用于分析隨機事件發展趨勢的統計測量工具。這里我們根據國內某地區1 675所中小學校2006年和2007年實驗室標準化配備的統計數據,利用馬爾科夫分析對其到2010年達標的情況進行預測。表1是各校2006年和2007年達標評估得分學校數量遷移情況。評估分數被分為5個分數段(60分以上為達標),第2行第2列數據38表示在2006年得分為30分以下,而在2007年得分仍然為30分以下的學校共有38個;第2行第3列數據22表示在2006年得分為30分以下,而在2007年得分上升為30~40分之間的學校有22個;第3行第2列數據6表示在2006年得分為30~40分之間,而在2007年得分下降為30分以下的學校有6個;其他數據以此類推。

表1 2006~2007年達標學校數量遷移表
將表1中的數據進行行歸一化處理后得到表2所示的歸一化遷移表。所謂行歸一化,就是計算出每個數字在本行全部數字之和中所占比例,使每行比例數字之和等于1。

表2 歸一化后的2006~2007年達標學校數量遷移表
由歸一化后的2006~2007年達標學校數量遷移表可得遷移矩陣A,因為該矩陣的每行之和為1,所以被稱為概率矩陣。概率矩陣的特點是其n次冪仍然是一個概率矩陣。遷移矩陣A為:

從2006年到2010年一共經歷了4年。根據馬爾可夫分析的方法,計算出遷移矩陣A的4次冪矩陣A[4](即A[4]= A?A?A?A),然后對A[4]提供的數據進行分析,即可預測達標情況。使用MATLab軟件計算概率矩陣A的4次冪矩陣如下:

A[4]矩陣中的第5列的5個元素表達出的信息為:0.088 2表示在2006年30分以下的學校到2010年達標(60分以上)的概率為0.088 2;0.184 4表示在2006 年30~40分的學校到2010年達標的概率為0.184 4;0.344 1表示在2006年40~50分的學校到2010年達標的概率為0.344 1;0.569 9表示在2006年50~60分的學校到2010年達標的概率為0.569 9;0.773 5表示在2006年50~60分的學校到2010年達標的概率為0.773 5。
由表2可見,2006年30分以下、30~40分、40~50分、50~60分、60分以上5個分數段學校的數量分別為69,295,665,542,104;學校總數為1 675。于是可以計算出各分數段的學校比例分別為:0.041 2、0.176 1、0.397 0、0.323 6、0.062 1(即:69/1675,295/1675,665/1675,542/1675,104/1675)。最后計算出2010年全部學校達標(60分以上)的平均概率為:

這個數據被解釋為:按現行的實驗室配備標準和實驗室達標評價指標體系進行評估,到2010年應有40.52%的學校可以達標。
3.多元線性回歸分析
表3為某市7個區縣(DMU1~DMU7)初中校圖書的數量(單位為冊)與儀器設備經費投入(單位為萬元)的情況,同時列出了逐年學生中考的平均成績。對這些數據進行的回歸分析是希望查看學生學業水平與哪些投入因素相關。

表3 初中校投入與產出情況
分析工具使用SPSS。在“Analyze”菜單命令中選擇“Regression”的“Linear”選項,將中考成績(Y)設為因變量,而將理科設備(X1)、文科設備(X2)、藝術設備(X3)、健康設備(X4)、教育技術設備(X5)、圖書資料(X6)設為自變量,回歸方法“Method”選擇“Backward”(反向剔除法),最后得到如表4所示的計算結果。

表4 線性回歸分析結果
表中數據顯示出:第一次回歸計算保留了全部6個自變量(X1~X6),其中因變量Y與自變量X6的相關性很差(相關系數為-1.808×10-5)。第二次回歸計算剔除了X6,但顯示出X1與Y的相關性也較差(相關系數為8.806×10-3)。第三次回歸計算剔除了X1,只保留了X2~X5。最后得到的多元線性回歸方程為:Y = 0.117X2 + 0.108X3 - 0.310X4 + 0.01442X5。方程表明,首先學生學業水平(Y)與學校圖書資料(X6)、理科設備(X1)的配備和投入基本無關,與教育技術設備(X5)投入呈現弱相關性;同時反映出學生學業水平與健康設備投入(X4)之間具有負相關性,即投入越多對學業水平提高越是不利;而學生學業水平僅與文科設備(X2)、藝術設備(X3)之間具有稍高一些的相關性。
需要對此進行說明的是中考成績只反映學生顯性知識獲得的情況,而學生能力水平的提高或許會與學校實驗儀器設備的投入具有直接關系。另外,圖書對一個人的影響是遲效的,即會在長期大量閱讀后才能發生巨大作用,短期效果并不明顯,所以在此例中對圖書的分析也容易理解。應該指出,這些也正是我們將要進行重點研究的課題。
參考文獻
[1] [美]陳封能,斯坦巴赫,庫馬爾.據挖掘導論:完整版[M].范明,范宏建,等譯.北京:人民郵電出版社,2011:4.
作者信息
艾倫,教授,本刊特約撰稿人。首都師范大學,100048
Research Method of Experimental Teaching (3):Data Processing
Ai Lun
Abstract:A large amount of data is needed to be processed from the recovered questionnaires. Describes the purpose and task of data processing, and introduces some methods of data processing through examples.
Key words:experimental teaching; data mining; anomaly detection; prediction model; correlation analysis