艾倫 興喬
教育界存在一個普遍的現象:當社會上一個新技術或新事物出現時,人們會立刻將它們拿到教育教學之中應用,或者作為教學內容與研究對象,或者作為教學工具與研究手段。作為教學內容與研究對象是無可厚非的,甚至應該是積極提倡的;而作為教學工具與研究手段則必須慎重,應該給予充分的分析論證后才行。因為教育與其他領域不同,形成教育裝備的那些工具與手段的作用對象是宇宙間最為復雜的人的頭腦,是人的“心”,不能總是試驗錯了、失敗了之后再重新來過。目前在教育領域,正像對待其他新技術或新事物一樣,當“大數據時代”概念出現時,關心教育的人們將又會面臨這種抉擇。
1 大數據時代與大數據特征
被稱為大數據時代預言家的維克托·邁爾-舍恩伯格(英,Viktor Mayer-Sch?nberger)在他的《大數據時代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)一書中對大數據及其特點做了詳細的描述。作者從大數據變革公共衛生開始,論述到大數據變革了商業行為,變革了管理模式,變革了社會服務,變革了人們的思維方式,并認為大數據開啟了重大的時代轉型,成為預測未來的重要依據與工具。
作為預測的重要工具,大數據具有三個非常典型的特征[1]。
1)“全數據模式,樣本=總體”。在非大數據時代(以下稱為“小數據”時代),人們利用數據研究問題的方式是從對象的各個變量中進行數據抽樣,建立樣本空間,然后對樣本數據進行統計分析從而得出估算結論。而大數據時代不必這樣,全部變量的全部取值已經放到了面前,人們不用再去抽樣得到樣本數據,直接使用總體數據就是了。
2)“不是精確性,而是混雜性”。大數據時代的數據混雜性代替了“小數據”時代追求數據的精確性,這是由于此時有了“樣本=總體”,不必再去遵循以前抽樣定理的規定而產生的必然結果。在“小數據”時代,為了使得樣本數據能夠攜帶不失真的原變量的全部信息,進行抽樣時必須保證抽樣的點數(或時機)以及變量樣本數據盡量精確。大數據時代對待數據則采取一種“寬容”的態度:第一,允許變量取值的不精確性;第二,允許變量區分的混雜性。
3)“不是因果關系,而是相關關系”。在大數據時代,正是由于允許變量區分的混雜性,才使得人們不必關心事物變量因果關系,只需關心變量的相關關系;而在這一點上毋寧說,由于不能精確地控制變量,此時人們已經無法再得到變量之間的因果關系,而只能夠得到變量的相關關系。
2 教育教學研究與大數據分析無涉
根據《大數據時代》一書中對大數據的描述,顯然可以看出,教育的大數據時代尚未真正到來。退一步說,即使教育的大數據時代真的到來了,也必須對此做出理性和冷靜的科學分析才是。教育學屬于社會科學,對教育教學的研究人們常采用科學研究的方法,對此,人們認為大數據是十分有意義的,它使客觀量化評價成為可能,讓憑借主觀評價而生的專家評價方式開始消亡,而使得數據科學家開始崛起。但是筆者要說,這可能是對大數據時代一種錯誤的理解,一種不現實的預期。其實,教育教學研究與大數據分析無涉,這是因為對教育教學的研究恰恰需要探索和發現那些影響它們的變量,或者說更加需要得到變量之間的因果關系,而不僅僅只是提供變量之間的相關性,但是大數據是無法提供的。
大數據分析在經濟上是成功的,《大數據時代》一書中舉出了大量的實例,用于說明大數據分析的作用和意義,其中最為典型的是一個購買低價機票的例子和一個股市波動分析的例子。通過大數據分析,人們能夠預測到在什么時刻購買機票可以得到最優惠的價格,能夠預測到在什么時刻進出股市可以得到最高的回報。在做這些分析時,人們并不關心影響機票價格的因素是什么,只要能夠買到低價機票就達到了目的;人們也不去關心影響股市波動的原因是什么,而只要能夠得到高額回報就行了?;蛘哒f,在經濟學方面,大數據分析只需要提供變量之間是否存在高度相關性,并據此來進行預測,而不需要知道它們之間誰是因、誰是果。
但是,教育是絕對不行的,它的研究不能夠僅僅停留在這個預測的水平上。對教育教學的研究必須能夠找到那些影響教育教學效果的因素或變量,精確地知道它們,并能夠掌握、控制它們,從而優化教育教學。從這一點上說,教育教學是與大數據分析無涉的,或者說大數據幫不上忙。
3 相關性分析與因果性分析
科學在于量化,并且科學結論是可以重復的,這乃是科學研究的特點。對于自然科學的研究,人們在北京大學實驗室里做出的實驗結果,在上海復旦大學的實驗室里同樣可以重復實現,保障這一點的就是研究者對研究對象變量的控制。教育學的實驗研究正是仿照自然科學實驗室中的研究方法與過程,來研究教育教學這個社會問題,人們稱其為社會科學。它同樣需要尋找變量,通過測量和量化來采集變量數據,同樣需要對變量進行有效的控制。
變量控制在教育教學實驗研究中是極為重要的一個環節,沒有它人們將無法找到影響因變量的那些自變量,無法完成所期待的問題解決,無法得到確鑿無疑的實驗結論。在實驗研究中,人們將系統中各種影響因素和所關注的現象進行編碼,分別賦予它們自變量與因變量的意義與名稱,然后通過采集數據,再通過對這些數據的分析得出它們的對應關系,從而找到影響因變量的那些自變量,即做出歸因判斷。這個過程中,人們使用的方法為歸納法,即從特殊到一般的研究方法。用這樣的方法研究問題,使用統計學做多元回歸分析,做變量的相關性分析等,常??梢缘玫礁鱾€變量之間的相關程度,會找出那些與因變量高度相關的變量,卻不能就由此斷定變量之間是因果關系。或者說,使用歸納法得出的分析結果,不能夠足以證明其中的一些變量必然是影響另一些變量的原因。
要想確定因果關系,還需要做歸因分析才行。而大數據分析得出的變量關系“不是因果關系,而是相關關系”。使用歸納法得出的變量之間的關系可能是高度相關的,但是沒有充足的理由認定這些變量一定是因果關系。要想證明它們之間存在因果性,通常有兩種方法可以幫助實現這一目標:1)使用演繹法對變量之間的關系進行驗證;2)控制變量數,使得參與其中的變量數最少,僅為兩個。endprint
方法1實際上是遵循了“實踐是檢驗真理的標準”這一原則,因為用歸納法得出的結論是不完備的,需要用演繹法去驗證后才具有完備性。對此,英國哲學家羅素認為:“歸納法不像演繹法那樣確切可信,它只提供了或然性而沒有確切性;但是另一方面它卻給了我們以演繹法所不能給我們的新知識?!盵2]也就是說,歸納法可以發現新問題,而演繹法可以證明發現問題的正確性。
前不久筆者參加了一個“視頻多媒體設備對中小學生視力影響因素的研究”課題的論證會。研究者通過大規模的數據采集,使用多元線性回歸分析找出了與學生視力呈高度相關性的一些變量,但是在確定其因果關系時卻顯得有些草率,將這些具有高度相關性的變量簡單地認為其因果關系成立。為了說明這個道理,在這里舉一個較為極端的例子:通過采集到的數據分析,可以得到近年來學生視力呈現非常顯著的下降趨勢,并且它與教育信息化的程度呈現高度相關性,進一步甚至還可以發現它與國民生產總值(GDP)的增長也呈高度相關性,但是不能就以此得出結論,說學生視力下降與GDP發展是因果關系。
北京師范大學楊開城教授撰文指出,教育教學研究的結果普遍存在“一試驗就成功,一推廣就失敗”的現象[3]。這在很大程度是因為試驗(或實驗)過程是一個歸納過程,而推廣(或實踐)過程則是一個演繹過程。試驗成功說明發現了變量之間的相關關系,但是并沒有做建立因果關系的證明;推廣失敗說明正是因為變量之間并非因果性關系,從而也就不能真正解決教育教學中的實際問題。
方法2是自然科學研究經常采用的辦法。人們在實驗室里進行的實驗正是通過各種途徑來控制變量,讓這些變量不要在同一個自然科學實驗過程中都發揮作用。相對于社會科學實驗、教育教學實驗,這個在實驗室中的自然科學實驗是更加容易很好地控制變量數的,因為該系統是一個“簡單”系統。當人們將一個被研究對象的自然現象中的變量有效地控制為僅剩下兩個時,就可以輕松地得出結論:一個變量是因變量(或稱函數),另一個變量就是自變量,它們之間的關系是因果關系。教育教學實驗是在一個復雜系統中進行的實驗,人們無法有效地控制各個變量。如試驗者能夠控制被試在教室中的學習行為,卻無法控制他們在回家后的學習行為,因此也就不能將變量數目簡單地控制在最少的范圍之內。
4 教育裝備管理與大數據分析
對教育裝備管理的研究涉及到許多方面,其中有一些屬于需求論證的管理內容,必然要考慮到教育教學的特點,運用大數據分析時應該慎重;而一些純粹為教育裝備本身的管理內容,是完全可以通過大數據分析來進行預測的,例如:教育裝備經費投入的測算,教育裝備均衡發展趨勢等問題,因為它們都是一些無需做歸因分析的問題。但是,對于教育裝備管理來說,大數據時代還遠未到來,目前的數據量還小得可憐,甚至連“小數據”時代都稱不上,所以依據大數據分析的管理還沒有任何可能。或許,隨著物聯網技術進入教育裝備的管理體系,大數據概念將會逐漸建立起來。
參考文獻
[1]舍恩伯格,庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]羅素.西方哲學史:上卷[M].何兆武,李約瑟,譯.北京:商務印書館:1963:256.
[3]楊開誠.從教學實證研究的合理性說開去[J].中國教育技術裝備,2010(12):3-6.endprint