





編者按:大數據(big data)指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產,近年來吸引了越來越多的關注。在教育領域,大數據必然會成為全世界項尖教育研究者競相爭奪的前沿研究陣地。那么大數據將給教育特別是計算機教育帶來什么?計算機教育研究是否已經做好了迎接大數據時代的準備?如何通過大數據在我們的計算機教育中實現“以學生為本”的理念?本期思維碰撞將為讀者帶來很多不一樣的思想火花。
文章編號:1672-5913(2016)02-0011-09
中圖分類號:G642
鄭莉清華大學
大家都知道,在管理、商業等領域,大數據的應用已經很廣泛了。利用大數據可以幫助從業人員進行輔助決策、分析預測等工作,從而為客戶提供精準的服務,目前也有很多成功的案例。但是,大數據在教育領域并沒有得到充分的應用,原因是信息技術在教育領域的應用長期落后于其他行業。由于我們現在的教學活動還是以班級面授為主,因此沒有利用信息技術成規模地收集、分析和利用教學活動過程中的數據。
2012年被稱為MOOC元年,此后MOOC這種在線教育形式被越來越廣泛地采用。由于它足一種大規模、開放性的在線教育形式,在線學習的人數空前增長,為教育的大數據化提供了基礎,岡此,現在各個MOOC平臺可以大量而全面地采集在線學習者在平臺上學習各個課程形成的數據。如果我們能有效地收集、利用這些學習數據,就可以幫助教師了解學生的學習情況,改進課程設計,也能幫助學生了解自己的學習狀態,按照自己的節奏安排學習。如果平臺能夠根據每個學習者的特點,豐動適應學習者需求,那么在線課程也可以實現因材施教。
大數據將改變傳統的按照既定教學理論和教師個人經驗來設計實施教學的模式。借助大數據,教師能隨時觀察和分析學生的學習行為,可以從中發現傳統模式無法發現的教學規律,同時可以借助信息技術向學生提供個性化的在線學習過程;學生不再盲目地按照固有習慣去學習,可以通過分析、反思自己學習過程中產生的數據,發現自己的特點和優勢,適時調整學習方法,甚至調整專業方向,進而在學習中更愉快更好地發揮自己的能力。
雖然MOOC平臺都具有常用的分析功能,能夠為教師和學生提供一些基本的數據分析,但是儀有這些基本的分析模型還不夠。大數據真正的意義是收集、清洗、整理海量數據,根據需要定制、分析、挖掘數據與數據之間的關聯,發現隱含在數據深層的關系或規律。從這個概念出發,目前MOOC平臺對數據的分析和使用遠遠達不到應用大數據進行教學數據挖掘的要求。我們希望能夠對數據進行多維度的可定制分析,這樣才能發現一些新的學習規律。
另外,當學習者面對眾多的在線課程平臺、在線課程時,需要根據大數據分析結果進行篩選、收集和分析課程本身的特征以及以往學習者使用課程的歷史數據,選擇適合自己特點和需求的課程,而隸屬于單一平臺的分析功能往往無法實現跨平臺的課程分析和評價。我認為比較好的方案是建立獨立于課程平臺的學習數據分析平臺,這就需要制定數據分析的標準,以標準化的數據接幾導入不同平臺的數據,按照用戶的需求隨時定制不同的分析模型,并生成各種圖表,以此實現跨平臺的課程分析,同時通過綜合分析不同平臺學習者的普遍數據,得出學習者的學習規律或者新的教學規律。要達劍這個目標需要標準化,包括課程體系標準、課程標準、學歷描述標準、學習分析標準等。這種標準是課程體系的描述標準,為不同的高校、機構、組織提供統一的描述性接口,這樣就能夠互相識別各自的課程體系。
未來,互聯網課程不再是一門門零散的課程,而是形成體系,這些課程體系將按照上述的標準格式進行描述,課程內容以及課程元素也要按照標準進行描述,學生的學習能力也要有標準描述,每種教育都建立相應的分析模型,分析模型也遵循標準進行描述。在標準化的基礎上,學習者的信息中將包括標準化的學歷信息,課程信息中將包括所屬的課程體系、包含的課程元素、對應的學歷,學習過程的記錄將有標準格式,這些按照標準生成的信息可以跨平臺使用,也可以導入專門的分析平臺進行多維度綜合分析。這樣就能滿足課程教學、運營、服務的各種需求,使學習者真正擁有個性化的課程和在線學習環境。
另外,將信息技術應用到各個行業往往不是行業本身的人來做,而是由信息技術領域的公司或機構來實現。這些領域的人為什么要給教育開發系統、開發軟件?教育是不能掙錢的行業,所有的教育機構是只能運營不能盈利的,但是其他行業是可以盈利的。
信息技術運用于教學非常必要。比如智能教室,教師授課時與學生在iPad上進行互動,學生一邊做題一邊選擇具有動畫效果的答案,界面做得非常漂亮,學生的學習效果也很好。里面有各種游戲和活動,包括在線形式和離線形式以及所有的學習資源,還包括網絡資源,這些都是巾教師篩選的,學生可以通過iPad訪問。所有的作業都將自動地記錄在iPad上,教師和學生可以實時看到,家長愿意的活也可以了解孩子在課堂都做了哪些事情。這些都是非常好、很必要的。但是,這樣的智能教室得花費多少錢,這些錢投入到其他領域可以掙錢,但是放到教育領域無法直接盈利,尤其是公立教育,所以這是當前的一個問題。現在比較好的現象是這樣的智能教室越來越多了,畢竟國家對教育的投入越來越多,各個發達省份比較富裕的城市對教育投入得越來越多,可以通過招標由企業來做智能教室。大學也是這樣,學校投入幾十萬的資金給一門課程來制作MOOC,于是在線的教學資源就形成了;如果學校不投入,這些優秀的資源也做不出來。
我覺得當經濟發展到一定程度時,社會和國家積累了足夠的資本,就可以投入更多資源來發展智能化的基于大數據的教育了。這是個值得研究的課題。MOOC剛出現的時候大家都沒弄明白MOOC真正的意義,加上公司以及媒體對此過激地宣傳,使很多人對此有誤解。實際上,網絡教學絕對不可能取代課堂教學。MOOC是給什么人用的呢?我認為是一些在工作要養家糊口的人,他們沒有大量的完整時間重新去大學學習,網絡課程則能最大限度地讓他們的學習達到大學的教學效果。所以說,MOOC是給這些不在校園里的人準備的。比如,我要學中醫,但是我們學校沒有開設這門課程,而我又不能千里迢迢去別的學校學習,但是通過網絡我就能學習這門課程,也許兩所學校還能學分互認。另外,在校內每一門課程中都有一些基本原理,這些內容我們可以制作成MOOC放到網絡上讓學生自行學習,不再占課堂時間;教師則可以運用動畫和案例生動詳細地講解更深入的知識,課堂上也可以安排更多的時間作為探討、推理、演繹和思維碰撞。以前傳統課堂受學時的限制,講完基本內容就很不容易,學生根本沒有機會在課堂上進行深入的探討和討論,更不用說思維碰撞了,而現在的混合式教學就提供了這種機會。
PPT課件對于某些課程來說并不是最好的表現方式,但是遷移到網絡上就能發揮出更大的優勢。比如,數學老師在課堂教學時經常采用手寫黑板,但課堂上后排的學生很難看清黑板的內容,推演過程中學生的精神集中率可能不夠,會跟不上教師的進度,但是網絡課程為學生提供了近距離直觀瀏覽教師推演的機會,而且這個過程是可以重復的,對于學生其實是很好的。我們學校在線公司的一位經理就把網絡課程看作新型教材,教師想怎么用是他的權利和創意。在線學習至少可以把學生的作業和練習過程放在網上,并利用OJ系統進行評價,當然也得有人工評價。我的作業一半是在網絡進行評價的,一半是一對一面對面驗收的。現在大學的教學是混合式的教學,我們叫blending learning。很多教師覺得網絡課程要取代他,其實只是對教師的要求更高了。有的老師只是照本宣科,要是參與課堂討論還會擔心自己被掛在黑板上,比如我每次討論課都會帶一位研究生跟我一起主持,大部分課堂時問是由我來主持,但是有的時候一些學生的算法稀奇古怪,要理清他們的思路還是很費精力的,研究生助教就能特別快地理清楚,指出他們的問題所在。所以教師要是沒有本事主持課堂,就很容易被討論的學生掛在課堂上,這對教師來說確實是挑戰。但是這個挑戰要是跨過去了,對于學生以及教師本身都是非常有利的。
張銘北京大學
我是做數據庫研究的,主要方向是機器學習、數據挖掘、做文本信息,也有兩個大的自然科學基金項目,一個是做社會網絡分析,另一個做教育大數據分析。我教的課程是數據結構與算法,不是數據庫,但這些研究都和大數據有關。我也做一些教育研究方面的內容,目前參與一個叫做學科規范的研究小組,也叫作computercurricular,我最近也在參與寫作IT2017的規范。ACM curricular大概在2005年被分成幾個方向,分別為計算機科學、計算機工程、軟件工程IT,還有IS(信息系統)。一般來說,我們國內的幾個方向主要跟前面幾個方向比較相關。為什么計算機發展會分成5個方向?隨著計算機的發展,我們可以看到,國內外高校的招生人數和市場份額越來越多,在原來的計算機大帽子底下,如果還是統一的、比較窄的規范,肯定不太適合了。這5個方向中,信息技術(IT)從其設立思維來說更偏向應用,計算機科學更偏向理論,計算機工程偏向系統。IT這個大方向里設立了好多個不同的子學科方向,其中就包括大數據科學,還有云計算、物聯網。在這樣的體系下,最底層還是架構(intrastructure),主要包括系統方面的硬件、網絡、存儲等內容,這相當于一個裸的硬件環境。向上一層,應該是管理層,包括對分布式系統的管理、對存儲的管理、對網絡的管理,這一層管理以Hadoop為代表,它能夠真正駕馭系統。原來我們的操作系統是單機的,現在更廣泛意義上的系統是這種能夠在網絡上很便捷地配置資源的管理層。因為系統和設備的性能越米越好,現在更火的是伯克利大學MB laik研發的SPAK系統,在整個大數據領域中,該系統的性能已經遠遠超過Hadoop,對于做數據挖掘、數據分析的學牛,基本上SPAK就是必備的工具。再往上來看,就是數據分析理解的層面。再之上是各種應用以及可視化的展示,這個也是非常重要的。上學期我帶了一些大一學生,北大學生在大一第一學期的時候要聽各個領域的教師做報告,然后在期末完成一篇短文,再做一個課程感想報告。有幾個學生對大數據感興趣,但他們的信息點最后都集中在可視化。由此可見,在外行來看,看點就是可視化領域。剛才我也提到,整個大數據是從基礎架構、硬件網絡存儲設備,再到中間層的管理,然后到上層數據分析處理這一塊,包括機器學習、數據挖掘等層面,網上較多的內容是應用層面的,可視化是其中比較吸引眼球的。像很多報告里說的,我們講SPAK的架構,只有技術人員能夠聽得懂、感興趣,如果這些東四能以可視化等大眾喜聞樂見的方式呈現出來,更有利于發展。
我心目中的大數據學科就是它的整個架構,計算機專業大數據應該是隨著計算機發展分出來的一個比較重要的分支,這個分支不應該劃到CS里面,也不是純粹CE,應該偏向IT。現在整個IT2017課程大綱的寫作小組正在編寫,截止日期大概在2015年11月15號。之后,II月28-29號將在天津召開一個大學計算機基礎課程研討會,我們會討論計算機學科的相關規范。這是一個英文研討會,我們請了3位國外專家,都是各個學科規范的主要負責人,我們可以參考國際前沿學科規范的國際同行們的想法。
在大數據最近的趨勢之下,很多大學從本科就設立了大數據專業。當然,現在大數據專業的研究生更多一些。北大本身也建立了研培,設立了大數據方向,并在今年新批了20個指標,這很不容易。我覺得先要有一個國際前沿的方向,然后在我們原有的培養體系將前沿方向融合到學校特色以及市場需求里。大數據跟領域是相關的,但大數據架構這種最底層的應用可以為多個不同專業或領域服務,比如化工、醫療這些,可以使用通用的大數據解決方案。整個大數據有很多共通的東西,包括從底層的系統管理到分析,再到應用、可視化等,這是相通的,各大學可以發揮自己的特色,拿這個領域真實的數據,建立幾個適合自己發展的項目。大數據這個專業其實是跨學科的,首先在計算機領域就跨學科,軟件、硬件還有理論都有結合。每個大學的培養,可以偏向于數據分析處理,也可以偏向數據感知、數據獲取或底層架構,這都是不同層面的。當然我覺得更多的可能是數據分析處理,這是需求最大、最廣的。我覺得每個學校可以根據自己的特色來設立自己的大數據培養方案。
對教師的培養確實是一個挑戰。各個大學可以邊開設課程邊培養教師,教師也有一個自我學習和提高的過程。Coursera上和數據相關的課程有很多,比如約翰·霍普金斯大學有一個微專業,我們北大醫學部有一位教師學完了這個課程,拿到了專業認證證書。還有在數據挖掘領域比較有名的如韓江磊教授、張慶祥教授,他們在Coursera上也有系列課程,我覺得MOOC是一個非常好的補充,特別在教師的培養和提高方面是一個很好的渠道。
在教學策略和方法上,我覺得實訓是特別重要的,一定要讓學生做一些比較前沿和實際的應用案例。在2004年,我們做了一次計算機專業人才培養的需求調研。我們當時去百度交流時,百度剛招聘一批處理大規模數據的員工。一般在校生大部分是基于內存進行數據處理的,數據結構的教材絕大部分不講外排序,只涉及內排序,更不涉及分布式系統。北大的數據結構課程要求學生編寫基于外存的大數據規模處理,包括外排序、數據索引、閉樹還包括搜索引擎,這對擴展學生的思路非常重要。我覺得大的實踐項目和環節也要加強,包括數據的獲取、數據的分析處理等。以前學生總抱怨屏幕打印個水仙花、Hello World就畢業了,這肯定是不行的。學生起碼要有這個能力:操作超過計算機設備內存處理能力的數據,做個排序、外排序,并以一個項目為例做一個搜索引擎,或者再進一步做一些智能的信息分析處理。
學生很看重數據領域的就業市場,在美國,和數據相關的崗位簡直太火了。所以我覺得,在跟學生宣傳時,各個專業老師可以去宣講他心目中大數據的學科特點,闡述學科的國際前沿、市場需求以及各領域的創業情況。大數據相關的公司現在也處于朝氣蓬勃的階段,很多非常成功的大公司有很多故事,都能夠吸引學生。
在行業性學校,我覺得底層的相關課程是相通的,應用層面的課程可以體現在對具體領域的分析上,比如醫療信息系統,不是只學了通用的東西就能處理的,還需要與領域知識相關的應用型課程。這也與各個學校的背景以及所處地域相關,比如石油大學跟地質、生化有一些相關。
就研究來說,計算機教育的研究在中國比較薄弱,僅在一些師范學院有一些教育技術研究的方向,且偏于文科。其實教育本身會產生非常多的數據,我覺得教育領域本身是非常看重數據分析研究的,以前數據沒有這么多,也都在線下,現在數據爆炸了,線上線下并行。在美國計算機專業下就有計算機教育研究的一些方向,拿到很多美國自然科學基金,而且有很好的論文。相比之下,國內在這方面進行的研究,一方面數量少得多,另一方面研究深度也遠遠不夠。這塊領域,未來應該由我們一起做起來。
李國和 中國石油大學(北京)
教育有它自身的特點,出現問題也有它自身的原因。培養人才與生產產品的流程是不一樣的,人才培養更復雜一些。比如,人才培養過程中的信息采集不可能像產品生產過程那樣有計劃性。人才培養的方法蘊含的人性化因素太多了,跟產品生產不一樣。
在教學過程中,教師更習慣傳統的教學方式。傳統教學方式說起來是以學生為中心,實際上還是以教師為中心的。傳統方式有它的優點,比如控制教學內容和教學進度,但是屬于通用性的、一刀切的,有的學生吃不飽,有的學生吃撐了。信息化建設的網絡教學環境應更具個性化,但從親近的角度來說,在學生人格的培養或者教師語言的感染力方面,網絡課堂無法達到傳統課堂的效果。所以,目前網絡教學完全取代課堂教學很困難。我認為更好的方式是兩者互補,各有側重。有些基礎性的、知識性的課程可以建立網絡課程,而嚴密性和邏輯性很強的、需要大量推理演算的課程更適合使用傳統模式。
豐繼林房山科技學院
我國現在號召以信息化帶動產業化,但教育領域的信息化程度落后其他行業太多了。當前存在的最大問題是教育工作者的數據意識非常差,沒有認識到大數據對教育的重要作用。數據是一種重要的生產要素,教育過程中產生的教學數據則是教學活動的最重要要素,特別是辦學歷史比較長的學校,其教學數據更是無盡的寶藏,但是,目前各高校對教育過程的記錄是沒有的,大多數教師都忽略了人才培養過程的數據收集。在教學過程中如果能收集并分析學生學習過程的數據,再通過分析結果調整教學,將為教育帶來革命性的發展。例如,教師可以通過對畢業學生或學過某門課程的學生進行學習過程的數據記錄,提前調整自己的教學內容和教學方式。在大數據時代,數據意識是第一重要的,教育管理層一定要認識到教學數據的重要性,如果不記錄并利用這些數據,我們的教學肯定是有缺陷的,無法全面、真實地了解學生。
房山科技學院是中國地震局下屬的學校,信息工程系的最大特色專業是地震科學系,直接由國家地震局管轄。我們最近正在利用大數據開發一款地震預報分析軟件。我想借這個案例說明大數據是如何應用在教學過程中的。一般來說,特大地震的孕育過程非常長,一般是幾百年,這幾百年間的數據量非常巨大,大數據能很好地運用在該領域。但是,現代人立竿見影的心態非常重,不少地震科技人員認為地震在前六天后六天或者前十天后十天就能預測,完全沒有想過要把大數據應用在地震孕育過程中進行分析。作為行業學校,我們的基本思想就是把大數據應用到行業,對學生進行思維方面的教育。
大數據的相關因果關系在地震行業是有直接效果的。海域地震是國際上公開承認的被成功預報的地震,那是因為冬天蛇蟲都出來了,宏觀異常非常明顯。但是,動物異常就會有地震不能作為地震發生的因果關系,地震局做過很多關于地震場的觀測,比如電場、風場、速度場、油體形變場等,地震之前這些數據都會發生變化嗎?或者某一種數據發生變化就會引發地震嗎?實踐證明并沒有,地震行業不是用因果關系來理解的。但是完全不去探求因果原因,只探求相關關系,我覺得也不全面,過去我們不是特別注重相關原因,只用因果原因來探究自然規律。經過科技的發展,有人說大數據時代就是用相關關系取代因果關系,我覺得也未必,這種思維過程還沒有見底。最早溫總理提到“物聯網是新興戰略產業”,當時還不明確要點在哪個地方,后來就慢慢明確了,大數據思維也是如此,現階段還不明晰,還要發展。現在提這些內容還比較超前,但是教育就是要超前。
陳明 中國石油大學(北京)
實際上,人們作出的結論和變化都需要因果關系,但是人的腦力還無法找到全部的因果關系,在找不到因果關系的情況下找到相關關系也能解決問題。科學研究方法論中,第一范式是實驗,然后才有理論,再發展到計算模擬和現在的第四范式——數據密集型科學研究方法論,實際上也是一步扣一步。如果科學實驗能解決所有問題就不需要科學理論,如果科學理論能解決所有問題就不用計算模擬。比如,理論無法證明四色問題,但通過計算模擬就能解決,大數據出現后計算模擬遇到瓶頸,于是誕生了科學研究的第四范式,總的來說都是因需產生的。問題解決不了時可以先找到相關,等條件逐漸成熟時再獲得因果關系。
研究教學的人不能只研究教學,而是要和學科發展密切結合。比如,研究教學方法論,如果能把學科發展和教學結合起來,對培養學生和教學來說都是完美的。尤其是計算機學科,最近幾年發展很快,網絡計算、云計算、物聯網、大數據、“互聯網+”等異常繁榮,有人預測以后還有機器人研究將大熱,這些都是著名學者的預見。如果不把這些東西迅速融于教學,就會相對落后,這和我們的傳統思維方法是不一樣的。
典型的大數據思維有這幾種:一種認為不需要用相關絕對代替應用,但在找不到因果關系時可以先用相關,等到時機成熟再找因果;另一種是用全樣本、大樣本技術代替小樣本技術。大數據是大樣本,它的數據量達到海量,理想程度是全樣本,計算機處理能力已經逐漸能夠達到這種級別,該思維出現后對以前的所有方法都適用,小樣本就可以特征抽取,全樣本就不用抽取了,強大的處理能力可以直接分析;還有是用模糊性代替精確性,這些都是比較核心的內容。大數據科學、大數據技術、大數據工程,能和以前的內容產生碰撞,在教學中要有體現。
關于大數據技術,標準的說法是從數據的獲取到經過一段處理后獲得價值全過程所用到的技術的集合。簡單來說,大數據被采集后經過記錄存儲、抽取清洗,再經過挖掘、分析、解釋,才能獲得價值,這個全過程叫大數據技術,目前對這些還沒有系統的介紹。這些內容的確和以往不一樣,以前強凋搜索引擎,搜索就是回答,大數據下用搜索引擎就很困難,但是現在廣泛采用了圖譜技術,比如谷歌公司描述信息關系并能存儲處理。搜索引擎可視化分析不是把數據可視化,而是數據可視化以后再次分析并可視化,目前這個研究還比較少。這些內容的確需要容納在教學中,即使不專門培養大數據分析師、大數據公證師、大數據科學家,只從培養計算機專業的人才來說也需要把這些內容加入教學。比如在計算機導論課程中可以設幾節課講一下大數據技術,也可以講物聯網和云計算,主要是啟蒙式的內容,具體課程可以增加大數據導論、大數據概論、大數據基礎與應用等內容,甚至作為選修課來講解,培養學生快速掌握先進技術的能力。
張曉明 北京石油化工學院
大數據的發展首先是從工商業的強烈需求反推回來的。馬云更早的時候就提出:“我們現在的時代進入到DT時代,數據技術時代。”2015年10月8日,復旦大學成立了大數據學院和大數據研究院,明年開始招生。復旦大學的大數據方向有3個思路:第一種是數學的分析家以及經典的統計分析軟件,做經典的大數據分析;第二是在計算機領域,強調主算法;第三個是面向商業公司的需求,對商業數據進行處理及分析。
大數據發展的第二個驅動力是工業需求。2015年8月份天津港口大爆炸以后,北京市組織安監局和相關學校加快推進有關安全生產的研究,其中一個研究項目就是安全生產大數據源中心。我們學校是北京市安全生產工程研究院掛靠單位,基本上每個月都要跟市安監局和研究院開會,共同推進安全工程和相關電器專業的發展,由此產生了很多需求。在研討和研究的過程中,我們發現很多數據都沒有,幾乎要從頭建立數據的獲取。北京石油化工學院的研究主題趨向化工類研究,特別是對危險化學品進行研究。我們正在做的工作就是采集各種數據,包括生產、運輸、存儲、使用等過程的數據
大數據在教育方面的需求首先是由工商業的強烈需求推進的,這使得教育領域也不得不重視,復旦大學成立的這個專業很快抓住了這個機會,相信其他學校也會陸續開設,就如物聯網的出現時一樣,目前就有300余所高校開設了相關專業。
現有的計算機專業培養方案,包括大數據的采集、存儲、數據處理、數據分析、數據展示等,都會有很大的改進。去年我開設了云計算技術課程,把大數據的工作融入教學,在理論教學和實踐教學中將大數據的實驗作為重點。第一個實驗就是把Hadoop的配置實驗變成利用Hadoop進行數據的分析。第一次課要求學生自建百度云盤,把數據存到云盤上,大數據首先要解決的問題就是數據從采集到儲存,其次是有了數據要怎么做。我們目前計劃創建幾個網站,并讓學生做微信公眾號,采集用戶訪問、上傳等操作的數據。數據主要從工業模擬數據來,現在的數據很難找,主要依靠購買。從教學方面來說,困難很多,壓力也很大,我們也是邊學邊做,一邊做存儲采集數據,一邊帶學生做大數據計算,展示方面的內容還在研究當中。
由此還引出另外一門課程。因為Hadoop系統都是部署在Linux操作系統上的,學生還得學習Linux操作系統的內容,于是我們又開始改革操作系統的教學。操作系統課程不只講Windows操作系統,還必須講解有關Linux操作系統的內容。目前大多數數據存儲用的數據庫都是MySQL,而我們之前都是講解Oracle,因此對數據庫課程的設計也開始改革,不但改變了教學使用的數據庫類型,還針對手機、云存儲等方面做了設計。目前,2015年培養方案的修訂一方面要降低學時,一方面還要提高質量。所以,一些能放到平臺上的教學內容留給學生課后自行學習,實踐教學就一定要面對面、手把手把更深入的知識教給學生。
王新中國石油大學(北京)
關于大數據,正面和負面的說法都有。正面主要說大數據是科學的,從數據中能發掘有價值的東西。負面就說大數據是炒作,以及大數據到底是不是新科學。從大數據思維屬性看,首先大數據是大容量,這個不是新問題,因為計算機一直講海量計算;非結構化問題也不是新問題,數據庫的結構化很早就提出了;還有數據密度低、抽取影像壓縮都不是新問題;數據挖掘也不是新問題。也就是說,大數據沒有提出新科學問題,所以有炒作的嫌疑。
大數據是思維嗎?思維最大的作用就是指導人類活動,體現在理解力、論證力、判斷力3個方面。就理解力來說,是從現象觀察本質進而理解本質,而大數據是一種現象,所以可以通過大數據去理解本質。論證力是以事實說話,大數據就是事實的一種還原,比如體檢數據就是身體健康狀況的還原。判斷力,體現在少數服從多數上,大數據可以非常容易地體現出哪些是多數哪些是少數。所以我認為大數據可以成為一種思維。
現在與數據相關的課程很多,如數據倉庫、數據挖掘等,還有各種初級、中級、高級數據庫。另外,和網頁相關的內容如網頁抓取,實際上都與數據處理相關。但課程群很難建立起來,這是許多學校面臨的問題。
在科研方面,科研該從哪兒人手?我搜集了一些項目,把它歸納為4個視點。第一是數據論,數據論是麥卡錫的報告第一次提出來的。數據論里面核心的兩個方面就是要處理的數據以及處理數據的工具,這兩個方面和傳統常規的方式肯定不一樣。第二是方法論,大數據對應大數據方法論,也和傳統方法不一樣,要使用全樣本、大樣本。第三是思維屬性,上面已經討論過了。最后一個就是大數據的領域屬性,如果大數據脫離了領域的話,等于空談。搞石油的,有石油大數據,搞財經的,有財經大數據,所以說,大數據不是指要處理全球的數據,只有賦予了領域的屬性才有意義。
剛才已經分析了大數據是一種思維,我認為大數據思維可以和計算思維并駕齊驅!計算思維強調用計算機方法來解決科學問題,強調過程化和設計性,核心是數據結構,也就是將自然問題抽象后用計算機來解決。大數據思維和它不完全相同,強調利用數據本身,是用大數據來分析并得出解決問題的方法,用大數據體現出來的事實來分析問題。實際上計算思維有好多問題解決不了,因為很多情況下無法用計算思維建立模型。而大數據可以形成直方圖或扇形圖,大家一比較,這是大數據結果,但絕對不是計算思維可以解決的,可是大數據思維也不能脫離計算思維單獨成為核心,所以,兩者可以相互補充。
路游 中國石油大學(北京)
在教育教學過程中,計算機專業的信息量特別大,有各種各樣的書籍、光盤、網絡資源,我覺得這些本身就是大數據,進而導致了這樣的問題:信息量太大,學生在學習過程中反而會迷茫。我認為其實并不是信息量越大,獲得的知識就更加全面和具體。舉個例子,在研究生面試過程中我們會問學生一些問題,例如文件和數據庫有什么區別?Windows和Linux有什么區別?大學4年學過的主要課程,課程的內容或者課程間有什么樣的聯系?但是,學生的回答普遍比較差。為什么會出現這樣的情況呢?可能學生在學習過程中太死板,沒有建立起知識的體系結構。另外,在教育教學領域應該強調提高實踐能力,以此提高教學水平,但到底應該怎么提高?我們學院有位教師到丹麥奧爾胡斯大學訪學,他們的學生除了討論、實踐外,還緊跟著計算機發展前沿的東西。一門課程會布置一些和課程相關的項目,通過一個階段的課程學習,把項目做出來。例如一個博士指導一個大三的團隊做視覺場景重建、識別與自動交互。在進行展示時,學生為教師展示了自制的視頻眼鏡,對視頻信息進行分析和識別,并在計算機中通過三維場景還原,利用可視識別技術和增強現實技術抓取現實場景中的物體,這個項目用到不同研究領域大量的科技研究成果。由此我想到,如果要提高實踐能力,應該注重分門別類地設置課程,強調出哪些課程注重實踐,這些課程可以階段性的以實踐為主進行教學。
另一方面,我想強調討論式的教學,其實討論式教學也是過程式教學的一個體現。學習是有過程的,絕不是通過完成試卷獲得一個成績就完了,所以我覺得討論式教學也挺重要的。我覺得可以提倡小組討論,我上課的時候常采用這種辦法。討論時間不宜太長,而且討論的時間不一定是集中的,需要教師抓好重點,加快進度,安排好討論的節奏,增加學生和學生、教師和學生的互動,而且rr以通過討論,把知識點設置成有關聯有層次的討論話題,幫助學生建立起知識的框架。
我們傳統的書籍是教材,我們的網絡也是教材,課堂上的討論還是教材,包括人文社科的背景資料都應該屬于教材。隨著大數據時代的到來,傳統的教材被弱化、退化,新的教材在形成,這個新教材不是指哪本書了,可能包括網絡、人文、社會等多方面的內容,這些都成為我們作為新的教學教材的基本思路。上述所說的這些內容也都屬于大數據,需要我們認真地挖掘,在掌握巨大的數據量的同時,利用這些實實在在的數據存在,從教育的角度,把其中的重要意義發揮出來,這也是非常重要的。