魏順平
(中央民族大學 教育學院,北京 100081)
2011年2月,Science雜志推出專刊Dealing with Data,圍繞科學研究中大數據的相關問題展開討論,說明了大數據的重要性,自此“大數據”(Big Data)一詞開始進入大眾的視野[1]。通過搜索百度指數,可以看出:2011年底、2012年初“大數據”開始得到人們的關注,2015年8月達到一個小高峰,2017年3月達到最高峰。
在我國,“大數據”概念及其技術推廣應用已有10余年。通過查詢北大法寶網、國家圖書館館藏目錄、中國知網、天眼查、中國大學生在線等網站可知,在這10余年間我國政府出臺了大量政策、高校及科研院所開展了大量研究和人才培養工作、大數據技術公司相繼成立、新聞媒體紛紛報道,具體表現為:①各級政府大力推進大數據事業。截止到2021年底,政府出臺大數據相關政策(即政策標題中有“大數據”一詞)達1530份,含中央政策97份、地方政策1433份。②科研院所開展廣泛而深入的研究。具體來說,研究專著方面,截止到2021年底,已累計出版3177部大數據相關書籍(書名中有“大數據”一詞);研究論文方面,自2012年開始有一定數量的論文發表(文章名中有“大數據”一詞),隨后持續增加,累計發表論文91030篇;專業設置方面,高校大力開展大數據人才培養,截止到2021年,已有640余所高校開設“數據科學與大數據技術”專業、120余所高校開設“大數據管理與應用”專業。③企業大力推進大數據產業發展,提供大數據技術服務、以大數據命名的公司持續增加。截止到2021底,累計成立的大數據公司有14750家。④各類媒體對大數據進行報道宣傳,普及大數據知識、強化大數據意識。在紙質媒體方面,自2012年開始對大數據有一定數量的報道(標題中包含“大數據”一詞),隨后不斷上升,在2015達到一個高峰,截止到2021年底,已累計報道2267篇。
綜上可知,由于政府大力推動、科研院所深入研究、企業積極參與、媒體廣泛宣傳,人們在數據積累、技術儲備、思維轉變、素養習得等方面都做好了準備,利用大數據回答問題、構建某領域全景畫像已成為日常。教育大數據的應用與發展已經起步,并正逐步進入快速發展階段[2]。在大數據時代,我們每個人都有可能通過開源大數據去構建我國的教育畫像、了解我國的教育體系并關心這個體系的發展和變化,這就需要一套行之有效的方法來利用開源大數據。
開源大數據是指那些可以通過互聯網開放訪問的大數據,是領域畫像的基礎。基于開源大數據的領域畫像方法在應用時通常要經歷數據采集、數據分析、數據可視化三個環節。
黨的十八大報告指出,建設中國特色社會主義,總體布局是五位一體[3]。“五位一體”總體布局是指經濟建設、政治建設、文化建設、社會建設、生態文明建設等五大方面全面推進。五個領域涵蓋了我國社會主義事業的主要內容,故可對開源大數據所屬的領域進行劃分。本文所用數據未涉及到生態文明建設領域,故沒有列出這一領域對應的大數據。另外,存在綜合各領域的統計類數據。針對具體領域需列出該領域的專題大數據,這里列出了部分教育領域的專題大數據。一些常用的開源大數據如表1所示。

表1 開源大數據(部分)
(1)數據采集
教育數據的多樣性,自然帶來了數據采集方法的多樣性。楊現民等[4]從技術的角度,將采集方法分為物聯感知技術、視頻錄制技術、圖像識別技術、平臺采集技術等四類,這四類技術實質上都是在生產數據。在實際工作中,人們在研究某一問題時往往會優先關注是否有現成的數據,若有現成的數據就可以直接備份數據或爬取數據,若沒有再去考慮生產數據。生產數據又可以分為兩種采集情形,一種是被采集對象并不知曉自己的數據正在被采集,可命名為“伴隨性采集”;另一種是被采集對象知曉自己的數據正在被采集,可命名為“反應性采集”。
(2)數據分析
數據分析是為了提取有用信息、形成結論,進而對數據加以詳細研究并概括總結的過程[5]。數據分析過程離不開一系列高效、智能的關鍵技術作支撐,包括互聯網心跳數據獲取技術、人工智能算法技術、數據透明可溯技術、多維一鍵對比技術等[6]。針對大數據的容量大、多樣性、價值低、速度快等特點,提出以下處理方法:①在分析方法和工具方面,針對數據量巨大的特點,可以采用分布式存儲和計算方法,相應的工具有Hadoop、Spark、數據倉庫和各類商用大數據服務平臺;②針對結構化數據、半結構化數據和非結構化數據并存的特點,可以采用詞語切分、信息抽取等方法,相應的工具有各類自然語言處理工具,如北京理工大學NLPIR漢語分詞系統、哈爾濱工業大學語言技術平臺(LTP)等;③針對數據價值密度低的特點,可以采用聚類、關聯規則、決策樹等數據挖掘方法,相應的工具有SQL Server Analysis Service(SSAS)、Weka、SPSS等;④針對數據產生與處理加速的特點,可以采用信息自動抓取的方法,相應的工具有各類網絡爬蟲軟件,如后羿采集器、火車頭采集器等。
(3)數據可視化
數據可視化能夠將教育數據通過圖形或圖形格式的方式進行呈現,以幫助用戶快速理解并掌握有價值的信息,具體包括統計數據可視化、關系數據可視化、時間序列數據可視化、文本數據可視化等[7]。一般來說,可視化圖表包含坐標、標尺、視覺暗示和背景信息等組件。無論是傳統的可視化工具(如Excel),還是網絡可視化工具(如百度圖表ECharts),都能給研究者提供多種可視化形式。面對如此眾多的可視化形式,研究者需要根據手頭數據之間的關系加以選擇——主要的數據關系有頻次分布、總體構成、分類比較、關聯關系四種。其中,柱形圖、折線圖等適用于展現頻次分布,餅圖、百分比柱形圖等適用于展現總體構成,簇狀柱形圖、雷達圖、地理信息圖等適用于展現分類比較,而散點圖、正負條形圖等適用于展現關聯關系。
教育是最大的民生工程。黨的十九大報告指出要“提高保障和改善民生水平,加強和創新社會治理”,其中的第一項工作就是“優先發展教育事業”[8]。基于此,本研究擬將“基于開源大數據的領域畫像方法”應用于“中國教育”這一領域畫像的構建,力求從教育系統內部和更大的社會系統視角快速、準確地刻畫教育現狀,以回應社會對教育發展的關切。
首先,對“中國教育”這一領域畫像的時間和空間做個限定:時間主要截止到2020年底,這樣便于獲取更全面的數據;空間主要限定在中國大陸地區。之后,要設法窮盡“教育”的各種屬性,如教育對象、教育內容、教育過程、教育結果等,以及教育經濟、教育政策、教育研究、教育新聞等——這些教育屬性雖然短語結構類似,但語義卻不同:前者如教育對象、教育內容等是從教育系統內部看教育的屬性,短語中的“教育”是一個動詞,從句法上來說是一個謂語,圍繞這一謂語可以有主格、賓格、時間格、處所格、方法格、工具格、結果格等[9],其格框架(即采用格語法進行語言分析的結果表示方式。)如圖1所示;后者如教育經濟、教育政策等是從教育系統外部看教育的屬性,短語中的“教育”是一個名詞,從句法上來說是一個賓語。

圖1 教育的格框架
教育自身是一個大的體系,同時它也是更大體系的一個子集,“五位一體”視角下的教育如圖2所示。從中國特色社會主義建設的各個方面看教育,可以看到:①站在經濟建設領域的視角看,教育需要大量的經費投入和支出。圍繞教育,有大量的市場主體提供服務,而教育機構也有相關的采購需求。②站在政治建設領域的視角看,教育系統每年會出臺大量文件,也會發生很多法律糾紛,處理很多案件。③站在文化建設領域的視角看,教育系統每年會出版大量著作、發表大量文章、產生大量新聞。④站在社會建設領域的視角看,每一個社會個體都非常關心教育的發展。⑤站在生態文明建設領域的視角看,生態文明建設關鍵在人,關鍵在教育,把生態文明教育融入育人全過程。這方面可利用的數據較少,后文將不展開論述。

圖2 “五位一體”視角下的教育
綜合前文教育屬性的分析,本研究將中國教育的屬性分為學校、教師、學生、課程資源、過程等11類,并分屬性采集、分析數據,構建中國教育畫像,其框架如圖3所示。這11類屬性中,學校、教師、學生、課程可歸為教育要素,過程和結果可歸為教育過程。

圖3 中國教育畫像框架
(1)教育要素情況
教育要素主要包含學校、教師、學生、課程等。目前,我國已建成學校、教師、學生三大教育基礎數據庫,實現所有學校“一校一碼”、師生“一人一號”[10]。截止到2020年底,全國共有各級各類學校53.71萬所,各級各類學歷教育在校生2.89億人,專任教師1792.97萬人[11]。這些數據庫對應的信息系統是教育管理公共服務平臺,此平臺包含全國學前教育管理信息系統、全國中小學生學籍信息管理系統、全國中等職業學校學生管理信息系統、全國教師管理信息系統等子系統[12]。
事實上,我國在各級各類教育領域都建設了豐富的課程資源。2020年12月,在北京召開的世界慕課大會上,教育部原部長陳寶生指出,上線慕課數量超過3.4萬門,中國慕課數量和應用規模已居世界第一。截至2020年底,在農村教學點實施的數字教育資源全覆蓋項目已整合開發英語、音樂、美術等學科數字資源6948學時,與基礎教育階段所有學科教材配套的資源達5000萬條;建成203個國家級職業教育資源庫,認定1291門國家精品在線開放課程和401個國家虛擬仿真實驗教學項目[13]。這些資源和課程主要在國家教育資源公共服務平臺、愛課程、學堂在線、智慧樹、智慧職教平臺、iLAB-X實驗空間等平臺存儲,可以查詢并使用。
(2)教育過程情況
教育過程包括實施過程和教育結果。其中,過程數據是指師生在教學、管理各環節中產生的活動數據。2020年疫情期間,我國通過信息化軟硬件平臺有效支撐了近3億師生的在線教學,其中國家中小學網絡云平臺累計訪問19.5億人次;免費開放職業教育資源庫420個,建設優化在線課程22萬余門,形成教學班62萬余個,參與學生3156萬余人次;全國1454所高校的103萬教師開出1226萬門次在線課程,參與課程學習的學生23億人次[14]。這些過程數據被國家教育資源公共服務平臺、愛課程、學堂在線、智慧樹、智慧職教平臺、iLAB-X實驗空間等平臺記錄。結果數據是指學生的考試分數、學分、各類證書等。根據教育部發布的統計數據,截止到2020年底,我國高等教育各類畢業生有1389萬人。畢業生數據屬于結果數據的一種,其它形式的結果數據有國家級考試分數、平時考試分數、所獲學分和各類證書等,這些數據被存儲在中國教育考試網、中國高等教育學生信息網、中國基礎教育質量監測協同創新中心、職業教育國家學分銀行信息平臺等平臺數據庫中。
(3)教育投入情況
在經費投入方面,2020年全國教育經費總投入為53014億元,比上年增長5.65%;其中,國家財政性教育經費為42891億元,比上年增長7.10%[15],這些經費投入主要用于支付教職工工資。2020年,義務教育經費為2.24萬億,占財政性教育經費的52.3%,其中用于教職工工資福利占比為63.9%。除了教職工工資,其它經費多用于采購,且一般采用政府采購的方式。
政府采購,是指各級國家機關、事業單位和團體組織,使用財政性資金采購依法制定的集中采購目錄以內或限額標準以上的貨物、工程和服務的行為[16]。2000年,財政部創辦“中國政府采購網”,在全國范圍內建立起統一、規范的政府采購信息發布渠道。為了解我國教育采購情況,本研究以“中國政府采購網”為數據檢索來源,首先檢索了標題中含有“小學”“中學”“學院”“大學”等關鍵詞的中標公告,公告發布時間限定在2020年全年,得到45000余條采購記錄。之后,利用網絡爬蟲工具,本研究采集檢索結果并進行匯總,將結果數據分為基礎教育學校(小學+中學)中標公告和高等教育學校(大學+學院)中標公告兩大類。最后,本研究對中標公告標題進行中文分詞,剔除停用詞并統計詞頻,選取排名前100的高頻詞繪制成云圖,以了解當前基礎教育學校和高等教育學校的主要采購用途,具體如圖4、圖5所示。可以看出:中、小學的采購主要用于教學樓、教室、食堂、運動場等工程建設項目,而高校的采購主要用于圖書館、實驗室、實訓室等工程建設項目。

圖4 基礎教育學校的主要采購用途

圖5 高等教育學校的主要采購用途
(4)教育政策情況
政治層面的大數據主要涉及政策和法律。我國作為一個教育大國,需要通過政策的逐級執行來落實教育方針、政策,本研究主要通過“北大法寶”來查詢教育政策數據。“北大法寶”收錄了1949年至今的法律法規,截止到2021年底,共收錄中央法規規章39萬篇、地方法規規章253萬篇。自新中國成立以來,截止到2021年底,我國各級政府出臺教育法規規章157921篇(標題中含有“教育”一詞),其中由中央政府及部委出臺的政策法規共有15260篇。“北大法寶”的相關數據統計顯示,近10年(2012-2021)出臺的中央教育法規數量呈下降態勢,這體現了黨的十八大以來大幅精簡會議和文件以切實為基層減負的精神得到有力貫徹;地方政府出臺教育法規規章的差異較大,出臺教育法規規章最多的是安徽省(10597篇),而最少的是西藏自治區(269篇)。
法律的執行過程被完整記錄下來形成了裁判文書。我國校園并不平靜,各類案件時有發生,這些案件可通過中國裁判文書網查詢。2016年10月1日,《最高人民法院關于人民法院在互聯網公布裁判文書的規定》正式實施。該司法解釋明確,最高法院在互聯網設立中國裁判文書網,統一公布各級人民法院的生效裁判文書[17]。截至2021年底,中國裁判文書網文書總量達13億篇,訪問總量817億次;搜索標題包含“大學”一詞的文書,共得到74922篇,其中人身損害賠償案件5200起、精神損害案件4940起,過去10年(2012年至2021年)文書數量呈逐年上升態勢。
(5)教育研究情況
圍繞教育,教育工作者們紛紛開展研究。當前,我國教育研究成果主要分為兩類:①著作類,可通過國家圖書館館藏目錄檢索我國出版的教育教學相關書籍。根據《出版管理條例》(中華人民共和國國務院令第732號),出版單位應當按照國家有關規定向國家圖書館、中國版本圖書館和國務院出版行政主管部門免費送交樣本[18]。這就意味著國家圖書館收藏了我國出版的所有出版物,而國家圖書館館藏目錄(http://opac.nlc.cn/)是我國出版物元數據的大數據庫。在國家圖書館館藏目錄頁面檢索“學校”“教育”“教師”“學生”“課程”“教學”,共得到338813部相關著作(檢索時間設為2022年3月5日),其中2020年出版了6351部。對2020年出版的著作標題進行詞頻分析、繪制云圖,得到著作標題云圖(如圖6所示),可以看出:教師、大學生、課程等成為主要關注對象,“勞動教育”成為關注熱點。②論文類,可通過中國知網學術期刊庫查找。查閱中國知網學術期刊庫首頁,中國知網學術期刊庫收錄中文學術期刊8540余種。而根據新聞出版署于2020年公布的數據,我國有期刊10266種。這就意味著中國知網學術期刊庫收錄了全國83.19%的期刊,未收錄部分大多為非學術期刊。通過限定文獻分類,可以查找到教育教學研究的相關論文,共得到4464133篇論文(檢索時間設為2022年3月5日),其中2020年發表了論文247724篇。發表論文的機構主要是師范類院校,如北京師范大學、華東師范大學等,這些部屬師范高校是我國教育教學研究的重鎮。

圖6 著作標題云圖
(6)新聞、社會關注情況
教育是老百姓日常生活最為關注的事情之一,可通過新聞報道、百度指數、論壇發帖等途徑獲得相關教育信息:①新聞媒體。教育行業新聞可從鷹眼速讀網查詢。鷹眼速讀網綜合運用搜索引擎技術、文本處理技術、自然語言處理和分析等技術,自動獲取并分析互聯網海量信息,日采集各類新聞數據過億條。以“雙減”政策為例:2021年7月24日,中共中央辦公廳、國務院辦公廳印發《關于進一步減輕義務教育階段學生作業負擔和校外培訓負擔的意見》,要求各地區各部門結合實際認真貫徹落實[19];7月26日,新聞輿情達到一個小高峰,新聞量達4.1萬篇;8月30日,教育部召開2021教育金秋系列第三場新聞發布會,介紹秋季學期中小學教育教學工作及“雙減”“五項管理”督導的有關情況,至此輿情達到頂峰,當日產生了9.5萬篇新聞。②百度指數。百度指數是以百度海量網民行為數據為基礎的數據分享平臺,有助于研究者分析關鍵詞搜索趨勢、洞察網民需求變化、監測媒體輿情趨勢、定位數字消費者特征;同時,可以從行業的角度分析市場特點。以“小升初”為例:作為老百姓普遍關注的一個話題,通過百度指數檢索“小升初”,可以發現這一話題呈現出周期性特點——從全國來看,每年的6月中旬是關注“小升初”的高峰期;從地域來看,北京市民對“小升初”的關注熱度最高。③論壇發帖。雖然現在已有微信朋友圈、微博等社交平臺,但是論壇作為一種用戶參與度高的社交工具,其應用也很廣泛。一些熱度較高的論壇有百度貼吧、天涯社區、搜狐社區、貓撲大雜燴、水木清華、開心網、新浪論壇、QQ論壇、網易論壇、新華網論壇、家長幫等,其中“家長幫”(http://www.jzb.com/)是針對家長的教育信息與資源共享平臺,致力于為家長提供實用的信息服務與便利的交流社區。以“家長幫”為例:截止到2021年底,帖子總數1244萬,用戶總數3044萬。進入“家長幫”,選擇“北京站”,進入“小升初”,爬取得到2020年發表的帖子8550個,之后對這些帖子進行詞頻分析,繪制云圖,得到“家長幫”發帖高頻詞云圖,如圖7所示。圖7顯示,對“小升初”討論最多的是海淀區;“小升初”關注一些知名中學;論壇帖子中常見一些暗語,如“八素”指北京八中素質班、“神測”指進入北京八中素質班需參加神經元測試、拿到“票”意指被某重點中學錄取等。通過抓取論壇發帖、分析發帖內容,可以更全面、深入地了解老百姓對教育的關注點。

圖7 “家長幫”發帖高頻詞云圖
本研究基于開源大數據,從教育系統內、外兩個視角對相關數據進行采集、分析并予以可視化呈現,形成了有關“中國教育”這一領域的宏大畫像:我國教育體量龐大,涉及十萬級學校、百萬級教育服務企業、千萬級教師以及億級學生、每年千萬級高校畢業生,是名副其實的教育大國;我國各級各類教育課程資源豐富,慕課、專業資源庫、虛擬仿真實驗資源、學科教材配套資源等形式多樣并廣泛覆蓋各專業、各學科,上線慕課數量位居世界第一,在課程資源建設方面走在了世界的前列;我國教育資金投入巨大,各級政府教育政策密集出臺,教育工作者積極開展研究并年產出數十萬篇研究成果,社會公眾對教育事業密切關注,生態文明教育正在融入育人全過程,我國教育在國家“五位一體”總體布局中整體推進。
教育大數據的易獲取性,滋生了一系列新的信息安全和倫理問題,加強教育大數據的隱私保護迫在眉睫[20],這就需要政府、學校、企業等綜合運用多種技術手段來對數據的流轉過程進行監測、管控與維護,并及時針對過程中的風險或問題主動采取相應的保護措施,以確保全局數據的安全運營[21]。2021年,我國相繼出臺《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》,標志著我國以數據安全保障數據的開發、利用和產業發展全面進入法治化。可以預見,在不久的將來,在法律的規范和保障下,各行各業的開源大數據會越來越多,由此衍生出的數據分析工具、數據服務應用也會越來越多。對此,我們要積極適應大數據時代,在思維上實現“從隨機抽樣向采集全部樣本的轉變、從追求精確向掌握大體方向的轉變、從尋找因果關系向尋找相關關系的轉變”[22],不斷增強數據利用意識并提升相關的知識和技能。具體到教育工作者,應在處理教育數據時遵守各項法律要求,并重點注意:①收集數據時遵循“最小夠用”原則,不得超出職能范圍收集數據;②存儲數據時遵循“最短周期”原則,應根據業務周期確定數據存儲期限,超過期限的數據應進行歸檔或銷毀;③使用、分析數據時遵循“最小必要”原則,明確數據的錄入、查看、修改、刪除等權限;④開放共享數據時遵循“用而不存”原則,通過接口的方式共享數據。期待政府、學校、企業等主體通力合作,在保障數據安全的前提下促進教育數據的開發與利用,激發開源大數據的無限潛能。