【摘 要】 人才培養(yǎng)工作狀態(tài)數(shù)據(jù)采集平臺是高職院校評估的基礎,在高職院校的管理工作中,發(fā)揮著越來越重要的作用。借鑒數(shù)據(jù)挖掘理論,強化平臺數(shù)據(jù)分析,使數(shù)據(jù)轉(zhuǎn)化成“有效信息”,為高職院校的管理和決策提供依據(jù),是一種切實可行的方法。
【關(guān)鍵詞】數(shù)據(jù)挖掘 狀態(tài)數(shù)據(jù) 采集平臺
【文獻編碼】 doi:10.3969/j.issn.0450-9889(C).2011.02.055
作為高職院校新評估方案的一個重要組成部分,“高等職業(yè)院校人才培養(yǎng)工作狀態(tài)數(shù)據(jù)采集平臺”(以下簡稱“數(shù)據(jù)采集平臺”)自2008年正式公布實施以來,其建設與管理工作一直得到各高職院校的高度重視。許多院校設立了專門的工作機構(gòu)、出臺了相關(guān)的管理制度,甚至開發(fā)了網(wǎng)絡版的數(shù)據(jù)采集平臺。數(shù)據(jù)采集平臺服務于評估工作,服務于學校管理與教學工作的功能日益凸顯,其管理與建設正在得到越來越多的關(guān)注與投入。
但是,數(shù)據(jù)采集平臺畢竟是個新生事物,理解平臺框架內(nèi)在的邏輯關(guān)系,需要一個過程;聚合平臺相關(guān)聯(lián)的數(shù)據(jù),使之轉(zhuǎn)化成有助于學院管理與教學決策的有效信息,也需要一種數(shù)據(jù)分析的新方法。在實際工作中常常可以看到,由于理解的偏差與技術(shù)方法的缺失,數(shù)據(jù)采集平臺在不少高職院校中還只是每年填報時才會用到的一個系統(tǒng),填報之后往往就束之高閣。其應有的功能,尤其是服務于學院日常管理、教學工作的功能并未得到充分的發(fā)揮。而這些功能,卻又恰恰是教育部“高等職業(yè)院校人才培養(yǎng)工作評估研究課題組”的專家們設計與推行這一平臺的初衷。不注重這些功能的挖掘與發(fā)揮,或者僅僅注重平臺服務于評估工作的功能,對于數(shù)據(jù)采集平臺的利用,顯然是遠遠不夠的。因此,找到并使用恰當?shù)臄?shù)據(jù)分析的技術(shù)與方法,是問題的關(guān)鍵與當下迫切需要解決的問題。本文擬就此問題進行初步探索與討論。
一、 數(shù)據(jù)挖掘理論在數(shù)據(jù)采集平臺上的應用基礎
所謂數(shù)據(jù)采集平臺,其實就是一個由海量數(shù)據(jù)構(gòu)成的數(shù)據(jù)倉庫。根據(jù)最新的版本,整個平臺采集一次便可產(chǎn)生多達50萬以上的數(shù)據(jù)量,如果實現(xiàn)網(wǎng)絡版平臺動態(tài)采集,則產(chǎn)生的數(shù)據(jù)還會更多,其“數(shù)據(jù)倉庫”的特征還會更為明顯。根據(jù)知識管理的理論,單純的數(shù)據(jù)本身是不會提供太多有價值的信息的,要使得“數(shù)據(jù)”轉(zhuǎn)化成“有效信息”,就需要找到合適的數(shù)據(jù)分析方法,聚合相關(guān)聯(lián)的散見于“數(shù)據(jù)倉庫”中的各種數(shù)據(jù),進行大量的數(shù)據(jù)分析。筆者認為,在這一過程中,一種新興的、正在各行各業(yè)以數(shù)據(jù)分析為基礎的決策活動中扮演著越來越重要的角色的“數(shù)據(jù)挖掘”方法,其基本理論與思維方法,在數(shù)據(jù)采集平臺的建設與管理中,同樣有著廣闊的應用價值與意義。
數(shù)據(jù)挖掘(Data Mining),就是從大量的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的、但又是潛在有用的信息和知識的過程,它是數(shù)據(jù)庫技術(shù)發(fā)展到一定階段而應運而生的一種新的信息處理技術(shù),其主要特點就是對數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。簡而言之,這是一種深層次的數(shù)據(jù)分析方法,它的價值就在于,它與傳統(tǒng)的分析方法有著本質(zhì)區(qū)別,傳統(tǒng)的數(shù)據(jù)分析方法是有著強烈指向性的,其目的是用結(jié)果來驗證預設命題的正確與否,或者是對預設模型的作用機理作量化分析;數(shù)據(jù)分析則是在沒有明確假設的前提下挖掘信息、發(fā)現(xiàn)關(guān)聯(lián),得出那些不能靠直覺發(fā)現(xiàn),甚至違背直覺的信息或知識。挖掘出的信息越是出乎意料,就可能越有價值。從這個意義上說,數(shù)據(jù)挖掘是對傳統(tǒng)數(shù)據(jù)分析方法的革命性創(chuàng)新。
而實際上,經(jīng)過教育部專家組的不斷完善,數(shù)據(jù)采集平臺自公布3年以來在結(jié)構(gòu)和采集信息量上也發(fā)生了很大的變化,就版本而言,從最初的08c版,升級到09a版,最終發(fā)展現(xiàn)在的10a001版,采集字段由最初的594個字段增加到750個字段,匯總部分字段由110個增加到157個,每次采集所產(chǎn)生的數(shù)據(jù)多達數(shù)十萬。采集字段的增加,不但大大擴充了數(shù)據(jù)采集平臺的信息容量,使之越來越具備“數(shù)據(jù)倉庫”的特征,更重要的是使得數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)度加大,這自然成為數(shù)據(jù)挖掘的數(shù)據(jù)基礎,客觀上為使用數(shù)據(jù)挖掘的理論方法進行數(shù)據(jù)分析提供了更便利的條件。
二、 數(shù)據(jù)挖掘理論在數(shù)據(jù)采集平臺上的具體應用
數(shù)據(jù)挖掘理論的主要方法,一般有分類、估計、關(guān)聯(lián)、聚類和細分或預測等,它的很多基礎理論和思維方式在數(shù)據(jù)采集平臺中有著廣闊的應用空間。其中,關(guān)聯(lián)規(guī)則挖掘理論和聚類分析理論最為簡單可行,易于理解。
關(guān)聯(lián)規(guī)則挖掘理論認為,孤立的、單獨的數(shù)據(jù),不形成信息,但將多個相互關(guān)聯(lián)的數(shù)據(jù)集中起來,則可以多方位、多角度地呈現(xiàn)某一事物的全貌并對之進行價值判斷。對于初次接觸平臺的人而言,在數(shù)據(jù)采集平臺的應用中,要依據(jù)其中海量的信息去對一所學院的人才培養(yǎng)工作的方方面面作出判斷,往往無從下手;只會割裂地、孤立地看待一個個表格中的數(shù)據(jù),找不到數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,更不能通過聚合這些相互關(guān)聯(lián)的數(shù)據(jù),全面呈現(xiàn)人才培養(yǎng)工作中的某一個“關(guān)鍵要素”的工作狀態(tài),進而分析其存在的問題,為下一步的工作決策提供幫助。這時候,關(guān)聯(lián)規(guī)則挖掘的方法,則可以給我們很多啟示。筆者在應用中發(fā)現(xiàn),數(shù)據(jù)采集平臺只提供數(shù)據(jù),分析任何一個“關(guān)鍵要素”的現(xiàn)狀,都需要挖掘出采集平臺中與之相關(guān)的每一個數(shù)據(jù),呈現(xiàn)數(shù)據(jù)和指標(項)之間有趣的關(guān)聯(lián)規(guī)則或相關(guān)關(guān)系。
例如,當分析一所學院“兼職教師隊伍”建設的狀況時,首先接觸的就是“兼職教師的數(shù)量”這個數(shù)據(jù)。孤立地看待這個數(shù)據(jù),反映不出太多的信息量,最多就是知道該所學院目前具備多少兼職教師。但是,如果將兼職教師數(shù)量與全院的教師總數(shù)作比對,就可以知道兼職教師在整個師資隊伍中所占的比例;如果將兼職教師數(shù)量與全院的專業(yè)設置數(shù)作比對,就可以知道每個專業(yè)平均的兼職教師數(shù);如果將兼職教師數(shù)量與他們?nèi)握n總量來做比對,就可以知道兼職教師的平均任課量;如果將兼課教師任課總量與全院的總課時量作比對,就可以知道兼職教師在整個教學工作中所占的比重,等等。所有這些拿來比對的數(shù)據(jù),分散于平臺的不同部分,但與“兼職教師隊伍”之間,卻又有著很多內(nèi)在的關(guān)聯(lián)。對這些有關(guān)聯(lián)的數(shù)據(jù)進行挖掘,最終又可以很直觀地反映出某一方面工作的狀態(tài)情況。在將這些數(shù)據(jù)聚合起來后,就能直接地反映諸如“學院領導班子高職教育理念及對師資隊伍建設的重視程度”、“學校師資隊伍建設總體思路及師資隊伍建設規(guī)劃是否符合學校建設發(fā)展需要,可實施性怎樣”、“校企合作的深度及校企合作的長效機制的建立”等問題。它們的關(guān)系如表1所示。
表 1
又如,“校企合作”是高職院校辦學的要求與特色,為此,各高職院校均努力與行業(yè)、企業(yè)建立合作關(guān)系。數(shù)據(jù)采集平臺中也會呈現(xiàn)每個學院的合作企業(yè)數(shù)量。但單純地觀察這個數(shù)據(jù)是無從判斷“校企合作”的深度的。如果利用關(guān)聯(lián)規(guī)則挖掘的思維方法,充分挖掘與“合作企業(yè)數(shù)”之間存在潛在關(guān)系的其他數(shù)據(jù),如“共同開發(fā)教材數(shù)”、“企業(yè)提供兼職教師數(shù)”、“共同開發(fā)課程數(shù)”、“接收頂崗學生數(shù)”、“接收畢業(yè)生就業(yè)數(shù)”、“學院為企業(yè)培訓員工數(shù)”、“學院提供技術(shù)服務產(chǎn)值”、“教師橫向技術(shù)開發(fā)項目數(shù)”等,將這些不同角度存在于多個位置的關(guān)聯(lián)數(shù)據(jù)集中比對,則可以直接得出對該學院“校企合作”深度狀態(tài)的一個判斷,為學院的工作決策提供堅實的基礎。
不同的數(shù)據(jù),尋找出其潛在的關(guān)聯(lián)關(guān)系,固然能生成很多有效信息;同一類數(shù)據(jù),按照“聚類分析”的思路進行整合,也同樣能呈現(xiàn)豐富的信息。這種思維方法,在反映某一方面工作的歷時性狀態(tài)或者部門與部門間的差異時,具有較強的可行性。
以某學院為例,我們可以通過表2,來觀察衡量其基本辦學條件的“生師比”情況:
表2
表2很直觀地反映出“生師比”這一數(shù)據(jù)幾年來的變化情況,表中至少透露出以下幾個信息:一是3個學年度以來,該學院的招生規(guī)模是在不斷擴大的;二是隨著招生規(guī)模的擴大,教師數(shù)量也在不斷增加;三是生師比不斷提高,由最初的超過優(yōu)秀標準逐漸接近合格標準。不難判斷:該學院的教師增長量跟不上招生規(guī)模的增長量,需要強化師資隊伍的建設。
我們可以聚合不同系部的同一類數(shù)據(jù),來觀察系部間的差距(見表3)。
表3
單純一個系部的數(shù)據(jù),還反映不出太多的信息,但如果將幾個系部的同一類數(shù)據(jù)進行聚合,則信息可以立即豐富起來,各個系部專業(yè)教師能力水平的差距可謂一目了然。各個系部對于專業(yè)教師能力水平培養(yǎng)的重視程度與工作效果,也很容易進行判斷。
類似這樣的例子還可以舉出很多,工作實踐表明,廣泛地借鑒“數(shù)據(jù)挖掘”的相關(guān)理論,充分挖掘采集平臺的各類數(shù)據(jù),有效地轉(zhuǎn)化成各種“信息”,使之服務于、作用于高職院校的人才培養(yǎng)評估工作,更服務于高職院校的教學與管理工作,是一條切實可行的路子。隨著采集平臺建設的不斷深入,采集平臺各個方面的數(shù)據(jù)積累越來越大,數(shù)據(jù)挖掘?qū)诟呗氃盒9芾淼母鱾€領域發(fā)揮更大的積極作用。
(責編 吳 筱)
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文