李健 秦德生
【摘 要】 為了適應大數據時代,新課標初中階段增加了“數據分類”內容.數據分類有兩種類型,一種是體現判別思想的數據分類,一種是體現聚類思想的數據分類,新課標初中階段的“數據分類”體現了聚類思想.結合聚類分析的定義、特點等討論得出,新課標初中階段的“數據分類”是聚類分析中的最優分割法的一種特殊、簡化形式,能夠滿足為初中生提供入門級的“聚類”學習的基本需求.
【關鍵詞】 新課標;數據分類;聚類分析;大數據
大數據時代背景下,加強基礎教育階段的“數據”學習,成為數學課程設置符合時代發展的必然選擇.造就當今之大數據時代的主要因素有三:保存數據能力的增強,生產數據能力的增強,使用數據能力的增強[1].其中,唯有使用數據能力密切關聯到基礎教育階段的數學課程.為了適應大數據時代,《義務教育數學課程標準(2022年版)》(下稱《標準》)初中階段增加了“數據分類”的內容.隨之而來的問題是,絕大多數一線教師對這一新增內容并不熟悉,該內容也自然成為教學關注要點.
在《標準》初中階段關于“數據分類”的教學提示中,明確指出:要引導學生通過對實際問題中數據的分類,了解數據分類的意義和簡單的數據分類方法[2]76.那么,《標準》初中階段的“數據分類”究竟指什么?我們應該如何理解它呢?
1 兩種不同思想的“數據分類”
從字面意義來看,“數據分類”是指將數據分成不同的類.那么,一個需要重點關注的問題就是:要將數據分到什么樣的類當中?一般而言,“數據分類”有兩種形式:第一種是事先知道可以將數據分入哪些類別中,分類的重點是判別不同數據各自屬于哪一類;第二種是事先不知道可以將數據分入哪些類別中,分類的重點是基于數據特征構建出不同類別.
第一種分類形式的核心思想是:先確定劃分類別,再按準則將數據判別到已知類別中.在日常生活中,這種基于判別思想的數據分類極為常見.例如,某公司招聘員工時,招聘方希望通過筆試考核篩選出部分應聘人員進入面試,為此事先確定了兩個類別及相應的分類標準:筆試成績60分以下為“淘汰”,60分及其以上為“晉級”.按照這一分類準則,就可以將所有參加筆試者按成績分到“淘汰”與“晉級”兩類當中.
第二種分類形式的核心思想是:事先無類別劃分,按照“組內親近,組間疏遠”的原則將數據聚成不同類別.例如,在上述利用筆試成績篩選應聘人員進入面試的例子中,招聘方可以事先不確定進入面試的及格線,也就是不給出具體的類別,而根據應聘者筆試成績,按照一定的原則(如組內離差平方和最小原則)將所有應聘者按成績劃分為“淘汰”和“晉級”兩類.
在多元統計分析中,具有第一種分類思想的分類方法稱為判別分析,在此稱之為體現判別思想的“數據分類”;具有第二種分類思想的分類方法稱為聚類分析,在此稱之為體現聚類思想的“數據分類”.
2 聚類與聚類分析
在知曉了兩種不同分類思想的“數據分類”后,我們再來看《標準》中的“數據分類”究竟屬于哪種類型.《標準》關于“數據分類”的內容要求指出,知道按照組內離差平方和最小的原則對數據進行分類的方法[2]74.由于這種方法需要基于一定的原則確定類別,所以屬于體現聚類思想的“數據分類”.因此,《標準》中的“數據分類”,更確切地說,應該稱之為“數據聚類”.
為了更好地認識這種體現聚類思想的“數據分類”,有必要了解聚類與聚類分析.聚類的思想自古有之,《周易·系辭上》有言:方以類聚,物以群分,吉兇生矣.意指各種方術因種類相同而聚合,天下萬物因類別不同而區分,可以通過聚類洞悉事物的本質特征.聚類的目標在人們心目中是很明確的,聚類可以幫助人們找到特征相似的對象,進而可以將紛繁復雜的對象歸類處理.
談及數學中的“聚類”,一個比較常見的定義是:把一個數據對象的集合劃分成若干個子集,使子集內對象彼此相似、子集間對象不相似的過程[3].盡管這個定義比較形象,但形式化程度不高,在數學上的可操作性不強.接下來,再看一個可操作性稍強的定義:給定n個對象的某種表示,根據某種相似度度量,發現K個簇,使得簇內對象的相似度高,簇間對象的相似度低[4].簇內對象的相似度越高,簇間對象的相似度越低,則聚類效果越好;反之,則聚類效果越差.在這一定義方式下,找到合適的數學符號表示相似度,就成為“聚類”的關鍵之一,有助將現實世界中的“聚類活動”轉化為數學世界中的“聚類分析”.
3 從聚類分析看“數據分類”
為了進一步理解《標準》中的“數據分類”,有必要進一步從聚類分析的視角審視“數據分類”.
按照聚類分析的定義,為了使聚類具有數學上的可操作性,需要為聚類分析提供一個操作標準,其關鍵在于定義數據之間的相似度.在聚類分析中,基于聚類對象的不同,又可以將其分為兩類.第一類是對數據指標的聚類,數據指標的相似度可以用各種相似系數進行刻畫,如相關系數等;第二類是對數據本身(也稱為樣品)的聚類,數據本身的相似度可以用各種距離進行刻畫,如閔可夫斯基距離(其特殊形式為歐氏距離)等[5].《標準》中的“數據分類”,就屬于第二類.
結合《標準》中例85“數據分類的原則”[2]162-163可知,初中生需要掌握的“數據分類”方法為:先將一維數據按大小關系排成一列x1,x2,…,xn,且滿足x1<x2<…<xn,再按照不同切割方法將該數列切割為兩組x1,…,xi和xi+1,…,xn,其中i=1,2,…,n-1,然后按照組內離差平方和最小原則遴選出最優的分類.實際上,聚類分析興起于上世紀初期,發展至今,已經形成了諸如系統聚類法、動態聚類法、K-均值聚類法、層次聚類法、模糊聚類法、最優分割法等多種聚類方法.其中,最優分割法是一種處理有序數據聚類問題的有效方法,由于該方法最早由Fisher提出,故也稱為Fisher最優分割法.
最優分割法所處理的數據不能變動順序,例如在確定兒童生長發展階段時,需要測量不同年齡段兒童的生長發育水平(如身高、智商等),此時需要按時間順序取樣,不能打亂數據的次序.最優分割法首先將有序的n個數據看作一類,然后再分為兩類、三類等等,直至分成n類(每個數據各自成為一類)為止,而其分類步驟涉及計算類的直徑、確定分類損失函數、確定分類個數、確定最優分類等[6].其中,分類損失函數是確定分類方法的評判標準,其原理與組內離差平方和最小原則相似,即每次分類后產生的組內離差平方和的增量最小[7].
對于《標準》中的“數據分類”,由于需要先將所有數據按大小關系排序,以及需要按組內離差平方和最小原則處理數據,所以可將其視為一種“神似”最優分割法的數據分類方法.盡管兩者非常相似,但也應注意到它們的一些差異.首先,最優分割法只要求數據有固定的順序,并不要求其一定按大小關系排序,但《標準》中的“數據分類”需要先將原始數據按大小關系順序排列.其次,由于《標準》中的“數據分類”實例僅要求將排序后的數據聚為兩類,所以也就無需像最優分割法那樣按照分類損失函數逐次聚類.
綜上所述,《標準》中的“數據分類”是聚類分析中的最優分割法的一種特殊、簡化形式.但與此同時也應看到,《標準》中的“數據分類”體現了基本的聚類思想,能夠滿足為初中生提供入門級的“聚類”學習的基本需求.
參考文獻
[1]涂子沛.數據之巔:大數據革命,歷史、現實與未來[M].北京:中信出版社,2019:313.
[2]中華人民共和國教育部.義務教育數學課程標準:2022年版[M].北京:北京師范大學出版社,2022.
[3]Han J., Kamber M., Pei J. Date Mining:Concepts and Techniques(3rd edition)[M]. Burlington:Morgan Kaufmann, 2012:444.
[4]張憲超.數據聚類[M].北京:科學出版社,2017:1.
[5]袁志發,宋世德.多元統計分析[M].2版.北京:科學出版社,2009:278-280.
[6]朱建平.應用多元統計分析[M].4版.北京:科學出版社,2021:86-87.
[7]羅良清.統計建模技術Ⅰ:多元統計建模與時間序列建模[M].北京:科學出版社,2021:94.
作者簡介 李健(1988—),男,重慶人,博士;主要從事數學課程與教學論研究.
秦德生(1974—),男,內蒙古通遼人,博士;主要從事數學課程與教學論研究.