張秀玲
(長春金融高等專科學校現代教育中心 吉林 長春 130012)
校園一卡通在校園卡中心儲存了大量的數據信息,這些數據信息涵蓋了餐飲、上機、借閱等。由于這些數據信息是學生自己使用產生的,所以對這些信息的研究分析有助于學校了解學生的需求,更有助于學校的建設和管理。下面對k-means算法在校園一卡通平臺中的運用進行分析與論述。
k-means算法出現于1960年,其也被人們稱作K均值聚類算法,其是由MacQueen提出來的。伴隨理論分析持續加深以及計算機技術的持續發展,這一算法發展成經典數據挖掘算法,隨后出現了一部分聚類算法均是根據這個算法所提出改進的。由于此算法于數據結構、時間耗費、儲存方面有著一定的優勢,所以諸多聚類過程均使用此算法。k-means算法原則為:對給定數據對象集X,將數據對象至聚類中心點之距離和當成聚類準則函數,經過求準則函數極小值迭代,將數據對象劃分至聚類個數時C的類內,同時促使各類內部數據對象相似性較高,而不一樣的類中的數據對象不相關性較大[1]。
由于受到時代發展所影響,學校需要使用適當的技術進行管理。對計算機管理系統為基本的卡片的使用十分普及,學生采用各種卡片于校園日常生活中很普遍。可是以往的校園卡片功能較少,學生日常生活要攜帶諸多卡片,例如餐飲、圖書證、學生證等,為學生生活造成了不便,該校園管理模式具有很多不足:(1)未完成對現代化校園的管理;(2)為學校管理系統帶來了負擔;(3)學校管理成本增加;(4)為學生帶來了麻煩。對現代化校園管理而言,其需要具有的特征是:信息傳遞效率高、管理相當精細,如此對高校教育教學而言是百利而無一害的。而校園一卡通的出現就有效解決了上述問題,可以促使校園管理水平提升,實現管理精細化,提高信息傳輸的速度。一卡通是經過把IC卡當成重要信息載體,非常適合在校園消費和開展管理網絡系統。IC卡的出現為學生帶來了方便,可以實現生活消費等多方面的功能,有效代替了以往多張卡的使用方式。與此同時,IC卡和銀行互聯,能夠在學校中與學校之外的銀行網點進行現金提取和消費,大大提高了校園信息化管理水平[2]。
(1)k-means算法對初始簇個數K有一定的依賴性。因為不一樣的K值對算法效率與聚類結果有影響,因此K值的確定必須要用戶根據需要且通過很多實驗才可以確定。
(2)k-means算法對選取的初始簇中心相當敏感。根本原因在于k-means算法為任意抽取初始聚類中心點的,如此一來很大幾率會產生迭代次數大與迭代收斂最優解的現象,倘使真正發生這種事情,則統統無法獲取到最優解聚類成效[3]。
(3)k-means算法對孤立和噪音對象較為敏感,該情況會將最后的聚類結果質量降低,一般在運用過程中,這一算法大部分使用在發現球狀簇。
通過以上的分析,我們可以了解到,聚類成效好不好很大概率取決于簇內與簇間對象密集度,假使簇內對象密集度高,則聚類成效是很不錯的。本次研究采取處理初始聚類中心優化方式,可以大大削弱由孤立點與噪音點帶來的影響。與此同時,對點群中心聚類法加以分析,比較選取比較好的點群中心聚類優化k-means算法,這樣一來,可以達到類內密集度高和類間密集度低的效果。
于初始聚類中心選取問題方面,以往的k-means算法是于樣本數據中心隨機抽取K個對象當成初始簇中心,如此會產生初始簇中心太過集中或無法均勻分布于樣本數據集中,最終造成數據收斂需要的迭代次數增多,進而陷進局部最優解,對最終的聚類效果帶來不良影響。為防止出現該種情況發生,此次實驗根據具體狀況對初始簇中心選擇進行了優化,讓簇中心可以均勻分布樣本數據集中,防止孤立點與噪音點影響,繼而提高算法魯棒性[4]。
優化以后的算法雖于CH指標中聚類成效未達到理想中的效果且低于別的優化前試驗平均值,可是于Dunn指標以及XB指標分析過程中,優化以后的聚類效果明顯。因而此聚類分析實驗使用優化以后的k-means算法展開數據挖掘應用。
于聚類分析過程中,選取不一樣的點群中心聚類法,那么聚類效果也是不同的。以往的k-means算法使用了Euclidean Distance度量對象彼此間的聚集程度,這一點群中心聚類法對噪音與孤立點有一定的敏感性,與此同時通常僅能發掘球狀簇。因而,對不一樣的數據,要根據實際情況使用不一樣的點群中心聚類方式的k-means算法處理問題。此次實驗對幾種點群中心聚類法作了對比,按照原始數據的差異性,使用不一樣的點群中心聚類法,如Euclidean Distance、CityBlock Distance、Minkowski Distance。
此次將在學生熱水消費聚類實驗過程中,合理運用基于以上三種點群中心聚類的優化k-means算法展開聚類分析。
(1)學生歷年熱水消費。現如今,校園一卡通平臺系統中有很多刷卡記錄,在這里諸多數據源自學生平時的熱水消費刷卡記錄,同時每天都在增加。根據這部分數據中挖掘隱藏規律,為優化學校資源配置提供重要依據,是當前高校有關部門的需求。因為數據庫里面有很多數據,這些數據量大、冗余度較高,因而必須要展開數據預處理,挑選與整理出適于算法的數據集合。以某高校為例,對其在2015年—2017年學生熱水消費金及其次數進行了分析。
(2)熱水消費數據特點屬性量化。按照需求分析,為有效提升數據挖掘質量,所見算法分析時間,提高實驗結果精準度,因此本次實驗選擇2017年11月學生熱水消費171330條記錄作為樣本數據,以此實現綜上目標。
此次實驗主要是針對校園一卡通內容之一,即學生熱水消費數據情況的分析,經過合理采用點群中心聚類優化化k-means算法,全面分析高校學生熱水消費實際情況,繼而經過對比Euclidean Distance、CityBlock Distance、Minkowski Distance,我們可以從中發現,這些方法的迭代次數是一致的,沒有差別,其中ED花時少,MD的P值最小。經過整理和歸納,可以得到ED方式在學生熱水消費數據聚類成效好得多,故而選取采用ED優化K-means算法得到令人滿意的結果。
經過比較幾種點群聚類方法可以了解到,此次實驗將使用基于ED的優化k-means算法,分析與探索學生熱水消費情況。根據業務需要,把聚類個數設置成五類,經過比較分析可以得到:一類熱水刷卡行為80%分布于洗浴中心二、三層,刷卡行為多在當月中旬,時間多為中午。二類熱水刷卡行為分布于二、三層,刷卡行為多在二層,行為發生于當月中旬。刷卡行為記錄較多,刷卡行為概率大。三類刷卡行為分布于二層,當月刷卡行為在中旬,時間是下午,刷卡金額中等。四類熱水刷卡行為分布于洗浴中心一、二層,當月刷卡行為在中旬,刷卡行為在下旬,時間為下午,刷卡金額中等偏上。
因此,按照以上分析可以知道,根據POS機使用狀況,發現一、二層POS機使用率高,三層使用率較低,在當月中,全部的刷卡行為多出現在中旬,在每日中,全部的刷卡行為出現在中午。
校園一卡通平臺是數字化校園的基礎工程,本文對于某高校學生熱水消費數據的聚類分析,僅僅是校園一卡通平臺中的一部分。校園一卡通系統平臺涵蓋了很多有價值的信息,還有待持續研究與探索。