王曉貞
(中國礦業大學體育學院,江蘇 徐州 221116)
理論與方法探索
數據挖掘在普通高校大學生體質健康數據中的應用
王曉貞
(中國礦業大學體育學院,江蘇 徐州 221116)
本文運用數據挖掘技術中關聯規則FP-growth算法,對普通高校大學生體質健康數據進行數據分析,利用最小支持度和最小置信度,挖掘出滿足條件的頻繁項集,從挖掘的規則中發現有價值的數據模式,找出我國不同地區大學生體質各項指標的等級分布情況,發現某地區大學生體質某項指標的不足,進而分析出其中的原因,為有效地提高學生的體質健康水平及體育教學的改革提供參考。
體質數據;數據挖掘;關聯規則;普通高校;大學生
教育部于2002年7月正式頒布試行《大學生體質健康標準》(以下簡稱《標準》),開始對全國高校大學生進行“大學生體質健康”測試。《標準》實施幾年來,大部分高校都有了較全面的體質數據的記錄和統計,面對大量的數據,原來對體質數據進行均值分析或是套用規定的評價公式評價分析的數據庫管理方式和數據統計方法已經逐漸不能適應“健康體育”的建設需求。如何從這些大量的數據中,深入尋找體質各項指標與其他各種因素間的相互聯系,發現諸多因素之間的動態變化規律,從而對大學生體質數據進行深層分析,使之及時準確地提供有價值的信息成為我們研究的重點。本文運用數據挖掘技術對普通高校大學生體質健康測試數據進行分析,找出體質數據中有用的模式和規則,為有效地提高大學生體質健康水平和高校的體育教學改革提供參考。
1.1 數據挖掘的產生及涵義
數據挖掘(DataMining)簡記為DM,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據庫或數據倉庫中提取隱含的、先前未知的、對決策者有潛在價值的知識和規則。在1989年舉行的第11屆國際聯合人工智能學術會議上,人們首次提出了基于數據庫中知識技術,直到1995年,人們才在美國計算機年會上首次提出數據挖掘概念。
1.2 數據挖掘的模式和方法
數據挖掘通過預測未來趨勢及行為,做出前瞻的、基于知識的決策。其挖掘的目標是從數據庫中發現隱含的、有意義的知識模式。這些模式一般有兩種,即信息型模式和預測型模式。信息型模式不是用來解決一個特定的問題,而是從數據庫挖掘出某領域專家可能不知道的、有興趣的知識模式,給這些專家提供一些建議,從而為決策提供指導。常用方法有聚類分析和關聯分析等。預測型模式通常用來解決一個特定的問題,根據數據庫中的已知的屬性的值來預測另一些未知的屬性值的分布,以此達到預測的目的。常用方法有回歸分析、線性模型、關聯規則、決策樹預測、遺傳算法、神經網絡等。
1.3 數據挖掘的基本過程和步驟
數據挖掘是一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。其基本過程見圖1。
數據挖掘的基本過程中各步驟的大體內容如下:(1)確定研究對象,清晰地定義出研究問題。(2)數據準備。①數據的選擇。搜索所有與研究對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。②數據預處理。研究數據的質量,將數據中哪些噪聲數據、空缺數據和不一致數據清除掉,為進一步的分析做準備。③數據轉換。將預處理后的數據進行規范化和聚集,轉換成數據挖掘算法需要的格式。(3)數據挖掘。對所得到的經過轉換后的數據運用合適的數據挖掘算法進行數據的挖掘。(4)結果分析。解釋并評估結果,通常用可視化技術將挖掘結果以合適的形式提供給用戶,讓用戶對模型結果做出解釋。(5)知識的同化。將分析所得到的知識集成到業務信息系統的組織結構中去。

表1 示例數據庫

圖1 數據挖掘的基本過程和步驟

表2 通過創建FP-Tree挖掘頻繁模式

圖2 FP-Tree結構圖

表3 全國地區分布表

表4 導出的我國六大地區大學生體質各項指標的關聯規則
2.1 關聯規則
關聯規則的概念和模型是1993年Rakesh Agrawal等人提出的。關聯規則挖掘是在大量的數據中發現數據項之間的關系,是當前數據挖掘研究的主要模式之一,它側重于確定數據中不同領域之間的聯系,找出滿足事先給定支持度和可信度閾值的多個域之間的依賴關系。關聯規則的挖掘問題可以分解成兩個子問題:(1)找出所有頻繁項集。這些項集出現的頻率滿足最小支持度min_sup,即這些項集在數據庫中的頻繁性不小于最小支持計數。(2)從頻繁項目集合中生成所有置信度不小于用戶定義的最小置信度min_conf的關聯規則,即對于任一個頻繁項目集F和F的所有非空真子集S,如果sup(F)/sup(F - S)≥ min_conf,則(F - S)S就是一條有效的關聯規則。

圖3 體質健康數據表結構

圖4 部分體質健康數據
經典的關聯規則算法主要是Apriori和FP-Growth兩種算法,其他關聯規則的算法都是基于這兩種算法的改進。Apriori算法是最早提出的關聯規則算法,其優點是能夠有效地產生出所有關聯規則,存在的問題是Apriori算法對數據庫掃描次數太多,產生的候選集過大,掃描數據庫需要花費大量的時間。FP-growth算法一種挖掘頻繁模式的有效算法。該算法的優點運行速度快,運行過程中只需要兩次掃描數據庫,第一次掃描數據庫得到頻繁1-項集;第二次掃描利用頻繁1-項集過濾數據庫中那些非頻繁項,同時生成FP-tree。
FP-growth比Apriori算法相比要快一個數量級,特別是在數據項集大的情況下更顯得效率高些。因此,本文選擇使用的是一個基于FP-tree的頻繁模式挖掘算法對普通高校大學生體質健康數據進行關聯規則挖掘。
2.2 FP-Growth算法
頻繁模式增長 FP-growth(frequent pattern-growth)算法是由 Han 等人于2000 年提出,該算法是一個具有影響力的頻繁模式挖掘算法。算法只需掃描 2 次數據庫,第一次掃描數據庫,得到 1-頻繁項集;第二次掃描數據庫,利用 1-頻繁項集過濾掉數據庫中的非頻繁項,同時生成 FP-tree。 由于 FP-tree 蘊涵了所有的頻繁項集,隨后的頻繁項集的挖掘只需要在 FP-tree 上進行。整個挖掘過程由兩個階段組成,第一階段建立 FP-tree,即將數據庫中的事務構造成一棵 FP-tree;第二階段為挖掘 FP-tree,即針對 FP-tree挖掘頻繁模式和關聯規則。(表1)
第一階段,FP-tree 的創建。 圖2描述了一個基于表 1 所示的示例數據庫構造的FP-tree 的例子。
第二階段,FP-tree 的挖掘。表 2 列舉了圖 2所示 FP-tree 挖掘的結果(最小支持度計數為 2)。
2.3 FP-growth 算法在普通高校大學生體質健康數據中的應用
2.3.1 挖掘前數據的準備本次挖掘的數據庫中主要包含以下一些數據表,如學生來源信息表(學號、姓名、系別、班級、生源所在地、城鄉)、學生體質測試成績表(學號、姓名、性別、班級、身高、體重、肺活量、柔韌力量類項目成績、速度靈巧類項目成績和耐力類項目成績)。全國地區分布表見表3。
2.3.2 使用關聯規則算法 FP-growth 挖掘大學生體質數據主要過程
(1)數據的預處理。①數據的清洗:根據獲取的原始數據的特點,體質測量數據中的身體情況異常的,如生病、受傷或身體殘疾的學生的測試數據以及因事請假或無故缺測的學生,其數據值為空或是不完整數據,這些數據都將被視為噪聲刪除而被清理。②數據的消減:學生來源信息中只保留學號、性別、籍貫、城鄉與挖掘分析相關的屬性,學生體質表中有些屬性重復反映身體素質的某些因素,我們將選擇刪除這些冗余的屬性,如50米跑和立定跳遠兩項指標均反應的是學生下肢爆發力和身體的協調性,臺階實驗和女生800米跑或男生1000米跑反應的是學生的心血管系統的機能和肌肉耐力水平,根據研究需要選擇把反應各類素質的指標我們從中選擇一項。最后消減后的數據有身高、體重、肺活量、立定跳遠、臺階試驗、握力、仰臥起坐7項指標。③數據的變換:根據大學生體質健康測試評分標準,我們將原學生體質表中的成績先轉換成得分然后再轉化成相應的等級,每項指標的等級都分為優秀、良好、及格和不及格4個等級,使得每個數據指標對分析結果都具有相當的影響度,從而使數據挖掘的結果更加合理。另外,還要對某些指標進行組合。由于體質數據指標中有些指標是幾個指標組合起來才有意義,因此要預先對一些指標進行組合。例如,將體重與握力指標組合在一起形成握力體重指數,肺活量與體重指標組合在一起形成肺活量體重指數,同樣將所得指數轉化成相應的等級。
(2)數據的挖掘。將 FP-growth 算法應用在普通高校大學生體質健康數據中,挖掘出大學生體質各項成績的等級分布與地區之間隱含著的關聯。
2.3.3 基于FP-Growth算法的體質健康數據關聯規則挖掘的實現采用SQL Server2005作為后臺數據庫,經預處理以后,體質健康數據在數據庫中的存儲情況如圖3和圖4所示。
當取最小支持度(Min-sup)為0.10,最小置信度(Min-conf)為0.45時,通過FP-Growth算對普通高校大學生體質數據進行關聯規則挖掘,得出我國六大地區大學生體質各項指標的關聯規則見表4。
2.3.4 普通高校大學生體質健康數據挖掘結果分析從表4中1~6的6條規則我們可以看出,我國6大地區身高體重指數等級中正常體重的百分比的數值基本上都在45%~50%之間,說明我國大學生體質指標中身高體重等級的正常值相對較低。體質指標中身高體重的等級分為肥胖、超重、體重較低、營養不良、正常體重5個等級,除正常體重等級外,其他4個等級均屬于不正常的等級。因此,從數據的挖掘結果來看,我國大學生的有近一半的學生出現體重指標不正常的現象,有的因體重過高出現肥胖或超重,有的體重過低而出現體重較低或營養不良。
身高、體重作為身體形態特征的兩項重要基本指標,不僅反映了學生骨骼生長發育的基本特點,而且可以較為準確地反映學生生長發育水平。隨著我國綜合國力的提高,生活水平的普遍改善,如若不加以正確引導,熱量、脂肪等會攝入過多及食物結構不合理,加之營養科學知識的宣傳普及滯后,會導致學生肥胖和超重現象的發生。
另外,當前人們越來越注重體型,保持良好體型的觀念已經深入人心。但由于受到女性“以瘦為美”審美觀的影響,使得許多在校女大學生過分追求苗條的身材,有些甚至不吃早餐和節食,造成營養不良,從而體重較輕和營養不良的比例較高。而大多數男生則很少受到這種思想觀念的影響,體重較輕的比例較小,但超重和肥胖率略高。因此,加強營養學知識的傳授,特別是一日三餐營養的合理搭配,要引導學生培養良好的飲食習慣。
從規則7和8可以看出,華北地區和西北地區大學生速度、靈敏類等級不及格分別是69%和66%,這兩條規則的置信度都較高,說明華北地區和西北地區大學生的速度、靈巧類素質相對于我國其他地區較差。測試速度、靈巧類素質我們所選的項目是立定跳遠,立定跳遠主要是測量向前跳躍時下肢肌肉的爆發力。力量(最大力量)在體育運動和日常生活中都是非常重要的身體素質。腿部的爆發力是以腿部力量為基礎,沒有力量就談不上爆發力,也談不上肌肉的耐力。立定跳遠成績較差的主要原因可能是我們的體育課教學中缺乏有針對性的下肢力量的練習或者在平時的體育鍛煉中下肢練習不足。
規則9反應東北地區學生肺活量體重等級不及格的百分比達到63%,說明東北地區學生肺活量體重等級普遍低于我國其他地區。分析原因認為,可能與東北地區在校學生缺乏鍛煉尤其是有氧運動有關,從而導致呼吸肌力量下降,呼吸機能的潛力減小,呼吸深度變淺。
規則10反應出東北地區大學生耐力類項目不及格者達61%。規則9和10的數據說明心肺機能對于肺活體重指數和臺階試驗起著決定性的作用,當學生心肺機能較低時這兩項指標的也會較低,兩者之間有一定的相關性,而提高心肺機能最有效的鍛煉就是進行有氧運動。因此,應注意加強有氧運動的練習,從而提高其心肺機能。
本文主要運用FP-Growth算法對普通高校大學生體質健康測試數據進行關聯規則的挖掘,從大量的數據中我們得出我國普通高校大學生正常體重等級普通較低,各地區間沒有明顯差異,華北、西北地區學生下肢爆發力較差,東北地區學生心肺機能水平較其他地區低。這些有價值的規則和信息,對我們建立行之有效的體育教學改革思路提供參考依據。
[1] Fayyad U,Piatetsky-Shapiro G,Smyth P. the KDD process for extracting useful knowledge from volumes of data [J].Communications of the ACM,1996,39(11):27-34.
[2] Jiawei Han,Micheline Kambr.Data Mining Concepts and Techniques [M].San Francisco:Morgan Kaufmann Publishers,2000.
[3] 陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006.
G807.4
A
1674-151X(2011)05-109-04
10.3969/j.issn.1674-151x.2011.05.053
投稿日期:2010-11-17
王曉貞(1970 ~),副教授,碩士研究生導師。研究方向:體育教育訓練學和體育社會學。