葉子健 劉士文 景冰璇 牟懌*
(武漢輕工大學(xué)電氣與電子工程學(xué)院,湖北武漢 430000)
大學(xué)生體質(zhì)測試是中國高等學(xué)校體育教育的重要組成部分,同時也是國家了解和掌握大學(xué)生體質(zhì)水平發(fā)展動態(tài)、促進(jìn)大學(xué)生身體素質(zhì)提高的關(guān)鍵措施。因此,我國各類學(xué)校都在圍繞《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》的實施及學(xué)生體質(zhì)健康水平展開了廣泛、深入的研究與探索。
《學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》測試項目包括體重指數(shù)、肺活量、50m跑、坐位體前屈、立定跳遠(yuǎn)、引體向上(男)/1min 仰臥起坐(女)、1000m 跑(男)/800m 跑(女)等[1]。通過打分制的方式對學(xué)生體質(zhì)進(jìn)行評價,由于各指標(biāo)的重要程度不同,因此這種方法并不能有效的反映學(xué)生身體健康狀況。而傳統(tǒng)的評價方法例如模糊綜合評價法[2]、熵權(quán)法[3]等,根據(jù)隸屬度理論實現(xiàn)定性評價轉(zhuǎn)化成定量評價,從而優(yōu)化上述缺陷,但美中不足的是傳統(tǒng)方法在數(shù)據(jù)挖掘中并不能獲取到一些很好的信息,因此我們可以通過機(jī)器學(xué)習(xí)來分析影響大學(xué)生體質(zhì)健康的隱含因素,并為大學(xué)生更加健康的成長提供解決思路。
在收集到15034 條體測抽檢數(shù)據(jù)中,存在部分信息缺失或者不規(guī)范、甚至是錯誤的數(shù)據(jù),因此首先要對數(shù)據(jù)進(jìn)行預(yù)處理,此過程對數(shù)據(jù)挖掘極其重要[4]。一方面是為了提高數(shù)據(jù)的質(zhì)量,減少冗余信息,結(jié)合體檢數(shù)據(jù)特點(diǎn),對訓(xùn)練數(shù)據(jù)集進(jìn)行如下處理。
2.1 對所有的空值、NULL(包括0 分)、或因身體原因免除體測的數(shù)據(jù)進(jìn)行刪除;
2.2 由于男女同學(xué)體檢的項目和檢測的標(biāo)準(zhǔn)不同,因?qū)⒛信當(dāng)?shù)據(jù)分開進(jìn)行訓(xùn)練;
2.3 為更好匹配模型,將數(shù)據(jù)歸一化,最后得到數(shù)據(jù)集13689條,如圖1 所示。
另外一方面是為了處理數(shù)據(jù)輸入不當(dāng)導(dǎo)致的數(shù)據(jù)描述不完整、數(shù)據(jù)缺失和數(shù)據(jù)的不一致的情況,需選擇合理的特征屬性。結(jié)合《學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》測試項目,選擇了男女性別、身高體重指數(shù)、肺活量、50m 跑、坐位體前屈、立定跳遠(yuǎn)、引體向上(男)/1min 仰臥起坐(女)、1000m 跑(男)/800m 跑(女)共8 個屬性。綜上所述,將清理后的數(shù)據(jù)分為4 個等級,分別為不及格(<60),合格(>60,<79),良好(>80,<90),優(yōu)秀(>90)。
文本將使用兩種不同的機(jī)器分類算法支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)對男女體測成績進(jìn)行預(yù)測。首先對原始數(shù)據(jù)進(jìn)行預(yù)處理,并按照一定比例劃分訓(xùn)練集和測試集。將訓(xùn)練集作為輸入進(jìn)行訓(xùn)練,調(diào)整各算法的優(yōu)化參數(shù)得到分類模型,再將測試集作為輸入,最后比較模型所給準(zhǔn)確性。
3.1 支持向量機(jī)簡介。支持向量機(jī)學(xué)習(xí)的基本思想是在訓(xùn)練樣本集中找到構(gòu)造最優(yōu)分類超平面的支持向量。假設(shè)給定線性可分訓(xùn)練集數(shù)據(jù)集T={(x1,y1),(x2,y2)…,(xN,yN)},其中,xi∈Rn,yi∈{-1,+1}, i=1,2,…,N。n 為樣本空間維度,yi為樣本類別標(biāo)簽。最優(yōu)分類超平面對應(yīng)著將不同類別正確分類且超平面間隔最大,此時模型訓(xùn)練誤差為零。如圖2 所示二維空間中的分類問題,圖中圓圈和正方形分別代表兩種類別,Z 表示最優(yōu)分類超平面,Z1、Z2分別表示兩類別中離超平面Z 最近的平面,其兩者間的距離稱為分類間隔。n維空間中分類器判別模型函數(shù)為:f(w)=sign(wTx+b)。超平面方程為:wTx+b=0,Z1:wTx+b=-1,Z2:wTx+b=+1。式中,w∈Rn,代表超平面的法向量。

圖2 最優(yōu)分類超平面
此時分類間隔為2/||w||,若要求最大分類間隔,則需要||w||2最小。當(dāng)所有樣本點(diǎn)均正確分類時,滿足

求最優(yōu)分類超平面問題可轉(zhuǎn)換成帶約束條件的凸優(yōu)化問題進(jìn)行求解:

對于線性不可分時,存在一定的分類誤差,不滿足上式。因此在優(yōu)化目標(biāo)函數(shù)中引入了松弛變量ζi(ζi0),此時優(yōu)化問題為:

式中:C>0 稱為懲罰參數(shù),若C 的取值越大,則對誤分類的懲罰越大,C 的取值越小,則對誤分類的懲罰越小[5]。此時,線性不可分的線性支持向量機(jī)的學(xué)習(xí)問題變成凸二次規(guī)劃問題,可用拉格朗日函數(shù),將原問題轉(zhuǎn)換為其對偶形式,如式:
當(dāng)樣本非線性時,可以選擇核函數(shù)進(jìn)行求解,常用的核函數(shù)有如下四種:①線性核函數(shù):K(x,z)=(x·z+1)p;②多項式核函數(shù):K(x,z)=(x·z)+c)d;③高斯核函數(shù):K(x,z)=exp(-||x-z||2/2σ2);④sigmoid 核函數(shù):K(x,z)=tanh(γ(x·z)+γ)。本文主要采用高斯核函數(shù)對SVM進(jìn)行研究。對應(yīng)的分類決策函數(shù)為:

3.2 BP 神經(jīng)網(wǎng)絡(luò)。BP 神經(jīng)網(wǎng)絡(luò)可以完成任意n 維到m 維的映射[6],通過模擬神經(jīng)元結(jié)構(gòu)和功能的來模擬人腦,具有快速、準(zhǔn)確、并行解決復(fù)雜問題的能力。當(dāng)訓(xùn)練樣本足夠多時,BP 神經(jīng)網(wǎng)絡(luò)能夠?qū)⒄`差降低至非常小,使預(yù)測結(jié)果足夠精確[7]。相比其他神經(jīng)網(wǎng)絡(luò)算法,BP 神經(jīng)網(wǎng)絡(luò)能夠利用隱藏層將誤差從輸出向輸入逐層反向傳播。在反向傳播過程中利用最速下降法修改權(quán)值和閥值,使誤差函數(shù)快速收斂,具有很快的訓(xùn)練速度和良好的算法[8]。
4.1 支持向量機(jī)模型。在監(jiān)督學(xué)習(xí)理論中,包含兩個數(shù)據(jù)集:一個用于建立模型,稱為訓(xùn)練樣本集;另一個用于檢驗所建模型的好壞,稱為測試樣本集。經(jīng)過對數(shù)據(jù)預(yù)處理后,隨機(jī)抽取一半的實驗數(shù)據(jù)作為訓(xùn)練集,輸入支持向量機(jī)進(jìn)行訓(xùn)練,將剩下的一半實驗數(shù)據(jù)作為測試集,利用建立好的模型分別對男女生體測成績進(jìn)行分類和鑒定。
本模型選用LIBVSM 作為訓(xùn)練和測試工具,選用高斯核作為核函數(shù)。通過十疊交叉驗證法對(c, g)參數(shù)進(jìn)行搜索,每一組(c, g)參數(shù)需要計算出10 疊交叉驗證精度的最優(yōu)值,以交叉驗證精度最高的一組(c, g)作為最佳參數(shù),男生如圖3,女生如圖4 所示。

圖3 網(wǎng)格搜尋算法尋優(yōu)圖(男)

圖4 網(wǎng)格搜尋算法尋優(yōu)圖(女)
由圖5(男)、6(女)所示,根據(jù)模型與實際情況相比較,其中所有樣本分類均正確,準(zhǔn)確率男生高達(dá)94.25%,女生高達(dá)94.87%,說明該模型具有極強(qiáng)的泛化能力,在高維度下仍具有極高的精度。

圖5 樣本誤差圖(男)

圖6 樣本誤差圖(女)
4.2 BP 神經(jīng)網(wǎng)絡(luò)模型
體測成績分類的BP 網(wǎng)絡(luò)模型采用三層網(wǎng)絡(luò)結(jié)構(gòu),即輸入層、隱含層和輸出層,各層之間相互連接。其中,輸入層的神經(jīng)元個數(shù)即樣本的特征8 個,輸出層樣本的標(biāo)簽數(shù)1 層,隱含神經(jīng)元個數(shù)為8 層。默認(rèn)BP 神經(jīng)網(wǎng)絡(luò)模型的權(quán)值,學(xué)習(xí)步長設(shè)置為0.001,最大訓(xùn)練次數(shù)為50000 次,期望誤差為0.01。將8123(男)、5494(女)組樣本標(biāo)準(zhǔn)化后作為輸入項,抽取其中1/2 作為驗證,1/2 作為測試,其余數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò)。經(jīng)過多次訓(xùn)練,若符合指定的誤差,那么該神經(jīng)網(wǎng)絡(luò)模型成立,可應(yīng)用此模型。
圖7(男)、圖8(女)為訓(xùn)練的性能曲線,表示其方差變化情況,經(jīng)過4 次循環(huán)后,網(wǎng)絡(luò)實現(xiàn)收斂,其均方差為0.0070188 和0.0098638,均小于所設(shè)定的期待誤差目標(biāo)0.001。整條曲線下降速度較快,表示學(xué)習(xí)速率的大小合適。91.85%,女生為92.14%。

圖8 BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的性能曲線(女)

圖10 樣本誤差圖(女)

圖11 BP 函數(shù)歸回圖(男)

圖12 BP 函數(shù)歸回圖(女)
體測成績受多個項目的影響,要保證成績合理的劃分,就必須對各個方面客觀的評價。傳統(tǒng)的方法成績并不是非常客觀,據(jù)此,本文引進(jìn)支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)在體測中的分析,得出以下結(jié)論:(1)將支持向量機(jī)應(yīng)用到體測成績檢測中,通過SVM 分類器訓(xùn)練樣本,使分類器擁有聯(lián)想功能,通過網(wǎng)格搜尋算法尋優(yōu)取得,最后選取高斯核函數(shù)SVM 模型,應(yīng)用于此模型完成鑒定分類,預(yù)測正確率為95%;(2)應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)模型在一定程度上減少了人為因素的干擾,省去了復(fù)雜的演算過程,最后預(yù)測準(zhǔn)確率為92%。