基于聚類分析的大學生體質異常數據提取方法

2022-11-11 03:50:36朱春

長春大學學報 2022年8期

朱春

(蕪湖職業技術學院體育教學部，安徽蕪湖241003)

隨著現代社會的發展，高校尤其重視大學生的體質測試。對體質測試的數據加以分析[1]能夠有效得到大學生體質問題的信息，在未來階段對大學生定制相應的教學方案[2]，因此，對于體質測試的數據研究工作十分重要，但對于現階段高校的教學工作者來說，對這些數據的采集、整理與分析[3]僅能通過教師手動上傳，對于海量體質測試數據[4-6]，教師無法全部精準快速地整理與匯總，無法高效地提取體質異常數據。

為此，相關學者對大學生體質異常數據提取方法進行了研究，取得了一定的進展。文獻[7]基于改進平均影響值對遺傳數據疾病進行分類并提取疾病數據特征。構建遺傳病數據的logistic回歸模型，利用多層感知技術對SVM訓練器進行改進，實現遺傳病特征分類，通過平均影響值實現疾病數據特征提取。但是，此方法特征提取覆蓋率較低。文獻[8]提出高斯核密度估計的人體健康數據異常值檢測方法，利用t-分布鄰域嵌入算法進行穩定性特征提取，利用GKDELOF法實現健康異常值檢測。該方法可以更好解決大學生多樣性體質差異導致數據產生稀疏性現象，但是在對異常數據提取方面存在提取速度較慢的問題。而聚類方法是一種能夠依據數據本身的屬性進行分區的技術，使同一簇內的數據越小越好，不同簇內的數據越大越好，即滿足聚類的過程。針對數據采取聚類分析能夠使復雜結構的數據變得統一化，使數據提取過程更加簡便。因此，本研究基于聚類分析的大學生體質異常數據提取方法，通過Relief算法調整特征的距離，利用K-means算法獲取所提取的大學生體質異常數據。

1 基于聚類分析的大學生體質異常數據提取方法

1.1 基于Relief算法的相關特征篩選

通過對大學生體質正常數據以及其中的異常數據兩部分數據進行研究。根據時間將兩種數據構建鏈接，并進行數據清洗，之后進行數據挖掘[9]。在數據清洗過程中，主要包含兩部分檢查，分別是對空值與無效值的檢查，并刪除存在兩者的數據。當鏈接建立后，有效去除了信息冗余數值，這是由于數據的數量與維度都存在各種形式的不同，通過公式(1)描述歸一化形式：

(1)

公式(1)中，異常數據的樣本值由x描述，樣本的最大值由xmax描述，樣本的最小值由xmin描述，最終歸一化處理的數據形式由q描述。

對處理后的數據進行特征選擇，即將歸一化后的數據進行“降維”。選取Relief算法，調整特征的距離，將不相似的樣本隔開，將類似的樣本靠近，即分類的成果受特征影響較大時，則將該特征的權重提升。該算法在進行特征選擇時，能夠依據數據的統計特性，提升特征選擇的速度并降低開銷，更適用于大數據集。在最終計算時，能夠獲取每個特征相應的權重，該特征的相關性與權重相關。為獲取相關特征子集，可以依據給定權重閾值，使權重小于該閾值的特征得到篩選。該算法對各式特征權重閾值進行了給定，以獲取各式的特征子集，以使下一步聚類分析更加方便，并對最終聚類受到各式特征權重閾值的改變進行了分析。

圖1 大學生體質全部數據形式

1.2 聚類分析

在對大學生體質數據進行管理時，當出現異常數據時，僅通過一條異常信息很難準確判斷異常數據的特征。因此，聚合相似異常情況的數據，將單條信息匯集為一類信息，以使得異常數據的特征能夠有效地表示出來。

將數據劃分為兩大類別，分別為正常數據與異常數據，由于大學生體質異常的情況存在不同形式，因此在異常數據中，還劃分了3類范圍更小的數據集。并通過N1描述正常數據，異常數據中的數據集，分別由A1、A2、A3描述，如圖1所示。由于A1與正常數據更為接近，能夠較快發現正常數據與異常數據的區別，因此，在剖析閾值時，首先采集類簇A1，通過該種形式，不僅能夠明顯劃分兩類數據，還能夠將更小的類簇挖掘出來，并在異常數據中實現更為細化的聚類。采用K-means算法進行聚類，該算法依據距離進行計算，且計算過程簡便、速度更快，同時還能夠給定各式的k值，使最終聚類結果不同[15]。為挖掘更小的類簇，可以采取修改k值的形式，但該算法在挑選初始點與干擾數據時較為細致，當目標函數未發生變化或不大于某個所設閾值時，該算法即結束。通過公式(2)描述目標函數：

(2)

公式(2)中，第i個簇的質心由ci描述；在簇ci內，質心與樣本x的間隔由dist(ci,x)描述；所給定的聚類數量由k描述。

1.3 改進的K-means聚類算法

由于K值的選取受用戶主觀意向影響，具備隨機性，為此，對K-means算法的所選取的K值進行改進。

1.3.1 改進K值的選取

依據K-means的聚類結果，對如下兩部分總統計量進行計算，分別是總X值與V值。其中，全部聚類變量的離差平方和之和，用X表示，即采用公式(3)進行計算：

(3)

公式(3)中，第i個簇由ci描述；ci中的點由x描述；第i個簇的均值通過ci表示；兩個對象的間距由dist表示。

在不同類別之間，聚類變量離差平方和之和，通過V描述，并采用公式(4)進行計算：

(4)

圖2 K值選取流程圖

公式(4)中，簇的大小用mi表示，第i個簇的均值用ci表示，總均值用c描述，dist的含義與上述一致。當K值已知時(該值代表聚類數量)，該聚類算法設想擁有較小的總X值與更大的總V值，表示其組內數據擁有較高的聚集能力，組間數據擁有較好的分割性能，即擁有總V/總X的值越高，性能越強。

為使最終計算結果不被樣本n以及聚類數量K改變，將總V/總X計算形式調整為公式(5)：

(5)

公式(5)中，復雜性由(n-k)/(k-1)描述，其比率越高越優秀，該公式為Calinski-Harabasz公式，具有運算效率高等特點，因此采用該公式來確定最終的適應K值。

1.3.2 選取K值的流程

選取K值的過程如圖2所示。依據枚舉方式，依次對K值進行設定，分別為2～10，并反復進行1 000次操作，以防止局部最優解現象發生，并對K值的Calinski-Harabasz值形式進行計算，最終取Calinski-Harabasz值中最大形式相應的K值作為最后所選取的K值。

2 實驗分析

為驗證研究中所提出方法的可行性，將其應用于某高校大學生某次體質測驗中，對該次體質測驗中的數據進行分析，并選取文獻[7]基于平均影響值的特征提取方法與文獻[8]高斯核密度估計異常值提取方法作為對比方法對男生女生的標準差與平均數進行分析，通過SPSS內ONEWAY模塊對此進行驗證，并在計算機內采用SPSS FOR WINDOWS6.0操作所有數據。

表1 男女生的平均數與標準差檢驗

根據表1可知，所提方法對大學生體質中的異常數據提取較為清晰，根據標準差可知所提方法所提取的體質數據中的范圍。分析3種方法在異常數據提取過程中的準確率與誤報率，分析結果如表2所示。

表2 不同方法提取的準確率與誤報率

根據表2可知，文獻[7]的方法方法的提取數據準確率最低，為86.78%，但該方法的誤報率要小于文獻[8]的方法，文獻[8]的方法具有最高的數據提取誤報率，為17.70%，而所提方法的準確率一直保持最高，且誤報率同時保持最低，因此選取研究中所提方法能夠有效減少誤報的發生，具有更高的異常數據提取準確度。

圖3 不同方法異常數據提取覆蓋率

分析在不同體質數據量下對異常數據提取的覆蓋率，并通過兩種對比方法進行對比，分析結果如圖3所示。根據圖3可知，隨著數據量的增多，對異常數據提取覆蓋率逐漸下降，文獻[7]的方法最低覆蓋率僅為62%，在3種方法中的覆蓋率最低，而文獻[7]方法的覆蓋率高于文獻[8]的方法，該方法在數據量為500個時，覆蓋率為86%，當數據量達到4 000個時，該方法的覆蓋率為74%，但依然低于研究中所提方法的覆蓋率，研究中所提方法的覆蓋率最高為94%～89%，因此，研究中所提方法的異常數據提取效果最好較高。

分析3種方法在不同數據量下對異常數據提取的內存開銷，分析結果如圖4所示。根據圖4可知，隨著數據量的增長，3種方法在異常數據提取過程中內存開銷逐漸增加，且上升趨勢較為穩定，3種方法在數據量較少時，內存開銷均未有較大差別，都保持在4.0～5.0 kB之間，其中文獻[8]的方法在提取過程中所占據的內存開銷最高，在數據量為4 000個時內存開銷達到8.5 kB，而文獻[7]的方法的最高內存開銷為7.5～8.0 kB之間，而研究中所提方法隨著數據量的提升，最高內存開銷僅達到5.6～6.0 kB之間，因此，采用此方法進行異常數據提取，能夠有效降低內存開銷。

分析不同方法在提取異常數據時的時間開銷，分析結果如圖5表示。

圖4 不同方法的內存開銷

圖5 提取異常數據時的時間開銷

根據圖5可知，隨著數據量的增長，3種方法在提取異常數據時的時間開銷也逐步提升，文獻[8]在數據量為4 000個時時間開銷最高，而在數據量為500個時，文獻[7]的時間開銷最高，當數據量達到1 000個時，文獻[8]的時間開銷提升較快，成為3種方法中最耗時的方法，研究中所提方法時間開銷量增加較為穩定，數據量由0增加到4 000個時，時間開銷始終控制在0.5 ms以內，始終保持最低的時間開銷，采用此方法能夠有效降低異常數據提取的時間。

圖6 異常數據提取數量

選取該高校中5種類別的體質數據作為測量大學生體質的項目，每個項目中包含800個數據量，從中分析文中所提方法對異常數據的提取數量，分析結果如圖6所示。根據圖6可知，經研究中所提方法所提取的異常數據量，在800 m/1 000 m跑的大學生體質異常數據最高，在全部800個數據中占375個，座位體前屈占比最少，具體有175條異常數據，說明較多大學生的體質測試中800 m/1 000 m跑中容易產生異常數據，實驗結果顯示，所提方法可有效獲取高校中大學生體質異常數據，可為相關教師提供數據支撐，以便后續開展針對性提升策略。

3 結語

基于聚類分析的大學生體質異常數據提取方法，通過Relief算法篩選體質異常數據冗余特征值，通過Calinski-Harabasz公式獲取的設定K值，最終獲取最佳聚類結果實現異常數據的提取。在未來階段，可以此為基礎繼續加深研究，通過聚類方法實現大學生體質異常數據更加精準細致的提取過程。