石曉峰,王 飛,趙 陽
?
SOM和PCA對體質健康數據的模式識別及可視化分析
——以學生體質地域特征為視角
石曉峰1,王飛2,趙陽2
摘要隨著國家學生體質健康數據量的劇增,體質健康的大數據分析及可視化成為體質研究的重要內容。自組織特征映射網絡(Se1f-Organizing Map,SOM)方法和主成分分析(Principa1 Component Ana1ysis,PCA)法對處理高維海量數據具有獨特優勢及可視化特點,從而成為大數據模式識別和可視化分析的重要工具。以山西某高校6 531名學生體質健康數據為例,以學生體質地域差異為視角,用SOM方法定性識別了學生體質健康的地域特征,用可視化PCA方法分析學生體質健康的影響因子及解釋因子的地域特征。結論:SOM和PCA方法可用于體質健康數據模式識別和可視化分析。SOM和PCA的實例分析揭示了學生體質的地域特征,分析顯示,體重和BMI指標具有地域一致性,是影響學生體質健康的最重要因素,也是學生體質健康現狀的主要解釋變量;女生體質健康的地域差異相對較大,男生體質健康的地域差異較小;可視化PCA結果還揭示了,學生體質健康指標的聚類特征也具有地域一致性。文章從實證角度論證了SOM和PCA方法在體質健康數據模式識別和可視化分析中的應用,也為體質類大數據分析提供了初步思路。
關鍵詞自組織特征映射網絡;主成分分析;模式識別;數據可視化;體質健康;地域特征
適度的體育鍛煉和充沛的身體機能是身心健康的重要保障,有規律的體育活動有助于使青少年成長過程中避免諸如肥胖、糖尿病及高血壓等頑疾的困擾[1-2],某種程度上還有利于提升并改善學習效能[3-4]。因此,各個國家均設立相應的大學機構,通過對健康促進的研究全面提升青少年群體身心健康水準[5-8]。隨著城市化進程的不斷推進,各地域間經濟水平、城市化復雜程度、社會文化的差異性,以及由此引發的一系列社會環境、生態環境的差異,使得與青少年健康成長密切相關的生產、生活環境發生了根本性改變[5],表現出一定的醫學地理特征[9-10],加之體質健康數據量的劇增使得基于大數據模式識別及數據可視化的研究方法逐漸成為體質健康研究的重要內容。長期以來,對學生體質健康的研究多集中于身體形態、身體機能和身體健康等指標參數的描述性統計與分析[11-14],未能充分考慮地域特征的影響,對體質健康大數據反映的體質健康變化模式和規律還缺乏深入、系統的研究。基于自組織映射網絡(Self-Organizing Map,SOM)可視化識別體質健康大數據模式特征的定性研究手段,以及探討主成分分析(Principle Components Analysis,PCA)降維方法對體質大數據影響要素及特征的實證研究尚不多見。因此,本研究以山西某高校學生體質健康數據集為例,以學生體質地域特征為視角,探討SOM方法對學生體質健康地域特征的定性識別,探討可視化PCA方法識別學生體質健康的主要影響因子及解釋因子的地域性特征。同時,在大數據背景下,SOM和PCA方法將有助于推動體質健康數據模式化識別和可視化相關研究,對學生體質健康地域特征研究具有一定的科學意義和實踐價值。
1.1研究對象
以山西某高校2012級6 351名學生體測數據集為例,并按照山西省的行政區劃分11個地區進行地域特征的統計劃分,各地域男女生樣本數量的分布見圖1。

圖1 研究對象的地域劃分及樣本數分布
1.2體質健康指標
依照《國家學生體質健康標準》的相關要求,學生體質測試的參數指標包括基礎6項:身高(height)、體重(weight)、BMI (body mess index)、心肺呼吸量(lung)、50 m跑(50 m)和立定跳遠(jump)。由于坐位體前屈(bend)指標有正負值共存,難以滿足PCA中數據標準化和排序的相關條件,因此,本文PCA分析中不考慮該指標。男生專項指標包括1 000 m和引體向上(pullup),女生專項指標包括800 m和1 min仰臥起坐(1min_sit)。各體質測試指標嚴格按照《國家學生體質健康標準》的規范方法測定。
1.3研究方法
1.3.1SOM模式識別與可視化方法SOM是一種具有自學習功能的人工神經網絡,采用競爭性非監督網絡結構,典型的SOM網絡包含輸入層和輸出層2層。SOM網絡神經的元結構網絡由輸入的樣本數確定,本研究中神經元類型為六邊形神經元,每個神經元均有6個相鄰的神經元,神經網絡為11×9的矩形網絡結構(樣本劃分為11個地區9個身體素質指標)。確定好神經網絡結構和大小后,每個節點的神經元被分配1個初始權重。SOM初始化一般有2種方式,即隨機初始化和線性初始化。隨機初始化,是隨機給每個神經元的向量賦一個較小權重;線性初始化,則是對各神經元向量沿輸入數據主特征向量的線性子空間有序賦值[2]。本研究采用的是線性初始化。隨后,在神經網絡訓練過程中,各神經元初始權重通過網絡競爭性算法不斷被修正,直到該神經元向量的權重和其初始權重間的歐氏距離最小而獲勝,該神經元權重向量的變化過程反應了它與周圍神經元的拓撲關系,經過數百次迭代(本研究設定200次迭代),直到整個神經網絡趨于穩定為止。需要注意的是,為消除樣本量大小對SOM網絡訓練的影響,輸入層樣本數據需要進行標注化(各值介于0~1)[15]。
本研究中,SOM對體質健康數據的分類是依據數據自身信息的映射結構進行聚類和圖像可視化表達,即使用K-means和U-matrix方法對數據特征進行歐式距離計算并分類,其主要步驟為:(1)體質健康矩陣數據經SOM訓練劃分為二維的圖像單位;(2)U-matrix方法對劃分的二維圖像單位進行聚類,K-means方法計算體質數據可視化的歐式距離;(3)U-matrix圖示化相鄰數據的相對歐式距離(用灰度陰影圖示,灰度較小表示歐式距離較小,黑色表示最大歐式距離即聚類的邊界);(4)基于K-means算法,按照U-matrix結構進行數據的空間分割,并獲得可視化SOM聚類圖。
本文對學生體質地域特征的模式識別及可視化的定性研究采用的SOM分析由Matlab2012b軟件編程完成。
1.3.2PCA主成分識別與可視化方法PCA分析是一種普遍使用的數據降維方法,其具體步驟為:(1)數據標準化,最常用的標準化是中心化和離差標準化,中心化可以用數據矩陣行中心化,也可以用數據矩陣列中心化,或者同時用兩者中心化;(2)計算屬性間內積矩陣;(3)求內積矩陣S的特征根并排序λ1≥λ2≥…≥λn;(4)求特征根所對應的特征向量;(5)求排序坐標矩陣,并計算各個主分量所含信息(各特征根所占特征根之和的百分數);(6)求得各屬性的相應負荷量。
本文探討學生體質健康的主要影響因子及解釋因子的地域性差異,采用的可視化PCA分析由R語言“Vegan”包完成,其中(1)和(2)由“Vegan”包中功能函數rda()完成,(3)~(6)由gts.pca被功能函數rda()賦值完成,可視化PCA排序圖由功能函數biplot()函數完成。最終,體質健康數據投影在PC1和PC2空間內,實現可視化PCA排序圖(平面內黑點代表了所有樣本),PCA排序圖的解讀規則是:變量的箭頭越長,表明該變量對體質健康影響越大(影響變量);變量與PC1和PC2軸的夾角越小,表明該變量對體質健康相關性越強,對體質健康的解釋越多(解釋變量)。
2.1SOM對學生體質地域特征的模式識別及可視化
SOM是一種具有自學習功能的人工神經網絡,該神經網絡在接受外界多變量輸入時,將會分成不同的區域,而不同的區域對不同變量的模式具有不同的響應特征,最終形成一種拓撲意義上的可視化的有序圖。SOM可以將任意維度的輸入信號以拓撲意義的模式,映射在一個二維分散圖上,這種分析方法通常用來分類或識別各輸入變量間的關系和模式[2]。由于SOM能夠對輸入模式進行自組織訓練和判斷,實現功能相同的神經元在空間分布上的聚集,因其具有直觀、形象和可視化的表現特征,而常用于信息學領域對大數據的聚類分析和定性研究[15]。在SOM數據模式識別及可視化研究中,通常有2種方法用來對數據進行分類分析:(1)先聚類分析,然后進行可視化的圖像標定和投影,投影后相同類別的數據進行新的圖像可視化表達;(2)依據數據自身信息的映射結構進行聚類和圖像可視化表達[15]。對于體質健康數據,因其變量的離散性而多采用第2種方法。采用SOM對樣本地區不同地域男女生體質特征的模式識別及可視化研究表明:男女生體測參數的地域特征存在差異性,呂梁和長治地區的男生身高和肺活量相對最大,晉中地區男生50 m跑和1 000 m跑成績相對較差,男生BMI和體重指數變化規律類似,說明相對于身高而言,男生BMI變化主要受體重的影響;男生50 m跑和立定跳遠變化規律具有一致性,這可能與其項目要求的短時高爆發力特征相關;陽泉、晉中和忻州地區的女生身高和肺活量指標值相對較大,50 m跑和800 m跑成績相對較差,女生BMI亦和體重變化規律類似,女生BMI指數變化亦主要受體重影響;50 m跑和立定跳遠變化規律的一致性在女生亦有相似體現(見圖2、圖3)。
SOM對于處理多維度的大數據有著明顯的優勢,其方法獨具可視化能力,能直觀反映各參數的變化格局,通過生成各參數的自組織圖,可直觀地定性化表達特定區間內各參數的分布特征[2,15]。本研究SOM分析中,基于U-matrix和K-means手段進行體質數據特征的歐式距離計算、分類和可視化表達,僅在省內各地區11個維度的聚類和定性分析,藉此反映了學生體質健康地域差異的一般規律。本質上講,SOM分析計算中,其權重的表達需要使用全部樣本數據,所含信息量大,SOM還能將輸入空間樣本模式有序地映射到輸出層上,能將高維數據映射到低維空間清晰地表達,易于發現規律[16]。需要說明的是,選取的變量個數、樣本數量和聚類個數會影響SOM的識別效果,但對于給定樣本量的數據集而言,基于數據自身信息的映射結構可以有效區分不同類別間的整體變化情況[8]。國際上,基于SOM對體質健康數據的模式識別及可視化分析還處于起步階段,如K.LAGUS等[17]基于SOM對371名研究者身體素質6項指標和3項病征指標進行了模式識別和可視化,并探討了身體素質和病征之間的聯系;PELLICER-CHENOLL等[2]采用SOM,對西班牙巴塞羅那中學4個學年的學生體能、體質、體成分和學習成績進行了模式識別,并探討不同時間段模式的變化特征,證實了較好的身體素質和較好的成績具有相似的模式特征。

圖2 基于SOM的男生體質健康指標的聚類圖

圖3 基于SOM的女生體質健康指標的聚類圖
2.2學生體質健康的主要影響因子及解釋因子的地域性差異
PCA是一種通用的降維方法,能將高維的數據通過線性變換,找出最能代表原始數據的投影方法,并將其投影到低維空間上的一種多元統計分析方法。在不同研究領域,PCA的表現方式也各不相同。體質健康數據正是由諸多個體組成的多變量數據體系,一般PCA方法只能進行主成分的識別和劃分,難以對全部個體進行可視化的PCA分析。因此,研究中引入生態學領域的排序概念進行體質健康數據處理,以實現可視化的排序圖,其本質過程是將各個個體盡可能排列在可視化的低維空間,也就是讓最前面的幾個排序軸盡可能包含大量的體質健康數據的原始信息。本文中,對體質健康數據可視化PCA的分析正是間接排序方法中基于線性模型分析的一種表現模式。以山西某高校數據集為例的PCA分析之前,需要先進行消除趨勢的對應分析,對應分析結果顯示,排序前4個軸中最大值均小于2個單位。表明,對樣本區域各地區學生(總體,男生和女生)體質健康的主要影響要素分析滿足PCA分析的前提條件。
2.2.1學生總體體質健康地域特征的PCA分析樣本地區學生體質健康地域特征PCA前四軸統計特征排序結果表明:前四軸累計方差百分比均遠大于70%;其中,臨汾地區前2個軸累計捕捉方差最大,其特征值λ1和λ2分別為3.696和1.372,共捕捉了84.5%的累計方差;太原地區前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為3.321和1.508,共捕捉了80.5%的累計方差(見表1)。

表1 各區域學生總體體質健康指標主成分分析(PCA)前四軸統計特征
應用PCA對樣本地區學生體質健康地域特征的可視化分析,揭示了影響不同地域學生體質健康的主要基本指標既有共性也存在差異性,全省及各個地區肺活量、身高和立定跳遠3個指標箭頭長度最短,表明,省內及各地區學生身體健康受肺活量、身高和立定跳遠的影響最小。50 m跑、體重和BMI存在明顯的地域差異性。太原、大同、陽泉、晉城、忻州和呂梁的50 m跑均與PC1軸具有很強的正相關性,表明50 m跑是這6個區域學生體質健康的主要基本解釋變量;而在其他地區,50 m跑則表現為負相關。此外,體重和BMI與PC1軸還表現出相對較強的相關性,尤其是體重與50 m跑成為長治、朔州、呂梁、晉中和臨汾地區學生體質健康的主要基本解釋變量。此外,可視化PCA分析還具有聚類功能,學生體質健康指標中肺活量、身高和立定跳遠歸為一類,BMI和體重歸為一類,50 m跑為一類(見圖4)。
2.2.2男生體質健康地域特征的PCA分析樣本地區男生體質健康地域特征PCA前四軸統計特征的排序結果表明:前四軸累計方差百分比均遠大于70%;其中,太原地區前2個軸累計捕捉方差最大,累計捕捉了60.0%的總體方差,其特征值λ1和λ2分別為3.042和1.760;長治地區前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為2.406和1.708,共捕捉了51.4%的累計方差(見表2)。

圖4 各區域學生總體體質參數的PCA分析

表2 各區域男生體質健康指標的主成分分析(PCA)前四軸統計特征
應用PCA對樣本地區男生體質健康地域特征的可視化分析結果表明,影響男生體質健康的主要基本指標存在地域的差異性。其中,體重指標箭頭在各地區均相對較長,是全省及各地區影響男生身體健康的首要因子;除陽泉、朔州和晉城,立定跳遠亦是其他地區共有的影響因子,陽泉地區,身高是男生體質健康的重要影響因子,肺活量是影響朔州地區男子體質健康的重要因子,50 m跑是影響晉城地區男子身體健康的重要因子。BMI和引體向上與PC1軸夾角相對較小,BMI在長治、晉城、呂梁和運城地區呈負相關,而在其他地區呈正相關;引體向上在大同、陽泉、朔州、忻州和臨汾與PC1軸呈負相關,在其他地區呈正相關。因此,BM I和引體向上是省內各區域男生體質健康的主要解釋變量。除了大同和臨汾,身高和肺活量與PC2軸夾角相對較小,也是這些地區男生體質健康的重要解釋變量,而1 000 m跑是大同地區男子體質健康的重要解釋因子,50 m跑是臨汾地區男子體質健康的重要解釋因子。此外,可視化PCA分析還具有聚類功能,除了個別地區外,男生體質健康指標中身高和肺活量聚為一類,BMI和體重屬于一類,50 m和1 000 m跑為一類,立定跳遠和引體向上為一類(見圖5)。

圖5 各區域男生體質參數的PCA分析
2.2.3女生體質健康地域特征的PCA分析樣本地區女生體質健康地域特征PCA前四軸統計特征的排序結果表明:前四軸累計方差百分比均遠大于70%;其中,長治地區前2個軸累計捕捉方差最大,累計捕捉了51.8%的總體方差,其特征值λ1和λ2分別為2.133和2.014;運城地區前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為2.040和1.908,共捕捉了49.4%的累計方差(見表3)。
應用PCA對樣本地區女生體質健康地域特征的可視化分析結果表明,影響各區域及總體女生體質健康的主要基本指標既有共性也存在差異。其中,體重指標的箭頭在各地區均相對較長,是全省及各地區影響女生體質健康的首要因子;除陽泉、大同和長治外,BMI亦是其他地區共有的影響因子;50 m跑是這3個地區女生體質健康的重要影響因子,立定跳遠對大同地區女生體質健康影響較大,肺活量對陽泉地區女生體質健康影響較大。除了晉城和臨汾地區外,其他各地區BMI指標與PC1軸夾角相對較小,構成了這些地區女生體質健康的共同解釋因子;體重是除了太原、忻州和晉中地區外,其他地區女生體質健康的重要解釋因子。其他解釋因子的地區差異性較為明顯,如身高是太原、陽泉、忻州和晉中地區女生體質健康的重要解釋因子,而1 min仰臥起坐則是大同、晉城、朔州、呂梁和臨汾的重要解釋因子。不容忽視的是,這些影響因子與PC1軸和PC2軸的相關性(夾角大小)還存在正負差異性,如長治地區50 m跑與PC2軸正相關性較強,而在臨汾地區則表現出較強的負相關。此外,可視化PCA分析還具有聚類功能,女生體質健康指標中,身高和肺活量聚為一類,BM I和體重為一類,50 m和800 m跑為一類,立定跳遠和1 min仰臥起坐為一類(見圖6)。
本研究引入生態學領域的排序概念,對體質健康數據進行PCA分析,圖4~圖6的可視化結果較好地展示了不同地域特征下,學生體質健康的影響因子及解釋因子。本研究中,PCA方法將數據集中,所有數據通過線性變換,找出最能代表原始數據的投影方法,并將其投影到PC1和PC2所在空間上,并在圖中以各黑點代表各單個樣本,實現了PCA在體質健康研究領域的可視化表達。目前,PCA在體質健康方面的研究主要集中于主因子識別和提取、數學建模的數據預處理及與其他模型的耦合。如A.R.CALAVALLE等[18]通過臺階試驗,對不同心率儲備階段消防員體質健康指標進行了主成分識別和提取;J.ZHOU等[19]對COSMED心肺功能儀器22項指標進行PCA分析,并耦合ANN,進行數據建模。

表3 各區域女生體測參數的主成分分析(PCA)前四軸統計特征

圖6 各區域女生體質參數的PCA分析
綜上,本文以山西某高校數據集為例,充分探討了SOM和PCA方法在體質健康大數據中的模式識別和可視化研究。以體質健康地域特征為視角的實證分析中,SOM結果揭示了男女生體重問題成為決定BM I變化的主要因子,PCA結果揭示了大部分地區亦表現出類似的特征。前人研究表明,體質活動與其所居住的環境有著密切的關聯,表現出一定的空間差性[20-22]。本研究實證分析結果顯示,男生受立定跳遠指標(除陽泉、晉城和朔州地區)的影響,女生受BMI影響較大(除大同、陽泉和長治地區)。表明,山西省內各地區男女生存在營養過剩現象,超體重或肥胖問題成為當前影響學生體質健康的主要因素,這與前人研究結果相一致[12,23-25]。此外,BMI更是這些地區學生體質健康的重要解釋因子之一(男生除了陽泉地區,女生除了晉城地區)。男女生體質健康的差異還在于,絕大多數地區女生需要控制體重,而男生需要提升引體向上和肺活量的成績。雖然PCA結果提示,男生身高也是大多數區域學生體質健康的重要解釋因子,但在這一年齡段身高已基本定型,通過體育活動提升肺活量是有效改善男生體質健康切實可行的途徑。相對于男生體質健康的地域差異而言,女生體質健康的地域差異特征更為明顯。太原、陽泉、忻州和晉中地區女生,通過提升肺活量有助于改善和提升體質健康;大同、晉城、朔州和臨汾地區則通過提高1 m in仰臥起坐成績提升女生的體質健康;長治、呂梁、臨汾和運城地區女生體質健康的提升,則需要提高50 m跑的成績。此外,立定跳遠成績的提升有助于大同、長治、朔州和運城地區女生體質健康的提升,而800 m跑成績的提升僅對晉城地區女生體質健康提升有效。值得注意的是,學生體質健康的提升是身體綜合素質共同作用的整體,本研究結果提示,通過針對區域某一具體指標的體育活動有助于該區域體質健康的提升,但以不能忽略和降低其他指標的體育鍛煉為前提。
SOM和PCA是體質健康數據模式識別和可視化的重要方法,以山西某高校學生體質健康數據為例,SOM和PCA分析結果揭示學生體質健康具有如下地域特征。(1)學生體質健康的體重和BMI指標具有地域一致性,是影響學生體質健康最重要的因素,也是絕大部分地區學生體質健康現狀的主要解釋變量。(2)女生體質健康的地域差異相對較大,其中,50 m跑、1 m in仰臥起坐和肺活量構成部分地域女生體質健康現狀的解釋變量;男生體質健康的地域差異較小,除BM I指標之外,男生體質健康受引體向上和肺活量的影響較大,個別地區還與50 m跑和1 000 m跑有關。(3)可視化PCA結果還揭示了學生體質健康指標的聚類特征具有地域一致性,即身高和肺活量屬于同一類群,BM I和體重屬于同一類群,50 m跑和800 m跑(女生)/1 000 m跑(男生)屬于同一類群,立定跳遠和1 m in仰臥起坐(女生)/引體向上(男生)屬于同一類群。
參考文獻:
[1]TSIROS M D,OLDS T,BUCKLEY J D,etal.Health-rela tedqual ityo f lifein obese child renandado l escen ts[J].Intern ationalJournal o fObesi ty, 2009,33(4):387-400.
[2]PELLICER-CHENOLL M,GARCIA-MASS X,MORALES J,et al. Physica l act ivity,physic al fitnessandaca dem icachi eve m entin ado l escen t s:a self-o rga n izingm apsap p ro ach[J].Heal th Educa tio n Resear ch,2015,30(3):1-13.
[3]ERWIN H,FEDEWA A,BEIGHLE A,et al.A quant itative revi ew o f physic alact ivity,heal th,andlearn ing ou tc om es associ ate d w it h classroombased physic al act ivity in te rven t ion s[J].Jou rn al o f App li ed Schoo l Psycho l ogy,2012,28(1):14-36.
[4]KANTOMAAM,TAMMELINT,DEMAKAKOSP,etal.Physica l act ivity,em oti onalandbeha vio u ralp rob l em s,m ate rnaleduca tio nandself-repo rt ed educa tio nalperfo rm ance o fado l escen ts[J].Health Educa tio n Resear ch,2009:cyp 048.
[5]汪曉贊,郭強,金燕,等.中國青少年體育健康促進的理論溯源與框架構建[J].體育科學,2014,34(3):3-14.
[6]COE D P,PIVARNIK J M,WOMACK C J,et al.Effect o f physic al edu cat ion and act ivity levels on aca dem icachi eve m entin child ren[J]. M ed i cineandSciencein Sp ort s andExercise,2006,38(8):1515.
[7]DONNELLY J E,GREENE J L,GIBSON C A,etal.Physica l Activity AcrosstheCurricu lum(PAAC):a rando m izedcont ro lled tria l top rom ot e physic al act ivity and d im in i sh ove rw ei gh tand obesi ty in elem en ta ry schoo l child ren[J].Preven tiveMedi cine,2009,49(4):336-341.
[8]ARDOY D,FERN NDEZ-RODR GUEZ J,JIM NEZ-PAV N D,etal.A Physica l Educa tio n tria l im p rov es ado l escen ts'cog n itive perfo rm ance andaca dem icachi eve m ent:theEDUFIT study[J].Scand inav ian Journal o fMedi cine&Sciencein Sport s,2014,24(1):52-61.
[9]王茜.中國女大學生體質狀況的空間變異特征研究[J].科技通報,2012,27(6):853-858.
[10]張瑩,劉東寧.步行適宜性人居環境與體質健康關系的研究[J].環境與健康雜志,2013,30(5):449-452.
[11]張宗國.影響《國家學生體質健康標準》測試結果的主客觀因素分析[J].體育科學,2009(9):86-91.
[12]吳新宇,付曉春.大學生體重指數與體質健康指標關系的研究[J].北京體育大學學報,2006,29(8):1087-1088.
[13]陳培友,鄒玉玲.青少年體質健康標準構建方法研究[J].體育科學,2013,33(11):84-88.
[14]楊漾,陳佩杰,洪茯園,等.上海市2000-2010年學生體質健康狀況變化趨勢分析[J].中國學校衛生,2012,33(10):1201-1204.
[15]WANG F,WANG X,ZHAO Y,et al.Long-term Water Quali ty Variatio nsandCh lo rophy ll a Sim u la tio nw it h an Em phasis onDifferen t Hyd ro l og i cal Period s in Lake Baiyang d ian,No rth ern Ch ina[J].Jou rn al o fEnvironm ent al In form a tics,2012,20(2):90-102.
[16]DELMELLE E,THILL J C,FURUSETH O,et al.raje cto ries o f m u lti d im ensio nal neig hbou rho od qual ity o f life chang e[J].Urban Stud ies,2013,50(5):923-941.
[17]LAGUS K,VATANEN T,KETTUNEN O,etal.Pathso fwel lbei ngon self-organi zingm aps[M].Berlin:Sp ring er,2013:345-352.
[18]CALAVALLE A R,SISTI D,MENNELLI G,etal.A sim p lem etho d to anal yzeove rall indi vidu al physic al fitnessin firefig hters[J].The Journal o fStren gth&Condi tio ningResea rch,2013,27(3):769-775.
[19]ZHOUJ,GUOA,CELLER B,etal.Fau ltdete ctionandiden tificatio n spanning m u lti p lep roce ssesbyinte grat ing PCA w it h neura l netw ork[J]. App li ed So ftCom pu t ing,2014,14,PartA:4-11.
[20]ZIMRING C,JOSEPH A,NICOLL G L,etal.In fluence s ofbuilding de sign and site desig n on physic al act ivity:researc h and inte rvent ion op p ortu n ities[J].Am e rican Jou rnal o fPreven tive Med i cine,2005,28(2):186-193.
[21]REMMERS T,VAN KANN D,GUBBELS J,et al.Mode rato rs o f the
long itud inal rela tio nship betw een theperce ived physic al envi ronm ent andou tsi d ep layin ch ild ren:theKOALA b irthcoho rtstudy[J].In te rnatio nalJournalo f Beha vio ral Nutri tio n and Physica l Activity,2014,11(150):0150-8.
[22]DREWNOWSKI A,AGGARWAL A,REHM C D,etal.Environm ent s perce ived as obeso geni c have low er reside ntia l p rope rty values[J]. Am eric an Jou rnal o fPreven tiveM ed i cine,2014,47(3):260-274.
[23]洪海瀟,蘇連勇.天津市大學生BM I指數的15年動態分析[J].首都體育學院學報,2014,26(3):279-283.
[24]蔡忠建,袁建國.大學生體質健康指標的權系數及關聯分析[J].上海體育學院學報,2009(2):74-78.
[25]王國軍,王輝,席翼.基于模糊評價的體質健康評價隸屬函數的建立——兼與2篇論文的商榷[J].天津體育學院學報,2012(6):519-523.
中圖分類號:G 80-3
文獻標志碼:A
文章編號:1005-0000(2015)04-282-06
DOI:10.13297/j.cnki.issn1005-0000.2015.04.002
收稿日期:2015-05-22;修回日期:2015-06-28;錄用日期:2005-06-29
基金項目:國家自然科學基金項目(項目編號:41401020);山西省軟科學研究計劃項目(項目編號:2015041026-4);山西省高等學校創新人才支持計劃資助
作者簡介:石曉峰(1979-),男,山西太原人,博士,副教授,研究方向為體育教育訓練學。
作者單位:1.山西大學體育學院,山西太原030006;2.山西大學體育科學研究所,山西太原030006。
Pattern Recognition and Visualization of Physical Fitness Data using SOM and PCA:Based on Geographical Features Perspective of Student Fitness
SHI Xiaofeng1,WANG Fei2,ZHAO Yang2
(1.Schoo1ofPE,ShanxiUniversity,Taiyuan030006,China;2.SportsScienceResearch Institute,ShanxiUniversity,Taiyuan030006,China)
AbstractWith the data exp1osion on physica1 fitness,big data ana1ysis and data visua1ization have become one of important contents on ado1escent physica1 hea1th research.Data hand1ing techniques of se1f-organizing map ana1ysis(SOM)and princip1e component ana1ysis(PCA)are important methods in pattern recognition and data visua1ization due to their unique features.W ith the scope of geographica1 features perspective based on 6 531 co11ege samp1es,geographica1 patternofphysica1fitnesswasqua1itative1y identified and visua1ized by themeansofSOM.Meanwhi1e,thekey inf1uencing factorsand re1evantexp1ainingvariab1es of physica1 fitness were visua1ized and extracted to demonstrate the geographica1 differences by PCA.Resu1ts showed that SOM and PCA are powerfu1 too1s for pattern recognition and data visua1ization on physica1 fitness research.The ana1ysis of the examp1e indicated the geographica1 consistency of body weight and BMI, whichwerethemostinf1uencing factorsonphysica1fitness,aswe11astheexp1anatory variab1esofphysica1fitnessstatus.The re1ative1argegeographica1differences of physica1 fitness were observed in fema1e ado1escents,but with 1ess geographica1 differences in ma1e ado1escents.The visua1ized PCA resu1ts a1so revea1ed the geographica1 consistency of c1ustering characteristics on physica1 fitness variab1es.The research demonstrated the powerfu1 too1s of SOM and PCA on the physica1 fitnessresearch,andwhicha1soprovidedanew perspective tostudy thephysica1hea1th.
Key wordsSOM;PCA;pattern recognition;data visua1ization;physica1 hea1th;geographica1 feature