賀 矗
利用足跡分析身高是足跡檢驗工作中非常重要的一部分,長期以來有大量的學者研究足跡與身高的關系。但是已有的研究并沒有關注所測量的足跡不同部位之間是否具有相關性,當這些測量值之間存在高度相關性時,建立的回歸模型會出現多重共線性問題,多重共線性可能會導致分析結果出現一些不合理的情況。本文選用主成分分析法和多元回歸結合的方式通過赤足跡建立預測身高模型。
研究對象是中國刑警學院在校學生和干訓學員,實驗對象沒有足部疾病,在相同的實驗環境下采用油墨捺印的方式讓實驗對象自然行走。共采集100 人的赤足跡。
結合當前已有的研究成果[1-4],以左足跡為例選取8 個變量進行主成分分析。分別是跖內緣到跟平行線(X1)、足長(X2)、跖寬(X3)、跟寬(X4)、第一趾前緣到跟(X5)、第五趾前緣到跟(X6)、第一趾前緣到跟平行線(X7)、第五趾前緣到跟平行線(X8),各變量如圖1 所示。

圖1 足跡測量示意圖
多重共線性分析。在進行多元回歸分析時有個基本假設是各變量間相互獨立,如果兩個或多個變量之間出現了相關性,則稱為多重共線性[5]。多重共線性會導致回歸系數符號出現錯誤,即積極變量被認為是消極變量。用赤足跡的各個變量與身高建立回歸模型時不僅要考慮各變量與身高的相關性,還要考慮各變量間的相關性。本文所采用的各變量與身高的相關性如表1 所示,各變量間的相關性如表2 所示。
以0.7 為閾值,可以從表1 中看出變量X2、X5、X6、X7、X8 都與身高具有相關性,假定不考慮多重共線性,直接建立多元回歸公式如下。

但是從表2 可以看出,變量X2、X5、X6、X7、X8 之間是具備相關性(淺灰色區域)的,甚至具備極強的相關性(深灰色區域)。本文采用主成分分析法提取出變量間的主成分,以新的主成分作為獨立變量進行回歸分析達到消除共線性問題。
主成分分析法(Principal Component Analysis,PCA)的核心思想是降維,將多組存在線性關系的變量通過正交變換的方法轉換為幾組線性不相關的變量,此時的變量即為主成分[5]。此方法能夠克服單一變量不能準確預測身高的問題,實現更為科學準確的預測。

表1 變量與身高的相關性
從100 人的實驗數據中共選取了25 人的左赤足跡,并對數據進行標準化處理并得出相關系數矩陣,運用matlab 軟件對系數矩陣進行主成分分析,各主成分得分如表3 所示,可以看出第一主成分(F1)主要包含跖內緣到跟平行線(X1)、第一趾前緣到跟(X5)、第一趾前緣到跟平行線(X7)。X1、X5、X7 都是足內側的前端到后端的測量距離,可以將第一主成分解釋為足內側前后間的距離。第二主成分(F2)主要包含第一趾前緣到跟(X5),并且占很大比重,可以將第二主成分近似解釋為第一趾前緣到跟(X5)。第三主成分主要包含跟寬(X4),可以將第三主成分近似解釋為跟寬(X4)。第四主成分主要包含跖寬(X3),可以將第四主成分近似理解為跖寬(X4)。從表2 中可以看出降維后得到的4個主成分相關性非常弱,消除了多重共線性問題,可以對4 個主成分進行多元線性回歸。
由實驗采集數據和主成分得分系數可以計算出主成分得分,利用matlab 對各主成分得分進行多元回歸分析,獲得多元線性函數如下。

用公式(2)對25 組數據的身高進行預測,各預測身高和真實身高的最小相對誤差絕對值是0.084%,最大相對誤差絕對值是10.341%,平均相對誤差絕對值是3.891%。25 組數據中有20 組數據的最小誤差絕對值是小于6%的,說明利用公式(2)預測身高的精確度較高。同時對100 人的身高進行預測,在正負3 的誤差范圍內比當前已有的回歸公式預測準確度高出7%至34%。

表2 各變量間的相關性

表3 主成分得分系數
本文首先從正態分布的角度考慮了實驗數據的價值,其次探討了身高和8 個變量以及變量之間的相關性,然后運用主成分分析法對變量參數進行降維得到4 個主成分,最后利用主成分建立回歸模型。
1)主成分分析法可以將眾多與身高具有相關性的變量進行降維,消除多重共線性對回歸模型的影響。
2)經過主成分分析后提取的4 個主成分包含了原始樣本數據95%以上的信息,能夠充分保障回歸模型的準確性。
3)主成分回歸模型平均相對誤差絕對值是3.891%,表明主成分分析后再進行多元回歸獲得的模型精度較高,在正負3 的誤差范圍內比當前已有的回歸公式預測準確度高出7%至34%。