胡海濤 喻 孜
體育數據分析中一元線性回歸的三種方法
胡海濤 喻 孜
(南京林業大學 體育教育部 理學院,江蘇 南京 210037)
一元線性回歸是體育數據分析中常用的一種數據處理方法。很多數據處理軟件內置的一元線性回歸功能都是基于最小化方差(LS)的最小二乘法回歸。文章探討最小化點到直線距離(LD)的回歸和Theil-Sen(TS)回歸,作為國內現有體育數據分析方法的補充。LS方法數學形式更為簡潔,LD方法與作圖法采用的策略相同,TS方法計算量較大。以安踏體育在國內市場占有率數據和高校學生體育課成績數據為例,比較了三種線性回歸算法的異同。在數據具有明顯的線性特征時,三種回歸算法效果接近。當數據有少數“離群值”時,使用TS回歸效果更好。當數據有“類橢圓”分布特征時,LD方法最優。
線性回歸;最小二乘法;Theil-Sen回歸
回歸分析是利用數理統計方法建立因變量與自變量之間的函數表達式。回歸分析中,當研究的因果關系只涉及因變量和一個自變量,并且兩者的關系為線性時,叫做一元線性回歸分析。一元線性回歸在體育數據分析中有廣泛的應用[1-4]。很多體育數據,往往是一個時間序列,具有趨勢性、周期性和隨機性。在分析這類數據時,一元線性回歸分析能夠快速判斷出因變量隨自變量的變化趨勢,從而為數據預測提供幫助。目前,體育統計學中經常采用SPSS統計和EXCEL軟件進行回歸分析[3-6],這些軟件所采用的一元線性回歸都是基于最小化方差的回歸。很多體育數據分析的文獻所討論的最小二乘法回歸,也都是基于最小化方差的回歸[7-8]。事實上,一元線性回歸還有其他的方法,當數據呈現不同特征時,不同的方法會有不同的效果。目前在體育數據分析領域中,對其他一元線性回歸方法的討論還比較少。文章將討論三種一元線性回歸方法,并對三種方法在物理實驗中的應用效果進行比較。

上式中,i代表自變量和因變量的第i組數據。對目標函數而言,方差(a,b)應該取極小值。這樣,總的看起來,目標函數與所有數據點的“貼合度”最高。后文將這種最小化方差(Least squaring)的回歸法簡稱為LS線性回歸。函數(a,b)極小值條件為,


假設共有n組數據,(2)和(3)聯立求解即可得到a和b,






(8)式與(9)比較,消去a和b,可以得到


前述兩種方法都是通過極值方程的求解得到直線方程的參數,Theil-Sen一元線性回歸(后文簡稱為TS回歸)則是通過中值估計來得到方程參數。假設目標直線斜率為a截距為b。TS回歸中a的值等于所有數據點之間斜率的中位數,然后用同樣的方法確定b。


三種回歸算法中,LS方法的數學形式最為簡潔清晰,并且可以直接得到方差估計,因而被廣泛用于數據處理。LD方法數學推導最為復雜,然而LD方法采用的策略與作圖法一致,因此更容易理解。TS回歸法需要比較所有數據點之間的斜率,計算量較大。當測量數據具有不同特征時,三種回歸方法有不同的效果。本文通過三組數據來比較三種回歸算法之間的區別。

圖1 安踏體育在國內體育用品市場的市場占有率隨時間的變化
圖1為2012年到2019年間安踏體育在國內體育用品市場的占有率。增長趨勢具有明顯的線性特征。如果增長趨勢在短期內可以延續,則可以通過一元線性回歸法分析2012-2019年的數據增長趨勢,預測2020年的營收數據。用三種回歸方法對2012-2019年的數據進行處理,結果如圖1的回歸線所示。從圖1可以看到, TS法和LD法得到的直線幾乎重合,LS方法得到的直線斜率較另外兩種方法得到的直線斜率稍大。LS法、LD法和TS法預測得到的2020年的結果分別為,15.2%,15.1%和15.0%。圖1中方塊點代表了2020年的真實數據,值為15.4%。三種方法的預測效果都比較準確,差別不大。
圖中三角形代表2012年-2019年的數據,方塊代表2020年的數據。基于2012年-2019年的數據采用三種不同的方法做回歸分析來預測2020年的數據。

圖2 安踏體育在國內體育服飾市場的市場占有率隨時間的變化
圖中三角形代表2012年-2019年的數據,方塊代表2020年的數據。基于2012年-2019年的數據采用三種不同的方法做回歸分析來預測2020年的數據。
圖2為2012年到2019年間安踏體育在國內體育服飾市場的占有率。與圖1類似,增長趨勢具有線性特征。用三種方法對2012-2019年數據進行回歸處理,預測2020年的市場占有率,結果如圖2的回歸線所示。可以看到,LS方法和LD方法較為接近,此時TS方法得到的結果與這兩種方法明顯不同。LS法、LD法和TS法預測得到的2020年的結果分別為,21.7%,21.5%和22.7%。
圖1中方塊點代表了2020年的真實數據,值為22.7%。與2020年的真實數據相比,TS方法明顯更為準確。這是因為2017年的數據(如圖箭頭所標識的數據)較其他年份數據有較大差距,LS方法和LD方法受到了“離群”數據的干擾,回歸直線會偏向這個離群數據。而TS方法是通過中值估計來得到直線,抗干擾能力更強。
在高校體育課中,有部分學生會既選修足球課也參加八百米跑測試。圖3為某高校本科生足球課綜合成績和800m測試成績的分布圖。 從數據分布來看,總體趨勢是學生800m成績越高,足球成績也越高。然而,由于調查樣本較多,數據比較離散,分布呈現了“類橢圓”特征。可以通過回歸直線法分析兩項成績的關聯趨勢。用三種回歸方法得到回歸線如圖3所示。此時,TS方法和LS方法結果相近,與LD方法出現明顯差異。LD方法使得各點到目標直線垂直距離最小,該方法得到的目標直線更接近于“類橢圓”的主軸,體現了總的統計平均效果,結果更優。

圖3 某高校本科生800m成績和足球課成績分布
體育數據分析中可以用到三種回歸算法。LS和LD方法都是采用數學極值法求解最佳直線。LS方法數學形式較為簡潔,LD方法推導過程較為復雜。從幾何意義上來看,LD方法與作圖法采用的策略相同。LS和LD方法都會受到少數“離群數據”的干擾,而TS回歸法抗干擾能力更強。當數據存在“離群”數據時,可以考慮使用TS方法回歸。但是TS方法的計算量較大,因此,在數據呈現明顯線性特征并且沒有“離群數據”時,可以選擇LS方法或者LD方法。另一方面,數據存在類橢圓分布特征時,用LD方法效果更好。
現在很多數據處理軟件,包括origin、spss和Excel都含有直線擬合功能。很多研究[3-8]都對這兩種軟件在體育數據分析中的應用進行了討論,并建議使用這些軟件對數據進行處理。然而,這些軟件默認采用的都是LS方法回歸。本研究認為,在處理離群數據或者類橢圓數據時,LS方法效果并不理想。因此,在使用軟件時,應根據體育數據的特征進行調整。本文對線性回歸算法的討論可以作為現有體育數據分析方法的一種補充。
[1]馬勇占.應用線性回歸法評價身體形態、發育水平的幾個問題的探討[J].中國體育科技,2002, 38(1):56-58.
[2]姚道迪.體育產業上市公司資本結構與經營績效關系的實證研究[J].皖西學院學報,2013, 29(4):47-50.
[3]李傳偉. Excel多元線性回歸在體育統計學中的應用[J].中國管理信息化,2011(19):65-66.
[4]王旭輝,敖運忠. Excel 2000多元線性回歸在體育教學中的應用[J].上饒師范學院學報:自然科學版,2005.
[5]朱紅兵,何麗娟.在SPSS10.0中進行數據資料正態性檢驗的方法[J].首都體育學院學報,2004, 16(3):123-125.
[6]王麗麗,王增輝.應用SPSS軟件對速滑直道技術足底峰值壓強數據的主成分分析[J].吉林體育學院學報,2010(1):58-59.
[7]王大愚.最小二乘法平滑技術在體育中運用的嘗試[J].體育科研,1984(6):14-16.
[8]權小娟,盧春天.青少年體育鍛煉中的同伴效應及性別差異[J].上海體育學院學報,2020(4).
Three Methods of One-dimensional Linear Regression in Sports Data Analysis
HU Haitao, etal.
(Nanjing Forestry University, Nanjing 210037, Jiangsu, China)
江蘇省高校哲學社會學一般項目《高校體育線上線下課程評價體系研究》(2021SJA0124)。
胡海濤(1981—),碩士,講師,研究方向:體育數據分析。
喻孜(1981—),博士,副教授,研究方向:計算物理。