









摘要:文章基于3個(gè)案例,比較分析SPSS軟件中幾種非線性回歸模型,探討其分段擬合功能。SPSS非線性回歸在特定情況下展現(xiàn)出較強(qiáng)的精準(zhǔn)預(yù)測(cè)能力,文章為學(xué)習(xí)建模預(yù)測(cè)的學(xué)者提供一個(gè)新的思路,為大數(shù)據(jù)時(shí)代特定類型數(shù)據(jù)的預(yù)測(cè)提供一種有效方法。
關(guān)鍵詞:SPSS軟件;非線性回歸;分段擬合;曲線估計(jì)
中圖分類號(hào):C81 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)01-0085-04 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
非線性回歸涵蓋多種模型,包括曲線擬合、多元回歸等。本文主要探討SPSS軟件“非線性回歸模塊”中的分段擬合模型。非線性回歸能夠擬合穩(wěn)健回歸、時(shí)間序列數(shù)據(jù)等多種復(fù)雜模型,在回歸建模和預(yù)測(cè)中具有重要應(yīng)用[1]。其原理是選擇一個(gè)非線性的回歸模型,根據(jù)數(shù)學(xué)表達(dá)式中的參數(shù)數(shù)目,選擇相應(yīng)數(shù)目的初始參數(shù)。這些參數(shù)可通過曲線擬合結(jié)果或公式計(jì)算得到。有數(shù)學(xué)表達(dá)式和初始參數(shù)就可交給SPSS去擬合。非線性回歸一般也是采用最小二乘法對(duì)該模型中的參數(shù)進(jìn)行估計(jì),用參數(shù)估計(jì)值代替初始參數(shù),將方程再次展開,進(jìn)行線性化轉(zhuǎn)換,從而又可求出一批參數(shù)估計(jì)值,使得該函數(shù)值取值最小化,如此反復(fù)迭代求解,直至參數(shù)估計(jì)值收斂和殘差平方和最小為止[2]。本研究旨在通過案例分析比較不同回歸模型的擬合優(yōu)度和殘差,探究非線性分段擬合在特定情況下的適用性。
1 研究方法
本研究采用SPSS軟件中的曲線估計(jì)、時(shí)間序列分析和非線性回歸三種模型進(jìn)行擬合。為避免年份數(shù)據(jù)對(duì)高次項(xiàng)參數(shù)值的影響,除時(shí)間序列分析外,其他模型的自變量均采用序號(hào)代替年份,擬合精度保持不變[3-4]。
1.1 曲線估計(jì)
曲線估計(jì)的基本原理是通過變量轉(zhuǎn)換將曲線直線化,然后用最小二乘法進(jìn)行擬合,最后將線性模型轉(zhuǎn)換回原始變量的表達(dá)式上。SPSS軟件的曲線估計(jì)模塊提供10種常用的曲線方程(二次方程、三次方程、指數(shù)方程、冪函數(shù)、Logistic函數(shù)等) 。一般來說曲線估計(jì)是廣義非線性回歸的首選模型,特點(diǎn)是模型簡(jiǎn)單、快速和實(shí)用。
1.2 指數(shù)平滑法
指數(shù)平滑法是時(shí)間序列分析模塊的重要模塊之一,是通過平滑系數(shù)α 來計(jì)算出的一系列平滑值來消除原始時(shí)間序列中的不規(guī)則變動(dòng),從而揭示現(xiàn)象的長(zhǎng)期趨勢(shì)的規(guī)律和預(yù)測(cè)。社會(huì)經(jīng)濟(jì)活動(dòng)中很多數(shù)據(jù)都是依時(shí)間順序構(gòu)成的集合體,與一般的回歸分析不同,有關(guān)時(shí)間序列分析的統(tǒng)計(jì)技巧,幾乎都是基于對(duì)自相關(guān)性處理的技巧[3]。是大數(shù)據(jù)背景條件下金融經(jīng)濟(jì)實(shí)證分析建模的主要方法之一,具有非常重要的實(shí)踐價(jià)值。
1.3 非線性回歸
非線性回歸是一種特殊的統(tǒng)計(jì)學(xué)方法,優(yōu)勢(shì)是預(yù)測(cè)結(jié)果更為精準(zhǔn),假設(shè)條件少,可供選擇的回歸模型多,適合各種不能轉(zhuǎn)換為線性回歸模型的非線性回歸分析等。本文主要是介紹非線性回歸中的分段擬合的優(yōu)勢(shì)。
2 實(shí)證分析
2.1 實(shí)證分析案例1
案例引用某汽車企業(yè)1993—2001年的汽車銷量數(shù)據(jù)[4],選擇該案例的原因是此汽車企業(yè)在1993—2001年發(fā)展較為迅速,銷量數(shù)據(jù)具有代表性,能夠反映中國(guó)汽車市場(chǎng)的整體增長(zhǎng)趨勢(shì)。管理者希望能夠用SPSS軟件建模并預(yù)測(cè)出至2002年和2003年的汽車銷量。觀測(cè)數(shù)據(jù)見圖1和表1。分析思路使用曲線估計(jì)和指數(shù)平滑法進(jìn)行擬合,再采用非線性回歸的分段擬合,試比較擬合優(yōu)度指標(biāo)R方和殘差,選擇最佳的預(yù)測(cè)模型。
三種模型的殘差比較和預(yù)測(cè)值序列圖見圖2。結(jié)果顯示非線性分段擬合效果最好,殘差最小,R方最大。殘差值比較結(jié)果顯示,Holt指數(shù)平滑模型的殘差較大,三次方程與非線性模型的殘差始終緊密地糾纏在一起,但在時(shí)間序列的末端,非線性的分段擬合誤差更接近于零點(diǎn)。根據(jù)預(yù)測(cè)結(jié)果來看三次方程的預(yù)測(cè)值偏高,而非線性分段擬合預(yù)測(cè)結(jié)果是最低的,與三次方程出現(xiàn)明顯的差異,因三次方程的R方也是相當(dāng)高的(R方=0.994) 。從統(tǒng)計(jì)學(xué)理論角度分析非線性分段擬合效果最好(R方=0.998) 。其分段擬合模型的數(shù)學(xué)表達(dá)式如下:
y=(Tlt;1998) (a+b T)+(T≥1998) (c+d T)
式中,Y 為因變量(汽車銷量) ,T 為自變量(年份) ,a,b,c,d分別為其參數(shù)估計(jì)值。
該案例的特征是數(shù)據(jù)簡(jiǎn)單、特征明顯。但是,不同的模型之間還是表現(xiàn)出明顯的差異,使研究者不得不考慮理論與現(xiàn)實(shí)之間如何取舍的問題,這也是數(shù)據(jù)分析師在現(xiàn)實(shí)工作中很可能會(huì)時(shí)刻面臨的一個(gè)尷尬的困境。最終,作者更傾向于使用非線性分段擬合模型來預(yù)測(cè)未來。
2.2 實(shí)例2
某種肉雞在良好的環(huán)境條件下生長(zhǎng)過程的數(shù)據(jù)資料見表2和圖3,是統(tǒng)計(jì)學(xué)教材上用來講解Logistic 生長(zhǎng)曲線的典型案例[5]。目前Logistic生長(zhǎng)曲線已廣泛應(yīng)用于動(dòng)植物的生長(zhǎng)發(fā)育、遺傳育種、資源開發(fā)等方面的建模研究[6]。分析思路考慮采用Logistic生長(zhǎng)曲線,再用時(shí)間序列的指數(shù)平滑法擬合,最后用非線性分段擬合,通過對(duì)3個(gè)模型的功能的實(shí)證分析,構(gòu)建最佳擬合回歸方程。
Logistic生長(zhǎng)曲線擬合結(jié)果,R方=0.983,生長(zhǎng)曲線的上限為2.827[5],參數(shù)a=7.061,b=0.595。從指數(shù)平滑模型中擇優(yōu)選擇出來的模型是Damped模型,R方為0.951,正態(tài)化的BIC為-1.876。非線性分段回歸模型結(jié)果和模型R方=0.996,非線性分段擬合模型的表達(dá)式如下:
y=(T lt; 8) (a+b T) + (T ≥ 8) (c + d T)
式中:Y 是因變量(體重/kg) ,T 是自變量(周齡) 。a,b,c,d 為參數(shù)估計(jì)值。3 個(gè)模型的殘差值比較見圖4左。
從3個(gè)模型的擬合優(yōu)度統(tǒng)計(jì)量R方和殘差圖來看(圖4左) ,非線性分段擬合的效果都是較為明顯的。從預(yù)測(cè)的角度來看,在時(shí)間序列的末端3個(gè)模型的預(yù)圖2 某汽車企業(yè)1993—2001年銷量三個(gè)模型回歸殘差比較 測(cè)效果相當(dāng),都非常接近于殘差的零點(diǎn)。尤其是Lo?gistic生長(zhǎng)曲線和指數(shù)平滑的Damped模型(圖4右) 。這一結(jié)果反映了擬合原理的差異,非線性分段擬合的模型最佳,從生產(chǎn)實(shí)際角度,Logistic生長(zhǎng)曲線的預(yù)測(cè)結(jié)果更接近于實(shí)際。
2.3 實(shí)例3
數(shù)據(jù)來自上海市1979—2004年年末人口數(shù)統(tǒng)計(jì)資料[3],選擇此案例原因在于上海是中國(guó)最大的城市之一,其人口數(shù)據(jù)具有廣泛性和代表性,能反映城市化進(jìn)程中人口變化的特點(diǎn)和趨勢(shì)。原始數(shù)據(jù)和時(shí)間序列圖見表3和圖5。嘗試選擇3種非線性回歸模型,實(shí)證分析哪一種模型是最佳的模型?預(yù)測(cè)2005 和2006年年末人口數(shù)。
曲線估計(jì)最終選擇出來的模型是三次方程。R 方=0.992,模型檢驗(yàn)匯總結(jié)果,F(xiàn)=964.672,P=0.000。從時(shí)間序列的指數(shù)平滑的4個(gè)模型中,按照專家建模器自動(dòng)選擇出來的最佳模型是Brown衰減趨勢(shì)模型,R方=0.998,正態(tài)化的BIC=2.222,模型精度有進(jìn)一步的改善。該模型適用于具有線性趨勢(shì)并沒有季節(jié)性的序列。其平滑參數(shù)是水平和趨勢(shì),并假定二者等同。Brown模型是Holt模型的特例。Brown指數(shù)平滑法與ARIMA(0,2,2) 模型極為相似。模型參數(shù)估計(jì)值α=1(水平和趨勢(shì)) 。
依據(jù)原始的時(shí)間序列圖來看(圖5) ,時(shí)間可分為1979—1988 年,1989—1998 年,1999—2004 年三段,可采用非線性分段回歸模型,結(jié)果顯示,模型R方=0.999,擬合效果明顯提高,表達(dá)式如下:
y=(Tlt;1989) (a + b T)+(1989≤Tlt;1998) (c+d T)+(T≥1998) (e+f T)
三個(gè)模型的殘差值和預(yù)測(cè)值比較見圖6??梢钥闯鋈齻€(gè)模型的最終預(yù)測(cè)結(jié)果非常接近。但是從理論上講,最佳模型是非線性分段擬合模型,因?yàn)镽方值是最大的,殘差是最小的。
3 討論
3.1 曲線估計(jì)模型的選擇
按照統(tǒng)計(jì)學(xué)的基本原理和SPSS軟件的回歸模塊的設(shè)計(jì),曲線估計(jì)是本文案例的首選模型。曲線估計(jì)的11個(gè)模型中擬合效果較為突出的是三次方程,模型中的參數(shù)數(shù)量是較多的,本文中的實(shí)例1和實(shí)例3就是如此。實(shí)例2選擇Logistic生長(zhǎng)函數(shù)。曲線估計(jì)模型的特點(diǎn)是絕大多數(shù)的曲線方程都可作為非線性回歸的數(shù)學(xué)表達(dá)式繼續(xù)進(jìn)行非線性回歸,初始參數(shù)就是曲線估計(jì)的模型參數(shù)。優(yōu)點(diǎn)是通過非線性回歸模型的二次擬合后,模型的擬合效果都會(huì)有不同程度的提高。缺點(diǎn)是某些模型如三次方程的參數(shù)數(shù)量較多,可能導(dǎo)致模型復(fù)雜度增加,解釋性降低。局限性是用戶不能隨意定義新的模型,只能選擇SPSS提供的固定模型。
3.2 時(shí)間序列分析技術(shù)
本文給出的三個(gè)實(shí)例都須進(jìn)行時(shí)間序列建模分析。采用時(shí)間序列模塊的專家建模器和指數(shù)平滑模型,時(shí)間序列分析技術(shù)適用于那些隨時(shí)間變化的數(shù)據(jù)集,特別是當(dāng)數(shù)據(jù)存在明顯的趨勢(shì)、季節(jié)性或周期性特征時(shí)。專家建模器的優(yōu)點(diǎn)是不需要設(shè)置任何參數(shù),在定義好日期變量后,只須確定一個(gè)因變量進(jìn)入選項(xiàng)欄中,就能完成時(shí)間序列建模并輸出結(jié)果,對(duì)非統(tǒng)計(jì)學(xué)專業(yè)學(xué)者較為友好。缺點(diǎn)是在某些特殊或復(fù)雜情況下,可能無法達(dá)到預(yù)期效果。時(shí)間序列分析技術(shù)還有一個(gè)強(qiáng)大的優(yōu)勢(shì),通過ARIMA模型可以擬合各種具有復(fù)雜背景噪聲和周期性波動(dòng)的時(shí)間序列[7],本文并無涉及這些內(nèi)容。
3.3 非線性分段回歸的功能和評(píng)價(jià)
非線性分段回歸模型的公式是簡(jiǎn)單的線性回歸,表達(dá)式只能寫在一個(gè)邏輯表達(dá)式中,見案例1、2、3。擬合前給出相應(yīng)的初始參數(shù),例如實(shí)例1和實(shí)例2中需要4個(gè)初始參數(shù),實(shí)例3需要6個(gè)初始參數(shù),但設(shè)置需要在非線性參數(shù)設(shè)置欄內(nèi)輸入相應(yīng)的字母符號(hào)和參數(shù)值1。非線性回歸適合各種不能轉(zhuǎn)換為線性回歸模型的非線性回歸分析。優(yōu)點(diǎn)是能夠更準(zhǔn)確地描述和預(yù)測(cè)數(shù)據(jù)中的非線性關(guān)系,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。缺點(diǎn)是初始參數(shù)的設(shè)置雖相對(duì)簡(jiǎn)單,但選擇合適的參數(shù)值仍然是一個(gè)挑戰(zhàn),特別是當(dāng)參數(shù)數(shù)目較多時(shí)。局限性是雖然初始參數(shù)的正負(fù)符號(hào)不需要約束,但參數(shù)的取值范圍仍需合理設(shè)定,以避免模型的不穩(wěn)定性和過擬合。
3.4 不同模型之間的比較
本文通過3個(gè)案例或幾個(gè)回歸模型的實(shí)證分析,證明SPSS的非線性回歸模型,特別是分段擬合模型可能在某些時(shí)間序列數(shù)據(jù)有著更好的擬合結(jié)果。本文不強(qiáng)調(diào)SPSS的非線性分段回歸就是最好的回歸模型。從各種統(tǒng)計(jì)軟件的角度來看SPSS只是其中的一個(gè)軟件,李??萚6]比較的SPSS、SAS等4種不同的統(tǒng)計(jì)軟件的非線性回歸的運(yùn)算速度和計(jì)算精度,提出SPSS 在計(jì)算速度和精度等方面是比較好的,但是,SAS在非線性回歸中的功能是最為完善的,如果要提高模型的精度可以通過調(diào)整收斂標(biāo)準(zhǔn)來完成,這是SAS算法的優(yōu)勢(shì)。何勇鳳等[8]用R2.15.0統(tǒng)計(jì)軟件中的“segmented”模塊研究鱸鯉仔魚的早期異速生長(zhǎng)模式,取得不錯(cuò)的效果。張文彤等[4]采用不同回歸方程對(duì)汽車銷售數(shù)據(jù)建模比較,結(jié)果顯示分段擬合的決定系數(shù)較高,但最后選擇三次方程來預(yù)測(cè)未來的汽車銷量。依據(jù)是三次方程的預(yù)測(cè)結(jié)果明顯高于非線性分段擬合的預(yù)測(cè)結(jié)果。說明選擇模型時(shí)要根據(jù)專業(yè)知識(shí)和相關(guān)背景信息進(jìn)行科學(xué)的決策。
4 結(jié)論
本文通過SPSS統(tǒng)計(jì)軟件的曲線估計(jì)、指數(shù)平滑法和非線性回歸等模型對(duì)3個(gè)實(shí)例進(jìn)行實(shí)證分析。結(jié)果顯示,通過比較曲線估計(jì)、指數(shù)平滑法和非線性回歸3 種模型,發(fā)現(xiàn)非線性分段回歸模型在特定情況下優(yōu)于其他模型,強(qiáng)調(diào)非線性回歸模型的靈活性和適用性,可根據(jù)實(shí)際數(shù)據(jù)特征選擇合適的回歸方程,并通過調(diào)整參數(shù)來提高模型精度??傮w來看,通過擬合精度比較和殘差分析,對(duì)一些簡(jiǎn)單的時(shí)間序列資料,非線性回歸顯示出強(qiáng)大的精準(zhǔn)預(yù)測(cè)功能。擬合模型不復(fù)雜,參數(shù)設(shè)置相對(duì)簡(jiǎn)單。本文為學(xué)習(xí)建模預(yù)測(cè)的學(xué)者提供一個(gè)新的思路,為大數(shù)據(jù)時(shí)代精確預(yù)測(cè)提供理論依據(jù)。
參考文獻(xiàn):
[1] 趙曉進(jìn),粱芝棟,邵立杰,等.基于SPSS非線性回歸的長(zhǎng)期趨勢(shì)預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2021,37(23):20-22.
[2] 張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程[M].北京:高等教育出版社,2004.
[3] 賴國(guó)毅,陳超.SPSS 17.0中文版常用功能與應(yīng)用實(shí)例精講[M].北京:電子工業(yè)出版社,2010.
[4] 張文彤,鐘云飛.IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[M].北京:清華大學(xué)出版社,2013.
[5] 李春喜,姜麗娜,邵云,等.生物統(tǒng)計(jì)學(xué)[M].5版.北京:科學(xué)出版社,2013.
[6] 李???,肖亞麗,苗軍.常用統(tǒng)計(jì)軟件中非線性回歸功能的分析與評(píng)價(jià)[J].河南農(nóng)業(yè)大學(xué)學(xué)報(bào),2003,37(2):200-204.
[7] ALA’RAJ M,MAJDALAWIEH M,NIZAMUDDIN N.Modelingand forecasting of COVID-19 using a hybrid dynamic modelbased on SEIRD with ARIMA corrections[J].Infectious DiseaseModelling,2021,6:98-111.
[8] 何勇鳳,吳興兵,朱永久,等.鱸鯉仔魚的異速生長(zhǎng)模式[J].動(dòng)物學(xué)雜志,2013,48(1):8-15.
【通聯(lián)編輯:李雅琪】
基金項(xiàng)目:河南省一流本科課程項(xiàng)目資助(豫教[2020]13156)