李忠虎,何 苗
(1.中國民航信息網絡股份有限公司 民航旅客服務智能化應用技術重點實驗室,北京101318;2.成都民航西南凱亞有限責任公司 研發中心,四川 成都610000)
民用航空運輸作為現代運輸行業中的重要組成部分,其發展程度代表著國家的經濟發展水平,同時民用航空業作為科技型新興產業,其發展程度還代表著國家科學技術水平.民航客運量是衡量行業發展程度的重要指標,基于OD市場和航線的民航客運量需求預測與分析,對于民航業資源優化配置、交通規劃設計和運營管控具有重要意義.[1-4]隨著社會進步和國民受教育水平提升,民航市場新增客戶中高學歷人群占比日益提升,因此研究民航客運量與國民受教育水平的相關性,并借此實現中長期民航客運量預測具有積極意義,特別是中長期的民航客運量預測,將成為民航業交通規劃與管理重要的規劃基準和決策依據.
本文數據來自《中國民用航空局民航行業發展統計公報》、[5]中華人民共和國教育部官方網站發布《教育統計數據-各級各類學歷教育學生情況》和國家統計局官方網站,選取2008-2017年的民航旅客運輸人次數和各級各類學歷教育學生數作為樣本數據集,探究民航客運量與國民受教育水平的相關性.
國民受教育水平按照教育部官方網站發布的分類標準,按教育層次類型可以分為:學前教育、義務教育(包括小學和初中)、中等教育(包括高中及中等職業教育)、高等教育(包括研究生、普通本專科、成人本專科、網絡本專科和高等教育自學考試本專科)和特殊教育五種類型;按照教育階段類型可以分為:招生、在校、畢業三個維度.
皮爾遜相關系數用于度量兩個連續變量之間的相關性,其值介于-1 與1 之間,兩個變量 iX和 jX 總體間的皮爾遜相關系數 ji,XXρ 定義為:

其中Xi表示第i 指標變量, cov(Xi,Xj)表示第i 指標變量和第j 指標變量之間的協方差,δXi表示第i 指標變量的總體標準差,μXi表示第i指標變量的總體均值.
兩個變量間的皮爾遜相關系數無法直接求出,必須先收集兩個指標變量對應的樣本,求出兩個變量樣本間的皮爾遜相關系數,進而估算兩個變量總體間的相關系數.兩個變量Xi和Xj樣本間的皮爾遜相關系數 rXi,Xj定義為:

其中ikX表示第i 指標變量的第k 個分量,n為樣本量.
本文相關性分析均選取2008-2017 年數據樣本,民航客運量通過客運人次數來刻畫,各教育類型就讀規模為對應教育類型招生、在校和畢業的總人數.首先分析近年民航客運人次數及各教育類型就讀規模的相關性,在0.01 水平上與民航客運人次數顯著相關的變量為:高等教育就讀規模、學前教育就讀規模和義務教育就讀規模.

表1 民航客運量與各教育類型就讀規模的相關性
民航客運量與高等教育就讀規模的皮爾遜相關系數高達0.971,進一步分析民航客運量分別與高等教育招生規模、在校規模和畢業規模的相關性.在0.01 水平上這三個變量均與民航客運人次數顯著相關,民航客運量與高等教育畢業規模相關系數最高,皮爾遜相關系數值為0.984.

表2 民航客運量與高等教育各階段規模的相關性
經過前面的相關性分析,我們得到了與民航客運量顯著相關的變量:高等教育畢業規模,皮爾遜相關系數為0.984,接下來通過調整數據計算口徑、提出適當假設等方法,在高等教育畢業規模的基礎上構造相關系數更高的字段.
1.4.1 年度滾動累計口徑
聚焦高等教育畢業規模數據字段計算口徑,各年高等教育(包括研究生、普通本專科、成人本專科、網絡本專科和高等教育自學考試本專科)的畢業總人數,但是僅用一年的畢業人數無法有效刻畫國民受高等教育的整體規模,故引入年度滾動累計口徑,構造字段40年滾動累計畢業規模.
40 年滾動累計普通本專科畢業規模,表示從當年開始(包含當年)向前追溯共計40 年每年普通本專科畢業總人數累加和,即X 年40年滾動累計普通本專科畢業規模,即為(X-39)年至X 年(包含(X-39)年和X 年)各年普通本專科畢業總人數,即為(X-35)年至(X-4)年(包含(X-35)年和(X-4)年)各年普通本專科招生總人數.
1.4.2 提出數據假設
用當年高等教育畢業人數預測當年民航客運量,時間上存在明顯滯后性,故根據大致實際情況,提出適當假設:普通本專科招生數即為4 年后普通本專科畢業數.
鑒于該數據假設,獲取國家統計局官網1949-2018 年普通本專科招生數,采用年度滾動累計口徑,構造字段40年滾動累計普通本專科畢業規模,并分析民航客運量與該字段的相關性,皮爾遜相關系數為0.994.

表3 民航客運量與40年滾動累計普通本專科畢業規模的相關性
根據前面的相關性分析,民航客運量與40年滾動累計普通本專科畢業規模呈現強正相關,并且基于假設未來4年的畢業規模可由前期招生規模推算,即2019 年至2022 年40 年滾動累計普通本專科畢業規模,分別為1976-2015 年普通本專科招生總人數、1977-2016 年普通本專科招生總人數、1978-2017 年普通本專科招生總人數、1979-2018 年普通本專科招生總人數.接下來將采用單變元回歸的方式建立模型,并預測未來兩年的民航客運量.
民航客運量與40 年滾動累計普通本專科畢業規模,近年明細數據詳見表4 .

表4 民航客運量(Y)與40年滾動累計普通本專科畢業規模(X)數據(單位:萬人)
根據表4 中1998-2019 年明細數據,我們將嘗試采用普通最小二乘(OLS)回歸法,[6-7]包括簡單線性回歸、多項式回歸擬合模型,并評價擬合優度、檢驗假設條件和模型的選擇.
普通最小二乘(OLS)回歸擬合模型的形式:

其中,i=1……n,n為觀測的數目,k為預測變量的數目,為第i 次觀測對應的因變量的預測值,Xji為第i 次觀測對應的第j 個預測變量值,為截距項,為預測變量j 的回歸系數.我們的目標通過減少因變量的真實值與預測值的差值來獲得模型參數,即殘差平方和最小.

為了能夠恰當解釋OLS 模型的參數,數據必須滿足以下統計假設:正態性:對于固定非自變量值,因變量值成正態分布;獨立性:Yi 值之間相互獨立;線性:因變量與自變量之間為線性相關;同方差性:因變量的方差不隨自變量的水平不同而變化.
當回歸模型包含一個因變量時,我們稱為簡單線性回歸.當只有一個預測變量,但同時包含變量的冪(比如,X、X2、X3)時,我們稱為多項式回歸.
利用數據分析軟件建立由40 年滾動累計普通本專科畢業規模(X)預測民航客運量(Y)的OLS簡單線性回歸,利用軟件分析D.W統計量為0.461,殘差獨立性未通過檢驗,并明顯存在尾部預測數據值過低的問題,詳見圖1.

圖1 普通最小二乘(OLS)簡單線性回歸
建立由40 年滾動累計普通本專科畢業規模(X)預測民航客運量(Y)的二次多項式回歸,D.W 統計量為0.487,殘差獨立性仍未通過檢驗.進一步建立三次多項式回歸,由于次數偏高,出現擬合曲線變化趨勢過快,預測值顯著偏高的突出問題.
為降低多項式回歸次數,嘗試引入變量lnX建立回歸模型,通過軟件分析詳細的輸出見表5.

表5 變量初始分析
接下來進行回歸方程與回歸系數的顯著性檢驗.
顯著性檢驗的原假設H0:回歸系數與0 無顯著差異,檢測采用F 統計量和t 統計量,該回歸模型F統計量為5505.780,對應概率值0.000小于顯著性水平0.05,則拒絕原假設,表明回歸系數與0有顯著差異,即因變量與自變量有線性關系,回歸方程有意義.由表5中最后一列回歸系數,對應概率值小于顯著性水平0.005,表明回歸系數顯著不為0,即在控制其他變量不變時,變量X2、X、lnX均分別與Y線性相關.
模型的R2 值為0.999,表明模型的方差解釋率為99.9%,初步判斷模型擬合效果很好,模型的表達式為:Y=0.001X2-4.600X+20598.601lnX-137739.041.
最后進行殘差分析,[8]正態性:從標準化殘差直方圖、標準化殘差的P-P 圖來看,散點近似均靠近斜線,近似滿足正態性,詳見圖2、圖3;獨立性:模型的D.W 統計量為1.849,接近2.0 落在無自相關性的值域中,認定殘差獨立通過檢驗;同方差性:殘差散點圖擬合的直線大致平行于橫坐標,可以大致認為殘差是齊性的.經過殘差分析,該回歸模型有效且擬合效果很好.

圖2 標準化殘差直方圖

圖3 標準化殘差直方圖和P-P圖
通過殘差檢驗,前面建立的回歸模型有效,于是可得到未來兩年年民航客運量(Y)的預測值詳見表6,旅客量的年增長率在10%-11%之間,符合民航客運量整體增長趨勢.

表6 2019-2022年民航客運量預測值(單位:萬人)
在許多關于民用航空客運量影響因素的實證研究[9]中,多用國內生產總值、人均國內生產總值及鐵路客運量作為因變量來建立回歸模型進行分析和預測,本文從國民受教育水平出發,發現高等教育畢業規模與民用航空客運量有著顯著的相關性.進一步構建強相關變量40年滾動累計普通本專科畢業規模,并建立回歸模型實現對民航客運量的未來兩年的預測,預測值契合民航客運量增長的整體趨勢.