苗競文 羅貝妮 鄭曉峰吉林財經大學
?
航班延誤問題的研究
苗競文 羅貝妮 鄭曉峰
吉林財經大學
摘要:香港南華早報網根據flightstats.com 的統計稱:中國的航班延誤最嚴重,國際上航班延誤最嚴重的10個機場中,中國占了7個。其中包括上海浦東、上海虹橋、北京國際、杭州蕭山、廣州白云、深圳寶安、成都雙流等機場.本文主要研究我國是否存在航班延誤問題及航班延誤的原因。本文運用統計學上假設檢驗的方法判斷我國是否存在航班延誤的問題;采用了多元線性回歸的方法,定量分析航班延誤的原因。為判斷是否存在航班延誤問題,本文利用香港南華早報中所采用的flightstats. com網站公布的《2014年的全球機場準點率排名》上的數據,對上海浦東、上海虹橋、北京國際、杭州蕭山、廣州白云、深圳寶安、成都雙流等7個機場各隨機抽取150個班次作為樣本,進行航班延誤時間的統計.運用統計學中的假設檢驗的方法,對flightstats.com中數據的真偽性進行檢驗。為定量分析航班延誤原因,建立了多元線性回歸模型,分析可能導致航班延誤的原因及其與航班延誤的相關關系.通過查閱大量資料本文確定了一些影響航班延誤的因素,并以這些因素為基礎進行回歸分析,進而剔除對航班延誤影響不顯著的因素,得出航班延誤的主要原因,利用Eviews軟件進行求解。
關鍵字:假設檢驗 多元線性回歸模型 Eviews軟件
(1)本文中航班延誤指的是實際起飛時間比計劃起飛時間晚15分鐘以上(不包括15分鐘);
(2)顯著性水平α=0.05α=0.05;
i: 上海浦東、上海虹橋、北京國際、杭州蕭山、廣州白云、深圳寶安、成都雙流這七個機場分別標號1、2、3、4、5、6、7;
θi:第i個機場樣本的正點率;
ni:第i個機場的樣本數( ni-150);
?:各個致因因素出現頻數的矩陣;
3.1問題的進一步分析
為判斷是否存在航班延誤問題,把上海浦東、上海虹橋、北京國際、杭州蕭山、廣州白云、深圳寶安、成都雙流分別作為出發地,在2014年的數據中各隨機抽取150次航班,分別統計延誤時間,對香港南華早報中所采用的flight stats.com發布的《2014年的全球機場準點率排名》中各個機場的正點率進行假設檢驗,以此來驗證flight stats.com數據的真實性,進而判斷我國是否存在航班延誤的問題.
3.2 數據處理
flight stats.com公布的《2014年的全球機場準點率排名》中2014年中國機場的正點率如下:上海浦東機場正點率為37.26%、上海虹橋機場正點率為37.17%、北京國際機場正點率為52.64%、杭州蕭山機場正點率為36.74%、廣州白云機場正點率為49.56%、深圳寶安機場正點率為49.42%、成都雙流機場正點率為57.61%.
抽樣調查的中國上海浦東、上海虹橋、北京國際、杭州蕭山、廣州白云、深圳寶安、成都雙流這七個機場的延誤情況,計算這七個機場抽樣航班的正點率:

計算結果如下:上海浦東機場正點率為10%、上海虹橋機場正點率為15.33%、北京國際機場正點率為16%、杭州蕭山機場正點率為12.67%、廣州白云機場正點率為11.33%、深圳寶安機場正點率為15.33%、成都雙流機場正點率為48%.
3.3 模型建立
為驗證我國是否存在航班延誤問題,利用統計學上假設檢驗的方法,建立的數學模型如下:
依據香港南華早報中所采用的flight stats.com發布的《2014年的全球機場準點率排名》里2014年中國7個機場正點率和抽樣調查得出的2014年中國7個機場正點率,提出如下假設:

在H0成立時,

3.4 模型求解
根據樣本觀察值計算得:

1 2 3 4 5 6 7 ? -6.905 -5.535 -8.987 -6.115 -9.364 -8.351 -2.382
因為zi<-1.645全部成立,則都接受H1,故以0.05的顯著性水平證實了備擇假設成立.
3.5結果分析
假設檢驗結果顯示,我國7個主要機場的正點率低于flightstats.com發布的《2014年的全球機場準點率排名》中的正點率.flightstats.com統計的數據已經說明我國的航班延誤十分嚴重,而我們抽樣調查的數據顯示我國7個主要機場的正點率比flightstats.com統計的正點率還低,這充分證明了我國的航班延誤十分嚴重這一結論的正確性.
4.1問題的進一步分析
通過查閱大量資料,我們確定了一些影響航班延誤的因素,其中有天氣、公司、流量控制、機場、聯檢、油料、離港系統、旅客、軍事活動、公共安全這10個原因.對這10個原因進行線性回歸分析,研究這10個原因與航班延誤之間的相關關系。
4.2數據處理
我們統計了1996年—2012年天氣、公司、流量控制、機場、聯檢、油料、離港系統、旅客、軍事活動、公共安全這10個因素分別導致的航空延誤的班次。
對延誤航班次數和導致航班延誤的各個原因的次數繪制線性統計圖,可以大致看出因變量(不正常班次)與自變量(各個原因導致的航班延誤次數)呈線性關系,所以可以建立線性回歸的數學模型來分析因變量與自變量之間的相關關系。
4.3模型建立

4.4 模型求解
利用Eviews軟件得到估計方程的輸出結果,得模型估計結果為:

根據p值判斷,給定0.05的顯著性水平,回歸系數的估計值只有具有顯著性.而模型的擬合優度(R2)很高,F值很高,說明解釋變量間可能存在多重共線性.
下面用Klein判別法來檢驗模型中的多重共線性,利用相關系數矩陣來查看解釋變量之間的簡單相關系數.
根據變量之間的簡單相關系數,可以看到解釋變量之間是高度相關的,即模型存在著多重共線性問題.
為優化模型,我們用逐步回歸法克服多重共線性,首先用解釋變量對每一個解釋變量做簡單回歸,以此建立Y關于
x10的回歸式,這10個回歸式按可決系數大小排列.
將第一個回歸式作為基本的回歸方程,按解釋變量重要性從大到小的順序逐個引入其余的解釋變量.
首先,引入x3,對Y 關于x1和x3作回歸分析,得出回歸方程為:.
可以看出,加入x3后,改進了R2,且回歸參數的t檢驗在統計上也是顯著的,所以在模型中保留x3.
的系數不能通過t檢驗,認為這些變量是多余的,應該舍棄.
綜上所述,我們求解出的線性回歸方程為:

4.5結果分析
根據對天氣、公司、流量控制、機場、聯檢、油料、離港系統、旅客、軍事活動、公共安全這10個原因的線性回歸分析,我們發現天氣、公司、流量控制、旅客、軍事活動這5個原因對航班延誤有顯著影響,機場、聯檢、油料、離港系統、公共安全對航班延誤的影響不夠顯著,可以忽略不計.
本文建立了兩個模型。首先通過假設檢驗的方法判斷我國是否存在航班延誤這一問題,從結果可以看出我國航班延誤十分嚴重。進而通過查閱資料得到天氣、公司、流量控制、機場、聯檢、油料、離港系統、旅客、軍事活動、公共安全這10個影響航班運行的因素,并結合我國數據進行相關回歸分析,以確定導致我過航班延誤的主要原因,建立了線性回歸方程,得出天氣、公司、流量控制、旅客和軍事活動這5個因素是導致我國航班延誤的主要原因,為進一步建立航班延誤預警機制以及有針對的解決航班延誤問題提供了理論基礎.
6.1模型的優點
模型一:假設檢驗能夠用樣本指標估計總體指標,依據一定的概率原則,以較小的風險來判斷估計數值與總體數值是否存在顯著差距,本文以flightstats.com網站公布的《2014年的全球機場準點率排名》上的數據為估計數值,發現總體數值并未與之有顯著差異,即我國航班延誤問題確實十分嚴重.
模型二:線性回歸分析可以準確的計量各個因素之間的相關程度與回歸擬合程度的高低.簡潔明了,得到的因素權重可信度比較高.本文通過線性回歸分析找出了影響我國航班延誤的因素,分別是天氣、公司、流量控制、旅客和軍事活動這5個因素。
6.2模型的缺點和改進
引進變量時,我們尚未考慮實際問題的一些因素以及事件具有隨機性,把問題理想化構造模型,這與解決實際問題有一定距離,而且因素具有不確定性。
參考文獻
[1]馬敏娜,王靜敏.統計學.高等教育出版社.2011
[2]易丹輝.數據分析與EViews應用.中國人民大學出版社.2008
[3]攸頻,張曉峒.Eviews6實用教程.中國財政經濟出版社.2008
[4]中國民用航天局發展計劃司.從統計看民航(1997-2013).中國民航出版社.1997-2013
