溫瑞英,王紅勇
(中國民航大學 空中交通管理學院,天津 300300)
?
基于因子分析和K-means聚類的空中交通復雜性評價
溫瑞英,王紅勇
(中國民航大學 空中交通管理學院,天津 300300)
針對航空器服務架次不能精確刻畫空中交通復雜程度的現狀,提出一種通過多指標度量空中交通復雜性的方法。首先通過實測雷達數據計算得出9個空中交通復雜性評價指標值,并對復雜性指標進行了相關性分析及因子分析的適用性檢驗;采用因子分析方法最大程度地消除了指標間的相關性,并從多個復雜性評價指標中提取了空中交通總量和空中交通密度2個因子;基于所提取的因子,建立了空中交通復雜性綜合評價函數,并利用K-means聚類方法將空中交通復雜程度歸為5類,最后通過時段流量和實測陸空通話數據進行了驗證。結果表明,當空中交通復雜程度分別為低、高時,15 min 內的航空器數量分別為10,24架,陸空通話時長分別為315 s,636 s,對應的通話飽和度分別為35%,70%.隨著空中交通復雜性等級的提高,時段流量和通話飽和度增加。
空中交通;交通復雜性;因子分析;K-means聚類;相關性
不斷增長的空中交通流量對我國空管系統的服務能力提出了更高要求?,F階段以單位時間內所能提供的航空器服務架次為主的評價方法已經難以準確描述高密度、大流量下的空域運行狀況。為此,國內外諸多科學家將復雜性科學思想引入到空中交通管理領域中,以期望能夠更全面、更客觀地反映空中交通系統的實際運行規律。美國新一代航空運輸系統已將復雜性研究列入了重大研究計劃,同時其也是單一歐洲天空空中交通管理研究項目中復雜性管理的研究基礎[1-2]。美國國家航空航天局對動態密度做了大量的研究,結果表明考慮交通密度、管制員意圖等要素的描述方式更能精確、定量反映空中交通復雜性[3-6]。MOGFORD et al通過問卷調查方法確定復雜性因子,建立了復雜性計算模型,并實現了空中交通復雜性分析[7]。KLEIN et al提出通過采用航空器密度、高度和速度變化等7個簡化的動態密度指標來對扇區進行動態劃分[8]。國內學者叢偉等采用灰色關聯聚類方法對復雜性指標進行了精煉[2]。王紅勇等通過研究航空器的迫近效應建立了扇區交通復雜度的計算模型[9-10]。上述研究主要側重于如何選取復雜性指標和確定復雜性因子權重等方面,鮮有涉及對空中交通復雜性的分類研究??沼蛳到y的服務能力與空中交通復雜程度密切相關,依據不同復雜性因子對空中交通復雜性進行評價非常必要。
本文基于因子分析和K-means聚類提出了一種評價空中交通復雜性的方法。采集廈門空管站的實測雷達數據計算得出9個空中交通復雜性評價指標數據,采用因子分析方法最大程度地消除了指標間的相關性,并從多個復雜性評價指標中提取了空中交通總量和空中交通密度2個因子?;谒崛〉囊蜃?建立了空中交通復雜性綜合評價函數,利用K-means聚類將空中交通復雜程度歸為5類,并利用時段流量和實測陸空通話數據驗證了該分類方法的有效性。
本文選取了廈門空管站2號管制扇區的實際雷達數據進行統計分析,數據為2013年9月—2014年1月,每天08∶00—21∶00的實測數值,將每15 min 的實測數據作為1個樣本,最終有效樣本數為5 180個。
1.1 空中交通復雜性評價指標的選取
實際管制工作中,如果某一交通要素的改變會影響管制員對交通狀態的處理難度,增大管制員的工作負荷,則這一交通要素可作為一項空中交通復雜性的評價指標[10]。本文采集了廈門空管站的實測雷達數據,通過相關計算得出9個空中交通復雜性評價指標值,主要包括15 min內服務的航空器架次,即時段流量X1(架次),同時指揮的最大航空器數量X2(架次),同時指揮的平均航空器數量X3(架次),速度改變值大于或等于20 km/h 的累計航空器總數X4(架次),高度改變值大于或等于200 m 的累計航空器總數X5(架次),航空器間的水平間隔在0~20 km 范圍內且垂直間隔小于 2 000 m 的累計航跡點總數X6(架次),航空器間的水平間隔在20~60 km 范圍內且垂直間隔小于2 000 m 的累計航跡點總數X7(架次),航空器間的水平間隔在60~100 km 范圍內且垂直間隔小于2 000 m 的累計航跡點總數X8(架次),與導航臺的水平距離在0~30 km 范圍內的累計航空器總數X9(架次)。
1.2 數據預處理
由于不同指標之間的單位不一樣,數據之間明顯存在量綱和量級大小不一致的問題,會對分類結果造成一定影響。本文采用Z-Score的標準化方法對采集數據進行歸一化處理來消除這一影響,計算公式如下所示。
(1)

2.1 R型因子分析法
R型因子分析法的基本原理是通過對所選變量進行相關性分析,根據相關性大小對變量進行分組,同組之間的變量相關性較高,不同組之間的變量相關性較低,將關系比較復雜的多個原始變量總結為數量較少的幾個因子。這種方法能夠克服多指標之間的相關性和重疊性,利用較少的變量來代替原來較多的變量,并且代替后的因子可以反映原來多個變量的絕大部分信息[11-12],其相應的數學模型為:

(2)
式中:X=(X1,X2,…,Xm)T為實際測量的n個樣本數據所構成的m維隨機向量[13];F=(F1,F2,…,Fp)T,(p≤m)是m個變量的公共因子,其是相互獨立且不可觀察的理論變量,在這p個因子中,每一個因子均應當反映樣本某一方面的特性,這是因子進行命名的主要依據;ε=(ε1,ε2,…,εm)T為特殊因子,表示原始變量中不能夠被公共因子變量所解釋的部分;A為因子載荷矩陣。因子分析法的具體計算步驟如下:
1) 采集m維隨機向量的n個樣本,構造樣本矩陣,利用式(1)對指標數據進行歸一化處理,得相應標準化矩陣;
2) 計算各個標準化指標之間的相關系數矩陣R,并利用KMO和Bartlett球形度檢驗等方法來檢測因子分析法對所取樣本數據的適用性;
3) 求矩陣R的前l個特征值,記為λ1≥λ2≥…≥λl,其對應的特征向量為u1,u2,…,ul,根據特征值的大小(一般取大于1的特征值)和累積方差貢獻率(累計方差貢獻率達85%以上)來確定因子個數;
4) 求公共因子載荷矩陣A,如果所得到的因子其實際意義不是很明確時,需要將因子進行旋轉從而使得所選的因子更加具有命名解釋性[12-13];
5) 采用回歸估計法計算因子得分系數,將所提取的因子表示為各個標準化因子的線性組合。
2.2 K-means聚類算法
利用因子分析計算結果得出各個時段的復雜性綜合得分,選取歐氏距離作為復雜性模式劃分的相似性度量系數,利用K-means對空中交通復雜性等級進行聚類[14-15],具體步驟為:
1) 首先選定所要劃分的等級數k,并為所選的每一個等級選擇一個初始中心點,亦即每個簇的初始簇中心,記為mj(j=1,2,…,k);
2) 按照式(3),通過計算數據集合中各點與各個簇中心的歐氏距離,將數據集中各點劃分到與其距離最近的簇中,形成初始分類,式(3)中Yi為n個樣本數據的復雜性綜合得分值;
(3)
3) 按照步驟2)所形成的初始分類,更新每個簇的中心點,取每個簇中所有對象的平均值為新的中心點;
4) 采用平方誤差準則作為迭代收斂的依據,即不斷重復執行步驟2)和步驟3),根據式(4)計算E值,當兩次迭代所計算的E值的絕對值小于某個給定的限定值時,循環終止,從而形成最終聚類結果。
(4)
3.1 因子分析的適用性檢驗
對所選取的9個評價指標進行標準化處理并計算指標間的相關系數,具體數據如表1所示,可以看出大部分指標間的相關系數較高,表明所選的9個指標其兩兩之間大多具有較強的相關性[13]。

表1 各評價指標之間的相關系數矩陣
表2為Bartlett和KMO檢驗結果,Bartlett球形度假設檢驗統計量的觀測值為88 265,對應概率p接近于0,因此可以認為所選的9個評價指標間并非相互獨立。變量間偏相關性檢驗的KMO統計量為0.91,表明指標間存在較強的相關性,原有9個評價指標適合作因子分析。

表2 Bartlett和KMO檢驗
3.2 因子個數的確定
求解相關系數矩陣的特征值,并根據特征值的大小和累積方差貢獻率來確定所選因子個數。表3給出了各個指標的公因子方差比,變量Z1的公因子方差比是0.895,其含義為按照所選標準所提取的公因子對Z1的方差作出了89.5%的貢獻,其余數值以此類推,由表中數據可見,當提取公因子后公共因子對所有變量的方差所作的貢獻均在81%以上,證明各個評價指標的信息丟失較少,因子提取的總體效果在可接受范圍之內。

表3 公因子方差比
表4給出了因子分析過程中原有變量總方差被解釋的比例,由表可見,因子1的特征值為6.778,它對9個原始變量總方差的解釋程度達75.307%;因子2的特征值為1.056,它對9個原始變量總方差的解釋程度達11.729%,因子3的特征值為0.403,其值小于1,說明這個因子對9個原始變量的解釋力度較小,將其作為公共因子不如直接引入原始變量效果好,之后剩余其它因子的特征值依次減小,說明這些因子均不應該被提取。所以根據上述分析結果,將因子數量選定為2,由表4可知其累積方差貢獻率為87.036%,也就是說所選的這兩個因子共同解釋了9個原始變量總方差的87.036%,丟失的信息較少。

表4 解釋的總方差
3.3 因子的命名
通過3.2中所選出的2個因子,需具有一定的現實意義并可命名。表5給出了旋轉前的因子載荷矩陣,可以看出,9個變量在因子1上的載荷都很高,均為73%以上,這表明9個原始變量與因子1的相關程度較高,因子1解釋了絕大部分變量的信息;因子2的載荷系數較小,表明其與9個原始變量的相關程度較小,對9個原始變量的解釋效果較弱。本文采用最大方差法對因子載荷矩陣進行正交旋轉,從而使得所提取的因子更具有命名解釋性。具體計算原理是通過正交旋轉,使得旋轉后因子荷載矩陣的每一列元素的方差之和達到最大,亦即使得同一列上的荷載值盡可能地靠近1或靠近0,從而突出每個因子和其荷載較大的變量之間的關系,該因子所代表的實際含義就能夠通過這些荷載值較大的變量做出合理的解釋[12]。通過表4可以看出,旋轉后的累積方差貢獻率并沒有發生改變,其仍然為87.036%,但是卻重新分配了各個因子解釋原有變量總方差的比例(因子1解釋了原有9個變量總方差的50.112%,因子2解釋了原有9個變量總方差的36.924%),從而使得因子更具有命名解釋性。表5給出了旋轉后的因子載荷矩陣,可以看出Z1,Z2,Z3,Z4,Z5,Z9這6個變量在因子1上的載荷較高,均在71%以上,說明因子1主要解釋了這幾個變量,可命名為空中交通總量因子,主要包括航空器的數量和航空器航行諸元的改變總量;Z6,Z7,Z8這3個變量在因子2上的載荷較高,均在84%以上,說明因子2主要解釋了這幾個變量,可命名為空中交通密度因子。

表5 旋轉前后的因子載荷矩陣
3.4 因子得分
利用回歸估計法計算因子得分系數,將上述所提取的2個因子表示為9個標準化變量的線性組合,結果如式(5)、式(6)所示。式中F1,F2為所提取的因子得分。
F1=0.267Z1+0.188Z2+0.162Z3+
0.301Z4+0.343Z5-0.244Z6-
0.179Z7-0.132Z8+0.119Z9,
(5)
F2=-0.117Z1-0.02Z2+0.21Z3-
0.164Z4-0.233Z5+0.474Z6+
0.416Z7+0.364Z8+0.065Z9.
(6)
4.1 計算復雜性綜合得分
以各個因子的信息貢獻率為加重權數,綜合因子得分,可求得各個時間段的空中交通復雜性綜合得分,結合式(5),式(6)和表4,得具體計算公式為:
Y=0.501 12F1+0.369 24F2.
(7)
式中:Y為各個時間段的復雜性綜合得分;F1和F2的系數為各因子的信息貢獻率,具體數值見表4.綜合得分值高,表明空中交通復雜性程度越高。
4.2 復雜性評價結果分析
本文以15min的雷達數據為一個樣本,有效樣本數高達5 180個,顯然對這5 180個數據進行排序,分析其復雜性不太合理。為了對空中交通運行狀態進行有效評價,利用K-means進行聚類,將空中交通復雜程度歸為5類,具體結果如表6所示??梢钥闯?5類復雜性的聚類中心分別為-1.01,-0.37,0.15,0.7,1.54(聚類中心點的值代表該時段內空中交通復雜性綜合得分的平均值,負值代表空中交通復雜程度低,正值代表空中交通復雜程度中等以上),其對應的空中交通復雜程度為低、較低、中等、較高、高,每種復雜程度對應的有效樣本數的比例約為18%,22%,33%,22%,5%,說明空中交通復雜程度兩級分化現象不明顯,復雜程度中等的交通態勢所占比例最高。

表6 空中交通復雜性分類
為了進一步對空中交通復雜性等級進行驗證,本文選取了時段流量和陸空通話飽和度進行分析。時段流量即所選扇區15min內管制員所指揮的航空器總數,通話飽和度指15min內實測陸空通話時長與該時間段總時長(900s)的比值。時段流量與陸空通話飽和度隨復雜性等級的變化關系如表6所示,可以看出,空中交通復雜程度為低時,所選扇區15min內管制員指揮的航空器總數平均為10架,陸空通話時長平均為315s,對應的通話飽和度為35%;而當空中交通復雜程度為高時,所選扇區15min內管制員指揮的航空器總數平均為24架,陸空通話時長高達636s,對應的通話飽和度大于70%。隨著復雜性等級的提高,時段流量和陸空通話飽和度都有不同程度的增加,說明空中交通態勢的復雜程度可以反映管制員所指揮的航空器數量大小以及相應陸空通話負荷的高低。
交通復雜性評價指標能夠精確刻畫空中交通復雜程度。本文基于實測雷達數據計算得出9個空中交通復雜性評價指標數據,采用因子分析方法從多個評價指標中提取了空中交通總量和空中交通密度2個因子,并建立了空中交通復雜性綜合評價函數。利用K-means聚類分析,將空中交通復雜程度歸為5類,并通過時段流量和陸空通話飽和度驗證了分類的合理性。結果表明,隨著空中交通復雜性等級的提高,時段流量和通話飽和度增加;空中交通復雜程度兩級分化現象不明顯,復雜程度中等的交通態勢所占比例最高。
[1] 張進,胡明華,張晨.空中交通管理中的復雜性研究[J].航空學報,2009,30(11):2132-2142.
[2] 叢偉,胡明華,張晨.復雜性指標體系的構建及精煉方法研究[J].交通運輸系統工程與信息,2012,12(5):130-134.
[3]PARIMALK,ALBERTS,SHERRIM,etal.Complexitymeasurement:anairtrafficcontrolsimulationanalysis[J].InternationalJournalofIndustrialEngineering,2009,16(1):61-70.
[4]LAUDEMANI,SHELDENS,BRANSTROMR,etal.Dynamicdensity:anairtrafficmanagementmetric:TM-1998-112226[R].California:NASA,1998.
[5]FEDJAN,MILANJ,VOJINT.Developingagenericmetricofterminalairspacetrafficcomplexity[J].Transportmetrica,2011,7(5):369-394.
[6] 戴福青,洪蘭收.空域交通復雜度計算方法研究[J].中國民航大學學報,2010,28(3):1-4.
[7]MOGFORDH,GUTTMANJA,MORROWSL,etal.Thecomplexityconstructinairtrafficcontrol:Reviewandsynthesisoftheliterature:DOT/FAA/CT-TN95/22[R].WashingtonDC:FAAOfficeofAviationResearch,1995.[8] KLEIN A,RODGERS M D,LEIDEN K.Simplified dynamic density:A metric for dynamic airspace configuration and next gen analysis[C]∥IEEE.28th Digital Avionics Systems Conference.Florida:Orlando,2009.
[9] 王紅勇,趙嶷飛,王飛,等.空中交通管制扇區復雜度評估研究[J].交通運輸系統工程與信息,2013,13(6):147-153.
[10] 王紅勇,溫瑞英,趙嶷飛.基于聚類分析的空中交通復雜性模式劃分方法[J].科學技術與工程,2014,14(30):272-276.
[11] 張林泉.基于因子分析的應用研究[J].哈爾濱師范大學自然科學學報,2009,25(5):60-63.
[12] 邵生俊,楊春鳴,馬秀婷,等.黃土的獨立物性指標及其與濕陷性參數的相關性分析[J].巖土力學,2013,34(2):27-33.
[13] 王繼順,王傳斌,閆敏倫,等.基于因子分析法的各地城鎮就業情況綜合評價模[J].數學的實踐和認識,2013,43(19):10-18.
[14] 楊波,劉海洲.基于聚類分析的交通小區劃分方法的改進[J].交通與運輸,2007,23(B07):5-7.
[15] 王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012,20(7):21-24.
(編輯:朱 倩)
Evaluation of Air Traffic Complexity Based on Factor Analysis and K-means Clustering
WEN Ruiying,WANG Hongyong
(AirTrafficManagementCollege,CivilAviationUniversityofChina,Tianjin300300,China)
Aiming at the current situation that the aircraft quantities served by the air traffic controller can not accurately depict air traffic complexity,a multi index measure method was proposed. First, 9 typical complexity evaluation indexes were calculated on the basis of the radar data. The relationships among various air traffic evaluation indexes were studied and the applicability test of factor analysis was done.Then by using factor analysis method the correlations among the indexes were eliminated. The evaluation factors of total air traffic quantity and air traffic density were extracted from multiple ones.On the basis of the extracted factors a comprehensive evaluation function of air traffic complexity was established.By using the K-means clustering method, air traffic complexity was divided into five types. Finally these five types of air traffic complexity was verified by the time flow and the measured air-ground data. When the air traffic complexity was low or high, the number of aircraft served by controller was 10 or 24, the time length of communication was 315 or 636 seconds,and the call saturation was 35% or 70%,respectively,within 15 minutes. The results show that with the increase of air traffic complexity, the time flow and call saturation increase.
air traffic;traffic complexity;factor analysis;K-means clustering;correlation
1007-9432(2016)03-0384-05
2015-12-02
國家自然科學基金委員會與中國民用航空局聯合資助項目: 基于復雜網絡的空中交通復雜性演化機理與控制策略研究(U1333108);天津市應用基礎與前沿技術研究計劃: 空中交通沖突風險傳播機理研究(14JCQNJC04500)
溫瑞英(1977-),女,山西忻州人,講師,博士,主要從事空中交通管理的研究,(E-mail) wenruiying@163.com
TP182
A
10.16355/j.cnki.issn1007-9432tyut.2016.03.020