999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模仿學習的機場停機位再分配決策算法

2022-12-31 00:00:00邢志偉張前前羅謙陳肇欣
計算機應用研究 2022年9期

收稿日期:2022-02-13;修回日期:2022-04-02" 基金項目:國家重點研發計劃資助項目(2018YFB1601200);四川省青年科技創新研究團隊專項計劃資助項目(2019JDTD0001);四川省科技計劃資助項目(2021003);成都市重點研發支撐計劃資助項目(2019-YF08-00265-GX)

作者簡介:邢志偉(1970-),男,遼寧沈陽人,教授,碩導,博士,主要研究方向為民航裝備與系統、民航智能規劃與調度、機場運行控制與信息;張前前(1997-),男,湖南衡陽人,碩士研究生,主要研究方向為機場運行控制與信息;羅謙(1975-),男(通信作者),四川宜賓人,研究員,碩導,博士,主要研究方向為機場運營管理、數據挖掘(caacsri_luoqian@163.com);陳肇欣(1988-),男,江蘇南京人,中級工程師,博士,主要研究方向為機場運營管理、數據挖掘.

摘 要:

針對機位再分配算法結果難以滿足不同操作人員操作習慣的問題,提出一種符合實際業務人員操作習慣的機位再分配推薦算法。首先以航班特征屬性和停機位的資源占用狀態構建決策環境空間模型,將人工操作數據轉換為多通道時空矩陣,再以卷積神經網絡構建的生成對抗網絡(generative adversarial network,GAN)擬合其序貫決策操作策略。仿真結果表明,可靠度在90%以上的調整動作占比最高達到84.4%。經過在三個數據集上的測試,模型對不同來源的操作數據具有較好的區分能力。對比不同擾動下的動態調整結果,算法能夠得到航班—機位屬性特征與原有人工操作屬性特征接近的調整方案。

關鍵詞:航空運輸; 停機位分配; 模仿學習; 馬爾可夫決策過程; 生成對抗網絡

中圖分類號:V351"" 文獻標志碼:A"" 文章編號:1001-3695(2022)09-016-2665-06

doi: 10.19734/j.issn.1001-3695.2022.02.0071

Decision-making algorithm for airport gate reassignment based on imitation learning

Xing Zhiwei1, Zhang Qianqian1, Luo Qian2, Chen Zhaoxin2

(1.School of Electronic Information amp; Automation,Civil Aviation University of China, Tianjin 300300, China; 2.Engineering Technology Research Center, The Second Research Institute of Civil Aviation Administration of China, Chengdu 610041, China)

Abstract:In order to solve the problem that the results of the gate reassignment algorithm can’t meet habits of different ope-rators,this paper proposed a method that accorded with the actual operators’ operating habits. Firstly,this paper established the spatial model of decision-making environment by using flights characteristics and occupancy of gate resources. The model transformed manual operating data into a multi-channel time-space matrix. Then, it made use of CNN-based generative adversarial network to match the order decision-making operation strategy. The simulation results show that actions with reliability scores of more than 90% account for up to 84.4%. The model has a good ability to distinguish the operation data from 3 different operators. Compared with dynamic adjustment result under perturbance,this algorithm can obtain an adjustment scheme whose flight-gate attribute characteristics are closer to the original manual operation.

Key words:air transportation; airport gate assignment; imitation learning; Markov decision process; generative adversarial network

0 引言

停機位分配算法是輔助機場調度人員完成航班停機位指派的重要技術手段,該問題作為機場運行控制領域重要的研究方向持續受到關注[1]。

現有的停機位預分配算法研究大多采用動態規劃的思路進行算法建模[2],停機位再分配算法通常以最小化與原計劃之間的變化為優化目標[3~9]。Deng等人[3]通過遺傳—蟻群混合算法(genetic algorithm and ant colony optimization,GA-ACO)最小化乘客、機場和航司的經濟損失。Zhang等人[4]構建機位再分配為網絡流模型并通過變滾動層位算法求解。姜雨等人[8]在對航班延誤后實時調度問題的研究中考慮到延誤的等級劃分,在不同的延誤嚴重程度下,針對不同的優化目標分別優化,使用非支配排序遺傳算法求解,得到差異化多目標機位分配模型。Maharjan等人[9]提出了一種基于傳統確定性模型的機位動態分配模型,建立了最小化旅客傳遞距離的二次整數規劃模型。

根據上述的研究,既有的機位分配算法會綜合考慮航班靠橋率、魯棒性等若干復雜多樣的優化目標,算法模型構建過程中往往通過人為權重參數分配或優先級設定方式平衡各優化目標之間的關系以進行動態規劃求解。然而實際運用中對于大量優化目標或約束條件,業務人員很難主觀精確量化符合機場實際運行目標的算法參數配置,導致算法計算得到分配結果后仍然需要人工進行核查及再分配調整。

模仿學習(imitation learning,IL),也稱為示例學習,通過相對簡單的方法模仿某種行為策略作出反映。它從數據集中提取有用的知識,在類似于演示的環境中重現其行為策略以實現與之類似的決策方式。IL的存在有助于自主控制系統的研究和人工智能策略模型的設計,因為此類算法在現實場景中表現出良好的前景和策略訓練的效率。在連續控制領域,模仿學習可應用于自主車輛操縱,以在動態環境中再現適當的駕駛行為[10,11]、機器人控制[12~14]等。在離散控制領域,模仿學習在導航任務[15~17]等領域作出了貢獻。一般而言,算法采用的演示數據是從人類專家或人工代理與環境交互中收集獲得的。

IL按慣例分為行為克隆(behavioural cloning,BC)、逆向強化學習(inverse reinforcement learning,IRL)和對抗結構模仿學習(adversarial structured imitation learning,ASIL)。BC和IRL方法使用不同的方法來產生專家行為。一般而言,通過IRL構建得到了獎勵(成本)函數后,需要進一步采用該獎勵函數代入RL中得到被學習的專家策略 ,這種間接的方式在較小的空間中求解是可行的,而當環境空間進一步擴大時,將會面臨求解成本高昂的問題。而行為克隆算法直接通過專家軌跡數據得到相應的策略,但該算法會在專家軌跡未出現的狀態上產生偏移問題,所以需要大量的訓練數據,不適合數據獲取成本較高的應用場景。ASIL最初產生于由Ho等人[18]提出的GAIL算法,盡管ASIL與IRL有著密切的聯系,但大多數對抗性結構IL都不能恢復獎勵函數。BC通常利用在環境中沒有交互作用的專家之間的交互作用,故BC的計算成本是最低的;IRL方法通常在其算法內環中與環境有著較多的交互作用,對系統動態評估使IRL計算量大;ASIL方法在迭代更新策略參數和鑒別器參數時,還涉及與環境的頻繁交互。

人工再分配調整本質是一種決策策略,與動態規劃算法模型對某些航班的決策存在偏差,這種偏差產生于模型參數的主觀設置。為了消除這種偏差并更準確地刻畫人工的決策過程,將人工再分配調整建模為序貫決策問題,提出了一種基于特征嵌入的生成對抗模仿學習方法(feature embedding-generative adversarial imitation learning,FE-GAIL)的停機位再分配決策模型,通過直接學習人工操作數據,解決靜態參數下的人工主觀參數配置不準確的問題。

1 航班停機位再分配模型設計

1.1 問題描述

機場通常提前一天獲取次日航班時刻表,經過機位分配算法計算得到的預分配計劃以甘特圖(圖1)的形式呈現。在當天實際運行時,航班時刻變化可能導致機位使用沖突,算法會在該計劃上進行再分配以消解沖突。

航班的機位調整在同一場景下往往存在多種可行解。如圖1所示,當103機位上的航班5發生延誤時,將與航班6產生沖突,需要將航班6調整至其他機位。圖中①、②和③分別代表了三種可行的調整方案,傳統多目標優化的算法得到最優解①。

經過對機場操作人員的調研,不同的操作人員對傳統算法中配置參數方案的認知是不一致的,這導致實際業務中難以給定一個具有廣泛適用性的參數配置,算法輸出的結果中不同的操作人員可能選擇不同的推薦方案,甚至其選擇并非算法輸出的最優解。

例如,設103機位為遠機位,101機位為廊橋,操作人員1傾向于調整更少航班數量而選擇了方案②,而操作人員2傾向于更高廊橋靠橋率選擇了可行解③。

這種算法計算結果和員工實際行為上的偏差來自于個人主觀經驗與參數主觀設置的偏差,傳統的多目標優化算法難以通過參數優化設置方式消除這種偏差。針對上述問題,通過在多目標優化過程中引入機器學習算法,實現主觀設置參數的偏差糾正。再分配過程中,一個航班機位的人工調整可能需要多個航班機位的連鎖調整以得到可行解,因此停機位再分配可以視為一個序貫決策過程,針對序貫決策的策略學習問題通常采用模仿學習算法[19]。其中生成對抗模仿學習(generative adversarial imitation learning,GAIL)算法主要通過示例決策軌跡數據學習其中的決策策略,得到近似于示例的決策策略,在自動駕駛等序貫決策場景具有較好的狀態泛化效果[20]。綜上,基于GAIL算法的思想,將航班與機位的狀態特征信息進行特征值嵌入操作(feature embedding,FE),通過學習人工操作軌跡數據來擬合人工停機位再分配的決策過程,以消除主觀經驗與參數主觀設置的偏差。

圖2給出了基于FE-GAIL的停機位分配策略學習算法流程。首先通過航班計劃表和停機位屬性構建決策環境空間,之后設計基于該決策環境空間下的神經網絡用于決策輸出。

1.2 決策環境空間模型

為更好地描述決策環境空間模型,首先定義相關概念:

定義1 待分配航班fo,指當前需要被調整機位的航班。

定義2 動態滑動窗口Tw(min),指再分配過程中劃定需要考慮的時間范圍的窗口。停機位的再分配問題中可調整對象一般為落地時間晚于待分配航班fo的其他航班,起始點是待分配航班fo的實際落地時間。

GAIL是一種基于馬爾可夫決策過程(Markov decision process,MDP)的算法,根據各個時間點觀察環境得到的狀態選擇需要執行的動作,并根據環境返回值循環往復得到執行動作序列。機位再分配調整過程中,交互環境模型以及狀態轉移概率處于未知狀態,隨參數的迭代而迭代更新,故將MDP描述為一個四元組[S,A,R,γ]。

其中S為狀態空間即S={s1,s2,…,si,…},表示某一時刻t下的機位使用計劃的特征空間描述si;動作空間A是可以執行的動作a的集合,即A={a1,a2,…,ai,…,aN},ai表示操作人員將待分配航班fo的調整至機位i;R為獎勵函數;γ表示學習率。

1.2.1 多通道機位狀態特征矩陣

為定義機位狀態空間st,首先需要明確機位分配的決策因素。影響人工機位再分配決策的因素主要包括機位特征(機型尺寸屬性、業務屬性、航空公司屬性)、航班特征(機型尺寸屬性、業務屬性、航空公司屬性)、待分配航班屬性(同航班特征)及機位前后時段占用狀態等,因此本文建立了如圖3所示的機位狀態環境特征模型,將動態滑動窗口內的機位甘特圖映射為狀態特征矩陣。

圖3左側為停機位占用狀態的甘特圖,其中每行對應于一個機位,每列對應于一個時間塊。右側為針對停機位再分配中特征信息提出的多通道機位狀態特征矩陣,其中每個通道表示一種航班屬性或停機位屬性所對應的嵌入編碼,具體的編碼嵌入方式在1.2.3節中進一步展開敘述。

假設停機位總數量為N,為了減小狀態維度,以10 min為一個時間塊,動態滑動窗口中需要表征的時間塊數量為Tb=Tw/10,故占用矩陣每個通道的矩陣維度大小為Tb×N。

1.2.2 屬性特征

航班和停機位的特征是決定航班和停機位匹配關系的重要因素,表1給出了部分典型的屬性特征說明。

以航班—機位尺寸匹配屬性為例,傳統的停機位分配算法中需要人工設置匹配關系的優先級權重表(表2),以盡可能減少小飛機占用大機位的情況。為了避免大量屬性權重值的人為給定,通過將航班和停機位的屬性以特征編碼的形式建立狀態特征矩陣,其權重匹配關系不顯性地體現在算法模型中,而是通過神經網絡的參數表示,再通過GAIL的方式進行參數學習。

根據表1的屬性特征表,設航班集合為F,則第k個航班的屬性以向量的形式表示為

Afk=[af1k,af2k,af3k](1)

其中:af1k表示航班k的機型尺寸屬性;af2k表示業務屬性;af3k表示航空公司屬性。

第i個停機位的屬性向量表示為

Agi=[ag1i,ag2i,ag3i](2)

其中:ag1i表示停機位i機位尺寸屬性;ag2i表示業務屬性;ag3i表示航空公司屬性。

1.2.3 屬性特征的編碼嵌入

由于航班屬性特征與機位的占用情況相關,故首先定義機位的占用狀態特征矩陣。設圖3 中停機位占用狀態特征矩陣表示為

O=o00o01…o0T

o10o11…o1T

oN0oN1…oNT(3)

其中:oij∈{0,1}表示第i個機位在第j個時間塊上的決策變量;若航班k停靠于機位i則取1,反之取0。

根據1.2.2節中定義的屬性特征,需要將屬性值對應成編碼的形式嵌入到機位占用狀態矩陣的元素中,即特征嵌入(feature embedding,FE)。停機位和航班的相對關系與電子游戲中的地圖及可操作單位的相對關系具有一定的相似性,文獻[21]將StarCraft Ⅱ中的小地圖信息進行基本編碼,而可操作單位用特征向量進行表征并放置于地圖中,從而得到信息編碼后的完整狀態。

根據上述特征嵌入(FE)方式,首先對屬性值進行編碼。將每種屬性值單獨編碼成為一個通道,以機型尺寸屬性為例,機型尺寸屬性特征值可取{A,B,C,D,E,F},按照等間距的方式取值,若機位在某一時間塊被機型尺寸屬性為D的飛機占用(屬性排序為4),則該飛機對應占用時間塊的屬性值取4/6=0.67。

再將編碼后的屬性值嵌入到狀態矩陣中。航班第v種屬性對應的通道中第k個航班對應的元素可以表示為

xijk=afvk·oij" 0≤i≤N,0≤j≤T,k∈F(4)

根據式(4)的表述,當某個時間塊上沒有航班占用,則對應值為0,反之則為屬性值。

對于停機位屬性通道,則無須表征占用狀態特征,第u種屬性對應的通道中,第i個停機位所對應的矩陣元素表示為

xiju=agui" 0≤i≤N,0≤j≤T(5)

完成所有航班的屬性值嵌入后,最終得到該屬性對應的矩陣通道如圖4所示,其他屬性對應的矩陣通道的構建方式同理。

圖4 狀態矩陣中機型尺寸屬性通道

Fig. 4 Flight size attribute channel in the state matrix

2 模仿學習算法設計

模仿學習是一種基于序貫決策過程的人工數據學習決策策略算法(feature embedding-generative adversarial imitation learning,FE-GAIL),本章將說明FE-GAIL算法在停機位再分配決策場景的算法設計。

按照上述業務場景的建模,擬采用生成對抗模仿學習(GAIL)求解機位再分配策略學習問題,為了便于描述數據的特性,在說明算法流程之前先定義相關概念——占用度量ρ(occupancy measure)。

定義3 占用度量ρ。使用策略π時在環境中得到的狀態—動作對(si,a)的分布,且占用度量ρ和策略π之間存在唯一的對應關系[18]:

ρπ(si,a)=π(a|si)∑∞t=0P(st=si|π)(6)

其中:π(a|si)和P(st=si|π)分別表示動作和狀態的邊緣分布。根據上述定義可知,當策略與人工停機位再分配策略的占用度量越接近時,兩個策略之間越相似。將GAN結合到正則優化器φ中,將優化器定義為

φ(ρπ,ρE)=maxmize ∑s,aρπ(s,a)ln(D(s,a))+

ρπE(s,a)ln(1-D(s,a))=maximize Eπ[ln(D(si,a))]+

EπE[1-D(si,a)](7)

其中:D為生成對抗網絡中的鑒別器。生成器π生成用于混淆鑒別器D的樣本,而D則用于區分和人工策略樣本。

將策略π的占用度量類比為生成器π生成數據的概率分布,人工策略類推。此概率分布可以刻畫為選擇狀態下的動作概率分布向量vπ=[pa1,pa2,…,paN],pai∈[0,1],其中的元素為在給定狀態下各動作被選擇概率。當鑒別器D無法區分兩者時,認為π具備產生與人工樣本相近似樣本的能力。

算法流程如圖5所示。

基于FE-GAIL的停機位再分配決策算法的基本訓練流程如下:

a)初始化生成器π和鑒別器D的網絡參數,設置訓練批量大小;

b)將人工停機位再分配操作數據以狀態—動作對(si,a)進行特征嵌入(FE)作為生成器π的輸入,得到選擇機位的動作概率分布向量vπ;

c)按照動作概率分布向量vπ選擇機位,得到生成器的輸出(si,aπ);

d)將人工停機位再分配操作數據和生成器產生的樣本同時輸入鑒別器D中,得到的鑒別結果根據式(7),利用梯度更新鑒別器D和生成器π的網絡參數θ。

通過上述算法,最終得到能夠滿足需求的生成器π和鑒別器D,其中生成器即為策略模型,而鑒別器將在3.3節中用于測試模型區分度。

3 實驗分析

本章將通過數據實驗的方式證明根據停機位再分配特性提出的算法可以學習到人工再分配決策策略。下文將首先介紹實驗所用的數據,將通過三類實驗對比IRL和BC算法,驗證算法的性能。

3.1 實驗數據

根據1.1節可知,機場不同的操作人員具有各自不同的算法調參策略,即對統一參數有不同的參數配置方式。在此假設同一員工在進行行為決策時始終遵循相同的行為邏輯,利用基于A*的啟發式搜索算法模擬人工決策過程,以擴充原生較少的人工操作數據,生成足夠訓練算法模型的行為決策數據。

A*算法通過判斷當前位置與起點之間的距離以及與終點之間的預估代價來求解代價最小的可行解,適用于多步決策下的最優決策路徑搜索問題。其代價預估函數計算式如下:

F(s)=G(s)+H(s)(8)

其中:G(s)為當前路徑的實際代價;H(s)為行為預估代價。對于第i個停機位和第k個航班,G(s)可以表示為

G(s)=φ(Afk,Agi,Apki)(9)

其中:Afk和Agi分別為由式(1)(2)得到的航班和機位屬性;Apki為根據表2的形式得到的航班—機位匹配屬性。

按照上述權重計算方式,將待分航班可選機位作為可擴展的相鄰節點,通過路徑搜索的方式得到如圖1 所示的動態調整動作序列。

實驗采用國內某機場中的40個停機位,分為4個指廊,共計45 700余條原計劃時間表的真實數據,如表3所示。

在此基礎上對航班落地和起飛時間加入隨機擾動,用于模擬機場發生延誤時的實際變動情況,再利用A*算法模擬人工分配的決策行為,以得到人工分配操作行為軌跡數據。根據歷史延誤信息,將航班的延誤分布情況用泊松分布描述:

P(x=k)=λkk!e-λ(10)

其中:k為延誤時間塊的數量。定義航班fk與停機位gi對應的權重參數集W如下所示:

W=[Afk,Agi,Apki](11)

根據策略不變假設,對于員工i而言,其行為參數集W始終保持不變。為了測試模型對于不同員工行為邏輯的學習能力和區分度,本文設置了三組參數集Wi,i∈{1,2,3}以模擬三種不同的分配操作行為邏輯,利用上述的A*算法生成三組數據集Di,i∈{1,2,3},每組數據集Di包括訓練數據10 000條,測試數據2 000條。

3.2 模型可靠度結果分析

為了量化訓練后的模型分配結果與人工操作行為的一致性水平,根據2.1節中的動作概率分布向量vπ,本文定義歸一化的可靠度評分R如下:

ri=1" if pai≤paE,paE,pai∈vπ,i∈[1,N]

0" otherwise(12)

R=1MN ∑Mi=0 ∑Ni=0ri(13)

其中:M為每次測試采樣的樣本數量;N為停機位數量;aE為人工操作動作。

取動態滑動窗口時間長度 Tw為300 min,對應的時間塊數量為30,狀態空間維度為40×30×9。訓練過程中每訓練100次作為一次迭代,并進行一次測試,每次測試采樣的人工軌跡樣本數量為1 000,設置學習率γ=0.001,測試10輪得到平均可靠度評分的變化趨勢如圖6所示。其中三條曲線分別表示來自三名不同操作人員給定的權重參數所對應的數據集進行FE-GAIL模型訓練,圖中縱坐標為訓練過程中單步平均可靠度評分,橫坐標為經歷的迭代次數。

如圖6所示,經過250次迭代后模型達到收斂,通過測試集測試模型,每次測試采樣的樣本數量為200,采樣10次得到的測試結果取平均,得到平均單步可靠度評分,結果如表4所示。三個數據集下本文模型的單步可靠度評分達到89.30%、87.45%和91.33%,相較于IRL和BC算法平均可靠度評分分別提升9.16%和15.84%,表明算法策略能夠收斂于與被學習的人工策略具有較低的偏差的結果。

為更好地掌握模型結果與人工數據之間的可靠度評分具體分布情況,采用2 000條測試樣本測試可靠度評分得到其分布,得到單步可靠度評分的分布如表5所示,可靠度評分在90%以上的步數的占比分別達到75.2%、72.6%和84.4%,而可靠度評分低于80%的區間包含步數的占比13.85%、16.20%和7.20%,說明人工分配方案在本模型結果中保持了較高的可靠度。

3.3 模型區分度結果分析

不同策略之間存在的差異將導致結果之間存在差異,為證明模型對于不同來源數據的區分度,本節通過三組不同數據集訓練模型,分別代表不同的操作策略,測試模型對于各個數據集的鑒別效果。混淆矩陣是一種描述評價分類結果錯誤率的常用方式,其中根據模型結果正確與否和實際正反例之間的關系,將樣本分為四個類別TP、FN、FP、TN。樣本p的所屬標簽類別csp可以通過設置不同的閾值vth,設通過數據集Di訓練得到的模型預測樣本p標簽值在采樣數據中預測標簽值排名為v,即

csp=TP" if vgt;vth,p∈Di

csp=NP" if vgt;vth,pDi(14)

PR曲線是通過計算不同的正例閾值下的精確率P(precision)和召回率R(recall)得到變化曲線,兩者的計算公式為

P=TPTP+FP(15)

R=TPTP+FN(16)

為了綜合考慮精確率和召回率,采用綜合度量指標F度量值來評價其結果,其計算公式如下:

F=2PRP+R=2TP2TP+FN+FP(17)

區分度測試集包含全部三組數據共6 000個樣本數據,分別采用三個模型對樣本是否來自于該模型所對應的訓練數據集進行判別,以此計算混淆矩陣。按照10%為間隔分別選取不同的閾值vth,根據不同模型對應的混淆矩陣,得到不同訓練數據集下FE-GAIL模型的PR曲線如圖7所示。圖中被標注點表示各個模型取最大F值的點,說明在不同數據集下本模型的區分度性能接近,模型區分度性能受數據集影響小。

圖7中被標注的三個點為模型在三組數據下的最大F值,其值如表6所示,三個數據集的F值分別為0.763 2、0.789 2和0.807 1,說明模型對不同來源數據的區分能力較好。

3.4 算法同等參數誤差水平分析

由于本文算法是通過對神經網絡進行參數學習的方式得到與人工決策相匹配的隱性參數設置,無法直接和人工參數配置進行相似度對比,所以將通過間接實驗的方式測試算法同等參數誤差水平。本實驗中對三個數據集的生成過程加入一定的參數誤差,測試參數誤差下的分配結果與原始分配結果間的相似度,同時測試通過本算法進行參數學習所得的分配結果與原始分配結果的相似度,以獲得本算法分配結果的同等參數誤差水平。

定義相似度評分qscore的計算公式如下:

qscore=α1Ns+α2Nsa+α3Ndif(18)

其中:與人工操作行為相比,Ns為與其相同的動作數量;Nsa為航班、機位屬性Afk和Agi與其相同的動作數量;Ndif為航班、機位屬性Afk和Agi與其不同的動作數量;α1、α2、α3分別為三者對應的權重參數。

表7為三個數據集在不同參數誤差下,生成的新數據集與原數據集以及通過原數據訓練的模型得到的分配結果之間的對比情況。

在三個數據集下,與5%參數設置偏差下的結果相比,模型結果中Ndif的數量較少,但同時Ns的數量也較少,說明本文模型的分配結果能夠得到與人工數據屬性特征更為接近的結果。對比IRL和BC算法模型,FE-GAIL算法模型在不同數據集上的相似度評分均有較為明顯的提升。FE-GAIL模型的分配結果的相似度評分分別為0.903、0.52、0.856 5,分數較5%參數設置偏差所帶來的分配結果仍有優勢,因此可以認為本文算法進行參數學習后所得結果等同于5%人工參數偏差下的分配結果。

4 結束語

針對機位再分配問題特性,提出了基于特征嵌入的生成對抗模仿學習算法,從航班的機位再分配操作數據中學習其對應操作策略的方法,用于解決航班延誤時機場的停機位動態調整問題。在環境建模的過程中加入特征嵌入的表征方式提升機位和航班屬性特性可讀性,且由于GAN的加入緩解了動態環境中樣本效率低下的問題,對比IRL和BC算法在停機位動態分配策略學習任務中多項指標均有較明顯的優勢。對多組不同的機場調度人員的調度策略數據進行了策略學習,對比不同參數誤差情況下與原有操作數據之間的差異,證明通過本文模型得到的結果可以規避5%左右的參數設置偏差。本文研究方向為停機位動態分配,基于提出的FE-GAIL算法策略模型的機位分配模型輸出指派方案具有與人工操作方式更高的一致性,可減少機位調度操作人員對算法推薦方案的二次調整,從提升算法結果的實用性的角度提升機場運行效率。

目前在被模仿策略的復雜度上,算法還有進一步的提升空間,后續工作中可以加強算法對更為接近實際操作人員操作復雜性的數據進行策略擬合。

參考文獻:

[1]Pternea M. Optimal reassignment of flights to gates focusing on transfer passengers[D]. Maryland: University of Maryland,2019.

[2]Da瘙塂 G S,Gzara F,Stützle T. A review on airport gate assignment problems: single versus multi objective approaches[J]. Omega,2020,92: 102146.

[3]Deng Wu,Li Bo,Zhao Huimin. Study on an airport gate reassignment method and its application[J]. Symmetry,2017,9(11): article No.258.

[4]Zhang Dong,Klabjan D. Optimization for gate re-assignment[J]. Transportation Research Part B,2017,95: 260-284.

[5]Pternea M,Haghani A. Mathematical models for flight-to-gate reassignment with passenger flows: state-of-the-art comparative analysis,formu-lation improvement,and a new multidimensional assignment model[J]. Computers amp; Industrial Engineering,2018,123: 103-118.

[6]Pternea M,Haghani A. An aircraft-to-gate reassignment framework for dealing with schedule disruptions[J]. Journal of Air Transport Management,2019,78: 116-132.

[7]Yu Chuhang,Zhang Dong,Lau H Y K H. A heuristic approach for solving an integrated gate reassignment and taxi scheduling problem[J]. Journal of Air Transport Management,2017,62: 189-196.

[8]姜雨,胡志韜,童楚,等. 面向航班延誤的停機位實時指派優化模型[J]. 交通運輸系統工程與信息,2020,20(5): 185-190,217. (Jiang Yu,Hu Zhitao,Tong Chu,et al. An optimization model for gate re-assignment under flight delays[J]. Journal of Transportation Systems Engineering amp; Information Technology,2020,20(5): 185-190,217.)

[9]Maharjan B,Matis T I. An optimization model for gate reassignment in response to flight delays[J]. Journal of Air Transport Management,2011,17(4): 256-261.

[10]Chen Dian,Zhou Bragy,Koltun V,et al. Learning by cheating[C]// Proc of Conference on Robot Learning. 2020: 66-75.

[11]Zhou Yang,Fu Rui,Wang Chang,et al. Modeling car-following behaviors and driving styles with generative adversarial imitation learning[J]. Sensors,2020,20(18): 5034.

[12]Lioutikov R,Neumann G,Maeda G,et al. Learning movement primitive libraries through probabilistic segmentation[J]. The International Journal of Robotics Research,2017,36(8): 879-894.

[13]Finn C,Levine S,Abbeel P. Guided cost learning: deep inverse optimal control via policy optimization[C]// Proc of International Confe-rence on Machine Learning. 2016: 49-58.

[14]Sun W,Venkatraman A,Gordon G J,et al. Deeply aggrevated: diffe-rentiable imitation learning for sequential prediction[C]// Proc of International Conference on Machine Learning. 2017: 3309-3318.

[15]Pan Menghai,Huang Weixiao,Li Yanhua,et al. xGAIL: explainable generative adversarial imitation learning for explainable human decision analysis[C]// Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. 2020: 1334-1343.

[16]Shou Zhenyu,Di Xuan,Ye Jieping,et al. Optimal passenger-seeking policies on E-hailing platforms using Markov decision process and imitation learning[J]. Transportation Research Part C: Emerging Technologies,2020,111: 91-113.

[17]Hussein A,Elyan E,Gaber M M,et al. Deep imitation learning for 3D navigation tasks[J]. Neural Computing and Applications,2018,29(7): 389-404.

[18]Ho J,Ermon S. Generative adversarial imitation learning[J]. Advances in Neural Information Processing Systems,2016,29: 4565-4573.

[19]Torabi F,Warnell G,Stone P. Recent advances in imitation learning from observation [EB/OL]. (2019-06-19). https://arxiv.org/abs/1905.13566.

[20]Chen Xia,Kamel A E. Neural inverse reinforcement learning in autonomous navigation[J]. Robotics and Autonomous Systems,2016,84: 1-14.

[21]Vinyals O,Babuschkin I,Wojciech M. Czarnecki grandmaster level in Starcraft Ⅱ using multi-agent reinforcement learning[J]. Nature,2019,575(7782): 350-354.

主站蜘蛛池模板: 亚洲国产系列| 精品日韩亚洲欧美高清a| 国产专区综合另类日韩一区 | 色综合手机在线| 欧美亚洲香蕉| 国产一区二区网站| 又爽又大又黄a级毛片在线视频 | 性喷潮久久久久久久久| 亚洲精品第五页| 激情视频综合网| 国产精品久线在线观看| 宅男噜噜噜66国产在线观看| 成人国产小视频| 动漫精品中文字幕无码| 亚洲AV无码久久天堂| 精品视频在线一区| 五月婷婷综合网| 国产三级a| 欧美日韩国产成人在线观看| 超清无码熟妇人妻AV在线绿巨人 | 视频一区亚洲| 亚洲午夜福利精品无码不卡| 亚洲有无码中文网| 天堂成人在线视频| 精品国产一区91在线| a毛片基地免费大全| 精品福利国产| 高清码无在线看| 无码免费的亚洲视频| 日韩视频免费| 国产成人资源| 69av在线| 亚欧美国产综合| 亚洲国产av无码综合原创国产| 亚洲日产2021三区在线| 免费在线a视频| 亚洲熟女偷拍| 国产农村妇女精品一二区| www.精品国产| 亚洲一区二区成人| 精品国产免费观看| 久久人搡人人玩人妻精品| 国产日韩精品一区在线不卡 | 一级毛片不卡片免费观看| 亚洲 日韩 激情 无码 中出| 久久人午夜亚洲精品无码区| 99热国产在线精品99| 午夜视频日本| 免费可以看的无遮挡av无码| 蝴蝶伊人久久中文娱乐网| 2021精品国产自在现线看| 毛片免费高清免费| 在线观看91香蕉国产免费| 91免费观看视频| 日韩欧美中文字幕在线精品| 日本成人一区| 992tv国产人成在线观看| 69国产精品视频免费| 97se亚洲综合在线天天| 97在线免费视频| 日本91视频| 日韩不卡高清视频| 亚洲人成色在线观看| 亚洲成人网在线播放| 亚洲综合久久一本伊一区| 日本国产精品| 国产免费观看av大片的网站| 久久成人国产精品免费软件| 国产精品刺激对白在线 | 91亚瑟视频| 激情综合图区| 人妻无码中文字幕第一区| 谁有在线观看日韩亚洲最新视频| 天天躁日日躁狠狠躁中文字幕| 久久精品亚洲热综合一区二区| 一本二本三本不卡无码| 午夜电影在线观看国产1区| 国产免费黄| 亚洲最黄视频| 欧美精品一区在线看| 丝袜无码一区二区三区| 亚洲第一成人在线|