基于深度強化學習種群優化的演化式分揀調度算法

2022-01-01 00:00:00曾德天曾增日詹俊

計算機應用研究 2022年3期

摘要：機械制造中的產線分揀作業具有問題與數據的雙重復雜性，為了對分揀操作進行優化以提高生產效率，設計了一套分揀作業的數據表示方法與一種基于種群優化的演化式算法，同時整理并公開了一個真實的工業數據集。數據表示方法通過借鑒詞袋模型對原始作業數據進行抽象表示；演化式算法使用深度強化學習初始化遺傳算法中的種群，同時引入了精英保留策略以提高算法的優化能力。最后，將提出的算法與其他算法在真實的工業數據集與旅行商問題數據集上進行了對比。結果表明，該算法能找到更優的分揀順序與訪問路徑，驗證了算法的有效性。

關鍵詞：遺傳算法；深度強化學習；分揀作業調度；順序優化

中圖分類號：TP301 文獻標志碼：A

文章編號：1001-3695（2022）03-016-0739-05

doi：10.19734/j.issn.1001-3695.2021.08.0356

基金項目：國家重點研究開發計劃資助項目；國家自然科學基金資助項目

作者簡介：

曾德天（1993-），男，湖北仙桃人，博士研究生，主要研究方向為人工智能與工業決策控制；曾增日（1989-），男，湖南婁底人，博士研究生，主要研究方向為人工智能與網絡異常檢測；詹?。?988-），男（通信作者），湖南益陽人，博士研究生，主要研究方向為人工智能與工業異常檢測（zhanjun20@nudt.edu.cn）.

Evolutionary job scheduling algorithm based on population optimization by deep reinforcement learning

Zeng Detian， Zeng Zengri， Zhan Jun

（College of Computer Science amp; Technology， National University of Defense Technology， Changsha 410073， China）

Abstract：The sorting operation of the production line in mechanical manufacturing has the double complexity of the problem and data. To optimize the sorting operation and improve production efficiency， this paper designed a method for data representation and an evolutionary algorithm based on population optimization. At the same time， this paper arranged and disclosed a real industrial data set. The method for data representation abstracted the original job data by referring to the bag-of-words model. The evolutionary algorithm used deep reinforcement learning to initialize the population in the genetic algorithm and introduced the elite retention strategy， which improved the optimization ability of the algorithm. Finally， it compared the proposed algorithm with other algorithms on the real industrial data set and travelling salesman problem data set. The results show that the proposed algorithm can find a better sorting sequence and the access path， which verifies the effectiveness of the algorithm.

Key words：genetic algorithm; deep reinforcement learning; sorting job scheduling; sequence optimization

工業分揀順序優化（optimization of industrial sorting sequence，OISS）為制造業中真實的生產調度問題^[1]。OISS是對分揀順序進行優化的一項研究，具有廣泛的應用背景。由于OISS屬于NP-Hard問題，求解困難，所以尋找高效優質的求解方法一直是相關領域的重要課題。

機械制造中的鋼板分揀順序優化作為典型的OISS問題，可以將每個待分揀的鋼板看做一個節點，當需要求解最優鋼板分揀順序時，此問題即被近似抽象成旅行商問題（traveling salesman problem，TSP），而如何在不同規模的輸入數據上快速取得有效解是一項具有挑戰性的任務^[2～4]。

傳統的順序優化主要使用元啟發式算法^[5]，如遺傳算法（genetic algorithm，GA）^[6]、模擬退火（simulated annealing，SA）^[7]、人工蜂群算法^[^8]、灰狼算法^[^9]等，但始終無法取得令人滿意的效果。Pettinger等人^[10]則最早將強化學習（reinforcement learning，RL）與GA結合起來，將GA中的種群作為RL的狀態，并通過傳統Q-學習算法選擇不同的交叉和變異算子，最終算法的表現優于傳統GA，但僅限于40個節點以下的順序優化。此方法帶來了良好的啟發，之后的結合工作大部分遵循這一思路^[11～14]。而自sequence-to-sequence的代表網絡pointer network^[15]被提出以來，神經網絡求解順序優化成為可能，同時RL的引入進一步提升了神經網絡的性能^[16]。受流行的Transformer結構影響，Kool等人^[17]針對順序優化將Transformer結構進行改進，并將改進后的Transformer聯合RL進行訓練，在100個節點左右的TSP上取得了最優結果。但當輸入數據的規模進一步增大時，深度網絡的泛化性會變差，傳統的元啟發式算法因維度惡化也易陷入局部最優，故本文將探討傳統元啟發式算法與深度強化學習（deep reinforcement learning，DRL）相結合共同求解順序優化問題。

針對上述不同規模的鋼板分揀順序優化，本文首先對場景中復雜的鋼板數據進行了抽象表示，并將DRL與GA相結合，同時引入了NSGA-Ⅱ的精英保留策略^[^18]，最大限度提高了搜索算法的優化能力。而實際測試結果表明，本文提出的算法在工業分揀順序優化問題上可將生產效率最高提升16.93%，這也說明了生產制造中的OISS問題根據實際需求可以被進一步優化。

1 鋼板分揀順序優化問題描述

圖1展示了機械制造生產線上的鋼板順序分揀流程。假設存在N∈N^*塊切割后的鋼板需要被分揀，而每塊板中含有若干被切割后的零件，最終零件需要通過機械手臂被放置到物料框。出于工業標準化流程的要求，框中存在一定的碼垛規則，即一個框中最多只能裝載T∈N^*種不同類型的零件，相同類型的零件被碼放的層數不超過L∈N^*層。一旦碼垛規則不被滿足，則需要進行清框處理，而頻繁清框需要反復調度AGV搬運，耗費額外的人力物力。一般智能工廠在規劃時，需盡量減少無效的物料搬運^[19]，因此可以通過調整N塊鋼板的分揀順序以降低清框頻率。鋼板分揀順序優化可以被抽象為一個帶約束的優化問題，其中相關符號的定義如表1所示。優化的目標及約束見式（1），即最小化F（x），其中兩個約束對應于碼垛規則（本文中T=16，L=10）。

F目標函數。輸入為x，根據碼垛規則對給定分揀順序的鋼板集進行分揀，輸出為總清框次數。其數學定義見式（1），為遞歸形式。初始化時F（x）值為0，每次清框被觸發時，F（x）加1。

由于零件種類繁多，故在鋼板數據的抽象表示上本文借鑒了自然語言處理中的詞袋模型^[20]。首先為所有的零件創建一個固定順序的零件字典，共D∈N^*項，之后創建一個對應字典中零件順序的D維全零向量。當表示某一塊鋼板時，遍歷鋼板中所含的零件，若某一類型零件的數量為k∈N，則將向量中對應位置上的數加k。最后的D維向量作為此鋼板的原始表示數據。

為便于研究，本文約定機械手的分揀規則為：按字典中的零件種類順序依次將鋼板上某一類型的零件全部分揀完再處理下一類型零件。這一分揀規則契合零件布局規則，即鋼板套料時傾向于將相同類型的零件排列在一起以達到最大化鋼板的空間利用率，同時有助于減少機械臂分揀時地反復運動。圖2中展示了典型的真實鋼板零件分布，每個零件使用一種顏色的線條包圍，可以看到相同形狀的零件被盡量排布在一起。

2 算法設計

DRL擁有較好的泛化性且網絡的前向計算耗時較少，為了加速GA收斂，同時取得更好的優化結果，本文將DRL與GA相結合，提出了一種新的演化式算法。

演化式算法首先使用RL對策略網絡進行訓練，得出參數化的決策網絡，之后將原始的鋼板數據集抽象編碼并輸入訓練完畢的決策網絡，得到一個初始解（即鋼板優化順序），并將初始解補充到GA的初始化種群中，使得GA在初始時具有較高質量的解，從而減少探索階段的時間開銷。使得GA可以注入更多精力在開發階段，從而在加速整個過程收斂的同時提高結果的可靠性。最后，將最終種群中適應度值最小的個體作為最佳鋼板分揀順序。

2.1 深度強化學習

鋼板的原始向量數據較為稀疏，將其通過一個M∈N^*維的全連接層，得到一個M維的稠密向量作為嵌入表示，之后決策網絡的輸入均為鋼板的嵌入表示。嵌入層與決策網絡進行聯合訓練，其中決策網絡選用了pointer network與Transformer。pointer network是一個典型的encode-decode架構，如圖3所示。encode和decode分別使用了單層的LSTM網絡；同時對注意力機制進行了改造，使得每次encode的輸出實際上是每個輸入鋼板此次可能被選擇的概率向量（圖中紅色箭頭指向擁有最大概率的鋼板；黑色圓點代表此前已被選中的鋼板，故當前時刻概率為負無窮），其維度和encode輸入的序列長度一致，解決了輸出的向量長度固定問題。pointer network的注意力機制可簡述為如下公式：

其中：ej是encode在時間序列j次的隱藏層輸出;di是decode在時間序列i次的隱藏狀態輸出;uⁱ=[u₁ⁱ，u₂ⁱ，…，uⁱN]，對uⁱ進行式（3）所代表的歸一化操作可得到所有鋼板被選中的概率向量；Ci為i時刻選擇的鋼板編號；Pall代表所有的鋼板數據；v^T、W₁、W₂均為可訓練的固定尺寸參數。而使用Transformer結構代替LSTM組成的encode-decode框架擁有更加強大的表征與泛化能力，具體的網絡結構細節見文獻[17]。

DRL訓練時使用了Actor-Critic框架^[21]，并使用pointer network或Transformer網絡作為Actor進行決策，同時將指數滑動平均作為Critic指導Actor進行參數更新。通常強化學習可以被抽象成一個馬爾可夫決策過程，使用四元組〈s，a，r，p〉表示。其中s表示狀態（state），a表示動作（action），r代表環境給予的獎勵（reward），p代表狀態轉移概率（probability）。在鋼板分揀排序問題中，a定義為選擇的某一鋼板，s定義為所有的鋼板數據與之前所有決策時刻所選擇的鋼板編號，r初值為0。當分揀a所對應的鋼板時，清框次數加1則r減1。記決策策略為π，p=π（s，a）是a在s下被選擇的概率，一個s下所有a的概率和為1。

Actor的損失函數計算如式（4）所示，n為訓練時樣本的數量，Aπ（s，a）為優勢函數，其定義見式（6）。式（7）定義了在策略π下的動作價值函數Qπ（s，a），為當前狀態s下采取動作a后獲得的獎勵r加上γ倍衰減的下一個狀態s′的值函數Vπ（s′）。而式（8）則定義了狀態的值函數，由此可知Vπ（s）為Qπ（s）的期望值。Critic的損失函數計算如式（5）所示，括號內的項為時間差分誤差，對誤差求平方和即為Critic的損失值。

2.2 帶精英保留策略的GA

使用GA對鋼板分揀順序進行優化時，首先需要將問題的解編碼為GA種群中的個體。在隨機初始化種群時，任意挑選某一順序作為個體的初始值，如[P₁→P₂→…→PN]，其中P代表對應鋼板的D維向量，適應度函數為F（x）。

選擇算子：選擇算子使用輪盤賭操作，以個體適應度值的倒數作為其被選擇的概率，選出一批F（x）較小的個體作為進化的父體與母體。

交叉算子：首先隨機選擇起始下標start與終點下標end，將父體xf[start：end]中的順序片段保留傳遞至下一代。同時將母體xm中所包含的xf[start：end]基因全部刪除，并在xm的start位置處插入xf[start：end]所含的順序片段，從而形成新的鋼板順序。

變異算子：使用單點交叉變異，在染色體x中隨機選擇兩個不同的位置i和j，并將對應位置上的鋼板交換。

本文在GA中引入了NSGA-Ⅱ的精英保留策略。將父代種群與搜索產生的子代種群合并，根據個體的適應度進行排序，選取前S∈N^*個個體作為下一代種群。精英保留策略的引入有利于保持優良的個體，提高種群的整體進化水平。

在給出了上述遺傳算子定義后，GA在鋼板分揀順序優化上的步驟如算法1所示。在隨機生成初始種群后，不斷地執行選擇、交叉、變異等遺傳操作，直到執行完最大迭代周期數或者最優適應度值達到收斂狀態（其中收斂狀態定義為當種群中的最優個體連續5次不再優化），則結束搜索過程，否則繼續執行遺傳進化操作。算法對應的流程如圖4所示。

2.3 整體算法運行步驟

算法1 演化式算法在順序優化上的流程

輸入：變異概率Rm；種群數量S。

輸出：最終種群中適應度值最小的個體x_best。

a）使用訓練完畢的決策網絡（訓練部分見2.1節）初始化種群中的個體;

b）隨機初始化種群中剩余的S-1個個體;

c）對種群中的所有個體計算其適應度值;

d） iteration=0;

e） while iterationlt;最大迭代周期 do

f）選擇算子（見2.2節）;

g）交叉算子（見2.2節），產生新個體New_x;

h）加入New_x到種群，同時刪除適應度值最大的個體;

i） if Rmgt;random（） then

j）變異算子（見2.2節），產生新個體New_x′;

k）加入New_x′到種群，同時刪除適應度值最大的個體;

l） end if

m） iteration+=1;

n） if 狀態是否收斂 then

o） break

p） end if

q）end while

r）輸出x_best。

3 實驗分析與性能評價

3.1 實驗細節

實驗數據來源于某工程機械制造企業的自動化產線。產線上的零件種類共有226種，即D=226。每塊鋼板從零件庫中挑選若干零件的形狀進行激光切割與分揀。本文對某一時間段內的鋼板數據進行了收集，整理了共70份真實的鋼板數據，包含了所有種類的零件。同時，為了對實驗數據作進一步的補充，通過隨機抽取零件，生成了一批模擬鋼板數據（100份）。通過同時使用模擬數據與真實數據，驗證提出算法的泛化性，相關數據的獲取鏈接為：https：//github.com/ tiantianhuanle/Job-Scheduling。本次實驗環境為：Intel Core i7-8565U@1.8 GHz處理器，8 GB內存，Windows 10操作系統，Python 3.8編程。

3.2 不同方法的優化效果

表2和3分別展示了不同方法在求解不同規模的真實驗證集與模擬驗證集（通過隨機抽取N個鋼板組成一條樣本數據）上的效果，樣本數據的N分別取10，20，30，50，60，數據量均為2 048條。求解指標F（x）的值越小越好，相關方法的參數設置如表4所示，其中演化式算法中的參數與GA及Transformer+RL中的參數設置相同。

以表2為例，當驗證數據的N=10時，隨機順序（目前生產線的方法作為基準方法）產生的平均清框次數為6.91，而演化式算法給出解的平均清框次數為最優的5.74，表中的百分數為對應方法相比基準方法的下降幅度。同樣的情況也發生在其他輸入尺寸的驗證數據集上，從表中可以看出兩個趨勢：

a）PointerNet給出解的平均清框值均高于Transformer，說明PointerNet的優化性能要弱于Transformer。

b）當驗證數據的輸入尺寸較小時，元啟發式算法同樣取得了較好的表現；而當數據輸入尺寸逐步增大（gt;10）時，DRL開始優于元啟發式算法。但演化式算法在所有尺寸上均取得了最優表現，這表明GA中引入DRL在實際的大規模OSSI求解上具有優勢。

表3模擬數據集中亦與之類似，結合了Transformer+RL與GA的演化式算法在所有的N上均有最佳的表現，尤其是驗證數據的規模逐步增大（gt;30）時，元啟發式算法的表現開始惡化，而演化式算法依然魯棒，證明了DRL初始化GA種群在尋優過程中所帶來的優勢。此外，演化式算法相比單獨的Transformer+RL具有更強的優化表現，說明GA也進一步提升了演化式算法的優化性能，在演化式算法中兩個模塊相輔相成。

3.3 消融實驗

為了探究演化式算法中的DRL部分，在圖5（a）中分別展示了深度網絡PointerNet與Transformer在RL訓練中的loss下降曲線。從圖中可以看出，PointerNet+RL在初始階段loss值較為波動，而在中后期趨于收斂。Transformer+RL的這一趨勢則更加明顯，在2k步左右其loss達到了最大值;5k步到12.5k步間loss下降明顯，之后趨于收斂。圖5（b）中分別展示了PointerNet與Transformer在訓練數據上的平均F（x）值變化趨勢?？梢钥吹诫S著訓練的進行，兩個網絡的平均F（x）值均在不斷優化。圖5（c）中分別展示了PointerNet與Transformer在同一真實驗證集數據（N=10）上的平均F（x）值變化曲線。由圖可知，隨著網絡的優化，兩個網絡的平均F（x）值均在不斷優化，PointerNet的平均F（x）值起始時為7.08，最終穩定在6.51左右；而Transformer起始時為6.8，最終穩定在6.29左右。對比之下，同樣說明了Transformer網絡擁有更加優秀的表現。

綜上所述，從圖中三個指標的變化中可以看出，隨著訓練的進行，DRL的決策網絡在不斷地收斂，而在驗證集上的表現也驗證了決策網絡的泛化能力。

為了研究演化式算法中的GA部分，在圖6中繪制了GA中變異概率與種群數量兩參數變化時，GA在真實驗證集（N=10）上平均F（x）值的變化曲線。變異概率取五組，分別為0.1，0.3，0.5，0.7，0.9。從圖中可以看出，隨著種群數量的增大，平均F（x）值在不斷地降低。而當種群的數量大于10以后，紅色曲線（變異概率為0.1）基本上取得了最優的平均F（x）值（見電子版），說明OSSI求解時GA的變異概率并不需要過大，設為0.1附近較為合適。

此外，從圖6中可知當種群數量固定時，由變異概率的改變引起的目標值變化幅度不超過0.05。而當變異概率固定時，由種群數量的改變引起的目標值變化幅度遠超0.05，這說明了相比變異概率，種群數量對尋優過程具有更強的影響力，在超參數的設置中應更加關注種群數量。

為了比較不同的初始化方法對后續GA搜索過程的影響，本文亦對四種初始化種群的策略進行了研究。這四種策略分別為隨機初始化種群、使用訓練完畢的PointerNet初始化種群、使用訓練完畢的Transformer初始化種群以及使用SA算法初始化種群。圖7展示了GA在四種初始化策略下在真實與模擬驗證集（N=10）上的優化表現與平均時間開銷。折線代表不同策略的優化表現。由圖可知，傳統GA的平均F（x）值為6.081與4.76，使用訓練完畢的Transformer初始化GA種群策略達到了最優的平均F（x）值5.74與4.38，相比之下，提升了0.341與0.38次清框（約5.6%與8.0%）。

隨機初始化的GA在驗證集上的整體平均時間開銷為97.31 s，而使用訓練完畢的DRL初始化種群后GA在整體時間開銷上具有更好的表現，其中使用Transformer初始化種群后GA在時間開銷上最低，為92.98 s。而使用SA初始化GA種群也能產生次優表現，但此時SA的時間開銷達到了1 226 s，極為耗時。這說明了當GA中的初始種群擁有較好的解時有助于加速搜索過程的收斂，而不同初始化策略的對比實驗再次證明了OSSI求解時使用DRL初始化種群個體能帶來最大的清框值減少。

3.4 計算效率

表5展示了單獨GA與演化式算法在求解不同規模驗證數據集上的整體時間開銷（運行10次取平均），單位為s。由表中的數據可知，在鋼板集的尺寸較大（大于50）時，演化式算法相比于傳統的GA，其時間開銷優勢明顯，這對于大規模生產中實時性要求高的場景而言極具吸引力。究其原因，當求解數據規模較小時，GA在較短的時間內亦可尋得質量不錯的解；然而，當求解數據的規模逐步增大時，由于維度惡化，其所需的時間開銷亦明顯增大；而演化式算法由于DRL的加持，使得GA專注于開發階段，反而降低了整體的時間開銷。

4 公開數據集測試

為進一步驗證演化式算法的泛化性，文中在TSP公開數據集^[17]（每個節點10萬條測試數據）上對其進行了測試，并將其與其他較為先進的算法進行了對比分析，測試結果如表6所示，方法的參數設置見相關文獻與表4。

表中的值為平均的路徑長度，括號內為求解的時間開銷；其中開源求解器OR-Tools運行時間過長，未納入統計。從表中可以看出，演化式算法仍取得了最優的結果，尤其是在100個節點上，這進一步驗證了本文算法的優化能力；但相比單獨的DRL方法（PointerNet+RL或Transformer+RL），由于后續GA的繼續搜索，演化式算法的運行時間變長，這是以時間復雜度的增加為代價換取優化質量的提升。

5 結束語

對分揀作業進行調度有助于優化企業生產流程，提高生產效率。本文針對機械制造產線中的鋼板分揀優化提出了一套數據表示方法與一種演化式算法。數據表示方法通過類比詞袋模型對鋼板數據進行抽象表示；演化式算法則通過DRL與GA聯合優化目標函數。從上述的實驗中可得如下結論：a）本文提出的數據表示方法對OISS問題是有效的;b）在結論b）的基礎上，本文提出的演化式算法在真實的OISS驗證集上將平均清框次數最高降低了16.93%，證明了算法的優良性能;c）本文提出的演化式算法在時間開銷上相比傳統的GA也具有一定優勢。本文研究的局限在于神經網絡需要完成離線訓練后才能進行使用，而這一步耗時過長，下一步將重點研究縮短網絡的訓練耗時；同時將針對生產線的上下游進行分析，構建場景的數字孿生系統，整合調度策略，實現生產效率最大化。

參考文獻：

[1]張貽弓，吳耀華.可合流的自動分揀系統訂單排序優化[J].山東大學學報：工學版，2008，15（5）：67-71.（Zhang Yigong， Wu Yaohua. Order sequencing optimization of confluent automatic sorting system[J].Journal of Shandong University：Engineering Edition，2008，15（5）：67-71.）

[2]Karlin A R， Klein N， Gharan S O. A （slightly） improved approximation algorithm for metric TSP[C]//Proc of the 53rd Annual ACM SIGACT Symposium on Theory of Computing.2021：32-45.

[3]Wang Pengcheng， Peng Wei， Zhang Wenxin， et al. Joint channel and power allocation algorithm for flying Ad hoc networks based on Bayesian optimization[C]//Proc of International Conference on Advanced Information Networking and Applications.Cham：Springer，2021：320-331.

[4]Duan Chen， Peng Wei， Wang Baosheng. CO-BPG： a centralized optimizer for routing in BGP-based data center networks[C]//Proc of International Conference on Advanced Information Networking and Applications.Cham：Springer，2021：307-319.

[5]江璞玉，劉均，周奇，等.大規模黑箱優化問題元啟發式求解方法研究進展[J].中國艦船研究，2021，16（4）：1-18.（Jiang Puyu， Liu Jun， Zhou Qi， et al. Research progress of meta heuristic solution methods for large-scale black box optimization problems[J].Chinese Ship Research，2021，16（4）：1-18.）

[6]張冠宇，尚文利，張博文，等.一種結合遺傳算法的工控協議模糊測試方法[J].計算機應用研究，2021，38（3）：680-684.（Zhang Guanyu， Shang Wenli， Zhang Bowen， et al. A fuzzy test method for industrial control protocol combined with genetic algorithm[J].Application Research of Computers，2021，38（3）：680-684.）

[7]丁旸鈞天，曹懷虎.融合模擬退火的隨機森林房價評估算法[J].計算機應用研究，2020，37（3）：784-788.（Ding Yangjuntian， Cao Huaihu. Stochastic forest house price evaluation algorithm combined with simulated annealing[J].Application Research of Computers，2020，37（3）：784-788.）

[8]王守金，程小桐，宋曉宇.引入高斯分布縮放因子的人工蜂群算法[J].計算機工程與設計，2019，40（9）：2507-2512，2536.（Wang Shoujin， Chen Xiaotong， Song Xiaoyu. Multi colony artificial bee co-lony algorithm with variable sub population size[J].Computer Engineering amp; Design，2019，40（9）：2507-2512，2536.）

[9]姚遠遠，葉春明.求解作業車間調度問題的改進混合灰狼優化算法[J].計算機應用研究，2018，35（5）：1310-1314.（Yao Yuanyuan， Ye Chunming. Improved hybrid grey wolf optimization algorithm for Job-Shop scheduling problem[J].Application Research of Computers，2018，35（5）：1310-1314.）

[10]Pettinger J E， Everson R M. Controlling genetic algorithms with reinforcement learning[C]//Proc of the 4th Annual Conference on Ge-netic and Evolutionary Computation.2002：692-692.

[11]Zhu Min， Yi Sheng， Yang Chunling， et al. Research on RLGA-based hardware evolution optimization technology[C]//Proc of the 15th IEEE Conference on Industrial Electronics and Applications.Piscataway，NJ：IEEE Press，2020：188-193.

[12]Chen Qiong， Huang Mengxing， Xu Qiannan， et al. Reinforcement learning-based genetic algorithm in optimizing multidimensional data discretization scheme[J].Mathematical Problems in Engineering，2020，2020（2）：article ID 1698323.

[13]Bora T C， Mariani V C， dos Santos Coelho L. Multi-objective optimization of the environmental-economic dispatch with reinforcement learning based on non-dominated sorting genetic algorithm[J].Applied Thermal Engineering，2019，146：688-700.

[14]Lu Zhichao， Whalen I， Boddeti V， et al. NSGA-net： neural architecture search using multi-objective genetic algorithm[C]//Proc of Genetic and Evolutionary Computation Conference.2019：419-427.

[15]Vinyals O， Fortunato M， Jaitly N. Pointer networks[EB/OL].（2015）[2021-10-25].https：//arxiv.org/abs/1506.03134.

[16]Ma Qiang， Ge Suwen， He Danyang， et al. Combinatorial optimization by graph pointer networks and hierarchical reinforcement learning[EB/OL].（2019）[2021-10-25].https：//arxiv.org/abs/1911.04936.

[17]Kool W， Van Hoof H， Welling M. Attention， learn to solve routing problems！[EB/OL].（2018）[2021-10-25].https：//arxiv.org/abs/1803.08475.

[18]Deb K， Pratap A， Agarwal S， et al. A fast and elitist multiobjective genetic algorithm： NSGA-Ⅱ[J].IEEE Trans on Evolutionary Computation，2002，6（2）：182-197.

[19]繆學勤.智能工廠與裝備制造業轉型升級[J].自動化儀表，2014，35（3）：1-6.（Miao Xueqin. Transformation and upgrading of intelligent factory and equipment manufacturing industry[J].Automation Instrumentation，2014，35（3）：1-6.）

[20]Dehkordi R A， Khosravi H. Vehicle type recognition based on dimension estimation and bag of word classification[J].Journal of AI and Data Mining，2020，8（3）：427-438.

[21]Xi Lei， Wu Junnan， Xu Yanchun， et al. Automatic generation control based on multiple neural networks with actor-critic strategy[J].IEEE Trans on Neural Networks and Learning Systems，2020，32（6）：2483-2493.

[22]Helsgaun K. An extension of the Lin-Kernighan-Helsgaun TSP solver for constrained traveling salesman and vehicle routing problems[EB/OL].（2017）[2021-10-25].http：//akira.ruc.dk/～keld/research/LKH/LKH-3_REPORT.pdf.

[23]Crainic T G， Roy J. OR tools for tactical freight transportation planning[J].European Journal of Operational Research，1988，33（3）：290-297.

[24]Gurobi optimizer reference manual[EB/OL].（2018）[2021-10-25].http：//www.gurobi.com.

計算機應用研究2022年3期

計算機應用研究的其它文章: 下期要目; 點線融合雙目定位與建圖多維提升方法; 基于QBFM矩和三維結構的圖像哈希算法; 基于語義分割不確定性的特征點選擇算法; 基于可重疊混淆樹的卷積神經網絡; 基于多級深度網絡架構的群體行為分析模型研究