基于深度學習神經網絡和量子遺傳算法的柔性作業車間動態調度

2022-06-23 07:33:20閻春平陳建霖侯躍輝

重慶大學學報 2022年6期

陳亮，閻春平，陳建霖，侯躍輝

(重慶大學機械與運載工程學院，重慶 400044)

在企業的實際管理中，生產計劃的制訂是企業實現生產資源合理分配的重要步驟，生產調度是保證完成生產計劃的重要環節，車間調度問題是企業生產過程必須考慮的重要問題。隨著市場需求不斷變化，為了提高自身的競爭力，企業必須能夠快速適應市場的變化，提高自身的柔性制造能力，因此產生了柔性制造系統[1]。基于此背景的柔性作業車間調度問題被提出，成為了研究熱點[2]。而在柔性作業車間調度過程中，常常受到不確定事件的干擾，比如設備故障、緊急訂單插入等，需要經常性地調整原調度計劃，造成調度不穩定。所以筆者將結合以上內容研究柔性作業車間動態調度問題(dynamic flexible job shop scheduling problem，DFJSP)。

1 柔性作業車間動態調度優化模型

1.1 問題描述

現有待加工工件集J={J1,J2,…,JN}和加工設備集A={A1,A2,…,AM}，每個工件Ji包含Oi道工序，根據柔性作業調度的要求，每道工序可有一臺或多臺設備供選擇。根據工件的工藝路徑和各自工序的可選加工設備集合，將各道工序分配給滿足加工條件的設備。同時，在滿足工藝約束和符合設備加工條件的前提下，對各個加工設備上分配到的工序集進行排序。

對DFJSP問題，需要考慮動態不確定因素的影響，比如機器故障或阻塞、不合格工件重返工、訂單變化等隨機性事件。同時，為了提高動態調度的穩定性，提高模型的預見性和整體性，還需要進行周期性重調度。基于上述問題，考慮機器故障、到達時間不確定、緊急訂單插入3種不確定事件對調度模型的影響，在周期性重調度的環境下，合理地進行設備分配和工序作業分配，使延期懲罰、能耗、偏差度3項指標達到最優。

基于以下假設構建模型：

假設1 同一工件的工序之間有順序要求，不同工件之間沒有順序要求；

假設2 在開始加工時，所有加工設備資源均可使用，所有工件均可被加工；

假設3 一道工序只能選擇一臺設備，一臺設備在任一時刻只能加工一道工序；

假設4 加工設備在加工過程中不會故障，不考慮工序加工中斷的情況；

假設5 系統內所有設施緩沖區無限，忽略運輸時間、準備時間等；

假設6 工件的加工路線不變，所有工件的優先級一致。

本模型中使用的參數和指標如下：

N表示工件總數；

i表示工件索引號，i∈{1,2,…,N}；

Oi表示工件i的最大工序數；

j為工序索引號，j∈{1,2,…,Oi}；

M表示可用加工設備數；

m表示加工設備索引號，m∈{1,2,…,M}；

u表示一臺設備上工序的加工順序索引號；

Qm表示加工設備m上安排生產的工序總數；

Di表示工件i的交貨期；

Gm(u)表示在生產設備m上按順序開始加工工序u的起始時間;

Bi,j表示工件i的工序j的開始加工時間;

Cmax表示整個調度過程的最大完工時間；

Ci,j表示工件i的工序j的完工結束時間；

Ec表示加工總能耗；

Ec(i,j,m)表示工件i的工序j在設備m上的所產生的能耗；

Ek表示空載總能耗；

Xa為衡量機器在調度開始后發生故障時刻的隨機變量；

Xr為衡量機器維修時間的隨機變量；

Xg為衡量工件到達時間的隨機變量；

Xe為衡量緊急訂單到來時刻的隨機變量。

1.2 優化目標

為保證模型的有效性，以最小化平均延期懲罰FEDP、最小化能耗Ep為優化目標。同時，為了兼顧動態調度過程中對穩定性的要求，需要評定動態調度中調度計劃調整的程度，即相對于原始調度計劃的偏離程度，故以最小化偏差度FDV作為第3個優化目標，并以此建立優化模型:

min(FEDP,Ep,FDV)。

(1)

1.2.1 平均延期懲罰

基于均衡生產理念，將調度目標確定為最小化平均延期懲罰FEDP:

(2)

(3)

(4)

(5)

1.2.2 能耗

柔性作業車間的能耗主要體現為生產能耗和輔助環節能耗。生產能耗主要是指與加工環節直接相關的能源消耗，包括加工能耗、換刀能耗、換夾具能耗、機床空載等待能耗等。輔助環節能耗主要是在輔助生產的過程中產生的能源消耗，比如切削液的能耗、工件運輸能耗等。由于部分能耗對調度結果的影響不大，且實際測量復雜，故根據問題的描述簡化對能耗的定義，只考慮因加工順序不同和分配方式的差異而變化較大的能耗，包括加工能耗和設備空載能耗。

加工能耗包括整個調度流程中所產生的切削能耗、空切能耗、換刀能耗和裝夾能耗等。所以，實際生產中的加工能耗為：

(6)

用對所有設備的上下道工序之間的時間間隔的累積表示設備的等待能耗：

(7)

故總能耗為：

Ep=Ec+Ek。

(8)

1.2.3 偏差度

偏差度是衡量在重調度時刻，舊調度計劃中待加工工序的開始時間與新調度計劃中待加工工序的開始時間的差值。

(9)

1.3 約束條件

Bi,j+1Ci,j，j∈{1,2,…,Oi-1};

(10)

(11)

(12)

(13)

(14)

Bi,j≥0，Gm(u)≥0；

(15)

(16)

Xa～G(αa,βa)，Xr～G(αr,βr)，Xg～G(αg,βg)，Xe～G(αe,βe)。

(17)

式中：αa和βa為發生故障時刻的伽馬分布的參數，G(αa,βa)為發生故障時刻的伽馬分布；αr和βr為機器維修時間的伽馬分布的參數，G(αr,βr)為機器維修時間的伽馬分布；αg和βg為工件到達時間的伽馬分布的參數，G(αg,βg)為工件到達時間的伽馬分布；αe和βe為緊急訂單到來時刻的伽馬分布的參數，G(αe,βe)為緊急訂單到來時刻的伽馬分布。

式(10)表示同一工件內的工序滿足工藝路線約束；式(11)表示一道工序只能選擇一臺設備加工；式(12)表示加工設備約束，一臺設備在任一時刻只能加工一道工序；式(13)表示設備m上加工的工序總數約束；式(14)為工件的交貨期約束；式(15)表示對決策變量在數值上的約束；式(16)表示在調度時刻正在機器上加工的工序將不受影響，繼續完成原來的加工；式(17)表示動態事件的隨機變量均服從伽馬分布。

1.4 動態調度響應策略

采用基于DQN和QGA的動態調度響應策略。該策略結合了動態事件重調度和周期性重調度，是一種完全反應式調度策略，在動態事件和周期性重調度的觸發下，基于當前系統的狀態，動態地根據基于DQN和QGA的調度算法進行重調度，制定新的調度計劃，以適應車間制造環境的動態變化。

為了準確地描述當前系統狀態，將工序分為以下5類：已完工工序、正在加工工序、已調度但待加工工序、不可調度工序、待調度工序。已完工工序是指在重調度時刻已經完成加工的工序，正在加工工序指在重調度時刻正在加工的工序，已調度但待加工工序指上一個調度周期內已經分配但等待加工的工序，不可調度工序指上一個調度周期和本調度周期內，按照工藝流程下一步不可進行加工的工序，待調度工序指上一調度周期內不可調度但當前調度周期內可調度的工序。重調度需要解決的是在當前重調度周期內需要匯總可調用工序，包括已調度但待加工工序和待調度工序，并對其進行調度和安排加工。

在重調度時刻對系統的狀態進行描述，選擇耦合性低、對目標影響大的屬性，主要有與時間有關的屬性和與能耗有關的屬性。與時間有關的屬性包括工序加工時間TP、工件剩余工序數NR、各工件剩余加工時間TR、工序到達時間TA、設備的可用時間Tm、交貨期D、工件的權重ω。與能耗有關的屬性包括工序的加工能耗EP、工件的剩余加工能耗ER。

2 基于QGA和DQN的動態調度算法

2.1 量子遺傳算法

量子遺傳算法是一種將具有概率性的量子計算與GA算法融合在一起的算法[14]。該算法在一般的編碼過程中添加了對基因的量子矢量表達，一位基因可由兩位量子比特表示，并利用量子旋轉門對量子比特的相位旋轉實現染色體進化，與一般的遺傳算法相比有更好的收斂和多樣性。

種群個體的染色體采用基于量子比特形式的編碼解碼方式，即傳統算法中表達信息的一位基因用兩位基因來表達，該段信息數據處于“0”態和“1”態的疊加態中，根據概率具體選擇處于某種量子態中的基因。這賦予QGA算法更好的多樣性特征。量子比特在物理意義上表示同時處在兩個量子態的疊加態，如式(18)所示：

|φ〉=α|0〉β|1〉。

(18)

式中：0〉和1〉分別對應量子計算中的“0”態和“1”態；(α,β)表示處于“0”態和“1”態的概率幅，也就是以多大的概率取到0或1。該參數滿足如下條件：

|α|2+|β|2=1。

(19)

量子遺傳算法的收斂通過量子旋轉門更新來實現，一個量子比特b經過量子門的相位調整后，會逐漸向某一狀態傾斜，最終收斂于局部最優解。量子旋轉門的表達式如下：

(20)

量子比特的相位上的調整如下：

(21)

量子旋轉門的原理是通過比較當前個體和最優個體的適應度，選擇合適的旋轉角大小和方向使相應的基因向適應度更高的方向演化，從而收斂于局部最優解。

表1 旋轉角調整策略

2.2 深度Q學習神經網絡算法

深度Q學習神經網絡算法是一種結合強化學習和神經網絡的算法。該算法定義了一種智能體，該智能體能夠對復雜的環境做出響應，依據策略執行動作，并得到在該環境下的反饋，利用該反饋進行不斷學習，訓練能夠對動態環境做出最優響應的神經網絡模型，從而提升對環境的適應能力。

該算法主要包括以下3個要素：環境的狀態S、智能體的動作A、環境對智能體的獎勵R。本研究的環境狀態包括時間和能耗有關的屬性，時刻t的環境狀態St描述為：

St={Tp,NR,TR,TA,Tm,D,ω,EP,ER}。

(22)

當智能體執行動作后，狀態由St變化到St+1，設定狀態變化的一步為最早的一個或一批工件加工完成，此時會進入下一個狀態。

在t時刻，動態調度系統所執行的動作At是下一步加工的工序集，動作At是由動作選擇策略產生的。該策略根據對環境的觀察，根據概率ε選擇獲得價值最大的動作。

獎勵函數R的選取要考慮整個調度系統的優化目標，同時確保強化學習模型能夠向著獎勵最大化的方向擬合，本研究中對各個調度目標采取加權方式求和，并將求解目標的最小化轉化為強化學習中的獎勵最大化，獎勵函數如下：

(23)

式中：η表示縮放因子，用以控制對獎勵值的調整；α1、α2、α3分別表示對平均延期懲罰、能耗、偏差率的權值。

Le(θg)=Es,a～ρ(·)[(ye-Q(s,a;θg))2]，e=1,2,…,NA,g=1,2,…,MN。

(24)

式中：s表示當前的環境狀態;a表示采取的具體行動;e表示算法的迭代序號;g表示神經網絡的參數序號;NA表示算法的迭代次數;MN表示神經網絡的參數個數;ye是當前環境下采取行動得到的現實值，即訓練數據的輸出值;θg表示神經網絡模型的第g號參數;Q(s,a;θg)是根據當前評估神經網絡求出的估計值；Es,a～ρ(·)表示神經網絡估計值和現實值的誤差累積。

DQN算法關鍵的一步是對ye求解，ye是根據現實神經網絡求出的現實值，現實神經網絡是上一個迭代周期內的評估神經網絡。在算法中采用兩個神經網絡的目的是減少算法的不穩定性。ye的求解公式如下：

(25)

2.3 基于QGA和DQN的調度算法整體框架

本研究中改進了一般的QGA算法，利用DQN算法學習出的Q價值神經網絡模型作為調度模型的適應度函數，提高了算法對動態環境的學習性和適應性，融合了動態調整旋轉角策略，增強了其收斂能力，并結合混沌搜索方法均勻遍歷解空間。算法流程見圖1,算法具體步驟如下。

步驟1 設定個體總數popsize、單個個體的基因總數w、變異概率Pv、交叉概率Pc、種群進化代數MaxGen、重調度周期TL、動態事件的概率參數、最大學習調度次數MaxL、學習周期GapL、更新周期GapUp等參數。

步驟2 初始化用來訓練神經網絡的經驗池，初始化Q評估神經網絡模型(Q-evaluation)和Q現實神經網絡模型(Q-target)，初始化學習調度次數TLS為1，學習步數step為1。

步驟3 在初始調度時刻，對已到達工件進行調度，記錄當前初始系統狀態S0。

步驟4 按照均勻規則初始化種群G0，生成popsize條概率幅一致的染色體。

步驟5 對染色體解碼，得到下一步加工的工序集，記錄當前系統狀態S，通過Q-evaluation價值函數得到適應度，并以此來更新量子旋轉門，生成子代種群Gc。

步驟6 將父代Gp與子代Gc種群合并成種群Gh，并對其解碼，通過Q-evaluation價值函數測量出種群的適應度。

步驟 7 按照適應度大小挑選出下一代種群。

步驟8 對挑選出的種群以設定的概率執行交叉操作，并根據一定規則取部分個體變異，生成種群Gb。

步驟9 采取精英保留策略，選擇Gh中適應度高的個體與種群Gb合并，生成下一代種群G。

步驟10 返回步驟4循環，直到達到最大種群進化次數。

步驟11 解碼種群中適應度最高的染色體，得到下一步的加工工序集A，記錄當前系統狀態S，計算出獎勵值R，并由執行動作推導出下一個系統狀態S′，將{A,S,R,S′ }記錄到經驗池中，并更新step。

步驟12 通過step判斷是否達到一個Q-target更新周期，達到即用Q-evaluation神經網絡更新Q-target神經網絡，未達到則繼續下一步。

步驟13 通過step判斷是否達到一個學習周期，如果達到即開始進行Q-evaluation神經網絡訓練，隨機抽取經驗池中的一批數據作為網絡模型的輸入數據，對應的輸出數據根據公式計算得出，以此來訓練Q-evaluation神經網絡，未達到則繼續下一步。

步驟14 判斷一次調度是否完成，未完成則返回步驟4，完成則更新學習調度次數TLS。

步驟15 判斷學習調度次數TLS是否達到最大學習調度次數MaxL，未達到則返回步驟3，達到則表明強化學習過程結束，適應度函數模型學習完成。

步驟16 根據適應度函數模型求解最優解，執行步驟4～9。

步驟17 對種群進行混沌搜索，如果找到一個非支配解，則將該非支配解對應的個體代替種群中前端序值低的個體。

步驟18 返回步驟16循環，直到達到最大迭代次數，此時求出最優解。

2.4 算法具體設計

2.4.1 初始化

2.4.2 多層編碼方案

由柔性作業車間動態調度的問題特性可知其編碼由兩部分組成，分別是工序排序向量(operation sequence vector，OV)和加工設備選擇向量 (machine assignment vector，MV)。

w=LP×H+LA×H，

(26)

式中H為所有工件的工序總數。

接下來需要對二進制染色體進行解碼。由于量子比特是通過概率幅對解的一種線性疊加態，首先將二進制染色體轉換為十進制染色體，再根據各自的解碼策略，將十進制染色體轉換為最終解。針對種群某一個體的染色體的解碼方案如下。

1)對于w位的初始解Q，根據概率幅將雙行的初始解轉換為單行的二進制代碼Q。設Q(t)為第t位的量子比特，系統產生一個0到1的隨機數r，若|αt|2>r2，則令B(t)=1，否則令其為0 。由此得到w位的二進制解B=(b1,b2,…,bt,…,bw)；

(27)

2)根據上面的編碼策略，按照OV和MV分別進行十進制解碼。對于OV，將每LP位的二進制串解碼成十進制串，由此得到長度為H的十進制串DP；對于MV，將每LA/M位的二進制串轉換為十進制串，由此得到長度為M×H的十進制串DA。最終得到的十進制染色體DR如下：

DR=[DP|DA]。

(28)

3)對于十進制染色體DR，同樣按照兩部分分別處理。

對于OV，將DP中的數按從小到大標記序號，標記序號最小的數所在的位置被替換為第一個加工的工件索引號，標記序號次小的數所在的位置被替換為第二個工件索引號，依此類推。如果在DP中出現相等的數字，則位置序號較小的數代表工序號較小的工件。由此得到所有工序的加工順序序列SP。SP中第n次出現的數i將表示工件i的第n道工序。

對于MV，每M位為一個單元，在一個單元內有M位十進制數，根據能夠加工該單元對應的工序的最大設備數h，取前h位中的最小數，該最小數所在的位置序號即為加工該道工序所對應的設備選擇索引號，如果最小數有相同的，則對大小相同的位置隨機選擇一個作為設備選擇序號。由此得到設備選擇序列SA。

最終得到工序調度染色體SR如下：

SR=[SP|SA]。

(29)

4)根據MV將OV中的每道工序分配到對應設備中，完成調度，得到最終調度解。

解碼流程如圖2所示。

圖2 解碼流程圖Fig. 2 Decoding flowchart

2.4.3 動態調整旋轉角策略

量子旋轉角大小的選擇對量子遺傳算法的性能影響很大。如果旋轉角幅值太小，可能導致收斂速度比較慢，如果旋轉角太大，則可能導致在最優解附近徘徊，無法收斂。一般情況下，量子旋轉角的大小是固定的，無法對進化情況做出自適應調整，導致收斂速度較慢或無法收斂。

本研究中提出一種動態調整旋轉角策略。當種群中個體的適應度與種群中最優個體的適應度的差距較大時，可適當調大旋轉角的幅值，以達到快速收斂的目的；反之則可適當減小旋轉角的幅值，對個體進行微調，防止在最優解周圍來回震蕩以致無法收斂。旋轉角幅值的調整函數如下：

(30)

式中：Δθ表示旋轉角幅值，θmax和θmin限定了旋轉角的極值，fmax和fmin表示種群的個體適應度極值，fc表示個體的適應度。該策略關聯了旋轉角與個體適應度，可動態自適應調整旋轉角度，從而提升整體的收斂速率。

2.4.4 交叉操作

在本研究中使用了一種關聯所有染色體的交叉技術，即全干擾交叉方式。這種方法的特點是所有染色體均受影響。例如假設人口為4，基因數為5，其中每個數字代表染色體上的一個量子位(圖3)。交叉操作完成后，染色體的每一位都將重新排列并斜向連接以形成新的種群。該交叉操作可以最大化地利用整個種群的染色體信息，提高種群的多樣性，并有效地減少早熟現象的發生。

圖3 全干擾交叉演示Fig. 3 Demonstration of full interference crossover

2.4.5 變異操作

與經典遺傳算法相比較，量子遺傳算法同樣位數的量子比特包含了更豐富的信息，種群多樣性更好，但僅靠量子態帶來的多樣性對搜索全局最優解仍然不夠，還是可能出現過早地收斂于局部解的問題，因此需要加入量子變異來提升算法的性能。變異操作可以有效地減少早熟現象的發生，提高算法的尋優能力。

在QGA算法中通常使用量子非門來進行變異操作，量子非門的表示形式如下:

(31)

對某位量子比特進行量子非門轉換，可得到：

(32)

該操作交換了量子比特|0和|1〉的概率幅，從而互換了測量計算時的概率，以達到變異的目的。

2.4.6 混沌搜索

為了避免種群早熟，本研究中引入混沌搜索算法，可對解空間比較均勻地遍歷。混沌變量的迭代采用基于Tent映射的混沌搜索方法[15]。Tent映射函數有良好的物理性能，可以得到比較均勻的解集，能提高對解空間的搜索能力，但容易產生不動點情況，在算法中需要避開它。混沌變量的迭代步驟如下：

1)初始化迭代次數e=1。

2)取某一染色體Qe，對該染色體的第一行進行迭代，迭代公式如下：

(33)

(34)

在此基礎上將當前代種群引入混沌變量進行混沌搜索，在最大迭代次數內，若迭代得到的解不受當前所有種群支配，則結束迭代并記錄當前非劣解;若始終沒有得到非劣解，則迭代至最大迭代次數后停止迭代。

3 算例驗證

3.1 測試數據

通過測試案例來驗證算法解決多目標DFJSP的可行性。當前并沒有標準測試算例來測試柔性作業車間調度問題，本研究中參考Brandimarte[16]柔性作業車間調度問題標準算例，生成一系列的測試算例。為簡化問題，設每個工件的工序數一致。測試算例的參數如表2所示。

表2 測試算例參數

具體生成步驟以算例MK01為例：工件總數目為6，單個工件的工序數為4，某道工序的可選加工設備以一定概率隨機選取，在[1,9]之間隨機生成不同機器上工序的生產時間，并且是整數；在加工設備上加工不同工序所用的能耗在[2,8]之間隨機選取，且為實數；各個工件的交貨期設為50乘以工件設備數之比。

3.2 評價指標

采用迭代距離Ds指標[17]來評價算法的收斂性能：Ds表示的是當前算法的非劣解集I相對于真實Pareto解集I*的距離。該距離越小，表明當前算法的非劣解集越接近真實Pareto解，算法求優性能就越好。

(35)

式中：NI*表示該非劣解集的元素個數；σxy表示解I與I*中元素y在歸一化空間內的距離。真實Pareto解集可由所有算法算得的非劣解集構成的集合中的非劣解近似表示。

采用ΔMetric指標[18]來衡量非劣解集的多樣性。通過非劣解集中相鄰解的歐式距離與平均距離的差值累加來反映解空間分布的均勻性。其數學表達式如下：

(36)

3.3 實驗結果

本次實驗首先需要驗證通過DQN強化學習得到的Q適應度函數的有效性，將其與其他評估適應度的方法對比。常用的求解多目標解適應度的方法有兩種，一種是將多目標通過加權方式轉換為單目標來進行評價，另一種是構造基于非支配排序等級的實值函數來評價多目標解。在本次實驗以MK04作為算例，設定種群迭代次數為80，種群個體數為40，單位延期懲罰系數為0.4，且當前只考慮設備發生故障的情況，為了統一計量各個評價方法的優劣，設定設備在時刻8出現故障，并在時刻20維修好。在量子遺傳算法的基礎上，分別調用這3種方法，各自重復運行10次，選擇調度結果中較優解(平均延期懲罰最小優先)，運行結果如圖4～6和表3所示。

圖4 采用Q適應度函數的重調度甘特圖Fig. 4 Rescheduling Gantt chart using Q fitness function

圖5 采用加權適應度函數的重調度甘特圖Fig. 5 Rescheduling Gantt chart using weighted fitness function

圖6 采用基于非支配排序等級的適應度函數的重調度甘特圖Fig. 6 Rescheduling Gantt chart using fitness function based on non-dominated ranking

表3 采用各種適應度函數的實驗結果

表3列出所有Pareto解中的各項目標的最小值及Pareto解個數，在所求解的各項目標上，采用Q適應度函數的算法算出的最小值均明顯優于其他兩種方法算出的結果，表明Q適應度函數對解空間的尋優能力更強，能夠更好地評估染色體的適應度。而且Q適應度函數對動態事件有很好的響應，能夠根據當前環境做出整體的最優選擇，如圖4～6是采用各種適應度函數得到的最小平均延期懲罰解對應的重調度結果，當機器故障修復后，采用Q適應度函數的算法并不急于在機器3上安排工件4加工，而是選擇等待工件2的加工，而其他兩種算法都急于在機器3上安排工件4加工，不能達到整體最優。

在DFJSP問題上，為驗證算法的有效性，將本文的深度強化學習-量子遺傳算法(DQN-QGA)與求解DFJSP的常用算法非支配遺傳排序算法(non-dominated sorting genetic algorithm，NSGA)進行比較，同時為了驗證該算法在環境適應性上的提升，與一般非支配量子遺傳算法(non-dominated sorting quantum genetic algorithm，NSQGA)進行比較，并在各個測試案例中進行測試驗證。為保證一致性，對各個算法設定同樣的參數，包括種群進化代數為100，種群個體總數為80，動態事件均服從伽馬分布，根據文獻[8]中對動態事件的仿真策略，α取0.2，β取0.4。同時對各個算例重復運行20次，取20次運算結果的Pareto前沿解作為算法的運算結果。實驗結果見表4。

表4 各類算法關于指標Ds和Δ的計算結果

續表4

在收斂性指標上，DQN-QGA算法明顯優于其他算法。在16個算例中，DQN-QGA的Ds指標均比NSQGA和NSGA小，表明其求出的非劣解接近實際Pareto解，與常規算法相比，極大地提高了算法收斂性。在多樣性指標上，DQN-QGA算法在超過2/3的算例中，Δ指標比其他算法小，由于編碼解碼復雜和智能算法自身的隨機性，在剩下的算例中，DQN-QGA的Δ指標比其他算法大。總體說來，與傳統的遺傳算法和量子遺傳算法相比，DQN-QGA算法在收斂性和多樣性上有明顯的優勢。

4 結束語

研究了柔性作業車間動態調度問題及其求解。首先建立了考慮了平均延期懲罰、能耗、偏差度的DFJSP優化模型，采用動態重調度和周期性重調度相結合的動態調度響應策略；然后利用DQN算法學習環境-行為評價神經網絡模型作為優化模型的適應度函數，基于該適應度函數，通過改進的量子遺傳算法對優化模型求解，該算法設計了多層編碼解碼方案，對量子交叉和變異操作進行了適當改進，并引入了混沌變量，對種群進行基于Tent映射的混沌搜索以提升對解空間的均勻遍歷能力，避免早熟現象。最后通過測試算例，驗證了環境-行為評價神經網絡模型的有效性，能夠根據當前環境做出較優的選擇，提高了優化算法的魯棒性和自適應性。提出的基于Q學習神經網絡的改進QGA算法，通過不斷地學習，可以適應新環境下的動態事件干擾，具有很強的魯棒性，相較于傳統的遺傳算法，該算法在收斂性、多樣性、穩定性上有了較大的提升，可以作為求解DFJSP問題的一個途徑。

重慶大學學報2022年6期

重慶大學學報的其它文章: 曳引電梯磁流制動器的磁流變液摩擦學性能分析; 基于磨損區重構的圓柱立銑刀周刃磨損評價方法; 基于遷移成分分析和詞包模型的變工況軸承診斷方法; 增壓汽油機面向控制的充量模型及其數值標定; 改進YOLOv3的橋梁表觀病害檢測識別; 饋能懸架的多模式智能控制策略