999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向柔性作業車間生產調度的深度強化學習方法

2024-12-31 00:00:00祝正宇郭具濤呂佑龍左麗玲張潔
中國機械工程 2024年11期

摘要:針對多品種、小批量生產模式下柔性作業車間生產調度問題,以最小化訂單總拖期時間為優化目標,提出一種基于組合規則和強化學習的智能調度方法。將柔性作業車間生產調度問題轉換為馬爾可夫決策過程,根據問題特點與優化目標,利用7種特征表征車間狀態,設計6種組合式規則作為動作庫,通過改進后的深度Q網絡(DQN)算法對該問題進行求解。以航天結構件加工車間為案例,分別在5種不同規模大小的算例中,與其他常見的規則式方法進行對比,驗證了所提方法縮短任務交付期的可行性和有效性。

關鍵詞:生產調度;柔性作業車間;深度強化學習;深度Q網絡

中圖分類號:TP18

DOI:10.3969/j.issn.1004 132X.2024.11.012

開放科學(資源服務)標識碼(OSID):

Deep Reinforcement Learning Method for Flexible Job Shop Scheduling

ZHU Zhengyu1 GUO Jutao2 LYU Youlong3 ZUO Liling1 ZHANG Jie3

1.School of Mechanical Engineering,Donghua University,Shanghai,201620

2.Shanghai Spaceflight Precision Machinery Institute,Shanghai,201600

3.Institute of Artificial Intelligence,Donghua University,Shanghai,201620

Abstract: Aiming at the flexible job shop scheduling problems under the mode of multi variety and small batch production, an intelligent scheduling method was proposed to minimize the total tardiness of orders based on combination rules and reinforcement learning. Transforming the flexible job shop production scheduling problem into a Markov decision process, according to the characteristics and optimization objectives of the problems, seven features were used to represent the workshop states, and six combination rules were designed as an action library. The problem was solved by using the improved DQN algorithm. Taking the aerospace structural parts machining workshop as a case study, the feasibility and effectiveness of the proposed method in shortening task delivery time are verified by comparing with other common rule-based methods in five different scale calculation examples.

Key words: production scheduling; flexible job-shop; reinforcement learning; deep Q-network(DQN)

0 引言

作業車間調度問題(job-shop scheduling problem, JSP)[1-2]是組合優化領域的典型難題之一。以航天結構件加工車間為例,“十四五”以來,國家大力發展航天事業[3],伴隨著多品種、小批量的生產特點,原有的生產節奏已經無法適配高任務負載下的生產模式。這就要求生產調度環節在設備、人員等資源配置不變的情況下,優化排產方案,提高生產效率。此外,研制型號帶來的緊急插單情況需要頻繁地進行重調度,使得生產調度方案在保證質量的同時還需要兼顧求解的快速響應能力[4]

在實際生產中,車間通常以設備資源柔性的方式滿足多品種、小批量的生產特點。設備資源的柔性體現在每道工序可以有多臺設備選擇,從而降低任務對資源的搶占競爭,因此其調度問題是傳統作業車間調度問題的更一般情況,即柔性作業車間調度問題(flexible job-shop scheduling problem, FJSP)。根據資源選擇的限制條件和柔性程度,可以分為完全柔性作業車間調度問題(Total-FJSP)和部分柔性作業車間調度問題(Partial-FJSP)。在Partial-FJSP中,至少存在一道工序的加工設備只能是可選擇設備集中的部分設備即設備集的真子集。航天結構件加工車間內處理的工序按類型可分為多個種類,諸如立車、龍門等,每種工序都對應不同的可選設備集,因此其調度問題屬于Partial-FJSP。

FSJP問題自提出以來已被許多學者深入研究,且已證明是組合優化領域最困難的問題之一[5-6]。目前對FSJP主要有三類求解方式:調度規則[7]、智能優化算法[8-10]和強化學習的方法。調度規則的方法求解速度較快,但是無法保證解的質量。智能優化算法能夠在一定程度上在全局進行搜索,找到近似最優解,這種方法計算量較大且容易陷入局部最優。隨著機器學習技術的快速發展,強化學習(reinforcement learning,RL)已經在自主決策領域嶄露頭角[11],許多研究者為了針對FJSP提出更好的解決方案,引入了強化學習的方法求解FJSP[12-13]。其中,深度Q網絡(deep Q-network,DQN)結合了具有較強感知能力的深度學習和較強決策能力的強化學習,融合了深度神經網絡能夠利用歷史數據在線學習和強化學習從而依據狀態靈活選取決策行為的優點,更適用于柔性作業車間調度的決策過程[14]。鐘敬偉等[15]利用DQN算法以連續系統狀態值為深度強化學習算法的輸入,設計了4種新的復合調度規則以應對更為復雜和沖突的車間環境,為每次決策選取出最優調度規則。HE等[16]使用DQN算法構建多智能體強化學習系統,解決了多目標調度優化問題,以紡織加工過程為案例驗證了所提方法的有效性,實現了相關均衡最優解。LUO[17]研究了用DQN解決以總延期最小為目標的新任務插入下的動態柔性作業車間調度問題。WANG等[18]在多智能體強化學習環境中運用DQN指導基礎設施云上多工作流的調度,分別將最大完工時間和成本兩個優化目標抽象成兩個智能體。劉亞輝等[19]提出了感知認知雙系統驅動的雙環DQN方法,感知系統基于知識圖譜實現對車間知識的表征并生成多維信息矩陣;認知系統將調度過程分別抽象為資源配置智能體和工序排序智能體兩個階段,分別對應兩個優化目標。綜上,目前的研究者在使用強化學習的方法求解FJSP上取得了較好的進展,但在應用的過程中依舊存在兩個難點,一是在將FJSP問題轉化為馬爾可夫決策過程(Markov decision process,MDP)后,如何針對具體的問題設計有效、合理的狀態特征空間、動作選取空間和獎勵函數[20],二是如何將生產過程的先驗知識融入算法模型中,將生產實際中積累的相關知識用于優化甚至是簡化調度方案的求解過程。

為此,本文針對部分柔性作業車間調度問題,以最小化訂單總拖期時間為目標,通過設計面向調度目標的工序排序規則和融合先驗知識的設備指派規則,提出了一種基于競爭雙重深度Q網絡(dueling-double-deep Q-network,D3QN)的求解方法,最后以航天結構件加工車間為案例背景,通過對比實驗驗證所提方法的有效性。

1 問題描述

1.1 假設條件

部分柔性作業車間調度問題(Partial-FJSP)可以描述為:在待排產時刻,共有J個工件的I道工序等待調度;車間內共配置M臺設備,按設備類型分為不同的設備組。調度的過程就是將各工件的每一道工序分配到某一臺設備上進行加工,最終形成完整的調度方案。每道工序可在設備組或同型號的多臺設備中選取一臺進行加工,且選擇不同設備的加工時間不同,即設備存在能力差異。每個工件都是從訂單拆分而來,每個訂單存在最晚交付期。通過為工序選擇合適的加工設備,使得各工件的總延期時間最小,盡可能保證訂單的準時交付。此外,模型需要滿足如下基本假設:

①同一臺設備在任一時刻最多只能加工一道工序;

②同一工件的不同工序之間存在先后關系約束;

③每道工序在不同設備上的加工時間是確定的;

④工件工序在加工過程中不能被中斷;

⑤工件運輸時間、刀具和夾具更換時間等輔助時間考慮在加工時間范圍內。

1.2 數學模型

基于上述抽象描述與基本假設,進一步建立部分柔性作業車間生產調度的數學模型。

1.2.1 符號說明

對柔性作業車間生產調度數學模型中主要參數進行定義和描述,如表1所示。

1.2.2 目標函數

通常車間內的任務布置與訂單需求密切相關,因此,可以將最小化訂單總拖期時間設置為調度優化的目標,盡可能保證訂單的準時交付。構建的目標函數如下:

f=min Td=min(∑Ii=1max(0,Tci-Tri))(1)

1.2.3 約束表示

根據Partial-FJSP背景建立的數學模型共有6個約束條件,公式描述和含義如下:

∑Ii=1∑Jj=1Ymij≤1

i=1,2,…,I j=1,2,…,J m=1,2,…,M(2)

約束條件中,式(2)表示一臺設備在任意時刻下一次最多只能加工一個工件,不能同時加工多個工件;式(3)表示工件的一道工序只能由一臺設備完成;式(4)表示每個工件的工序有先后順序約束,且單道工序的工時固定;式(5)表示每一個工件的完工時間不可能超過總完工時間;式(6)表示開始和結束時間的參數變量必須為非負數。

2 基于組合規則和強化學習的智能調度方法

2.1 求解思路

如圖1所示,根據以上數學模型,首先設計調度過程的狀態空間、動作空間以建立MDP,其中狀態空間考慮工件維度與設備維度的狀態信息,動作空間考慮工序排序規則與設備指派規則,然后建立基于D3QN算法的調度智能體,通過觀察狀態空間內的狀態特征,選取動作空間內的工序排序規則與設備指派規則進行規則組合,生成調度方案的決策輸出,并通過影響狀態空間形成持續調度過程。

2.2 算法設計

2.2.1 強化學習

強化學習是機器學習的范式和方法論之一[21],用于描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。一般情況下,強化學習框架使用MDP模型以形式化地描述智能體與環境的交互過程,即由狀態S、動作A、狀態轉移概率P、折扣因子γ和獎勵R構成的5元組(S,A,P,γ,R)。

如圖2所示,智能體在環境中獲取狀態St后會利用該狀態輸出一個動作At,然后這個動作會在環境中被執行,環境會根據智能體采取的動作,輸出下一個狀態St+1以及當前這個動作帶來的獎勵Rt。智能體的目的就是盡可能多地從環境中獲取獎勵以獲取最好的收益。

2.2.2 DQN及其優化

(1)DQN。深度Q網絡(DQN)是指基于深度學習的Q學習算法,其特點在于引入深度神經網絡解決了Q學習中用表格來存儲每個狀態下采取動作獲得的獎勵所造成的維數災難問題。

(2)Double DQN。雙重深度Q網絡(Double DQN)通過改變目標值的計算方法,改善了傳統DQN算法在訓練過程中過高估計Q值導致過度估計的問題[22]

(3)Dueling DQN。競爭深度Q網絡(Dueling DQN)是另一種基于DQN的改進算法[23],如圖3所示,它的主要突破點在于利用模型結構將價值函數表示成更細致的形式,將狀態與動作進行了一定程度的分離,在計算的過程中,狀態不再完全依賴于動作的價值來進行判斷,可以進行單獨的價值預測,使得模型能夠擁有更好的表現。

2.2.3 D3QN算法

在DQN算法的基礎上,融合Double DQN和Dueling DQN形成了D3QN算法。D3QN集成了三種算法的優點:一是利用神經網絡擬合價值函數,避免狀態維數災難;二是改善了過度估計;三是使用競爭網絡提高訓練Q值。D3QN算法流程偽代碼如下:

偽代碼1:D3QN算法流程

初始化經驗回放池大小為N;

初始化當前網絡Q權重為θ;

初始化目標網絡 權重θ^=θ;

for each episode do:

for 時間步t = 1,2,…,T do:

根據當前環境下的狀態St,以一定概率執行隨機動作" 或預計獎勵值最高的動作At;

執行動作At后,觀察下一個狀態St+1,計算獎勵Rt;

存儲四元組(St,At,Rt,St+1)到緩沖池Experience ""Replay;

在Experience Replay中隨機采樣一個batch size(Sx," Ax,Rx,Sx+1);

if tlt;T" then" 計算遞歸獎勵值yx=Rx+" γ(Sx+1,argmax Q(Sx+1;θ);θ^);

else

計算總體獎勵值yx=Rx;

end if

利用實時與目標網絡的差值(yx-Q(Sx,Ax;θ))2執" 行梯度下降,更新Q網絡的參數θ;

每隔若干步長將目標網絡的參數θ^進行軟更新;

end for

end for

2.3 狀態空間設計

狀態空間是調度過程中所有狀態的集合,用于描述調度環境的主要特征和變化。狀態空間的表征應遵循以下原則:

①狀態特征可描述調度環境的主要特征和變化;

②狀態特征的選擇應與調度目標相關,否則會造成特征冗余;

③不同調度問題的所有狀態都用一個共同的特征集來表示;

④狀態特征是對狀態屬性的數值表征,狀態特征應易于計算與表征。

針對調度目標,本文通過提取7個調度過程的重要特征來近似描述某一時刻下的調度狀態,具體如表2所示。

2.4 動作空間設計

部分柔性作業車間的調度過程可分解為工序排序和設備指派兩個子步驟,即為工序選擇合適的加工設備和機加工工序在設備上的優化排序問題。在使用深度強化學習求解這類調度問題時,動作空間需要同時考慮到這兩個子問題。本文針對最小化訂單總拖期時間的目標設計了6組復合動作,作為智能體在決策時可進行進取的動作空間。

在工序排序模塊使用傳統規則式調度方法,又稱優先調度規則(priority dispatch rules, PDR),選取了6條與調度目標相關的啟發式規則。在設備指派模塊融入先驗知識,設計了設備優先級計算公式,將可選設備根據得分依次排序,選擇至多前3臺設備作為該道工序的優先設備合集,為了提高算法的搜索能力,指派動作從優先設備合集中隨機選取一臺設備加工。設備優先級Pr的數值計算公式如下:

Pr=SEX+SCT+SCP(7)

其中,SEX表示設備選取偏好,與先驗知識有關;SCT表示對完工時間的評價,傾向于縮短交付時間;SCP表示對設備均衡的評價,傾向于均衡設備的負載。組合調度規則(composite dispatching rule,CDR)以及動作空間內的具體動作描述如表3所示。

2.5 獎勵函數設計

獎勵函數的設計直接影響到訓練的最終效果,是最為關鍵的步驟之一。由于需要優化的目標函數是最小化訂單總拖期時間,因此通過連續考慮當前狀態和下一個狀態的兩個臨界值(即估計延期率Tae和設備平均利用率Uave)來定義狀態動作對(St,At)的獎勵,以此來盡可能地減少拖期的出現。獎勵函數偽代碼如下:

偽代碼2:獎勵函數

if Tae(t+1)lt;Tae(t) then Rt←1

else

if Tae(t+1)gt;Tae(t) then "Rt← -1

else

""if Uave(t+1)gt;Uave(t) then "Rt←1

""else

""if Uave(t+1)gt;0.95Uave(t) then Rt←0

""else

Rt← -1

"end if

""end if

end if

end if

2.6 探索與利用機制

探索的目的是找到更多與環境有關的信息,利用的目的則是根據已知的環境信息最大限度地提高獎勵值。但是過多的探索會使算法的效率和效果降低,而過多的利用則會使算法陷入局部最優之中。如何平衡探索與利用的關系,是應用強化學習算法需要解決的一個重要問題。

不同于常見的ε貪婪策略,本文采用ε貪婪遞減策略作為智能體動作選擇策略,其中ε為貪婪因子。在動作的選取時,智能體首先以ε概率在動作空間中隨機選擇動作,否則以1-ε的概率在動作空間中選擇未來期望獎勵值最大的動作。在訓練初期,智能體通過較高的隨機概率探索不同動作帶來的效果,從而發現更好的行為,從長遠來看可能獲得更多的獎勵值。隨著訓練次數的增加,貪婪因子ε逐漸減小,智能體會更多地選擇行為價值最大的動作,充分利用已經學習到的經驗知識。貪婪因子ε的數學表達式如下:

ε=max(0.1,ε0-2niterNepl)(8)

式中,ε0為貪婪因子的初始值;niter為當前訓練次數;Nepl為最大訓練次數。

2.7 算法流程實現

本文使用的D3QN網絡由7個全連接層組成,包括1個輸入層、1個輸出層和5個隱藏層。輸入層和輸出層的節點數分別與狀態特征和組合調度規則的數量相同。每個隱藏層的節點數為128,通過全連接神經網絡進行連接。在訓練過程中,以ε的概率隨機選擇調度動作,以提高算法探索能力。圖4為所使用網絡的結構示意圖,圖5反映了FJSP轉化為MDP以及通過D3QN算法進行求解的主要過程。

3 實驗與對比

為了驗證所提算法的性能,基于上海某航天產品制造企業MES零件加工系統的實例數據,與其他常見的組合式規則方法在不同規模的實例數據上進行實驗對比。以最小化訂單總拖期時間為評價指標,分別設計了5×5×5、10×5×5、10×10×5、15×5×5、15×10×5這5種不同情況的調度環境,調度環境中的每個數字依次代表待加工的工件數、每道工序的最多可選設備數以及各工件待處理的工序數。算例數據從實例數據中進行隨機抽取得到,具體情況如表4所示。

生產實際中,由于人工操作的特點,調度員通常會利用調度規則進行排產。本文選取作業車間中常見的調度規則進行對比,具體設定如下:在工序選擇方面,SPT規則指工件當前待加工工序工時最短優先,MWKR規則指余下加工時間最長的工件優先,EDD規則指工件的交貨期最早優先;在設備選擇方面,NINQ規則指選擇當前任務占用時間最少的設備,WINQ規則指選擇當前任務量最少的設備。實驗結果如表5所示,最優解以粗體顯示。

圖6所示的部分可視化結果表明,采用D3QN方法可以在每個決策點選取不同的規則作出決策,具備一定的靈活性,優于傳統的單一組合式規則的方法。在以訂單總拖期時間為指標的實驗中,相較于其他規則式的方法,D3QN方法的結果更優,驗證了所提方法的有效性。

4 結論

針對部分柔性作業車間調度問題,本文將其轉換為馬爾可夫決策過程,并以最小化訂單總拖期時間為優化目標。根據問題特點和優化目標,利用7種特征表征車間狀態,設計6種復合式規則作為動作庫,采用集成了深度Q網格(DQN)、雙重深度網絡(Double DQN)和競爭深度Q網絡(Dueling DQN)三種算法的D3QN算法進行求解。最后以航天結構件加工車間為實例背景,設計5種不同規模的測試算例,驗證了D3QN算法的可行性和有效性。

本文的研究針對靜態調度問題,僅考慮了實際情況中,柔性作業車間由于生產任務量激增帶來的產能不適配特點,沒有考慮動態事件帶來的影響。未來可以將動態事件干擾(如設備故障、緊急插單)考慮在內,研究面向動態調度的柔性作業車間自適應調度問題。

參考文獻:

[1] 姜一嘯, 吉衛喜, 何鑫, 等. 基于改進非支配排序遺傳算法的多目標柔性作業車間低碳調度[J]. 中國機械工程, 2022, 33(21):2564-2577.

JIANG Yixiao, JI Weixi, HE Xin, et al. Low-carbon Scheduling of Multi-objective Flexible Job-shop Based on Improved NSGA-Ⅱ[J]. China Mechanical Engineering, 2022, 33(21):2564-2577.

[2] PARK J, CHUN J, KIM S H, et al. Learning to Schedule Job-shop Problems:Representation and Policy Learning Using Graph Neural Network and Reinforcement Learning[J]. International Journal of Production Research, 2021, 59(11):3360-3377.

[3] 馬雪梅, 胡良元, 沈艷波, 等. 我國航天工業能力布局回顧與展望[J]. 航天工業管理, 2019(10):75-80.

MA Xuemei, HU Liangyuan, SHEN Yanbo, et al.Review and Prospect of China’s Aerospace Industry Capability Layout[J].Aerospace Industry Management,2019(10):75-80.

[4] 李新宇, 黃江平, 李嘉航, 等. 智能車間動態調度的研究與發展趨勢分析[J]. 中國科學:技術科學, 2023, 53(7):1016-1030.

LI Xinyu, HUANG Jiangping, LI Jiahang, et al. Research and Development Trend of Intelligent Shop Dynamic Scheduling[J]. Chinese Science:Technology Science, 2023, 53(7):1016-1030.

[5] 喬東平, 裴杰, 文笑雨, 等. 一種求解單機總加權延遲調度問題的改進蟻群算法[J]. 中國機械工程, 2018, 29(22):2703-2710.

QIAO Dongping, PEI Jie, WEN Xiaoyu, et al. An Improved Ant Colony Algorithm for Solving Single Machine Total Weighted Delay Scheduling Problem[J]. China Mechanical Engineering, 2018, 29(22):2703-2710.

[6] 黃學文, 陳紹芬, 周闐玉, 等. 求解柔性作業車間調度的遺傳算法綜述[J]. 計算機集成制造系統, 2022, 28(2):536-551.

HUANG Xuewen, CHEN Shaofen, ZHOU Tianyu, et al. Survey on Genetic Algorithms for Solving Flexible Job-shop Scheduling Problem[J].Computer Integrated Manufacturing Systems,2022,28(2):536-551.

[7] CHEN B, MATIS T. A Flexible Dispatching Rule for Minimizing Tardiness in Job Shop Scheduling[J]. International Journal of Production Economics, 2013, 141(1):360-365.

[8] 李益兵, 黃煒星, 吳銳. 基于改進人工蜂群算法的多目標綠色柔性作業車間調度研究[J]. 中國機械工程, 2020, 31(11):1344-1350.

LI Yibing, HUANG Weixing, WU Rui. Research on Multi-objective Green Flexible Job-shop Scheduling Based on Improved ABC Algorithm[J]. China Mechanical Engineering, 2020, 31(11):1344-1350.

[9] ZHAO N, YE S, LI K, et al. Effective Iterated Greedy Algorithm for Flow-shop Scheduling Problems with Time Lags[J]. Chinese Journal of Mechanical Engineering, 2017, 30(3):652-662.

[10] 王秋蓮, 段星皓. 基于高維多目標候鳥優化算法的柔性作業車間調度[J]. 中國機械工程, 2022, 33(21):2601-2612.

WANG Qiulian, DUAN Xinghao. Scheduling of Flexible Job Shop Based on High-dimension and Multi-objective Migrating Bird Optimization Algorithm[J]. China Mechanical Engineering, 2022, 33(21):2601-2612.

[11] DU Y, LI J, LI C, et al. A Reinforcement Learning Approach for Flexible Job Shop Scheduling Problem with Crane Transportation and Setup Times[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 35(4):5695-5709.

[12] 賀俊杰, 張潔, 張朋, 等. 基于長短期記憶近端策略優化強化學習的等效并行機在線調度方法[J]. 中國機械工程, 2022, 33(3):329-338.

HE Junjie, ZHANG Jie, ZHANG Peng, et al. Related Parallel Machine Online Scheduling Method Based on LSTM-PPO Reinforcement Learning[J]. China Mechanical Engineering, 2022, 33(3):329-338.

[13] XUE T, ZENG P, YU H. A Reinforcement Learning Method for Multi-AGV Scheduling in Manufacturing[C]∥2018 IEEE International Conference on Industrial Technology(ICIT). Lyon, 2018:1557-1561.

[14] WEI Y, PAN L, LIU S, et al. DRL-scheduling:an Intelligent QoS-aware Job Scheduling Framework for Applications in Clouds[J]. IEEE Access, 2018, 6:55112-55125.

[15] 鐘敬偉, 石宇強. 基于DQN的智能工廠作業車間調度[J]. 現代制造工程, 2021(9):17-23.

ZHONG Jingwei, SHI Yuqiang. Job Shop Scheduling Based on DQN Algorithm in Intelligent Factory[J].Modern Manufacturing Engineering,2021(9):17-23.

[16] HE Z, KIM P T, SEBASTIEN T, et al. Multi-objective Optimization of the Textile Manufacturing Process Using Deep-Q-network Based Multi-agent Reinforcement Learning[J]. Journal of Manufacturing Systems, 2022,62:939-949.

[17] LUO S. Dynamic Scheduling for Flexible Job Shop with New Job Insertions by Deep Reinforcement Learning[J]. Applied Soft Computing, 2020, 91:106208.

[18] WANG Y, LIU H, ZHENG W, et al. Multi-objective Workflow Scheduling with Deep-Q-network-based" Multi-agent Reinforcement Learning[J]. IEEE Access, 2019, 7:39974-39982.

[19] 劉亞輝, 申興旺, 顧星海, 等. 面向柔性作業車間動態調度的雙系統強化學習方法[J]. 上海交通大學學報, 2022, 56(9):1262-1275.

LIU Yahui, SHEN Xingwang, GU Xinghai, et al.A Dual-system Reinforcement Learning Approach for Dynamic Scheduling of Flexible Job Shops[J].Journal of Shanghai Jiao Tong University,2022,56(9):1262-1275.

[20] 張凱, 畢利, 焦小剛. 集成強化學習算法的柔性作業車間調度問題研究[J]. 中國機械工程, 2023, 34(2):201-207.ZHANG Kai, BI Li, JIAO Xiaogang. Research on Flexible Job-shop Scheduling Problems with Integrated Reinforcement Learning Algorithm[J]. China Mechanical Engineering, 2023, 34(2):201-207.

[21] 胡一凡, 張利平, 白雪, 等. 深度強化學習求解柔性裝配作業車間調度問題[J]. 華中科技大學學報, 2023, 51(2):153-160.

HU Yifan, ZHANG Liping, BAI Xue, et al. Deep Reinforcement Learning for Solving Flexible Assembly Workshop Scheduling Problem[J]. Journal of Huazhong University of Science and Technology, 2023, 51(2):153-160.

[22] VAN HASSELT H, GUEZ A, SILVER D. Deep Reinforcement Learning with Double Q-learning[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Phoenix, 2016:2094-2100.

[23] LIU Peng, XIA Boyuan, YANG Zhiwei, et al. A Deep Reinforcement Learning Method for Multi-stage Equipment Development Planning in Uncertain Environments[J]. Journal of Systems Engineering and Electronics, 2022, 33(6):1159-1175.

(編輯 胡佳慧)

作者簡介:

祝正宇,男,1999年生,碩士研究生。研究方向為智能生產調度。E-mail:yelai5320@163.com。

呂佑龍(通信作者),男,1988年生,副教授、博士研究生導師。研究方向為智能生產調度、產品質量控制。E-mail:lvyoulong@dhu.edu.cn。

主站蜘蛛池模板: 91人妻在线视频| 国产成人91精品免费网址在线| 99这里只有精品在线| 污网站在线观看视频| 国产欧美日韩va另类在线播放| 91极品美女高潮叫床在线观看| 亚洲乱码在线视频| 99热这里只有精品2| 日韩精品免费一线在线观看| 国产导航在线| 亚洲午夜福利精品无码不卡 | 亚洲精品日产AⅤ| 精品国产一二三区| 亚洲国产欧洲精品路线久久| 欧美一区二区精品久久久| 波多野结衣第一页| 欧美国产在线一区| 午夜毛片福利| 人与鲁专区| 久久午夜影院| 国产成人AV男人的天堂| 日本伊人色综合网| 久久 午夜福利 张柏芝| 亚洲精品视频免费| 91视频首页| 成人毛片在线播放| 免费观看欧美性一级| 亚洲午夜综合网| 国产欧美视频一区二区三区| 麻豆精品久久久久久久99蜜桃| 日本精品一在线观看视频| 性视频久久| 免费99精品国产自在现线| 久久国产精品嫖妓| 国产激情无码一区二区免费| 国产无遮挡裸体免费视频| 任我操在线视频| 成人国产精品视频频| h视频在线播放| 国产亚洲欧美在线中文bt天堂| 免费人成在线观看视频色| 久久久久人妻一区精品| 夜色爽爽影院18禁妓女影院| 一级片免费网站| 精品无码人妻一区二区| 午夜电影在线观看国产1区| 狠狠综合久久| 国产激情无码一区二区三区免费| 91毛片网| 波多野结衣一区二区三区88| 青青草欧美| 97在线观看视频免费| 国产第一页免费浮力影院| 美女一级毛片无遮挡内谢| 国产成人高清精品免费5388| 丁香婷婷久久| 国产人成网线在线播放va| 69免费在线视频| 国产三级精品三级在线观看| 欧洲亚洲欧美国产日本高清| 美女毛片在线| 制服丝袜在线视频香蕉| 中文字幕日韩欧美| 亚洲永久视频| 人妻丰满熟妇av五码区| 免费国产在线精品一区 | 中文国产成人精品久久| 国产91高跟丝袜| 亚洲综合第一区| 九色视频线上播放| 欧美中出一区二区| 国产精品第一区在线观看| 色偷偷av男人的天堂不卡| 欧美国产日韩另类| 日本国产在线| 日a本亚洲中文在线观看| 国产无套粉嫩白浆| 亚洲第一精品福利| 国产亚洲精久久久久久无码AV| 欧美一区二区丝袜高跟鞋| 国产成人精品三级| 久久精品中文字幕少妇|