賈萬達,彭 艷,石寶東
(1.燕山大學機械工程學院;2.國家冷軋板帶裝備及工藝工程技術研究中心,河北秦皇島 066004)
制造業受成本、技術創新能力等因素制約,面臨的壓力與日俱增。企業數字化、智能化發展是轉型升級的重要方向和路徑。大規模定制模式因效率高、成本低、支持高度定制化、生產流程靈活等特點,成為產業熱點[1]。
當前生產調度系統無法適應復雜的動態調度需求,因此亟需建立一套可根據訂單緩急程度隨時改變生產計劃的智慧決策模型。柔性調度問題是解決生產管理和組合優化問題的核心問題[2],也是建立智慧決策模型的關鍵。該決策模型主要工作原理是通過優化柔性調度問題中的生產調度,對工件進行智能排產,從而使管理者能掌控實際生產情況并實現實時調度,進而提高工作效率。
針對大規模定制生產調度理論優化問題,目前主要分為經典傳統算法與人工智能調度算法。
經典傳統算法的核心是對調度理論算法進行優化,通過分析目標函數約束條件計算得出最優生產調度方案。常用于優化調度理論的方法有線性規劃法、分支定界法、拉格朗日松弛法和插入法等。傳統算法的優勢在于計算方法簡單,無需構建復雜的調度模型,其局限是只適用于求解小規模調度問題,無法解決不確定性大、極小解多等復雜的實際生產調度問題。
基于人工智能調度算法的生產調度理論自20 世紀80年代逐漸發展成熟,為解決生產調度中具有復雜耦合約束的大規模組合優化問題提供了理論支持。其中以人工神經網絡與智能遺傳算法為特點的全局式統計搜索技術,因其計算機制獨特引起了國內外研究者廣泛關注。
1.2.1 全局式統計搜索技術
該技術經典算法是模擬退火算法與禁忌搜索算法。
模擬退火算法于20 世紀80 年代初[3],其思想源于金屬材料退火過程,具體實現過程主要由4 部分構成:①建立1 個由解空間、目標函數和初始解組成的數學模型;②按照具體規定的機制產生1 個新解,并在滿足Metropolis準則的基礎上判斷是否接受新解,對有不可行解而限定解空間僅包含可行解時,需判斷解的先行性;③檢查冷卻進度表,使溫度參數充分大且衰減充分慢;④最后創建1 個偽程序,對滿足要求的模型進行求解。依據該算法,Kim等[4]解決了帶有獨立調整時間的調度問題,從而提出了使所有工件延遲最小的調度策略;Van 等[5]基于模擬退火算法,描述了一種求解車間最小生產周期問題的近似算法,解決了Job shop 調度問題。
禁忌搜索算法是全局統計并逐步尋優的經典算法[6],通過對局部鄰域的不斷搜索,擴大搜索區域。該算法常與模擬退火算法結合,提高搜索精度和計算效率。在生產調度問題中,Nowicki 等[7]構造了一種快速禁忌搜索算法,解決了Job shop 調度問題;Tucci 等[8]通過構造基于領域專家知識的禁忌搜索算法,解決了紡織生產過程的調度問題;Bilge 等[9]通過構建多約束的禁忌搜索算法,解決了不同工件交貨期不同、到達時間不同等多目標生產調度問題。
同理,在信息化,全球化發展的今天,只要制度體制改革到位,就能極大地縮短中國科學技術與世界先進水平的差距,極大地縮小產業發展與世界先進水平的差距。中國科學技術發展和產業發展的歷史已經證明了這一點,中國科學技術和產業的進一步發展更能證明這一點。進行原始創新型人力資本的制度建設,是關鍵的一步。
1.2.2 遺傳算法
遺傳算法因具有較好的魯棒性和并行性,易與其它算法結合,常用于解決實際生產的調度問題。王春等[10]利用遺傳算法求解柔性作業調度問題,取得了很好的效果;劉勝等[11]將該算法與禁忌搜索算法結合,解決了具有柔性路徑的車間調度問題。
1.2.3 人工神經網絡
人工神經網絡是一種在對人腦組織結構和運行機制認識理解的基礎上,模擬其結構和智能行為的信息處理系統。目前應用最廣泛的人工神經網絡模型是基于傳播反向誤差算法的多層反饋人工神經網絡,即反向神經網絡(Back Propagation Network),常用于尋找參數最優值。
人工神經網絡在實際生產調度中主要有兩方面應用:①利用其模擬學習及智能計算的能力獲取調度知識,構建智能調度模型。Min 等[12]為實現自適應調度,采用該算法選擇不同的調度模型;Park 等[13]為解決生產調度中并行機器的調度問題,將該算法與啟發式算法相結合,創造出新的并行機器調度規則;②將生產調度問題看成數學規劃問題,利用該算法的統籌優化處理能力提高計算效率。Foo等[14]提出Hopfield 人工神經網絡方法,用于解決生產車間的調度問題,并將生產車間調度問題視為線性規劃問題,構建了基于線性規劃與二值調整算法的整數規劃人工神經網絡,成功解決了Hopfield 不能穩態輸出調度方案的問題。
1.2.4 人工蟻群算法
人工蟻群算法是一種以信息素為傳遞信號的仿生類算法,常用于解決復雜的組合優化問題。劉志虎[15]提出解決柔性車間調度的改進蟻群算法,提高了車間動態環境自適應性,實現了動態環境下車間柔性調度。
全局式統計搜索技術雖能實現智能調度,但過程復雜、計算量大,而遺傳算法通常用于解決小規模調度問題,因此本文將人工蟻群算法應用于建立基于多Agent 技術的大規模定制調度強化學習模型,將人工神經網絡算法與人工蟻群算法相結合提出智能算法協商策略,實現生產流程智能調度與排產。
大規模定制生產系統是一種典型的柔性制造生產系統,在實際生產中不但需滿足客戶對產品的各種定制需求,還要處理設備損毀、訂單插入等突發事件。多Agent 技術是一種具有靈敏性與實時性等優點的柔性處理系統,基于該系統建立的分布式處理體系能根據車間環境變化動態調整調度方案,增強生產工序自適應性。
基于多Agent 技術的大規模定制調度主要實現調度車間(物理空間)與調度系統(虛擬空間)的協調工作。在某調度時刻T,調度系統首先需讀取來自調度車間的實時數據,之后將數據狀態傳遞給多Agent 系統進行分析,最后多Agent 系統將調度方案再反饋給調度車間,實現實時調度。整個調度決策過程如圖1 所示。

Fig.1 Real time scheduling mechanism of mass customization based on Agent圖1 基于Agent 的大規模定制實時調度機制
基于多Agent 技術的動態調度強化學習模型基于人工蟻群算法構建,該模型在實際車間中主要通過控制Agent、任務Agent、算法Agent 和調度Agent 信息互換實現。其中控制Agent 是該學習模型核心,負責整個生產工序控制、管理和協調;任務Agent 負責接受并保證生產任務正常進行;算法Agent 根據實際生產任務選擇智能調度算法,優化調度任務;最后調度Agent 將所有信息進行匯總,通過對未完成任務的分析,建立相應動態模型,從而選出最佳實施方案,實現實時調度。動態調度強化學習模型如圖2 所示。

Fig.2 Dynamic scheduling reinforcement learning model based on multi-agent technology圖2 基于多Agent 技術的動態調度強化學習模型
選擇行為準則是調度Agent 的核心,即當生產任務處于再加工狀態時,調度Agent 參照當前任務資源分配情況為其選擇最優加工行為。本文采用輪盤賭算法計算各行為優化概率,資源分配多的被選中的可能性更大,反之被選中的可能性越小,可避免計算時算法出現局部循環。各行為優化概率為:

其中,f(am,bm)表示工件處于加工狀態m時選擇行為的概率;n 表示總行為個數;tm為選擇行為的獎勵值,獎勵值越大,行為選擇的最優化概率越大。tm計算公式為:

基于人工神經網絡算法與人工蟻群算法的協商策略可針對生產車間環境的變化自適應調整,比如當車間出現機器故障、訂單插入、訂單改變等突發情況時,該協商策略可依據當前訂單獎勵值大小分配相應行為,從而實現車間優化調度。協商策略結構及工作流程如圖3 所示。

Fig.3 The structure and workflow of negotiation strategy圖3 協商策略結構與工作流程
接受生產任務后,多Agent 系統將生產信息分配給任務Agent 和控制Agent,兩部分Agent 讀取和分析信息后將結果反饋給系統,系統根據反饋的信息建立加工任務的機器集。之后根據加工任務的獎勵值為生產任務選擇最優加工行為,并啟動算法Agent 模塊完成調度任務;模塊根據調度結果完成時間判斷其是否符合生產要求,將符合時間要求的任務進行局部更新,當所有任務均符合生產要求后再進行全局更新;最后輸出最優調度結果,并將該結果與歷史結果相對比,更新最優結果,取代差的結果。
綜上所述,基于多Agent 技術的動態調度強化學習模型具有應對生產任務突發狀況的能力,可實現車間動態調度過程,還可將本次取得最優解的學習經驗保存下來,指導后續決策。
以某加工車間的動態調度問題為仿真實例,用于驗證基于多Agent 技術的動態調度強化學習模型有效性與準確性。該問題包含2 臺生產機器、8 個待加工工件,各有2 道工序。加工信息如表1 所示。

Table 1 Workpiece processing information表1 工件加工信息
經過計算,算法在45 代左右基本收斂,最大完工時間為575min。M1、M2 機器甘特圖如圖4 所示。

Fig.4 Gantt chart of M1 and M2 machines with maximum completion time of 779 minutes圖4 最大完工時間為779min 的M1、M2 機器甘特圖
本文研究了大規模定制下生產組織智慧決策模型,建立智慧決策模型的目的是對生產過程中生產調度進行柔性化智能處理,從而達到智能排產。針對大規模生產調度優化建模問題,為適應其生產過程多復雜性、多約束性的特點,在研究人工神經網絡及人工蟻群算法等一系列智能調度算法的基礎上,提出基于多Agent 技術的動態調度強化學習模型。最后通過實驗仿真,驗證了該模型在處理復雜生產調度問題時具有較高的準確率。下一步將繼續完善多Agent 生產調度系統理論框架和算法,以更好適應未來大規模產品生產模式。