張 超 胡 鵬 徐偉斌 宋 偉 全 鵬 余俊旸
(1.中國煙草總公司湖北省公司 武漢 430030)(2.湖北省煙草公司十堰市公司信息中心 十堰 442099)(3.武漢大學計算機學院 武漢 430072)
煙草物流是煙草行業的核心業務,是中國煙草面向未來提升核心競爭力的重要支撐。借助現代統計學方法及工具對物流資源進行整合,打造合理、高效、優質的配送網絡是提高煙草企業核心競爭力的必由之路。當前卷煙物流市級配送網絡主體呈二級配送模式:第一級是市級卷煙物流中心直接配送區域;第二級縣(市、區)級中轉接力配送區域。中轉站一般選址在縣城區內,如遇縣域地形復雜、面積大、縣城不在縣域中部位置等情況,就會導致終端送貨里程遠、行車時間長、裝載率低、客戶服務時間短等問題,間接造成煙草物流配送費用居高不下、客戶滿意度低,如何合理優化中轉區域網絡布局,是煙草物流行業需要面對的一道重要課題。對此,國內外許多學者都進行了深入的探索和研究。
在卷煙物流中轉站設置方面,國家煙草專賣局對中轉站設置原則[1]進行了描述:中轉站應以服務質量高、運行成本低為綜合優化目標,合理設置卷煙物流配送中轉站的數量和區位,在設置配送中轉站的數量和區位時,應考慮配送半徑,零售戶數量等因素。
在中轉站配送半徑方面,國內學者石靜等[2]提出物流中心中轉站直配半徑在60km 較為合適,60km 范圍外的區域通過接力點接力配送更經濟,而且隨著中轉站服務半徑的逐漸擴大,接力配送模式的優勢更加明顯;華中科技大學在其對湖北煙草物流網絡布局優化報告[3]中提出物流中心中轉站直配半徑在32km~48km左右為宜。
在中轉站功能要求及“甩箱”模式方面,國家煙草專賣局對中轉站的功能描述[1]:中轉站宜具有暫存倉庫、裝卸月臺、停車場、輔助功能用房、值班監控室等功能區;“甩箱”式配送[4]在煙草區域物流中具有明顯優勢:在出庫裝車環節,實現“車-箱”分離,煙包可裝入集裝箱暫存,兼具移動倉庫作用,且集裝箱的交換在任意滿足車輛和吊裝設備活動的空地即可完成,對倉庫、月臺、停車場的需求大為減少,能夠大幅節省中轉站基建投資;尹許程[5]等提出在中轉區域內設置僅具有轉運等功能的中轉對接點可以有效縮短干線運輸距離,降低中轉暫存費用,提高配送服務水平。
在中轉站規劃選址方法方面,劉飛宇提出了基于元學習的多目標強化學習算法PG-Meta-MORL[6],利用多個擬合后的預測模型選擇得到的任務迭代求解,找到近似最優解集合;朱廣勝[7]以總成本最低為目標,引入建站成本設計中轉站設置的算法模型;王勇等[8]提出先對備選配送中心進行聚類分析而后在各聚類單元內進行選址排序的思想方法,并應用到多級物流配送網絡的選址優化問題中;葉嵐[9]提出通過對不同需求的大量離散卷煙零售客戶按道路情況聚類分析,打破以往按區域劃分的配送方式,運用覆蓋模型從零售客戶需求點集中尋找虛擬物流配送中轉站;李存兵等[10]提出中轉站配送資源優化模型、跨區域配送路線優化覆蓋模型、遺傳聚類算法的煙草物流配送優化模型,在配送區域的合理劃分上取得了較好效果。
綜上所述,國內外學者、煙草行業商業公司在優化中轉區域網絡布局方面做出了一些有益的嘗試,有基于“硬件”層面的單元化集裝貨箱運輸模式和新增中轉對接點,有基于“軟件”層面的中轉站優化布局算法模型及各種數據模型測算服務半徑的方法。但是目前綜合“硬、軟件”層面特點,根據外部條件變化,實現動態設置中轉站點的研究還比較少,針對這一研究薄弱領域,本文提出了一種基于強化學習的卷煙物流動態中轉對接點優化方法,應用強化學習、聚類、重心選址等算法建立動態卷煙物流中轉對接點優化模型,優化卷煙物流中轉網絡,并結合“甩箱”運輸模式和“站部所”資源,可根據訂單配送數量、零售客戶數量、送貨里程、行車時間等因素的變化,科學計算并形成動態中轉對接點的設置方案,能夠有效解決中轉配送區域大、中轉站位置不合理導致的弊端,達到縮減送貨里程和減少行車時間目的,進而提高卷煙物流運行效率、客戶服務水平,降低物流營運成本。
如圖1(a)所示,中轉區域面積大、中轉站位于配送服務區域邊緣。在第2天、第3天配送時,所有終端送貨車在固定中轉對接點接貨后需經過長時間、長距離駕駛才能抵達到對應配送區域,完成全部配送任務后又需原路返回。由此造成了終端車送貨里程遠、行車時間長、裝載率低、客戶服務時間不足等問題。

圖1 動態中轉對接點工作模式
基于對現有研究的分析和一線走訪調研,論文提出一種動態中轉對接點工作模式,通過設置動態中轉對接點方式對卷煙物流網絡進行優化,優化方法如圖2所示。

圖2 動態卷煙物流中轉對接點優化方法技術路線圖
第一步:建立優化模型,動態中轉對接點優化模型是一個多目標優化問題,既要實現減少行車時間,提高物流運行效率;又要做到減少送貨里程,降低物流營運成本。論文設計基于強化學習的動態中轉對接點優化模型,根據零售客戶數量、送貨里程、配送任務的不同,科學設置動態中轉對接點。
第二步:應用優化模型
1)形成動態中轉對接備選點方案
在已有固定中轉站基礎上,應用優化模型,通過歷史物流配送數據(訂單數量、零售客戶數量、終端送貨車輛數量、送貨里程、行車時間)測算出合適的動態中轉對接備選點數量及坐標區域范圍。
2)形成動態中轉對接點方案
以動態中轉對接備選點為中心,尋找備選點附近煙葉收購工作站、市場部、專賣管理所(下文簡稱“站部所”)資源,確定動態中轉對接點選址。選址“站部所”,一方面能夠最大程度減少中轉對接點的建設及運營成本。同時方便對接點在旺季時啟用與淡季時關閉。
第三步:形成配送方案
根據動態中轉對接點方案和每日配送任務,應用“甩箱”配送模式,干線大型貨車到對應的中轉站或動態中轉對接點將煙包轉運到終端車上,由終端車進行零售客戶配送。對比圖1(a)和(b),采用“大車接力補,小車循環送”工作模式后,預期能夠減少行車時間,提高物流運行效率,降低物流運營成本,提高服務質量。
論文設計基于強化學習的動態中轉對接點優化模型,根據零售客戶數量、送貨里程、配送任務的不同,科學設置動態中轉對接點。強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,強化學習目標是使智能體獲得最大的獎賞。智能體通過強化學習,可以知道自己在什么狀態下,應該采取什么樣的動作使得自身獲得最大獎勵。論文優化模型主要考慮兩個優化目標:
優化目標1:降低物流營運成本的核心在于減少終端送貨或干線送貨里程。
優化目標2:提高物流運行效率的核心在于減少終端行車時間,且終端行車時長最大值不超過4h。
終端行車時長Tt定義如式(1),其中Tc為客戶服務時長,Td為終端行車時長,To為其他工作時長:
終端工作日時長為一個工作日正常的工作時長,8h。
Tc代表在進行單個客戶配送時,送貨員完成取貨、送貨、點貨、簽收、返回車輛等環節的服務時長。經過數據統計,客戶服務時長均值1.5min/戶左右,終端車一天約配送120 戶,所以,一天的客戶服務總時長約為3h。
To包含車輛出行檢查、轉運工作、送貨過程中的煙包整理、臨時性問題處理等工作用時,均值為1h/天。
Td代表終端車的送貨路上行駛時長。max(Td)=終端日工作時長(8h)-Tc-To=4h。如果行車時間超過最大值,客戶服務時長、其他工作時長會縮短,間接造成客戶服務品質下降、行車安全風險增高。
與離散空間的多目標優化問題相比,在具有高維連續狀態空間的多目標強化學習優化目標求解更具有挑戰性[6]。卷煙動態中轉對接點設置是一個典型的連續空間多目標優化問題,論文借鑒PG-Meta-MORL[6]算法基于訓練卷煙中轉點優化模型。PG-Meta-MORL 算法使用具有不同優化目標偏好的任務迭代訓練一個元策略,每一次迭代過程中,PG-Meta-MORL算法都會用歷史數據訓練得到一個優化分析模型,預測元策略沿各個優化任務方向的預期改進,然后PG-Meta-MORL 模型選擇最好的優化結果作為下一輪元策略的迭代訓練輸入模型。
本優化模型在確保客戶服務品質前提下,同時降低物流營運成本和提高物流運行效率,滿足終端送貨行車時間不超過4h、終端或干線送貨里程數減少兩個條件。因此,將物流營運成本最低和減少終端行車時間設定為優化目標,建立強化學習模型,具體如下:
1)設定動態中轉對接點0~6 個,即n=(0,6)。一個訪送周期最多有7天,除中轉站配送的1天外,可以設置6個動態中轉對接點。
2)設定中轉區域物流營運成本(tc)=干線運輸成本(mc)+終端線路運輸成本(bc)+動態中轉對接點營運成本(oc)+動態中轉對接點固定投資成本(ic),其中:
mc=干線里程(km)×干線運輸費平均值(元/km)
bc=終端線路總里程×終端線路運價平均值(元/km)
oc=中轉對接點場地使用分攤費用(元)
ic=每動態中轉站投資成本(元)
3)終端車行車時長均值(avg_time)=中轉區域終端行車總時長/配送周期天數/終端車數量;
給定一個物流配送策略πθ和多目標偏好向量ω(ω1,ω2,其中ω1+ω2=1),我們通過式(2)最大化多目標期望獎勵和來優化策略,即:

為了更好利用歷史物流配送數據,本文采用強化學習方案對路徑進行迭代優化。強化學習過程分兩步迭代:配送策略調整步和策略訓練步。
在配送策略調整步中,基于當前調度策略πθ針對各個優化子目標進行優化迭代得到相應的優化路徑策略πθij(i 表示第i 個優化目標,j 表示訓練輪次),優化步驟如式(3)所示:
在策略訓練步中,算法上述配送策略調整步得到的中轉對接點優化布局方案πθi與物流歷史數據進行訓練得到相應的優化選擇,得到匯總的優化策略πθj:
在強化學習模型中可以隨機選擇構造初始中轉策略,利用上述強化學習模型得到針對多目標的優化中轉路徑規劃策略,實踐中為了加快模型收斂速度,提升模型時間效率,我們基于現有配送策略給出了一種初始中轉對接點的選擇方案,實際應用中可以根據實際需求選擇是否采用下述方法。根據當前訪銷周期,計算形成初步方案,1 個送貨周期有N天配送,就形成N套初步方案。
第1 個中轉點方案,整個中轉區域不作拆分,全都由中轉站來配送。
第k(2 ≤k≤N)個中轉點方案,中轉區域拆分為k 個子區域,對應是中轉站+(k-1)個動態中轉對接點配送。采用K-means 聚類算法,計算出k 個子區域;中轉站外的子區域,采用重心選址法計算出動態中轉備選點;以動態中轉備選點為中心,就近尋找滿足條件的“站部所”資源,確定動態中轉對接點;基于式(2)計算出行車時間、行車里程。
得到N 套初始中轉點方案后,作為初始方案πθ0輸入到上述強化模型中進行迭代優化分析。選擇算法如算法1所示。

以湖北省煙草公司十堰市公司實例驗證論文提出優化方法。十堰市位于湖北省西部,市境內多大山區,其中轉區域有以下特點:1)市轄各縣面積大、縣域地理分割不規則,且因地形限制,交通線路少,跨縣域調度難度大。2)部分縣(市)城區位于縣域邊緣,中轉站位于縣城區內,以中轉站為中心配送服務送貨半徑超過100km。3)區域內需配送的零售戶多。以8h 工作制計算,終端配送車輛裝載率極低、配送客戶服務時間短。如提高裝載率,則會出現無法當天返回情況。論文選擇竹山中轉區域,如圖3 所示,其縣域地理分割不規則,作為代表性區域進行實證研究。

圖3 十堰市竹山縣地圖

圖4 竹山中轉區域(星號代表零售戶)
為驗證本文提出的動態卷煙物流中轉對接點優化方法的有效性,設計實驗將物流網絡優化后效果與現行物流網絡數據進行對比,實驗采用JAVA編程語言實現動態中轉點物流配送模型,使用Python3.7 和TensorFlow 2 來構建并訓練模型,訓練模型運行在一臺配有Intel i9,RTX 3080 和32GB 內存的主機上。實驗過程中設置每個epoch 處理256 個批次,迭代次數設置為50 次,在調度策略模型訓練過程中設置學習率為0.001。
以湖北省煙草公司十堰市公司2020-2021 年的物流統計數據、網點資源數據集、卷煙配送數據集、終端車行車數據集、路網數據集輸入模型進行訓練及計算。
4.2.1 優化方法計算所需的物流統計數據
2021年干線運輸費率平均值(元/km)=4.8;
2021 年終端貨車運輸費率平均值(元/km)=4.6;
動態中轉對接點營運成本(oc),主要是使用“站部所”場地資源分攤費用,由物流中心預估一個值;
動態中轉對接點固定投資成本(ic)=0,原因是動態中轉對接點選址在“站部所”,不再新建場地和新增相應配套設施。
4.2.2 卷煙配送及終端數據集
2020-2021年兩年的配送、簽收數據共40余萬條,包含:配送單位、配送車輛、配送線路號、零售客戶許可證編號、簽收時間(年/月/日 時分秒)、簽收地點經緯度。2020-2021 年兩年的終端車定位系統行車數據共100 余萬條,字段包含:配送車輛編號、采集時間(年/月/日時分秒)、車輛狀態、車輛經緯度。
4.2.3 路網數據集
收集網點資源、零售客戶的路網數據集共1,000 余萬條,二點間距離采集電子地圖的車行距離,字段包含:出發點編號、出發點經緯度、目標點編號、目標點經緯度、歐式距離、小型貨車行車距離、小型貨車行車時間。
以竹山中轉區域為例,按卷煙銷售的淡季和旺季分別進行數據測算驗證,中轉區域情況如下:竹山縣位于湖北省西北秦巴山區腹地,面積3586km2,竹山中轉站距離十堰市物流中心118km,干線中轉大貨車單邊行駛時間約為2.5h。中轉站雖然位于配送區域的中部,但因配送服務區域不規則、縣域地形類似“7”字,其西方向、南方向距離中轉站有130 多千米(配送半徑遠超過60km,可以增加中轉點[2~3])。
4.3.1 淡季數據測算
5 月份為該區域煙草物流配送淡季。竹山中轉站3 臺終端送貨車,一個周期送4 天(N=4),以2022 年5 月份第2 周(9 日至14 日)1 個周期的訂單數據進行測算,統計數據見表1。

表1 十堰竹山中轉區域5月份第2周送貨周期統計數據
1)1個中轉點方案
按照動態卷煙物流中轉對接點優化方法提供的公式,代入數據,計算營運成本tc 及終端車行車時長均值avg_time。
1個中轉點運營成本(tc)=干線運輸成本(mc)+終端線路運輸成本(bc)+動態中轉對接點營運成本(oc)+動態中轉對接點固定投資成本(ic)
終端車行車時長均值(avg_time)=終端總行車時長/配送周期N天數/終端車數量
終端車行車時長均值超過了終端行車時間長最大值。
2)k=2個中轉點方案
將中轉區域聚類劃分為2 個子區域,按應用優化模型的使用方法,優化方案如圖5。

圖5 竹山中轉區2個中轉點方案圖

圖6 竹山中轉區3個中轉點方案圖
按表2 數據及物流中心提供的動態中轉對接點營運成本(oc)進行計算:

表2 十堰竹山中轉區域2個中轉點方案統計表
終端車行車時長均值3.8h,滿足小于終端行車時間長最大值約束條件。
3)3、4個中轉點方案
計算過程與2 個中轉點方案相同,列出計算后的結果。
3個中轉點方案tc=11,746.74,avg_time=3.5h。
4個中轉點方案tc=12,510.15,avg_time=3.4h。
綜合對比竹山中轉區域,淡季1 個周期2 個中轉點方案最優,詳見表3。將1 個中轉點方案與最優中轉方案進行關鍵數據對比,詳見表4。

表3 竹山淡季動態中轉方案對比

表4 竹山淡季1個中轉點方案與最優中轉方案對比表
4.3.2 旺季數據測算
1 月份為該區域煙草物流配送旺季。竹山中轉站3 臺終端送貨車,一個周期送7 天(N=7),以2022 年1 月份第2 周(7 日至11 日)1 個周期的訂單數據進行測算,統計數據見表5。

表5 竹山中轉區域1月份第2周送貨統計數據
按照應用優化模型的使用方法,測算出旺季1~7個中轉點方案,詳見表6。

表6 竹山中轉區域旺季動態中轉方案
將1 個中轉點方案與最優中轉方案進行關鍵數據對比,詳見表7。

表7 竹山旺季1中轉站方案與最優中轉方案(k=3)對比表
竹山中轉區旺季最優中轉方案——3 個中轉點方案,較現行1 個中轉點方案各指標優化率如下:終端送貨時間減少了28.1%,終端送貨里程減少了26.4%;干線送貨時間和里程變化不大;一個周期運營成本節省約8.5%。中轉區域年運營成本預測節省約7.9 萬元(按1 年51 個周期測算),終端車日行車時長均值3.2h。
卷煙物流中轉網絡布局問題一直以來都是配送優化研究中的重點對象之一,中轉站點的布局不僅影響物流運行成本的高低,同時還影響物流運行效率、客戶服務品質。論文針對現有固定配送中心導致煙草配送效率低下問題,提出一種卷煙物流網絡的動態優化模型,能夠根據訂單、送貨里程等情況的變化,動態設置中轉對接點。論文設計了一種基于強化學習技術的中轉對接點優化模型(軟件層面)與“甩箱”運輸模式(硬件層面)卷煙物流網絡的優化方法。基于十堰市煙草公司的物流數據驗證表明,本文研究的動態卷煙物流中轉對接點優化方法達到了降低中轉區域營運成本和減少終端行車時間的優化目標,可以有效提高卷煙物流運行效率。本文研究結果對于優化卷煙物流配送效率具有一定的參考意義,也為打破中轉站行政區劃、優化配送網絡工作的開展奠定基礎。