新能源汽車電池回收網點競爭選址模型及算法

2024-03-21 02:25:04劉勇，楊錕

計算機應用 2024年2期

關鍵詞：企業

劉勇，楊錕

（上海理工大學管理學院，上海 200093）

0 引言

2022 年國內新能源汽車銷量已超過500 萬輛，動力電池的平均壽命大約為6 年，2023—2024 年將迎來第一波退役潮，預計2025 年廢舊動力電池回收市場空間可超過300 億元。近年來，由于“雙碳”政策的持續推行，新能源汽車電池回收工作得到更多關注，考慮到城市人口及汽車保有量眾多，新能源汽車電池回收網點的選址顯得尤其重要。當市場上有多家企業提供電池回收服務時，企業將通過市場競爭獲得客戶需求，這類問題即為競爭設施選址問題［1］。

目前電池回收相關研究主要圍繞選址問題展開，尚未考慮回收企業的競爭性，但一般的競爭設施選址問題可為本文提供參考。Esmaeili 等［2］研究了包含供應商、分銷商和客戶的兩條不同供應鏈中的離散型競爭設施選址問題，將交貨期視為新配送中心和現有配送中心之間的競爭因素，采用分支限界法和遺傳算法求解模型；Yu［3］提出了一個新進入企業的兩級穩健模型，對于大規模問題，首先通過探索最優解給出求解內層模型的A 型廣義連續背包問題（Generalized Continuous Knapsack Problem-A，GCKP-A）算法，然后在改進的基于排序的算法框架中嵌入GCKP-A 和2-opt 策略，提出一種啟發式算法；Mai 等［4］研究了隨機效用的最大捕獲競爭設施選址問題，基于目標函數的凸性和可分離結構，提出多切口外近似方法進行求解；Lin 等［5］研究了競爭設施選址問題的一個變體，將吸引力劃分為離散的級別，以決定設施的位置和吸引力水平，使利潤最大化，并設計精確算法進行求解；劉偉偉等［6］研究了考慮碳排放的多產品競爭設施選址問題，構建雙層規劃模型，先將雙層規劃轉化為有界閉集上的0-1 混合整數凹規劃，然后提出具有全局收斂性的分支提升算法進行求解；Fernández等［7］考慮了顧客的最小吸引條件和間隔近似距離，建立非線性約束離散競爭設施選址模型，先對模型進行線性化，然后提出了一種啟發式算法進行求解；Shan 等［8］考慮了新進入企業與現有競爭者之間的定價博弈，提出競爭選址雙層模型，該模型根據納什均衡原理，通過最大化效益優化選址，并設計啟發式算法求解該模型；Zarrinpoor［9］提出了一個擁擠系統的雙目標競爭設施選址模型，試圖同時最大化每個設施捕獲的需求和最小化系統的總等待時間，采用多目標和聲搜索（Multi-ObjectiveHarmony Search，MOHS）算法和非支配排序遺傳算法-Ⅱ（Non-dominated Sorting Genetic Algorithm-Ⅱ，NSGA-Ⅱ）求解該模型。

目前考慮排隊論的競爭設施選址研究較少，本文提出考慮排隊系統的新能源汽車電池回收網點競爭選址的新模型；考慮到人類學習優化（Human Learning Optimization，HLO）算法存在前期收斂較慢、尋優精度不高和求解穩定性不高的問題，本文引入精英種群反向學習策略、團隊互助學習算子和調和參數自適應策略，提出改進人類學習優化（Improved Human Learning Optimization，IHLO）算法。最后以長江三角洲、上海市為例分別進行大、中、小規模的仿真實驗，實驗結果驗證了新模型的可行性和新算法的有效性。

1 新能源汽車電池回收網點競爭設施布局規劃模型

1.1 問題描述

市場上有兩家知名新能源汽車電池回收企業A 和B，均已有一些回收網點，新興企業C 也有一部分回收網點，但由于規模太小，市場影響力不足，將新建m個回收網點，與企業A、B 競爭市場份額，由于市場中的需求量在一定時間內不變，當企業A、B 吸引大量需求量時，企業C 營業額將減小，企業C 若能通過合理的選址布局形成競爭優勢，則能爭奪更多需求量，本文目標是使企業C 在與企業A、B 競爭需求量的條件下，通過新建設施的選址決策達到已建設施和新建設施的最大總利潤。

假設條件：1）需求點和回收網點在區域內離散分布，三家企業的已建設施點、企業C 的候選新建設施點、需求點的坐標均已知。此條件確定本文問題為組合優化問題，且已知坐標將用于計算需求點到設施點的距離。2）需求點的需求量、需求點單位需求量帶來的收益、三家企業的回收價格、企業C 設施點的固定成本均已知。此條件用于計算企業C 新建設施點和已建設施點的利潤和成本。3）顧客根據概率選擇設施點，概率大小取決于設施點的效用所占比例。此條件確定顧客的概率選擇行為，以此計算顧客選擇每個設施點的概率。4）各需求點的需求量相互獨立且服從同一正態分布，即ai～N（μ，σ2）。此條件將用于化簡式（20）。5）設施點對需求點的效用與設施點到需求點的距離、排隊系統服務強度負相關，與回收價格正相關，成本與顧客平均排隊時間正相關。此條件用于構建模型中的各項表達式。

1.2 符號說明

模型所用集合設置如下：i表示需求點，I表示需求點集合，i∈I；j表示企業C 候選設施點，J表示企業C 候選設施點集合，j∈J；r表示競爭企業A 已建設施點，R表示競爭企業A 已建設施點集合，r∈R；s表示競爭企業B 已建設施點，S表示競爭企業B 已建設施點集合，s∈S；v表示企業C 已建設施點，V表示企業C 已建設施點集合，v∈V。

模型所用參數設置如下：λj表示系統單位時間產生的平均需求量；μj表示單個服務臺單位時間處理的平均需求量；ρj表示系統服務強度；P（j0）表示系統中顧客數為0 的概率；Lj表示系統中正在排隊的顧客數；Wj表示每個顧客的平均排隊時間；Uj表示每個顧客的平均總逗留時間；cij表示由回收價格、距離、排隊系統服務強度組成的代價函數；dij表示需求點i到設施點j的距離；uij表示設施點j對需求點i的效用；pij表示需求點i的顧客選擇設施點j的概率；cj表示設施點j的固定成本；cv表示設施點v的固定成本；c1表示企業C 候選點的服務臺建設成本；c2表示企業C 候選點的排隊時間成本；c3表示企業C 已建點的服務臺建設成本；c4表示企業C 已建點的排隊時間成本；ai表示i點的需求量；e表示單個服務臺成本；f表示單位需求量帶來的收益；g表示回收價格；m表示企業C新建回收網點的總數；n表示服務臺數；C表示新建設施點總成本不超過其投資限額；Q表示容量限制；T表示門檻約束；D表示最長排隊時間；E表示預期最長總逗留時間；N表示系統中顧客數；α表示滿足門檻約束的最小期望概率；β表示滿足總逗留時間約束的最小期望概率；γ表示顧客需要排隊的最大容忍概率。

模型所用決策變量設置如下：yj表示如果選擇候選點j作為回收網點，yj=1；否則yj=0。

1.3 新能源汽車電池回收網點競爭設施選址數學模型

回收網點的服務臺數有限，當系統內顧客數多于服務臺數時需要排隊等待。首先考慮如下排隊系統：回收網點j有n個服務臺，顧客到達時間間隔服從參數為λj的泊松分布，單個顧客服務時間服從參數為μj的指數分布，則此系統可視為M/M/n排隊系統［10］，第一個M 表示顧客到達時間間隔服從泊松分布，第二個M 表示單個顧客服務時間服從指數分布，n表示服務臺數，排隊系統關鍵指標如下：

其中：Uj表示每個顧客的平均總逗留時間，總逗留時間等于排隊時間加服務時間，Pj(N≥k)表示系統中顧客數N≥k的概率，當k=n時，Pj(N≥k)表示顧客必須排隊的概率。

本文提出代價函數cij表達式如下：

其中：e 為自然常數，a1、b1、d1、e1均為常數。考慮到顧客的概率選擇行為，本文采用Logit 效用模型［11］，企業C 候選設施點j對需求點i的效用uij表達式如下：

企業A、B、C 已建設施點對需求點的效用都采用式（7）的方式計算。需求點i訪問企業C 候選設施點j的概率如下：

需求點i訪問企業C 已建設施點v的概率如下：

需求點i訪問企業A 已建設施點r的概率如下：

需求點i訪問企業B 已建設施點s的概率如下：

企業C 新建設施點成本表達式如下：

其中：a2、b2、d2均為常數。企業C 已建設施點成本表達式如下：

其中各項與候選點成本表達式相對應。

根據上述分析，本文以企業C 為研究對象，以企業C 已建設施和新建設施的總利潤最大為目標，建立如下新能源汽車電池回收網點競爭設施選址數學模型：

目標函數包括4 部分，分別表示企業C 新建設施利潤、企業C 已建設施利潤、企業C 新建設施成本和企業C 已建設施成本。式（17）表示企業C 新建設施總數；式（18）表示新建設施點成本約束；式（19）表示新建設施點容量約束；式（20）表示新建設施點門檻約束，即每個新建設施點達到門檻需求量T的概率不低于α，實驗中設置了T和α的值；式（21）表示新建設施點排隊時間約束，結合式（3），Wj表示顧客平均排隊時間，因此實驗中設置了最長排隊時間D的值；式（22）表示新建設施點總逗留時間約束，即每個新建設施點的顧客平均總逗留時間小于E的概率不低于β，此約束需用到式（4），實驗中設置了E和概率β的值；式（23）表示新建設施點顧客必須排隊的概率約束，此約束需用到式（5），實驗中設置了概率γ的值；式（24）表示選址決策變量yj取值為0 或1。

對于式（20），由于本文已假設各需求點的需求量相互獨立且服從同一正態分布ai～N（μ，σ2），因此，對于任意企業C候選設施j∈J的均值為方差為根據大數定律和中心極限定律［12］，可化簡式（20）并替換為式（25）：

對于M/M/1 排隊系統，顧客總逗留時間服從參數為μ-λ的指數分布，為方便模型求解，本文假設M/M/n排隊系統的顧客總逗留時間Uj服從參數為nμj-λj的指數分布，Uj概率密度函數如下：

因此，可化簡式（22）并替換為式（28）：

2 改進人類學習優化算法

本文研究的新能源汽車電池回收網點競爭選址問題屬于NP-hard 問題，采用優化算法進行求解。HLO 算法是一種新型的群智能優化算法，針對其前期收斂速度較慢、尋優精度不夠高和求解穩定性不夠高等問題，本文在HLO 算法基礎之上引入精英種群反向學習策略、團隊互助學習算子、調和參數自適應策略，進而提出IHLO 算法。

2.1 人類學習優化算法

HLO 算法由Wang 等［13］于2014 年提出，該算法不同于基于普通生物或物理現象的智能優化算法，而是模擬人類的學習行為。HLO 算法的核心內容包含隨機學習算子、個體學習算子和社會學習算子這3 個學習算子。聯想到人類的學習過程，在沒有任何先驗知識的情況下，只能漫無目的地隨機學習，這樣的學習模式比較低效，但同時也可能啟發對未知領域的認知；人類在隨機學習一段時間后會積累經驗，這時可以根據經驗調整學習方向，以之前較好的經驗為基準繼續自主學習；人類在自主學習一段時間后可能遇到瓶頸，無法突破自我，這時，人類會與周圍的人交流學習經驗，互相學習，結合他人的經驗調整學習方向。HLO 算法通過充分融合這三種學習機制，不斷更新迭代尋找最優值，它的優勢主要在于全局搜索能力強、收斂較快、參數較少以及易實現，因此，近幾年來被大規模應用于各類工程優化問題上。

2.1.1 初始化

HLO 算法采用二進制編碼框架，每個個體由一個二進制字符串表示：

其中：xi表示第i個個體，N為種群的規模，M表示解的維數，二進制字符串的每一位都被隨機初始化為0 或1，xij表示第i個個體的第j維。

2.1.2 學習算子

1）隨機學習算子。

HLO 算法模擬人類隨機學習過程開發的隨機學習算子表達式如下：

其中rand是（0，1）內均勻分布的隨機數。

2）個體學習算子。

HLO 算法模擬人類自主學習的過程，將進行個體學習的經驗儲存于個體知識庫（Individual Knowledge Database，IKD），IKD的表達式以及個體進行個體學習的形式如下：

其中：IKDi表示第i個個體的知識庫；G表示候選解的個數；IKDi的每一個行向量都表示個體i的一個最優解，ikdi1表示個體i的最優候選解，ikdiG表示個體i的最差候選解，越靠前最優解越佳；ikdip表示個體i的第p個最優解，p是1 到G之間的隨機整數，決定個體學習哪一個個體最優解；ikipj表示第i個個體的第p個最優解的第j維。

3）社會學習算子。

HLO 算法模擬人類社會學習的過程，將整個社會的學習經驗儲存于社會知識庫（Social Knowledge Database，SKD），SKD的表達式以及個體進行社會學習的形式如下：

其中：H表示候選解數；skdq表示整個社會的第q個最優解，q是1～H的隨機整數，決定個體學習哪一個社會最優解；skqj表示第q個最優解的第j維。

HLO 算法通過控制每種學習方式的比例產生新解，完整的學習策略如下：

其中：rand是（0，1）均勻分布的隨機數，rand（0，1）表示隨機學習算子，隨機生成0 或1，pr、pi-pr、1 -pi分別表示算法執行隨機學習算子、個體學習算子、社會學習算子的概率。

2.2 算法改進

HLO 算法雖在部分優化問題上表現優異，但也存在一些不足：1）HLO 算法的種群初始化未采用任何優化策略，初始種群可能不夠豐富，易導致算法陷入局部最優；同時，較差的初始解不利于學習經驗的更新，算法在起步階段很難快速收斂到較優區域。2）HLO 算法中的個體學習算子和社會學習算子可將學習經驗分享給新種群，但個體學習和社會學習跨度較大，學習經驗差異也較大，融合之后的學習經驗不一定對新種群有積極作用，導致算法尋優精度提升不明顯。3）HLO 算法的參數pr和pi設置為固定值，不利于個體對搜索空間的全面勘探，無法確保各種學習算子在有利區域發揮自身優勢，導致求解效果存在偶然性，算法穩定性不足。

針對HLO 算法前期收斂較慢的問題，本文提出精英種群反向學習策略，在算法初始化時讓種群反向學習，在原種群與反向學習后的種群中保留更優個體生成精英種群，將精英種群作為初始化種群，使算法在前期能快速找到較優解；針對HLO 算法尋優精度較低的缺陷，本文提出團隊互助學習算子，在個體學習與社會學習之間加入雙人小組學習和多人小組學習，使不同學習階段之間更連貫，同時擴大學習面，加強算法的全局勘探能力，提高尋優精度；針對HLO 算法求解穩定性較低的缺陷，本文提出調和參數自適應策略，提出在不同學習階段調和使用的自適應參數和高斯分布動態參數，提高學習的靈活性，確保種群到達最佳學習區域，提高算法穩定性。

2.2.1 精英種群反向學習策略

反向學習被廣泛應用于算法的初始化過程中［14］，假設a、b分別是（a，b）區間中的上下限，j代表維數，p是原值，則P是原值反向學習后的值，表達式如下：

考慮本文的二進制編碼框架，個體的每一維都為0 或1，本文將所有為1 的維的反向對應維設置為1，得到反向學習種群，具體過程為：如果原初始化種群個體xi中的第一維xi1為1，則反向學習種群的個體xi中的第M維xi(M+1-1)為1；如果原初始化種群個體xi中的第j維xij為1，則反向學習種群的個體xi中的第M+1 -j維xi(M+1-j)為1，表達式如下：

生成反向學習種群后，計算原初始化種群和反向學習種群的適應度值，將更優的個體保留至精英種群，并將精英種群作為最終的初始化種群。

2.2.2 團隊互助學習算子

在HLO 算法中，種群在完成個體學習后會進行社會學習，但是實際生活中人類往往還會學習鄰近的群體，因此提出小組學習算子［15］作為過渡。考慮到社會群體的龐大性和多樣性，單一的小組學習依然無法做到學習經驗的完全共享，且針對不同問題，小組內的個體數難以設定，于是本文提出團隊互助學習算子，在個體學習與社會學習之間加入雙人小組學習和多人小組學習，使雙人小組和多人小組互相學習團隊經驗，以此強化個體間的信息交流，提高尋優精度。將雙人小組和多人小組學習的經驗分別儲存在雙人小組知識庫（Two-person Group Knowledge Database，TGKD）和多人小組知識庫（Multi-person Group Knowledge Database，MGKD），TGKD和MGKD的表達式以及個體進行團隊互助學習的形式如下：

其中：TGKDk表示第k個雙人小組的知識庫，O表示共有O個小組，F表示候選解數，tgkdkr表示雙人小組k的第r個最優解，r是1～F的隨機整數，決定個體學習哪一個候選解，tgkkrj表示第k個小組的第r個最優解的第j維；MGKDl表示第l個多人小組的知識庫，P表示共有P個小組，E表示候選解的個數，mgkdls表示多人小組l的第s個最優解，s是1～E的隨機整數，決定個體學習哪一個候選解，mgklsj表示第l個小組的第s個最優解的第j維。TGKD和MGKD的更新策略與IKD、SKD相同。

加入團隊互助學習算子后HLO 算法的完整學習策略如下：

其中：rand是（0，1）內均勻分布的隨機數，pr、pi-pr、pt-pi、pm-pt、1 -pm分別表示算法執行隨機學習、個體學習、雙人小組學習、多人小組學習、社會學習的概率。

2.2.3 調和參數自適應策略

HLO 算法中的參數pr和pi被設為定值，為使參數值的選擇不受具體優化問題影響，提出pr的自適應策略［16］表達式如下：

其中：prmin1和prmin2是pr的兩個最小值，prmax表示pr的最大值，Sp是預定義的兩個自適應階段的轉折點，Itemax和Ite分別是最大迭代次數和當前迭代次數。此自適應過程分為兩個階段：第一階段pr線性增加，隨機學習比重提高，有利于增加種群多樣性，避免算法早熟收斂；第二階段pr線性減小，促使種群向優異個體學習，展開局部搜索。

考慮到不同個體間學習能力的差異，且人類智商遵循高斯分布，使用高斯分布模擬個體學習能力以動態調整參數pi［17］。首先，算法初始化時為每個個體賦予不同的pi，且服從高斯分布：

每次迭代執行一次pi的動態更新，在每次迭代時，μ設置如式（45）：

其中：pi，j是第j個個體的pi值；若全局最優值未更新，則用更新后的μ為所有pi使用高斯分布賦值。

參數pr決定了算法執行隨機學習的概率，隨機學習類似遺傳算法里的變異算子，因此pr值通常設置較小且相對穩定。個體學習、團隊互助學習、社會學習是種群積累學習經驗的主要過程，也是算法的核心，參數pi、pt、pm直接影響算法的效率，但在缺少先驗知識的情況下難以設置最優值?；谏鲜龇治觯疚奶岢稣{和參數自適應策略，參數pr采用式（43）所示的自適應策略，有利于豐富種群多樣性，幫助個體擺脫局部最優，參數pi、pt、pm均采用式（44）～（46）所示的高斯分布動態調整策略，有利于協調各種學習機制，使種群達到最佳學習狀態。兩種參數策略調和使用可以互取長處，使參數設置更合理；同時隨著算法迭代，靈活的參數機制可提高種群學習效率，確保學習經驗通過各種學習機制互相傳遞，提高算法穩定性。

2.2.4 更新策略

產生新解后，根據適應度函數計算新解的適應度值，并更新IKD、TGKD、MGKD、SKD。若當前解優于IKD里的最差候選解或IKD里的候選解數少于G時，則保留新解至IKD；若當前解優于TGKD里的最差候選解或TGKD里的候選解數量少于F時，則保留新解至TGKD；若當前解優于MGKD里的最差候選解或MGKD里的候選解數量少于E時，則保留新解至MGKD；若當前解優于SKD里的最差候選解或SKD里的候選解數量少于H時，則保留新解至SKD。

2.2.5 算法流程

步驟1 初始化各參數，初始化種群，使用精英種群反向學習策略優化初始化種群。

步驟2 根據目標函數計算適應度值，初始化IKD、TGKD、MGKD、SKD。

步驟3 按照式（42）完成學習過程，使用調和參數自適應策略調整參數，完成學習后得到下一代的新解。

步驟4 對于新解，將違反約束條件的解修改成可行解。

步驟5 根據目標函數計算適應度值，根據更新策略更新IKD、TGKD、MGKD、SKD。

步驟6 若未超過最大迭代次數，則轉步驟3；否則，輸出結果。

2.2.6 算法時間復雜度

HLO 算法的時間復雜度如下：假設群體規模為N，搜索空間維度為D，則HLO 算法的初始化群體的時間復雜度為O(ND)，種群進行隨機學習、個體學習、社會學習的時間復雜度為O（N），計算個體適應度值的時間復雜度為O（ND）。同理，IHLO 算法采用精英種群反向學習策略的時間復雜度為O（N），采用團隊互助學習算子的時間復雜度為O（N），采用調和參數自適應策略的時間復雜度為O（N），IHLO 算法總的時間復雜度為O(ND)。因此，IHLO 算法和HLO 算法的時間復雜度處于同一水平，IHLO 算法改進策略并未增加算法的時間復雜度。

3 數值實驗

為驗證IHLO 算法求解新能源汽車電池回收網點競爭選址模型的有效性，本文實驗分為三部分。首先以上海市部分區域為例說明案例，用IHLO 算法進行求解，對選址結果以及模型各部分的含義進行詳細說明；然后采用大、中、小規模算例，選取改進二進制灰狼（Improved Binary Grey Wolf Optimization，IBGWO）算法［18］、改進二進制粒子群（Improved Binary Particle Swarm Optimization，IBPSO）算法［19］、HLO 算法［13］、融合學習心理學的人類學習優化算法（Human Learning Optimization algorithm based on Learning Psychology，LPHLO）［15］與本文提出的IHLO 算法進行對比；最后采用小規模算例分析算法改進策略，以探究三種改進策略對算法性能的影響。

3.1 應用案例

本文結合上海市部分區域，采用IHLO 算法進行求解。實驗中涉及的經緯度均選自百度地圖，采用如式（47），通過坐標計算距離：

其中：α1 和β1 表示某一點的經度和緯度，α2 和β2 表示另一點的經度和緯度，S表示此兩點間的距離值。

模型包含諸多約束條件，若將違反約束條件的解直接刪除，則將浪費許多個體的學習結果，降低算法效率，因此，本文考慮在算法中將違反約束條件的解修改成可行解：對于式（18），將這個解中成本最高的點由未被選中的成本最低的點替換；對于式（19）～（20），將這個解中所有違反人流量約束、門檻約束的點由未被選中的吸引力適中的點替換；對于式（21），將這個解中所有違反排隊時間約束的點由沒有選中的排隊時間最少的點替換；對于式（22），將這個解中所有違反總逗留時間約束的點由沒有選中的λ-nμ值最小的點替換；對于式（23），將這個解中所有違反排隊概率約束的點由沒有選中的顧客到達需要等待的概率最小的點替換。

如圖1 所示的小型案例釋義如下：假設企業A、B、C 分別有2 個已建電池回收網點，分別用三角形、梯形、六邊形表示。企業C 有5 個候選電池回收網點C（1X1，Y1），C（2X2，Y2），…，C（5X5，Y5），用實心圓表示；將要在其中新建2 個電池回收網點，用環形表示；共有10 個需求點，用菱形表示。采用IHLO 算法進行求解，求得最大利潤為533 632 元，選址結果為［1 0 1 0 0］，表明企業C 應該在候選電池回收網點C（1X1，Y1）和C（3X3，Y3）新建設施，在這兩點新建電池回收網點后，企業C 已建設施和新建設施的年利潤為533 632 元，圖中兩個環形表示企業C 的新建電池回收網點。結合前文數學模型，分別表示企業C 的新建網點營業額、已建網點營業額、新建網點總成本和已建網點總成本，算法求得結果分別為964 713 元、1 084 641 元、738 711 元和777 011 元。

圖1 小型案例Fig.1 Small case

3.2 算法對比分析

上述應用案例僅采用極小場景進行說明，為進一步驗證算法性能，進行更大規模實驗。本文采用IHLO 算法以及IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO 分別進行大規模、中規模、小規模的仿真實驗。本文參考上海統計年鑒設置設施點、需求點數量，參考文獻［20-21］設置投資限額、容量限制、排隊時間、等待概率等模型中的其他參數。對于小規模的仿真實驗，本文設置企業A、B、C 的已建設施點數分別為30、30、20，企業C 的候選設施點數為100，將選擇20 個點新建設施，需求點為200 個，投資限額C為7 460 000 元，容量限制Q為555 人，人流量的門檻需求量T為297 人，排隊時間不高于3.6 min，總逗留時間不超過18 min 的概率不低于0.9，顧客到達后必須等待的概率不高于0.43；對于中規模的仿真實驗，本文設置企業A、B、C 的已建設施點分別為60、60、40 個，企業C 的候選設施點數為200，將選擇50 個點新建設施，需求點數為500，投資限額C為18 600 000 元，容量限制Q為647 人，人流量的門檻需求量T為364 人，排隊時間不高于3.6 min，總逗留時間不超過18 min 的概率不低于0.9，顧客到達后必須等待的概率不高于0.43；對于大規模的仿真實驗，本文設置企業A、B、C 的已建設施點數分別為100、100、50，企業C 的候選設施點數為300，將選擇100 個點新建設施，需求點數為700，投資限額C為37 100 000 元，容量限制Q為502 人，人流量的門檻需求量T為288 人，排隊時間不高于3.6 min，總逗留時間不超過18 min 的概率不低于0.9，顧客到達后必須等待的概率不高于0.43。3 種規模的5 種算法種群規模均為50。為提高求解效率，本文在實驗中根據5 種算法的收斂情況設置最大迭代次數，小規模問題中5 種算法在運行50 次時均已開始收斂，中規模問題中5 種算法在運行100 次時均已開始收斂，大規模問題中5 種算法在運行200次時均已開始收斂，因此3 種規模的5 種算法迭代次數分別為50、100、200。

本文通過多次實驗并參考文獻［13，15，18，19］，五種算法的相關參數設置如下：

IBGWO 算法：收斂因子a最大值為2；IBPSO：Vmax=4，Vmin=-4，c1=1.5，c2=1.5，wmax=0.9，wmin=0.1；HLO 算法：pr=5/M，pi=0.85+2/M；LPHLO：prmax=10/M，prmin=1/M，ptmax=0.8+1/M，ptmin=0.7+1/M，pimax=0.9+1/M，pimin=0.8+1/M；IHLO算法：prmax=0.015，prmin1=0.002，prmin2=0.005，高斯分布初始均值MU_pi=0.3+2/M，高斯分布標準差SIGMA_pi=0.02/3，MU_pt=0.6+2/M，SIGMA_pt=0.02/3，MU_pm=0.85+2/M，SIGMA_pm=0.02/3，Sp=0.2 ×Itemax，多人小組個體數g=10。一般對于單目標問題，IKD、TGKD、MGKD、SKD中候選解的個數設置為1，以更好地平衡算法性能和計算復雜度［22］，因此，HLO 算法、LPHLO 和IHLO 算法中的E、F、G、H均設置為1。

在5 種算法函數評價次數相同的情況下進行30 次對比實驗，并記錄最優值、平均值、最差值、標準差、運行時間。編程軟件為Matlab2018a，實驗環境為Intel i5-6300HQ、2.30 GHz、8 GB RAM、Windows 10。

表1 不同規模下五種算法的求解結果Tab.1 Solving results of five algorithms under different scales

對于小規模算例，IHLO 算法的最優值、平均值、最差值和標準差均能取得更好的求解結果，說明IHLO 算法的求解質量和求解穩定性優于IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO，IHLO 算法運行時間最短，說明求解速度優于其他算法；對于中規模算例，IHLO 算法的五項指標依然優于其他四種算法，且隨著規模增大，IHLO 算法的求解結果優勢更明顯；對于大規模算例，IHLO 算法相較于其他算法在最優值、平均值和最差值上依然表現更佳，進一步證明了IHLO 算法優異的求解精度，IHLO 算法的標準差優于IBGWO 算法、IBPSO 算法和HLO 算法但略遜于LPHLO，說明IHLO 算法在求解大規模問題時雖能保證尋優精度但犧牲了部分算法穩定性，在運行時間這項指標中，IHLO 算法求解速度依然最快。用平均值衡量求解精度，用標準差衡量求解穩定性，用運行時間衡量求解速度，對于大、中、小三種不同的規模，算例結果顯示IHLO 算法相較于IBGWO 算法求解精度至少提高了0.13%，求解穩定性至少提高了10.05%，求解速度至少提高了17.48%。綜上所述，IHLO 算法在三種規模共15 個指標中的14 個指標上表現最佳，IHLO 算法相較于其他算法在大、中、小規模問題中均展現了優異的求解精度，且求解速度更快，也展現了較為良好的求解穩定性。

除了尋優精度，收斂速度也是算法重要的評價指標。圖2～4 給出3 種規模下5 種算法的迭代收斂曲線，收斂曲線均從30 次獨立實驗中隨機抽取。觀察迭代收斂曲線可知，IBGWO 算法前期收斂較快，但中后期尋優質量不佳，大規模問題中更為明顯；IBPSO 算法收斂效果較差，求解質量低于其他算法；HLO 算法和LPHLO 前期收斂較慢，中后期尋優質量較好，但收斂效果不佳；IHLO 算法前期收斂快，尋優質量高，中后期穩定收斂。綜上所述，IHLO 算法能在迭代早期快速找到高質量解，并在中后期達到穩態，具有優異的收斂速度。

圖2 小規模五種算法的迭代收斂曲線比較Fig.2 Comparison of iterative convergence curves of five algorithms in small scale

圖3 中規模五種算法的迭代收斂曲線比較Fig.3 Comparison of iterative convergence curves of five algorithms in medium scale

圖4 大規模五種算法的迭代收斂曲線比較Fig.4 Comparison of iterative convergence curves of five algorithms in large scale

IHLO 算法所展現的優異的求解精度和收斂速度得益于本文提出的改進策略。通過提出精英種群反向學習策略，一方面增加種群多樣性，減少算法陷入局部極值的風險，另一方面保留更優個體，確保了算法每次迭代的搜索效率，提高算法前期收斂速度；通過提出團隊互助學習算子，拓寬個體學習面，強化個體的學習能力，提高算法尋優精度；通過提出調和參數自適應策略，提高參數與學習機制的適配性，靈活運用不同學習機制的優勢，平衡個體的學習狀態，增加算法穩定性。

3.3 算法改進策略分析

為驗證三種改進策略的有效性，進行算法改進對比實驗。由于前文已經證明IHLO 算法在不同規模問題上的優異表現，且算法改進對比實驗重在分析各個改進策略的影響，因此，此部分實驗均采用小規模算例即可。在其他條件保持不變的情況下，將引入精英種群反向學習策略的HLO 算法、引入團隊互助學習算子的HLO 算法、引入調和參數自適應策略的HLO 算法、引入精英種群反向學習策略和團隊互助學習算子的HLO 算法、引入精英種群反向學習策略和調和參數自適應策略的HLO 算法、引入團隊互助學習算子和調和參數自適應策略的HLO 算法分別命名為HLO-1、HLO-2、HLO-3、HLO-4、HLO-5、HLO-6，并將實驗結果與HLO 算法、IHLO 算法進行對比。

表2 是8 種算法獨立運行30 次的實驗結果。

表2 三種改進對比分析的實驗結果單位：104元Tab.2 Experimental results of comparative analysis of three improvements unit：104CNY

分析表2 數據可知，HLO-2、HLO-4、HLO-6 和IHLO 的最優值明顯優于其他算法，因為團隊互助學習算子強化了算法的尋優能力，有利于算法找到更優解；HLO-3、HLO-5、HLO-6和IHLO 的標準差相較于HLO 算法有明顯減小，因為調和參數自適應策略有助于加強算法穩定性，使計算結果穩定在較好的區間里；HLO-1、HLO-4 和HLO-5 的最優值和平均值相較于HLO 算法并無明顯提升，因為精英種群反向學習策略優勢在于提高算法前期收斂速度，未對算法尋優精度和穩定性有顯著影響；IHLO 算法的四項評價指標均表現最優，說明三種改進策略的融合提升了IHLO 算法各方面性能。

4 結語

本文以新能源汽車電池回收問題為背景研究競爭設施選址問題，在引入排隊論的情況下，構建以企業已建設施和新建設施總利潤最大為目標的優化模型。為求解新能源汽車電池回收網點競爭選址問題，提出改進人類學習優化算法，針對人類學習優化算法前期收斂速度較慢、尋優精度不高、求解穩定性不高等缺陷，分別引入精英種群反向學習策略、團隊互助學習算子、調和參數自適應策略進行優化。最后分別以長江三角洲、上海市為例進行大、中、小規模的仿真實驗，并與IBGWO、IBPSO、HLO、LPHLO 進行對比，實驗結果證明了本文模型的可行性和算法的有效性。后續可將該算法應用于冷鏈配送中心競爭選址問題。