基于強化學(xué)習(xí)策略的梯度下降學(xué)習(xí)求解GCP

2025-04-30 00:00:00宋家歡王曉峰胡思敏姚佳興鎖小娜

計算機應(yīng)用研究 2025年4期

摘要：圖著色問題（graph coloring problem，GCP）是經(jīng)典的組合優(yōu)化問題，其目標(biāo)是為圖的每個頂點分配不同的顏色，使得相鄰頂點的顏色不同，同時盡可能減少所用顏色的數(shù)量。GCP屬于NP難問題，傳統(tǒng)求解方法（如貪心算法、啟發(fā)式搜索和進化算法）往往因計算復(fù)雜度高而受限，且易陷入局部最優(yōu)解。為了解決這些問題，提出了一種基于強化學(xué)習(xí)策略（reinforcement learning strategy，RLS）的梯度下降學(xué)習(xí)方法來求解GCP。具體而言，將GCP轉(zhuǎn)換為強化學(xué)習(xí)中的策略優(yōu)化問題，通過設(shè)計策略梯度算法，將圖的著色狀態(tài)映射為強化學(xué)習(xí)的狀態(tài)，將顏色分配視為動作，以目標(biāo)函數(shù)的負(fù)值作為獎勵信號，逐步優(yōu)化著色策略。實驗結(jié)果表明，所提方法在不同類型和規(guī)模的圖實例上均優(yōu)于傳統(tǒng)啟發(fā)式算法，尤其在高維度和復(fù)雜約束條件下表現(xiàn)出較強的全局探索能力和收斂性。該研究表明，基于強化學(xué)習(xí)的圖著色方法為在解決復(fù)雜組合優(yōu)化問題上具有廣泛的應(yīng)用潛力，為圖著色及其衍生問題提供了有效的求解新路徑。

關(guān)鍵詞：圖著色問題；強化學(xué)習(xí)策略；梯度下降；組合優(yōu)化問題

中圖分類號：TP3016"" 文獻標(biāo)志碼：A""" 文章編號：1001-3695（2025）04-006-1011-07

doi： 10.19734/j.issn.1001-3695.2024.09.0330

Gradient descent learning based on reinforcement learning strategy for solving GCP

Song Jiahuana， Wang Xiaofenga，b， Hu Simina， Yao Jiaxinga， Suo Xiaonaa

（a. School of Computer Science amp; Engineering， b. Laboratory of Image amp; Graphics Intelligent Processing of State Ethnic Affairs Commission， North Minzu University， Yinchuan 750021， China）

Abstract：The GCP is a classical combinatorial optimization problem that aimed to assign different colors to each vertex in a graph， ensuring that adjacent vertices have different colors while minimizing the total number of colors used. As an NP-hard problem， GCP presents challenges for traditional solution methods， such as greedy algorithms， heuristic search， and evolutio-nary algorithms， which are often limited by high computational complexity and a tendency to get trapped in local optima. To address these issues， this paper proposed a gradient descent learning method based on RLS for solving GCP. Specifically， it reformulated GCP as a policy optimization problem within the reinforcement learning framework， designing a policy gradient algorithm that maps graph coloring states to reinforcement learning states， treats color assignments as actions， and used the negative objective function value as a reward signal to iteratively optimize the coloring strategy. Experimental results demonstrate that the proposed method outperforms conventional heuristic algorithms across various types and scales of graph instances， showing strong global exploration capabilities and convergence， especially in high-dimensional and complex constraint scenarios. This study shows that the reinforcement learning-based approach to graph coloring holds broad potential for complex combinatorial optimization problems， offering an effective new solution pathway for GCP and related problems.

Key words：image coloring problem; reinforcement learning strategy; gradient descent; combinatorial optimization problem

0 引言

圖著色問題作為經(jīng)典的組合優(yōu)化問題，廣泛應(yīng)用于無線網(wǎng)絡(luò)頻率分配［1～3］、任務(wù)調(diào)度［4］、地圖著色以及約束滿足等眾多領(lǐng)域［5， 6］。其核心目標(biāo)是為無向圖中的每個頂點分配顏色，確保相鄰頂點顏色不同，并盡可能減少所使用的總顏色數(shù)。然而，GCP屬于NP難問題，當(dāng)圖的規(guī)模或結(jié)構(gòu)復(fù)雜性增加時，求解其最優(yōu)解的計算開銷呈指數(shù)級增長。因此，設(shè)計高效算法來求解GCP一直是學(xué)術(shù)界和工業(yè)界的重點研究方向。傳統(tǒng)求解GCP的方法包括模擬退火［7～9］、遺傳算法［10～12］、局部搜索［13～15］等。這些方法依賴特定的啟發(fā)式規(guī)則或隨機搜索策略，能夠在某些情況下找到較優(yōu)解。然而，面對大規(guī)模、復(fù)雜結(jié)構(gòu)的圖時，現(xiàn)有方法存在如下問題：a）計算效率低，隨著圖規(guī)模的增加，求解時間呈指數(shù)增長，特別是在復(fù)雜圖結(jié)構(gòu)的情況下，算法的計算成本顯著提高;b）易陷入局部最優(yōu)，由于這些方法依賴局部搜索，容易陷入局部最優(yōu)解，難以跳出局部區(qū)域進行全局搜索;c）全局探索能力不足，啟發(fā)式算法在全局搜索能力上存在局限，盡管引入了一定的隨機性，但面對高度復(fù)雜和動態(tài)變化的圖時，往往無法有效進行全局探索和優(yōu)化。

雖然近年來提出了一些改進方法，如模因TLBO算法［16］、基于概率模型的分布進化算法［17］和基于群體的權(quán)重學(xué)習(xí)框架［18］，在求解大規(guī)模圖著色問題時取得了一定的進展，但仍存在以下不足：首先，它們在處理具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的圖時，往往需要依賴復(fù)雜的啟發(fā)式規(guī)則，經(jīng)驗知識依賴較強;其次，這些方法的全局搜索能力仍然有限，尤其在大規(guī)模圖問題中，易陷入局部最優(yōu)，難以有效平衡探索與開發(fā)。

針對現(xiàn)有啟發(fā)式方法的局限性，本文提出了一種基于強化學(xué)習(xí)的策略梯度方法來求解GCP。強化學(xué)習(xí)通過將問題建模為動態(tài)決策過程，在每一步通過狀態(tài)、動作和獎勵信號的反饋對策略進行優(yōu)化。與傳統(tǒng)方法相比，強化學(xué)習(xí)在以下方面具有優(yōu)勢：a）動態(tài)決策過程，圖著色問題可以被視為一個逐步?jīng)Q策過程，每次選擇一個節(jié)點的著色都會影響整個圖的顏色沖突狀態(tài)，強化學(xué)習(xí)能夠動態(tài)調(diào)整顏色分配策略，在此過程中逐步減少沖突次數(shù)；b）全局搜索與優(yōu)化，通過策略梯度算法，強化學(xué)習(xí)能夠探索更廣闊的狀態(tài)空間，避免局限于局部區(qū)域，從而提高找到全局最優(yōu)解的概率；c）適應(yīng)復(fù)雜圖結(jié)構(gòu)，強化學(xué)習(xí)具有較強的適應(yīng)性，尤其在面對大規(guī)模、復(fù)雜結(jié)構(gòu)的圖時，能夠根據(jù)獎勵信號自我調(diào)整，并不斷優(yōu)化策略，表現(xiàn)出良好的魯棒性。

綜上所述，本文通過將圖著色問題轉(zhuǎn)換為強化學(xué)習(xí)框架中的策略優(yōu)化問題，設(shè)計了一種能夠動態(tài)調(diào)整顏色分配的算法，旨在最小化顏色沖突數(shù)和所使用的顏色數(shù)量。在該方法中，圖的當(dāng)前顏色狀態(tài)被表示為強化學(xué)習(xí)的狀態(tài)，顏色選擇過程作為動作，負(fù)的顏色沖突數(shù)作為獎勵信號。通過策略梯度算法優(yōu)化顏色分配策略，算法能夠在探索狀態(tài)空間的過程中，逐步學(xué)習(xí)到全局最優(yōu)或次優(yōu)的著色方案。數(shù)值實驗結(jié)果表明，該方法具有較強的全局探索能力和適應(yīng)性，能夠有效應(yīng)對不同規(guī)模和結(jié)構(gòu)的圖著色問題，并在性能上優(yōu)于傳統(tǒng)啟發(fā)式算法。

1 問題建模與強化學(xué)習(xí)框架

1.1 圖著色問題的數(shù)學(xué)建模

將GCP表示為無向圖G=（V，E），其中V={v1，v2，…，vn}表示圖的頂點集，E={e1，e2，…，em}表示圖的邊集。目標(biāo)是為每個頂點vi∈V分配一種顏色ci∈C，使得相鄰頂點的顏色不同，即對于每條邊（vi，vj）∈E，有ci≠vj。同時，滿足所使用的顏色數(shù)量C最小化。在經(jīng)典優(yōu)化框架中，GCP可以建模為一個目標(biāo)函數(shù)優(yōu)化問題L（C），表示顏色沖突的數(shù)量，表達式如下：

L（C）=∑（vi，vj）∈E‖（ci=cj）

（1）

其中：‖（·）為指示函數(shù)，當(dāng)其內(nèi)部條件為真時返回1，否則返回0。優(yōu)化的目標(biāo)是通過調(diào)整顏色分配C，使得L（C）最小化。圖1為GCP的一個實例過程。

1.2 強化學(xué)習(xí)框架的構(gòu)建

為了將圖著色問題轉(zhuǎn)換為強化學(xué)習(xí)任務(wù)，本文采用強化學(xué)習(xí)的四個核心要素：狀態(tài)（state）、動作（action）、策略（policy）和獎勵（reward），并結(jié)合圖的結(jié)構(gòu)特點，構(gòu)建了一個基于策略梯度的強化學(xué)習(xí)框架。在該框架中，圖的當(dāng)前著色情況被視為系統(tǒng)狀態(tài)，顏色的分配過程作為動作，顏色沖突數(shù)量的變化作為獎勵信號，通過策略優(yōu)化不斷學(xué)習(xí)圖的最優(yōu)著色策略。在本節(jié)中，將詳細(xì)介紹如何定義這些元素以及它們在圖著色問題中的具體實現(xiàn)。

1.2.1 狀態(tài)定義

首先，定義圖著色問題中的狀態(tài)。在RL框架中，狀態(tài)st是系統(tǒng)在時間步t時的一個特征描述。在圖著色問題中，狀態(tài)可以定義為當(dāng)前圖的顏色分配情況。具體而言，狀態(tài)st可以表示為一個向量或矩陣，其中每個元素st（i）表示頂點vi∈V的當(dāng)前顏色。為了使智能體能夠有效地進行決策，本文采用以下兩種狀態(tài)表示方法來描述圖的著色情況：

a）向量表示法。狀態(tài)st可以用一個長度為V的向量來表示，其中每個元素st（i）∈{1，2，…，C}表示頂點vi的當(dāng)前顏色。如果頂點尚未分配顏色，則使用一個特定值（如0）來表示未著色狀態(tài)。例如，狀態(tài)向量s=［1，0，2，3］表示圖中四個頂點的顏色情況，其中第二個頂點尚未著色。這種表示法直觀簡單，適用于較小規(guī)模的圖。隨著圖規(guī)模的增大，向量表示可能難以捕捉到復(fù)雜的結(jié)構(gòu)特征，因此在大規(guī)模圖結(jié)構(gòu)中可能表現(xiàn)有限。

b）矩陣表示法。狀態(tài)st可以用一個大小為V×C的二進制矩陣來表示，其中st（i，j）=1表示頂點vi被分配了顏色j，否則st（i，j）=0。這種表示法能夠明確描述每個頂點的當(dāng)前顏色狀態(tài)以及可用的顏色選擇。例如，矩陣中的一行［0，1，0］表示頂點被分配了第二種顏色，這種表示法適合描述更復(fù)雜的圖結(jié)構(gòu)，特別是在大規(guī)模或稠密圖中，它能夠捕捉到更多關(guān)于圖結(jié)構(gòu)和顏色分配的細(xì)節(jié)信息。

GCP狀態(tài)描述提供了一個全局視圖，使得RL智能體可以了解當(dāng)前的整體著色情況，以及哪些頂點存在顏色沖突，進而有針對性地進行下一步動作選擇。

1.2.2 動作定義

動作at是智能體在給定狀態(tài)st下可執(zhí)行的操作。在圖著色問題中，動作的定義是選擇一個頂點并為其分配或更改顏色。具體來說，動作at可以定義為以下兩種形式：

a）頂點選擇與顏色分配。動作at由兩部分組成：頂點選擇vi∈V，即決定哪個頂點需要重新著色；顏色選擇cj∈C，即決定為選定頂點分配哪種顏色。因此，動作可以表示為一個二元組at=（vi，cj）。

b）顏色更新操作：動作at也可以表示為在當(dāng)前狀態(tài)下對某個頂點的顏色進行更新。具體地，動作at是一個映射at：st（i）→st+1（i），表示將頂點vi的顏色從當(dāng)前顏色更改為新的顏色cj。

通過這種方式，RL智能體可以在每個時間步執(zhí)行不同的動作組合，以盡量減少顏色沖突的數(shù)量。例如，在一個簡單的三頂點圖中，如果頂點1當(dāng)前為顏色1，頂點2為顏色2，頂點3未著色，那么一個動作可能是將頂點3著色為顏色1，從而減少可能的顏色沖突。

1.2.3 策略定義

策略（policy）π（atst;θ）是智能體在給定狀態(tài)st下選擇動作at的概率分布函數(shù)，θ是策略網(wǎng)絡(luò)的參數(shù)。策略定義了智能體在任何狀態(tài)下如何行動，策略優(yōu)化的目標(biāo)是通過調(diào)整參數(shù)θ，使得智能體選擇的動作最大化長期累積獎勵。

為了更好地捕捉圖結(jié)構(gòu)信息，本文使用一個深度神經(jīng)網(wǎng)絡(luò)（graph neural network，GNN）來表示策略網(wǎng)絡(luò)。該網(wǎng)絡(luò)的輸入是圖的狀態(tài)st的特征表示，輸出是各個可能動作的概率分布。這種選擇有以下優(yōu)勢：a）利用圖結(jié)構(gòu)信息，GNN通過多層消息傳遞機制，可以將每個頂點的顏色信息與其鄰居頂點的特征信息進行聚合，從而學(xué)習(xí)到更全局的圖表示，相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)（CNN）或全連接神經(jīng)網(wǎng)絡(luò)（MLP），GNN能更好地處理非歐幾里德結(jié)構(gòu)的數(shù)據(jù)；b）學(xué)習(xí)嵌入特征，GNN能夠自動學(xué)習(xí)圖的嵌入特征，這些特征可以用于捕捉圖中的復(fù)雜模式，如局部群體結(jié)構(gòu)和全局網(wǎng)絡(luò)屬性，通過這種方式，策略網(wǎng)絡(luò)能夠更好地預(yù)測哪些頂點和顏色組合，有助于減少顏色沖突。具體步驟如下：

a）輸入層：輸入層接收圖的當(dāng)前狀態(tài)st，其中包括頂點的當(dāng)前顏色分配、相鄰頂點的顏色沖突情況等特征信息。為充分利用圖的結(jié)構(gòu)信息，使用圖神經(jīng)網(wǎng)絡(luò)來提取圖的嵌入特征。

b）隱藏層：隱藏層使用多個神經(jīng)元來捕捉復(fù)雜的非線性關(guān)系，利用卷積層或全連接層對輸入特征進行處理。GNN可以通過多層消息傳遞機制，將每個頂點的顏色信息與其鄰居頂點的特征信息進行聚合，從而學(xué)習(xí)到全局的圖表示。

c）輸出層：輸出層為每個可能的動作（頂點和顏色選擇）生成一個概率分布π（atst;θ），表示在當(dāng)前狀態(tài)下選擇每個動作的概率。這個概率分布用于指導(dǎo)智能體在每個時間步中如何選擇動作。

1.2.4 獎勵定義

獎勵（reward）Rt是智能體在執(zhí)行動作at，從環(huán)境中獲得的反饋信號，用于引導(dǎo)策略學(xué)習(xí)。獎勵的設(shè)計直接影響RL算法的學(xué)習(xí)效果，在GCP中，定義獎勵為顏色沖突數(shù)量的負(fù)變化，具體如下：

Rt=－ΔL（C）=－（L（Ct+1）－L（Ct））

（2）

其中：L（Ct）和L（Ct+1）分別表示執(zhí)行動作前后的顏色沖突數(shù)量。負(fù)的顏色沖突變化意味著如果沖突數(shù)量減少，智能體會獲得正獎勵；如果沖突增加，則獲得負(fù)獎勵。通過最大化累積獎勵，智能體將傾向于選擇減少顏色沖突的動作。

此外，為了進一步優(yōu)化顏色使用數(shù)量，本文設(shè)計一個復(fù)合獎勵函數(shù)，綜合考慮其他優(yōu)化目標(biāo)（如最小化使用的顏色數(shù)量）Rt=－αΔL（C）－βC，其中α和β是權(quán)重參數(shù)，用于平衡顏色沖突和顏色數(shù)量的影響。

獎勵函數(shù)的靈活性與調(diào)優(yōu)：不同的圖結(jié)構(gòu)可能需要不同的權(quán)重參數(shù)設(shè)置，以平衡顏色沖突減少和顏色使用數(shù)量最小化的目標(biāo)。在稀疏圖中，減少顏色沖突的權(quán)重α可以設(shè)置得較高，而在密集圖中，最小化顏色使用數(shù)量的權(quán)重β可能需要更高，以減少計算復(fù)雜性。通過調(diào)整這些權(quán)重，智能體能夠更好地適應(yīng)不同的圖結(jié)構(gòu)和規(guī)模。

1.2.5 強化學(xué)習(xí)任務(wù)定義

結(jié)合以上狀態(tài)、動作、策略和獎勵的定義，圖著色問題被映射為一個強化學(xué)習(xí)任務(wù)。該任務(wù)的目標(biāo)是訓(xùn)練智能體找到一個最優(yōu)策略π*（atst），在每個狀態(tài)下選擇最佳動作，從而最小化整個圖的顏色沖突數(shù)量和所用的顏色總數(shù)。策略梯度方法將其用于優(yōu)化該策略，使得在長期內(nèi)累積的獎勵最大化。

2 策略梯度方法求解GCP

在強化學(xué)習(xí)框架下，策略梯度方法（policy gradient）是一種直接優(yōu)化策略的技術(shù)，旨在最大化累積期望獎勵。利用策略梯度方法來優(yōu)化智能體的著色策略，使其在每個狀態(tài)下選擇最優(yōu)的動作（顏色分配），以減少顏色沖突數(shù)量和顏色使用數(shù)量。

2.1 策略梯度方法的構(gòu)建

2.1.1 策略梯度方法概述

策略梯度方法通過參數(shù)化策略π（atst;θ）來最大化期望累積獎勵J（θ）。目標(biāo)是找到一組參數(shù)θ，使得在給定狀態(tài)st下，策略π能夠選擇合適的動作at，從而在長期內(nèi)獲得最大的累積獎勵。期望累積獎勵的定義為

d）重復(fù)訓(xùn)練過程：不斷重復(fù)上述步驟，直到策略收斂或達到預(yù)設(shè)的訓(xùn)練輪數(shù)。隨著訓(xùn)練的進行，策略網(wǎng)絡(luò)將逐漸學(xué)習(xí)到一個有效的圖著色策略。

2.1.6 算法偽代碼

算法1 策略梯度方法求解GCP偽代碼

輸入：G=（V，E）; initialize network parameters θ randomly；set lear-ning rate α and maximum iterations M。

輸出：C_best。

for iteration in range（M）： //訓(xùn)練過程

s_t ← initial graph state （adjacency matrix A， feature matrix X， initial color matrix C_0）

total_reward ← 0//初始化狀態(tài)

#收集經(jīng)驗

for t in range（T） // T為最大時間步

action_probabilities ← π（s_t; θ） //策略網(wǎng)絡(luò)前向傳播

a_t← sample action from action_probabilities /* 根據(jù)輸出概率分布采樣動作 */

s_t+1 ← update state with action a_t

C_t+1 ← update color matrix with a_t //更新顏色狀態(tài)

R_t ←- number of color conflicts in C_t+1 1//計算即時獎勵

nbsp;total_reward ← total_reward + R_t //累計獎勵

"grad_log_prob ←SymbolQC@_θ log π（a_t | s_t; θ）） //計算策略梯度

θ←θ+α*grad_log_prob*（R_t-baseline（s_t）） /*策略網(wǎng)絡(luò)參數(shù)更新 */

if convergence criterion met：

break //終止條件檢查

return θ， C_best // 輸出最佳策略和著色方案

2.1.7 時間復(fù)雜度分析

策略梯度方法求解GCP的算法時間復(fù)雜度從以下幾個方面分析：

a）外層迭代循環(huán)：外層循環(huán)運行M次，其中M是最大迭代次數(shù)。因此，這一部分的時間復(fù)雜度是O（M）。

b）內(nèi)層步驟：該循環(huán)運行T次，其中T是每次迭代的時間步長。在每個時間步中，會進行一系列的操作，分析如下：

（a）計算動作概率：計算動作概率是通過神經(jīng)網(wǎng)絡(luò)（策略網(wǎng)絡(luò)）完成的。策略網(wǎng)絡(luò)的計算復(fù)雜度為O（Nnn），其中Nnn取決于網(wǎng)絡(luò)的結(jié)構(gòu)（如網(wǎng)絡(luò)層數(shù)、每層的神經(jīng)元數(shù)量）。

（b）采樣動作：采樣操作的時間復(fù)雜度為O（A），其中A是可選動作的數(shù)量，對應(yīng)于圖的節(jié)點或顏色的數(shù)目。

（c）狀態(tài)和顏色矩陣更新：更新狀態(tài)和顏色矩陣的操作與圖的節(jié)點和邊數(shù)量相關(guān)，時間復(fù)雜度為O（V+E），其中V是圖的頂點數(shù)，E是邊的數(shù)量。

（d）獎勵計算：計算顏色沖突的時間復(fù)雜度為O（E），因為需要遍歷所有的邊，確保相鄰頂點的顏色不同。

（e）梯度計算與參數(shù)更新：梯度計算與策略網(wǎng)絡(luò)的更新涉及反向傳播。其時間復(fù)雜度依賴于策略網(wǎng)絡(luò)的結(jié)構(gòu)，為O（Nnn）。

c）收斂檢查：收斂性檢查的復(fù)雜度為O（V + E），因為需要檢査當(dāng)前顏色配置是否滿足條件，確保圖中的每條邊沒有顏色沖突。

d）總體時間復(fù)雜度。

綜上所述，內(nèi)層循環(huán)的每個時間步的總時間復(fù)雜度為O（A+V+E+Nnn）。

外層循環(huán)的時間復(fù)雜度是O（M），因此總的時間復(fù)雜度為O（M×T×（A+V+E+Nnn））。

2.2 策略最優(yōu)性的理論分析

在圖著色問題中，尋找最優(yōu)著色方案的關(guān)鍵在于如何通過策略的動態(tài)調(diào)整，使得整個圖的顏色沖突最小化，并減少使用的顏色數(shù)量。本文提出基于策略梯度的強化學(xué)習(xí)算法，依賴于智能體在狀態(tài)空間中的探索和學(xué)習(xí)，逐步優(yōu)化其策略。在本節(jié)中，將從理論角度分析該方法的策略最優(yōu)性，證明其在合理假設(shè)下能夠逼近最優(yōu)解。

2.2.1 最優(yōu)策略的定義

在強化學(xué)習(xí)中，最優(yōu)策略π*（s）是指在給定狀態(tài)s下，智能體選擇的動作能夠使得未來累積獎勵最大化。具體到圖著色問題，最優(yōu)策略意味著智能體能夠選擇一種顏色分配方案，使得相鄰節(jié)點的顏色沖突最少，同時使用的顏色數(shù)量最少。最優(yōu)策略通過最大化獎勵信號來實現(xiàn)，獎勵信號基于顏色沖突數(shù)量和顏色使用數(shù)量的負(fù)值定義：

其中：Qπ（s，a）表示在策略π下，從狀態(tài)s執(zhí)行動作a后的期望累積獎勵。通過不斷更新策略參數(shù)θ，策略會逐步趨向最優(yōu)，保證了在足夠長的訓(xùn)練時間內(nèi)，智能體能夠收斂到最優(yōu)策略π*。

2.2.4 漸近最優(yōu)性

強化學(xué)習(xí)的漸近最優(yōu)性指的是，經(jīng)過足夠多的迭代，智能體的策略將收斂到最優(yōu)策略。在策略梯度方法中，漸近最優(yōu)性依賴于以下假設(shè)：

a）充分探索：智能體能夠遍歷整個狀態(tài)空間，并嘗試所有可能的動作組合。這確保了策略網(wǎng)絡(luò)能夠?qū)W習(xí)到整個狀態(tài)空間中的最優(yōu)動作。

b）學(xué)習(xí)率設(shè)置合理：學(xué)習(xí)率應(yīng)逐步減小，但不能過快收斂，以防止策略陷入局部最優(yōu)解。合理的學(xué)習(xí)率保證了策略梯度算法能夠逐步收斂到全局最優(yōu)。

基于這些假設(shè)，本文的策略梯度方法通過不斷調(diào)整策略參數(shù)，保證了在無限次訓(xùn)練下，策略的累積獎勵J（θ）會趨近于最優(yōu)值J（θ*），從而保證漸近最優(yōu)性。

2.2.5 與傳統(tǒng)算法的對比分析

傳統(tǒng)的啟發(fā)式算法（如貪心算法、遺傳算法等）通常依賴于局部搜索策略，容易陷入局部最優(yōu)解，且在大規(guī)模圖實例中，探索空間有限，難以獲得全局最優(yōu)解。相比之下，本文提出的強化學(xué)習(xí)策略通過策略梯度方法能夠進行全局搜索和優(yōu)化。

具體而言，強化學(xué)習(xí)的全局探索能力來自于策略網(wǎng)絡(luò)在狀態(tài)空間中的廣泛搜索，并通過獎勵信號不斷調(diào)整策略，從而避免了局部最優(yōu)的局限性。通過優(yōu)化累積獎勵，強化學(xué)習(xí)智能體能夠逐步學(xué)習(xí)到全局最優(yōu)的顏色分配策略，尤其在大規(guī)模、復(fù)雜的圖結(jié)構(gòu)上表現(xiàn)出色。

3 實驗結(jié)果分析

本章詳細(xì)描述了使用強化學(xué)習(xí)策略優(yōu)化求解圖著色問題的實驗設(shè)置、實驗過程及實驗結(jié)果。通過對比不同方法的表現(xiàn)，驗證所提算法的有效性和魯棒性。

3.1 實驗設(shè)置

為了評估基于策略梯度方法的強化學(xué)習(xí)算法在圖著色問題中的表現(xiàn)，設(shè)計了一系列實驗，具體包括以下內(nèi)容：

a）數(shù)據(jù)集的選擇：為了覆蓋不同類型和規(guī)模的圖結(jié)構(gòu)，實驗使用第二屆DIMACS競賽中的圖著色挑戰(zhàn)數(shù)據(jù)集，如DSJC系列（DSJC125、DSJC250等）和le450系列，這些數(shù)據(jù)集包含了不同規(guī)模和稠密度的圖結(jié)構(gòu)。

b）實驗在Python環(huán)境中，使用深度學(xué)習(xí)框架（PyTorch）進行實現(xiàn)。

c）對比算法：基于種群的梯度下降權(quán)學(xué)習(xí)的算法Tens Col［18］、改進的禁忌搜索算法Tabucol+［19］、基于強化學(xué)習(xí)的雙重混合進化算法PLHEAD［20］、基于概率學(xué)習(xí)的局部搜索算法PLSCOL［21］和膜進化算法MEA-GCP［22］。

3.2 實驗結(jié)果

為了說明目標(biāo)在學(xué)習(xí)和搜索過程中如何逐步收斂，本研究考察了隨機圖（r125_5和r250_5）和標(biāo)準(zhǔn)圖著色實例（DSJC125_5和DSJC125_9）在著色時的適應(yīng)度演化過程，分別如圖2和3所示。

具體而言，對于隨機圖r125_5（包含17個頂點和17種顏色），在初始迭代次數(shù)為k的情況下，從圖（a）中可以看出，適應(yīng)度在開始時迅速提升，沖突數(shù)量迅速下降至大約4個，然后逐漸降低，直至找到一個合法的解決方案。對于隨機圖r250_5（包含65個頂點和65種顏色），從圖（b）中可以看出，適應(yīng)度在初期提升也非常迅速，當(dāng)沖突數(shù)量下降至大約15個時，適應(yīng)度表現(xiàn)出一定的波動（15～26個沖突），隨后沖突數(shù)量持續(xù)降低，最終收斂到一個合法的解決方案。對于標(biāo)準(zhǔn)圖DSJC125_5（包含17個頂點和17種顏色），從圖（c）可以看出，適應(yīng)度在開始階段快速提升，沖突數(shù)量下降到約10個左右，然后逐步減少，直到找到一個合法的解決方案。對于標(biāo)準(zhǔn)圖DSJC125_9（包含44個頂點和44種顏色），從圖（d）可以看出，適應(yīng)度同樣在初期迅速提高，沖突數(shù)量下降至5個左右，然后逐漸減少，最終找到一個合法的解決方案。通過這些實驗結(jié)果可以觀察到，不論圖的規(guī)模和復(fù)雜性如何，在初始階段，適應(yīng)度提升迅速，沖突數(shù)量快速減少，而后逐漸趨于穩(wěn)定，最終找到最優(yōu)或近似最優(yōu)的著色方案。這種趨勢表明強化學(xué)習(xí)算法能夠有效地通過學(xué)習(xí)過程快速逼近最優(yōu)解，并逐步收斂到合法解。

為了更好地理解實驗結(jié)果，圖4展示了多個圖實例中顏色組大小的均值及其95%置信區(qū)間（CI）。這些實例包括標(biāo)準(zhǔn)實例DSJC125.9、DSJC500.9以及隨機實例R125.5、R250.5、和R1000.5。其中橫坐標(biāo)表示不同的圖名稱，縱坐標(biāo)表示顏色組的均值。在已有相關(guān)研究中，算法評估指標(biāo)通常基于問題的最優(yōu)解值，即實現(xiàn)圖的合法著色所需的最小顏色數(shù)k。但目前為止，沒有一種算法可以使得DIMACS實例全部取得最優(yōu)值，此外，當(dāng)將k設(shè)置為略高于色數(shù)或當(dāng)前最知名結(jié)果的值，算法由于時間復(fù)雜度高而無法收斂。基于已有研究，本文評估算法性能指標(biāo)主要為實例的最優(yōu)解情況。

表1為RLS與Tabucol+、PLHEAD、PLSCOL、MEA-GCP、TensCol五種算法的實驗結(jié)果對比，其中instance為實例的名稱，c*表示已知的最小色數(shù)，c表示該算法求解的最小色數(shù)，suc（%）表示每個實例運行20次所得出的成功率，-表示相關(guān)算法未在實例上進行實驗。

在圖著色問題的研究中，算法的評估通常基于每個算法找到的最優(yōu)解，即實現(xiàn)圖的合法著色所需的最少顏色數(shù)。需要指出的是，目前的文獻中，包括最新算法在內(nèi)，沒有任何一種算法能夠在所有40個困難的DIMACS實例上取得最好的結(jié)果。實際上，即使是表現(xiàn)最優(yōu)的算法，也至少在某些實例上無法找到最優(yōu)解。這是可以理解的，因為這些實例已經(jīng)被研究了超過30年，其中一些最好的結(jié)果僅在特定條件下（例如，大量的運行時間，從幾天到一個月不等）通過少數(shù)幾種算法獲得。

此外，對于這些基準(zhǔn)圖而言，即使將目標(biāo)色數(shù)設(shè)定得略高于實際色數(shù)或當(dāng)前已知的最佳結(jié)果，找到一個合法著色也非常困難。換句話說，為這些圖找到改進的解是極其困難的，幾乎不太可能。因此，對于大多數(shù)基準(zhǔn)實例，能夠達到（或接近）當(dāng)前已知最佳結(jié)果的算法，就可以被視為是有前途的、具備先進水平的圖著色算法。

鑒于以上情況，在圖著色問題（以及其他難解的組合優(yōu)化問題）中，計算時間并不是評估算法性能的主要指標(biāo)。這也因為最先進的算法往往在不同的編程語言和計算平臺上運行，具有特定的停止條件（例如最大允許迭代次數(shù)、最大適應(yīng)度評估次數(shù)、截止時間等），在這些條件下，對同一圖會報告不同的結(jié)果。因此，當(dāng)時間信息被展示時，它通常僅作為一個參考指標(biāo)。基于這個原因，本文沒有將時間作為評判標(biāo)準(zhǔn)。

從表1可以看出RLS更具有優(yōu)勢，具體來說：

a）在最優(yōu)解方面（最優(yōu)解相同比較成功率）：PLHEAD在16個實例中獲得了1個比RLS算法更好的解，PLSCOL在22個實例中獲得了2個RLS算法更好的解，MEA_GCP在24個實例中獲得了2個比RLS算法更好的解，TensCol在22個實例中獲得了1個RLS算法更好的解，RLS在24個實例中有23個實例與其他5個算法的最優(yōu)解相同。

b）在求解成功率方面，PLHEAD在16個實例中獲得了1個比其他5個算法高的成功率，PLSCOL在22個實例中獲得了1個比其他5個算法更高的成功率，而RLS在24個實例中有21個實例與其他5個算法的最優(yōu)解的成功率相同。

總體來說，在不同類型和規(guī)模的圖結(jié)構(gòu)上，基于策略梯度的強化學(xué)習(xí)算法表現(xiàn)出較好的求解能力。與傳統(tǒng)啟發(fā)式方法相比，該算法在大多數(shù)測試用例中顯著減少了顏色沖突數(shù)，并有效降低了使用的顏色總數(shù)。在與各算法在多種數(shù)據(jù)集上的性能對比上，強化學(xué)習(xí)方法在稠密圖和復(fù)雜圖結(jié)構(gòu)上具有明顯的優(yōu)勢。在與現(xiàn)在主流方法的對比中，強化學(xué)習(xí)算法展示了更優(yōu)的解的質(zhì)量，特別是在大規(guī)模圖上表現(xiàn)出色。這主要源于以下幾個方面：a）直接優(yōu)化策略：基于策略梯度的方法通過直接優(yōu)化策略來選擇動作，能夠在每個狀態(tài)下選擇最優(yōu)的動作組合，以最小化顏色沖突和顏色使用數(shù)量，這種直接優(yōu)化策略的方法比傳統(tǒng)啟發(fā)式算法更具靈活性，能夠更好地適應(yīng)不同圖結(jié)構(gòu)的特點，并且具有更強的全局搜索能力；b）高效的探索與利用平衡：REINFORCE算法能夠有效地平衡探索（嘗試新的動作）和利用（選擇當(dāng)前已知的最佳動作），從而避免陷入局部最優(yōu)解，相比之下，傳統(tǒng)啟發(fā)式算法可能容易陷入局部最優(yōu)解，尤其是在圖的規(guī)模較大或者結(jié)構(gòu)較為復(fù)雜時。

然而，Tabucol+算法是一種改進的禁忌搜索算法，本質(zhì)上是一種局部搜索算法，依靠鄰域搜索來尋找更優(yōu)解。盡管引入了禁忌表來避免循環(huán)和重復(fù)，但它缺乏系統(tǒng)的全局搜索機制。因此，在處理大規(guī)模、復(fù)雜的圖著色問題時，禁忌搜索的全局搜索能力有限，容易錯過更優(yōu)的解。對于PLHEAD算法，通常使用啟發(fā)式規(guī)則來引導(dǎo)搜索過程，例如選擇節(jié)點著色的順序或處理沖突的方法。由于這些啟發(fā)式規(guī)則的有效性在很大程度上依賴于問題的具體結(jié)構(gòu)和性質(zhì)，當(dāng)處理不同類型的圖或具有復(fù)雜特征的圖時，這些規(guī)則可能表現(xiàn)不佳，導(dǎo)致算法性能下降。PLSCOL算法通過引入概率矩陣來改進禁忌搜索算法，從而用于解決圖著色問題。在 PLSCOL算法中，概率矩陣貫穿了著色過程的各個階段，包括初始著色、改進著色方案和更新概率矩陣。此外，還需要評估解之間的相互關(guān)系。這些操作都需要進行大量的計算，并且計算時間與圖的規(guī)模成正比。由于這些額外的步驟需要大量的時間，再加上禁忌搜索本身的時間開銷，PLSCOL的整體計算時間相對較長。MEA-GCP算法是一種膜進化算法，通過模擬細(xì)胞膜之間的信息傳遞和計算來解決問題，這使得算法需要管理多個膜結(jié)構(gòu)和規(guī)則。由于涉及多個個體和子群的并行計算，這種機制往往導(dǎo)致計算復(fù)雜度較高，尤其在大規(guī)模圖著色問題上，計算時間可能會顯著增加。對于TensCol算法將圖著色問題轉(zhuǎn)換為連續(xù)權(quán)值張量的優(yōu)化問題，作為一個通用框架，既適用于一般的圖著色問題，也可以用于解決ECP（equitable graph coloring problem，ECP）［23～25］，即在GCP的基礎(chǔ)上增加了每種顏色的頂點數(shù)量差不超過1的限制。由于該算法使用一個方法來同時解決這兩種問題，在計算全局損失函數(shù)時，為GCP執(zhí)行了一些不必要的計算步驟，導(dǎo)致了較高的時間消耗。

由于表1中各算法運行的實例數(shù)不同，表2給出了各算法獲得最優(yōu)解實例數(shù)的百分比。其中第1列為算法名稱，第2列為算法求解的最優(yōu)實例/求解的實例總數(shù)，第3列為算法求解出的最優(yōu)實例占比。從表2可以看出，RLS的最優(yōu)比例遠(yuǎn)高于其他算法。

4 結(jié)束語

綜上所述，本文提出了一種基于策略梯度的強化學(xué)習(xí)方法，用于解決復(fù)雜的圖著色問題。通過實驗驗證，該方法在多種類型和規(guī)模的圖結(jié)構(gòu)上表現(xiàn)優(yōu)異，顯著提高了解的質(zhì)量和收斂速度，相比傳統(tǒng)啟發(fā)式算法和現(xiàn)代圖神經(jīng)網(wǎng)絡(luò)方法展現(xiàn)出更高的解優(yōu)度和更快的收斂速度。盡管在訓(xùn)練時間和計算復(fù)雜度上仍面臨一定的挑戰(zhàn)，但該方法的適應(yīng)性和擴展性顯示出其在實際應(yīng)用中的巨大潛力。未來的研究將側(cè)重于以下幾個方向，以進一步提高算法的效率和泛化能力：a）引入更多的圖特征信息，利用更復(fù)雜的圖神經(jīng)網(wǎng)絡(luò)模型來增強策略網(wǎng)絡(luò)的表達能力，更精確地捕捉圖結(jié)構(gòu)的特征；b）探索基于元學(xué)習(xí)的強化學(xué)習(xí)方法，通過利用歷史圖實例中的學(xué)習(xí)經(jīng)驗，提升算法的泛化能力和快速適應(yīng)性，使其能夠更有效地應(yīng)對不同類型的圖著色問題;c）結(jié)合遷移學(xué)習(xí)技術(shù)，在相似的圖實例之間共享學(xué)習(xí)經(jīng)驗，減少訓(xùn)練時間和成本，提高算法在新圖實例上的性能。總體而言，本研究為圖著色問題的求解提供了一種新的思路和方法，為今后在該領(lǐng)域的進一步探索打下了基礎(chǔ)。

參考文獻：

［1］Mahmood A， Mat K M L， Reza Z M， et al. Capacity and frequency optimization of wireless backhaul network using traffic forecasting ［J］. IEEE Access， 2020， 8： 23264-23276.

［2］Sharma N， Kumar K. Resource allocation trends for ultra dense networks in 5G and beyond networks：a classification and comprehensive survey ［J］. Physical Communication， 2021， 48： 101415.

［3］Xu Jie， Wang Heqiang， Chen Lixing. Bandwidth allocation for multiple federated learning services in wireless edge networks ［J］. IEEE Trans on Wireless Communications， 2021， 21（4）： 2534-2546.

［4］Gupta S， Iyer S， Agarwal G，et al. Efficient prioritization and processor selection schemes for HEFT algorithm： a makespan optimizer for task scheduling in cloud environment ［J］. Electronics， 2022， 11（16）： 2557.

［5］Li Jie， Goerlandt F， Reniers G. An overview of scientometric mapping for the safety science community： methods， tools， and framework ［J］. Safety Science， 2021， 134： 105093.

［6］Tian Ye， Zhang Yajie， Su Yansen， et al. Balancing objective optimization and constraint satisfaction in constrained evolutionary multiobjective optimization ［J］. IEEE Trans on Cybernetics， 2022， 52（9）： 9559-9572.

［7］He Feng， Ye Qing. A bearing fault diagnosis method based on wavelet packet transform and convolutional neural network optimized by simulated annealing algorithm ［J］. Sensors， 2022， 22（4）： 1410.

［8］Ghannadi P， Kourehli S S， Mirjalili S. A review of the application of the simulated annealing algorithm in structural health monitoring （1995-2021）［J］. FratturaEd Integrità Strutturale， 2023， 17（64）： 51-76.

［9］Wang Zhanping， Tian Juncang， Feng Kepeng. Optimal allocation of regional water resources based on simulated annealing particle swarm optimization algorithm ［J］. Energy Reports， 2022， 8： 9119-9126.

［10］Alhijawi B， Awajan A. Genetic algorithms：theory， genetic operators， solutions， and applications ［J］. Evolutionary Intelligence， 2024， 17（3）： 1245-1256.

［11］Katoch S， Chauhan S S， Kumar V. A review on genetic algorithm： past， present， and future ［J］. Multimedia Tools and Applications， 2021， 80（5）： 8091-8126.

［12］Gen M， LinLin. Genetic algorithms and their applications［M］//Springer Handbook of Engineering Statistics. London： Springer， 2023： 635-674.

［13］He Pengfei， Hao Jinkao. Iterated two-phase local search for the co-lored traveling salesmen problem ［J］. Engineering Applications of Artificial Intelligence， 2021， 97： 104018.

［14］Ahmed R， Rangaiah G P， Mahadzir S，et al. Memory， evolutionary operator， and local search based improved grey wolf optimizer with linear population size reduction technique ［J］. Knowledge-Based Systems， 2023， 264： 110297.

［15］Viana M S， Junior O M， Contreras R C. A modified genetic algorithm with local search strategies and multi-crossover operator for job shop scheduling problem ［J］. Sensors， 2020， 20（18）： 5440.

［16］Dokeroglu T， Sevinc E. Memetic teaching-learning-based optimization algorithms for large graph coloring problems ［J］. Engineering Applications of Artificial Intelligence， 2021， 102： 104282.

［17］Xu Yongjian， Cheng Huabin， Xu Ning， et al. A distribution evolutionary algorithm for the graph coloring problem ［J］. Swarm and Evolutionary Computation， 2023， 80： 101324.

［18］Goudet O， Duval B， Hao Jinkao. Population-based gradient descent weight learning for graph coloring problems ［J］. Knowledge-Based Systems， 2021， 212： 106581.

［19］汪建昌，王碩，李壯，等. 圖著色問題禁忌搜索改進算法［J］. 計算機科學(xué)， 2022， 49（S2）： 94-98. （Wang Jianchang， Wang Shuo， Li Zhuang， et al. An improved tabu search algorithm for graph coloring problem ［J］. Computer Science， 2022， 49（S2）： 94-98.）

［20］呂恒. 解決圖著色問題的膜進化算法研究［D］. 重慶：重慶大學(xué)， 2022. （Lyu Heng. Research on membrane evolution algorithm for solving graph coloring problem［D］. Chongqing： Chongqing University， 2022.）

［21］Zhou Yangming， Duval B， Hao Jinkao. Improving probability lear-ning based local search for graph coloring ［J］. Applied Soft Computing， 2018， 65： 542-553.

［22］郭平，郭賓. 解決圖著色問題的膜進化算法［J］. 重慶大學(xué)學(xué)報， 2023， 46（7）： 23-35. （Guo Ping， Guo Bin. A membrane evolutionary algorithm for solving graph coloring problem ［J］. Journal of Chongqing University， 2023， 46（7）： 23-35.）

［23］Liang Zuosong， Wang Juan， Cai Junqing， et al. On the complexity of local-equitable coloring of graphs ［J］. Theoretical Computer Science， 2022， 906： 76-82.

［24］Niu Bei， Li Bi， Zhang Xin. Hardness and algorithms of equitable tree-coloring problem in chordal graphs ［J］. Theoretical Computer Science， 2021， 857： 8-15.

［25］Furmańczyk H， Mkrtchyan V. Graph theoretic and algorithmic aspect of the equitable coloring problem in block graphs ［J/OL］. Discrete Mathematics amp; Theoretical Computer Science， 2022， 23（2）. （2022-11-04）. http：//doi.org/10.46298/dmtcs.6860.

計算機應(yīng)用研究2025年4期

計算機應(yīng)用研究的其它文章: 基于多模態(tài)特征融合的場景文本識別; 基于關(guān)節(jié)結(jié)構(gòu)依賴的三維人體姿態(tài)估計與優(yōu)化策略; 面向隱私保護的無鏡頭成像坐姿識別技術(shù); 聯(lián)合邊緣特征的物流駕駛員危險行為識別; 基于圖像-文本大模型CLIP微調(diào)的零樣本參考圖像分割; ASGC-STT：基于自適應(yīng)空間圖卷積和時空Transformer的人體行為識別