一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制

2025-09-02 00:00:00達(dá)吾列·金恩斯別克王軼周喜王曉博

計(jì)算機(jī)應(yīng)用研究 2025年8期

關(guān)鍵詞：聯(lián)邦學(xué)習(xí)；激勵(lì)機(jī)制；多智能體強(qiáng)化學(xué)習(xí)；數(shù)據(jù)新鮮度

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2025）08-033-2497-06

doi：10.19734/j.issn.1001-3695.2025.01.0012

Dynamic incentive mechanism for federated learning incorporating data freshness

Dawulie Jinensibieke ^1，2，3 ，Wang Yi ^1，2，3 ， Zhou Xi ^1，2，3 ，Wang Xiaobo ^1，2，3? （1.XinjiangTclsefiamp;strecdefec，Uu1Uesitde fSciences，Bino9，ina；.XinjangLbotoryfnoritySpechamp;LangugeInfomationProcessng，Uruq301，ina）

Abstract：Inmulti-roundfederated learning，thetrainingenvironmentisconstantlychanging.Incentive mechanismsbasedon multi-agentreinforcementlearning（MARL）canbeteradapttodynamicenvironmentsbydynamicallyadjustingdatacontributionstrategies.Existing MARL-basedmechanismsoftenfocusondataquantity，neglectingdatafreshness，whichleadstoicomplete contribution evaluationand limits modelperformance.Thispaper proposed a dynamic incentive mechanismfor federated learning incorporatingdatafreshness.Itintroduceddata freshnessmetricsand benefit evaluationmethods tomorecompreensivelyassesscontributions.Themechanismemployedacentralizedtraining withdecentralizedexecutionMARLframeworkto addresscoordinationissues，maximizingoverallbenefits.Experimentalresultsshowthattheproposedmethodimprovesoveal benefitsby approximately 11.1% to 25.0% across five public datasets.Comparative and ablation experiments further validate the fairness and effectiveness of the method under varying data quality conditions.

KeyWords：federated learning；incentivemechanism；multi-agent reinforcement learning；data freshness

0 引言

聯(lián)邦學(xué)習(xí)（federatedlearning，F(xiàn)L）技術(shù)允許多個(gè)參與方在無須共享原始數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型，有效解決了多方模型訓(xùn)練過程中的隱私和安全問題[1]。盡管聯(lián)邦學(xué)習(xí)被視為保護(hù)數(shù)據(jù)隱私的有效方法，但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)。其中，如何激勵(lì)參與方積極貢獻(xiàn)其數(shù)據(jù)和計(jì)算資源是一個(gè)重要難題[2.3]。由于每個(gè)參與方需要提供本地?cái)?shù)據(jù)、投入計(jì)算資源并承擔(dān)通信成本，當(dāng)預(yù)期的直接收益不明顯時(shí)，部分?jǐn)?shù)據(jù)所有者可能對積極參與模型訓(xùn)練持謹(jǐn)慎態(tài)度[4.5]，這種保守態(tài)度可能影響聯(lián)邦學(xué)習(xí)模型的整體性能。因此，設(shè)計(jì)有效的激勵(lì)機(jī)制尤為重要。而在實(shí)際應(yīng)用中，參與聯(lián)邦學(xué)習(xí)的各參與方的訓(xùn)練過程呈現(xiàn)出動(dòng)態(tài)變化，模型的準(zhǔn)確性和各參與方的數(shù)據(jù)貢獻(xiàn)量隨著時(shí)間不斷波動(dòng)。因此，研究人員逐漸將注意力轉(zhuǎn)向不使用固定規(guī)則的方法。強(qiáng)化學(xué)習(xí)被認(rèn)為是解決此類問題的一種有效方法。基于多智能體強(qiáng)化學(xué)習(xí)的激勵(lì)機(jī)制通過動(dòng)態(tài)調(diào)整激勵(lì)策略，從博弈歷史中推導(dǎo)出近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略[6。在此框架下，每個(gè)參與方被視為一個(gè)智能體（agent），根據(jù)其數(shù)據(jù)貢獻(xiàn)、通信開銷、計(jì)算開銷和全局模型準(zhǔn)確率等因素，動(dòng)態(tài)調(diào)整參與訓(xùn)練的數(shù)據(jù)量以最大化整體收益。這種機(jī)制使聯(lián)邦學(xué)習(xí)的激勵(lì)策略能夠更好地適應(yīng)動(dòng)態(tài)環(huán)境。

現(xiàn)有的激勵(lì)機(jī)制在動(dòng)態(tài)策略調(diào)整過程中，主要通過參與方貢獻(xiàn)的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷及訓(xùn)練收益來評估其貢獻(xiàn)，忽視了數(shù)據(jù)新鮮度（datafreshness）從而導(dǎo)致評估的不全面。具體來說，即使某一參與方在每輪中貢獻(xiàn)的數(shù)據(jù)新鮮度較低，或者與之前的貢獻(xiàn)數(shù)據(jù)完全相同，現(xiàn)有機(jī)制仍會(huì)為其提供相同的獎(jiǎng)勵(lì)。這種做法會(huì)激勵(lì)參與方繼續(xù)貢獻(xiàn)質(zhì)量較低的數(shù)據(jù)，進(jìn)而影響強(qiáng)化學(xué)習(xí)的效果，限制聯(lián)邦學(xué)習(xí)全局模型的訓(xùn)練精度。由于數(shù)據(jù)新鮮度或數(shù)據(jù)質(zhì)量對提高模型的準(zhǔn)確性和泛化能力具有重要影響[7.8]，最終可能導(dǎo)致整體收益的下降。

為解決上述問題，本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制（dynamicincentivemechanismforfederatedlearningincorporatingdatafreshness，DIMFL-DF）。該機(jī)制設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊，在評估參與方的數(shù)據(jù)貢獻(xiàn)時(shí)，將每輪貢獻(xiàn)數(shù)據(jù)的新鮮度納入強(qiáng)化學(xué)習(xí)的收益函數(shù)中，實(shí)現(xiàn)了對參與方數(shù)據(jù)貢獻(xiàn)更加全面的衡量。通過融合數(shù)據(jù)新鮮度，本文方法增加了貢獻(xiàn)評估的維度，使得在強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)調(diào)整過程中，反饋更加全面和精準(zhǔn)，從而優(yōu)化了動(dòng)態(tài)調(diào)整效果。數(shù)據(jù)新鮮度直接關(guān)系到數(shù)據(jù)質(zhì)量，及時(shí)更新的數(shù)據(jù)能顯著提高模型的訓(xùn)練效果，有效提高了聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的整體收益。這一方法不僅提升了聯(lián)邦學(xué)習(xí)的整體收益，還激勵(lì)數(shù)據(jù)質(zhì)量較高的參與方貢獻(xiàn)更多數(shù)據(jù)，確保參與模型訓(xùn)練的數(shù)據(jù)在多樣性和質(zhì)量方面均得到保障。此外，該機(jī)制采用了集中式訓(xùn)練與分布式執(zhí)行（centralized trainingwithdecentralized execution，CTDE）的多智能體強(qiáng)化學(xué)習(xí)算法[9，有效避免了由于智能體間缺乏協(xié)調(diào)而導(dǎo)致的“懶惰智能體”問題。

1相關(guān)工作

1.1基于固定規(guī)則的激勵(lì)機(jī)制

基于固定規(guī)則的激勵(lì)機(jī)制主要依賴經(jīng)典的理論模型，包括Stackelberg博弈、拍賣理論和契約理論等。這些方法在設(shè)計(jì)時(shí)通過明確定義規(guī)則和目標(biāo)，利用優(yōu)化數(shù)學(xué)模型來激勵(lì)參與者貢獻(xiàn)資源和數(shù)據(jù)。Stackelberg博弈通過多輪博弈實(shí)現(xiàn)動(dòng)態(tài)調(diào)整，領(lǐng)導(dǎo)者（全局模型所有者）可逐步調(diào)整支付策略或節(jié)點(diǎn)選擇，以響應(yīng)追隨者（參與方）的反饋，動(dòng)態(tài)調(diào)整參與方的資源貢獻(xiàn)[10-12]。拍賣理論在激勵(lì)機(jī)制中用于資源定價(jià)、任務(wù)分配和節(jié)點(diǎn)選擇，系統(tǒng)包括拍賣者和競標(biāo)者，有效實(shí)現(xiàn)了資源動(dòng)態(tài)分配和激勵(lì)[13-15]。契約理論解決任務(wù)發(fā)布者與參與者的信息不對稱，通過為不同數(shù)據(jù)質(zhì)量的參與者設(shè)計(jì)分級激勵(lì)合同分配相應(yīng)獎(jiǎng)勵(lì)資源，提升了參與質(zhì)量和公平性[2.16.17]。

上述方法的共同特點(diǎn)在于其規(guī)則通常在設(shè)計(jì)時(shí)即預(yù)先設(shè)定，例如，Stackelberg博弈中的支付函數(shù)、拍賣機(jī)制中的競價(jià)規(guī)則以及契約理論中的合同條款都是固定的。這種固定性賦予了機(jī)制較高的穩(wěn)定性，但在面對參與者行為的變化或外部環(huán)境動(dòng)態(tài)變化時(shí)，其靈活性和適應(yīng)性不足。

1.2基于強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制

強(qiáng)化學(xué)習(xí)[18是一種通過與環(huán)境持續(xù)交互和學(xué)習(xí)，不斷優(yōu)化決策過程的動(dòng)態(tài)方法。艾秋媛等人[提出了基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制設(shè)計(jì)，體現(xiàn)了強(qiáng)化學(xué)習(xí)能夠在復(fù)雜且不確定的聯(lián)邦學(xué)習(xí)場景中，靈活適應(yīng)變化并實(shí)現(xiàn)優(yōu)化自標(biāo)而無須預(yù)先設(shè)定固定規(guī)則。王鑫等人[19指出，多智能體強(qiáng)化學(xué)習(xí)是自適應(yīng)激勵(lì)機(jī)制領(lǐng)域中的一種有效方法。Zhan等人[20]提出了基于強(qiáng)化學(xué)習(xí)的邊緣計(jì)算卸載博弈，使參與方能夠獨(dú)立選擇卸載決策，解決了參與方不愿暴露自身網(wǎng)絡(luò)帶寬和偏好信息的挑戰(zhàn)。該方法在缺乏這些信息的情況下，通過部分可觀測馬爾可夫決策過程和基于策略梯度的Actor-Critic強(qiáng)化學(xué)習(xí)方法求解。Yuan等人[21提出了一種工業(yè)物聯(lián)網(wǎng)跨孤島聯(lián)邦學(xué)習(xí)自適應(yīng)激勵(lì)機(jī)制，旨在動(dòng)態(tài)訓(xùn)練環(huán)境中激勵(lì)組織貢獻(xiàn)數(shù)據(jù)資源，最大化其長期收益。該機(jī)制利用多智能體強(qiáng)化學(xué)習(xí)，從博弈歷史中學(xué)習(xí)近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略，無須私密的組織信息或精確的準(zhǔn)確性函數(shù)。

盡管上述方法展示了強(qiáng)化學(xué)習(xí)在聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制中的顯著優(yōu)勢，但它們主要側(cè)重于參與方的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷以及訓(xùn)練收益貢獻(xiàn)，忽視了數(shù)據(jù)的新鮮度。數(shù)據(jù)的新鮮度直接影響全局模型的訓(xùn)練效果，因此，在強(qiáng)化學(xué)習(xí)框架下，如何綜合考慮數(shù)據(jù)的新鮮度和數(shù)據(jù)量，成為提升激勵(lì)機(jī)制有效性和適應(yīng)性的關(guān)鍵問題。

2 背景知識(shí)

2.1 多智能體強(qiáng)化學(xué)習(xí)

多智能體強(qiáng)化學(xué)習(xí)（multi-agentreinforcement learning，MARL）是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支，研究多個(gè)智能體在共享環(huán)境中通過交互學(xué)習(xí)最優(yōu)策略的問題[22.23]。在聯(lián)邦學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制中，每個(gè)參與方可以視為一個(gè)智能體，彼此之間通過協(xié)同與競爭共同影響全局模型的訓(xùn)練效果。

在MARL框架中，每個(gè)智能體 i 擁有自己的策略 π_i（a_i|s），表示在狀態(tài) s 下選擇動(dòng)作 a_i 的概率分布。環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)取決于所有智能體的聯(lián)合動(dòng)作 a=（a₁，a₂，…，a_N）其中 N 是智能體的數(shù)量。因此，聯(lián)邦學(xué)習(xí)中的激勵(lì)機(jī)制設(shè)計(jì)需要考慮所有參與方策略的組合，以優(yōu)化整體收益和模型性能。每個(gè)智能體的目標(biāo)是最大化其期望累積回報(bào)，即

其中： γ 是折扣因子，衡量未來獎(jiǎng)勵(lì)的重要性； r_i^t 是智能體 i 在時(shí)間 χ_t 獲得的即時(shí)獎(jiǎng)勵(lì)。

2.2 部分可觀測馬爾可夫決策

部分可觀測馬爾可夫決策過程（partiallyobservableMarkovdecisionprocess，POMDP）用于處理智能體在環(huán)境狀態(tài)無法完全觀測的情況下的決策問題[24.25]。在多智能體強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中，各參與方的數(shù)據(jù)和狀態(tài)信息是保密的，智能體無法直接共享或完全觀測到其他參與方的行為。這種信息的不完全性使得激勵(lì)機(jī)制的設(shè)計(jì)面臨挑戰(zhàn)，因?yàn)橹悄荏w需要基于有限的觀測信息和歷史數(shù)據(jù)來估計(jì)全局狀態(tài)，從而制定最優(yōu)策略。引入POMDP框架能夠幫助設(shè)計(jì)更加魯棒的激勵(lì)機(jī)制，通過考慮觀測的不確定性和動(dòng)態(tài)變化來提升機(jī)制在復(fù)雜環(huán)境中的適應(yīng)性和有效性。

3融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制

3.1整體框架

本文提出的融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制（DIMFL-DF）基于多智能體強(qiáng)化學(xué)習(xí)方法，將每個(gè)聯(lián)邦學(xué)習(xí)的參與方視為一個(gè)獨(dú)立的智能體。在每一輪訓(xùn)練過程中，智能體通過觀察環(huán)境狀態(tài)（包括通信開銷、計(jì)算開銷、模型收益以及數(shù)據(jù)新鮮度等指標(biāo)）制定旨在最大化自身收益的策略。具體而言，智能體根據(jù)當(dāng)前環(huán)境狀況決定在本輪訓(xùn)練中貢獻(xiàn)多少本地?cái)?shù)據(jù)。

如圖1所示，該激勵(lì)機(jī)制主要由多智能體強(qiáng)化學(xué)習(xí)框架構(gòu)成。每個(gè)參與方作為一個(gè)智能體，智能體根據(jù)觀察到的環(huán)境狀態(tài)進(jìn)行決策，確定本輪的數(shù)據(jù)貢獻(xiàn)量；評論家網(wǎng)絡(luò)則基于全局信息對所有智能體的決策進(jìn)行評估，并為智能體提供反饋，以優(yōu)化其策略。采用集中式訓(xùn)練與分布式執(zhí)行（CTDE）的策略，在訓(xùn)練階段，評論家網(wǎng)絡(luò)利用全局信息對各智能體的行為進(jìn)行評估和指導(dǎo)，促進(jìn)智能體之間的協(xié)調(diào)與合作；在執(zhí)行階段，各智能體根據(jù)自身策略獨(dú)立決策，無須依賴全局信息，從而實(shí)現(xiàn)高效的分布式操作。

環(huán)境接收所有智能體的決策 {a_n^t}_n∈[1，N] ，輸出全局狀態(tài)s^t 、聯(lián)合動(dòng)作 a^t 以及所有智能體共享的獎(jiǎng)勵(lì) r^t 。評論家網(wǎng)絡(luò)在訓(xùn)練階段根據(jù)環(huán)境的全局狀態(tài) s^t 與聯(lián)合動(dòng)作 a^t ，輸出狀態(tài)值函數(shù)或動(dòng)作值函數(shù)，用于計(jì)算優(yōu)勢函數(shù)并得出價(jià)值估計(jì)，從而指導(dǎo)策略優(yōu)化。值得注意的是，評論家網(wǎng)絡(luò)僅在訓(xùn)練階段發(fā)揮作用；在執(zhí)行階段，智能體僅依據(jù)局部觀測進(jìn)行決策。

圖1融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制架構(gòu) Fig.1Architecture of the dynamic incentive mechanism for federatedlearning incorporatingdata freshness

如圖2所示，智能體包含演員網(wǎng)絡(luò)、數(shù)據(jù)新鮮度度量模塊回放緩存器及策略優(yōu)化器。在智能體中，環(huán)境的局部觀測首先被傳遞至回放緩存器，用于存儲(chǔ)歷史狀態(tài)。隨后，數(shù)據(jù)新鮮度度量模塊基于存儲(chǔ)的歷史數(shù)據(jù)計(jì)算當(dāng)前數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異，得出數(shù)據(jù)新鮮度值，并將其納入收益函數(shù)中。接著，策略優(yōu)化器綜合考慮評論家網(wǎng)絡(luò)提供的價(jià)值評估、收益函數(shù)以及局部觀測信息，計(jì)算策略梯度并傳遞給演員網(wǎng)絡(luò)。最終，演員網(wǎng)絡(luò)根據(jù)接收到的策略梯度生成本輪的策略動(dòng)作。

圖2智能體內(nèi)部結(jié)構(gòu) Fig.2Internal structure of the agent

各參與方在本地模型訓(xùn)練完成后，每個(gè)參與方將更新參數(shù)的本地模型參數(shù)并上傳到參數(shù)服務(wù)器進(jìn)行聚合，聚合成全局模型。最后，將最新的全局模型分發(fā)給各參與方。重復(fù)以上步驟，直到完成預(yù)設(shè)指標(biāo)。

3.2 任務(wù)定義

聯(lián)邦學(xué)習(xí)系統(tǒng)由1個(gè)參數(shù)服務(wù)器和 n 個(gè)參與方構(gòu)成，參與方集合表示為 {1，2，…，N} ，訓(xùn)練過程被離散化為多個(gè)輪次 {0 1，…，T-1} 的訓(xùn)練。在訓(xùn)練輪次 t，t∈[0，T-1] ，參與方 o_n n∈[1，N] 將選擇本地?cái)?shù)據(jù)集 S_n^t 中的一部分?jǐn)?shù)據(jù)集 d_n^t 參與本地模型訓(xùn)練。其中表示參與方 o_n 在 χ_t 輪訓(xùn)練過程中的本地?cái)?shù)據(jù)集。

本文將系統(tǒng)表述為一個(gè)部分可觀測馬爾可夫決策過程，即M?S，A，P，Z，R，γ? 。其中， S={S_n}_n∈[1，N] 為狀態(tài)空間; A= 為動(dòng)作空間; P={S_n×A×S_n?[0 表示狀態(tài)轉(zhuǎn)移概率函數(shù)集合； Z={Z_n= {z_n^t}_{t∈[0，T-1]}}_n∈[1，N] 是觀察空間，為參與方 o_n 在輪次 χ_t 在 [t-H，t-1] 時(shí)間段的觀察集合， ?h_n^k={c_-n^k，H_n^k，T_n^k （20|A^k} 表示參與方 o_n 在輪次 k 的觀察; R={{R_n^t （ c_n^t （204號作為獎(jiǎng)勵(lì)空間； γ 為折扣因子，決定對更遠(yuǎn)距離獎(jiǎng)勵(lì)的權(quán)重。

數(shù)據(jù)新鮮度被定義為參與方貢獻(xiàn)的數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異性。具體來說，數(shù)據(jù)新鮮度用于衡量每個(gè)參與方在每一輪訓(xùn)練中所提供的數(shù)據(jù)集與其歷史數(shù)據(jù)集的相似程度，較大的差異表明數(shù)據(jù)較為新鮮，較小的差異則表明數(shù)據(jù)重復(fù)性較高。

3.3數(shù)據(jù)新鮮度度量

在聯(lián)邦學(xué)習(xí)中，參與方貢獻(xiàn)數(shù)據(jù)的新鮮度和數(shù)據(jù)質(zhì)量對全局模型的性能有著直接的影響。為了在收益函數(shù)中準(zhǔn)確反映參與方的數(shù)據(jù)貢獻(xiàn)質(zhì)量，并防止惡意參與方通過重復(fù)使用相同的數(shù)據(jù)來獲取不公平的高收益，本文設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊。該模塊旨在評估每個(gè)參與方在每一輪的訓(xùn)練數(shù)據(jù)與其歷史訓(xùn)練數(shù)據(jù)之間的差異性，鼓勵(lì)參與方持續(xù)提供新穎、高質(zhì)量的數(shù)據(jù)。如圖3所示，模塊通過量化參與方當(dāng)前的訓(xùn)練數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異度，將數(shù)據(jù)質(zhì)量納入收益函數(shù)中。這意味著當(dāng)參與方在新一輪訓(xùn)練中的訓(xùn)練數(shù)據(jù)與之前的歷史數(shù)據(jù)差異較大時(shí)，其指標(biāo)值會(huì)提高，從而在收益函數(shù)中獲得更大的獎(jiǎng)勵(lì)。這種設(shè)計(jì)不僅提升了數(shù)據(jù)的價(jià)值和質(zhì)量，同時(shí)也在訓(xùn)練過程中有助于增強(qiáng)模型的準(zhǔn)確率和泛化能力。具體步驟如下：

a）特征提取。對參與方 n 在第 χ_t 輪使用的訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取，得到特征向量 ν_n^t 。從參與方 n 的歷史數(shù)據(jù)集d_n^1：t-1 中隨機(jī)抽取與 d_n^t 大小相同的子集，然后對該子集進(jìn)行特征提取，得到特征向量

b）計(jì)算相似度。利用相似度衡量當(dāng)前訓(xùn)練數(shù)據(jù)集與隨機(jī)抽取后的歷史數(shù)據(jù)集的相似性：

c）計(jì)算數(shù)據(jù)新鮮度。根據(jù)數(shù)據(jù)相似度計(jì)算出數(shù)據(jù)新鮮度 P_n^t ·

圖3數(shù)據(jù)新鮮度度量模塊Fig.3Data freshness measurement module

當(dāng)本輪的訓(xùn)練數(shù)據(jù)集與裁剪后的歷史數(shù)據(jù)集完全不同（即數(shù)據(jù)相似度為0）時(shí)，數(shù)據(jù)新鮮度 P_n^t=1 ；當(dāng)兩者完全相同時(shí)，數(shù)據(jù)新鮮度 P_n^t=0 ;數(shù)據(jù)新鮮度 P_n^t 在[0，1]間，即表示本輪參與訓(xùn)練的數(shù)據(jù)與歷史數(shù)據(jù)的差異度。

如式（2）（3）所示，數(shù)據(jù)相似度用于度量兩個(gè)數(shù)據(jù)集之間的相似性程度，數(shù)據(jù)新鮮度通過對數(shù)據(jù)相似度進(jìn)行轉(zhuǎn)換，反映了本輪上傳數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異性和新穎性。此模塊最終輸出數(shù)據(jù)新鮮度值 P_n^t n （24號

3.4 收益函數(shù)設(shè)計(jì)

在這一節(jié)中，本文量化了策略貢獻(xiàn)、訓(xùn)練開銷、通信開銷、回報(bào)機(jī)制以及收益函數(shù)。

訓(xùn)練過程中， c_n^t 為參與方 o_n 在 χ_t 輪次參與本地訓(xùn)練的數(shù)據(jù)貢獻(xiàn)，作為參與方的策略，其表達(dá)式為 c_n^t=∣d_n^t∣/∣S_n^t∣;c_-n^t= {c_j^t}_{j∈{1，2，…，N}，j≠n} 表示在 Φ_t 輪次除了參與方 O_n 的其余所有參與方的數(shù)據(jù)貢獻(xiàn)； r_n 表示參與方 O_n 從全局模型中獲得的利潤；為在 χ_t 輪次的全局模型的準(zhǔn)確率，為參與方 o_n 在 Ψ_t 輪次所獲得的訓(xùn)練收益；訓(xùn)練開銷和通信開銷表示為 H_n^t=k_nc_n^t∣S_n^t 和 T_n^t ，其中 k_n 為單位數(shù)據(jù)的訓(xùn)練成本。在收益函數(shù)的設(shè)計(jì)中，本文加人了數(shù)據(jù)新鮮度 P_n^t ，其目的是量化每個(gè)參與方在每一輪聯(lián)邦學(xué)習(xí)中所使用的訓(xùn)練數(shù)據(jù)的差異性。

基于上述描述，本文設(shè)計(jì)了一個(gè)符合激勵(lì)機(jī)制和強(qiáng)化學(xué)習(xí)框架的收益函數(shù) R_n^t ，通過結(jié)合參與方的貢獻(xiàn)、收益以及開銷，有效地量化并獎(jiǎng)勵(lì)在每一輪聯(lián)邦學(xué)習(xí)過程中對模型有實(shí)際貢獻(xiàn)的參與方。表達(dá)式如下：

其中： λ 是調(diào)節(jié)數(shù)據(jù)新鮮度在收益函數(shù)中的影響因子。

3.5 算法設(shè)計(jì)

在多智能體強(qiáng)化學(xué)習(xí)的決策過程中，每個(gè)智能體的演員網(wǎng)絡(luò)（actornetwork）基于自身的觀察作出決策，而所有智能體共享一個(gè)評論家網(wǎng)絡(luò)（criticnetwork），評論家網(wǎng)絡(luò)根據(jù)全局信息評估每個(gè)智能體的決策效果，從而指導(dǎo)策略的優(yōu)化。算法訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)：參數(shù)為 θ 的演員網(wǎng)絡(luò)和參數(shù)為 ω 的評論家網(wǎng)絡(luò)（價(jià)值函數(shù)網(wǎng)絡(luò)）。智能體的策略梯度更新公式如下：

其中： ?A_n（s^t，a^t）是聯(lián)合優(yōu)勢函數(shù)的估計(jì)，表示當(dāng)前動(dòng)作相較于基準(zhǔn)策略的改進(jìn)幅度 ;f（R_n^t（c_n^t，c_-n^t），A_n（s^t，a^t）是策略梯度的目標(biāo)函數(shù)，用于優(yōu)化策略參數(shù)。智能體的優(yōu)勢函數(shù)描述了當(dāng)前采取某一動(dòng)作的收益相對于平均基準(zhǔn)收益的優(yōu)勢，即

其中： B（s^t，a_-n^t）是反事實(shí)基線[26]，用于減少策略梯度中的方差；是動(dòng)作價(jià)值函數(shù) Q^πold（s^t，a^t）的估計(jì)，動(dòng)作價(jià)值函數(shù)估計(jì)了在狀態(tài) s^t 下執(zhí)行動(dòng)作 a^t 后未來的累計(jì)獎(jiǎng)勵(lì)期望。智能體的動(dòng)作值函數(shù)如下：

其中： Q_ωn（s^t，a^t）是目標(biāo)評論家； δ 為時(shí)間延遲誤差； γ 為折扣因子； ε 用于平衡偏差和方差的參數(shù)。

通過優(yōu)勢函數(shù)，可以進(jìn)一步構(gòu)造出評論家網(wǎng)絡(luò)的梯度更新公式，該公式通過最小化動(dòng)作值函數(shù)的誤差來優(yōu)化評論家網(wǎng)絡(luò)的參數(shù)，使其更準(zhǔn)確地評估每個(gè)智能體的決策，即

算法動(dòng)態(tài)策略算法

輸人：智能體的觀察狀態(tài)。

輸出：智能體的數(shù)據(jù)貢獻(xiàn)策略。

初始化評論家網(wǎng)絡(luò) Q_ωn ，演員網(wǎng)絡(luò) π_n 。

初始化當(dāng)前策略 π_n^old ，目標(biāo)評論家 Q_ωn 。

創(chuàng)建緩沖區(qū) D

for i=1 to L dos= initiate_state;forepisode t=1 to T do智能體 n 根據(jù) π_n^old（a_n^t∣z_n^t）執(zhí)行動(dòng)作 a_n^t 在環(huán)境中執(zhí)行聯(lián)合動(dòng)作 {a_n^t}_n=1^N ：獲取獎(jiǎng)勵(lì) R_n^t 和下一個(gè)狀態(tài) s^t+1 ：end for智能體 n 獲取軌跡 τ_n={z_n^t，a_n^t，R_n^t}Π_t=1^T ：

由式（7）計(jì)算：

由式（6）計(jì)算優(yōu)勢函數(shù) {A_n（s^t，a^t）}_t=1^T ：

將存人 D

for k=1 to K do隨機(jī)重排 D 中的數(shù)據(jù)；for n=1 to N do由式（5）計(jì)算出 Δθ_n ：由式（8）計(jì)算出 Δω_n 對 θ_n 進(jìn)行梯度上升，更新 Δθ_n ：對 ω_n 進(jìn)行梯度下降，更新 Δω_n ：end forend for對每個(gè)智能體，更新（20清空緩沖區(qū) D

end for

上述算法為動(dòng)態(tài)策略算法，其參考和借鑒了多智能體近端策略優(yōu)化算法。時(shí)間復(fù)雜度為 O（N?L?K），空間復(fù)雜度為O（N?K）。其中： N 為智能體數(shù)量； L 為策略更新次數(shù)； K 為每次更新使用的樣本數(shù)量。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

所有實(shí)驗(yàn)在一臺(tái)配備8塊24GBNVIDIAGeForce顯卡（驅(qū)動(dòng)版本515.43.04，CUDA版本11.7）的服務(wù)器上進(jìn)行，實(shí)驗(yàn)代碼使用Python3.8.7編寫，運(yùn)行于Ubuntu系統(tǒng)。聯(lián)邦學(xué)習(xí)框架中，各參與方的本地模型均采用ResNet18[27]。為了驗(yàn)證所提方法的有效性，選擇了五個(gè)具有代表性的公開數(shù)據(jù)集（表1）：MNIST、F-MNIST、CIFAR-1O、SVHN和EuroSAT，并與四種現(xiàn)有方法（MPGD、MAA2C、MAPPO和Greedy）[21]進(jìn)行對比實(shí)驗(yàn)。對比的四種方法如下：

a）MAA2C：經(jīng)典的多智能體強(qiáng)化學(xué)習(xí)算法，采用演員-評論家網(wǎng)絡(luò)框架，能有效處理多智能體環(huán)境中的策略優(yōu)化問題。

b）MPGD：在MAA2C的基礎(chǔ)上引入了回報(bào)再分配機(jī)制和可微分神經(jīng)計(jì)算機(jī)（DNC）模塊，增強(qiáng)了算法在復(fù)雜任務(wù)中的學(xué)習(xí)能力。

c）MAPPO：在MAA2C的基礎(chǔ)上發(fā)展，采用集中式訓(xùn)練與分布式執(zhí)行的框架，提升了訓(xùn)練效率和多智能體系統(tǒng)在分布式環(huán)境中的協(xié)作性能。

d）Greedy：采用簡單的決策策略，每個(gè)參與方在每個(gè)時(shí)刻根據(jù)其數(shù)據(jù)貢獻(xiàn)所能獲得的最大獎(jiǎng)勵(lì)來決策。

表1實(shí)驗(yàn)所使用的五個(gè)數(shù)據(jù)集

Tab.1Five datasets used in the experiment

4.2 實(shí)驗(yàn)思路

在本實(shí)驗(yàn)中，每個(gè)參與方將根據(jù)環(huán)境自動(dòng)調(diào)整策略，即在本地?cái)?shù)據(jù)中確定參與訓(xùn)練的數(shù)據(jù)量比例，以實(shí)現(xiàn)收益最大化。本文將整體收益作為各算法的比較標(biāo)準(zhǔn)，以評估不同激勵(lì)機(jī)制的效果；為了深入分析貢獻(xiàn)數(shù)據(jù)的數(shù)據(jù)新鮮度的影響，本文還將觀察每個(gè)參與方的策略變化情況。全局模型的準(zhǔn)確率也被視為關(guān)鍵指標(biāo)，以全面評估模型性能的提升。

為了檢驗(yàn)激勵(lì)機(jī)制的有效性，本文設(shè)計(jì)了不同的數(shù)據(jù)質(zhì)量。此設(shè)計(jì)能夠全面評估激勵(lì)機(jī)制在不同數(shù)據(jù)條件下的表現(xiàn)：a）參與方1的數(shù)據(jù)由30條樣本復(fù)制1000次構(gòu)成，導(dǎo)致其數(shù)據(jù)質(zhì)量最低；b）參與方2的數(shù)據(jù)由300條樣本復(fù)制100次，總數(shù)據(jù)量為30000條；c）參與方3則使用了30000條不同的數(shù)據(jù)，盡管其數(shù)據(jù)質(zhì)量較高，但樣本總量與前兩者相同；d）參與方4的數(shù)據(jù)量達(dá)到60000條且完全不同，具備最高的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。

4.3 結(jié)果分析

4.3.1收益分析

圖4展示了不同方法在MNIST數(shù)據(jù)集上的總體收益及其收斂性的比較結(jié)果。可以觀察到本方法（DIMFL-DF）實(shí)現(xiàn)了最高的總體收益。具體而言，在各個(gè)方法趨于穩(wěn)定后（500輪次），DIMFL-DF的總體收益相比MPGD提升了約 11.1% ，相比MAPPO和MAA2C分別提升了約 13.4% 和 18.9% 。相比之下，Greedy的總體收益最低，DIMFL-DF相比Greedy的收益提升幅度高達(dá)約 25.0% 。在收斂速度方面，DIMFL-DF表現(xiàn)出較快的收斂速度。盡管在初期存在較大的波動(dòng)，但在大約第100輪次時(shí)，其收益顯著超過其他方法并逐漸趨于穩(wěn)定。MPGD的收斂速度位居第二，大約在第150輪次后趨于穩(wěn)定且保持在較高的收益水平，但仍低于DIMFL-DF。MAPPO和MAA2C的收斂速度相對較慢，約在第200輪次后收益趨于平穩(wěn)，但其收益水平依然低于DIMFL-DF和MPGD。相比之下，Greedy的收斂速度較慢且波動(dòng)較大，收益始終保持在較低水平。

總體而言，DIMFL-DF在總體收益和收斂速度上均表現(xiàn)出顯著優(yōu)勢，其次是MPGD，而MAPPOMAA2C和Greedy的收益較低。

4.3.2貢獻(xiàn)數(shù)據(jù)新鮮度分析

圖5展示了DIMFL-DF在MNIST數(shù)據(jù)集上四個(gè)參與方的收益對比，清晰地體現(xiàn)了數(shù)據(jù)新鮮度度量模塊在評估數(shù)據(jù)貢獻(xiàn)時(shí)的有效性與公平性。實(shí)驗(yàn)結(jié)果表明，參與方1、2和3的收益相對較低，尤其是數(shù)據(jù)質(zhì)量較低的參與方1和2，其收益更為有限，而參與方4的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量都較高，獲得了最高的收益。這充分展示了DIMFL-DF在評估數(shù)據(jù)貢獻(xiàn)時(shí)兼顧了數(shù)據(jù)量和數(shù)據(jù)質(zhì)量，能夠在不同數(shù)據(jù)條件下公平且有效地評估各參與方的收益，驗(yàn)證了其在實(shí)際應(yīng)用中的有效性。

圖4五種不同方法的總體收益Fig.4Overall benefits offivedifferentmethods

4.3.3動(dòng)態(tài)策略分析

圖6展示了DIMFL-DF各參與方的數(shù)據(jù)貢獻(xiàn)策略的動(dòng)態(tài)調(diào)整情況。所提方法可以在沒有任何參與方私有信息和關(guān)于準(zhǔn)確度函數(shù)具體形式假設(shè)的情況下，實(shí)現(xiàn)動(dòng)態(tài)策略調(diào)整。

圖7展示了MPGD方法在相同條件下的一次實(shí)驗(yàn)結(jié)果。由于每個(gè)參與方都擁有獨(dú)立的評論家網(wǎng)絡(luò)，導(dǎo)致參與方之間存在非協(xié)調(diào)性問題，產(chǎn)生了懶惰智能體（參與方1），沒有起到很好的激勵(lì)作用，進(jìn)而導(dǎo)致整體收益受限。

4.3.4準(zhǔn)確率

圖8展示了DIMFL-DF在表1所示數(shù)據(jù)集上的性能表現(xiàn)。從圖中可以看出，DIMFL-DF在所有數(shù)據(jù)集上都能迅速收斂，且在前100個(gè)輪次內(nèi)達(dá)到較高的準(zhǔn)確率水平。這說明DIMFL-DF在不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)集上具有很好的適應(yīng)性和效果

圖6DIMFL-DF各參與方的數(shù)據(jù)貢獻(xiàn)策略變化 Fig.6Changes in participants' datacontribution strategies underDIMFL-DFmethod

圖7MPGD方法各參與方的數(shù)據(jù)貢獻(xiàn)策略變化 Fig.7Changes in participants' datacontribution strategiesunderMPGDmethod

4.4消融實(shí)驗(yàn)

圖9和1O展示了DIMFL-DF在經(jīng)典的MNIST數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。本文通過比較包含和不包含數(shù)據(jù)新鮮度度量模塊的DIMFL-DF方法，對總體收益和全局模型準(zhǔn)確率的影響進(jìn)行了評估。結(jié)果清晰地顯示，移除數(shù)據(jù)新鮮度度量模塊后，總體收益和全局模型的準(zhǔn)確率顯著下降，表明了數(shù)據(jù)新鮮度度量模塊在提升模型整體性能方面的關(guān)鍵作用。

圖8DIMFL-DF在不同數(shù)據(jù)集上的全局模型準(zhǔn)確率Fig.8Global model accuracy ofDIMFL-DF on different datasets

圖9消融實(shí)驗(yàn)：數(shù)據(jù)新鮮度度量圖模塊對總體收益的影響 Fig.9Ablation experiment： the impact of data freshness measurement moduleonoverallbenefits

0消融實(shí)驗(yàn)：數(shù)據(jù)新鮮度度量模塊對準(zhǔn)確率的影響 Fig.10Ablation experiment： theimpactof data freshness measurement module on accuracy

5結(jié)束語

本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制，該機(jī)制通過數(shù)據(jù)新鮮度度量將數(shù)據(jù)新鮮度納入收益函數(shù)，促使數(shù)據(jù)較優(yōu)質(zhì)的參與方更積極地參與聯(lián)邦學(xué)習(xí)，進(jìn)而提升了整體收益和全局模型的準(zhǔn)確性。相比之下，其他方法在收益函數(shù)中未能充分考慮數(shù)據(jù)新鮮度，導(dǎo)致數(shù)據(jù)質(zhì)量較低的參與方同樣熱衷于參與聯(lián)邦學(xué)習(xí)，這種情況限制了整體收益和全局模型的準(zhǔn)確性。此外，DIMFL-DF方法采用集中式訓(xùn)練與分布式執(zhí)行的框架，有效避免了多智能體強(qiáng)化學(xué)習(xí)中各個(gè)智能體的非協(xié)調(diào)性問題。因此，DIMFL-DF通過優(yōu)化整體框架和收益函數(shù)顯著提升了系統(tǒng)性能，展現(xiàn)出更強(qiáng)的適應(yīng)性和有效性。實(shí)驗(yàn)結(jié)果表明，所提方法在公開數(shù)據(jù)集上表現(xiàn)出卓越的收益和泛化能力，驗(yàn)證了其有效性和適用性。聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制作為當(dāng)前研究的熱點(diǎn)之一，在未來的工作中，將針對網(wǎng)絡(luò)條件不穩(wěn)定的情況，進(jìn)一步優(yōu)化激勵(lì)機(jī)制以增強(qiáng)其在網(wǎng)絡(luò)條件不穩(wěn)定以及帶寬受限等復(fù)雜環(huán)境下的適應(yīng)性。

參考文獻(xiàn)：

[1]McMahanB，Moore E，Ramage D，et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Inteligence and Statistics. New York：PMLR Press，2017：1273-1282.

[2]Kang Jiawen，Xiong Zehui，Niyato D，et al.Incentive design for efficient federated learning in mobile networks：a contract theory approach [C]//Proc of IEEE Asia Pacific Wireless Communications Symposium.Piscataway，NJ：IEEE Press，2019：1-5.

[3]Shashi RP，Nguyen HT，Mehdi B，et al. A crowdsourcing framework for on-device federated learning[J]. IEEE Trans on Wireless Communications，2019，19（5）：3241-3256.

[4]Li Yunpeng，Courcoubetis C，Duan Lingjie. Recommending paths： follow or not follw？[C]//Proc of IEEE Conference on Computer Communications.Piscataway，NJ：IEEE Press，2019：928-936.

[5]顧永跟，鐘浩天，吳小紅，等.不平衡數(shù)據(jù)下預(yù)算限制的聯(lián)邦學(xué)習(xí) 激勵(lì)機(jī)制[J].計(jì)算機(jī)應(yīng)用研究，2022，39（11）：3385-3389．（Gu Yonggen，ZhongHaotian，Wu Xiaohong，et al. Incentivemechanismfor federated learning with budget constraints under unbalanced data[J]. Application Research of Computers，2022，39（11）：3385-3389.）

[6]艾秋媛，詹志堅(jiān)，王聰，等.基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī) 制設(shè)計(jì)[J].經(jīng)濟(jì)管理學(xué)刊，2024，3（1）：115-144．（Ai Qiuyuan， Zhan Zhijian，Wang Cong，et al. Incentive mechanism design for sustainable federated learning based onreinforcementlearning[J].QuarterlyJournal ofEconomicsandManagement，2024，3（1）：115- 144.）

[7]ShisherMKC，Yin Sun.How does data freshness affect real-time supervised learning？[C]//Proc of the 23rd International Symposium on Theory，Algorithmic Foundations，and Protocol Design for Mobile Networksand Mobile Computing.New York：ACMPress，2022：31-40.

[8]Dai Zipeng，Wang Hao，Liu C H，et al.Mobile crowdsensing for data freshness：a deep reinforcement learning approach[C]//Proc of IEEE INFOCOM. Piscataway，NJ：IEEE Press，2021：1-10.

[9]Wang Yuliu，Ryusuke S. Manipulator motion planning via centralized training and decentralized execution multi-agent reinforcement learning[C]//Proc of International Conference on Advanced Robotics and Mechatronics.Piscataway，NJ：IEEEPress，2022：812-817.

[10]Sarikaya Y，Ercetin O. Motivating workers in federated learning： a Stackelberg game perspective[J].IEEE Networking Letters，2020，2 （1）：23-27.

[11]Zhan Yufeng，LiPeng，Qu Zhihao，et al.A learning-based incentive mechanism for federated learning[J].IEEE Internet of Things Journal，2020，7（7）：6360-6368.

[12]郭劍嵐，陳俞強(qiáng).基于Stackelberg 博弈的車載云計(jì)算任務(wù)卸載優(yōu) 化[J].計(jì)算機(jī)應(yīng)用研究，2019，36（12）：3752-3755，3784．（Guo Jianlan，Chen Yuqiang.Optimal computation offloading for vehicular cloud computing using Stackelberg game[J]. Application Research ofComputers，2019，36（12）：3752-3755，3784.）

[13]LeTHT，TranNH，TunYK，etal.Anincentivemechanismfor federated learning in wireless cellular networks： an auction approach 48/4-4887.

[14］周惟風(fēng)，朱琦.基于拍賣理論和補(bǔ)償激勵(lì)的頻譜共享新算法[J]. 通信學(xué)報(bào)，2011，32（10）：86-91.（Zhou Weifeng，Zhu Qi.Novel auction-based spectrum sharing scheme with the compensation and motivation mechanism[J]. Journal on Communications，2011，32 （10）：86-91.）

[15] Deng Yongheng，Lyu Feng，Ren Ju，et al. Improving federated learning with quality-aware user incentive and auto-weighted model aggregation [J].IEEE Trans on Parallel and Distributed Systems，2022，33 （12）：4515-4529.

[16]Li Li，Yu Xi，Cai Xuliang，etal.Contract-theory-based incentive mechanism for federated learning in health crowdsensing[J].IEEE Intermet of Things Joumal，2022，10（5）：475-4489.

[17］楊揚(yáng)，殷紅建，王超.考慮競爭環(huán)境的聯(lián)邦學(xué)習(xí)多維契約激勵(lì)機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究，2023，40（10）：3007-3015．（Yang Yang，Yin Hongjian，Wang Chao.Incentive mechanism for federated learning in competitive environment：multidimensionalcontractapproach[J]. Application Research of Computers，2023，40（10）： 3007-3015.）

[18]MnihV，Kavukcuoglu K，SilverD，etal.Human-level control through deep reinforcement learning[J].Nature，2015，518：529-533.

[19]王鑫，黃偉口，孫凌云.跨機(jī)構(gòu)聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制綜述[J].計(jì) 算機(jī)科學(xué)，2024，51（3）：20-29.（WangXin，HuangWeikou，Sun Lingyun.Survey of incentive mechanism for cross-silo federated learning[J].Computer Science，2024，51（3）：20-29.）

[20] Zhan Yufeng，Guo Song，Li Peng，et al.A deep reinforcement learning based offloading game in edge computing[J]. IEEE Trans on Computers，2020，69（6）：883-893.

[21]Yuan Shijing，Dong Beiyu，Lyu Hongtao，et al.Adaptive incentive for cross-silo federated learning in IIoT：a multiagentreinforcement learning approach[J].IEEE Internet of Things Jourmal，2024，11（9）： 15048-15058.

[22]Litman M.Markov games asa framework for multi-agent reinforcement learning[C]//Proc of International Conference on Machine Learning. New York ：ACM Press，1994：157-163.

[23]田超，鄭皎凌.CTS：基于擁堵溯源算法的信號燈多智能體強(qiáng)化學(xué) 習(xí)組織方案[J].計(jì)算機(jī)應(yīng)用研究，2023，40（1）：178-184．（Tian Chao，Zheng Jiaoling.CTS：trafc lightsmulti-agent reinforcement learning organization scheme based on congestion trace source algorithm[J].Application Research of Computers，2023，40（1）：178- 184.）

[24]Monahan G.State of the art：a survey of partiallyobservable Markov decision processes： theory，models，and algorithms[J].Management Science，1982，28（1）：1-16.

[25]Wei Zeng，Xu Jun，Lan Yanyan，et al.Reinforcement learning to rank with Markov decision process[C]//Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York ： ACM Press，2017：945-948.

[26] Guo Delin，Tang Lan，Zhang Xinggan，et al.Joint optimization of handover control and power allocation based on multi-agent deep reinforcement learning[J]. IEEE Trans on Vehicular Technology， 2020，69（11）：13124-13138.

[27]He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016： 770 770

收稿日期：2025-01-10；修回日期：2025-03-07 基金項(xiàng)目：新疆維吾爾自治區(qū)重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目（2023B01026，2023B01028）；新疆維吾爾自治區(qū)“天山英才”資助項(xiàng)目（2022TSYCLJ035，2023TSYCCX0046，2023TSYCTD011）；中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)資助項(xiàng)目（2021434）

作者簡介：達(dá)吾列·金恩斯別克（1996—），男（哈薩克族），碩士研究生，CF會(huì)員，主要研究方向?yàn)槁?lián)邦學(xué)習(xí)；王軼（1986—），男，研究員，碩導(dǎo)，博士，主要研究方向?yàn)閰^(qū)塊鏈、大數(shù)據(jù)治理；周喜（1978—），男，研究員，博導(dǎo)，博士，主要研究方向?yàn)槲锫?lián)網(wǎng)應(yīng)用、大數(shù)據(jù)分析；王曉博（1976—），女（通信作者），副研究員，碩導(dǎo)，博士，主要研究方向?yàn)閿?shù)據(jù)融合與分析、知識(shí)圖譜（wangxb@ms.xjb.ac.cn）.

計(jì)算機(jī)應(yīng)用研究2025年8期

計(jì)算機(jī)應(yīng)用研究的其它文章: 多突觸連接脈沖神經(jīng)元的突觸延遲在線監(jiān)督學(xué)習(xí)算法; 基于污點(diǎn)分析的移動(dòng)端深度學(xué)習(xí)模型泄露自動(dòng)分析方法; 基于時(shí)間塊動(dòng)態(tài)圖神經(jīng)網(wǎng)絡(luò)的序列推薦方法; 基于二跳鄰居的分布式大規(guī)模混合多智能體系統(tǒng)一致性協(xié)議; 融合時(shí)空信息與運(yùn)動(dòng)信息的骨架行為識(shí)別; 基于多智能體深度強(qiáng)化學(xué)習(xí)的海上風(fēng)電傳感器節(jié)點(diǎn)能效優(yōu)化