999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制

2025-09-02 00:00:00達(dá)吾列·金恩斯別克王軼周喜王曉博

關(guān)鍵詞:聯(lián)邦學(xué)習(xí);激勵(lì)機(jī)制;多智能體強(qiáng)化學(xué)習(xí);數(shù)據(jù)新鮮度

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)08-033-2497-06

doi:10.19734/j.issn.1001-3695.2025.01.0012

Dynamic incentive mechanism for federated learning incorporating data freshness

Dawulie Jinensibieke 1,2,3 ,Wang Yi 1,2,3 , Zhou Xi 1,2,3 ,Wang Xiaobo 1,2,3? (1.XinjiangTclsefiamp;strecdefec,Uu1Uesitde fSciences,Bino9,ina;.XinjangLbotoryfnoritySpechamp;LangugeInfomationProcessng,Uruq301,ina)

Abstract:Inmulti-roundfederated learning,thetrainingenvironmentisconstantlychanging.Incentive mechanismsbasedon multi-agentreinforcementlearning(MARL)canbeteradapttodynamicenvironmentsbydynamicallyadjustingdatacontributionstrategies.Existing MARL-basedmechanismsoftenfocusondataquantity,neglectingdatafreshness,whichleadstoicomplete contribution evaluationand limits modelperformance.Thispaper proposed a dynamic incentive mechanismfor federated learning incorporatingdatafreshness.Itintroduceddata freshnessmetricsand benefit evaluationmethods tomorecompreensivelyassesscontributions.Themechanismemployedacentralizedtraining withdecentralizedexecutionMARLframeworkto addresscoordinationissues,maximizingoverallbenefits.Experimentalresultsshowthattheproposedmethodimprovesoveal benefitsby approximately 11.1% to 25.0% across five public datasets.Comparative and ablation experiments further validate the fairness and effectiveness of the method under varying data quality conditions.

KeyWords:federated learning;incentivemechanism;multi-agent reinforcement learning;data freshness

0 引言

聯(lián)邦學(xué)習(xí)(federatedlearning,F(xiàn)L)技術(shù)允許多個(gè)參與方在無須共享原始數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,有效解決了多方模型訓(xùn)練過程中的隱私和安全問題[1]。盡管聯(lián)邦學(xué)習(xí)被視為保護(hù)數(shù)據(jù)隱私的有效方法,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)。其中,如何激勵(lì)參與方積極貢獻(xiàn)其數(shù)據(jù)和計(jì)算資源是一個(gè)重要難題[2.3]。由于每個(gè)參與方需要提供本地?cái)?shù)據(jù)、投入計(jì)算資源并承擔(dān)通信成本,當(dāng)預(yù)期的直接收益不明顯時(shí),部分?jǐn)?shù)據(jù)所有者可能對積極參與模型訓(xùn)練持謹(jǐn)慎態(tài)度[4.5],這種保守態(tài)度可能影響聯(lián)邦學(xué)習(xí)模型的整體性能。因此,設(shè)計(jì)有效的激勵(lì)機(jī)制尤為重要。而在實(shí)際應(yīng)用中,參與聯(lián)邦學(xué)習(xí)的各參與方的訓(xùn)練過程呈現(xiàn)出動(dòng)態(tài)變化,模型的準(zhǔn)確性和各參與方的數(shù)據(jù)貢獻(xiàn)量隨著時(shí)間不斷波動(dòng)。因此,研究人員逐漸將注意力轉(zhuǎn)向不使用固定規(guī)則的方法。強(qiáng)化學(xué)習(xí)被認(rèn)為是解決此類問題的一種有效方法。基于多智能體強(qiáng)化學(xué)習(xí)的激勵(lì)機(jī)制通過動(dòng)態(tài)調(diào)整激勵(lì)策略,從博弈歷史中推導(dǎo)出近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略[6。在此框架下,每個(gè)參與方被視為一個(gè)智能體(agent),根據(jù)其數(shù)據(jù)貢獻(xiàn)、通信開銷、計(jì)算開銷和全局模型準(zhǔn)確率等因素,動(dòng)態(tài)調(diào)整參與訓(xùn)練的數(shù)據(jù)量以最大化整體收益。這種機(jī)制使聯(lián)邦學(xué)習(xí)的激勵(lì)策略能夠更好地適應(yīng)動(dòng)態(tài)環(huán)境。

現(xiàn)有的激勵(lì)機(jī)制在動(dòng)態(tài)策略調(diào)整過程中,主要通過參與方貢獻(xiàn)的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷及訓(xùn)練收益來評估其貢獻(xiàn),忽視了數(shù)據(jù)新鮮度(datafreshness)從而導(dǎo)致評估的不全面。具體來說,即使某一參與方在每輪中貢獻(xiàn)的數(shù)據(jù)新鮮度較低,或者與之前的貢獻(xiàn)數(shù)據(jù)完全相同,現(xiàn)有機(jī)制仍會(huì)為其提供相同的獎(jiǎng)勵(lì)。這種做法會(huì)激勵(lì)參與方繼續(xù)貢獻(xiàn)質(zhì)量較低的數(shù)據(jù),進(jìn)而影響強(qiáng)化學(xué)習(xí)的效果,限制聯(lián)邦學(xué)習(xí)全局模型的訓(xùn)練精度。由于數(shù)據(jù)新鮮度或數(shù)據(jù)質(zhì)量對提高模型的準(zhǔn)確性和泛化能力具有重要影響[7.8],最終可能導(dǎo)致整體收益的下降。

為解決上述問題,本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制(dynamicincentivemechanismforfederatedlearningincorporatingdatafreshness,DIMFL-DF)。該機(jī)制設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊,在評估參與方的數(shù)據(jù)貢獻(xiàn)時(shí),將每輪貢獻(xiàn)數(shù)據(jù)的新鮮度納入強(qiáng)化學(xué)習(xí)的收益函數(shù)中,實(shí)現(xiàn)了對參與方數(shù)據(jù)貢獻(xiàn)更加全面的衡量。通過融合數(shù)據(jù)新鮮度,本文方法增加了貢獻(xiàn)評估的維度,使得在強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)調(diào)整過程中,反饋更加全面和精準(zhǔn),從而優(yōu)化了動(dòng)態(tài)調(diào)整效果。數(shù)據(jù)新鮮度直接關(guān)系到數(shù)據(jù)質(zhì)量,及時(shí)更新的數(shù)據(jù)能顯著提高模型的訓(xùn)練效果,有效提高了聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的整體收益。這一方法不僅提升了聯(lián)邦學(xué)習(xí)的整體收益,還激勵(lì)數(shù)據(jù)質(zhì)量較高的參與方貢獻(xiàn)更多數(shù)據(jù),確保參與模型訓(xùn)練的數(shù)據(jù)在多樣性和質(zhì)量方面均得到保障。此外,該機(jī)制采用了集中式訓(xùn)練與分布式執(zhí)行(centralized trainingwithdecentralized execution,CTDE)的多智能體強(qiáng)化學(xué)習(xí)算法[9,有效避免了由于智能體間缺乏協(xié)調(diào)而導(dǎo)致的“懶惰智能體”問題。

1相關(guān)工作

1.1基于固定規(guī)則的激勵(lì)機(jī)制

基于固定規(guī)則的激勵(lì)機(jī)制主要依賴經(jīng)典的理論模型,包括Stackelberg博弈、拍賣理論和契約理論等。這些方法在設(shè)計(jì)時(shí)通過明確定義規(guī)則和目標(biāo),利用優(yōu)化數(shù)學(xué)模型來激勵(lì)參與者貢獻(xiàn)資源和數(shù)據(jù)。Stackelberg博弈通過多輪博弈實(shí)現(xiàn)動(dòng)態(tài)調(diào)整,領(lǐng)導(dǎo)者(全局模型所有者)可逐步調(diào)整支付策略或節(jié)點(diǎn)選擇,以響應(yīng)追隨者(參與方)的反饋,動(dòng)態(tài)調(diào)整參與方的資源貢獻(xiàn)[10-12]。拍賣理論在激勵(lì)機(jī)制中用于資源定價(jià)、任務(wù)分配和節(jié)點(diǎn)選擇,系統(tǒng)包括拍賣者和競標(biāo)者,有效實(shí)現(xiàn)了資源動(dòng)態(tài)分配和激勵(lì)[13-15]。契約理論解決任務(wù)發(fā)布者與參與者的信息不對稱,通過為不同數(shù)據(jù)質(zhì)量的參與者設(shè)計(jì)分級激勵(lì)合同分配相應(yīng)獎(jiǎng)勵(lì)資源,提升了參與質(zhì)量和公平性[2.16.17]。

上述方法的共同特點(diǎn)在于其規(guī)則通常在設(shè)計(jì)時(shí)即預(yù)先設(shè)定,例如,Stackelberg博弈中的支付函數(shù)、拍賣機(jī)制中的競價(jià)規(guī)則以及契約理論中的合同條款都是固定的。這種固定性賦予了機(jī)制較高的穩(wěn)定性,但在面對參與者行為的變化或外部環(huán)境動(dòng)態(tài)變化時(shí),其靈活性和適應(yīng)性不足。

1.2基于強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制

強(qiáng)化學(xué)習(xí)[18是一種通過與環(huán)境持續(xù)交互和學(xué)習(xí),不斷優(yōu)化決策過程的動(dòng)態(tài)方法。艾秋媛等人[提出了基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制設(shè)計(jì),體現(xiàn)了強(qiáng)化學(xué)習(xí)能夠在復(fù)雜且不確定的聯(lián)邦學(xué)習(xí)場景中,靈活適應(yīng)變化并實(shí)現(xiàn)優(yōu)化自標(biāo)而無須預(yù)先設(shè)定固定規(guī)則。王鑫等人[19指出,多智能體強(qiáng)化學(xué)習(xí)是自適應(yīng)激勵(lì)機(jī)制領(lǐng)域中的一種有效方法。Zhan等人[20]提出了基于強(qiáng)化學(xué)習(xí)的邊緣計(jì)算卸載博弈,使參與方能夠獨(dú)立選擇卸載決策,解決了參與方不愿暴露自身網(wǎng)絡(luò)帶寬和偏好信息的挑戰(zhàn)。該方法在缺乏這些信息的情況下,通過部分可觀測馬爾可夫決策過程和基于策略梯度的Actor-Critic強(qiáng)化學(xué)習(xí)方法求解。Yuan等人[21提出了一種工業(yè)物聯(lián)網(wǎng)跨孤島聯(lián)邦學(xué)習(xí)自適應(yīng)激勵(lì)機(jī)制,旨在動(dòng)態(tài)訓(xùn)練環(huán)境中激勵(lì)組織貢獻(xiàn)數(shù)據(jù)資源,最大化其長期收益。該機(jī)制利用多智能體強(qiáng)化學(xué)習(xí),從博弈歷史中學(xué)習(xí)近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略,無須私密的組織信息或精確的準(zhǔn)確性函數(shù)。

盡管上述方法展示了強(qiáng)化學(xué)習(xí)在聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制中的顯著優(yōu)勢,但它們主要側(cè)重于參與方的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷以及訓(xùn)練收益貢獻(xiàn),忽視了數(shù)據(jù)的新鮮度。數(shù)據(jù)的新鮮度直接影響全局模型的訓(xùn)練效果,因此,在強(qiáng)化學(xué)習(xí)框架下,如何綜合考慮數(shù)據(jù)的新鮮度和數(shù)據(jù)量,成為提升激勵(lì)機(jī)制有效性和適應(yīng)性的關(guān)鍵問題。

2 背景知識(shí)

2.1 多智能體強(qiáng)化學(xué)習(xí)

多智能體強(qiáng)化學(xué)習(xí)(multi-agentreinforcement learning,MARL)是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支,研究多個(gè)智能體在共享環(huán)境中通過交互學(xué)習(xí)最優(yōu)策略的問題[22.23]。在聯(lián)邦學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制中,每個(gè)參與方可以視為一個(gè)智能體,彼此之間通過協(xié)同與競爭共同影響全局模型的訓(xùn)練效果。

在MARL框架中,每個(gè)智能體 i 擁有自己的策略 πi(ai|s) ,表示在狀態(tài) s 下選擇動(dòng)作 ai 的概率分布。環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)取決于所有智能體的聯(lián)合動(dòng)作 a=(a1,a2,…,aN) 其中 N 是智能體的數(shù)量。因此,聯(lián)邦學(xué)習(xí)中的激勵(lì)機(jī)制設(shè)計(jì)需要考慮所有參與方策略的組合,以優(yōu)化整體收益和模型性能。每個(gè)智能體的目標(biāo)是最大化其期望累積回報(bào),即

其中: γ 是折扣因子,衡量未來獎(jiǎng)勵(lì)的重要性; rit 是智能體 i 在時(shí)間 χt 獲得的即時(shí)獎(jiǎng)勵(lì)。

2.2 部分可觀測馬爾可夫決策

部分可觀測馬爾可夫決策過程(partiallyobservableMarkovdecisionprocess,POMDP)用于處理智能體在環(huán)境狀態(tài)無法完全觀測的情況下的決策問題[24.25]。在多智能體強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,各參與方的數(shù)據(jù)和狀態(tài)信息是保密的,智能體無法直接共享或完全觀測到其他參與方的行為。這種信息的不完全性使得激勵(lì)機(jī)制的設(shè)計(jì)面臨挑戰(zhàn),因?yàn)橹悄荏w需要基于有限的觀測信息和歷史數(shù)據(jù)來估計(jì)全局狀態(tài),從而制定最優(yōu)策略。引入POMDP框架能夠幫助設(shè)計(jì)更加魯棒的激勵(lì)機(jī)制,通過考慮觀測的不確定性和動(dòng)態(tài)變化來提升機(jī)制在復(fù)雜環(huán)境中的適應(yīng)性和有效性。

3融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制

3.1整體框架

本文提出的融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制(DIMFL-DF)基于多智能體強(qiáng)化學(xué)習(xí)方法,將每個(gè)聯(lián)邦學(xué)習(xí)的參與方視為一個(gè)獨(dú)立的智能體。在每一輪訓(xùn)練過程中,智能體通過觀察環(huán)境狀態(tài)(包括通信開銷、計(jì)算開銷、模型收益以及數(shù)據(jù)新鮮度等指標(biāo))制定旨在最大化自身收益的策略。具體而言,智能體根據(jù)當(dāng)前環(huán)境狀況決定在本輪訓(xùn)練中貢獻(xiàn)多少本地?cái)?shù)據(jù)。

如圖1所示,該激勵(lì)機(jī)制主要由多智能體強(qiáng)化學(xué)習(xí)框架構(gòu)成。每個(gè)參與方作為一個(gè)智能體,智能體根據(jù)觀察到的環(huán)境狀態(tài)進(jìn)行決策,確定本輪的數(shù)據(jù)貢獻(xiàn)量;評論家網(wǎng)絡(luò)則基于全局信息對所有智能體的決策進(jìn)行評估,并為智能體提供反饋,以優(yōu)化其策略。采用集中式訓(xùn)練與分布式執(zhí)行(CTDE)的策略,在訓(xùn)練階段,評論家網(wǎng)絡(luò)利用全局信息對各智能體的行為進(jìn)行評估和指導(dǎo),促進(jìn)智能體之間的協(xié)調(diào)與合作;在執(zhí)行階段,各智能體根據(jù)自身策略獨(dú)立決策,無須依賴全局信息,從而實(shí)現(xiàn)高效的分布式操作。

環(huán)境接收所有智能體的決策 {ant}n∈[1,N] ,輸出全局狀態(tài)st 、聯(lián)合動(dòng)作 at 以及所有智能體共享的獎(jiǎng)勵(lì) rt 。評論家網(wǎng)絡(luò)在訓(xùn)練階段根據(jù)環(huán)境的全局狀態(tài) st 與聯(lián)合動(dòng)作 at ,輸出狀態(tài)值函數(shù)或動(dòng)作值函數(shù),用于計(jì)算優(yōu)勢函數(shù)并得出價(jià)值估計(jì),從而指導(dǎo)策略優(yōu)化。值得注意的是,評論家網(wǎng)絡(luò)僅在訓(xùn)練階段發(fā)揮作用;在執(zhí)行階段,智能體僅依據(jù)局部觀測進(jìn)行決策。

圖1融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制架構(gòu) Fig.1Architecture of the dynamic incentive mechanism for federatedlearning incorporatingdata freshness

如圖2所示,智能體包含演員網(wǎng)絡(luò)、數(shù)據(jù)新鮮度度量模塊回放緩存器及策略優(yōu)化器。在智能體中,環(huán)境的局部觀測首先被傳遞至回放緩存器,用于存儲(chǔ)歷史狀態(tài)。隨后,數(shù)據(jù)新鮮度度量模塊基于存儲(chǔ)的歷史數(shù)據(jù)計(jì)算當(dāng)前數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異,得出數(shù)據(jù)新鮮度值,并將其納入收益函數(shù)中。接著,策略優(yōu)化器綜合考慮評論家網(wǎng)絡(luò)提供的價(jià)值評估、收益函數(shù)以及局部觀測信息,計(jì)算策略梯度并傳遞給演員網(wǎng)絡(luò)。最終,演員網(wǎng)絡(luò)根據(jù)接收到的策略梯度生成本輪的策略動(dòng)作。

圖2智能體內(nèi)部結(jié)構(gòu) Fig.2Internal structure of the agent

各參與方在本地模型訓(xùn)練完成后,每個(gè)參與方將更新參數(shù)的本地模型參數(shù)并上傳到參數(shù)服務(wù)器進(jìn)行聚合,聚合成全局模型。最后,將最新的全局模型分發(fā)給各參與方。重復(fù)以上步驟,直到完成預(yù)設(shè)指標(biāo)。

3.2 任務(wù)定義

聯(lián)邦學(xué)習(xí)系統(tǒng)由1個(gè)參數(shù)服務(wù)器和 n 個(gè)參與方構(gòu)成,參與方集合表示為 {1,2,…,N} ,訓(xùn)練過程被離散化為多個(gè)輪次 {0 1,…,T-1} 的訓(xùn)練。在訓(xùn)練輪次 t,t∈[0,T-1] ,參與方 on n∈[1,N] 將選擇本地?cái)?shù)據(jù)集 Snt 中的一部分?jǐn)?shù)據(jù)集 dnt 參與本地模型訓(xùn)練。其中 表示參與方 on 在 χt 輪訓(xùn)練過程中的本地?cái)?shù)據(jù)集。

本文將系統(tǒng)表述為一個(gè)部分可觀測馬爾可夫決策過程,即M?S,A,P,Z,R,γ? 。其中, S={Sn}n∈[1,N] 為狀態(tài)空間; A= 為動(dòng)作空間; P={Sn×A×Sn?[0 表示狀態(tài)轉(zhuǎn)移概率函數(shù)集合; Z={Zn= {znt}t∈[0,T-1]}n∈[1,N] 是觀察空間, 為參與方 on 在輪次 χt 在 [t-H,t-1] 時(shí)間段的觀察集合, ?hnk={c-nk,Hnk,Tnk (20|Ak} 表示參與方 on 在輪次 k 的觀察; R={{Rnt ( cnt (204號 作為獎(jiǎng)勵(lì)空間; γ 為折扣因子,決定對更遠(yuǎn)距離獎(jiǎng)勵(lì)的權(quán)重。

數(shù)據(jù)新鮮度被定義為參與方貢獻(xiàn)的數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異性。具體來說,數(shù)據(jù)新鮮度用于衡量每個(gè)參與方在每一輪訓(xùn)練中所提供的數(shù)據(jù)集與其歷史數(shù)據(jù)集的相似程度,較大的差異表明數(shù)據(jù)較為新鮮,較小的差異則表明數(shù)據(jù)重復(fù)性較高。

3.3數(shù)據(jù)新鮮度度量

在聯(lián)邦學(xué)習(xí)中,參與方貢獻(xiàn)數(shù)據(jù)的新鮮度和數(shù)據(jù)質(zhì)量對全局模型的性能有著直接的影響。為了在收益函數(shù)中準(zhǔn)確反映參與方的數(shù)據(jù)貢獻(xiàn)質(zhì)量,并防止惡意參與方通過重復(fù)使用相同的數(shù)據(jù)來獲取不公平的高收益,本文設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊。該模塊旨在評估每個(gè)參與方在每一輪的訓(xùn)練數(shù)據(jù)與其歷史訓(xùn)練數(shù)據(jù)之間的差異性,鼓勵(lì)參與方持續(xù)提供新穎、高質(zhì)量的數(shù)據(jù)。如圖3所示,模塊通過量化參與方當(dāng)前的訓(xùn)練數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異度,將數(shù)據(jù)質(zhì)量納入收益函數(shù)中。這意味著當(dāng)參與方在新一輪訓(xùn)練中的訓(xùn)練數(shù)據(jù)與之前的歷史數(shù)據(jù)差異較大時(shí),其指標(biāo)值會(huì)提高,從而在收益函數(shù)中獲得更大的獎(jiǎng)勵(lì)。這種設(shè)計(jì)不僅提升了數(shù)據(jù)的價(jià)值和質(zhì)量,同時(shí)也在訓(xùn)練過程中有助于增強(qiáng)模型的準(zhǔn)確率和泛化能力。具體步驟如下:

a)特征提取。對參與方 n 在第 χt 輪使用的訓(xùn)練數(shù)據(jù)集 進(jìn)行特征提取,得到特征向量 νnt 。從參與方 n 的歷史數(shù)據(jù)集dn1:t-1 中隨機(jī)抽取與 dnt 大小相同的子集 ,然后對該子集進(jìn)行特征提取,得到特征向量

b)計(jì)算相似度。利用相似度衡量當(dāng)前訓(xùn)練數(shù)據(jù)集與隨機(jī)抽取后的歷史數(shù)據(jù)集的相似性:

c)計(jì)算數(shù)據(jù)新鮮度。根據(jù)數(shù)據(jù)相似度計(jì)算出數(shù)據(jù)新鮮度 Pnt ·

圖3數(shù)據(jù)新鮮度度量模塊Fig.3Data freshness measurement module

當(dāng)本輪的訓(xùn)練數(shù)據(jù)集與裁剪后的歷史數(shù)據(jù)集完全不同(即數(shù)據(jù)相似度為0)時(shí),數(shù)據(jù)新鮮度 Pnt=1 ;當(dāng)兩者完全相同時(shí),數(shù)據(jù)新鮮度 Pnt=0 ;數(shù)據(jù)新鮮度 Pnt 在[0,1]間,即表示本輪參與訓(xùn)練的數(shù)據(jù)與歷史數(shù)據(jù)的差異度。

如式(2)(3)所示,數(shù)據(jù)相似度用于度量兩個(gè)數(shù)據(jù)集之間的相似性程度,數(shù)據(jù)新鮮度通過對數(shù)據(jù)相似度進(jìn)行轉(zhuǎn)換,反映了本輪上傳數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異性和新穎性。此模塊最終輸出數(shù)據(jù)新鮮度值 Pnt n (24號

3.4 收益函數(shù)設(shè)計(jì)

在這一節(jié)中,本文量化了策略貢獻(xiàn)、訓(xùn)練開銷、通信開銷、回報(bào)機(jī)制以及收益函數(shù)。

訓(xùn)練過程中, cnt 為參與方 on 在 χt 輪次參與本地訓(xùn)練的數(shù)據(jù)貢獻(xiàn),作為參與方的策略,其表達(dá)式為 cnt=∣dnt∣/∣Snt∣;c-nt= {cjt}j∈{1,2,…,N},j≠n 表示在 Φt 輪次除了參與方 On 的其余所有參與方的數(shù)據(jù)貢獻(xiàn); rn 表示參與方 On 從全局模型中獲得的利潤; 為在 χt 輪次的全局模型的準(zhǔn)確率, 為參與方 on 在 Ψt 輪次所獲得的訓(xùn)練收益;訓(xùn)練開銷和通信開銷表示為 Hnt=kncnt∣Snt 和 Tnt ,其中 kn 為單位數(shù)據(jù)的訓(xùn)練成本。在收益函數(shù)的設(shè)計(jì)中,本文加人了數(shù)據(jù)新鮮度 Pnt ,其目的是量化每個(gè)參與方在每一輪聯(lián)邦學(xué)習(xí)中所使用的訓(xùn)練數(shù)據(jù)的差異性。

基于上述描述,本文設(shè)計(jì)了一個(gè)符合激勵(lì)機(jī)制和強(qiáng)化學(xué)習(xí)框架的收益函數(shù) Rnt ,通過結(jié)合參與方的貢獻(xiàn)、收益以及開銷,有效地量化并獎(jiǎng)勵(lì)在每一輪聯(lián)邦學(xué)習(xí)過程中對模型有實(shí)際貢獻(xiàn)的參與方。表達(dá)式如下:

其中: λ 是調(diào)節(jié)數(shù)據(jù)新鮮度在收益函數(shù)中的影響因子。

3.5 算法設(shè)計(jì)

在多智能體強(qiáng)化學(xué)習(xí)的決策過程中,每個(gè)智能體的演員網(wǎng)絡(luò)(actornetwork)基于自身的觀察作出決策,而所有智能體共享一個(gè)評論家網(wǎng)絡(luò)(criticnetwork),評論家網(wǎng)絡(luò)根據(jù)全局信息評估每個(gè)智能體的決策效果,從而指導(dǎo)策略的優(yōu)化。算法訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):參數(shù)為 θ 的演員網(wǎng)絡(luò)和參數(shù)為 ω 的評論家網(wǎng)絡(luò)(價(jià)值函數(shù)網(wǎng)絡(luò))。智能體的策略梯度更新公式如下:

其中: ?An(st,at) 是聯(lián)合優(yōu)勢函數(shù)的估計(jì),表示當(dāng)前動(dòng)作相較于基準(zhǔn)策略的改進(jìn)幅度 ;f(Rnt(cnt,c-nt),An(st,at) 是策略梯度的目標(biāo)函數(shù),用于優(yōu)化策略參數(shù)。智能體的優(yōu)勢函數(shù)描述了當(dāng)前采取某一動(dòng)作的收益相對于平均基準(zhǔn)收益的優(yōu)勢,即

其中: B(st,a-nt) 是反事實(shí)基線[26],用于減少策略梯度中的方差; 是動(dòng)作價(jià)值函數(shù) Qπold(st,at) 的估計(jì),動(dòng)作價(jià)值函數(shù)估計(jì)了在狀態(tài) st 下執(zhí)行動(dòng)作 at 后未來的累計(jì)獎(jiǎng)勵(lì)期望。智能體的動(dòng)作值函數(shù)如下:

其中: Qωn(st,at) 是目標(biāo)評論家; δ 為時(shí)間延遲誤差; γ 為折扣因子; ε 用于平衡偏差和方差的參數(shù)。

通過優(yōu)勢函數(shù),可以進(jìn)一步構(gòu)造出評論家網(wǎng)絡(luò)的梯度更新公式,該公式通過最小化動(dòng)作值函數(shù)的誤差來優(yōu)化評論家網(wǎng)絡(luò)的參數(shù),使其更準(zhǔn)確地評估每個(gè)智能體的決策,即

算法動(dòng)態(tài)策略算法

輸人:智能體的觀察狀態(tài)。

輸出:智能體的數(shù)據(jù)貢獻(xiàn)策略。

初始化評論家網(wǎng)絡(luò) Qωn ,演員網(wǎng)絡(luò) πn

初始化當(dāng)前策略 πnold ,目標(biāo)評論家 Qωn

創(chuàng)建緩沖區(qū) D

for i=1 to L dos= initiate_state;forepisode t=1 to T do智能體 n 根據(jù) πnold(ant∣znt) 執(zhí)行動(dòng)作 ant 在環(huán)境中執(zhí)行聯(lián)合動(dòng)作 {ant}n=1N :獲取獎(jiǎng)勵(lì) Rnt 和下一個(gè)狀態(tài) st+1 :end for智能體 n 獲取軌跡 τn={znt,ant,Rntt=1T

由式(7)計(jì)算

由式(6)計(jì)算優(yōu)勢函數(shù) {An(st,at)}t=1T

存人 D

for k=1 to K do隨機(jī)重排 D 中的數(shù)據(jù);for n=1 to N do由式(5)計(jì)算出 Δθn :由式(8)計(jì)算出 Δωn 對 θn 進(jìn)行梯度上升,更新 Δθn :對 ωn 進(jìn)行梯度下降,更新 Δωn :end forend for對每個(gè)智能體,更新 (20清空緩沖區(qū) D

end for

上述算法為動(dòng)態(tài)策略算法,其參考和借鑒了多智能體近端策略優(yōu)化算法。時(shí)間復(fù)雜度為 O(N?L?K) ,空間復(fù)雜度為O(N?K) 。其中: N 為智能體數(shù)量; L 為策略更新次數(shù); K 為每次更新使用的樣本數(shù)量。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

所有實(shí)驗(yàn)在一臺(tái)配備8塊24GBNVIDIAGeForce顯卡(驅(qū)動(dòng)版本515.43.04,CUDA版本11.7)的服務(wù)器上進(jìn)行,實(shí)驗(yàn)代碼使用Python3.8.7編寫,運(yùn)行于Ubuntu系統(tǒng)。聯(lián)邦學(xué)習(xí)框架中,各參與方的本地模型均采用ResNet18[27]。為了驗(yàn)證所提方法的有效性,選擇了五個(gè)具有代表性的公開數(shù)據(jù)集(表1):MNIST、F-MNIST、CIFAR-1O、SVHN和EuroSAT,并與四種現(xiàn)有方法(MPGD、MAA2C、MAPPO和Greedy)[21]進(jìn)行對比實(shí)驗(yàn)。對比的四種方法如下:

a)MAA2C:經(jīng)典的多智能體強(qiáng)化學(xué)習(xí)算法,采用演員-評 論家網(wǎng)絡(luò)框架,能有效處理多智能體環(huán)境中的策略優(yōu)化問題。

b)MPGD:在MAA2C的基礎(chǔ)上引入了回報(bào)再分配機(jī)制和可微分神經(jīng)計(jì)算機(jī)(DNC)模塊,增強(qiáng)了算法在復(fù)雜任務(wù)中的學(xué)習(xí)能力。

c)MAPPO:在MAA2C的基礎(chǔ)上發(fā)展,采用集中式訓(xùn)練與分布式執(zhí)行的框架,提升了訓(xùn)練效率和多智能體系統(tǒng)在分布式環(huán)境中的協(xié)作性能。

d)Greedy:采用簡單的決策策略,每個(gè)參與方在每個(gè)時(shí)刻根據(jù)其數(shù)據(jù)貢獻(xiàn)所能獲得的最大獎(jiǎng)勵(lì)來決策。

表1實(shí)驗(yàn)所使用的五個(gè)數(shù)據(jù)集

Tab.1Five datasets used in the experiment

4.2 實(shí)驗(yàn)思路

在本實(shí)驗(yàn)中,每個(gè)參與方將根據(jù)環(huán)境自動(dòng)調(diào)整策略,即在本地?cái)?shù)據(jù)中確定參與訓(xùn)練的數(shù)據(jù)量比例,以實(shí)現(xiàn)收益最大化。本文將整體收益作為各算法的比較標(biāo)準(zhǔn),以評估不同激勵(lì)機(jī)制的效果;為了深入分析貢獻(xiàn)數(shù)據(jù)的數(shù)據(jù)新鮮度的影響,本文還將觀察每個(gè)參與方的策略變化情況。全局模型的準(zhǔn)確率也被視為關(guān)鍵指標(biāo),以全面評估模型性能的提升。

為了檢驗(yàn)激勵(lì)機(jī)制的有效性,本文設(shè)計(jì)了不同的數(shù)據(jù)質(zhì)量。此設(shè)計(jì)能夠全面評估激勵(lì)機(jī)制在不同數(shù)據(jù)條件下的表現(xiàn):a)參與方1的數(shù)據(jù)由30條樣本復(fù)制1000次構(gòu)成,導(dǎo)致其數(shù)據(jù)質(zhì)量最低;b)參與方2的數(shù)據(jù)由300條樣本復(fù)制100次,總數(shù)據(jù)量為30000條;c)參與方3則使用了30000條不同的數(shù)據(jù),盡管其數(shù)據(jù)質(zhì)量較高,但樣本總量與前兩者相同;d)參與方4的數(shù)據(jù)量達(dá)到60000條且完全不同,具備最高的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。

4.3 結(jié)果分析

4.3.1收益分析

圖4展示了不同方法在MNIST數(shù)據(jù)集上的總體收益及其收斂性的比較結(jié)果。可以觀察到本方法(DIMFL-DF)實(shí)現(xiàn)了最高的總體收益。具體而言,在各個(gè)方法趨于穩(wěn)定后(500輪次),DIMFL-DF的總體收益相比MPGD提升了約 11.1% ,相比MAPPO和MAA2C分別提升了約 13.4% 和 18.9% 。相比之下,Greedy的總體收益最低,DIMFL-DF相比Greedy的收益提升幅度高達(dá)約 25.0% 。在收斂速度方面,DIMFL-DF表現(xiàn)出較快的收斂速度。盡管在初期存在較大的波動(dòng),但在大約第100輪次時(shí),其收益顯著超過其他方法并逐漸趨于穩(wěn)定。MPGD的收斂速度位居第二,大約在第150輪次后趨于穩(wěn)定且保持在較高的收益水平,但仍低于DIMFL-DF。MAPPO和MAA2C的收斂速度相對較慢,約在第200輪次后收益趨于平穩(wěn),但其收益水平依然低于DIMFL-DF和MPGD。相比之下,Greedy的收斂速度較慢且波動(dòng)較大,收益始終保持在較低水平。

總體而言,DIMFL-DF在總體收益和收斂速度上均表現(xiàn)出顯著優(yōu)勢,其次是MPGD,而MAPPOMAA2C和Greedy的收益較低。

4.3.2貢獻(xiàn)數(shù)據(jù)新鮮度分析

圖5展示了DIMFL-DF在MNIST數(shù)據(jù)集上四個(gè)參與方的收益對比,清晰地體現(xiàn)了數(shù)據(jù)新鮮度度量模塊在評估數(shù)據(jù)貢獻(xiàn)時(shí)的有效性與公平性。實(shí)驗(yàn)結(jié)果表明,參與方1、2和3的收益相對較低,尤其是數(shù)據(jù)質(zhì)量較低的參與方1和2,其收益更為有限,而參與方4的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量都較高,獲得了最高的收益。這充分展示了DIMFL-DF在評估數(shù)據(jù)貢獻(xiàn)時(shí)兼顧了數(shù)據(jù)量和數(shù)據(jù)質(zhì)量,能夠在不同數(shù)據(jù)條件下公平且有效地評估各參與方的收益,驗(yàn)證了其在實(shí)際應(yīng)用中的有效性。

圖4五種不同方法的總體收益Fig.4Overall benefits offivedifferentmethods

4.3.3動(dòng)態(tài)策略分析

圖6展示了DIMFL-DF各參與方的數(shù)據(jù)貢獻(xiàn)策略的動(dòng)態(tài)調(diào)整情況。所提方法可以在沒有任何參與方私有信息和關(guān)于準(zhǔn)確度函數(shù)具體形式假設(shè)的情況下,實(shí)現(xiàn)動(dòng)態(tài)策略調(diào)整。

圖7展示了MPGD方法在相同條件下的一次實(shí)驗(yàn)結(jié)果。由于每個(gè)參與方都擁有獨(dú)立的評論家網(wǎng)絡(luò),導(dǎo)致參與方之間存在非協(xié)調(diào)性問題,產(chǎn)生了懶惰智能體(參與方1),沒有起到很好的激勵(lì)作用,進(jìn)而導(dǎo)致整體收益受限。

4.3.4準(zhǔn)確率

圖8展示了DIMFL-DF在表1所示數(shù)據(jù)集上的性能表現(xiàn)。從圖中可以看出,DIMFL-DF在所有數(shù)據(jù)集上都能迅速收斂,且在前100個(gè)輪次內(nèi)達(dá)到較高的準(zhǔn)確率水平。這說明DIMFL-DF在不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)集上具有很好的適應(yīng)性和效果

圖6DIMFL-DF各參與方的 數(shù)據(jù)貢獻(xiàn)策略變化 Fig.6Changes in participants' datacontribution strategies underDIMFL-DFmethod

圖7MPGD方法各參與方的 數(shù)據(jù)貢獻(xiàn)策略變化 Fig.7Changes in participants' datacontribution strategiesunderMPGDmethod

4.4消融實(shí)驗(yàn)

圖9和1O展示了DIMFL-DF在經(jīng)典的MNIST數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。本文通過比較包含和不包含數(shù)據(jù)新鮮度度量模塊的DIMFL-DF方法,對總體收益和全局模型準(zhǔn)確率的影響進(jìn)行了評估。結(jié)果清晰地顯示,移除數(shù)據(jù)新鮮度度量模塊后,總體收益和全局模型的準(zhǔn)確率顯著下降,表明了數(shù)據(jù)新鮮度度量模塊在提升模型整體性能方面的關(guān)鍵作用。

圖8DIMFL-DF在不同數(shù)據(jù)集上的全局模型準(zhǔn)確率Fig.8Global model accuracy ofDIMFL-DF on different datasets

圖9消融實(shí)驗(yàn):數(shù)據(jù)新鮮度度量圖 模塊對總體收益的影響 Fig.9Ablation experiment: the impact of data freshness measurement moduleonoverallbenefits

0消融實(shí)驗(yàn):數(shù)據(jù)新鮮度度量 模塊對準(zhǔn)確率的影響 Fig.10Ablation experiment: theimpactof data freshness measurement module on accuracy

5結(jié)束語

本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制,該機(jī)制通過數(shù)據(jù)新鮮度度量將數(shù)據(jù)新鮮度納入收益函數(shù),促使數(shù)據(jù)較優(yōu)質(zhì)的參與方更積極地參與聯(lián)邦學(xué)習(xí),進(jìn)而提升了整體收益和全局模型的準(zhǔn)確性。相比之下,其他方法在收益函數(shù)中未能充分考慮數(shù)據(jù)新鮮度,導(dǎo)致數(shù)據(jù)質(zhì)量較低的參與方同樣熱衷于參與聯(lián)邦學(xué)習(xí),這種情況限制了整體收益和全局模型的準(zhǔn)確性。此外,DIMFL-DF方法采用集中式訓(xùn)練與分布式執(zhí)行的框架,有效避免了多智能體強(qiáng)化學(xué)習(xí)中各個(gè)智能體的非協(xié)調(diào)性問題。因此,DIMFL-DF通過優(yōu)化整體框架和收益函數(shù)顯著提升了系統(tǒng)性能,展現(xiàn)出更強(qiáng)的適應(yīng)性和有效性。實(shí)驗(yàn)結(jié)果表明,所提方法在公開數(shù)據(jù)集上表現(xiàn)出卓越的收益和泛化能力,驗(yàn)證了其有效性和適用性。聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制作為當(dāng)前研究的熱點(diǎn)之一,在未來的工作中,將針對網(wǎng)絡(luò)條件不穩(wěn)定的情況,進(jìn)一步優(yōu)化激勵(lì)機(jī)制以增強(qiáng)其在網(wǎng)絡(luò)條件不穩(wěn)定以及帶寬受限等復(fù)雜環(huán)境下的適應(yīng)性。

參考文獻(xiàn):

[1]McMahanB,Moore E,Ramage D,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Inteligence and Statistics. New York:PMLR Press,2017:1273-1282.

[2]Kang Jiawen,Xiong Zehui,Niyato D,et al.Incentive design for efficient federated learning in mobile networks:a contract theory approach [C]//Proc of IEEE Asia Pacific Wireless Communications Symposium.Piscataway,NJ:IEEE Press,2019:1-5.

[3]Shashi RP,Nguyen HT,Mehdi B,et al. A crowdsourcing framework for on-device federated learning[J]. IEEE Trans on Wireless Communications,2019,19(5) :3241-3256.

[4]Li Yunpeng,Courcoubetis C,Duan Lingjie. Recommending paths: follow or not follw?[C]//Proc of IEEE Conference on Computer Communications.Piscataway,NJ:IEEE Press,2019:928-936.

[5]顧永跟,鐘浩天,吳小紅,等.不平衡數(shù)據(jù)下預(yù)算限制的聯(lián)邦學(xué)習(xí) 激勵(lì)機(jī)制[J].計(jì)算機(jī)應(yīng)用研究,2022,39(11):3385-3389.(Gu Yonggen,ZhongHaotian,Wu Xiaohong,et al. Incentivemechanismfor federated learning with budget constraints under unbalanced data[J]. Application Research of Computers,2022,39(11) :3385-3389.)

[6]艾秋媛,詹志堅(jiān),王聰,等.基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī) 制設(shè)計(jì)[J].經(jīng)濟(jì)管理學(xué)刊,2024,3(1):115-144.(Ai Qiuyuan, Zhan Zhijian,Wang Cong,et al. Incentive mechanism design for sustainable federated learning based onreinforcementlearning[J].QuarterlyJournal ofEconomicsandManagement,2024,3(1):115- 144.)

[7]ShisherMKC,Yin Sun.How does data freshness affect real-time supervised learning?[C]//Proc of the 23rd International Symposium on Theory,Algorithmic Foundations,and Protocol Design for Mobile Networksand Mobile Computing.New York:ACMPress,2022:31-40.

[8]Dai Zipeng,Wang Hao,Liu C H,et al.Mobile crowdsensing for data freshness:a deep reinforcement learning approach[C]//Proc of IEEE INFOCOM. Piscataway,NJ:IEEE Press,2021:1-10.

[9]Wang Yuliu,Ryusuke S. Manipulator motion planning via centralized training and decentralized execution multi-agent reinforcement learning[C]//Proc of International Conference on Advanced Robotics and Mechatronics.Piscataway,NJ:IEEEPress,2022:812-817.

[10]Sarikaya Y,Ercetin O. Motivating workers in federated learning: a Stackelberg game perspective[J].IEEE Networking Letters,2020,2 (1) :23-27.

[11]Zhan Yufeng,LiPeng,Qu Zhihao,et al.A learning-based incentive mechanism for federated learning[J].IEEE Internet of Things Journal,2020,7(7) :6360-6368.

[12]郭劍嵐,陳俞強(qiáng).基于Stackelberg 博弈的車載云計(jì)算任務(wù)卸載優(yōu) 化[J].計(jì)算機(jī)應(yīng)用研究,2019,36(12):3752-3755,3784.(Guo Jianlan,Chen Yuqiang.Optimal computation offloading for vehicular cloud computing using Stackelberg game[J]. Application Research ofComputers,2019,36(12):3752-3755,3784.)

[13]LeTHT,TranNH,TunYK,etal.Anincentivemechanismfor federated learning in wireless cellular networks: an auction approach 48/4-4887.

[14]周惟風(fēng),朱琦.基于拍賣理論和補(bǔ)償激勵(lì)的頻譜共享新算法[J]. 通信學(xué)報(bào),2011,32(10):86-91.(Zhou Weifeng,Zhu Qi.Novel auction-based spectrum sharing scheme with the compensation and motivation mechanism[J]. Journal on Communications,2011,32 (10) :86-91.)

[15] Deng Yongheng,Lyu Feng,Ren Ju,et al. Improving federated learning with quality-aware user incentive and auto-weighted model aggregation [J].IEEE Trans on Parallel and Distributed Systems,2022,33 (12):4515-4529.

[16]Li Li,Yu Xi,Cai Xuliang,etal.Contract-theory-based incentive mechanism for federated learning in health crowdsensing[J].IEEE Intermet of Things Joumal,2022,10(5):475-4489.

[17]楊揚(yáng),殷紅建,王超.考慮競爭環(huán)境的聯(lián)邦學(xué)習(xí)多維契約激勵(lì)機(jī)制 研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(10):3007-3015.(Yang Yang,Yin Hongjian,Wang Chao.Incentive mechanism for federated learning in competitive environment:multidimensionalcontractapproach[J]. Application Research of Computers,2023,40(10): 3007-3015.)

[18]MnihV,Kavukcuoglu K,SilverD,etal.Human-level control through deep reinforcement learning[J].Nature,2015,518:529-533.

[19]王鑫,黃偉口,孫凌云.跨機(jī)構(gòu)聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制綜述[J].計(jì) 算機(jī)科學(xué),2024,51(3):20-29.(WangXin,HuangWeikou,Sun Lingyun.Survey of incentive mechanism for cross-silo federated learning[J].Computer Science,2024,51(3) :20-29.)

[20] Zhan Yufeng,Guo Song,Li Peng,et al.A deep reinforcement learning based offloading game in edge computing[J]. IEEE Trans on Computers,2020,69(6):883-893.

[21]Yuan Shijing,Dong Beiyu,Lyu Hongtao,et al.Adaptive incentive for cross-silo federated learning in IIoT:a multiagentreinforcement learning approach[J].IEEE Internet of Things Jourmal,2024,11(9): 15048-15058.

[22]Litman M.Markov games asa framework for multi-agent reinforcement learning[C]//Proc of International Conference on Machine Learning. New York :ACM Press,1994:157-163.

[23]田超,鄭皎凌.CTS:基于擁堵溯源算法的信號燈多智能體強(qiáng)化學(xué) 習(xí)組織方案[J].計(jì)算機(jī)應(yīng)用研究,2023,40(1):178-184.(Tian Chao,Zheng Jiaoling.CTS:trafc lightsmulti-agent reinforcement learning organization scheme based on congestion trace source algorithm[J].Application Research of Computers,2023,40(1):178- 184.)

[24]Monahan G.State of the art:a survey of partiallyobservable Markov decision processes: theory,models,and algorithms[J].Management Science,1982,28(1) :1-16.

[25]Wei Zeng,Xu Jun,Lan Yanyan,et al.Reinforcement learning to rank with Markov decision process[C]//Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : ACM Press,2017:945-948.

[26] Guo Delin,Tang Lan,Zhang Xinggan,et al.Joint optimization of handover control and power allocation based on multi-agent deep reinforcement learning[J]. IEEE Trans on Vehicular Technology, 2020,69(11):13124-13138.

[27]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016: 770 770

收稿日期:2025-01-10;修回日期:2025-03-07 基金項(xiàng)目:新疆維吾爾自治區(qū)重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2023B01026,2023B01028);新疆維吾爾自治區(qū)“天山英才”資助項(xiàng)目(2022TSYCLJ035,2023TSYCCX0046,2023TSYCTD011);中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)資助項(xiàng)目(2021434)

作者簡介:達(dá)吾列·金恩斯別克(1996—),男(哈薩克族),碩士研究生,CF會(huì)員,主要研究方向?yàn)槁?lián)邦學(xué)習(xí);王軼(1986—),男,研究員,碩導(dǎo),博士,主要研究方向?yàn)閰^(qū)塊鏈、大數(shù)據(jù)治理;周喜(1978—),男,研究員,博導(dǎo),博士,主要研究方向?yàn)槲锫?lián)網(wǎng)應(yīng)用、大數(shù)據(jù)分析;王曉博(1976—),女(通信作者),副研究員,碩導(dǎo),博士,主要研究方向?yàn)閿?shù)據(jù)融合與分析、知識(shí)圖譜(wangxb@ms.xjb.ac.cn).

主站蜘蛛池模板: 国产精品99一区不卡| 国产高清不卡| 亚洲黄色激情网站| 香蕉色综合| 亚洲第一中文字幕| 日本免费精品| 无遮挡国产高潮视频免费观看| 97亚洲色综久久精品| 九九免费观看全部免费视频| 午夜色综合| 国产精品一区二区国产主播| 亚洲男人天堂网址| 日韩毛片基地| a亚洲天堂| 国产一级在线观看www色| 四虎影视无码永久免费观看| 51国产偷自视频区视频手机观看 | 嫩草国产在线| 伊人色天堂| 最新痴汉在线无码AV| 免费不卡在线观看av| 最新无码专区超级碰碰碰| 久久综合色播五月男人的天堂| 成人自拍视频在线观看| 青青久久91| 无码粉嫩虎白一线天在线观看| 免费人成视频在线观看网站| 美女内射视频WWW网站午夜 | 国产成人精品第一区二区| 91福利片| 69av免费视频| 日韩欧美高清视频| 免费一看一级毛片| 欧美在线三级| 67194亚洲无码| a毛片在线播放| 欧美啪啪一区| 免费一级毛片在线播放傲雪网| 中文字幕伦视频| 欧美日韩成人在线观看| 国产精品浪潮Av| 黄色网页在线观看| 国内老司机精品视频在线播出| 国产视频入口| 色婷婷狠狠干| 亚洲第一综合天堂另类专| 国产人成网线在线播放va| 久久综合国产乱子免费| 日本不卡免费高清视频| 97国产精品视频自在拍| 欧美啪啪精品| 国产精品国产三级国产专业不| 人妻精品久久无码区| 九九香蕉视频| 午夜天堂视频| 国产乱人乱偷精品视频a人人澡| 九色在线观看视频| 久久精品国产精品一区二区| 青青草一区二区免费精品| 自慰网址在线观看| 中文字幕在线观| 久久精品一品道久久精品| 波多野结衣无码中文字幕在线观看一区二区 | 精品国产三级在线观看| 久久国产拍爱| 茄子视频毛片免费观看| 亚洲A∨无码精品午夜在线观看| 亚洲av色吊丝无码| a毛片免费在线观看| 国产全黄a一级毛片| 久久永久免费人妻精品| 国产成人无码久久久久毛片| 亚洲精品少妇熟女| 国产美女久久久久不卡| 亚洲资源站av无码网址| 播五月综合| 成人精品免费视频| 色哟哟色院91精品网站| 永久免费无码成人网站| 狠狠做深爱婷婷久久一区| 在线无码av一区二区三区| 日韩精品无码免费专网站|