關(guān)鍵詞:聯(lián)邦學(xué)習(xí);激勵(lì)機(jī)制;多智能體強(qiáng)化學(xué)習(xí);數(shù)據(jù)新鮮度
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)08-033-2497-06
doi:10.19734/j.issn.1001-3695.2025.01.0012
Dynamic incentive mechanism for federated learning incorporating data freshness
Dawulie Jinensibieke 1,2,3 ,Wang Yi 1,2,3 , Zhou Xi 1,2,3 ,Wang Xiaobo 1,2,3? (1.XinjiangTclsefiamp;strecdefec,Uu1Uesitde fSciences,Bino9,ina;.XinjangLbotoryfnoritySpechamp;LangugeInfomationProcessng,Uruq301,ina)
Abstract:Inmulti-roundfederated learning,thetrainingenvironmentisconstantlychanging.Incentive mechanismsbasedon multi-agentreinforcementlearning(MARL)canbeteradapttodynamicenvironmentsbydynamicallyadjustingdatacontributionstrategies.Existing MARL-basedmechanismsoftenfocusondataquantity,neglectingdatafreshness,whichleadstoicomplete contribution evaluationand limits modelperformance.Thispaper proposed a dynamic incentive mechanismfor federated learning incorporatingdatafreshness.Itintroduceddata freshnessmetricsand benefit evaluationmethods tomorecompreensivelyassesscontributions.Themechanismemployedacentralizedtraining withdecentralizedexecutionMARLframeworkto addresscoordinationissues,maximizingoverallbenefits.Experimentalresultsshowthattheproposedmethodimprovesoveal benefitsby approximately 11.1% to 25.0% across five public datasets.Comparative and ablation experiments further validate the fairness and effectiveness of the method under varying data quality conditions.
KeyWords:federated learning;incentivemechanism;multi-agent reinforcement learning;data freshness
0 引言
聯(lián)邦學(xué)習(xí)(federatedlearning,F(xiàn)L)技術(shù)允許多個(gè)參與方在無須共享原始數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,有效解決了多方模型訓(xùn)練過程中的隱私和安全問題[1]。盡管聯(lián)邦學(xué)習(xí)被視為保護(hù)數(shù)據(jù)隱私的有效方法,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)。其中,如何激勵(lì)參與方積極貢獻(xiàn)其數(shù)據(jù)和計(jì)算資源是一個(gè)重要難題[2.3]。由于每個(gè)參與方需要提供本地?cái)?shù)據(jù)、投入計(jì)算資源并承擔(dān)通信成本,當(dāng)預(yù)期的直接收益不明顯時(shí),部分?jǐn)?shù)據(jù)所有者可能對積極參與模型訓(xùn)練持謹(jǐn)慎態(tài)度[4.5],這種保守態(tài)度可能影響聯(lián)邦學(xué)習(xí)模型的整體性能。因此,設(shè)計(jì)有效的激勵(lì)機(jī)制尤為重要。而在實(shí)際應(yīng)用中,參與聯(lián)邦學(xué)習(xí)的各參與方的訓(xùn)練過程呈現(xiàn)出動(dòng)態(tài)變化,模型的準(zhǔn)確性和各參與方的數(shù)據(jù)貢獻(xiàn)量隨著時(shí)間不斷波動(dòng)。因此,研究人員逐漸將注意力轉(zhuǎn)向不使用固定規(guī)則的方法。強(qiáng)化學(xué)習(xí)被認(rèn)為是解決此類問題的一種有效方法。基于多智能體強(qiáng)化學(xué)習(xí)的激勵(lì)機(jī)制通過動(dòng)態(tài)調(diào)整激勵(lì)策略,從博弈歷史中推導(dǎo)出近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略[6。在此框架下,每個(gè)參與方被視為一個(gè)智能體(agent),根據(jù)其數(shù)據(jù)貢獻(xiàn)、通信開銷、計(jì)算開銷和全局模型準(zhǔn)確率等因素,動(dòng)態(tài)調(diào)整參與訓(xùn)練的數(shù)據(jù)量以最大化整體收益。這種機(jī)制使聯(lián)邦學(xué)習(xí)的激勵(lì)策略能夠更好地適應(yīng)動(dòng)態(tài)環(huán)境。
現(xiàn)有的激勵(lì)機(jī)制在動(dòng)態(tài)策略調(diào)整過程中,主要通過參與方貢獻(xiàn)的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷及訓(xùn)練收益來評估其貢獻(xiàn),忽視了數(shù)據(jù)新鮮度(datafreshness)從而導(dǎo)致評估的不全面。具體來說,即使某一參與方在每輪中貢獻(xiàn)的數(shù)據(jù)新鮮度較低,或者與之前的貢獻(xiàn)數(shù)據(jù)完全相同,現(xiàn)有機(jī)制仍會(huì)為其提供相同的獎(jiǎng)勵(lì)。這種做法會(huì)激勵(lì)參與方繼續(xù)貢獻(xiàn)質(zhì)量較低的數(shù)據(jù),進(jìn)而影響強(qiáng)化學(xué)習(xí)的效果,限制聯(lián)邦學(xué)習(xí)全局模型的訓(xùn)練精度。由于數(shù)據(jù)新鮮度或數(shù)據(jù)質(zhì)量對提高模型的準(zhǔn)確性和泛化能力具有重要影響[7.8],最終可能導(dǎo)致整體收益的下降。
為解決上述問題,本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制(dynamicincentivemechanismforfederatedlearningincorporatingdatafreshness,DIMFL-DF)。該機(jī)制設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊,在評估參與方的數(shù)據(jù)貢獻(xiàn)時(shí),將每輪貢獻(xiàn)數(shù)據(jù)的新鮮度納入強(qiáng)化學(xué)習(xí)的收益函數(shù)中,實(shí)現(xiàn)了對參與方數(shù)據(jù)貢獻(xiàn)更加全面的衡量。通過融合數(shù)據(jù)新鮮度,本文方法增加了貢獻(xiàn)評估的維度,使得在強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)調(diào)整過程中,反饋更加全面和精準(zhǔn),從而優(yōu)化了動(dòng)態(tài)調(diào)整效果。數(shù)據(jù)新鮮度直接關(guān)系到數(shù)據(jù)質(zhì)量,及時(shí)更新的數(shù)據(jù)能顯著提高模型的訓(xùn)練效果,有效提高了聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的整體收益。這一方法不僅提升了聯(lián)邦學(xué)習(xí)的整體收益,還激勵(lì)數(shù)據(jù)質(zhì)量較高的參與方貢獻(xiàn)更多數(shù)據(jù),確保參與模型訓(xùn)練的數(shù)據(jù)在多樣性和質(zhì)量方面均得到保障。此外,該機(jī)制采用了集中式訓(xùn)練與分布式執(zhí)行(centralized trainingwithdecentralized execution,CTDE)的多智能體強(qiáng)化學(xué)習(xí)算法[9,有效避免了由于智能體間缺乏協(xié)調(diào)而導(dǎo)致的“懶惰智能體”問題。
1相關(guān)工作
1.1基于固定規(guī)則的激勵(lì)機(jī)制
基于固定規(guī)則的激勵(lì)機(jī)制主要依賴經(jīng)典的理論模型,包括Stackelberg博弈、拍賣理論和契約理論等。這些方法在設(shè)計(jì)時(shí)通過明確定義規(guī)則和目標(biāo),利用優(yōu)化數(shù)學(xué)模型來激勵(lì)參與者貢獻(xiàn)資源和數(shù)據(jù)。Stackelberg博弈通過多輪博弈實(shí)現(xiàn)動(dòng)態(tài)調(diào)整,領(lǐng)導(dǎo)者(全局模型所有者)可逐步調(diào)整支付策略或節(jié)點(diǎn)選擇,以響應(yīng)追隨者(參與方)的反饋,動(dòng)態(tài)調(diào)整參與方的資源貢獻(xiàn)[10-12]。拍賣理論在激勵(lì)機(jī)制中用于資源定價(jià)、任務(wù)分配和節(jié)點(diǎn)選擇,系統(tǒng)包括拍賣者和競標(biāo)者,有效實(shí)現(xiàn)了資源動(dòng)態(tài)分配和激勵(lì)[13-15]。契約理論解決任務(wù)發(fā)布者與參與者的信息不對稱,通過為不同數(shù)據(jù)質(zhì)量的參與者設(shè)計(jì)分級激勵(lì)合同分配相應(yīng)獎(jiǎng)勵(lì)資源,提升了參與質(zhì)量和公平性[2.16.17]。
上述方法的共同特點(diǎn)在于其規(guī)則通常在設(shè)計(jì)時(shí)即預(yù)先設(shè)定,例如,Stackelberg博弈中的支付函數(shù)、拍賣機(jī)制中的競價(jià)規(guī)則以及契約理論中的合同條款都是固定的。這種固定性賦予了機(jī)制較高的穩(wěn)定性,但在面對參與者行為的變化或外部環(huán)境動(dòng)態(tài)變化時(shí),其靈活性和適應(yīng)性不足。
1.2基于強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制
強(qiáng)化學(xué)習(xí)[18是一種通過與環(huán)境持續(xù)交互和學(xué)習(xí),不斷優(yōu)化決策過程的動(dòng)態(tài)方法。艾秋媛等人[提出了基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制設(shè)計(jì),體現(xiàn)了強(qiáng)化學(xué)習(xí)能夠在復(fù)雜且不確定的聯(lián)邦學(xué)習(xí)場景中,靈活適應(yīng)變化并實(shí)現(xiàn)優(yōu)化自標(biāo)而無須預(yù)先設(shè)定固定規(guī)則。王鑫等人[19指出,多智能體強(qiáng)化學(xué)習(xí)是自適應(yīng)激勵(lì)機(jī)制領(lǐng)域中的一種有效方法。Zhan等人[20]提出了基于強(qiáng)化學(xué)習(xí)的邊緣計(jì)算卸載博弈,使參與方能夠獨(dú)立選擇卸載決策,解決了參與方不愿暴露自身網(wǎng)絡(luò)帶寬和偏好信息的挑戰(zhàn)。該方法在缺乏這些信息的情況下,通過部分可觀測馬爾可夫決策過程和基于策略梯度的Actor-Critic強(qiáng)化學(xué)習(xí)方法求解。Yuan等人[21提出了一種工業(yè)物聯(lián)網(wǎng)跨孤島聯(lián)邦學(xué)習(xí)自適應(yīng)激勵(lì)機(jī)制,旨在動(dòng)態(tài)訓(xùn)練環(huán)境中激勵(lì)組織貢獻(xiàn)數(shù)據(jù)資源,最大化其長期收益。該機(jī)制利用多智能體強(qiáng)化學(xué)習(xí),從博弈歷史中學(xué)習(xí)近似最優(yōu)的數(shù)據(jù)貢獻(xiàn)策略,無須私密的組織信息或精確的準(zhǔn)確性函數(shù)。
盡管上述方法展示了強(qiáng)化學(xué)習(xí)在聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制中的顯著優(yōu)勢,但它們主要側(cè)重于參與方的數(shù)據(jù)量、通信開銷、訓(xùn)練開銷以及訓(xùn)練收益貢獻(xiàn),忽視了數(shù)據(jù)的新鮮度。數(shù)據(jù)的新鮮度直接影響全局模型的訓(xùn)練效果,因此,在強(qiáng)化學(xué)習(xí)框架下,如何綜合考慮數(shù)據(jù)的新鮮度和數(shù)據(jù)量,成為提升激勵(lì)機(jī)制有效性和適應(yīng)性的關(guān)鍵問題。
2 背景知識(shí)
2.1 多智能體強(qiáng)化學(xué)習(xí)
多智能體強(qiáng)化學(xué)習(xí)(multi-agentreinforcement learning,MARL)是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支,研究多個(gè)智能體在共享環(huán)境中通過交互學(xué)習(xí)最優(yōu)策略的問題[22.23]。在聯(lián)邦學(xué)習(xí)的動(dòng)態(tài)激勵(lì)機(jī)制中,每個(gè)參與方可以視為一個(gè)智能體,彼此之間通過協(xié)同與競爭共同影響全局模型的訓(xùn)練效果。
在MARL框架中,每個(gè)智能體 i 擁有自己的策略 πi(ai|s) ,表示在狀態(tài) s 下選擇動(dòng)作 ai 的概率分布。環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)取決于所有智能體的聯(lián)合動(dòng)作 a=(a1,a2,…,aN) 其中 N 是智能體的數(shù)量。因此,聯(lián)邦學(xué)習(xí)中的激勵(lì)機(jī)制設(shè)計(jì)需要考慮所有參與方策略的組合,以優(yōu)化整體收益和模型性能。每個(gè)智能體的目標(biāo)是最大化其期望累積回報(bào),即
其中: γ 是折扣因子,衡量未來獎(jiǎng)勵(lì)的重要性; rit 是智能體 i 在時(shí)間 χt 獲得的即時(shí)獎(jiǎng)勵(lì)。
2.2 部分可觀測馬爾可夫決策
部分可觀測馬爾可夫決策過程(partiallyobservableMarkovdecisionprocess,POMDP)用于處理智能體在環(huán)境狀態(tài)無法完全觀測的情況下的決策問題[24.25]。在多智能體強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,各參與方的數(shù)據(jù)和狀態(tài)信息是保密的,智能體無法直接共享或完全觀測到其他參與方的行為。這種信息的不完全性使得激勵(lì)機(jī)制的設(shè)計(jì)面臨挑戰(zhàn),因?yàn)橹悄荏w需要基于有限的觀測信息和歷史數(shù)據(jù)來估計(jì)全局狀態(tài),從而制定最優(yōu)策略。引入POMDP框架能夠幫助設(shè)計(jì)更加魯棒的激勵(lì)機(jī)制,通過考慮觀測的不確定性和動(dòng)態(tài)變化來提升機(jī)制在復(fù)雜環(huán)境中的適應(yīng)性和有效性。
3融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制
3.1整體框架
本文提出的融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制(DIMFL-DF)基于多智能體強(qiáng)化學(xué)習(xí)方法,將每個(gè)聯(lián)邦學(xué)習(xí)的參與方視為一個(gè)獨(dú)立的智能體。在每一輪訓(xùn)練過程中,智能體通過觀察環(huán)境狀態(tài)(包括通信開銷、計(jì)算開銷、模型收益以及數(shù)據(jù)新鮮度等指標(biāo))制定旨在最大化自身收益的策略。具體而言,智能體根據(jù)當(dāng)前環(huán)境狀況決定在本輪訓(xùn)練中貢獻(xiàn)多少本地?cái)?shù)據(jù)。
如圖1所示,該激勵(lì)機(jī)制主要由多智能體強(qiáng)化學(xué)習(xí)框架構(gòu)成。每個(gè)參與方作為一個(gè)智能體,智能體根據(jù)觀察到的環(huán)境狀態(tài)進(jìn)行決策,確定本輪的數(shù)據(jù)貢獻(xiàn)量;評論家網(wǎng)絡(luò)則基于全局信息對所有智能體的決策進(jìn)行評估,并為智能體提供反饋,以優(yōu)化其策略。采用集中式訓(xùn)練與分布式執(zhí)行(CTDE)的策略,在訓(xùn)練階段,評論家網(wǎng)絡(luò)利用全局信息對各智能體的行為進(jìn)行評估和指導(dǎo),促進(jìn)智能體之間的協(xié)調(diào)與合作;在執(zhí)行階段,各智能體根據(jù)自身策略獨(dú)立決策,無須依賴全局信息,從而實(shí)現(xiàn)高效的分布式操作。
環(huán)境接收所有智能體的決策 {ant}n∈[1,N] ,輸出全局狀態(tài)st 、聯(lián)合動(dòng)作 at 以及所有智能體共享的獎(jiǎng)勵(lì) rt 。評論家網(wǎng)絡(luò)在訓(xùn)練階段根據(jù)環(huán)境的全局狀態(tài) st 與聯(lián)合動(dòng)作 at ,輸出狀態(tài)值函數(shù)或動(dòng)作值函數(shù),用于計(jì)算優(yōu)勢函數(shù)并得出價(jià)值估計(jì),從而指導(dǎo)策略優(yōu)化。值得注意的是,評論家網(wǎng)絡(luò)僅在訓(xùn)練階段發(fā)揮作用;在執(zhí)行階段,智能體僅依據(jù)局部觀測進(jìn)行決策。
圖1融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制架構(gòu) Fig.1Architecture of the dynamic incentive mechanism for federatedlearning incorporatingdata freshness
如圖2所示,智能體包含演員網(wǎng)絡(luò)、數(shù)據(jù)新鮮度度量模塊回放緩存器及策略優(yōu)化器。在智能體中,環(huán)境的局部觀測首先被傳遞至回放緩存器,用于存儲(chǔ)歷史狀態(tài)。隨后,數(shù)據(jù)新鮮度度量模塊基于存儲(chǔ)的歷史數(shù)據(jù)計(jì)算當(dāng)前數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異,得出數(shù)據(jù)新鮮度值,并將其納入收益函數(shù)中。接著,策略優(yōu)化器綜合考慮評論家網(wǎng)絡(luò)提供的價(jià)值評估、收益函數(shù)以及局部觀測信息,計(jì)算策略梯度并傳遞給演員網(wǎng)絡(luò)。最終,演員網(wǎng)絡(luò)根據(jù)接收到的策略梯度生成本輪的策略動(dòng)作。
圖2智能體內(nèi)部結(jié)構(gòu) Fig.2Internal structure of the agent
各參與方在本地模型訓(xùn)練完成后,每個(gè)參與方將更新參數(shù)的本地模型參數(shù)并上傳到參數(shù)服務(wù)器進(jìn)行聚合,聚合成全局模型。最后,將最新的全局模型分發(fā)給各參與方。重復(fù)以上步驟,直到完成預(yù)設(shè)指標(biāo)。
3.2 任務(wù)定義
聯(lián)邦學(xué)習(xí)系統(tǒng)由1個(gè)參數(shù)服務(wù)器和 n 個(gè)參與方構(gòu)成,參與方集合表示為 {1,2,…,N} ,訓(xùn)練過程被離散化為多個(gè)輪次 {0 1,…,T-1} 的訓(xùn)練。在訓(xùn)練輪次 t,t∈[0,T-1] ,參與方 on n∈[1,N] 將選擇本地?cái)?shù)據(jù)集 Snt 中的一部分?jǐn)?shù)據(jù)集 dnt 參與本地模型訓(xùn)練。其中 表示參與方 on 在 χt 輪訓(xùn)練過程中的本地?cái)?shù)據(jù)集。
本文將系統(tǒng)表述為一個(gè)部分可觀測馬爾可夫決策過程,即M?S,A,P,Z,R,γ? 。其中, S={Sn}n∈[1,N] 為狀態(tài)空間; A= 為動(dòng)作空間; P={Sn×A×Sn?[0
表示狀態(tài)轉(zhuǎn)移概率函數(shù)集合; Z={Zn= {znt}t∈[0,T-1]}n∈[1,N] 是觀察空間,
為參與方 on 在輪次 χt 在 [t-H,t-1] 時(shí)間段的觀察集合, ?hnk={c-nk,Hnk,Tnk (20|Ak} 表示參與方 on 在輪次 k 的觀察; R={{Rnt ( cnt (204號
作為獎(jiǎng)勵(lì)空間; γ 為折扣因子,決定對更遠(yuǎn)距離獎(jiǎng)勵(lì)的權(quán)重。
數(shù)據(jù)新鮮度被定義為參與方貢獻(xiàn)的數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異性。具體來說,數(shù)據(jù)新鮮度用于衡量每個(gè)參與方在每一輪訓(xùn)練中所提供的數(shù)據(jù)集與其歷史數(shù)據(jù)集的相似程度,較大的差異表明數(shù)據(jù)較為新鮮,較小的差異則表明數(shù)據(jù)重復(fù)性較高。
3.3數(shù)據(jù)新鮮度度量
在聯(lián)邦學(xué)習(xí)中,參與方貢獻(xiàn)數(shù)據(jù)的新鮮度和數(shù)據(jù)質(zhì)量對全局模型的性能有著直接的影響。為了在收益函數(shù)中準(zhǔn)確反映參與方的數(shù)據(jù)貢獻(xiàn)質(zhì)量,并防止惡意參與方通過重復(fù)使用相同的數(shù)據(jù)來獲取不公平的高收益,本文設(shè)計(jì)了數(shù)據(jù)新鮮度度量模塊。該模塊旨在評估每個(gè)參與方在每一輪的訓(xùn)練數(shù)據(jù)與其歷史訓(xùn)練數(shù)據(jù)之間的差異性,鼓勵(lì)參與方持續(xù)提供新穎、高質(zhì)量的數(shù)據(jù)。如圖3所示,模塊通過量化參與方當(dāng)前的訓(xùn)練數(shù)據(jù)與其歷史數(shù)據(jù)之間的差異度,將數(shù)據(jù)質(zhì)量納入收益函數(shù)中。這意味著當(dāng)參與方在新一輪訓(xùn)練中的訓(xùn)練數(shù)據(jù)與之前的歷史數(shù)據(jù)差異較大時(shí),其指標(biāo)值會(huì)提高,從而在收益函數(shù)中獲得更大的獎(jiǎng)勵(lì)。這種設(shè)計(jì)不僅提升了數(shù)據(jù)的價(jià)值和質(zhì)量,同時(shí)也在訓(xùn)練過程中有助于增強(qiáng)模型的準(zhǔn)確率和泛化能力。具體步驟如下:
a)特征提取。對參與方 n 在第 χt 輪使用的訓(xùn)練數(shù)據(jù)集 進(jìn)行特征提取,得到特征向量 νnt 。從參與方 n 的歷史數(shù)據(jù)集dn1:t-1 中隨機(jī)抽取與 dnt 大小相同的子集
,然后對該子集進(jìn)行特征提取,得到特征向量
b)計(jì)算相似度。利用相似度衡量當(dāng)前訓(xùn)練數(shù)據(jù)集與隨機(jī)抽取后的歷史數(shù)據(jù)集的相似性:
c)計(jì)算數(shù)據(jù)新鮮度。根據(jù)數(shù)據(jù)相似度計(jì)算出數(shù)據(jù)新鮮度 Pnt ·
圖3數(shù)據(jù)新鮮度度量模塊Fig.3Data freshness measurement module
當(dāng)本輪的訓(xùn)練數(shù)據(jù)集與裁剪后的歷史數(shù)據(jù)集完全不同(即數(shù)據(jù)相似度為0)時(shí),數(shù)據(jù)新鮮度 Pnt=1 ;當(dāng)兩者完全相同時(shí),數(shù)據(jù)新鮮度 Pnt=0 ;數(shù)據(jù)新鮮度 Pnt 在[0,1]間,即表示本輪參與訓(xùn)練的數(shù)據(jù)與歷史數(shù)據(jù)的差異度。
如式(2)(3)所示,數(shù)據(jù)相似度用于度量兩個(gè)數(shù)據(jù)集之間的相似性程度,數(shù)據(jù)新鮮度通過對數(shù)據(jù)相似度進(jìn)行轉(zhuǎn)換,反映了本輪上傳數(shù)據(jù)集與歷史數(shù)據(jù)集之間的差異性和新穎性。此模塊最終輸出數(shù)據(jù)新鮮度值 Pnt n (24號
3.4 收益函數(shù)設(shè)計(jì)
在這一節(jié)中,本文量化了策略貢獻(xiàn)、訓(xùn)練開銷、通信開銷、回報(bào)機(jī)制以及收益函數(shù)。
訓(xùn)練過程中, cnt 為參與方 on 在 χt 輪次參與本地訓(xùn)練的數(shù)據(jù)貢獻(xiàn),作為參與方的策略,其表達(dá)式為 cnt=∣dnt∣/∣Snt∣;c-nt= {cjt}j∈{1,2,…,N},j≠n 表示在 Φt 輪次除了參與方 On 的其余所有參與方的數(shù)據(jù)貢獻(xiàn); rn 表示參與方 On 從全局模型中獲得的利潤; 為在 χt 輪次的全局模型的準(zhǔn)確率,
為參與方 on 在 Ψt 輪次所獲得的訓(xùn)練收益;訓(xùn)練開銷和通信開銷表示為 Hnt=kncnt∣Snt 和 Tnt ,其中 kn 為單位數(shù)據(jù)的訓(xùn)練成本。在收益函數(shù)的設(shè)計(jì)中,本文加人了數(shù)據(jù)新鮮度 Pnt ,其目的是量化每個(gè)參與方在每一輪聯(lián)邦學(xué)習(xí)中所使用的訓(xùn)練數(shù)據(jù)的差異性。
基于上述描述,本文設(shè)計(jì)了一個(gè)符合激勵(lì)機(jī)制和強(qiáng)化學(xué)習(xí)框架的收益函數(shù) Rnt ,通過結(jié)合參與方的貢獻(xiàn)、收益以及開銷,有效地量化并獎(jiǎng)勵(lì)在每一輪聯(lián)邦學(xué)習(xí)過程中對模型有實(shí)際貢獻(xiàn)的參與方。表達(dá)式如下:
其中: λ 是調(diào)節(jié)數(shù)據(jù)新鮮度在收益函數(shù)中的影響因子。
3.5 算法設(shè)計(jì)
在多智能體強(qiáng)化學(xué)習(xí)的決策過程中,每個(gè)智能體的演員網(wǎng)絡(luò)(actornetwork)基于自身的觀察作出決策,而所有智能體共享一個(gè)評論家網(wǎng)絡(luò)(criticnetwork),評論家網(wǎng)絡(luò)根據(jù)全局信息評估每個(gè)智能體的決策效果,從而指導(dǎo)策略的優(yōu)化。算法訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):參數(shù)為 θ 的演員網(wǎng)絡(luò)和參數(shù)為 ω 的評論家網(wǎng)絡(luò)(價(jià)值函數(shù)網(wǎng)絡(luò))。智能體的策略梯度更新公式如下:
其中: ?An(st,at) 是聯(lián)合優(yōu)勢函數(shù)的估計(jì),表示當(dāng)前動(dòng)作相較于基準(zhǔn)策略的改進(jìn)幅度 ;f(Rnt(cnt,c-nt),An(st,at) 是策略梯度的目標(biāo)函數(shù),用于優(yōu)化策略參數(shù)。智能體的優(yōu)勢函數(shù)描述了當(dāng)前采取某一動(dòng)作的收益相對于平均基準(zhǔn)收益的優(yōu)勢,即
其中: B(st,a-nt) 是反事實(shí)基線[26],用于減少策略梯度中的方差; 是動(dòng)作價(jià)值函數(shù) Qπold(st,at) 的估計(jì),動(dòng)作價(jià)值函數(shù)估計(jì)了在狀態(tài) st 下執(zhí)行動(dòng)作 at 后未來的累計(jì)獎(jiǎng)勵(lì)期望。智能體的動(dòng)作值函數(shù)如下:
其中: Qωn(st,at) 是目標(biāo)評論家; δ 為時(shí)間延遲誤差; γ 為折扣因子; ε 用于平衡偏差和方差的參數(shù)。
通過優(yōu)勢函數(shù),可以進(jìn)一步構(gòu)造出評論家網(wǎng)絡(luò)的梯度更新公式,該公式通過最小化動(dòng)作值函數(shù)的誤差來優(yōu)化評論家網(wǎng)絡(luò)的參數(shù),使其更準(zhǔn)確地評估每個(gè)智能體的決策,即
算法動(dòng)態(tài)策略算法
輸人:智能體的觀察狀態(tài)。
輸出:智能體的數(shù)據(jù)貢獻(xiàn)策略。
初始化評論家網(wǎng)絡(luò) Qωn ,演員網(wǎng)絡(luò) πn 。
初始化當(dāng)前策略 πnold ,目標(biāo)評論家 Qωn 。
創(chuàng)建緩沖區(qū) D
for i=1 to L dos= initiate_state;forepisode t=1 to T do智能體 n 根據(jù) πnold(ant∣znt) 執(zhí)行動(dòng)作 ant 在環(huán)境中執(zhí)行聯(lián)合動(dòng)作 {ant}n=1N :獲取獎(jiǎng)勵(lì) Rnt 和下一個(gè)狀態(tài) st+1 :end for智能體 n 獲取軌跡 τn={znt,ant,Rnt}Πt=1T :
由式(7)計(jì)算 :
由式(6)計(jì)算優(yōu)勢函數(shù) {An(st,at)}t=1T :
將 存人 D
for k=1 to K do隨機(jī)重排 D 中的數(shù)據(jù);for n=1 to N do由式(5)計(jì)算出 Δθn :由式(8)計(jì)算出 Δωn 對 θn 進(jìn)行梯度上升,更新 Δθn :對 ωn 進(jìn)行梯度下降,更新 Δωn :end forend for對每個(gè)智能體,更新 (20清空緩沖區(qū) D
end for
上述算法為動(dòng)態(tài)策略算法,其參考和借鑒了多智能體近端策略優(yōu)化算法。時(shí)間復(fù)雜度為 O(N?L?K) ,空間復(fù)雜度為O(N?K) 。其中: N 為智能體數(shù)量; L 為策略更新次數(shù); K 為每次更新使用的樣本數(shù)量。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)設(shè)計(jì)
所有實(shí)驗(yàn)在一臺(tái)配備8塊24GBNVIDIAGeForce顯卡(驅(qū)動(dòng)版本515.43.04,CUDA版本11.7)的服務(wù)器上進(jìn)行,實(shí)驗(yàn)代碼使用Python3.8.7編寫,運(yùn)行于Ubuntu系統(tǒng)。聯(lián)邦學(xué)習(xí)框架中,各參與方的本地模型均采用ResNet18[27]。為了驗(yàn)證所提方法的有效性,選擇了五個(gè)具有代表性的公開數(shù)據(jù)集(表1):MNIST、F-MNIST、CIFAR-1O、SVHN和EuroSAT,并與四種現(xiàn)有方法(MPGD、MAA2C、MAPPO和Greedy)[21]進(jìn)行對比實(shí)驗(yàn)。對比的四種方法如下:
a)MAA2C:經(jīng)典的多智能體強(qiáng)化學(xué)習(xí)算法,采用演員-評 論家網(wǎng)絡(luò)框架,能有效處理多智能體環(huán)境中的策略優(yōu)化問題。
b)MPGD:在MAA2C的基礎(chǔ)上引入了回報(bào)再分配機(jī)制和可微分神經(jīng)計(jì)算機(jī)(DNC)模塊,增強(qiáng)了算法在復(fù)雜任務(wù)中的學(xué)習(xí)能力。
c)MAPPO:在MAA2C的基礎(chǔ)上發(fā)展,采用集中式訓(xùn)練與分布式執(zhí)行的框架,提升了訓(xùn)練效率和多智能體系統(tǒng)在分布式環(huán)境中的協(xié)作性能。
d)Greedy:采用簡單的決策策略,每個(gè)參與方在每個(gè)時(shí)刻根據(jù)其數(shù)據(jù)貢獻(xiàn)所能獲得的最大獎(jiǎng)勵(lì)來決策。
表1實(shí)驗(yàn)所使用的五個(gè)數(shù)據(jù)集
Tab.1Five datasets used in the experiment
4.2 實(shí)驗(yàn)思路
在本實(shí)驗(yàn)中,每個(gè)參與方將根據(jù)環(huán)境自動(dòng)調(diào)整策略,即在本地?cái)?shù)據(jù)中確定參與訓(xùn)練的數(shù)據(jù)量比例,以實(shí)現(xiàn)收益最大化。本文將整體收益作為各算法的比較標(biāo)準(zhǔn),以評估不同激勵(lì)機(jī)制的效果;為了深入分析貢獻(xiàn)數(shù)據(jù)的數(shù)據(jù)新鮮度的影響,本文還將觀察每個(gè)參與方的策略變化情況。全局模型的準(zhǔn)確率也被視為關(guān)鍵指標(biāo),以全面評估模型性能的提升。
為了檢驗(yàn)激勵(lì)機(jī)制的有效性,本文設(shè)計(jì)了不同的數(shù)據(jù)質(zhì)量。此設(shè)計(jì)能夠全面評估激勵(lì)機(jī)制在不同數(shù)據(jù)條件下的表現(xiàn):a)參與方1的數(shù)據(jù)由30條樣本復(fù)制1000次構(gòu)成,導(dǎo)致其數(shù)據(jù)質(zhì)量最低;b)參與方2的數(shù)據(jù)由300條樣本復(fù)制100次,總數(shù)據(jù)量為30000條;c)參與方3則使用了30000條不同的數(shù)據(jù),盡管其數(shù)據(jù)質(zhì)量較高,但樣本總量與前兩者相同;d)參與方4的數(shù)據(jù)量達(dá)到60000條且完全不同,具備最高的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。
4.3 結(jié)果分析
4.3.1收益分析
圖4展示了不同方法在MNIST數(shù)據(jù)集上的總體收益及其收斂性的比較結(jié)果。可以觀察到本方法(DIMFL-DF)實(shí)現(xiàn)了最高的總體收益。具體而言,在各個(gè)方法趨于穩(wěn)定后(500輪次),DIMFL-DF的總體收益相比MPGD提升了約 11.1% ,相比MAPPO和MAA2C分別提升了約 13.4% 和 18.9% 。相比之下,Greedy的總體收益最低,DIMFL-DF相比Greedy的收益提升幅度高達(dá)約 25.0% 。在收斂速度方面,DIMFL-DF表現(xiàn)出較快的收斂速度。盡管在初期存在較大的波動(dòng),但在大約第100輪次時(shí),其收益顯著超過其他方法并逐漸趨于穩(wěn)定。MPGD的收斂速度位居第二,大約在第150輪次后趨于穩(wěn)定且保持在較高的收益水平,但仍低于DIMFL-DF。MAPPO和MAA2C的收斂速度相對較慢,約在第200輪次后收益趨于平穩(wěn),但其收益水平依然低于DIMFL-DF和MPGD。相比之下,Greedy的收斂速度較慢且波動(dòng)較大,收益始終保持在較低水平。
總體而言,DIMFL-DF在總體收益和收斂速度上均表現(xiàn)出顯著優(yōu)勢,其次是MPGD,而MAPPOMAA2C和Greedy的收益較低。
4.3.2貢獻(xiàn)數(shù)據(jù)新鮮度分析
圖5展示了DIMFL-DF在MNIST數(shù)據(jù)集上四個(gè)參與方的收益對比,清晰地體現(xiàn)了數(shù)據(jù)新鮮度度量模塊在評估數(shù)據(jù)貢獻(xiàn)時(shí)的有效性與公平性。實(shí)驗(yàn)結(jié)果表明,參與方1、2和3的收益相對較低,尤其是數(shù)據(jù)質(zhì)量較低的參與方1和2,其收益更為有限,而參與方4的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量都較高,獲得了最高的收益。這充分展示了DIMFL-DF在評估數(shù)據(jù)貢獻(xiàn)時(shí)兼顧了數(shù)據(jù)量和數(shù)據(jù)質(zhì)量,能夠在不同數(shù)據(jù)條件下公平且有效地評估各參與方的收益,驗(yàn)證了其在實(shí)際應(yīng)用中的有效性。
圖4五種不同方法的總體收益Fig.4Overall benefits offivedifferentmethods
4.3.3動(dòng)態(tài)策略分析
圖6展示了DIMFL-DF各參與方的數(shù)據(jù)貢獻(xiàn)策略的動(dòng)態(tài)調(diào)整情況。所提方法可以在沒有任何參與方私有信息和關(guān)于準(zhǔn)確度函數(shù)具體形式假設(shè)的情況下,實(shí)現(xiàn)動(dòng)態(tài)策略調(diào)整。
圖7展示了MPGD方法在相同條件下的一次實(shí)驗(yàn)結(jié)果。由于每個(gè)參與方都擁有獨(dú)立的評論家網(wǎng)絡(luò),導(dǎo)致參與方之間存在非協(xié)調(diào)性問題,產(chǎn)生了懶惰智能體(參與方1),沒有起到很好的激勵(lì)作用,進(jìn)而導(dǎo)致整體收益受限。
4.3.4準(zhǔn)確率
圖8展示了DIMFL-DF在表1所示數(shù)據(jù)集上的性能表現(xiàn)。從圖中可以看出,DIMFL-DF在所有數(shù)據(jù)集上都能迅速收斂,且在前100個(gè)輪次內(nèi)達(dá)到較高的準(zhǔn)確率水平。這說明DIMFL-DF在不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)集上具有很好的適應(yīng)性和效果
圖6DIMFL-DF各參與方的 數(shù)據(jù)貢獻(xiàn)策略變化 Fig.6Changes in participants' datacontribution strategies underDIMFL-DFmethod
圖7MPGD方法各參與方的 數(shù)據(jù)貢獻(xiàn)策略變化 Fig.7Changes in participants' datacontribution strategiesunderMPGDmethod
4.4消融實(shí)驗(yàn)
圖9和1O展示了DIMFL-DF在經(jīng)典的MNIST數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。本文通過比較包含和不包含數(shù)據(jù)新鮮度度量模塊的DIMFL-DF方法,對總體收益和全局模型準(zhǔn)確率的影響進(jìn)行了評估。結(jié)果清晰地顯示,移除數(shù)據(jù)新鮮度度量模塊后,總體收益和全局模型的準(zhǔn)確率顯著下降,表明了數(shù)據(jù)新鮮度度量模塊在提升模型整體性能方面的關(guān)鍵作用。
圖8DIMFL-DF在不同數(shù)據(jù)集上的全局模型準(zhǔn)確率Fig.8Global model accuracy ofDIMFL-DF on different datasets
圖9消融實(shí)驗(yàn):數(shù)據(jù)新鮮度度量圖 模塊對總體收益的影響 Fig.9Ablation experiment: the impact of data freshness measurement moduleonoverallbenefits
0消融實(shí)驗(yàn):數(shù)據(jù)新鮮度度量 模塊對準(zhǔn)確率的影響 Fig.10Ablation experiment: theimpactof data freshness measurement module on accuracy
5結(jié)束語
本文提出了一種融合數(shù)據(jù)新鮮度的聯(lián)邦學(xué)習(xí)動(dòng)態(tài)激勵(lì)機(jī)制,該機(jī)制通過數(shù)據(jù)新鮮度度量將數(shù)據(jù)新鮮度納入收益函數(shù),促使數(shù)據(jù)較優(yōu)質(zhì)的參與方更積極地參與聯(lián)邦學(xué)習(xí),進(jìn)而提升了整體收益和全局模型的準(zhǔn)確性。相比之下,其他方法在收益函數(shù)中未能充分考慮數(shù)據(jù)新鮮度,導(dǎo)致數(shù)據(jù)質(zhì)量較低的參與方同樣熱衷于參與聯(lián)邦學(xué)習(xí),這種情況限制了整體收益和全局模型的準(zhǔn)確性。此外,DIMFL-DF方法采用集中式訓(xùn)練與分布式執(zhí)行的框架,有效避免了多智能體強(qiáng)化學(xué)習(xí)中各個(gè)智能體的非協(xié)調(diào)性問題。因此,DIMFL-DF通過優(yōu)化整體框架和收益函數(shù)顯著提升了系統(tǒng)性能,展現(xiàn)出更強(qiáng)的適應(yīng)性和有效性。實(shí)驗(yàn)結(jié)果表明,所提方法在公開數(shù)據(jù)集上表現(xiàn)出卓越的收益和泛化能力,驗(yàn)證了其有效性和適用性。聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制作為當(dāng)前研究的熱點(diǎn)之一,在未來的工作中,將針對網(wǎng)絡(luò)條件不穩(wěn)定的情況,進(jìn)一步優(yōu)化激勵(lì)機(jī)制以增強(qiáng)其在網(wǎng)絡(luò)條件不穩(wěn)定以及帶寬受限等復(fù)雜環(huán)境下的適應(yīng)性。
參考文獻(xiàn):
[1]McMahanB,Moore E,Ramage D,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Inteligence and Statistics. New York:PMLR Press,2017:1273-1282.
[2]Kang Jiawen,Xiong Zehui,Niyato D,et al.Incentive design for efficient federated learning in mobile networks:a contract theory approach [C]//Proc of IEEE Asia Pacific Wireless Communications Symposium.Piscataway,NJ:IEEE Press,2019:1-5.
[3]Shashi RP,Nguyen HT,Mehdi B,et al. A crowdsourcing framework for on-device federated learning[J]. IEEE Trans on Wireless Communications,2019,19(5) :3241-3256.
[4]Li Yunpeng,Courcoubetis C,Duan Lingjie. Recommending paths: follow or not follw?[C]//Proc of IEEE Conference on Computer Communications.Piscataway,NJ:IEEE Press,2019:928-936.
[5]顧永跟,鐘浩天,吳小紅,等.不平衡數(shù)據(jù)下預(yù)算限制的聯(lián)邦學(xué)習(xí) 激勵(lì)機(jī)制[J].計(jì)算機(jī)應(yīng)用研究,2022,39(11):3385-3389.(Gu Yonggen,ZhongHaotian,Wu Xiaohong,et al. Incentivemechanismfor federated learning with budget constraints under unbalanced data[J]. Application Research of Computers,2022,39(11) :3385-3389.)
[6]艾秋媛,詹志堅(jiān),王聰,等.基于強(qiáng)化學(xué)習(xí)的可持續(xù)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī) 制設(shè)計(jì)[J].經(jīng)濟(jì)管理學(xué)刊,2024,3(1):115-144.(Ai Qiuyuan, Zhan Zhijian,Wang Cong,et al. Incentive mechanism design for sustainable federated learning based onreinforcementlearning[J].QuarterlyJournal ofEconomicsandManagement,2024,3(1):115- 144.)
[7]ShisherMKC,Yin Sun.How does data freshness affect real-time supervised learning?[C]//Proc of the 23rd International Symposium on Theory,Algorithmic Foundations,and Protocol Design for Mobile Networksand Mobile Computing.New York:ACMPress,2022:31-40.
[8]Dai Zipeng,Wang Hao,Liu C H,et al.Mobile crowdsensing for data freshness:a deep reinforcement learning approach[C]//Proc of IEEE INFOCOM. Piscataway,NJ:IEEE Press,2021:1-10.
[9]Wang Yuliu,Ryusuke S. Manipulator motion planning via centralized training and decentralized execution multi-agent reinforcement learning[C]//Proc of International Conference on Advanced Robotics and Mechatronics.Piscataway,NJ:IEEEPress,2022:812-817.
[10]Sarikaya Y,Ercetin O. Motivating workers in federated learning: a Stackelberg game perspective[J].IEEE Networking Letters,2020,2 (1) :23-27.
[11]Zhan Yufeng,LiPeng,Qu Zhihao,et al.A learning-based incentive mechanism for federated learning[J].IEEE Internet of Things Journal,2020,7(7) :6360-6368.
[12]郭劍嵐,陳俞強(qiáng).基于Stackelberg 博弈的車載云計(jì)算任務(wù)卸載優(yōu) 化[J].計(jì)算機(jī)應(yīng)用研究,2019,36(12):3752-3755,3784.(Guo Jianlan,Chen Yuqiang.Optimal computation offloading for vehicular cloud computing using Stackelberg game[J]. Application Research ofComputers,2019,36(12):3752-3755,3784.)
[13]LeTHT,TranNH,TunYK,etal.Anincentivemechanismfor federated learning in wireless cellular networks: an auction approach 48/4-4887.
[14]周惟風(fēng),朱琦.基于拍賣理論和補(bǔ)償激勵(lì)的頻譜共享新算法[J]. 通信學(xué)報(bào),2011,32(10):86-91.(Zhou Weifeng,Zhu Qi.Novel auction-based spectrum sharing scheme with the compensation and motivation mechanism[J]. Journal on Communications,2011,32 (10) :86-91.)
[15] Deng Yongheng,Lyu Feng,Ren Ju,et al. Improving federated learning with quality-aware user incentive and auto-weighted model aggregation [J].IEEE Trans on Parallel and Distributed Systems,2022,33 (12):4515-4529.
[16]Li Li,Yu Xi,Cai Xuliang,etal.Contract-theory-based incentive mechanism for federated learning in health crowdsensing[J].IEEE Intermet of Things Joumal,2022,10(5):475-4489.
[17]楊揚(yáng),殷紅建,王超.考慮競爭環(huán)境的聯(lián)邦學(xué)習(xí)多維契約激勵(lì)機(jī)制 研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(10):3007-3015.(Yang Yang,Yin Hongjian,Wang Chao.Incentive mechanism for federated learning in competitive environment:multidimensionalcontractapproach[J]. Application Research of Computers,2023,40(10): 3007-3015.)
[18]MnihV,Kavukcuoglu K,SilverD,etal.Human-level control through deep reinforcement learning[J].Nature,2015,518:529-533.
[19]王鑫,黃偉口,孫凌云.跨機(jī)構(gòu)聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制綜述[J].計(jì) 算機(jī)科學(xué),2024,51(3):20-29.(WangXin,HuangWeikou,Sun Lingyun.Survey of incentive mechanism for cross-silo federated learning[J].Computer Science,2024,51(3) :20-29.)
[20] Zhan Yufeng,Guo Song,Li Peng,et al.A deep reinforcement learning based offloading game in edge computing[J]. IEEE Trans on Computers,2020,69(6):883-893.
[21]Yuan Shijing,Dong Beiyu,Lyu Hongtao,et al.Adaptive incentive for cross-silo federated learning in IIoT:a multiagentreinforcement learning approach[J].IEEE Internet of Things Jourmal,2024,11(9): 15048-15058.
[22]Litman M.Markov games asa framework for multi-agent reinforcement learning[C]//Proc of International Conference on Machine Learning. New York :ACM Press,1994:157-163.
[23]田超,鄭皎凌.CTS:基于擁堵溯源算法的信號燈多智能體強(qiáng)化學(xué) 習(xí)組織方案[J].計(jì)算機(jī)應(yīng)用研究,2023,40(1):178-184.(Tian Chao,Zheng Jiaoling.CTS:trafc lightsmulti-agent reinforcement learning organization scheme based on congestion trace source algorithm[J].Application Research of Computers,2023,40(1):178- 184.)
[24]Monahan G.State of the art:a survey of partiallyobservable Markov decision processes: theory,models,and algorithms[J].Management Science,1982,28(1) :1-16.
[25]Wei Zeng,Xu Jun,Lan Yanyan,et al.Reinforcement learning to rank with Markov decision process[C]//Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : ACM Press,2017:945-948.
[26] Guo Delin,Tang Lan,Zhang Xinggan,et al.Joint optimization of handover control and power allocation based on multi-agent deep reinforcement learning[J]. IEEE Trans on Vehicular Technology, 2020,69(11):13124-13138.
[27]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016: 770 770
收稿日期:2025-01-10;修回日期:2025-03-07 基金項(xiàng)目:新疆維吾爾自治區(qū)重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2023B01026,2023B01028);新疆維吾爾自治區(qū)“天山英才”資助項(xiàng)目(2022TSYCLJ035,2023TSYCCX0046,2023TSYCTD011);中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)資助項(xiàng)目(2021434)
作者簡介:達(dá)吾列·金恩斯別克(1996—),男(哈薩克族),碩士研究生,CF會(huì)員,主要研究方向?yàn)槁?lián)邦學(xué)習(xí);王軼(1986—),男,研究員,碩導(dǎo),博士,主要研究方向?yàn)閰^(qū)塊鏈、大數(shù)據(jù)治理;周喜(1978—),男,研究員,博導(dǎo),博士,主要研究方向?yàn)槲锫?lián)網(wǎng)應(yīng)用、大數(shù)據(jù)分析;王曉博(1976—),女(通信作者),副研究員,碩導(dǎo),博士,主要研究方向?yàn)閿?shù)據(jù)融合與分析、知識(shí)圖譜(wangxb@ms.xjb.ac.cn).