999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

區塊鏈預言機節點選擇的深度強化學習中間件

2024-07-31 00:00:00徐莉程梁培利
計算機應用研究 2024年6期

摘 要:優化區塊鏈環境中現有預言機方案中的節點選擇問題,以提高預言機節點選擇的準確性和可靠性。引入了基于深度強化學習的區塊鏈預言機節點選擇中間件ORLM(oracle reinforcement learning model)。該中間件考慮了不同服務需求下多個節點的消耗,并建立了預言機節點的聲譽值模型來評估預言機數據提供節點的聲譽值,從而盡可能避免對具有惡意歷史的節點的選擇。通過深度強化學習DQN(deep Q network)算法,中間件能夠對選擇節點的過程進行優化,以在保證安全性的情況下進行更好的節點選擇。實驗結果表明,所提出的中間件能夠更好地滿足用戶的服務請求,且具有較高的可擴展性和可用性,證明了引入深度強化學習來優化預言機節點選擇是一個可行的方向。

關鍵詞:區塊鏈;深度強化學習;預言機;DQN

中圖分類號:TP399 文獻標志碼:A文章編號:1001-3695(2024)06-005-1635-05

doi: 10.19734/j.issn.1001-3695.2023.10.0516

Deep reinforcement learning middleware for blockchain oracle node selection

Abstract:This paper aimed to optimize the node selection problem in existing oracle machine schemes in the blockchain environment in order to improve the accuracy and reliability of oracle machine node selection. This paper introduced ORLM, a deep reinforcement learning based middleware for blockchain prophecy machine node selection. This middleware considered the consumption of multiple nodes under different service demands and modeled the reputation value of the prophecy machine nodes to sick the reputation value of the oracle machine data-providing nodes, thus avoiding the selection of nodes with malicious history as much as possible. With the deep reinforcement learning DQN algorithm, the middleware is able to optimize the process of selecting nodes for better node selection with security. The experimental results show that the oracle middleware is able to better satisfy the service requests of users. And it has high scalability and availability. It proves that the introduction of deep reinforcement learning to optimize the oracle node selection is a feasible direction.

Key words:blockchain; deep reinforcement learning; oracle; DQN

0 引言

當前,智能合約在區塊鏈中的應用越來越廣泛,它能夠自動執行雙方事先約定的邏輯和交易。因為區塊鏈去中心化和透明的特性,越來越多的去中心化應用通過智能合約在鏈上建立,涉及傳統行業物聯網[1]、醫療領域[2]和供應鏈[3]等諸多領域。然而,要實現這些現實世界中的邏輯,首先需要獲取現實世界中的數據。由于區塊鏈的數據可用性[4],鏈上的智能合約無法直接訪問鏈下的數據。所以,獲取外部數據,對于鏈上智能合約的執行至關重要。預言機解決了這一問題,鏈上智能合約可以通過預言機來獲取鏈外的數據[5],從而打破鏈上和鏈下之間的隔閡,使智能合約能夠更好地為現實世界服務。預言機充當了區塊鏈與現實世界之間的橋梁,將外部數據引入鏈上,供智能合約使用。

預言機[6]是區塊鏈中十分重要的一部分。它被用來為區塊鏈網絡提供服務,滿足不同的鏈上應用對于鏈下數據的需求[7],幫助鏈上的智能合約獲取區塊鏈網絡之外的數據。預言機可以通過多種方式獲取外部數據[8],包括外部API進行交互、監控傳感器數據、網絡數據等。獲取到的數據預言機會將其簽名并傳輸到區塊鏈上,以保證數據在傳輸的過程中不可被竄改。

一個預言機通常會采用多個預言機節點來為自己提供數據,這是因為在預言機系統當中,通過使用多個預言機節點,可以整體提高系統的可靠性和容錯性,如果一個節點發生故障或者受到攻擊,其他節點能夠繼續提供服務[9],可以確保系統的連續性和穩定性。一個預言機節點不止提供一項服務,每個預言機數據提供節點提供的服務可能是多樣的,這引發的問題是對于同一個節點提供的不同服務可能存在差異性,不同節點的相同服務存在不同的成本。

深度強化學習(deep reinforcement learning)[10]是一種結合了深度學習和強化學習[11~14]的方法,用于解決具有高維狀態和動作空間的復雜任務,而伴隨著聲譽值不斷變化的預言機節點選擇,其本身就具備這一特性。因此深度強化學習能夠較好地適應預言機節點的選擇問題。

本文相關工作如下:

a)提出了幫助區塊鏈預言機節點進行選擇的鏈下中間件,鏈上的用戶請求會發送到鏈下的中間件當中,根據不同的服務請求,中間件在考慮gas消耗和聲譽值信用的情況下選擇最優的節點來滿足服務請求,再將結果返回至鏈上,由鏈上被選擇的該節點來提供此次服務的數據。總體上能夠節約gas手續費的消耗,并且盡可能地避免具有惡意歷史的節點再次對服務進行作惡的可能性。在下文將稱為ORLM。

b)基于預言機節點信用量化的聲譽值模型,能夠幫助節點選擇中間件更好地評判一個節點的信用和作惡的可能性。

c)基于深度強化學習DQN,本文將不同節點不同服務以及節點各自的聲譽值定義為馬爾可夫決策過程。在gas和動態的聲譽值信用的情況下能夠快速地進行決策,針對不同的服務為其選擇衡量安全性和手續費消耗下最優的節點。

1 研究現狀

學界針對預言機節點選擇優化的相關研究大致分為安全和性能這兩個方向。從安全性方面來說,為智能合約提供未被竄改的精準的鏈下數據。根本問題在于無論是中心化還是去中心化的預言機系統,預言機節點在鏈外所獲取的信息都是中心化的,并不具備區塊鏈所具有的通過共識算法來保證數據安全的特性,因此存在被攻擊或者惡意操控的可能性。這個時候就需要構建一個相對安全的預言機系統在預言機節點發送的數據被智能合約執行之前,篩選出不作惡的節點或者保證發送的數據的準確性。Pasdar等人[15]提出了基于聲譽值和基于投票的預言機,由用戶組成一組投票者或者驗證者,雙方進行質押之后來對數據的正確性進行驗證。結果正確的一方將會分配失敗一方的質押來作為獎勵。Chainlink[16]是鏈上著名的去中心化預言機,它通過多個預言機提供的數據進行比較后聚合,聚合采用不同的方法,例如選擇中位數、平均值或加權平均值作為最終結果,來防止惡意數據的提供,并且通過數字簽名來保證數據來源的真實性,防止在傳播的過程中出現數據竄改的情況。在性能方面,提供相同服務的預言機節點存在信用、成本以及時延之類具有差異的數值,如何在考慮這些數值的情況下幫助用戶選擇需要服務的最優節點,便是關于預言機性能方面的問題。Almi’Ani等人[17]提出了一種基于圖的分析方法來確定區塊鏈預言機的可信度,以預言機的數據有效性和準確性的累計平均差異作為邊的權重,以此來區分值得信賴的預言機,并且該方案在鏈上及鏈下都可以進行實現。

Goswami等人[18]轉換并證明區塊鏈節點選擇問題是一個NP難問題,并提出了一種啟發式算法來解決該NP難問題。盡管Goswami所構建的NP難問題當中也同時考慮了gas的消耗以及其他相關成本問題,但這些成本大多數會隨著鏈上網絡狀況以及用戶使用情況而變動。因此該算法對于長期維持預言機節點選擇的魯棒性并不樂觀。Taghavi等人[19]提出了一個基于鏈上的多臂老虎機算法的預言機節點選擇策略,在權衡預言機消耗和信用值的情況下選擇最優的預言機節點,并將惡意行為的可能性降至最低。但該多臂老虎機通過智能合約來進行模型的構建并對預言機作出選擇。盡管很大程度上保證了模型的安全性和不可竄改性,但每次和模型交互都需要通過智能合約來進行計算,這在速度和成本上的犧牲都過高。在Taghavi等人[19]的模型的基礎之上,考慮gas消耗和信譽值的同時,本文將決策節點選擇的模型移至鏈外。通過DQN算法結合鏈上信息訓練出的模型和鏈上合約進行交互[20],幫助用戶進行節點的選擇,以在保證安全性的同時,節省更多的鏈上資源且響應更快。

強化學習是一種通過智能體與環境不斷交互、不斷試錯,以達到在不同環境中選擇最佳行動并最大化期望的行為策略方法。 強化學習的過程屬于馬爾可夫決策過程(MDP),通常將MDP用一個六元組進行定義(S,A,P,R,γ,done)。其中:st∈S是狀態集,表示智能體在t時刻的狀態;at∈A是動作集,表示智能體在t時刻進行的動作;P(st+1|at,st)表示在st狀態之后執行到st狀態的概率;r∈R是及時獎勵,表示智能體在t時刻所獲得的獎勵;γ是折扣函數,當γ→1時,該智能體會更加關注未來的一個總體獎勵,當γ→0時,智能體只會更加關注當下的一個獎勵;done代表環境的終止狀態。

目前強化學習主要可分為基于價值和基于策略兩種方法。其中,Q-learning是一種著名的基于價值的強化學習算法。該算法通過構建一個表格,將狀態和動作進行關聯,以表示在不同狀態下執行不同動作所產生的Q值。通過選擇具有最高Q值的動作來進行決策。

Q(s,a)=r+γmaxQ(s′,a′)(1)

Q值的更新如下:

Q(s,a)←Q(s,a)+a[r+γmaxQ(s′,a′)-Q(s,a)](2)

在深度強化學習中[11],DQN[21]是一種結合了Q-learning和深度神經網絡的算法,它是一種基于離線策略的方法。如圖1所示,DQN的核心是利用神經網絡來近似Q值函數的計算。在DQN中有兩個神經網絡結構,即Q_network和Q_network_target,它們具有相同的網絡結構,但參數b不同。Q_network的參數會復制到Q_network_target當中,實現目標網絡的更新。

每次模型訓練神經網絡時,DQN會從經驗回放緩沖區中隨機采樣一個批次的數據進行梯度下降。這種經驗回放能夠滿足獨立假設,與直接從環境中交互獲取的數據不同,環境中直接交互而來的數據會使神經網絡擬合到最近訓練的數據上,從而導致在訓練過程中傾向于過度擬合最近的訓練樣本,忽略之前的經驗。而采用經驗回放可以解決這一問題。

DQN使用均方損失函數計算當前Q值和目標Q值之間的損失,并通過反向傳播和梯度下降算法來更新神經網絡的權重,以最小化損失值,使得Q值逼近目標Q值。

Loss=(r+γ max Q(s′,a′)-Q(s,a))2(3)

2 ORLM介紹

2.1 ORLM架構

圖2展示了鏈上預言機的架構,包括預言機合約和預言機集群兩個部分。預言機合約作為一個中間橋梁,集合了相關數據預言機提供商的節點地址,并且保存了預言機節點的密鑰對,以防止數據在傳輸過程中被竄改。用戶合約只需要向預言機合約提交自己需要的數據請求,預言機合約從自己集合的預言機節點地址中選擇一個節點。預言機集群由眾多預言機節點組成。這些預言機向鏈下獲取鏈外數據,并將數據返回給用戶合約。然而,相同服務的不同預言機節點消耗的gas是存在差異的,并且提供的數據不一定全是可以完全信任的。為了解決這些問題,本文提出了ORLM模型的區塊鏈預言機合約中間件架構,在圖3中,該中間件的運作流程包括以下步驟:

a)用戶參與到用戶合約中。b)該用戶合約向預言機中間件合約提交自己所需數據的服務需求,將請求服務的類型用ID進行表示,起到一個索引的作用。c)當需要數據的服務請求發送到預言機中間件的智能合約中后,由ORLM在鏈下對該智能合約服務請求序列的事件(event)進行抓捕,用來獲取該合約隊列中最新的需要的預言機服務;并且通過智能合約的事件進行抓捕,能夠保證請求的順序,使用戶對預言機進行請求的順序和ORLM根據服務進行預言機節點選擇的順序是相同的。ORLM通過基于DQN的深度強化學習算法,將整個預言機集群的狀態轉換成一個馬爾可夫決策過程,并基于聲譽模型的信用值和gas消耗找到一個能提供該服務的最優節點。d)ORLM需要獲取該預言機所在鏈上的基礎gas值,基礎gas值對于不同的鏈和該鏈不同段的交易量會產生不同的數值,這將作為不同預言機節點不同服務的差異性之外的基礎數值。減掉basic gas的基礎數值,對于ORLM,能使模型gas消耗更加敏感,從而更好地在不同狀態下探索到每種服務的最優選擇。e)在選擇最優的節點之后,該節點將被返回給預言機中間件合約,將選擇的節點再返回給預言機中間件合約,由該合約對預言機節點群組進行選取。f)預言機節點在獲取到請求之后。g)會從鏈上調用鏈下的數據。h)調用數據之后,再將數據發送到鏈上合約之前,預言機會對即將要發送的數據進行簽名,這是為了防止在數據傳輸的過程當中出現數據被竄改或者替換的情況。之后將調用后的預言機聲譽值更新并將預言機當前的狀態返回給預言機合約。i)由預言機中間件合約驗證簽名以及判斷數據真實性和是否作惡之后,將相關數據通過公鑰進行加密,以密文的形式返回給ORLM模型,ORLM得到數據之后再通過私鑰進行解密,以保證傳輸過程當中數據的安全性。j)幫助ORLM中的模型進行及時更新,ORLM會動態地進行預言機選擇決策權重的更新。k)預言機中間件合約會將從預言機節點獲得的數據傳送給用戶調用的合約,完成本次服務的請求。

2.28lzDw/0Qqp/gzKH2vg9uKA== ORLM模型介紹

區塊鏈預言機節點選擇是一個序貫的過程,因為gas值會根據鏈上交易的網絡情況進行波動,且調用次數的多少會導致預言機節點之間信用的相對排序產生變化。本文將預言機節點之間的選擇問題轉換成馬爾可夫決策過程,其中包括狀態空間、選擇空間和獎勵函數,以及為了避免惡意節點的聲譽值模型。預言機節點選擇的優化問題為

其中:w1和w2是gas消耗和信用值之間的權重;Gij是第j個預言機節點中的第i個服務所消耗的gas;Gbasic為該鏈目前網絡狀況所產生的費用;Cj是第j個節點的信用值,信用值越高代表該節點作惡的可能性越小。

2.2.1 狀態空間

假設系統中擁有n個已知的預言機, j∈{1,…, j},并且每個預言機都同時提供i種服務,那么對應的預言機i服務就表示為ji,Gji表示j節點對應的i服務所需要消耗的gas。狀態函數為St,由于這里的t表示不同時間的狀態,但在鏈上不同狀態的時間難以統一量化,所以t表示每次節點進行選擇的次數。狀態的表示為

St={Gij,Cj}(5)

2.2.2 動作空間

ORLM可以進行的動作空間是A,但這只是該模型在面對每個St狀態時可以進行的動作空間,每次進行動作選擇的時候還要受限于當時選擇的服務和預言機節點的數量,要在特定的服務i中進行動作ai的選擇。

A∈{a1,…,aj}(6)

2.2.3 獎勵函數

ORLM模型會從兩個方面來權衡節點的選擇:一個是當前預言機n面對K服務所需消耗的gas,gas消耗得越少,預言機就更應該對該節點進行選擇;另一個則是不同節點的聲譽值信用,這表示一個節點的歷史信用,通過該聲譽值模型,能夠更好地了解該節點的信用以及是否進行作惡、數據準確和及時提供的可能性。因此本文設置了兩個權重w1和w2來調整gas消耗以及節點之間對于獎勵函數的比例。獎勵函數如下:

R=-w1×Gij+w2×Cj(7)

以上是沒有節點作惡或者節點提供的數據實時性準確的情況下的獎勵函數,當該節點提供的數據被判定為無效或者作惡的情況下,獎勵函數如下:

其中:Pr和PC分別對應的是對獎勵值的懲罰和對該節點信用的懲罰。PC是一個動態數據,總的來說,如果節點聲譽值信用越高,那么該PC的數值就會越大。這樣設計的初衷是因為聲譽值信用越高的節點被選擇的概率也會越大,所以需要較大的懲罰才能有效地降低該節點作惡后再次被選擇的概率。

2.2.4 聲譽值模型

聲譽值可以表示一個預言機節點的歷史信用和該節點作惡的可能性。本文分下面兩種情況進行聲譽值的介紹。一個是節點的歷史信用節點,每次對一個節點進行請求,該節點的信用就會進行一個常數H的線性固定增長,但對于獎勵函數來說,常數H的線性增長會導致獎勵函數對于信用的比重增加,導致獎勵函數對于gas消耗不敏感,因此本文提出Cj為該節點的信用值,T為該節點被調用的次數,這樣能夠避免信譽值獎勵函數爆炸,從而影響模型對于gas變得不敏感的情況。并且,如果該節點作惡或者發送了不準確的數值,除了對獎勵函數進行懲罰之外,本文還對該節點的聲譽值信用進行減少。

2.3 探索策略設計

強化學習在與環境進行交互的過程當中,完全的貪婪算法在每一時刻采用期望獎勵估值最大的動作,而沒有探索。利用ε-greedy貪心算法能夠在期望獎勵估值最大的時候,同時對環境進行隨機探索。在傳統的ε-greedy貪心算法當中,ε值是固定的,如果它設置得過高,會導致模型在最優的情況下依然對周圍環境進行隨機探索,可能會觸發之前已經有惡意歷史的預言機節點,并且讓已經訓練好的神經網絡模型擬合困難。如果這個值太小,會導致模型對于環境的探索不充分,陷入局部最優,錯過當前情況下的更優解。面對本文的實際情況,理想情況下,模型對預言機節點在早期的訓練探索階段進行充分的探索,而在充分探索過后,應該逐漸降低ε的值來幫助模型更好地進行收斂。因此本文采用根據訓練回合而進行動態調整的ε-greedy方法。訓練早期進行充分的探索,在訓練達到一定的次數之后,ε值開始降低,減少探索的概率,以此來幫助神經網絡更好地進行收斂。ε-greedy改進后的公式如下:

T為訓練次數,當T<M時,此時的ε 為自定義的一個常數,當T>M之后,ε 會隨著訓練次數進行動態衰減。

2.4 ORLM的智能體訓練

算法1 DQN訓練算法

本文通過上述算法來進行智能體的訓練,訓練開始前需要初始化用于訓練神經網絡的經驗回放buffer,用于存放智能體在環境中進行交互產生的經驗樣本,每回合訓練開始前需要消耗所有節點的gas以及重置該節點的聲譽值信用。

算法剛開始階段,當buffer中存儲的經驗還沒有達到一定數目時,智能體通過與環境交互來進行學習,根據ε-greedy執行動作,在動作執行完成之后,不斷地將交互產生的(st, at, rt,it)以及執行完動作產生的st+1等經驗存入經驗回放buffer當中。在buffer存儲了足夠多的數據之后,從中隨機取出小批樣本用來訓練神經網絡。計算每個樣本的TD差,之后對網絡執行梯度下降法,每隔W步之后將Q_network的參數更新到Q_network_target中去。

3 仿真實驗

由于并沒有查找到相關鏈上數據及測試集,本文在本地進行預言機模擬。在實驗中,本文參考文獻[19],假設每個預言機節點被選擇的消耗是固定的,并且呈正態分布,平均值為0.54,標準差為0.17。為了模擬針對不同節點預言機中間件的節點選擇情況,本文模擬了三種不同的服務。通過請求不同的服務來觀察ORLM預言機中間件對于不同服務的節點選擇情況,且在每回合中,每個服務的請求數量都是平均的。

對于用戶請求的響應速率而言,此次實驗通過本地快速模擬一條鏈來和模型進行交互,從而仿真該模型收到的用戶合約請求,將這個請求發送給模型后,模型再作出決策發送到鏈上的時間,通過Ganache工具部署一條本地的鏈,并在上面部署預言機的測試合約。本實驗忽略了鏈的出塊時間,設定為有交易就及時出塊,每次請求的仿真結果均小于1 s,平均值為0.443 s。相比于目前主流的鏈的出塊時間,這個速度并不會給用戶造成延遲體驗。

更多的實驗數據如表1、2所示。在實驗中隨機加入兩個節點來模擬鏈上預言機將數據判斷為惡意或不準確的情況。在該仿真實驗中,當預言機選擇該節點的任何服務時,該節點觸發時,有Maliciously_ε的概率被判定為惡意的,從而模擬ORLM模型面對惡意節點時的處理情況和后續選擇。

3.1 對比策略

本文分別采用DDQN[22]算法、隨機分配算法、DQN算法,以及基于貪婪策略的多臂老虎機算法[19]來模擬鏈上的預言機節點選擇。從以下三個方面來評估該中間件面對預言機節點選擇的性能:

a)不同算法每回合的選擇總和所消耗的全部gas;

b)在每回合的節點選擇中,三種服務選取總數是平均的,觀察每種服務在每回合中所消耗的gas;

c)每回合中觸發惡意節點的次數,以此來展示面對具有惡意行為歷史的節點的選擇情況。

在實驗過程中發現,通過調節折扣函數能夠明顯改變ORLM模型的訓練結果,因此選取折扣因子為0.9、0.5及0.1進行對比。

3.2 測試

模型訓練過程中針對total_gas的相關表現訓練結果、針對惡意節點的相關表現如圖4、5所示。

圖4中橫坐標為訓練的回合數,縱坐標為每回合中所消耗的gas的總量。從實驗中可以明顯看到,較高的折扣因子并不能很好地得到最優的決策。從gas總體消耗對比來說,折扣因子為0.5和0.1時,都表現出了較好的針對gas較少的節點進行選擇的決策,但在惡意節點的數目當中,折扣因子為0.1和0.5產生了差別。可以從圖5中看到,DDQN折扣因子為0.1時,直到訓練結束,對于惡意節點的觸發次數仍然高于其他的對照組,而DQN為0.1時,對于惡意節點的觸發次數則下降得比其他對照組更緩慢一些。這樣的原因是當對未來考慮較低的時候,模型決策本質上更接近于貪婪決策,更偏向于考慮當前情況下能獲得獎勵最大的決策,因此觸發惡意節點的概率相對折扣因子為0.5和0.9的模型來說要大一些。基于貪婪算法的多臂老虎機在與DQN和DDQN[22]的對比中可以看到,多臂老虎機算法一直在更新優化自己的決策,初始開始時,在多臂老虎機遍歷完所有的行為動作之后,能夠找到相對于DDQN和DQN在gas消耗方面更優的決策。但在數量相對龐大的預言機節點和服務當中,相比DDQN和DQN算法,其向著更優決策的速度相對更為緩慢一些。

在環境中進行測試,由于在之前的實驗中已經確定了折扣因子為0.5在預言機整體決策上具有更好的效果,所以本文列舉出了DQN_0.5、DDQN_0.5、隨機分配算法以及多臂老虎機算法來進行總體gas消耗和不同服務的預言機進行2 000次選擇的gas消耗對比,如圖6、7所示。三種服務被請求的次數是平均的。

從圖6中可以看到,DQN和DDQN模型在1 000回合的訓練之后,總體消耗gas相差不大。在當前平均數0.51,標準差0.17的預言機節點環境下,只占了隨機分配算法所消耗的gas的33%左右,相較于多臂老虎機,只占了該算法消耗的77%左右。從圖7可以看出,在相同服務的請求下,service 1的差異較小,DQN和DDQN算法只占隨機分配算法和多臂老虎機算法的50%和90%左右,service 2和service 3的差異較大。

4 結束語

本文提出了鏈下的區塊鏈預言機節點選擇的深度強化學習中間件,基于DQN算法,用深度強化學習的中間件獲取鏈上的數據,將預言機節點決策的問題抽象成為了一個馬爾可夫過程,根據不同的服務需求通過模型抉擇后,幫助鏈上的預言機合約進行最優的節點選擇,進而優化了預言機中間件合約的消耗和性能問題。實驗結果表明,通過深度強化學習的模型相對于鏈上隨機進行分配和基于貪心算法的多臂老虎機性能有較大的提升。由于時間和精力有限,本文在研究中還存在以下三個可以進一步改進的地方:a)服務的類型過少,可以探究更多服務下深度強化學習在預言機節點集群中的選擇效果;b)去中心化不足,因為本模型是基于鏈下進行的中間件,該中間件的去中心化性還有待商榷;c)可以盡可能地嘗試更多的深度強化學習模型(如DQN的其他變體,TRPO、PPO等)。

參考文獻:

[1]Novo O. Blockchain meets IoT: an architecture for scalable access management in IoT [J]. IEEE Internet of Things Journal,2018,5(2): 1184-1195.

[2]Xie Yi,Zhang Jiayao,Wang Honglin,et al. Applications of blockchain in the medical field: narrative review [J]. Journal of Medical Internet Research,2021,23(10): e28613.

[3]Pournader M,Shi Yangyan,Seuring S,et al. Blockchain applications in supply chains,transport and logistics: a systematic review of the li-terature[J]. International Journal of Production Research,2020,58(7): 2063-2081.

[4]Hassan N U,Yuen C,Niyato D. Blockchain technologies for smart energy systems: fundamentals,challenges,and solutions [J]. IEEE Industrial Electronics Magazine,2019,13(4): 106-118.

[5]Wang Yanhua,Liu Heming,Wang Jianhua,et al. Efficient data interaction of blockchain smart contract with oracle mechanism [C]// Proc of the 9th IEEE Joint International Information Technology and Artificial Intelligence Conference.Piscataway,NJ:IEEE Press,2020:1000-1003.

[6]Caldarelli G. Real-world blockchain applications under the lens of the oracle problem: a systematic literature review [C]// Proc of IEEE International Conference on Technology Management,Operations and Decisions. Piscataway,NJ: IEEE Press,2020: 1-6.

[7]Woo S,Song J,Park S. A distributed oracle using Intel SGX for blockchain-based IoT applications [J]. Sensors,2020,20(9): 2725.

[8]Adler J,Berryhill R,Veneris A,et al. Astraea: a decentralized blockchain oracle [C]// Proc of IEEE International Conference on Internet of Things (IThings) and IEEE Green Computing and Communications (GreenCom) and IEEE Cyber,Physical and Social Computing (CPSCom) and IEEE Smart Data (SmartData). Piscataway,NJ: IEEE Press,2018: 1145-1152.

[9]Cai Yuxi,Fragkos G,Tsiropoulou E E,et al. A truth-inducing sybil resistant decentralized blockchain oracle [C]// Proc of the 2nd Conference on Blockchain Research & Applications for Innovative Networks and Services. Piscataway,NJ: IEEE Press,2020: 128-135.

[10]Li Yuxi. Deep reinforcement learning: an overview [EB/OL]. (2018-11-26). https://arxiv.org/abs/1701.07274.

[11]劉全,翟建偉,章宗長,等. 深度強化學習綜述 [J]. 計算機學報,2018,41(1): 1-27. (Liu Quan,Zhai Jianwei,Zhang Zongzhang,et al. A survey on deep reinforcement learning [J]. Chinese Journal of Computers,2018,41(1):1-27.)

[12]閻世宏,馬為之,張敏,等. 結合用戶長短期興趣的深度強化學習推薦方法 [J]. 中文信息學報,2021,35(8):106-117. (Yan Shihong,Ma Weizhi,Zhang Min,et al. Reinforcement learning with user long-term and short-term preference for personalized recommendation [J]. Journal of Chinese Information Processing,2021,35(8):106-117.)

[13]劉建偉,高峰,羅雄麟. 等. 基于值函數和策略梯度的深度強化學習綜述 [J]. 計算機學報,2019,42(6):1406-1438. (Liu Jianwei,Gao Feng,Luo Xionglin,et al. Survey of deep reinforcement learning based on value function and policy gradient [J]. Chinese Journal of Computers,2019,42(6):1406-1438.)

[14]逄金輝,馮子聰. 基于不確定性的深度強化學習探索方法綜述 [J]. 計算機應用研究,2023,40(11): 3201-3210. (Pang Jinhui,Feng Zicong. Exploration approaches in deep reinforcement learning based on uncertainty:a review [J]. Application Research of Computers,2023,40(11): 3201-3210.)

[15]Pasdar A,Dong Zhongli,Lee Y C. Blockchain oracle design patterns [EB/OL]. (2021-06-17). https://arxiv.org/abs/2106.09349.

[16]Breidenbach L,Cachin C,Chan B,et al. Chainlink 2.0: next steps in the evolution of decentralized oracle networks [J]. Chainlink Labs,2021,1: 1-136.

[17]Almi’Ani K,Lee Y C,Alrawashdeh T,et al. Graph-based profiling of blockchain oracles [J]. IEEE Access,2023,11: 24995-5007.

[18]Goswami S,Danishan S M,Zhang Kaiwen. Towards a middleware design for efficient blockchain oracles selection [C]// Proc of the 4th International Conference on Blockchain Computing and Applications. Piscataway,NJ: IEEE Press,2022: 55-62.

[19]Taghavi M,Bentahar J,Otrok H,et al. A reinforcement learning model for the reliability of blockchain oracles [J]. Expert Systems with Applications,2023,214: 119160.

[20]Salah K,Rehman M H U,Nizamuddin N,et al. Blockchain for AI: review and open research challenges [J]. IEEE Access,2019,7: 10127-10149.

[21]Mnih V,Kavukcuoglu K,Silver D,et al. Human-level control through deep reinforcement learning [J]. Nature,2015,518(7540): 529-533.

[22]Van Hasselt H,Guez A,Silver D. Deep reinforcement learning with double Q-learning [EB/OL]. (2015-12-08). https://arxiv.org/abs/1509.06461.

主站蜘蛛池模板: 在线中文字幕日韩| 中文字幕 欧美日韩| 四虎成人在线视频| 国产又爽又黄无遮挡免费观看| 亚洲高清在线天堂精品| 男女精品视频| 免费看久久精品99| 亚洲色欲色欲www网| 91在线无码精品秘九色APP | 91视频日本| 精品久久久久久久久久久| 日韩国产亚洲一区二区在线观看| 亚洲永久色| 免费va国产在线观看| 一级毛片免费不卡在线| 亚洲综合欧美在线一区在线播放| 国产成人精品一区二区不卡| 午夜国产精品视频黄| 国产精品制服| 狠狠操夜夜爽| 美女无遮挡免费视频网站| 免费aa毛片| 99在线视频精品| 国产精品视屏| 日韩精品免费一线在线观看| 亚洲网综合| 57pao国产成视频免费播放| 老汉色老汉首页a亚洲| 日日拍夜夜嗷嗷叫国产| 久久天天躁狠狠躁夜夜躁| 黄色一级视频欧美| 一本视频精品中文字幕| 91久久夜色精品| 精品视频免费在线| 无码免费试看| 国产自在自线午夜精品视频| 国产精品吹潮在线观看中文| 久久精品无码中文字幕| 久久久久免费看成人影片 | 国产精品一区二区国产主播| 欧美在线视频不卡第一页| 日韩天堂在线观看| 久久人体视频| 永久天堂网Av| 亚洲精品图区| 久久精品亚洲专区| 国产一区二区人大臿蕉香蕉| 无码精油按摩潮喷在线播放 | 久久精品视频一| 国产精品久久久久无码网站| 综合色区亚洲熟妇在线| 美女免费黄网站| 欧美a在线| 成人无码区免费视频网站蜜臀| 国产成人区在线观看视频| 免费在线国产一区二区三区精品| 亚洲视屏在线观看| 国产乱人激情H在线观看| 欧美黄网站免费观看| 狠狠色狠狠综合久久| 综合五月天网| 永久免费无码日韩视频| 国产欧美在线| 一本无码在线观看| 成人无码一区二区三区视频在线观看| 欧美日韩中文国产| 国产色伊人| 国产精品va免费视频| 九九精品在线观看| 亚洲中文字幕23页在线| 国内精品小视频在线| 国产成人夜色91| 天天躁夜夜躁狠狠躁躁88| 婷婷伊人久久| 国产黑丝视频在线观看| 国产激爽爽爽大片在线观看| 精品人妻AV区| 国产精品久久自在自线观看| 在线视频亚洲色图| a天堂视频| 99久视频| 国产成人av一区二区三区|