面向RFID 動態幀時隙ALOHA 協議的幀長優化

2021-07-22 17:02:28何金棟卜艷玲石聰聰

計算機與生活 2021年7期

關鍵詞：動作

何金棟，卜艷玲，石聰聰，謝磊

1.國網福建省電力有限公司電力科學研究院，福州 350007

2.南京大學計算機軟件新技術國家重點實驗室，南京 210023

3.全球能源互聯網研究院有限公司信息網絡安全實驗室，南京 210023

近年來，為了實現電力系統的萬物互聯與優化管理，國家電網充分運用多種信息技術和通信技術，積極建設泛在電力物聯網。其中，射頻識別技術（radio frequency identification，RFID）是泛在電力物聯網建設的核心技術。憑借價格低廉、無需電源、非視距通信、遠距離通信等特點，RFID 被廣泛應用于電力倉儲物資管理、電力巡檢等場景，以監控物品的存儲、出入等[1-5]。由于在實際倉庫中，貼有標簽的電力設備的數量動態變化，需要時常盤點標簽，而不能僅根據列表檢測缺失標簽[6-10]。由于倉庫中往往存在大量標簽，通信過程容易出現標簽信號沖突。為了提高標簽識別效率，需要設計良好的防沖突算法來減少標簽沖突，實現快速盤點。同時，由于信號衰減等因素，閱讀器與標簽的通信過程存在包丟失或者篡改的可能性，導致通信失敗，而這種不確定性為標簽的快速盤點增加了難度。

由于基于ALOHA 的防沖突算法[11-21]簡單公平、性能良好，目前商用RFID 系統所采用的EPC C1G2標準[21]便是遵循基于時隙的ALOHA 算法來管理標簽響應。以往的ALOHA 研究工作主要聚焦于優化ALOHA 模型參數來調整幀長，但是它們僅考慮了通信失敗概率為零的理想情況，而實際由于信號衰減、環境干擾等因素，這些方案無法滿足應用需求。商用RFID 系統中采用Q 算法來動態調整幀長，穩定性強、吞吐率高，但是提前結束幀的機制使得閱讀器需要不斷發送詢問命令，增加了傳輸數據量。

本文提出了基于QN-learning 的幀時隙ALOHA幀長優化算法，通過結合Q-learning 和神經網絡，能夠在實際存在多種不確定因素的情況下確定最優幀長，有效識別標簽。基本思想是讓閱讀器自主學習在不同的標簽響應狀態下如何選擇最優幀長，最大化標簽識別效率。動態調整幀長的過程本質上是強化學習中的馬爾可夫決策過程[11-13,22]，在環境中標簽數未知、閱讀器和標簽之間通信失敗概率未知的情況下，閱讀器根據觀察到的標簽響應狀態，如空時隙數、單時隙數和沖突時隙數，來學習如何選擇最優幀長，使得系統能夠消耗最少的時隙總數來識別所有標簽。為了得到幀長選擇的策略，本文基于Q-learning的思想計算值函數并作為幀長選擇的標準。值函數的輸入為閱讀器觀察到的某一幀中標簽的響應狀態，即不同種類時隙的個數，輸出為使得最終消耗時隙總數最少的幀長。由于狀態空間稀疏而龐大，傳統的基于表格的值函數無法滿足應用需求，本文提出利用神經網絡來近似值函數，通過值函數網絡來近似值函數的真值表示。另外，為了減少計算量，本文提出通過利用神經網絡來估算標簽數以縮小最優幀長的選擇范圍。在標簽數估計方面，前人工作通常沒有考慮通信失敗概率等不確定因素，而本文將標簽數估計問題轉化為回歸問題，輸入為不同種類時隙的個數，真實值為實際標簽數，通過訓練網絡來估算標簽數，從而確定最優幀長區間，減小搜索范圍。

本文主要有以下三個貢獻：（1）將基于幀時隙的ALOHA 算法中的動態幀長調整問題轉化為強化學習中的馬爾可夫決策過程，在標簽數未知且存在不確定的通信失敗概率的情況下，能夠較好地調整幀長，減少時隙沖突，魯棒而高效地識別標簽。同時，兼容C1G2標準，易于部署到當前的商用系統中。（2）提出了QN-learning 算法來訓練值函數網絡，能夠根據不同種類時隙的個數指導選擇最優幀長。通過將Qlearning 算法和神經網絡相結合，利用神經網絡來模擬Q-learning 算法中的值函數，能夠隱式地學習到環境中的通信失敗概率，從而在值函數網絡的基礎上，結合實時的標簽響應狀態，確定最優幀長。本文也提出了利用神經網絡來估計標簽數，以縮小幀長搜索范圍，減少計算量。（3）通過仿真實驗評估了QNlearning 算法的性能。實驗表明，基于QN-learning 訓練得到的值函數網絡在指導最優幀長選擇方面表現優異，能夠在保障高吞吐率的同時控制數據傳輸量。

1 相關工作

為了實現標簽的快速識別，如果已有標簽列表，則僅需檢測缺失標簽來實現快速盤點。一般而言，通信過程要盡可能避免信號沖突，但對缺失標簽檢測而言，研究者們卻偏好沖突時隙，當原本的沖突時隙不發生沖突或者原本的單時隙變成空時隙時，通過查詢標簽列表即可快速檢測缺失標簽[6-10]。例如，文獻[6]提出通過哈希將多個標簽分配到同一個時隙中，批量檢測這些標簽是否缺失。但是文獻[6]的方法不兼容C1G2標準，無法被部署在當前的商用RFID 系統之上。此外，對于流動性較大的倉庫，不僅存在標簽的流出，還有新標簽的流入，要維持詳盡的標簽列表困難較大，因而無法采用缺失標簽識別的方法清點標簽，必須對全部標簽進行盤點。

在基于時隙ALOHA 算法[11-21]中，當標簽列表未知時，設置合適的幀長是提高識別效率的關鍵，常見的動態幀長調整算法有：一種是目前商用系統中采用的Q 算法[12,20-21]；另一種是基于不同種類的時隙數來優化模型選擇幀長[15-19]。Q 算法在遇到過多空時隙或者沖突時隙時會提前結束幀，調整幀長以開啟新的一幀進行詢問，這種方法穩定性強、吞吐率高，但是要求閱讀器不斷發送詢問命令，因此輪詢過程傳輸的數據量較大。而對于基于不同時隙種類的方法，Q 算法的缺點并不成立，但是由于它不會提前結束幀，對幀長的設置更為敏感。文獻[2]指出，當幀長設置與標簽數相同時，時隙利用率最高，因此學者們針對如何利用不同種類的時隙數估計標簽數做了大量的研究[17-18]，但是他們的工作大部分建立在通信失敗概率為零的基礎上，因而他們提出的方案并不適用于實際場景。文獻[19]考慮了通信失敗造成標簽丟失的情況。在通信失敗概率已知的基礎上，他們提出了利用概率模型來確定最優幀長。但是在實際中，通信失敗概率往往也是未知的，這為標簽數的估算又增加了難度。

與前人工作相比，本文方法基于幀時隙ALOHA算法，兼容C1G2 標準，易于在已有的RFID 系統中進行部署。同時，本文考慮了標簽數未知且不確定的通信失敗概率，注意到單次的最佳識別效率并不意味著識別完所有標簽的最佳效率，因此通過強化學習來確定全局最優的幀長選擇策略，以更貼合實際應用需求，有效識別標簽，在保障高吞吐率的同時控制詢問次數，減少數據傳輸量。

2 背景知識

在基于幀時隙的ALOHA（framed slotted ALOHA，FSA）防沖突算法中，每一幀由若干時隙組成，閱讀器以幀為單位對標簽進行詢問。在詢問開始的時候，閱讀器廣播幀長f，通知標簽即將開始的幀中包含的時隙個數。標簽在收到幀長之后隨機選擇時隙，等到輪到該時隙時作出響應。若被成功識別，標簽不再響應，否則繼續參與下一幀的詢問。按照時隙中響應標簽的個數，時隙可以分為空時隙、單時隙和沖突時隙三類。當且僅當閱讀器接收到單時隙時，閱讀器有機會解碼標簽。理論上，當幀長等于閱讀器掃描范圍內未響應標簽個數時，識別性能最佳，吞吐率可達36.8%。但在實際中，標簽個數往往是未知的，并且通信過程存在一定的通信失敗概率。通信失敗主要出現在三個階段：

標簽激活階段：由于Query/QueryAdjust/QueryRep收發的失敗可能性，并非所有標簽都能被激活。

標簽響應階段：由于RN16 收發的失敗可能性，在閱讀器端接收到的時隙狀態不一定為原來的時隙狀態，包括原單時隙變成空時隙，原沖突時隙變成單時隙、空時隙。

閱讀器解碼階段：由于確認命令（acknowledgement，ACK）收發的失敗可能性，閱讀器不一定能解碼出標簽信息。

為了獲得最佳性能，需要動態調整幀長。因此，在標簽數不確定且存在未知通信失敗概率的情況下，如何根據不同類型的時隙數來確定最優幀長是提高時隙吞吐率的關鍵所在。

3 基于QN-learning 的FSA 算法

3.1 馬爾可夫決策過程

動態調整幀長的過程可以看作一個馬爾可夫決策過程（Markov decision process，MDP），如圖1 所示。具體而言，閱讀器處于環境E中，狀態空間為S，其中狀態s∈S為閱讀器觀察到的上一幀中不同種類時隙的個數，包括空時隙數、單時隙數、沖突時隙數，分別記作ne、ns、nc；動作空間為A，其中動作a∈A為閱讀器可以選擇的幀長。在根據狀態s執行動作a之后，閱讀器將得到環境新反饋的狀態，即新一幀中不同種類時隙的個數，并根據獎賞函數R得到這一輪的獎賞r，如當前幀的吞吐率（被成功識別的標簽數與幀長的比值）。圖1 中的箭頭表示狀態的轉移，可見下一時刻的狀態只與當前時刻的狀態有關，而不依賴于之前的任何狀態。根據轉移函數P，從一個狀態到另一個狀態按照一定的概率發生轉移。綜上，動態幀長調整問題可以描述為四元組E=。

Fig.1 Markov decision process for dynamic frame size adjustment圖1 動態幀長調整的馬爾可夫決策過程

閱讀器所要做的就是通過不斷嘗試來學習一個策略π，決定在狀態s時所要選擇的最優幀長a=π(s)。在動態幀長調整過程中，為了最大化整體的標簽識別效率，不僅需要考慮即時獎賞，還要考慮未來獎賞，學習目標是消耗最少的時隙總數來識別環境中的所有標簽。注意到，在當前狀態執行的動作對下一時刻的獎賞影響最大，隨著時間的推移，對未來獎賞的影響逐步減小，因此不妨采用“γ折扣累積獎賞”來計算長期累積獎賞，如式（1）所示。

其中，Rt表示從時刻t開始的累積獎賞，rt表示時刻t的即時獎賞，γ為折扣因子并且γ∈[]0,1 。實際上，在動態幀長調整問題的四元組中，狀態函數P和獎賞函數R都無法用模型進行刻畫。因此，一種可行方案是采用Q-learning 實現“無模型學習”。

3.2 基于神經網絡的Q-learning:QN-learning

在Q-learning中，策略的評估標準為值函數Q(s,a)，表示在狀態s時執行動作a之后到該輪學習結束所能獲得的最大累積獎賞，類似于獎賞函數。從而在狀態s時，選擇使值函數最大的動作，即：

值函數與當前動作、狀態、當前獎賞和下一狀態有關，記為，類似式（1），值函數可以迭代表示為：

Q-learning 的基本思想是通過不斷迭代更新值函數，獲得可靠的策略評估標準。在學習初期，值函數可能存在較大誤差，但是隨著迭代計算的推進，值函數會逐漸趨向于真值，指導閱讀器執行最優幀長。

在一般的Q-learning 中，值函數可以用一個“狀態-動作”表格來表示，但是在動態幀長調整問題中，狀態空間稀疏而龐大，無法列舉所有的可能組合，因此不妨采用函數來模擬Q值的變化，一種可行的方法是利用神經網絡來近似值函數，問題即轉化為“QN-learning”，其中的“N”指代神經網絡。如圖2 所示，輸入為狀態和動作，輸出為Q值，學習過程則是為了訓練中間的神經網絡。由于該神經網絡是用來模擬值函數的，將這個網絡稱為“值函數網絡”。

Fig.2 Structure of QN-learning圖2 QN-learning 的基本結構

網絡的訓練實質上可以看作一個回歸任務，使得目標值與預測值無限接近，其損失函數為：

3.3 經驗重放

在Q-learning 中，機器每執行一個動作，值函數更新一次，當前的不再參與后續訓練，這可能會導致網絡訓練無法收斂。為解決這個問題，常用的方法是經驗重放。在學習過程中，將一段時間內的經驗都存儲在記憶庫中，當訓練網絡時，從記憶庫中隨機采樣迷你數據集以更新值函數網絡。通過隨機采樣，可以打破相鄰經驗的關聯性，使得值函數網絡更趨近于真值。

圖3 展示了基于經驗重放的QN-learning 的示意圖。首先，機器與環境進行交互，從環境中獲得狀態s和獎賞r；然后，機器將經驗存儲到記憶庫中，每隔一定周期更新值函數網絡；機器根據策略選擇動作，在環境中執行動作之后，觀察新的狀態和獎賞。如此循環，最后得到策略和值函數網絡。

Fig.3 Diagram of QN-learning with experience replay圖3 基于經驗重放的QN-learning 示意圖

3.4 ?-貪心策略

為了獲得較好的值函數，需要采樣不同的狀態和動作，累積多種形式的經驗。如果策略是一定的，即對于某個狀態只有一種確定的動作，那么可能會錯過最優動作，因此采用?-貪心法來選擇策略。

此時，在選擇策略時能夠兼顧探索與利用：每次以概率?進行探索，從動作空間A中均勻地隨機選取一個動作；并以概率1-?進行利用，選擇使值函數最大的動作，如式（2）所示。采用?-貪心策略，對于同一狀態，所有的動作都有機會被選擇，可以獲得不同的采樣數據，使得值函數的估計更加精確。

3.5 值函數網絡訓練

綜合以上分析，針對動態幀長調整問題，其基于經驗重放的QN-learning 算法流程如圖4 所示。整個流程主要包括五個功能模塊：選擇動作、執行動作、存儲經驗、更新網絡、更新動作空間。在達到學習次數之前，重復執行不斷學習。

結合圖4 的算法流程，算法1 展示了基于經驗重放的QN-learning 算法的偽代碼，具體實現如下。

算法1基于經驗重放的QN-learning 算法

Fig.4 Flow of QN-learning with experience replay圖4 基于經驗重放的QN-learning 算法流程

步驟1初始化。初始化具有一定存儲能力的記憶庫D；初始化值函數網絡，隨機確定網絡的參數；初始化其他參數值，包括學習輪數、貪心策略中的?、折扣因子γ等。

步驟2判斷是否達到規定的學習輪數。在動態幀長調整問題中，一輪學習指的是所有標簽被成功識別，當不再有標簽響應時，說明本輪學習結束，所有標簽等待新一輪的識別，開始新一輪學習過程。如果達到規定的學習輪數，結束學習過程，輸出值函數網絡，否則繼續學習。

步驟3判斷當前一輪的學習是否結束。如果所有標簽被識別，本輪學習結束，否則繼續學習。判斷結束的方法可以為：在連續觀察到的狀態中，只有空時隙，沒有得到任何標簽的響應。

步驟4選擇動作。在動態幀長調整問題中，狀態對應于不同種類時隙的個數s=(ne,ns,nc)，動作對應于幀長a=f。在首次學習時，由于欠缺觀察狀態，隨機選擇幀長，否則采用?-貪心策略來確定幀長，以保障采樣數據的多樣性。具體而言，先生成隨機數μ∈[0,1]，如果μ≥?，從動作空間中選擇使值函數最大的幀長，否則，從動作空間中均勻采樣一個幀長，如算法1 中的6～11 所示。理論上，動作空間為任意幀長的集合，但為了減小搜索空間，不妨根據當前未讀標簽數確定幀長范圍，例如按照未讀標簽數的±30%來搜索幀長，約束動作空間。

步驟5執行動作。根據選定的幀長，發送時隙對標簽進行詢問，記錄新的狀態，包括空時隙、單時隙和沖突時隙的個數。由于系統目標是為了最大化吞吐率，即利用最少的時隙來識別所有標簽，令即時獎賞的計算方式為，按照公式計算即時獎賞。

步驟6存儲經驗。將經驗存儲到記憶庫D中。經驗四元組表示在時刻t狀態st時執行動作at之后得到即時獎賞rt和觀察到新狀態st+1。

步驟7更新網絡。每隔一段時間需要更新值函數網絡，若無需更新，跳到下一步驟，否則更新表示值函數的神經網絡的參數，如算法1 中的18～22 所示，包括采樣迷你數據集、計算目標值、訓練網絡三個子步驟。（1）采樣迷你數據集：從記憶庫中隨機采樣迷你數據集Dmini，隨機采樣是為了消除訓練數據之間的關聯性。（2）計算目標值：根據式（3），對采樣的每條經驗計算目標值yj，以此作為網絡訓練數據的標記“label”。特別的，當下一時刻狀態為最終狀態時，不存在未來累積獎賞，因此yj為即時獎勵。而在動態幀長調整問題中，最終狀態就是指已識別所有標簽。（3）訓練網絡：將{(sj,aj)}作為值函數網絡的輸入，{yj}作為訓練數據的標記，此時網絡的訓練相當于回歸任務，因此以式（4）為損失函數進行網絡訓練，更新網絡參數。

步驟8更新動作空間。計算當前未讀標簽數，更新幀長搜索范圍。在訓練時，可以根據初始標簽個數和每一次詢問中成功響應的標簽個數來計算未讀標簽數。

步驟9跳到步驟2，重復以上學習過程，直到學習結束，輸出值函數網絡。

在值函數網絡訓練完成之后，可以根據值函數網絡來動態調整幀長。由此，可以實現初始標簽數未知且存在通信失敗可能性時標簽的高效識別。

3.6 基于值函數網絡的標簽識別

在實際情況下，由于初始標簽數未知，無法根據成功響應的標簽個數來推斷每次詢問時的未讀標簽數，確定幀長搜索范圍。對此，本文提前訓練標簽數估計網絡，根據不同種類時隙的個數來估算當前參與詢問的標簽個數。這是一個簡單的基于神經網絡的回歸任務，輸入為空時隙數、單時隙數和沖突時隙數，標記為真實標簽數，訓練過程在此不再贅述。使用時，即可根據輸入的各時隙數輸出標簽數估算值。由此，基于標簽數估算網絡就能在實際初始標簽數未知的情況下估算標簽數，確定幀長搜索范圍。在獲得標簽數估計網絡和值函數網絡之后，可以根據實時觀察到的不同種類時隙的個數來動態調整幀長，具體流程如算法2 所示。

算法2基于值函數網絡的動態幀長調整算法

在詢問標簽時，如算法2 中3～7 所示，首先根據未讀標簽數確定幀長搜索范圍，從中選擇使值函數網絡最大的動作作為幀長f；然后按照幀長f進行詢問，收集標簽反射信號，統計空時隙、單時隙、沖突時隙的個數以及成功響應的標簽個數；最后為了確定下一次詢問時的幀長搜索范圍，估計當前未讀標簽數nunread=nall-nread，其中nall為基于各時隙個數利用標簽數估計網絡估算的當前標簽總數，nread為本次詢問中成功響應的標簽數，通過作差即得當前未讀標簽數。如果連續多次詢問都沒有標簽響應，即收到的時隙只有空時隙，那么認為所有標簽都已經被成功識別，結束識別；否則，重復詢問過程，直到所有標簽被識別。

3.7 小結

針對動態幀時隙ALOHA 的幀長選擇問題，本文將動態幀長選擇看作強化學習中的馬爾可夫決策過程，能夠在標簽數未知、通信失敗概率未知的情況下，讓閱讀器自主根據標簽響應來選擇最優幀長，提高標簽識別效率。具體而言，為了克服“狀態-動作”空間過大的問題，本文基于少量數據來訓練值函數網絡，隱式地學習實際環境中的不確定因素，進而指導幀長的選擇。同時為了減少計算量，本文利用神經網絡來估計標簽數，縮小幀長搜索范圍。通過優化幀長，能夠在控制空時隙比例的前提下降低沖突時隙發生的概率，從而最大化信道利用率。由于本文方法僅是提供最優幀長，未對現有通信協議做物理層修改，因此兼容現行的C1G2 標準，能夠方便地部署到現有的RFID 系統之中。本文方法考慮了實際情況，能夠充分利用信道，有效識別標簽，具有良好的可行性。

4 性能評估

4.1 實驗設置

本文在Matlab 中進行了仿真實驗。標簽總數默認為10 000 個，實際個數在5 000～10 000 之間。考慮到實際情況下閱讀器和標簽可能通信失敗，設通信失敗概率為15%。在值函數網絡訓練時，根據經驗，設貪心策略中的?為0.1，累積獎賞的折扣因子γ為0.1，利用Matlab 提供的feedforwardnet 函數來模擬值函數網絡，隱藏層大小默認為15，學習輪數默認為20，一輪學習要求成功識別所有標簽。標簽數估計網絡同樣采用feedforwardnet 函數來進行訓練。在測試時，基于估算的當前未讀標簽數，在以標簽數為中心的±30%標簽數范圍內搜索最佳幀長。對于不同的實驗設置，分別采集100 組測試數據。

系統性能采用兩個指標來進行評估，分別為吞吐率和詢問次數。反映了標簽識別效率；詢問次數指的是閱讀器通過發起新幀或修改幀長對標簽進行詢問的次數，詢問次數越多，傳輸數據越多。

4.2 不同算法的性能比較

在當前商用RFID 系統中，幀長調整一般采用Q算法。在Q 算法中，當遇到空時隙或者沖突時隙時，以步長C微調Q值。例如，遇到空時隙，Q值減去常量C（取值區間在0.1～0.5），最小為0；遇到沖突時隙，Q值增加C，最大為15[1]。考慮到默認標簽數為10 000 個，Q值初始值設為14，步長C根據Q值自適應調整[20]C=為了驗證基于值函數網絡進行幀長調整方法的性能，下面從“吞吐率”和“詢問次數”兩方面將其與Q 算法進行比較。因為幀長調整策略會影響Q 算法的性能，本文比較了三種不同幀長調整策略的基于Q 算法的方法。一是傳統的對Q值取整后進行判斷[21]，當取整后Q值變化時調整幀長。二是文獻[20]中提出的對2Q進行判斷，當2Q變化到一定程度時對幀長進行調整，門限由以下公式確定，Q′為Q按照步長微調后的數值，由于實驗中標簽數較多，參數a和b分別近似為0.8 和1.5。三是自定義地對Q值進行判斷，當Q值發生變化時重新發送詢問命令。這些方法分別記為“QN-learning”（本文方法）、“傳統Q算法”[21]、“改進Q算法1”[20]、“改進Q算法2”，實驗結果如圖5和圖6所示。

Fig.5 Throughput of different algorithms圖5 不同算法的吞吐率

Fig.6 Number of queries of different algorithms圖6 不同算法的詢問次數

就吞吐率而言，當實際標簽數與默認標簽數相差不超過35%時，基于值函數網絡動態調整幀長方案的吞吐率高于Q 算法。圖5 繪制了不同標簽數時基于值函數網絡和Q 算法的吞吐率。注意到本文引入了通信失敗概率，因此吞吐率會受到一定的影響。從圖5 可以發現，三種基于Q 算法的方法都具有較穩定的吞吐率，其中“改進Q 算法2”的平均吞吐率最高，約為30.2%。這里的穩定性得益于Q 算法遇到空時隙或者沖突時隙時提前結束幀的機制，因此Q 算法對于不同實際標簽數均有魯棒的識別效率。因為幀長變化的判斷標準不同，三種基于Q 算法方法的幀長調整靈活度為Q 算法<改進Q 算法1<改進Q 算法2，靈活度越高，提前結束幀的概率越高，時隙浪費越少，因此“改進Q 算法2”得到了最高的吞吐率。同時，根據圖5，本文提出的基于值函數網絡的方法的吞吐率隨著標簽數的增加整體上呈小幅增長趨勢，尤其當標簽數從5 000 增加到6 500 的過程中，吞吐率增長明顯，這個現象主要是在初始識別時按照默認標簽數來搜索幀長的緣故。當標簽數高于6 500時，QN-learning 的平均吞吐率約為30.9%；隨著實際標簽數接近于默認標簽數，QN-learning 的優勢逐漸擴大，當標簽數大于9 000 時，QN-learning 的吞吐率比“改進Q 算法2”高1%左右。QN-learning 之所以能夠獲得更高的吞吐率，是因為在基于Q 算法的方法中，Q 值的調整是一個逐漸逼近最優值的過程，而本文基于值函數網絡能夠快速地根據標簽響應選擇最優幀長，省去了中間逐步調整的過程，減少了由調整帶來的時隙浪費，從而提高了時隙吞吐率。雖然QNlearning 的優化幅度看似不大，但是考慮到Q 算法本身是一個成熟的商用算法，在其基礎上進行改進具有較大的挑戰性，因此認為QN-learning 帶來的改進依舊是令人欣慰、值得肯定的。

就詢問次數而言，QN-learning 的發送詢問次數遠小于基于Q 算法的方法，意味著QN-learning 所需的數據傳輸量較小。如圖6 所示，四種方法的詢問次數都隨著標簽數的增大而增大，但它們的數值在不同的量級之上。當標簽數從5 000 上升到10 000 時，QN-learning 的平均詢問次數僅從26.8 上漲到31.7，而基于Q 算法的方法的詢問次數在千次以上。對于QN-learning 而言，它并不會提前結束幀，雖然在實際標簽數與默認標簽數差距較大時會損失一定的吞吐率，但其每次詢問都能成功讀取大量標簽，因此詢問次數少。相反的，對于基于Q 算法的方法而言，Q 算法遇到過多的空時隙或者沖突時隙時會提前結束幀，這樣的做法增加了閱讀器向標簽發送詢問命令或者詢問調整命令的次數，進而將導致數據傳輸量的顯著提升。同時，因為“改進Q 算法2”具有最靈敏的幀長調整策略，所以它調整幀長最為頻繁，向標簽發送詢問的次數相應最多。

總體而言，利用QN-learning 訓練得到的值函數網絡在動態調整幀長方面可以取得優異的性能。當實際標簽數與默認標簽數相差不多時，QN-learning能夠比基于Q 算法的方法獲得更高的吞吐率，并且QN-learning 發送的詢問次數遠小于基于Q 算法的方法，將節省大量的數據傳輸開銷。

4.3 不同網絡設置對QN-learning算法的影響

在訓練值函數網絡時，不同的參數設置會影響QN-learning 的性能，因此下面探索神經網絡隱藏層大小和學習輪數帶來的影響。由于詢問次數主要與標簽數有關，這里只使用吞吐量作為評價指標。

圖7 展示了不同隱藏層大小對吞吐率的影響。可以發現，當隱藏層大小適中時，即隱藏層個數在6～18 時，吞吐率較高，在31%附近波動。當隱藏層過大或者過小時，吞吐率下降明顯，小于29.7%。這是由于當隱藏層過小時，神經網絡無法充分近似值函數網絡，存在“欠擬合”問題。當隱藏層過大時，則導致了“過擬合”現象，因此需要設置合適的隱藏層大小。根據實驗結果，當隱藏層大小為15 時，平均吞吐率最大，為31.3%，因此將15 作為默認值。

Fig.7 Effect of different hidden layer sizes on throughput圖7 不同隱藏層大小對吞吐率的影響

Fig.8 Effect of different training rounds on throughput圖8 不同學習輪數對吞吐率的影響

圖8 展示了不同學習輪數對吞吐率的影響。可以發現，當學習輪數從5 增加到20，吞吐率從29.8%上漲到31.3%，而當學習輪數繼續增加時，吞吐率趨于穩定。考慮到學習輪數越多，訓練時間越長，并容易導致過擬合。根據實驗結果，當學習輪數為20 時吞吐率最高，因此將20 作為默認學習輪數。

5 結束語

針對實際中標簽數未知且存在通信失敗可能性情況下標簽快速盤點的問題，本文提出了兼容EPC C1G2 標準的基于QN-learning 的動態幀時隙ALOHA沖突算法。通過將動態幀長選擇問題轉為馬爾可夫決策過程，基于Q-learning 和神經網絡來學習幀長選擇策略。仿真實驗表明，本文方法能夠有效識別標簽，在保障高吞吐率的同時控制詢問次數，減少數據傳輸。與商用Q 算法相比，本文方法吞吐率高，詢問次數少，但需要提前采集數據進行網絡訓練，當環境發生變化，如通信概率改變時，需要重新訓練網絡，但是環境中的通信概率一般是較為穩定的，只需偶爾更新網絡。當前本文采用了估計標簽數的方法來縮小動作空間，在未來工作中，將進一步考慮改進值函數網絡，將動作空間的限制嵌入到值函數網絡中，從而簡化流程，提高標簽識別效率。