














摘" 要: 針對傳統的天線仿真建模過程中需要的天線阻抗耗時長問題,文中提出一種基于KNN?XGBOOST模型的天線阻抗預測方法。現有研究大多為單一預測算法,旨在通過對比尋求預測效果更優的算法。首先通過ANSYS仿真軟件收集大量的PCB RFID天線阻抗設計數據,然后結合影響阻抗中天線長度和頻率共8個有效特征,以KNN和XGBOOST兩種算法作為基模型,線性回歸作為元模型,構建了一個堆疊集成學習模型。在實驗過程中,通過交叉驗證和網格搜索技術,對模型的超參數進行了精細調優,以確保模型能夠達到最優的預測性能。實驗結果顯示,與單一的KNN和XGBOOST模型相比,KNN?XGBOOST模型的均方根誤差降低了30%~70%,[R2]提高了10%。在預測PCB RFID天線的阻抗實部和虛部時,KNN?XGBOOST模型具有較高的準確率和較低的預測誤差,證明了其在電磁仿真設計優化中的應用價值。
關鍵詞: PCB RFID天線; 阻抗預測; KNN算法; XGBOOST算法; 融合堆疊; 電磁仿真
中圖分類號: TN821?34" " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " " "文章編號: 1004?373X(2024)19?0014?07
KNN?XGBOOST?based stacked model for PCB RFID antenna impedance prediction
JIANG Yankun1, HONG Tao2, ZHANG Jili1
(1. College of Energy Environment amp; Safety Engineering, China Jiliang University, Hangzhou 310018, China;
2. College of Quality and Standardization, China Jiliang University, Hangzhou 310018, China)
Abstract: In view of the time?consuming antenna impedance required in the traditional processes of antenna simulation and modeling, an antenna impedance prediction method on the basis of KNN?XGBOOST?based model is proposed. Most of the existing studies focus on the single prediction algorithms. These studies aim to find out the algorithms with better prediction effect by comparative analysis. Initially, a substantial data of PCB (printed circuit board) RFID (radio frequency identification) antenna impedance design is collected with simulation software ANSYS. Subsequently, leveraging eight influential features including antenna length and frequency, a stacked ensemble learning model is constructed on the basis of constructing the base model with algorithms KNN (K?nearest neighbor) and XGBOOST (eXtreme Gradient Boosting), and the meta?model with linear regression. In the experiment, fine?tuning of the model′s hyperparameters is implemented via cross?validation and grid search techniques, so as to ensure that the model can reach the optimal predictive performance. The experimental results demonstrate that the root mean square error (RMSE) of the KNN?XGBOOST?based model is reduced by 30%~70%, and its R?squared ([R2]) is increased by 10% in comparison with those of the KNN?based model and XGBOOST?based model. When predicting the real and imaginary parts of PCB RFID antenna impedance, the KNN?XGBOOST?based model exhibits higher accuracy rate and lower prediction error, which verifies its application value in the optimization of electromagnetic simulation design.
Keywords: PCB RFID antenna; impedance prediction; KNN algorithm; XGBOOST algorithm; ensemble stacking; electromagnetic simulation
0" 引" 言
隨著射頻識別(RFID)技術的廣泛應用,特別是在PCB RFID天線設計領域,對高效、準確的阻抗匹配方法的需求日益增長[1?2]。傳統的RFID天線設計,如彎折偶極子天線,通常依賴于計算機仿真軟件來評估不同天線樣本的阻抗匹配情況。在實際應用中,RFID電子標簽都對天線結構參數提出了差異化要求,必將導致天線阻抗發生變化,影響阻抗匹配[3?4]。
在標簽天線的傳統設計過程中,為保證天線的阻抗匹配,設計者首先會根據應用對象尺寸與所處環境等要求隨機產生一批基本結構相同、局部尺寸有差異的天線樣本,然后借助計算機仿真軟件依次計算其阻抗[5]。在計算完成后,篩選其中阻抗匹配程度最高的天線作為設計結果。若所有結果都不理想,則會按照經驗對天線結構的局部尺寸進行微調,建立新一批天線樣本并重復上述步驟。在上述設計方法中,每一次微調模型后都需要大量時間等待計算機初始化天線結構并計算阻抗,設計效率被計算機仿真次數與速度所限制,設計時間在等待仿真結果中浪費,因此如何快速獲得標簽天線的阻抗值成為提高設計效率的研究重點[6]。本文通過集成多種預測算法,建立一種集成學習方法,實現了對天線阻抗的快速預測。
為快速獲得標簽天線的阻抗值,應用機器學習進行天線阻抗預測逐漸成為研究熱點[7?8]。文獻[9]使用等效電路研究了T型匹配幾何結構對整個天線阻抗的影響。文獻[10]給出了互感系數的計算公式并給出匹配環阻抗計算的方法。文獻[11]提出應用DNN來確定電路中的電容值,以實現天線阻抗匹配,用于倒F天線設計。文獻[12]使用監督回歸機器學習方法對5G Yagi天線的阻抗和增益進行了準確的預測。文獻[13]提出一種基于多項式的彎折偶極子RFID標簽天線阻抗預測方法,雖然在標簽天線設計的阻抗計算環節中極大地縮減了計算時間,但是預測阻抗在實部對比中僅有80%的擬合優度。
針對上述各種研究成果進行分析和梳理的基礎上,本文提出一種基于KNN?XGBOOST模型的天線阻抗預測的方法。以常用的PCB RFID彎折偶極子天線作為研究對象,選擇預測性能較好的單一算法KNN、XGBOOST(極端梯度提升)驗證KNN?XGBOOST集成學習算法的預測性能。結果表明,基于KNN?XGBOOST集成學習模型在天線阻抗預測上具有良好的應用效果。
1" 相關算法分析
1.1" XGBOOST算法
XGBOOST是由陳天奇于2016年開發的一種提升樹算法,它基于傳統梯度提升方法進行了改進和優化。XGBOOST在處理大型數據集、預防過擬合以及計算速度方面表現出色,它具備并行處理能力,可以在多核CPU上加速計算。與其他機器學習算法相比,XGBOOST的一個顯著優點是它的可擴展性和靈活性。它通過引入正則化項來減少模型復雜度,這在其他提升方法中不常見,有效降低了過擬合風險。同時,它還支持用戶自定義的優化目標和評估標準,適用于各種定制化問題。
XGBOOST的目標函數定義為實際損失函數與正則化項的和,具體見式(1):
[Obj(θ)=L(θ)+Ω(θ)] (1)
式中:[θ]表示模型參數;[L(θ)]是損失函數,衡量模型預測值與真實值之間的差異;[Ω(θ)]是正則化項,它懲罰模型的復雜度。正則化項通常包含兩個部分,分別是樹的葉子節點的數量(控制樹的結構)和葉子節點權重的[L2]范數(控制葉子節點權重的大小),用來防止模型過于復雜而導致過擬合。
具體來說,正則化項公式見式(2):
[Ω(θ)=γT+12λj=1Tw2j] (2)
式中:[T]是樹中葉子節點的數量;[wj]是葉子節點的權重向量;[γ]和[λ]分別是控制樹結構和葉子節點權重懲罰強度的正則化參數。
XGBOOST中的每一個基學習器是一個決策樹,整個模型是通過添加這些決策樹構成的。對于在第[t]輪迭代中的一個決策樹[ft],目標函數可以進一步展開,展開式見式(3):
[Obj(t)=i=1nl(yi,y(t-1)i+ft(xi))+Ω(ft)] (3)
式中:[n]是訓練數據的數量;[l]是損失函數;[yi]是第[i]個樣本的真實值;[y(t-1)i]是模型在第[t-1]輪迭代后的預測值;[ft]是在第[t]輪迭代中添加的樹;[Ω(ft)]是第[t]輪迭代中添加的樹的正則化項。
XGBOOST的另一個關鍵特性是它對損失函數的二階展開,這使得模型在每一輪迭代時能夠更快地收斂。在每一步迭代中,XGBOOST為目標函數添加一個新的決策樹,并選擇使目標函數下降最多的樹。這個過程可以用式(4)表示:
[Obj(t)≈i=1nl(yi,y(t-1)i)+gift(xi)+12hif2t(xi)+Ω(ft)] (4)
式中:[gi]和[hi]分別表示損失函數對于第[i]個實例的一階和二階導數。為了選擇最優的決策樹結構,XGBOOST使用了一種名為“分位點近似”的技術來處理連續特征及正則化方法的剪枝策略,并通過最大化每次分裂帶來的目標函數減少量來選擇最優分裂點。
XGBOOST參數調優的關鍵參數包括:樹的最大深度、學習率以及用于列采樣和行采樣的比例。樹的深度越大,樹模型越復雜,擬合能力越強,但同時,模型也更容易過擬合。學習率決定了每棵樹對最終模型的貢獻程度。較小的學習率需要更多的樹來構建模型,但通常能夠得到更好的泛化性能。較大的學習率會導致模型更快地收斂,但也容易造成過擬合。列采樣指的是在構建每棵樹時對特征進行采樣的比例。通過隨機選擇一部分特征,可以減少模型的方差,提高泛化能力。行采樣指的是在構建每棵樹時對樣本進行采樣的比例。較小的行采樣比例可以減少過擬合風險,但可能會增加模型的偏差。
1.2" K?近鄰算法(KNN)
KNN算法即K最近鄰(K?Nearest Neighbor)算法,是一種基于實例的學習方法,由Cover和Hart于1967年提出,它是監督學習中常用的分類與回歸方法。KNN工作原理是找到一個樣本的[K]個最近鄰居,并根據這些鄰居的多數投票或平均來預測樣本的標簽或數值。KNN的主要優點在于算法簡單直觀,不需要建立模型或假設數據分布,這使得它對數據中的異常值不敏感。另外,它很容易適應數據的變化,尤其在分類決策邊界復雜或不規則時效果顯著。
首先它需要定義每個觀測數據值(帶有給定特征)與帶有未知目標的新數據值之間的距離。距離指標可以是歐氏距離函數或曼哈頓距離函數。這一度量的數學表達式見式(5):
[d(p,q)=(p1-q1)2+…+(pn-qn)2] (5)
在[n]維空間中,兩點[p(p1,p2,…,pn)]和[q(q1,q2,…,qn)]之間的歐氏距離使用式(5)計算。其中,[p]和[q]是兩個點在[n]維特征空間中的坐標。
此外,曼哈頓距離函數是關于點的絕對差值,具體公式見式(6):
[d(p,q)=i=1npi-qi] (6)
在分配任何新數據值之前,都要考慮參數[K],即相鄰點的數量,分配任何新數據值。參數[K]值過低可能導致過度擬合,而參數[K]值過高則可能導致訓練數據和測試數據中的模型誤差過大。然后將[K]個最接近數據值的平均值指定為未知目標值。網格搜索交叉驗證是一種為所選模型確定最佳超參數的技術,通常用于尋找最佳[K]值。下一步是找到分配的因變量值與相應的實際因變量值(即不同觀測值的CASH值)之間的損失函數。整體損失函數在訓練階段最小化,其結果反映在模型設置中。
算法確定距離最近的[K]個訓練樣本,并基于這些鄰近樣本的信息來預測新樣本的類別。在分類問題中,采取多數投票規則,即新樣本將被分配到[K]個最近鄰中最常見的類別;在回歸問題中,則計算這些鄰居的輸出變量的平均值作為預測結果。此過程的關鍵在于合理選擇[K]值,這通常需要通過交叉驗證來確定。[K]值的選擇會影響到算法的偏差與方差,進而影響預測性能。過小的[K]值意味著模型可能會受到噪聲的干擾,過大的[K]值可能會導致模型無法捕捉到數據的局部特征。在實際應用中,KNN的計算開銷可能非常大,特別是在有大量訓練數據的情況下,因此在實踐中可能需要采取一些優化策略,如通過KD樹或球樹等數據結構來加快最近鄰的搜索過程。
KNN算法由于其簡單性和有效性,在許多領域都有廣泛的應用,它特別適用于那些模型基本假設不明確或數據分布未知的情況。XGBOOST是一個基于樹的模型,它在處理結構化數據和特征間復雜交互時非常有效,但它可能不會捕捉到數據中的所有局部模式,尤其是在數據非常稀疏或維度非常高的情況下。此時,引入KNN算法作為XGBOOST模型的一部分,以彌補在局部處理上的不足。KNN能夠捕捉到數據中的局部結構,而XGBOOST則更擅長抓取全局結構,兩者結合可以相互補充,增加模型的多樣性。在堆疊模型中,KNN可以作為基學習器之一,其輸出作為元模型的輸入之一。元模型然后結合來自KNN和XGBOOST的信息,產生最終預測。這種結合利用了KNN的局部平滑性和XGBOOST的高度優化性能,能夠在不同類型的數據分布上實現更好的預測效果。此外,因為KNN和XGBOOST在錯誤模式上可能有所不同,它們的集成有助于互相糾正對方的誤差,提高整體的預測準確度。
2" 本文方法
2.1" KNN?XGBOOST算法設計思想
本文提出了一種基于KNN?XGBOOST模型,通過結合不同類型的學習算法來增強預測模型的整體性能。KNN?XGBOOST模型采用了不同學習器集成的方法,目的是通過組合不同的算法提升模型的整體性能。不同的機器學習算法能從數據的不同方面進行學習。例如,KNN關注于捕捉數據的局部鄰域特性,而XGBOOST則在全局范圍內通過構建多個決策樹和引入正則化來優化預測性能。單一算法可能在解釋性或泛化能力上有限,但將多個算法結合,尤其是彼此之間有著良好互補性的模型,能夠提供更為精確的預測結果。在集成學習中,既要分析每個機器學習算法單獨預測性能,也要考慮算法之間的相關關系,綜合比較集成模型和單一算法的預測效果。
在KNN?XGBOOST算法中,首先訓練多個初級學習器(KNN和XGBOOST),然后將這些學習器的預測結果作為輸入,接著再訓練一個元學習器,通常是一個簡單模型,如線性回歸,以學習如何最有效地結合初級學習器的預測結果。在模型訓練過程中,為了避免過擬合,通常采用交叉驗證的方法對初級學習器進行參數選擇和性能評估。特別是對于時間序列數據,應采用時間上的前向分割來保證模型的預測是基于“現在”預測“未來”,以避免信息泄露的問題。
KNN?XGBOOST算法進一步采用嵌套交叉驗證,它由用于調參的內循環和用于誤差估計的外循環組成。在內循環中,數據被分為訓練子集和驗證集,模型在訓練子集上進行訓練,在驗證集上進行參數選擇;而外循環則進一步將數據集分割為不同的訓練集和測試集,通過對各次分割得到的誤差求平均值,提供模型誤差的魯棒估計。這種設計確保了模型的泛化能力,同時為未來的預測提供了一個可靠的性能基準。KNN?XGBOOST算法流程如圖1所示,基學習器流程圖如圖2所示。
2.2" 算法步驟
KNN?XGBOOST模型算法在PCB RFID彎折偶極子天線阻抗的預測具體應用步驟如下。
步驟1:數據獲取。首先需要在ANSYS電磁仿真軟件中對預測所用到的彎折偶極子天線進行仿真收集阻抗數據,通過大量仿真建立數據庫。數據集的構成為:前8列作為特征([x]),第9列和10列作為目標變量([y1]和[y2]),其中目標變量即為預測的阻抗實部和阻抗虛部。讀取數據后,將數據分割為訓練集和測試集,做法是保留20%的數據用于測試,這有助于后續評估模型的泛化能力。
步驟2:標準化處理。為了防止特征之間的量綱差異對模型性能造成影響,使用標準刻度函數對特征進行標準化處理,將數據轉換為均值為0、標準差為1的分布。具體標準化處理計算公式見式(7):
[z=x-μσ] (7)
式中:[x]為數組;[μ]為數組[x]的平均值;[σ]為數組[x]的標準差。
步驟3:模型訓練和參數調優。通過選擇KNN模型和XGBOOST模型,使用網格搜索方法對這兩種模型進行參數搜索和交叉驗證,找到最優的超參數組合,以期達到最佳的預測性能。對于KNN,考慮的參數包括鄰居數([k])、權重函數和距離度量;而對于XGBOOST,考慮的參數包括樹的數量、學習率、最大樹深、子樣本比例以及特征采樣比例。這些參數的組合構成了一個超參數空間,通過交叉驗證找到使模型性能最優化的參數組合,其中,性能度量采用均方根誤差(RMSE)和決定系數([R2])。最優參數如表1和表2所示。
步驟4:堆疊回歸。將KNN和XGBOOST模型結合起來進行堆疊回歸。堆疊模型中,KNN和XGBOOST的預測結果作為新的特征輸入到元模型,元模型選用線性回歸。在此過程中,堆疊模型首先在訓練數據上進行擬合,然后在測試數據上進行預測,通過計算預測值和真實值之間的均方根誤差體現模型預測的準確性,最后使用確定系數[R2]來描述各代理模型所產生的預測值與實際值的匹配程度和模型預測效率。
3" 實驗與分析
3.1" 數據獲取和預處理
本文使用電能表RFID彎折偶極子天線作為設計對象。該天線蝕刻在尺寸為80 mm×230 mm×1 mm的FR?4環氧樹脂介質基板上,結構如圖3所示。該天線采用對稱結構,天線結構長度和頻率初始范圍如表3所示。
通過選取頻率和其余7個天線長度尺寸共計8個數據作為特征輸入,仿真得出的阻抗實部和虛部數據都具有185 785組數據。通過歸一化方法對數據進行預處理,分析實部和虛部在單一算法的相關性,單一算法在阻抗實部和虛部之間的預測性能的相關性如圖4和圖5所示。
3.2" 評價指標
為對比KNN?XGBOOST模型在RFID彎折偶極子標簽天線阻抗預測上的效果,建立了XGBOOST代理模型、KNN代理模型,并使用訓練組數據完成模型訓練。
均方根誤差是實際觀測值與模型預測值之間差異的標準度量,它是均方誤差(MSE)的平方根。均方根誤差的計算公式如式(8)所示:
[RMSE=1ni=1n(yi-yi)2] (8)
式中:[n]是樣本總數;[yi]是第[i]個樣本的實際值;[yi]是模型對第[i]個樣本的預測值。
為進一步描述模型性能,除均方根誤差外,本文使用確定系數[R2]來描述各代理模型所產生的預測值與實際值的匹配程度和模型預測效率,計算公式見式(9):
[R2=1-i=1n(yi-yi)2i=1n(yi-yi)2] (9)
式中[y]是實際值的平均值。一個[R2]值接近1的模型具有很高的預測準確性。
3.3" 預測模型結果與分析
KNN?XGBOOST集成算法中,以第一層為KNN和XGBOOST兩種算法的預測結果作為新的數據集,通過第二層元學習器為線性回歸對該數據集的回歸擬合生成最終的預測結果,總體預測結果共有185 785組數據,選取前1 000組和前100組數據進行繪圖,可以更加直觀地表達出預測效果,如圖6和圖7所示。為了驗證KNN?XGBOOST模型的預測性能,將單一算法與KNN?XGBOOST算法的預測效果進行對比,結果如表4所示。
從理論層面分析,KNN?XGBOOST集成算法優于其他算法的原因是:KNN?XGBOOST在第一層集成了多種機理不同的算法,充分學習到了各個算法的優勢。從模型優化的角度分析,單一算法在對目標函數優化的過程中容易產生局部最優解,多算法的融合可以降低陷入局部最優解的風險。
通過圖6和圖7可以看出:KNN?XGBOOST模型對天線阻抗的預測效果都有了一定的改進。通過表4的數據顯示,與單一的KNN和XGBOOST模型相比,堆疊模型的均方根誤差降低了30%~70%,[R2]提高了10%。在預測PCB RFID天線的阻抗實部和虛部時,KNN?XGBOOST模型具有較高的準確率和較低的預測誤差。
這表明,對KNN和XGBOOST兩種算法模型進行集成學習的策略,在PCB RFID天線阻抗方向預測方面具有一定的實際意義,可以在天線結構長度變化對阻抗進行仿真時提高效率。
4" 結" 論
針對傳統的電磁仿真軟件對標簽天線建模過程中得出所需要的天線阻抗耗時長的問題,本文提出了一種基于KNN?XGBOOST模型的天線阻抗快速預測方法,并得出如下結論與展望:
1) 相對于使用ANSYS Electronics電磁仿真軟件,通過改變天線結構參數得出天線阻抗過程中耗時較長,本文提出的基于KNN和XGBOOST堆疊模型建立天線阻抗預測的方法可準確得出天線阻抗的同時,極大地減少了仿真時間。通過實驗證明,該模型在預測精度和計算效率上均優于傳統仿真方法,驗證了機器學習技術在電磁仿真領域的應用價值。
2) 相對于單一算法模型對于阻抗數據的預測,本文提出的KNN和XGBOOST堆疊模型預測性能更好,所得出的阻抗預測值更大程度上滿足了實際仿真需求。
雖然本文提出的KNN?XGBOOST模型解決了使用ANSYS Electronics電磁仿真在通過改變天線結構參數得出天線阻抗過程中耗時較長的問題,但實際應用過程中彎折偶極子天線阻抗還受到彎折次數的影響,因此下一步將對不同彎折次數的標簽天線在不同頻點上進行阻抗預測來證明KNN和XGBOOST堆疊模型的普適性。
參考文獻
[1] COLELLA R, CATARINUCCI L. Electromagnetic design of UHF RFID tags enabling a novel method to retrieve sensor data [J]. IEEE journal of radio frequency identification, 2018, 2(1): 23?30.
[2] BAEK J J, KIM S W, PARK K H, et al. Design and performance evaluation of 13.56?MHz passive RFID for E?skin sensor application [J]. IEEE microwave and wireless components letters, 2018, 28(12): 1074?1076.
[3] OMER M, TIAN G Y, GAO B, et al. Passive UHF RFID tag as a sensor for crack depths [J]. IEEE sensors journal, 2018, 18(23): 9867?9873.
[4] 劉廣,汪爽,汪井,等.基于粒子群算法的陣列天線波束賦形研究[J].微波學報,2023,39(3):37?40.
[5] MARROCCO G. The art of UHF RFID antenna design: Impe?dance?matching and size?reduction techniques [J]. IEEE antennas and propagation magazine, 2008, 50(1): 66?79.
[6] LOO C H, ELMAHGOUB K, YANG F, et al. Chip impedance matching for UHF RFID tag antenna design [J]. Progress in electromagnetics research, 2008, 81: 359?370.
[7] 趙嘉偉,王安康,亓浩.基于HFSS?API和遺傳算法的波導縫隙陣列天線優化設計[J].微波學報,2018,34(z1):148?151.
[8] RAO K V S, NIKITIN P V, LAM S F. Impedance matching concepts in RFID transponder design [C]// Proceedings of Fourth IEEE Workshop on Automatic Identification Advanced Technologies (AutoID2005). New York: IEEE, 2005: 39?42.
[9] CHOO J, RYOO J, HONG J, et al. T?matching networks for the efficient matching of practical RFID tags [C]// 2009 European Microwave Conference. [S.l.: s.n.], 2009: 5?8.
[10] MOHAMMED N A, DEMAREST K R, DEAVOURSD D. Analysis and synthesis of UHF RFID antennas using the embedded T?match [C]// 2010 IEEE International Conference on RFID. New York: IEEE, 2010: 230?236.
[11] KIM J H, BANG J. Antenna impedance matching using deep learning [J]. Sensors (Basel), 2021, 21(20): 6766.
[12] HAQUE M A, RAHMAN M A, AL?BAWRI S S, et al. Machine learning?based technique for gain and resonance prediction of mid band 5G Yagi antenna [J]. Scientific reports, 2023, 13(1): 12590.
[13] 洪濤,賀則昊,蔣天齊,等.基于多項式的彎折偶極子射頻識別標簽天線阻抗預測研究[J].電子與信息學報,2021,43(4):1098?1105.
作者簡介:姜延坤(2000—),男,湖北黃岡人,碩士研究生,研究方向為RFID標簽天線阻抗預測。
洪" 濤(1970—),男,陜西安康人,正高級工程師,研究方向為RFID質量追溯系統。
章吉麗(2000—),女,浙江紹興人,碩士研究生,研究方向為RFID標簽天線結構參數優化。
收稿日期:2024?03?01" " " " " "修回日期:2024?03?25
基金項目:浙江省基礎公益研究計劃項目(LGG22E050011)