邊天劍,張?zhí)炀?,安世忠,關鐳鐳,黃 鵬,王 哲,冀魯豫,付 偉,周洪吉
(中國原子能科學研究院 回旋加速器研究設計中心,北京 102413)
在粒子加速器設計階段,帶電粒子的非線性行為是重要的研究內(nèi)容之一[1-6]。由于粒子加速器中高階電場、磁場分量的存在,帶電粒子的運動軌跡將偏離理想的簡諧運動,呈現(xiàn)復雜的非線性特征。如粒子加速器的非線性效應會引起相空間畸變、束流包絡增長、束暈等現(xiàn)象[7-9]。目前,對帶電粒子非線性行為的研究主要有束流數(shù)值跟蹤模擬[10-11]與解析分析[12-13]兩種方法。基于加速器高階傳輸映射的非線性效應解析分析,具有物理圖像清晰、守辛、準確的優(yōu)點,其缺點是適用范圍較窄,對加速器設計者的數(shù)學、物理基礎要求較高。帶電粒子數(shù)值跟蹤模擬基于求解運動方程的方法,雖然不能清晰表達物理圖像,但具有使用方便、適用范圍廣的優(yōu)點,故被廣泛采用[14-15]。
粒子加速器非線性效應解析分析適用范圍窄主要體現(xiàn)在:很多加速器中粒子的高階傳輸映射并不容易得到。在環(huán)形加速器中不同的磁鐵之間是有明確邊界的,可通過逐個迭代每個磁鐵的高階傳輸映射近似得到,如1個六極磁鐵(二階傳輸映射,Tijk)與1個八極磁鐵(三階傳輸映射,Umijk)組合形成的高階傳輸映射由Vm=ΣijkUmijkTijk得到[16]。然而很多加速器的磁場并不是有明確邊界的,如回旋加速器中磁場谷區(qū)到峰區(qū)其是隨著角度緩慢變化的。第3代同步輻射光源中的扭擺磁鐵、固定場交變梯度(FFAG)加速器也存在相同問題。目前基于高階傳輸映射的非線性效應解析分析對此類加速器并不適用。Deprit分解是進行非線性效應解析分析的重要一步,得到Deprit分解后便可計算得到相空間固定點、相空間邊界、共振寬度等重要信息[17]。
神經(jīng)網(wǎng)絡在加速器中有多種多樣的應用,如故障預測、性能優(yōu)化、控制等。在加速器束流動力學方面,文獻[18]利用神經(jīng)網(wǎng)絡層來表達不同磁鐵元件的傳輸映射,并按照環(huán)形加速器實際磁聚焦結(jié)構(gòu)設計構(gòu)建了一種具有明確物理含義的神經(jīng)網(wǎng)絡。文獻[19]所提出的神經(jīng)網(wǎng)絡經(jīng)過實驗數(shù)據(jù)訓練后可很好地對含有各種誤差的真實加速器進行建模,并在軌道矯正、束流光學參數(shù)矯正等方面進行了應用。文獻[19]的網(wǎng)絡可看作一種對真實加速器進行擬合的正向傳播網(wǎng)絡,該網(wǎng)絡不具備通過數(shù)據(jù)學習預測帶電粒子非線性行為的能力。文獻[20]提出了一種全連接神經(jīng)網(wǎng)絡,并實現(xiàn)了對二極磁鐵、四極磁鐵、漂移節(jié)等線性加速器元件分類,其中所提出的全連接神經(jīng)網(wǎng)絡還可對帶電粒子的二階非線性運動進行預測,預測偏差的方均根約為2×10-2[21]。該網(wǎng)絡的局限性在于使用了Relu作為激活函數(shù),不具備明確物理含義,故泛化能力較差。
為了解決非線性效應解析分析適用性窄的問題,本文提出一種新型的神經(jīng)網(wǎng)絡層,使用該神經(jīng)網(wǎng)絡層構(gòu)建的誤差反向傳播神經(jīng)網(wǎng)絡經(jīng)過訓練后,不僅可用作帶電粒子非線性行為的預測,還可通過神經(jīng)網(wǎng)絡的權(quán)重推測帶電粒子高階傳輸映射的各階Deprit分解。本文提出的新型神經(jīng)網(wǎng)絡層具有明確的物理含義,可通過數(shù)據(jù)學習預測帶電粒子的非線性行為,并得到高階傳輸映射的各階Deprit分解,從而擴展非線性效應解析分析適用范圍,降低非線性效應解析分析難度。

圖1 神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)Fig.1 Basic structure of neural network
誤差反向傳播神經(jīng)網(wǎng)絡一般由3部分組成:輸入層、1個或多個中間層、輸出層。圖1為三層神經(jīng)網(wǎng)絡結(jié)構(gòu),輸入向量x=(x1,x2)T經(jīng)過線性映射到中間層。中間層含有兩列,第1列的各值是輸入向量x的加權(quán)和,第2列為非線性函數(shù),通常稱為激活函數(shù)。神經(jīng)網(wǎng)絡最終的輸出y為中間層的加權(quán)和(也可有多個輸出)。神經(jīng)網(wǎng)絡可看作復雜的復合函數(shù),簡記為y=f(x)。神經(jīng)網(wǎng)絡的訓練需要大量的輸入-輸出數(shù)據(jù)做支撐。初始神經(jīng)網(wǎng)絡權(quán)重參數(shù)是隨機的,通過分析神經(jīng)網(wǎng)絡的預測值f(x)與真實值y之間的差異(即損失函數(shù)),不斷更新神經(jīng)網(wǎng)絡權(quán)重參數(shù),最終達到良好的預測效果。

(1)
其中,η為學習率,代表了每次對神經(jīng)網(wǎng)絡權(quán)重參數(shù)更新的幅度。
激活函數(shù)是一種非線性函數(shù),是神經(jīng)網(wǎng)絡中必不可少的一部分,沒有激活函數(shù)的神經(jīng)網(wǎng)絡就退化成了一系列的線性代數(shù)運算。常用的激活函數(shù)有sigmoid函數(shù),tanh函數(shù),relu函數(shù)等。本文所提出的一種用于預測帶電粒子非線性行為的新型神經(jīng)網(wǎng)絡層也可看作一種新型的激活函數(shù)層。
本文構(gòu)造一種不僅可用作帶電粒子非線性行為的預測,還可通過神經(jīng)網(wǎng)絡的權(quán)重推測帶電粒子高階傳輸映射的各階Deprit分解的神經(jīng)網(wǎng)絡層。Deprit分解是一種將帶電粒子線性運動與非線性效應完全分離的分解方法,具有形式[13-14]為:
M=Re:g:
(2)
其中:M為守辛的高階傳輸映射;R為帶電粒子線性運動,即常用的傳輸矩陣;:g:為對g與粒子坐標進行泊松括號運算,所有的非線性效應均存在于指數(shù)g中,g由帶電粒子坐標的各個高階項之和構(gòu)成。
計算得到g是進行非線性效應解析分析的重要一步,其后可計算得到相空間固定點、相空間邊界、共振寬度等重要信息[17]。本文新型神經(jīng)網(wǎng)絡層的構(gòu)造模擬了李指數(shù)運算,即:
(3)
式(3)為無限項之和,可根據(jù)計算精度的需求將其截斷到所需要的階數(shù)。將指數(shù)g中的各高階項系數(shù)作為神經(jīng)網(wǎng)絡的可學習參數(shù),通過大量束流跟蹤數(shù)據(jù)的學習,使用誤差反向傳播算法逐步逼近真實的指數(shù)g。指數(shù)運算e:g:是一種非線性運算,故該神經(jīng)網(wǎng)絡層也可看作一種含有待學習參數(shù)的非線性激活函數(shù)。相比其他激活函數(shù),由于本文所構(gòu)造的新型神經(jīng)網(wǎng)絡層中的各待學習參數(shù)具有明確的物理含義,故對于帶電粒子非線性行為的預測具有更好的泛化能力。
使用2.1節(jié)中所描述的新型神經(jīng)網(wǎng)絡層搭建了一種預測帶電粒子非線性行為的神經(jīng)網(wǎng)絡,如圖2所示。輸入層為帶電粒子的相空間四維坐標(x,x′,y,y′),中間層1為全連接層。全連接層的權(quán)重即為束流傳輸矩陣中的各元素。中間層2為模擬李指數(shù)運算e:g:的新型神經(jīng)網(wǎng)絡層,它有3點特殊之處:1) 乘節(jié)點是做乘法運算,而不是普通節(jié)點的加權(quán)和運算;2) 和節(jié)點將乘節(jié)點的結(jié)果做加權(quán)和運算,即得到指數(shù)g,其權(quán)重W1,W2,W3,…,Wm為指數(shù)g中高階項的系數(shù);3) 虛連接線的含義是將和節(jié)點與中間層1的結(jié)果做泊松括號運算。

圖2 神經(jīng)網(wǎng)絡模型的建立Fig.2 Establishment of neural network model

(4)
為了驗證新型神經(jīng)網(wǎng)絡層對非線性粒子運動預測的能力,本文采用如下驗證方案。設計了一個FODO結(jié)構(gòu),由兩塊聚焦四極磁鐵、1塊散焦四極磁鐵、1塊六極磁鐵、2個漂移節(jié)組成。六極磁鐵緊鄰第1塊聚焦四極磁鐵,帶電粒子的非線性運動均由六極磁鐵引起。為了可精確計算該FODO結(jié)構(gòu)的非線性效應,所有磁鐵均采用薄透鏡近似。該FODO結(jié)構(gòu)長度為40 m,水平方向與垂直方向的相位移動均為60°,六極磁鐵歸一化強度為1.25。由于該磁聚焦結(jié)構(gòu)只含有1塊六極磁鐵,故可將指數(shù)g中的階數(shù)大于3的高階項截斷,即只保留三階Deprit分解g3。
誤差反向傳播神經(jīng)網(wǎng)絡的優(yōu)勢是可擬合幾乎任何復雜函數(shù),但作為一種數(shù)據(jù)驅(qū)動的算法,其缺點是訓練過程需大量訓練數(shù)據(jù)作為支撐。由于數(shù)值跟蹤模擬可得到大量軌跡數(shù)據(jù),可解決大量訓練數(shù)據(jù)的需求。本文中的神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)有以下3方面要求。
1) 訓練數(shù)據(jù)應含有振幅適中的粒子軌跡,主要體現(xiàn)束流的線性運動。由于從粒子大幅振蕩的非線性軌跡中學習到線性運動規(guī)律是十分困難的,會導致收斂過慢或不收斂。故需要主要體現(xiàn)束流的線性運動的軌跡數(shù)據(jù),幫助中間層1中的線性傳輸矩陣的收斂。
2) 訓練數(shù)據(jù)應含有大幅振蕩的粒子軌跡,體現(xiàn)高階傳輸映射的非線性特征。訓練數(shù)據(jù)中明顯偏離線性運動的軌跡數(shù)據(jù)是更好的訓練得到指數(shù)g的高階項權(quán)重W1,W2,W3,…,Wm的基礎。
3) 訓練數(shù)據(jù)應含有磁聚焦結(jié)構(gòu)動力學孔徑之外的帶電粒子軌跡。雖然振幅過大的粒子不可在磁聚焦結(jié)構(gòu)中穩(wěn)定存在,但由于此類粒子軌跡幾乎由非線性效應支配,適量的此類數(shù)據(jù)可幫助神經(jīng)網(wǎng)絡達到更好的收斂效果。
圖3為帶電粒子相空間運動軌跡的部分數(shù)據(jù)示例。本文所作計算共使用了60萬個粒子軌跡數(shù)據(jù),其中10%作為測試數(shù)據(jù)集,90%作為訓練數(shù)據(jù)集。適中振幅、大振幅、動力學孔徑之外的帶電粒子軌跡比例約為1∶4∶1。

圖3 帶電粒子相空間非線性運動軌跡數(shù)據(jù)(a)與近似線性運動軌跡數(shù)據(jù)(b)Fig.3 Nonlinear orbit (a) and approximate linear motion (b) data of charged particle in phase space

圖4 損失函數(shù)收斂過程Fig.4 Convergence process of loss function
將128個軌跡數(shù)據(jù)作為一批次,計算該批次數(shù)據(jù)損失函數(shù)對權(quán)重參數(shù)的平均梯度,即批量梯度下降法。該方法可避免某些數(shù)據(jù)引起的錯誤梯度下降方向,從而加快收斂,提高精度。學習率的選取也會極大地影響收斂速度,過大的學習率會導致?lián)p失函數(shù)前期下降快而后期振蕩。過小的學習率則會導致收斂速度過慢。綜合考慮,本文選取學習率η=0.01。圖4為隨著迭代次數(shù)的增加,損失函數(shù)逐漸收斂的過程,最終損失函數(shù)收斂到10-6m量級。

圖5 訓練后的神經(jīng)網(wǎng)絡權(quán)重與解析計算得到的高階項系數(shù)的對比Fig.5 Comparison between weight of trained neural network and analytically calculated coefficient
圖5為訓練后的神經(jīng)網(wǎng)絡權(quán)重與解析計算得到的高階項系數(shù)的對比,縱坐標使用對數(shù)坐標。從圖5可看出,神經(jīng)網(wǎng)絡得到的高階項系數(shù)與解析計算吻合良好,差異小于千分之一。通過神經(jīng)網(wǎng)絡計算的三階Deprit分解g3有足夠高的精度,完全可使用神經(jīng)網(wǎng)絡計算的g3進行相空間固定點、相空間邊界、共振寬度等方面的計算,文獻[17]闡述了如何通過Deprit分解進行上述計算。圖6為訓練后神經(jīng)網(wǎng)絡對帶電粒子相空間軌跡預測值與數(shù)值跟蹤的對比。訓練后神經(jīng)網(wǎng)絡對帶電粒子相空間連續(xù)40圈的軌跡進行預測,并與數(shù)值跟蹤結(jié)果對比。結(jié)果發(fā)現(xiàn)兩者吻合程度良好,本文所提出的神經(jīng)網(wǎng)絡可很好地預測帶電粒子非線性運動的趨勢。

圖6 訓練后神經(jīng)網(wǎng)絡對帶電粒子相空間軌跡預測值與數(shù)值跟蹤對比Fig.6 Phase space comparison between trained neural network and numerical tracking
圖7為訓練后的神經(jīng)網(wǎng)絡在測試數(shù)據(jù)集中損失函數(shù)的概率分布。可看出,測試數(shù)據(jù)集中有接近60%的數(shù)據(jù)損失函數(shù)在10-5m量級,不足1%的數(shù)據(jù)損失函數(shù)大于5×10-4m,訓練后的神經(jīng)網(wǎng)絡在測試數(shù)據(jù)集中整體表現(xiàn)良好。

圖7 訓練后的神經(jīng)網(wǎng)絡在測試數(shù)據(jù)集中損失函數(shù)的概率分布Fig.7 Probability distribution of loss function of test data set for trained neural network
本文所述的神經(jīng)網(wǎng)絡方法可擴展加速器非線性效應解析分析手段的適用范圍,即為回旋、FFAG等類型的加速器提供非線性效應解析分析的途徑。本文將神經(jīng)網(wǎng)絡方法應用于14~70 MeV FFAG加速器。圖8為14~70 MeV FFAG加速器磁場分布。由于該FFAG加速器的徑向工作路徑會穿越3vr=4共振,故四次諧波磁場會形成三階共振,從而對相空間造成破壞,并形成3個固定點。文獻[24]從理論上對該現(xiàn)象進行了闡述,并指出徑向工作路徑穿越三階共振會導致固定點旋轉(zhuǎn)180°。

圖8 14~70 MeV FFAG加速器磁場分布Fig.8 Layout of 14-70 MeV FFAG magnetic field
應用本文的神經(jīng)網(wǎng)絡方法對圖8中14~70 MeV FFAG加速器的Deprit分解g3進行計算,并使用計算所得g3進行粒子跟蹤,如圖9所示??煽闯?,粒子軌跡在相空間形成3個固定點,且在穿越3vr=4共振前后旋轉(zhuǎn)180°。計算所得g可很好地復現(xiàn)文獻[24]所述現(xiàn)象。

圖9 vr=1.32粒子相空間軌跡(a)與vr=1.34粒子相空間軌跡(b)Fig.9 Phase space plots of vr=1.32 (a) and vr=1.34 (b)
為了擴展加速器非線性效應解析分析手段的適用范圍,降低非線性效應解析分析難度,本文構(gòu)造了一種用于預測帶電粒子非線性行為的新型神經(jīng)網(wǎng)絡層,并用其搭建了誤差反向傳播神經(jīng)網(wǎng)絡。使用一個帶有六極磁鐵的FODO磁聚焦結(jié)構(gòu)的帶電粒子軌道數(shù)據(jù)進行訓練,驗證結(jié)果表明了本文所提出的神經(jīng)網(wǎng)絡結(jié)構(gòu)的有效性。由于本文所構(gòu)造的新型神經(jīng)網(wǎng)絡層中的各個待學習參數(shù)是具有明確物理含義的,故對于帶電粒子非線性行為的預測具有良好的泛化能力。通過該神經(jīng)網(wǎng)絡計算所得的三階Deprit分解有足夠高的精度,完全可用于相空間固定點、相空間邊界、共振寬度等方面的計算。
本文所構(gòu)建的神經(jīng)網(wǎng)絡層的缺點在于對訓練數(shù)據(jù)的敏感性高,其對數(shù)據(jù)的篩選有如下兩點經(jīng)驗:1) 需篩選出體現(xiàn)帶電粒子各種非線性運動特征的數(shù)據(jù);2) 不僅需帶電粒子單次通過磁聚焦結(jié)構(gòu)的軌跡數(shù)據(jù),還需多次通過磁聚焦結(jié)構(gòu)的軌跡數(shù)據(jù)。另外,由于中間層1的權(quán)重代表帶電粒子的線性傳輸矩陣,且加速器的線性傳輸矩陣容易得到,故在訓練過程中可將中間層1的權(quán)重固定,從而加快神經(jīng)網(wǎng)絡損失函數(shù)的收斂速度與精度,降低對訓練數(shù)據(jù)集的敏感性。
基于本文的研究工作,可繼續(xù)開展兩方面的研究:1) 優(yōu)化本文所提出的神經(jīng)網(wǎng)絡,提高神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)的敏感性;2) 本文工作還局限于對帶電粒子橫向非線性運動的預測,后續(xù)研究可開展含有縱向運動的三維非線性運動預測的研究。