李云紅,李弘昊,文 達,魏凡粟,郭新新,周小計,
(1.西安工程大學 電子信息學院,陜西 西安 710048;2.北京大學 信息科學技術學院,北京 100871)
玻色-愛因斯坦凝聚(Bose-Einstein Condensate,BEC)是玻色子原子在冷卻到接近絕對零度時所呈現出的一種氣態的、超流性的物質狀態。BEC的實現不僅證實了1924年玻色-愛因斯坦的預言,也為我們打開了冷原子物理的大門。隨著研究的進一步深入,人們嘗試用激光陣列形成的周期性光學晶格[1]來俘獲和囚禁超冷原子,光晶格中的超冷原子成為近年來的熱門研究領域,它在重力[2]、時間[3-4]等的精密測量以及超流態到莫特絕緣態相變[5]、測量超冷拓撲物質[6-7]等量子測量、量子模擬領域中都有著不俗的表現,其應用前景是可預見但卻不可估量的。
在冷原子實驗中,通過飛行時間法(Time of Flight,TOF)[1-6]可以獲得冷原子的動量分布信息,但是這種方法只能得到冷原子波函數的密度分布,無法從其中推斷出波函數的相位信息。研究光晶格中超冷原子的相位信息,對于冷原子干涉儀[7]以及光晶格鐘等具有重大意義。理論上,通過Gross-Pitaevskii(G-P)方程[8]求解基態波函數,在得到的基態波函數中會包含一種平均場下產生的相位假設信息和密度分布信息,可以將波函數相干疊加,通過得到的動量空間分布來解釋實驗中的一些現象。由于通過G-P方程得到的相位信息是假設信息,利用這個假設的相位信息來研究相位對動量分布的影響是沒有意義的。但是,如果將大量的隨機相位信息及其動量分布作為先驗知識,再通過相位預測得到的基態波函數疊加生成的動量分布卻是可信的。而建模必須要處理大量數據,所以本文使用當下熱門的數據科學方法——機器學習,模擬冷原子相位分布與動量空間原子分布的映射關系。
機器學習源自對類人智能的探索,是當今跨學科最活躍的領域之一,其應用范圍廣泛,涵蓋了從化學、生物學到社會科學甚至宇宙學的基礎研究[9-10]。在量子物理學領域,機器學習技術為重力波分析[11]、黑洞探測[12]和材料設計等研究提供了新的工具,而在研究傳統系統的相變時,也可以用來改進數值計算[13-14]。
本文采用改進的卷積循環神經網絡模型來研究光晶格中超冷原子相位分布與其動量分布的映射關系。相較于其他機器學習方法,人工神經網絡可以通過不同的網絡模型實現數據的充分利用,對數據實現最好的泛化。人工神經網絡還能以自學學習的方式來學習數據的特征從而進行預測。憑借這些優點,通過建立人工神經網絡模型,用隨機生成的相位信息與其對應的動量分布來訓練神經網絡模型,通過這個模型來預測給定相位分布的超冷原子的動量分布信息,最后得到與實際的動量分布偏差極小的結果,該算法為機器學習在物理學領域的應用提供了新的思路,可以很好地模擬光學晶格中超冷原子的動量分布。
卷積是圖像處理中最常用的方式,它可以去除圖像中冗余,有效提取圖像的特征,通過將卷積計算和前饋神經網絡組合,就可以實現具有表征能力的卷積神經網絡(Convolutional Neural Networks, CNN)[15-16]。卷積神經網絡的基本結構如圖1所示。

圖1 卷積神經網絡Fig.1 Convolutional neural networks
該網絡由卷積操作層、池化操作層以及全連接層組成。每個卷積操作層與池化層的前向傳播公式為:
ym=fpooling[factivtion(wmxm+bm)],
(1)
其中:ym為m層后的池化層的輸出,xm為m層卷積層的輸入,wm為m層卷積核的權重,bm為m層偏置值,factivtion為激活函數,fpooling為池化函數。
然而池化并不是一個好的操作,在進行池化操作時可能會拋棄掉某些細節特征,而這些細節特征往往可能非常重要,這里用卷積采樣的方式代替池化操作[17],改進后網絡的前向傳播公式為:
ym=ws[factivtion(wmxm+bm)],
(2)
其中ws為第m個卷積層后的卷積采樣層的卷積核權重,卷積采樣權重參加反向傳播優化,通過控制卷積核步長來達到池化作用。
單一的CNN并不能很好地預測出動量分布,所以用循環神經網絡(Recurrent Neural Networks,RNN)[18]層來代替最后的全連接層作為輸出。RNN是一種有順序的神經網絡,其結構如圖2所示。

圖2 循環神經網絡結構Fig.2 Construction of recurrent neural networks
其向前傳播公式為:
h(t)=factivtion[wx(t)+h(t-1)+b],
(3)
其中:h(t)表示t時刻的輸出,w表示該層的權重,b為該層的偏置值。RNN的基本結構就是將(t-1)時刻的輸出與當前時刻的輸入相加,而這里把CNN的輸出看作是多個有順序的相位特征圖,將這些圖作為RNN的輸入,以達到模擬波函數疊加的過程,從而使網絡模型具有更高的精度。
通過多種人工神經網絡測試,最終采用5層改進后的CNN與2層RNN結合的方式進行預測,如圖3所示。通過卷積層將提取到的相位信息轉化為高維特征,然后通過RNN對這些高維特征進行計算,得到最終的輸出。

圖3 卷積循環神經網絡Fig.3 Convolutional-recurrent neural networks
從(-π,π)中選取106個隨機數為一組,將它們作為一組一維光晶格中106個格點的波函數的相位,根據托馬斯-費米理論估計出原子密度并結合相位信息構建出波函數,再對構造的波函數進行相干疊加得到其動量空間中的分布,然后沿x軸對該分布進行積分,得到一組一維動量分布數據。通過此方法生成了32 000組數據作為實驗數據,其中將30 000組作為訓練數據集,1 900組作為驗證數據集,100組作為測試數據集。卷積循環網絡的參數如表1所示。

表1 卷積循環神經網絡的參數Tab.1 Parameters of convolutional-recurrent neural networks
循環網絡層選用Relu作為激活函數,卷積層選用LeakyRelu[19]作為激活函數,LeakyRelu可以保留卷積層輸出的負值相位特征,其表達式為:

(4)
卷積網絡部分的最后一層會產生30 000組二維數組,每個二維數組值表示為CNN中10個卷積核所得到的特征向量,將這些特征向量按圖4 所示的結構進行排列作為RNN的輸入。

圖4 循環神經網絡輸入方式Fig.4 Input way of recurrent neural networks
采用平均誤差來評估網絡模型的效果,由于測試數據集絕對未知且不是網絡模型訓練所用的數據集,所以將網絡模型經測試集驗證的結果作為最終的評估結果,如表2所示。定義卷積循環神經網絡模型在驗證數據集上的平均誤差,其公式為:
(5)


表2 驗證集和預測集下神經網絡的平均誤差Tab.2 Average errors of neural networks based on verification set and prediction set

圖5 卷積循環神經網絡模型在測試數據集上的結果
本文搭建了BP神經網絡模型,CNN模型和卷積循環神經網絡模型,表2是3種神經網絡模型在驗證數據集和測試數據集下的平均誤差。通過表2可以看出,使用BP神經網絡在測試集上得到的平均誤差為10.45,使用CNN在測試集上得到的平均誤差為2.27,平均誤差降低了70%,在替換全連接層為RNN層后,網絡模型在測試集上的平均誤差為1.76,平均誤差降低了83%。通過圖5可以看出,訓練完成的網絡模型預測一維光晶格中的超冷原子在動量空間的密度分布信息與理論計算得到的動量空間的密度分布信息在像素軸上的位置以及相應的原子密度誤差并不明顯,說明該網絡模型能夠比較準確地預測動量空間的密度分布信息。
本文從數據科學的研究角度出發,將機器學習方法運用到冷原子的研究中,通過訓練卷積循環神經網絡來模擬從相位信息到動量信息的映射。訓練完成的神經網絡模型在測試集上的平均誤差為1.76,該神經網絡模型能夠比較準確地預測動量空間的密度分布信息。這種方法為研究冷原子的相變對動量分布的影響提供了一種研究思路。后續通過對網絡模型的改良以及大規模數據的訓練,有望實現用動量分布圖來預測冷原子的相位。這種方法對高精密測量、量子信息處理、原子刻蝕技術等具有積極的意義。