楊 松,張文濤,熊顯名,王獻英
(1.桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541004;2.上海微電子裝備(集團)股份有限公司,上海 201203)

圖1 掩模臺伺服控制系統Fig.1 Motion stage servo control system
光刻機是制造集成電路的關鍵設備,被譽為集成電路產業皇冠上的明珠[1]。國家科技重大專項“極大規模集成電路制造裝備及成套工藝”明確將28nm 浸沒式光刻機產品作為專項的標志性目標成果。光刻分辨率、套刻精度以及產率是衡量光刻機性能的3 個指標[2],這3 個指標中光刻分辨率與物鏡系統相關,套刻精度以及產率與掩模臺直接相關。掩模臺在光刻機中負責實現掩模版的精確運動,掩模臺運動控制精度的進一步提升關系到光刻機的性能指標能否進一步提升。28nm 浸沒式光刻機的套刻精度要求上升到5.7nm,相應的掩模臺位置測量算法精度要求上升到1nm[3]。因此,研究一種高精度掩模臺位置位移系統的硬件架構和數據流對高端光刻機來說極其重要。
目前,國內多所高校對掩模臺位移測量系統做了大量的研究與設計工作。2015 年,哈爾濱工業大學張之萬[4]自制運動控制卡,主要由Altera 公司的EP2S60F1020 型FPGA 和TI 公司的TMS320C6414 型DSP 構成。2017 年,哈爾濱工業大學饒裕[5]等人選用TI 公司的 TMS320C6414型DSP 作為主控芯片及FPGA 設計了運動控制卡,并設計了基于宏微驅動的光刻機掩模臺控制系統,該系統六自由度誤差為幾百納米。另外,哈爾濱工業大學也對位移測量系統進行研究并在結構上做出了一些改進[6]。DSP 擁有強大的高速運算能力[7],并且具有較強的控制性能及信號處理能力[8]。硬件在環仿真技術已經越來越廣泛地應用于電力系統與電力電子領域[9],2018 年桂林電子科技大學杜浩等人[10]對二維光柵的測量模型以及仿真平臺中數據傳輸和計算的過程進行了研究,并設計硬件在環仿真平臺。文獻[9]所述掩模臺伺服控制系統如圖1 所示[9],仿真端與測量端的數據交互是通過光纖而不是數據總線,所以勢必會增加整體運算時間。掩模臺位移模型(ECPS)與掩模臺對準模型(ECPA)之間的數據交互是通過數據總線進行的,這種傳輸方式速度慢、效率低而且還受到同步時鐘的制約。
針對現有高精度位移測量系統的問題以及高端光刻機的需求,設計了一種基于多核DSP 的高精度位移測量仿真平臺。同原設計不同的是,本平臺仿真端和控制端分別由兩塊板卡構成且置于同一機箱內。故此本平臺具有如下優點:
1)仿真端和控制端置于同一機箱,可實現測量端板卡通過背板數據總線獲取仿真端光信號計數值,還原了測量系統真實的工作狀態。故而,本系統進行硬件仿真的真實性更高。
2)本系統的數值計算板卡采用主頻為1.25GHz 的TMS320C6678 型DSP 芯片,縮短了單組模型的計算時間;同時,本仿真平臺利用數值計算板卡的共享內存機制使模型間的數據交互通過共享內存進行,從而縮短兩組模型間數據傳遞時間,達到提高數據傳輸效率的目的。
3)本仿真平臺利用同一塊板卡內嵌多個計算核心的特點將控制端的ECPS 模型與ECPA 模型運行于同一塊數值計算板卡中。實現了一塊數值計算板卡內同時進行兩組模型運算,并行輸出兩組掩模臺位置數據。相比文獻[9]所述仿真平臺(后文均稱原仿真平臺),本平臺的集成度更高。
通過分析可知,原仿真平臺的時間開銷主要在模型運算和數據傳輸兩方面。原仿真平臺ECPS 模型與ECPA模型分別運行于兩塊不同的數值計算板卡,ECPS 模型與ECPA 模型間的數據傳輸是通過數據總線完成的;原仿真平臺將仿真端數值計算板卡與測量端數值計算板卡分布于兩個機箱,兩塊板卡采用光纖進行通信;原仿真平臺將發送簡化系數這一步放在第五步執行,延長了ECPA 模型的等待時間。
文章設計的仿真平臺采用的是獨立設計的多核DSP 數值計算板卡(NCD,Numerical Calculation Board of DSP),該板卡使用的核心芯片是內置8 個corepac 計算核心的TMS320C6678。TMS320C6678 內部的共享內存提供了4MB大小的快速大數據量交互區間與可以實現不同corepac 計算核心之間的互聯和通信的HyperLink 總線。每個corepac 計算核心擁有4MB 多核共享內存,支持DMA 傳輸,所以可以將原仿真平臺板卡之間的數據傳輸升級為板卡內部計算核心之間的數據傳輸和共享,計算核心之間的數據傳輸和共享有利于提高傳輸效率。
基于多核DSP 的硬件在環仿真平臺硬件架構如圖2 所示。機箱內部包含4 塊板卡:一塊主控板卡(CCB,Calculation Control Board), 一 塊 同 步 板 卡(SBC,Synchronization Bus Controller),兩塊多核數值計算板卡(NCD)。其中,主控板卡(CCB)主要負責系統主程序的運行,板卡的控制以及初始化;同步板卡(SBC)主要提供20KHz 的采樣信號;多核數值計算板卡(NCD1,NCD2)主要負責運算光柵尺測量模型和模擬輸出原始數據。

圖2 硬件在環仿真架構Fig.2 Hardware-in-the-loop simulation framework
NCD1 作測量端負責運算光柵尺測量模型。NCD1 通過數據總線讀取仿真端的原始數據,進行正向模型計算,輸出掩模臺的位置和姿態信息。測量端NCD1 板卡內的任務分配如圖3 所示,NCD1 板卡內的模型運算由3 個corepac計算核心執行:其中,corepac 計算核心0 作為主控核心用于接收仿真端NCD2 輸出的原始數據,并將原始數據廣播到共享內存中;corepac 計算核心1 作為從核,運行ECPS測量模型進行復雜模型的運算,然后通過光纖將計算后的掩模臺位置和姿態信息發送給仿真端NCD1 進行誤差計算;corepac 計算核心2 也作為從核,運行ECPA 測量端固件模型進行簡化模型的運算,然后通過光纖將計算后的位置和姿態信息發送給仿真端NCD1 進行誤差計算;corepac 計算核心3 到corepac 計算核心7 沒有進行模型運算。
文章設計的仿真平臺是為了驗證測量模型在程序實現過程中誤差滿足要求的情況下與原仿真平臺相比性能是否有所提高,所以本仿真平臺使用仿真端多核計數板卡NCD2模擬輸出的原始數據代替了實際的二維光柵和讀數頭采集計算后輸出的原始數據。
仿真端NCD2 通過corepac 計算核心0 將原始數據經數據總線發送到測量端。機箱背板提供兩個總線通道,控制總線和數據總線。控制板卡(CCB)通過控制總線對其它板卡下發命令,數據總線用于除CCB 之外其它板卡間的數據傳遞。本仿真平臺原始數據的傳輸是通過數據總線進行的,原仿真平臺仿真端原始數據的傳輸是通過光纖進行的。測量端輸入數據通道采用的是通信頻率為1.25GHz 的高速通信光纖,與原仿真平臺相比較在數據回傳方面可以提高傳輸速率。

圖3 NCD板卡內部任務分配Fig.3 Task allocation in NCD
本仿真平臺設計的光柵尺測量模型數據流如圖4 所示。仿真端corepac 計算核心0 的模型運算過程可分為以下五步:第一步,讀取名義位置,本仿真平臺的名義值是由代碼生成來代替現場采集的名義值;第二步,利用第一步已經獲得的名義位置數據進行逆模型計算,通過逆模型運算得到掩模臺位置和姿態原始數據;第三步,通過數據總線發送由第二步算得的原始數據至數據總線;第四步,通過光纖將讀取測量端ECPS 模型計算出的掩模臺位置和姿態數據,并進行誤差計算;第五步,通過光纖將讀取測量端ECPA 模型計算出的位置和姿態數據,并進行誤差計算。
測量端corepac 計算核心0 執行過程分為兩步:第一步,corepac 計算核心0 通過數據總線讀取經過逆模型運算的原始數據;第二步,將第一步已經讀取的原始數據發送到共享內存供ECPS 模型和ECPR 模型調用。
測量端corepac 計算核心1 進行ECPS 模型運算,運算過程可分為以下五步:第一步,corepac 計算核心1 通過共享內存讀取經過逆模型運算的原始數據;第二步,利用第一步已經獲得的原始數據進行簡化模型A 的計算;第三步,輸出由第二步簡化模型A 運算所得的簡化系數至共享內存;第四步,通過光纖將掩模臺位置和姿態數據發送給仿真端corepac 計算核心0;第五步,利用已經獲得的掩模臺位置和姿態數據進行復雜模型的計算。
測量端corepac 計算核心2 運行ECPA 模型,運行過程可分為以下四步:第一步, corepac 計算核心2 通過共享內存讀取corepac 計算核心0 經過逆模型運算的原始數據;第二步,通過共享內存讀取簡化系數;第三步,利用已經獲得的原始數據和簡化系數進行簡化模型B 的計算;第四步,通過光纖將位置和姿態數據發送給仿真端corepac 計算核心0;在不影響整體架構正確性的同時,可以將發送簡化系數放在第三步、第四步或者第五步執行。但是為了減少延ECPA模型的等待時間,文章將發送簡化系數設計為第三步。

圖4 光柵尺測量模型數據流Fig.4 Data flow in grating measurement model
本硬件在環仿真實物平臺由一臺操作電腦(裝載CCS軟件)、一個上位機操作平臺、一個標準VME 機箱、一塊CCB 板卡、兩塊NCD 板卡和一塊SBC 板卡構成。硬件在環仿真平臺實物圖如圖5 所示。本平臺通過局域網將電腦、CCB 和上位機操作平臺連接在一起。電腦可通過網絡直接訪問CCB 板卡,并通過可視化界面對CCB 進行操作。通過CCS 軟件將測量模型代碼編譯成可執行文件,然后將可執行文件加載到兩塊NCD 板卡上。
本系統具體操作流程如下:
1)通過CCB 板卡對兩塊NCB 板卡進行初始化配置。
2)通過CCB 板卡對SBC 板卡進行初始化配置。
3)通過CCB 板卡經命令總線向兩塊NCD 板卡加載測量模型的可執行文件。
4)通過CCB 板卡經命令總線向兩塊NCD 板卡的不同計算核心加載模型計算常數。
以上4 步執行完成后,仿真端NCD2 以20KHz 的頻率輸出掩模臺位置信息原始數據;測量端NCD1 以20KHz 的頻率獲取原始數據。當測量端NCD1 計算模型完成后,將得到的兩組掩模臺位置數據通過1.25G 高速光纖回傳到仿真端。同時,在仿真端NCD2 記錄掩模臺位置信息原始數據和通過光纖回傳的掩模臺位置數據,通過分析這兩組數據可得知NCD1 板卡的模型計算精度。在NCD1 計算模型的代碼中添加時間戳,可獲得測量模型每一步的運算時間。

圖5 硬件在環仿真平臺Fig.5 Hardware-in-the-loop simulation platform
在本仿真平臺上進行硬件在環仿真實驗,模型運算時間結果見表1。可以看出,模型運算時耗主要在4 個方面:原始數據讀取、模型計算、光纖發送數據和發送簡化系數。其中,光纖發送六自由度數據和發送簡化系數兩方面提升顯著。原仿真平臺光纖發送六自由度數據時間為7.700us,本仿真平臺光纖發送六自由度數據時間為1.338us,性能提升82.6%;原仿真平臺發送簡化系數時間為5.036us,本仿真平臺發送簡化系數時間為0.447us,性能提升91.2%。

表1 模型運算時間開銷Table 1 Time overhead of model operation
從原始數據讀取來看,本仿真平臺花費時間為4.307us,原仿真平臺花費時間為10.024us,本仿真平臺花費時間大約為原仿真平臺花費時間的2/5。主要是因為原仿真平臺是通過光纖進行原始數據的發送,而本仿真平臺通過數據總線進行原始數據的發送。數據總線傳輸一個int 型數據的時間約1.5us,光纖傳輸一個int 型數據的時間約為15us。從模型計算來看,本仿真平臺與原仿真平臺相比在計算時間方面減少約0.4us。因為本平臺數值計算板卡所使用DSP 的主頻與原平臺數值計數板卡的計算核心的主頻相比并沒有提高,所以在模型計算時間只有微小減少。
從光纖發送六自由度數據時間來看,文章設計的仿真平臺花費時間1.338us,原仿真平臺花費時間為7.7us。本仿真平臺花費時間大約為原仿真平臺花費時間的1/6。主要原因有兩方面:一方面因為本仿真平臺采用的是1.25GHz通訊頻率的光纖,原仿真平臺使用的是1GHz 通訊頻率的光纖;另一方面,因為文章設計的仿真平臺使用的是多核數值計算板卡NCD,硬件有所升級。
從發送簡化系數來看,文章設計的仿真平臺花費時間為0.447us,原仿真平臺花費時間5.036us。文章設計的仿真平臺花費時間大約為原仿真平臺花費時間的1/11。原仿真平臺ECPS 模型和ECPR 模型所在板卡之間的數據交互是通過數據總線進行。本仿真平臺數據搬運方式是將計算核心0 作為主控核,首先通過EDMA 將總線數據搬運到共享內存上,然后計算核心1、計算核心2 通過Cache 并行讀取共享內存的數據。
各功能運行時間占比如圖6 所示。就整體時間開銷而言,原仿真平臺總的時間開銷為 31.352us。如圖6(a)所示,其中發送線性化系數所占比例為16%,光纖數據傳輸時間所占比例為25%。本平臺總時間開銷為14.242us,如圖6(b)所示。其中,發送線性化系數所占比例為3%,光纖數據傳輸時間所占比例為10%。對比可知,文章設計的仿真平臺在光纖通訊和發送線性化系數兩方面的提升幅度較大。

圖6 各功能運行時間占比Fig.6 Proption of all function operating time
通過實驗結果分析可知,本仿真平臺在測量端ECPS模型運行過程中將發送簡化系數放在第三步執行,而原仿真平臺測量端ECPS 模型的發送簡化系數是第五步執行,從時序角度講,放在第五步執行時ECPA 模型的等待時間就會延長,放在第三步執行可以縮短ECPA 模型的等待時間,綜合考慮文章將發送簡化系數這一步放在第三步執行。因此,在執行龐大模型運算時,合理分配執行步驟是提高效率的有效手段。文章設計的仿真平臺ECPS 模型和ECPA模型的數據傳輸是通過共享內存進行,而原仿真平臺ECPS模型和ECPA 模型的數據傳輸是通過數據總線進行。在ECPS 模型和ECPA 模型間的數據交互方面原仿真平臺數據搬運的時間開銷遠大于本仿真平臺數據搬運的時間開銷。所以大數據量的數據傳輸,比較適合通過共享內存搬運的方式進行。
文章研究了桂林電子科技大學杜浩等人的高精度位移測量系統硬件在環仿真平臺,包括硬件架構及數據流,分析得出制約測量系統運行時間縮短的因素并進行優化升級。設計了一種基于多核NCD 的硬件在環仿真平臺的硬件架構,并進行了驗證。對比分析兩個平臺的實驗數據可以得出:經過優化設計的基于多核NCD 的硬件在環仿真平臺,各個環節的運行時間均有縮短。其中,在光纖發送六自由度和發送簡化系數兩方面最為顯著,模型運算時間縮短較小。本仿真平臺系統整體運行單次時間為14.242us,原仿真平臺系統整體運行單次時間為31.352us,測量模型整體運行時間是原系統的1/2。
文章設計的基于多核NCD 仿真平臺與基于單核NCB仿真平臺相比較,極大地縮短了測量模型的運算時間。隨著掩模臺位置測量算法精度需求的不斷上升,掩模臺運動控制精度的需求也進一步提升,可以進一步優化測量模型以達到減小整體運算時耗。