李博文,張宏帥,趙華東,胡曉亮,田增國
(1.鄭州大學機械與動力工程學院,河南鄭州 450001;2.麥斯克電子材料股份有限公司,河南洛陽 471003;3.鄭州大學物理(微電子)學院,河南鄭州 450001)
集成電路是現代信息社會的基石,其制造能力及水平決定著一個國家工業實力及水平。集成電路基礎部件常用硅晶半導體作為基板。其中,切片工序又是硅晶半導體制片過程中的重要環節,其加工質量直接決定了整批硅片的機械加工質量[1-2]。因此,在加工過程中準確監控硅片質量可以有效保證工件表面加工質量,提高生產效率,降低生產成本。
針對硅片線切割的機制模型,GAO 等[3]通過建立金剛石線鋸切割單晶硅材料去除機制模型,分析如何提高切片質量。趙華東、馬新偉[4]通過建立多線切片過程的順序耦合熱應變分析有限元模型,分析影響硅片質量的因素并預測趨勢。LI 等[5]通過建立工藝參數及切割條件與回線率的關系,建立了線切割金剛線磨損模型,分析了硅片質量與金剛線磨損量的關系。
研究人員不僅對物理模型進行了研究,同時也從數據驅動的方向,建立切割工藝參數到硅片質量之間的映射關系。ZAIN 等[6]用神經網絡分析預測硅片表面粗糙度。MIA、DHAR[7]基于神經網絡分析冷卻液對硅片表面粗糙度的影響。KAYABASI 等[8]用多層神經網絡對線切割過程進行建模,并分析了線速度、進給速度和冷卻液用量對硅片切割結果的影響。然而,以上都是采用傳統神經網絡對單線切割進行預測,工業上為了提高效率多采用多線切割,多線切割單次就可生產500 多片硅片,若用單片的數據來表示多片將會造成實驗誤差大。對于用卷積神經網絡預測多線切割硅片質量,來解決檢測耗時、檢測成本高等問題的相關報道較少。同時,常規的數據預測模型需要海量的歷史數據樣本用于訓練,而在工業生產早期,難以獲取足夠多的歷史樣本數據。為了解決數據不足,近年來提出了基于生成對抗網絡(Generating Adversarial Network,GAN)[9]的小樣本學習。其中,嚴繼偉等[10]利用GAN 對SAR 飛機圖像進行增廣,實現了數據增強。DING 等[11]提出了基于GAN 的小樣本機械故障檢測方法。何鵬等人[12]提出用GAN 來處理小樣本激光切割工藝參數的研究。
基于上述分析,本文作者主要開展兩方面的工作:(1)針對硅片線切割缺少大量歷史數據的問題,提出一種新的生成對抗網絡WGAN-GP(Wasserstein GAN-Gradient Penalty)模型,即由多個殘差模塊組成鑒別器,用于擴充樣本;(2)針對多線硅片檢測耗時、檢測成本高等問題,提出基于自注意力機制的殘差網絡的硅片總體厚度偏差(Total Thickness Variation,TTV)預測模型,從而達到準確預測硅片TTV。
多線切割原理如圖1 所示,鋼線繞在切割輥上,在主輥的來回扭轉下做往復運動,硅棒向下運動,實現切片過程。其中,在硅片多線切割過程中,速度、張力、溫度、切割的位置、扭矩等都直接影響硅片質量[13-15]?;诖?,選擇線速度、進給速度、金剛線左/右張緊力、冷卻液供給量、泵頻率、液溫、切割位置、左/右主軸轉矩、左/右兩側鋼線儲量、3 個主輥前后端的溫度、左/右排線位置一共20 個特征量,作為硅片質量影響的特征參數。TTV 是硅片平整度評價的關鍵指標,其大小反映了切割硅片的表面平整度和切割設備運行的平穩性。針對硅棒加工,TTV 的均值能很好地反映硅片總體的質量,且TTV 在數值上表現為連續值與特征參數相關,類似于機器學習中的回歸問題,所以可用神經網絡中的回歸模型分析[16]。于是,TTV 回歸預測模型可表示為

圖1 金剛線切割原理Fig.1 Diamond wire cutting principle
式中:f為TTV 與工藝參數的映射關系;Ω為輸入矩陣,由20 工藝參數γ1、γ2、…、γ19、γ20列向量構成;YP表示TTV。
線切割加工過程是連續的,多項參數是隨時間局部呈周期性變化(如線速度、扭矩、線張力、軸溫、液溫),而其余的則是呈現持續變化。所以,如果僅僅用平均數或者中位數等這些簡單的統計量來表示此問題的過程參數,會造成實驗誤差過大,而多個統計量的組合也帶來了復雜的數學分析過程。本文作者基于WEN 等[17]的方法,提出一種針對此問題的新的信號轉化方式,將采集到的時間、線速度、進給速度、冷卻液流量、泵頻率、液溫、切割位置、左側張力、右側張力、左側扭矩、右側扭矩、左側儲線量、右側儲線量、前小軸溫、后小軸溫、左前軸溫、右前軸溫、左后軸溫、右后軸溫、排線位置20 個特征量作為轉化的圖片的列特征,每隔一段時間取出一行數據,直至將整個數據取完,以此來代表整個數據過程,使得在壓縮數據時,數據丟失大大降低。同時轉化為圖像的數據,更好地利用卷積神經網絡提取數據信息,具體方法如圖2 所示。

圖2 表格轉化為圖像的方法Fig.2 Methods of converting tables into images
如圖2 所示,在表格轉化方法中,將二維的數據圖像按行劃分為一維數據,并按照一定的規律填充到二維矩陣中去,即得到Ω。為了獲得一張n×m大小的圖片,根據采集的數據規律和工藝參數的特征數n=60、m=20,作者將表格數據的行數除以n作為提取表格行數據的間隔,表格列數按照原始大小直接填充,由此得到n×m大小的二維灰度圖。設L(j,k)(j=1,…,l;k=1,…,m)為原始的表格數據,l=21 000,G(j,k)(j=1,…,l;k=1,…,m)為預處理圖像(介于0-255),P(j,k)(j=1,…,n;k=1,…,m)為圖像的像素值,其轉化關系如下所示:
式中:round()為取整函數;L(x,k)為二維數組里面第k列的全部數字。將數字整個歸一化到0-255,使得表格數據轉化為二維繪圖圖像,利用卷積網絡可以很好地處理原始的數據。
采用機器學習神經網絡實現硅片TTV 的回歸預測問題,可以有效避免傳統機制模型適應性差和預測精度低的等問題,然而工業生產早期數據的不足和各種外部因素的影響,導致無效樣本的引入,用于訓練用的數據就會出現不完整小樣本的特征,成為機器學習在硅片切割應用上的一大挑戰。因此,作者采用WGAN-GP 生成虛擬樣本,來進行數據增強。與傳統神經網絡相比,卷積神經網絡強大的特征提取能力,能夠高效提取數據特征,于是結合SeResNet 網絡建立線切割硅片質量預測方法。
實際生產過程中,在工業生產早期難以獲取足夠多的線切割歷史數據,造成神經網絡訓練難的問題,而生成對抗網絡的出現解決了這一難題。GAN 模型結構見圖3,生成器輸入服從正態分布的隨機噪聲Z,生成樣本G(Z),再將真實分布X與生成樣本G(Z)混合輸入鑒別器中,輸出鑒別結果y,先用真實數據X訓練鑒別器D,然后凍結鑒別器的訓練參數,訓練生成器G,然后凍結生成器訓練參數,訓練鑒別器D,相互對抗直至達到平衡為止。由于原始的GAN用JS 散度(Jensen-Shannon Divergence)表示真實數據與合成數據之間的度量,容易造成引梯度消失,進而模型崩塌。于是,ARJOVSKY 等[18]引入一種新的度量Wasserstein 距離來代替JS 散度,提出了Wasserstein GAN(WGAN)。而GULRAJANI 等[19]采用梯度懲罰(Gradient Penalty)手段對WGAN 中Wasserstein距離的實現方法進行改進,即WGAN-GP,解決了參數修剪的問題。最終損失函數數學表達式為

圖3 GAN 示意Fig.3 GAN schematic
式中:D(a)、G(a)分別為鑒別器與生成器的輸出結果;E(a)為EM 距離;為真實樣本與生成樣本插值;λ為懲罰系數;為梯度范數。
綜上所述,WGAN-GP 相較于其他的生成對抗網絡對數據量的依賴更少,更容易收斂,更適合作為數據增強的方法,于是選用WGAN-GP 作為硅片線切割樣本量增強的模型。
基于WGAN-GP 的原理,將數據采集系統采集的20 個過程參數通過數據圖像轉化法轉化為60×20的圖像,在此圖像的尾部接上硅片的質量檢測參數填充的60×8 矩陣,最后轉化為60×28 的圖像作為鑒別器的輸入,鑒別器的輸出為一個二分類的結果。生成器的輸入為一個128 的一維隨機數列,生成器的輸出為60×28 的生成樣本圖片。不管是生成器G,還是鑒別器D,最后都是用鑒別器來判斷模型的好壞。在模型的訓練過程中,基于損失函數來迭代優化模型,優化器為Adam,生成器和鑒別器的學習率均為0.001。生成器和鑒別器的網絡結構具體如圖4 和圖5 所示。

圖4 鑒別器網絡示意Fig.4 Discriminator network

圖5 生成器網絡示意Fig.5 Generator network
由于WGAN-GP 中的懲罰項,所以鑒別器D由8個改進的殘差塊構成22 層網絡結構,卷積核是大小分別為1 和3 的方形塊,步長分別為1 和2,卷積核通道數分別為64、128、256、512,所用激活函數均為LeakyReLU,最后用一個全連接層輸出節點為1。
生成器G中,先輸入一個服從正態分布的128 維的隨機噪聲Z,輸入生成器中,全連接層增加維度,然后經過4 個每次成倍增加上采樣塊,每次上采樣后都進行一次卷積操作,卷積核是大小均為3 的方形塊,步長均為1,卷積核數量分別為1、64、128、256。激活函數除了最后一層用thah,其余全用LeakyReLU。
對于線切割預測硅片TTV,輸入采用的是將數據轉化二維圖像的方法。為了適應輸入的形式,根據HE 等[20]提出的ResNet(Deep Residual Learning for Image Recognition)卷積神經網絡,改進為適用于回歸問題的ResNet 卷積神經網絡模型,其殘差模塊結構如圖6 所示,由兩層權重層和一個恒等映射組成一個殘差塊,殘差塊輸入為X(t),輸出為X(t+1),直線為殘差部分F(X(t),W),即殘差塊表示為X(t+1)=F(X(t),W)+X(t)。

圖6 殘差塊網絡Fig.6 Residual block
由于卷積核局部特征提取的特性,導致很難進行全局考慮。為了加強網絡的特征提取能力,本文作者引入自注意力模塊,并將自注意力模塊嵌入殘差網絡中。圖7 所示為自注意力機制模塊,數學表達式如下:

圖7 自注意力機制結構Fig.7 Self-attention mechanism
式中:Q、K、V分別為大小為n×m矩陣D與大小為m×m的矩陣Wq、Wk、Wv相乘;softmax(a)為對數據進行歸一化處理。
本文作者提出基于注意力機制的殘差網絡(SeResNet),旨在提高模型的特征提取能力,實現小樣本下硅片的質量預測。SeResNet 網絡的輸入為數據采集系統采集的20 個過程參數轉化的60×20 的圖像,輸出為硅片的TTV,用均方差來判定預測值與真實值的差異,實現硅片線切割過程的模型搭建。SeResNet網絡輸入為生成數據集和真實數據集混合為訓練集,訓練好以后的網絡用于分析預測多線切割硅片的TTV。其中生成虛擬數據的60×28 的圖像截取后面的8 列取平均作為虛擬數據相對應的TTV。SeResNet 網 絡具體網絡結構如圖8 所示。

圖8 SeResNet 模型結構Fig.8 Model structure of SeResNet
在SeResNet 中,為了達到回歸分析的效果,最后的全連接層輸出節點數為1,且激活函數均用ReLU 函數,訓練中所用的優化器為Adam,生成器和鑒別器的學習率均為0.001,損失函數采用平方差函數。
本文作者所提出的小樣本數據集下基于WGANGP 和SeResNet 卷積神經網絡的線切割硅片質量(TTV)預測的建模方法如圖9 所示。引入WGANGP 對訓練數據進行學習,生成用于增強數據的樣本;然后將生成樣本與真實樣本一同輸入SeResNet 模型,訓練工藝參數與TTV 之間的非線性函數關系;最后,當輸入新的工藝參數,用訓練好的預測模型預測TTV的值。其中,文中研究是金剛線多線切割,這里以TTV 的平均值作為研究對象。其算法流程見表1。

圖9 硅片線切割質量檢測預測流程Fig.9 Flow of silicon wafer wire cutting quality detection and prediction
如圖10 所示,采用多線切割機為實驗平臺,實驗硅棒選用直徑20 cm(6 寸),單晶晶向(100),通過與設備控制系統(FANUC CNC)通信搭建數據采集系統,每隔1 s 記錄一次所需采集的20 個數據,直至硅片切割完成。完成切割需要3.5 h 左右,利用數據采集工控機和交換機將采集的數據上傳到數據服務器和PC 端。此次實驗設計一共切割200 根硅棒,晶棒長度為500~680 mm,測定每組硅片的TTV 均值。用圖像轉換法將每組數據轉化為60×20 的二維圖像作為預測模型的輸入。

圖10 線切割實驗平臺Fig.10 Wire-electrode cutting experimental platform
本文作者基于Tensorflow 深度學習框架,搭建深度學習框架WGAN-GP 的模型。經過多輪訓練使得訓練達到平衡,得到如表2 所示的生成樣本。對于WGAN-GP 就是擬合真實數據分布的特點,加上生成的圖像可以得出。生成樣本與真實樣本的圖像很相似,但也有細小的差距,而這些細小的差距可以在一定程度上增加樣本的豐富度,同時也解決了樣本不足的問題。

表2 真實樣本圖與生成樣本圖Tab.2 Real sample map and generated sample map
將實驗獲取的實驗數據進行數據處理,隨機抽取一定比例數據作為訓練集,其余為測試集。預測回歸問題的評價指標參照文獻[21]中所提的評價指標,針對文中研究的問題引入平均絕對值誤差(MAE)、平均相對誤差百分比(MAPE)、均方根誤差(RMSE),見表3。

表3 評價指標及適用性Tab.3 Evaluation index and applicability
用SeResNet、SeResNet _300、SeResNet _800、SeResNet_5000 來代表向真實數據集中加入300、500、5 000 個生成數據集,其中SeResNet 表示真實數據集。為了更好地研究增加數據集的效果,每個樣本均設置為訓練批次35,訓練輪數為100,然后計算出各模型的MAE、MAPE、RMSE。
由表4 可以看出:加入樣本比沒有增加樣本時的平均絕對值誤差、平均相對誤差百分比、均方根誤差都有明顯的改善,其預測精度優于未擴充數據集,但是值得注意的是當樣本加到5 000 時比起加入800 的效果要差一點。根據WGAN-GP 的生成原理可以知道,生成數據是經過生成器和鑒別器反復博弈以后,使得生成數據的分布與真實數據的分布大致一樣,但是在訓練過程中數據分布不可能完全一樣,所以,當真實數據被生成數據稀釋以后,真實數據的一些不足能夠被掩蓋住,同時也引入一些真實樣本原本沒有的信息,導致預測誤差有微小上升??傮w而言,加入生成樣本有利于提高模型的泛化能力,使得模型的魯棒性更好。

表4 混入不同樣本對SeResNet 影響Tab.4 Effect of mixing of different samples on SeResNet
為了證明文中所提基于數據圖像轉換的WGANGP+SeResNet 的有效性,將其與ZAIN 等[6]所提的ANN、隨機森林和經典LeNet5 做對比,其中隨機森林是直接使用sklearn 中的內置隨機森林回歸模型,設置8 層,650 棵決策樹。用混合數據集作為訓練樣本,而隨機森林和ANN 則是將數據轉化為一維數據進行訓練,實驗結果見表5。

表5 硅片線切割不同算法對比Tab.5 Comparison of different algorithms for silicon wafer wire cutting
從表5 可以看出:SeResNet 和卷積神經網絡方法要比ANN、隨機森林和LeNet5 方法效果好很多。綜合表4、5 的實驗結果,可以得到本文作者提出的基于數據圖像轉換的小樣本WGAN-GP+SeResNet 很好地解決了小批量硅片線切割數據不足條件下硅片質量預測的問題,使得在實際加工過程中能利用少量數據來指導生產。
為了進一步驗證模型的預測性能,引入相關系數(IC)和決定系數(R2)來評估樣本的相關性和擬合程度。在SeResNet 中,引入WGAN-GP 生成的樣本與真實樣本組成訓練集,訓練中所用的優化器為Adam,學習率為0.001,訓練輪數設置為100,批處理樣本為100,由于大部分卷積神經網絡都進行的是分類功能,這里的網絡進行了回歸問題的改進,損失函數采用平方差函數。訓練集和驗證集的損失函數變化曲線見圖11。

圖11 訓練集和測試集損失函數變化曲線Fig.11 Change curves of the loss function in the training and test sets
由圖11 可以看出:在迭代次數到40 輪的時候曲線已經不再下降,說明模型已經訓練得很好了。計算得到的αIC=0.866 及R2=0.749,再結合圖12 分析可得,對于硅片TTV,經小樣本數據擴充數據集訓練出的模型預測曲線很好地擬合了真實數據曲線。

圖12 SeResNet 對硅片TTV 的預測值Fig.12 Prediction of TTV of silicon wafer by SeResNet
針對硅片個性化生產中小樣本條件下深度神經網絡訓練容易過擬合導致硅片TTV 預測不精準和批量硅片檢測難的問題,本文作者提出一種基于WGANGP 生成與真實硅片多線切割工藝參數相似的數據集,通過對比得出生成樣本數據集的數據分布與原始數據集分布一致。構建SeResNet 卷積神經網絡回歸模型擬合多線切割,然后通過所提的SeResNet 模型預測硅片TTV 的值,最后通過實驗對SeResNet 模型進行了驗證。結論如下:
(1)所用的數據圖像轉換法將原始數據轉化為二維圖作為輸入,從而引入卷積神經進行分析,同時也證明了該方法比直接取單獨的統計量更好。
(2)所提模型加強了硅片多線切割機制的表征能力,能夠在小樣本條件下學習多線切割硅片的規律,提高了多線切割硅片TTV 的預測精度,并用于工程實踐。
(3)在相同條件下,所提模型的多線切割硅片TTV 預測精度均高于LeNet5、ANN、隨機森林模型。