劉國(guó)梁 余建波
半導(dǎo)體作為應(yīng)用最為廣泛的元器件之一,其制造過(guò)程需要經(jīng)過(guò)薄膜沉積、蝕刻、拋光等眾多復(fù)雜工藝流程,生產(chǎn)過(guò)程中的任何異常都可能導(dǎo)致晶圓表面缺陷的產(chǎn)生[1].除了需要對(duì)晶圓制造過(guò)程中的關(guān)鍵參數(shù)進(jìn)行控制和預(yù)測(cè)[2],準(zhǔn)確識(shí)別晶圓表面的各種缺陷模式,也有助于提升晶圓制造質(zhì)量,降低半導(dǎo)體生產(chǎn)廢品率,避免因大批量晶圓表面缺陷而造成的巨大損失.
早期的晶圓表面缺陷識(shí)別方法主要通過(guò)統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn).Hess等[3]研究晶圓缺陷密度分布實(shí)現(xiàn)對(duì)成品率的預(yù)測(cè).Friedman等[4]采用無(wú)模型的缺陷聚類方法實(shí)現(xiàn)對(duì)晶圓表面缺陷的形狀、大小和分布的檢測(cè).Yuan等[5]在前人研究的基礎(chǔ)上提出一種基于貝葉斯推論的模式聚類演算法,可進(jìn)一步檢測(cè)曲線模式、橢球模式、非均勻全局缺陷模式.這些方法的缺陷在于只是對(duì)晶圓缺陷進(jìn)行了統(tǒng)計(jì)分析,并沒(méi)有做到對(duì)缺陷類別的精準(zhǔn)識(shí)別,對(duì)實(shí)際生產(chǎn)過(guò)程幫助有限.
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的崛起,線性判別方法[6]、反向傳播網(wǎng)絡(luò)[7]、廣義回歸神經(jīng)網(wǎng)絡(luò)[8]、支持向量機(jī)[8-10]、深度神經(jīng)網(wǎng)絡(luò)[11-14]等模型已被廣泛地應(yīng)用于晶圓表面缺陷識(shí)別,其中堆疊降噪自編碼器(Stacked denoising auto-encoders,SDAE)作為經(jīng)典的深度學(xué)習(xí)模型,憑借其強(qiáng)大的學(xué)習(xí)能力,取得了不錯(cuò)的結(jié)果[13-14].但是,上述模型仍然存在以下2個(gè)問(wèn)題:1)雖然以卷積神經(jīng)網(wǎng)絡(luò)和SDAE 為代表的深度神經(jīng)網(wǎng)絡(luò)模型憑借其強(qiáng)大的特征提取能力,在晶圓缺陷識(shí)別問(wèn)題上取得了較好的結(jié)果,但是深度網(wǎng)絡(luò)模型始終存在不可被解釋的缺陷.這一缺陷使得深度神 經(jīng)網(wǎng)絡(luò)在WMPR 上的應(yīng)用存在很多困難.2)傳統(tǒng)機(jī)器學(xué)習(xí)模型如支持向量機(jī)、決策樹等可以通過(guò)數(shù)學(xué)或邏輯途徑進(jìn)行解釋和驗(yàn)證,但是它們的缺陷識(shí)別能力并不高.
縱觀神經(jīng)網(wǎng)絡(luò)發(fā)展史,研究者們一直在嘗試彌補(bǔ)神經(jīng)網(wǎng)絡(luò)不可被解釋的缺陷.通過(guò)對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)或統(tǒng)計(jì)意義進(jìn)行分析,以達(dá)到解釋網(wǎng)絡(luò)的目的是當(dāng)下的主流研究方向[15].Gallant[16]最早提出利用IF-THEN 形式的規(guī)則解釋神經(jīng)網(wǎng)絡(luò)的推理結(jié)果,形成神經(jīng)網(wǎng)絡(luò)專家系統(tǒng).其后Towell等[17]提出基于知識(shí)的人工神經(jīng)網(wǎng)絡(luò)(Knowledge-based artificial neural network,KBANN),該模型通過(guò)從網(wǎng)絡(luò)中抽取和插入規(guī)則,實(shí)現(xiàn)了邏輯規(guī)則與神經(jīng)網(wǎng)絡(luò)之間的交互.Garcez等[18]在KBANN的研究基礎(chǔ)上提出一種利用符號(hào)規(guī)則初始化神經(jīng)網(wǎng)絡(luò)的方法,可以幫助模型更高效的學(xué)習(xí)數(shù)據(jù)中的知識(shí).在深度神經(jīng)網(wǎng)絡(luò)研究方面,Garcez等[19]提出神經(jīng)–符號(hào)系統(tǒng)的概念,其核心理念為符號(hào)規(guī)則負(fù)責(zé)表述神經(jīng)網(wǎng)絡(luò)中蘊(yùn)含的知識(shí)而神經(jīng)元負(fù)責(zé)學(xué)習(xí)和推理,所生成的模型同時(shí)具備高魯棒性、高識(shí)別性能以及可解釋性.在這一概念的基礎(chǔ)上,Odence等[20]將受限玻爾茲曼機(jī)與符號(hào)規(guī)則相結(jié)合,為符號(hào)規(guī)則與深度神 經(jīng)網(wǎng)絡(luò)的結(jié)合打下基礎(chǔ);Tran等[21]在前人研究基礎(chǔ)上首次提出了從深度置信網(wǎng)絡(luò)(Deep belief network,DBN)中抽取和插入符號(hào)規(guī)則的算法,具有里程碑意義;劉國(guó)梁等[22]提出一種混合規(guī)則并將它與堆疊降噪自編碼器集成,但該算法計(jì)算成本高,難以適應(yīng)大規(guī)模復(fù)雜問(wèn)題,Hitzler等[23]在符號(hào)–神經(jīng)系統(tǒng)的基礎(chǔ)上,詳細(xì)介紹語(yǔ)義網(wǎng)的神經(jīng)符號(hào)研究的前景和優(yōu)勢(shì),并分析了其對(duì)深度學(xué)習(xí)的潛在場(chǎng)景.Bennetot等[24]提出了一種推理模型來(lái)解釋神經(jīng)網(wǎng)絡(luò)的決策,并使用解釋從網(wǎng)絡(luò)原理來(lái)糾正其決策過(guò)程種的偏差.在推理模型方面:Li等[25]從功能角度將邏輯語(yǔ)言與神經(jīng)網(wǎng)絡(luò)相結(jié)合,形成了一種新的學(xué)習(xí)推理模型,同時(shí)具備連接主義和符號(hào)主義的優(yōu)勢(shì).Sukhbaatar等[26]提出了記憶網(wǎng)絡(luò),引入了記憶機(jī)制來(lái)解決對(duì)推理過(guò)程中間結(jié)果的存儲(chǔ)問(wèn)題,對(duì)神經(jīng)符號(hào)系統(tǒng)進(jìn)行了進(jìn)一步的探索,賦予了神經(jīng)網(wǎng)絡(luò)符號(hào)化的結(jié)構(gòu),對(duì)后續(xù)的研究有著重要的啟發(fā)意義.Sawant等[27]在知識(shí)圖和語(yǔ)料庫(kù)的基礎(chǔ)上建立了一套推理系統(tǒng),可以解釋模型中不可觀察或潛在的變量.Liang等[28]進(jìn)一步引入了符號(hào)化的記憶機(jī)制,幫助神經(jīng)網(wǎng)絡(luò)更好地完成復(fù)雜推理.Salha等[29]利用簡(jiǎn)單的線性模型替代圖自編碼器等模型中的圖卷積網(wǎng)絡(luò),簡(jiǎn)化了模型計(jì)算.同時(shí),Salha等[30]提出了一個(gè)通用的圖自編碼器和圖變分自編碼器的框架.該框架利用圖的簡(jiǎn)并性概念,只從密集的節(jié)點(diǎn)子集中訓(xùn)練模型,從而顯著提高了模型的可伸縮性和訓(xùn)練速度.綜上所述,目前對(duì)傳統(tǒng)深度學(xué)習(xí)模型 (比如DBN或SDAE)的可解釋性研究已經(jīng)初見成效,但在卷積神經(jīng)網(wǎng)絡(luò)類網(wǎng)絡(luò)中,卷積等運(yùn)算帶來(lái)的復(fù)雜問(wèn)題在可解釋性上還有待研究.如何建立一套適用于晶圓缺陷識(shí)別的神經(jīng)–符號(hào)模型是本文研究的重點(diǎn).
針對(duì)晶圓缺陷識(shí)別問(wèn)題的特點(diǎn),基于神經(jīng)與符號(hào)相結(jié)合的理念,本文采用一種基于SDAE的神經(jīng)–符號(hào)模型[22],構(gòu)建了基于知識(shí)的堆疊降噪自編碼器(Knowledge-based stacked denoising auto-encoder,KBSDAE),并建立了一套基于KBSDAE的晶圓表面缺陷識(shí)別系統(tǒng),以達(dá)到快速、高效識(shí)別晶圓表面缺陷的目的.本文的主要貢獻(xiàn)包括:1)提出了全新的符號(hào)規(guī)則形式,可有效地表達(dá)SDAE的深度網(wǎng)絡(luò)結(jié)構(gòu),極大地減少了知識(shí)轉(zhuǎn)化過(guò)程中的信息損失;2)提出了規(guī)則抽取與插入算法,在實(shí)現(xiàn)知識(shí)高效轉(zhuǎn)化的同時(shí)提升SDAE 特征學(xué)習(xí)性能;3)提出了基于神經(jīng)–符號(hào)系統(tǒng)的晶圓缺陷識(shí)別模型,既可以識(shí)別缺陷模式,也可以通過(guò)規(guī)則理解網(wǎng)絡(luò)內(nèi)部的推理邏輯,并使得深度神 經(jīng)網(wǎng)絡(luò)具有了可解釋性.基于SDAE的神經(jīng)–符號(hào)系統(tǒng)成功應(yīng)用在實(shí)際工業(yè)案例中且取得了較好的特征學(xué)習(xí)和識(shí)別性能,是在晶圓表面缺陷識(shí)別領(lǐng)域的一次新的嘗試.
自編碼器由輸入層(x)、隱藏層(h)和輸出層(y)構(gòu)成,是深度學(xué)習(xí)的經(jīng)典模型之一[1].它通過(guò)編碼和解碼運(yùn)算重構(gòu)輸入數(shù)據(jù),通過(guò)減少重構(gòu)誤差為目標(biāo)達(dá)到特征提取的目的.由于訓(xùn)練過(guò)程中沒(méi)有利用數(shù)據(jù)標(biāo)簽,而只是以輸入數(shù)據(jù)作為重構(gòu)目標(biāo),屬于典型的無(wú)監(jiān)督學(xué)習(xí).
自編碼器的編碼階段在輸入層x和隱藏層h之間,具體表示為:

式中,σ是非線性激活函數(shù)Sigmoid 函數(shù):σ(x)=1/(1+e-x),參數(shù)集合θ={w,b}.解碼階段體現(xiàn)在隱藏層h和輸出層y之間,表示為:

式中,σ′是非線性激活函數(shù)Sigmoid 函數(shù),參數(shù)集合θ′={w′,b′}.
通過(guò)最小化重構(gòu)誤差函數(shù)L(x,y)=‖x-y‖2來(lái)逐步地調(diào)整網(wǎng)絡(luò)內(nèi)部的參數(shù)θ和θ′,優(yōu)化方式選擇隨機(jī)梯度下降法,最優(yōu)參數(shù)如下:

降噪自編碼器(Denoising auto-encoder,DAE)是基于自編碼器的一種變形,通過(guò)噪聲污染訓(xùn)練輸入數(shù)據(jù)以增加網(wǎng)絡(luò)的魯棒性,防止過(guò)擬合[31].圖1展示了DAE的訓(xùn)練過(guò)程,首先利用隨機(jī)函數(shù)以一定的概率p將原訓(xùn)練數(shù)據(jù)x中的一些單元置零得到被污染的數(shù)據(jù); 其次通過(guò)自編碼器對(duì)進(jìn)行重構(gòu);最后調(diào)整網(wǎng)絡(luò)參數(shù)θ和θ′.DAE 相較于傳統(tǒng)的自編碼器具有更強(qiáng)的泛化能力和魯棒性.

圖1 堆疊降噪自編碼器Fig.1 Stacked denoising autoencoder
將若干個(gè)DAE 堆疊起來(lái),就可以形成SDAE,如圖1 所示.其訓(xùn)練過(guò)程首先是對(duì)逐個(gè)DAE 進(jìn)行訓(xùn)練,其次通過(guò)反向傳播算法微調(diào)整個(gè)網(wǎng)絡(luò).相較于淺層神經(jīng)網(wǎng)絡(luò),層度更深的SDAE 在特征提取方面更加優(yōu)秀,在處理高維數(shù)據(jù)問(wèn)題上具有明顯優(yōu)勢(shì).從符號(hào)與網(wǎng)絡(luò)相結(jié)合的角度來(lái)看,它的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單并且支持將Sigmoid 作為激活函數(shù),這兩個(gè)特性使SDAE 更容易與符號(hào)規(guī)則進(jìn)行集成.
符號(hào)規(guī)則的應(yīng)用不僅能夠?qū)崿F(xiàn)對(duì)網(wǎng)絡(luò)的描述和解釋,還能夠提高模型性能.本節(jié)主要討論SDAE與符號(hào)規(guī)則結(jié)合建立模型的方法.如圖2 所示,該模型的建立分為3 步:1)建立并訓(xùn)練標(biāo)準(zhǔn)SDAE;2)從SDAE 中抽取知識(shí)得到符號(hào)規(guī)則與分類規(guī)則;3)將符號(hào)與分類規(guī)則插入SDAE 進(jìn)行深度學(xué)習(xí).符號(hào)規(guī)則和神經(jīng)網(wǎng)絡(luò)的集成可實(shí)現(xiàn)二者優(yōu)勢(shì)的互補(bǔ),規(guī)則可以描述網(wǎng)絡(luò)并表達(dá)深度網(wǎng)絡(luò)中的知識(shí),而KBSDAE 可以更有效地識(shí)別晶圓缺陷.

圖2 堆疊降噪自編碼器的神經(jīng)–符號(hào)模型Fig.2 Stacked denoising autoencoder based neural-symbolic model
以往邏輯符號(hào)規(guī)則種類繁多,但都有同樣的缺點(diǎn),即表現(xiàn)形式和推理邏輯單一.這一缺點(diǎn)導(dǎo)致傳統(tǒng)規(guī)則在描述參數(shù)龐大的深度網(wǎng)絡(luò)時(shí)會(huì)出現(xiàn)規(guī)則體積龐大、描述效率底下和難以推導(dǎo)并理解的問(wèn)題.針對(duì)SDAE的網(wǎng)絡(luò)特點(diǎn),本文在傳統(tǒng)規(guī)則的基礎(chǔ)上提出了一種數(shù)值和符號(hào)相結(jié)合的規(guī)則系統(tǒng),解決SDAE 不能被解釋的問(wèn)題.
作為一種符號(hào)語(yǔ)言,規(guī)則的形式對(duì)規(guī)則本身意義重大,合適的形式才能更高效表示和描述網(wǎng)絡(luò).由于SDAE 包含特征提取部分的降噪自編碼器(Denoising auto-encoders,DAEs)和用于分類的分類器,雖然2 部分的形式相同,但是運(yùn)行機(jī)理截然不同.為了能更精準(zhǔn)地描述網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)不同部分的特性確定了不同的規(guī)則形式:置信度規(guī)則和MofN (N個(gè)先行條件中的M個(gè)為真)規(guī)則,并將它們有機(jī)地結(jié)合起來(lái).
網(wǎng)絡(luò)特征提取部分由多個(gè)DAE 疊加形成,其訓(xùn)練方式為逐層訓(xùn)練.為了保證置信度規(guī)則能夠有效描述網(wǎng)絡(luò)的這一部分,置信度規(guī)則具備了以下特性[21-22]:規(guī)則本身支持逐層推導(dǎo);規(guī)則節(jié)點(diǎn)與網(wǎng)絡(luò)神經(jīng)元一一對(duì)應(yīng);置信值是對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行擬合得出的;推理過(guò)程由符號(hào)和數(shù)值共同完成.這些特性賦予符號(hào)規(guī)則3 種能力:1)規(guī)則具備描述大型網(wǎng)絡(luò)的能力,且逐層推導(dǎo)的邏輯意義與DAEs 部分一致;2)符號(hào)規(guī)則的結(jié)構(gòu)與網(wǎng)絡(luò)基本相同且元素一一對(duì)應(yīng),網(wǎng)絡(luò)內(nèi)部的邏輯關(guān)系可以被遷移到規(guī)則上作為一種網(wǎng)絡(luò)內(nèi)部關(guān)系的表現(xiàn);3)規(guī)則可以作為深度神經(jīng)網(wǎng)絡(luò)的一種簡(jiǎn)化表示,具備一定的識(shí)別能力.所以符號(hào)規(guī)則的運(yùn)行其實(shí)是對(duì)神經(jīng)網(wǎng)絡(luò)行為的一種簡(jiǎn)化模仿,而這種模仿過(guò)程是人類所能理解的.
置信度規(guī)則[21]是一個(gè)符合充要條件的等式:c:h ?x1∧···∧xn,其中c是實(shí)數(shù)類型,定義為置信值;h和xi(i∈[1,n])為假設(shè)命題.這種符號(hào)規(guī)則形式與文獻(xiàn)[21]的規(guī)則相似,但由于面向的網(wǎng)絡(luò)不同,規(guī)則符號(hào)的意義也不同.本文定義具體的置信度符號(hào)規(guī)則:

該規(guī)則被解釋為:當(dāng)x1,···,xn命題成立時(shí),h命題也成立的置信值為c,反之也成立.其中是符號(hào)規(guī)則標(biāo)簽,解釋為第l 層第j個(gè)符號(hào)規(guī)則;代表DAE 中第l 個(gè)隱藏層中第j個(gè)神經(jīng)元;xi(i∈[1,n])代表DAE 輸入層中第i個(gè)神經(jīng)元,P和N分別代表對(duì)產(chǎn)生積極和消極影響的輸入層神經(jīng)元集合.根據(jù)表達(dá)式可以看出,置信度規(guī)則和DAEs 具有相似的堆疊嵌套結(jié)構(gòu),這可以最大化模擬網(wǎng)絡(luò)結(jié)構(gòu).
SDAE的分類器層一般為單層前向全連接網(wǎng)絡(luò),通過(guò)反向傳播算法進(jìn)行訓(xùn)練.這種經(jīng)典網(wǎng)絡(luò)的規(guī)則模型研究較為成熟,故本文采用Towell等[32]提出的MofN 規(guī)則形式.這種規(guī)則通過(guò)對(duì)網(wǎng)絡(luò)權(quán)重值和偏差的歸納與總結(jié),達(dá)到從網(wǎng)絡(luò)中抽取規(guī)則的目的.相較于同類型的其他規(guī)則,MofN 具備形式靈活和體積小的優(yōu)點(diǎn),這使得它可以適用于規(guī)模較大的網(wǎng)絡(luò).分類規(guī)則的基本表達(dá)形式如下:

該規(guī)則被解釋為:如果規(guī)則的N個(gè)前層神經(jīng)元中有M個(gè)被激活,那么這條規(guī)則所對(duì)應(yīng)的神經(jīng)元也激活.為了使MofN 規(guī)則與置信度規(guī)則更加契合,使用式(5)的泛化形式:

式中,NumTrue代表神經(jīng)元激活的數(shù)量;A代表一類前層神經(jīng)元的集合,w代表一類連接的權(quán)重值,類別通過(guò)對(duì)權(quán)重值聚類得到;bias代表目標(biāo)神經(jīng)元的偏置值;C表示具體的類標(biāo)簽.
上述2 種規(guī)則的有機(jī)結(jié)合形成了一套規(guī)則體系(Confidence &MofN rule,CM-R)[22],具備以下優(yōu)點(diǎn):規(guī)則本身具備分層特性,可進(jìn)行逐層抽取和推導(dǎo),與SDAE的堆疊邏輯相通;規(guī)則根據(jù)網(wǎng)絡(luò)不同部分的不同特性有針對(duì)的進(jìn)行設(shè)計(jì),極大地減少了抽取過(guò)程中的信息損失;這兩種規(guī)則的集成使CM-R 在處理復(fù)雜數(shù)據(jù)時(shí)也具有較高準(zhǔn)確度.
CM-R 可逐層推理的特性是其能夠適配SDAE的根本原因,也是置信度規(guī)則和MofN 規(guī)則可以集成的根本因素,所以規(guī)則層與層之間的推理方法是極為重要的.本文根據(jù)將規(guī)則的數(shù)值特性和符號(hào)特性相結(jié)合,提出了一套適用于CM-R的推理算法(Rule inference,Rule-INF)[22].Rule-INF 以符號(hào)結(jié)構(gòu)作為規(guī)則層內(nèi)推導(dǎo)依據(jù),以數(shù)值作為層與層之間的聯(lián)系,將整個(gè)CM-R 聯(lián)系了起來(lái),使之成為一個(gè)完整的規(guī)則系統(tǒng).這一算法最大特點(diǎn)是通過(guò)對(duì)置信值的推導(dǎo)使規(guī)則突破了離散二值的限制,可以被用來(lái)推導(dǎo)連續(xù)數(shù)據(jù).算法細(xì)節(jié)如下所示,首先將初始化后的數(shù)據(jù)輸入置信度規(guī)則中進(jìn)行逐層推導(dǎo),其中上層規(guī)則推導(dǎo)輸出的信任值(B)可作為下層規(guī)則的輸入數(shù)據(jù);其次將頂層置信度規(guī)則輸出的信任值調(diào)整為布爾向量;最終利用MofN 規(guī)則根據(jù)調(diào)整后的信任值(1 表示真、0 表示假)確定數(shù)據(jù)類別.
算法1.Rule-INF

本節(jié)將呈現(xiàn)從SDAE 模型中抽取規(guī)則.由于符號(hào)規(guī)則CM-R 是知識(shí)的載體,故知識(shí)抽取也叫規(guī)則抽取.CM-R 包含置信度規(guī)則和MofN規(guī)則,分別對(duì)應(yīng)SDAE 中的DAE 和分類器部分,下面對(duì)2 種規(guī)則進(jìn)行討論.
置信度規(guī)則面向特征提取部分[21]有逐層無(wú)監(jiān)督訓(xùn)練和多個(gè)DAE 堆疊而成2 個(gè)特點(diǎn).為了使知識(shí)抽取過(guò)程更加符合網(wǎng)絡(luò)的訓(xùn)練邏輯,引入了逐層抽取的概念,即在自監(jiān)督訓(xùn)練過(guò)程中對(duì)每一個(gè)DAE單獨(dú)抽取規(guī)則.規(guī)則抽取原理是將置信值cjsj最大化擬合權(quán)重值wj,并利用符號(hào)解釋網(wǎng)絡(luò)結(jié)構(gòu).根據(jù)DAE 基本原理,其輸入數(shù)據(jù)x到隱含表示h的映射表示為:

式中,σ表示激活函數(shù)Sigmoid,b表示偏置值.根據(jù)式(7),本文提出新的函數(shù),可將數(shù)據(jù)x映射到隱藏層空間中:


算法2.置信度符號(hào)規(guī)則抽取.

根據(jù)上述分析,從DAEs 中抽取置信度符號(hào)規(guī)則的置信度符號(hào)規(guī)則抽取(Confidence rule extraction,Confidence-RE)如算法2 所示.該算法面向單個(gè)DAE,所以只需根據(jù)網(wǎng)絡(luò)將其迭代運(yùn)行,抽取出完整且具有堆疊特性的置信度規(guī)則集[22].
MofN 規(guī)則[25]面向SDAE的分類器部分,本文僅討論以單層神經(jīng)元為分類器的網(wǎng)絡(luò),后文用分類層表述這一單層神經(jīng)網(wǎng)絡(luò).在進(jìn)行規(guī)則抽取之前首先要對(duì)網(wǎng)絡(luò)的微調(diào)過(guò)程進(jìn)行假設(shè):分類層和隱藏層HN(如圖1 所示)只具備激活(輸出值接近1)和不激活(輸出值接近0)兩種輸出狀態(tài).這一假設(shè)使得分類器相關(guān)的神經(jīng)元具備布爾特性,把規(guī)則抽取問(wèn)題轉(zhuǎn)化成了神經(jīng)元是否激活的規(guī)律性問(wèn)題.
為了符合上述假設(shè),將邏輯回歸函數(shù)作為激活函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào).分類層的微調(diào)原理為:

式中,Cj表示分類層中第j個(gè)神經(jīng)元,邏輯回歸函數(shù)σ表示為:

由式(12)和式(13)可知,當(dāng)神經(jīng)元的加權(quán)輸入值大于偏置值時(shí),其輸出值接近1,反之則接近0.這與假設(shè)相匹配.MofN的規(guī)則抽取過(guò)程可以看作是搜索使分類層神經(jīng)元激活的條件情況.
分類器部分神經(jīng)元的輸出值被簡(jiǎn)化成了0 或1,使得神經(jīng)元的輸入被簡(jiǎn)化成只與權(quán)重值有關(guān),式(12)可簡(jiǎn)化為:

這一簡(jiǎn)化使規(guī)則抽取只需關(guān)注分類層神經(jīng)元的連入權(quán)重和自身的偏置,顯著降低規(guī)則和算法復(fù)雜度.
MofN 規(guī)則抽取算法分為4 步:1)通過(guò)K均值將分類層神經(jīng)元的連入權(quán)重值聚類并將組內(nèi)成員的權(quán)重值重置為組標(biāo)簽;2)對(duì)神經(jīng)元影響不大的權(quán)重類刪除(歸零);3)固定權(quán)重值,通過(guò)反向傳播算法重新對(duì)神經(jīng)元偏置進(jìn)行優(yōu)化;4)對(duì)每一個(gè)分類層神經(jīng)元形成一條規(guī)則,其中神經(jīng)元偏置作為閾值,權(quán)值連接的HN層神經(jīng)元作為先驗(yàn)元素.
在獲得有效知識(shí)之后,進(jìn)一步討論如何將規(guī)則所代表的知識(shí)插入到網(wǎng)絡(luò)當(dāng)中,以達(dá)到提升網(wǎng)絡(luò)特征學(xué)習(xí)的目的.知識(shí)插入網(wǎng)絡(luò)的過(guò)程一般為利用規(guī)則對(duì)深度網(wǎng)絡(luò)進(jìn)行初始化,這極大程度地決定著網(wǎng)絡(luò)模型的性能[17].在知識(shí)插入作用下,深度網(wǎng)絡(luò)的初始化和訓(xùn)練將更加容易且有效[22].在網(wǎng)絡(luò)的初始階段就賦予一定的知識(shí),可以提高網(wǎng)絡(luò)學(xué)習(xí)性能并降低對(duì)數(shù)據(jù)的依賴程度.
在特征提取部分,置信度規(guī)則被用于初始化網(wǎng)絡(luò)并幫助網(wǎng)絡(luò)訓(xùn)練.置信度規(guī)則的符號(hào)邏輯被用于初始化DAE 網(wǎng)絡(luò)結(jié)構(gòu);置信值被用于初始化DAE中的權(quán)重值.如圖3 所示,利用一個(gè)簡(jiǎn)單的規(guī)則作為例子描述了置信度規(guī)則初始化DAE的過(guò)程[22].

圖3 置信度規(guī)則初始化網(wǎng)絡(luò)過(guò)程示意圖Fig.3 The process of network initialization base on confidence rule
在DAE 被初始化之后,對(duì)其進(jìn)行自監(jiān)督訓(xùn)練過(guò)程中,為了保證知識(shí)能夠保存在網(wǎng)絡(luò)中而不會(huì)隨著訓(xùn)練的進(jìn)行而失效,選擇置信度較高的規(guī)則進(jìn)行權(quán)值參數(shù)凍結(jié)處理.通過(guò)這種方法既可以保證知識(shí)的有效插入,也可以保證模型的魯棒性.特征提取部分具體知識(shí)插入過(guò)程如下所示:
步驟1.建立一個(gè)DAE,對(duì)每一個(gè)規(guī)則cj:hj ?x1∧···∧xn,hj和x1∧···∧xn分別對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)DAE的隱藏層神經(jīng)元以及輸入層神經(jīng)元集.
步驟2.確定在hj與x1,···,xn之間的連接權(quán)重scj.如果輸入神經(jīng)元對(duì)應(yīng)規(guī)則中的激活元素,那么s=1,反之則s=-1. 其余的與hj沒(méi)有關(guān)聯(lián)以及隱藏層與輸出層之間的連接權(quán)重設(shè)為較小的隨機(jī)值.神經(jīng)元偏差設(shè)為隨機(jī)值.
步驟3.采用反向傳播算法訓(xùn)練網(wǎng)絡(luò),其中部分被規(guī)則初始化的連接權(quán)重不被更新.為了保證插入的規(guī)則在訓(xùn)練過(guò)程中與網(wǎng)絡(luò)較好嵌合,利用隨機(jī)數(shù)對(duì)隱藏層神經(jīng)元輸出進(jìn)行二值化處理:隨機(jī)生成一個(gè)數(shù)值在0~1的隨機(jī)數(shù)R,如果hj >R那么hj=1,反之則hj=0.
步驟4.對(duì)每一個(gè)DAE 重復(fù)步驟1~3 進(jìn)行訓(xùn)練,直到所有堆疊的DAEs 訓(xùn)練完成.
分類器部分僅由單層神經(jīng)元構(gòu)成,所以這部分的初始化可以簡(jiǎn)化成如何將規(guī)則插入單層前向神經(jīng)網(wǎng)絡(luò)問(wèn)題.由于MofN 規(guī)則[17,22]包含數(shù)和符號(hào)兩部分,故分類器的知識(shí)插入過(guò)程可以具體化為利用MofN規(guī)則初始化單層前向神經(jīng)網(wǎng)絡(luò)的過(guò)程.
初始化過(guò)程的主要任務(wù)是確定分類層神經(jīng)元的連入權(quán)重值和偏置值.如圖4 所示,對(duì)一個(gè)簡(jiǎn)單的MofN 規(guī)則:

首先利用其中的符號(hào)確定網(wǎng)絡(luò)的整體結(jié)構(gòu),其次利用w和b分別確定第i個(gè)分類層神經(jīng)元的連入權(quán)重值和偏置,最后添加規(guī)則中沒(méi)有提到的關(guān)系并將這些權(quán)重值設(shè)為極小的隨機(jī)數(shù),這一過(guò)程從SDAE的角度來(lái)看是對(duì)分類器C以及隱藏層HN部分的初始化,圖4 為了簡(jiǎn)潔表示省略了大部分連接線.隨著進(jìn)一步的研究發(fā)現(xiàn),將規(guī)則過(guò)多的插入分類器中反而會(huì)使網(wǎng)絡(luò)性能降低,這是由于網(wǎng)絡(luò)參數(shù)被過(guò)度初始化從而使魯棒性降低所導(dǎo)致的.經(jīng)過(guò)理論[32]和試驗(yàn)對(duì)比,最終確定MofN 規(guī)則的插入比率為1/4,其中篩選過(guò)程完全隨機(jī).

圖4 MofN 規(guī)則初始化網(wǎng)絡(luò)過(guò)程示意圖Fig.4 The process of network initialization based on MofN rules
通過(guò)規(guī)則插入,KBSDAE的結(jié)構(gòu)參數(shù)被確定完成,然后對(duì)網(wǎng)絡(luò)進(jìn)行進(jìn)一步訓(xùn)練,使其具有更好的性能.KBSDAE的訓(xùn)練過(guò)程首先是進(jìn)行逐個(gè)DAE的無(wú)監(jiān)督訓(xùn)練,之后進(jìn)行網(wǎng)絡(luò)微調(diào),但過(guò)程中的參數(shù)更新策略不同.在自監(jiān)督訓(xùn)練階段,選擇將置信度關(guān)系高的參數(shù)進(jìn)行凍結(jié)處理,在訓(xùn)練過(guò)程中盡可能保護(hù)知識(shí)不被改變;在微調(diào)階段,被MofN 規(guī)則確定參數(shù)在更新過(guò)程中加入了抑制系數(shù)L,改變了這一部分參數(shù)的學(xué)習(xí)率ηr=η·L.通過(guò)上述訓(xùn)練策略,可以在知識(shí)插入效率和網(wǎng)絡(luò)性能之間尋找到平衡點(diǎn),使得網(wǎng)絡(luò)的性能被最大化提高.
在訓(xùn)練過(guò)程中,KBSDAE的規(guī)則抽取和插入的乘-加操作為11.02 KB.這一過(guò)程消耗了一定的計(jì)算量,但同時(shí)也加快了KBSDAE的收斂速度,大幅減少了KBSDAE的訓(xùn)練耗時(shí).相同條件下(訓(xùn)練數(shù)據(jù)18 000 個(gè)樣本),即使加上規(guī)則抽取與插入的時(shí)間成本,KBSDAE 訓(xùn)練至收斂的平均訓(xùn)練時(shí)間僅是SDAE的1.2 倍,并且這個(gè)差距會(huì)隨著數(shù)據(jù)量的增大而減小.在預(yù)測(cè)過(guò)程中,KBSDAE 對(duì)每一例數(shù)據(jù)的乘-加操作為4.41 KB,內(nèi)存占用為8.33 KB.對(duì)比深度神經(jīng)網(wǎng)絡(luò)(如GoogleNet[33])計(jì)算量更少并且內(nèi)存占用量也更小,更適合工業(yè)過(guò)程的線上識(shí)別環(huán)境.
與SDAE 相比,KBSDAE 具有以下優(yōu)點(diǎn):模型通過(guò)數(shù)據(jù)和規(guī)則兩種方式進(jìn)行學(xué)習(xí),降低了深度網(wǎng)絡(luò)對(duì)數(shù)據(jù)的依賴性,這在工業(yè)領(lǐng)域是具有重要意義的;初始化后的網(wǎng)絡(luò)本身具備更合理的結(jié)構(gòu)參數(shù),使模型具備更高的識(shí)別精度和更快的收斂速度[34].綜上所述,KBSDAE 更適合晶圓缺陷識(shí)別領(lǐng)域.
本文提出的基于KBSDAE 晶圓缺陷識(shí)別方案如圖5 所示.整個(gè)探測(cè)識(shí)別分為離線建模和在線探測(cè)2 個(gè)部分.離線建模方面,首先對(duì)數(shù)據(jù)庫(kù)中已有的晶圓圖進(jìn)行降噪處理突出晶圓的模式特征,其次提取圖像的幾何、灰度、紋理等特征,最后通過(guò)神經(jīng)–符號(hào)系統(tǒng)建立缺陷探測(cè)與識(shí)別系統(tǒng).該系統(tǒng)第1步是通過(guò)正常特征數(shù)據(jù)建立基于KBSDAE的監(jiān)控控制圖,用于晶圓缺陷探測(cè);第2 步是通過(guò)缺陷特征數(shù)據(jù)構(gòu)建KBSDAE 模型,用于晶圓缺陷識(shí)別.

圖5 基于KBSDAE的晶圓表面缺陷識(shí)別系統(tǒng)Fig.5 Wafer surface defect recognition system based on KBSDAE
晶圓圖像通常參雜各種噪聲,直接使用往往不能達(dá)到預(yù)期效果,故首先采用非線性空域?yàn)V噪技術(shù)[35]對(duì)晶圓圖進(jìn)行濾噪處理.非線性空域?yàn)V噪法是直接處理圖像像素的一種濾噪方法,本文利用像素領(lǐng)域內(nèi)灰度值的中值代替該像素的值.
從晶圓圖中直接提取有效特征可在保證模型精度的同時(shí)大大降低計(jì)算復(fù)雜度,對(duì)本系統(tǒng)具有實(shí)際意義.因此,本文從幾何、灰度、紋理、投影4 個(gè)方面進(jìn)行特征提取,其中幾何特征用于描述形狀和大小,其余特征用于描述灰度特征,具體特征集列表如表1 所示.總特征維度51 維,其中幾何特征18 維,投影特征24 維,其余特征包括重心坐標(biāo)、對(duì)比度等共9 維.盡管提取了有效特征,但該特征集仍具有較高維度,并且包含很多噪音,不適合直接輸入歸類器進(jìn)行分類識(shí)別.因此,本文采用KBSDAE 進(jìn)行進(jìn)一步的特征學(xué)習(xí)及分類識(shí)別.

表1 晶圓圖像特征集Table 1 Wafer map feature set
從晶圓中進(jìn)行特征產(chǎn)生有以下3 個(gè)優(yōu)點(diǎn):1)以低維的原始特征集代替高維的圖像將使得深度網(wǎng)絡(luò)模型結(jié)構(gòu)更加簡(jiǎn)單有效;2)將圖像的像素特征轉(zhuǎn)換為簡(jiǎn)單的特征等可以更好地簡(jiǎn)化規(guī)則,然后提升深度網(wǎng)絡(luò)模型的可解釋性;3)規(guī)則關(guān)聯(lián)可理解的物理特征而不是像素特征將提高規(guī)則的可理解性與有效性.
整個(gè)晶圓缺陷識(shí)別過(guò)程分兩步走,首先進(jìn)行缺陷探測(cè),其次進(jìn)行缺陷識(shí)別.缺陷探測(cè)的主要目的是區(qū)分正常和存在缺陷的晶圓.缺陷識(shí)別的主要目的是識(shí)別晶圓缺陷的具體類別.將缺陷探測(cè)和識(shí)別分解為2 個(gè)問(wèn)題:1)兩分類可以有效提高故障探測(cè)性能;2)九分類問(wèn)題轉(zhuǎn)換為八分類問(wèn)題,更少的分類可有效提高深度網(wǎng)絡(luò)模型的缺陷識(shí)別性能.
本文缺陷探測(cè)模型如圖6 上半部分所示,主要包含基于KBDAE的控制圖與KBDAE 識(shí)別器兩部分.具體建模過(guò)程為:首先利用部分?jǐn)?shù)據(jù)建立并訓(xùn)練標(biāo)準(zhǔn)DAEs 并利用Confidence-RE 算法抽取置信度規(guī)則,其次利用規(guī)則初始化基于知識(shí)的降噪自編碼器(Knowledge-based DAEs,KBDAEs)并用另一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,最后將KBDAEs 輸出的特征數(shù)據(jù)作為控制變量建立控制圖,設(shè)定控制圖信任限為99.73% (3σ合格率),制造過(guò)程狀態(tài)檢測(cè)指標(biāo)為在線抽取向量特征與在控過(guò)程特征的歐氏距離D:

圖6 晶圓缺陷探測(cè)與識(shí)別流程Fig.6 The process of defect detecting and identifying on wafer

控制圖可以在保證制造過(guò)程異常探測(cè)性能的同時(shí),實(shí)現(xiàn)制造過(guò)程狀態(tài)的可視化,是生產(chǎn)過(guò)程中有效的質(zhì)量檢測(cè)工具.
晶圓缺陷識(shí)別模型的建立過(guò)程如圖6 下半部分所示,首先利用部分?jǐn)?shù)據(jù)建立SDAE 模型并通過(guò)規(guī)則抽取算法得到規(guī)則集CM-R,其次利用CM-R 構(gòu)建KBSDAE 并用另一部分?jǐn)?shù)據(jù)訓(xùn)練.通過(guò)上述方法可得到一個(gè)可以被分析且具有高識(shí)別性能的SDAE模型.
WM-811K[36]的圖像數(shù)據(jù)來(lái)自實(shí)際半導(dǎo)體生產(chǎn)線.根據(jù)晶圓圖中像素位置的掃描值,分別對(duì)正常、缺陷和空元素使用青色、品紅和白色進(jìn)行標(biāo)注.WM-811K 數(shù)據(jù)集包含8 個(gè)缺陷模式(Center、Edge-ring、Edge-local、Random、Local、Scratch、Near-full、Donut)和None-pattern,如圖7 所示.數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,分別用于構(gòu)建模型和測(cè)試模型的性能.用于進(jìn)行故障檢測(cè)和識(shí)別的晶圓片映射的詳細(xì)信息如圖8 所示.很明顯,WM-811K 數(shù)據(jù)集存在類不平衡,這將給KBSDAE帶來(lái)挑戰(zhàn).

圖7 正常模式與8 種缺陷模式的晶圓圖Fig.7 Normal pattern and eight defect patterns of wafer

圖8 WM-811K 中晶圓圖數(shù)據(jù)構(gòu)成Fig.8 Data Structure of wafer map in WM-811K
在缺陷探測(cè)系統(tǒng)中,首先利用基于KBSDAE的監(jiān)控圖檢測(cè)晶圓缺陷.使用所有數(shù)據(jù)的60%作為訓(xùn)練集來(lái)構(gòu)建KBSDAE (其中20%數(shù)據(jù)用來(lái)建立標(biāo)準(zhǔn)SDAE,其他數(shù)據(jù)用來(lái)訓(xùn)練KBSDAE),10%的數(shù)據(jù)作為測(cè)試集來(lái)執(zhí)行缺陷檢測(cè).為了體現(xiàn)KBSDAE的優(yōu)越性,增加了基于原始數(shù)據(jù)和SDAE的控制圖結(jié)果進(jìn)行對(duì)比.基于原始數(shù)據(jù)、SDAE 和KBSDAE的監(jiān)控圖分別如圖9~11 所示,其中閾值設(shè)置為99.73%,在假報(bào)率和漏報(bào)率之間取得較好的權(quán)衡.對(duì)比3 個(gè)控制圖可以發(fā)現(xiàn)KBSDAE 控制圖的表現(xiàn)明顯優(yōu)于基于原始數(shù)據(jù)和SDAE的控制圖.由圖11可以看出,監(jiān)控圖幾乎檢測(cè)到了所有的缺陷,并且不會(huì)觸發(fā)太多的虛警(虛警率為0.05%).結(jié)果表明,該監(jiān)測(cè)圖對(duì)晶圓圖缺陷的在線檢測(cè)是有效的.

圖9 基于原始數(shù)據(jù)的控制圖Fig.9 Control chart based on raw data

圖10 基于SDAE 提取特征的控制圖Fig.10 Control chart based on feature extracted by SDAE

圖11 基于KBSDAE 提取特征的控制圖Fig.11 Control chart based on feature extracted by KBSDAE
圖9~11 給出了基于原始數(shù)據(jù)、SDAE 和KBSDAE 控制圖的缺陷模式檢出率.表2 給出了3 種控制圖的缺陷探測(cè)率.KBSDAE 控制圖的檢出率明顯高于其他2 種圖,并且不會(huì)出現(xiàn)對(duì)個(gè)別缺陷完全不能識(shí)別的問(wèn)題.KBSDAE 控制圖可以檢測(cè)出93.52%的缺陷晶圓圖,可滿足工業(yè)應(yīng)用的要求.雖然SDAE 輸出特征對(duì)比原始數(shù)據(jù)更加有效,但控制圖對(duì)個(gè)別缺陷類完全無(wú)法探測(cè).但是,KBSDAE對(duì)幾乎所有缺陷類可以進(jìn)行有效的探測(cè),其缺陷探測(cè)顯著優(yōu)于SDAE.KBSDAE 提取的特征可以極大地提升控制圖的缺陷探測(cè)性能.同時(shí),KBSDAE可以更好地處理類不平衡數(shù)據(jù),這是由于知識(shí)插入顯著地提高了其特征學(xué)習(xí)性能.

表2 3 種控制圖的缺陷探測(cè)率 (%)Table 2 Defect detection capabilities of three control charts (%)
訓(xùn)練SDAE 并從容中抽取規(guī)則,從規(guī)則的可理解性、準(zhǔn)確度、信息保真度方面進(jìn)行有效性驗(yàn)證.本節(jié)從訓(xùn)練數(shù)據(jù)(僅有故障數(shù)據(jù))中隨機(jī)選取4 000 例數(shù)據(jù)訓(xùn)練標(biāo)準(zhǔn)SDAE 網(wǎng)絡(luò),網(wǎng)絡(luò)由2 層DAE 和全連接分類層堆疊而成,結(jié)構(gòu)為51-60-15-8.


將表3 和表4的規(guī)則結(jié)合起來(lái),就可以形成一套CM-R 規(guī)則.從表現(xiàn)形式和代表意義上可以得出,這套規(guī)則有效地描述了SDAE 網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu),達(dá)到了對(duì)深度網(wǎng)絡(luò)進(jìn)行知識(shí)抽取和網(wǎng)絡(luò)結(jié)構(gòu)解釋的目的.通過(guò)CM-R的表示,神經(jīng)網(wǎng)絡(luò)中的運(yùn)算邏輯可被以一種簡(jiǎn)單有效的方式進(jìn)行表達(dá).通過(guò)對(duì)CMR的推理,規(guī)則集可以作為一個(gè)簡(jiǎn)單的分類器,并且具備“白盒”模型的特性.可以通過(guò)對(duì)規(guī)則集的推導(dǎo),了解深度網(wǎng)絡(luò)內(nèi)部分類機(jī)制,也可量化輸入特征的重要程度.

表3 部分置信度符號(hào)規(guī)則Table 3 Part of Confidence Rule

表4 部分MofN 規(guī)則Table 4 Part of MofN Rule
可將規(guī)則集看作一種分類器,利用1 000 例測(cè)試數(shù)據(jù)分別對(duì)CM-R 和SDAE 進(jìn)行準(zhǔn)確率測(cè)試,其中CM-R的準(zhǔn)確率為73.96%,SDAE的準(zhǔn)確率為88.67%.從測(cè)試結(jié)果可以看出規(guī)則和網(wǎng)絡(luò)之間存在差距,這是因?yàn)橐?guī)則在提取過(guò)程中會(huì)出現(xiàn)信息損失現(xiàn)象.為了驗(yàn)證這種信息損失對(duì)CM-R的影響,對(duì)比了規(guī)則和對(duì)應(yīng)標(biāo)準(zhǔn)網(wǎng)絡(luò)在相同測(cè)試數(shù)據(jù)下的推導(dǎo)精度.首先,利用不同訓(xùn)練數(shù)據(jù)分別訓(xùn)練20 個(gè)標(biāo)準(zhǔn)雙層DAE 網(wǎng)絡(luò)并從中抽取規(guī)則.其次,對(duì)20 個(gè)SDAE 模型分別用20 例不同的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,結(jié)果如圖12 所示.圖12 橫坐標(biāo)表示標(biāo)準(zhǔn)網(wǎng)絡(luò)在測(cè)試集上的預(yù)測(cè)精度,縱坐標(biāo)表示規(guī)則在測(cè)試集上的推導(dǎo)精度,線代表網(wǎng)絡(luò)和規(guī)則測(cè)試精度相同的基準(zhǔn)線,每個(gè)點(diǎn)代表一組模型(一個(gè)標(biāo)注SDAE+從中抽取的CM-R)的測(cè)試結(jié)果.可以看出,大部分點(diǎn)都在基準(zhǔn)線附近,證明了整套規(guī)則算法的有效性;近乎所有點(diǎn)都在線下方,證明信息損失是存在的2 張圖結(jié)果點(diǎn)較為密集,證明模型具有較識(shí)別高穩(wěn)定性,即便訓(xùn)練數(shù)據(jù)量發(fā)生變化,規(guī)則精度也不會(huì)發(fā)生突變.結(jié)果表明CM-R 規(guī)則具有較好的保真度[37].盡管CM-R 規(guī)則具有一定的信息損失,但是依然有效地提高了KBSDAE的特征學(xué)習(xí)性能.

圖12 SDAE 和相應(yīng)的符號(hào)規(guī)則的晶圓表面缺陷識(shí)別率對(duì)比Fig.12 Comparison of wafer defect recognition rates between SDAE and corresponding rules
知識(shí)插入不僅使KBSDAE的初始化具備了一定的模式識(shí)別能力,而且將有效地提升KBSDAE的無(wú)監(jiān)督訓(xùn)練學(xué)習(xí)和有監(jiān)督的微調(diào)學(xué)習(xí).為了驗(yàn)證知識(shí)插入網(wǎng)絡(luò)是否可以為缺陷識(shí)別帶來(lái)積極影響,首先利用規(guī)則初始化網(wǎng)絡(luò),并利用余下訓(xùn)練數(shù)據(jù)(僅包含缺陷數(shù)據(jù))訓(xùn)練KBSDAE,其次利用訓(xùn)練數(shù)據(jù)訓(xùn)練了規(guī)模相同的SDAE.為分析兩種網(wǎng)絡(luò)的表現(xiàn),記錄了模型在無(wú)監(jiān)督訓(xùn)練和微調(diào)階段的均方誤差變化.由圖13 可以看出,不管是在無(wú)監(jiān)督訓(xùn)練還是在微調(diào)階段,KBSDAE的均方誤差相較于SDAE 都具有更快的收斂速度和更低的收斂區(qū)間.這證明了利用知識(shí)初始化網(wǎng)絡(luò)所帶來(lái)的積極影響,也進(jìn)一步證明了本文提出方法的有效性.

圖13 KBSDAE 和SDAE 訓(xùn)練過(guò)程的均方誤差變化對(duì)比Fig.13 Comparison of mean square errors of KBSDAE and SDAE training processes
表5 進(jìn)一步給出了KBSDAE 在測(cè)試數(shù)據(jù)上的識(shí)別結(jié)果混淆矩陣.這個(gè)矩陣中的對(duì)角線元素是每個(gè)缺陷模式的識(shí)別率(總體準(zhǔn)確率為91.2%).由表5 可以看出,大部分錯(cuò)誤來(lái)自于對(duì)局部(Local)、劃痕缺陷(Scratch)和近滿(Near-full)的錯(cuò)誤識(shí)別,其中Local 和Scratch 出現(xiàn)誤判是由于它們本身的類別特征具有相似性導(dǎo)致容易混淆.Near-full 則是因?yàn)閿?shù)據(jù)極少導(dǎo)致模型對(duì)該類的學(xué)習(xí)不足,但在提取規(guī)則幫助下,它被準(zhǔn)確識(shí)別準(zhǔn)確率達(dá)到了84%.圖14是被誤判的Local 和邊緣局部(Edge-local)的晶圓圖,它們之間存在共性,故鑒定邊界模糊容易混淆.一般情況下,可以接受這些錯(cuò)誤分類的結(jié)果,因?yàn)檫@些晶圓圖可能同時(shí)具備一種以上模式特性.上述結(jié)果表明,KBSDAE 在面對(duì)類不平衡數(shù)據(jù)也能對(duì)各類進(jìn)行有效分類,其主要原因是規(guī)則插入提高了KBSDAE的特征提取能力,減少了數(shù)據(jù)類不平衡對(duì)網(wǎng)絡(luò)的影響.

圖14 Local 和Edge-local 模式的晶圓圖Fig.14 Wafer maps in Local and Edge-local patterns

表5 基于 KBSDAE的晶圓缺陷識(shí)別率Table 5 Recognition rates of defects in wafers based on KBSDAE
為進(jìn)一步驗(yàn)證知識(shí)插入深度網(wǎng)絡(luò)的優(yōu)化效果,對(duì)比了KBSDAE 和SDAE 在不進(jìn)行微調(diào)和只進(jìn)行幾步微調(diào)后的測(cè)試精度.利用相同數(shù)據(jù)分別建立了結(jié)構(gòu)和訓(xùn)練參數(shù)相同的SDAE 和KBSDAE,網(wǎng)絡(luò)的2 個(gè)訓(xùn)練階段的學(xué)習(xí)率分別為0.05 和1,DAE訓(xùn)練階段噪聲率為0.05.測(cè)試結(jié)果如圖15 所示,可以看出,KBSDAE 在不進(jìn)行微調(diào)的情況下仍具有一定的識(shí)別能力,與SDAE 相比提升明顯.這進(jìn)一步證明了利用規(guī)則插入網(wǎng)絡(luò)可以進(jìn)一步提升SDAE的特征學(xué)習(xí)性能.而經(jīng)過(guò)前幾步微調(diào)后的KBSDAE測(cè)試精度普遍高于SDAE,這證明了將知識(shí)代入網(wǎng)絡(luò)可以顯著提高網(wǎng)絡(luò)的分類性能.

圖15 不同微調(diào)訓(xùn)練步數(shù)的SDAE 與KBSDAE 分類性能比較Fig.15 Comparison of classification performances between SDAE and KBSDAE with different fine-tuning steps
對(duì)于KBSDAE,網(wǎng)絡(luò)結(jié)構(gòu)、規(guī)則的插入規(guī)模等參數(shù)對(duì)其判別特征提取的有效性有顯著影響.為檢驗(yàn)重要參數(shù)對(duì)網(wǎng)絡(luò)識(shí)別性能的影響程度,對(duì)網(wǎng)絡(luò)進(jìn)行參數(shù)敏感性分析.敏感性分析是通過(guò)在一定范圍內(nèi)改變這些參數(shù)來(lái)實(shí)現(xiàn)的.由表6 可知,KBSDAE的性能隨著隱藏層數(shù)的增加而提高,規(guī)則過(guò)多并不能提高KBSDAE的性能.其中,采用前1/3 置信度規(guī)則和1/2 分類規(guī)則構(gòu)造雙層KBSDAE 時(shí),晶圓缺陷識(shí)別效果最好.

表6 結(jié)構(gòu)規(guī)則超參數(shù)敏感性分析Table 6 Model hyperparameter sensitivity analysis
為了檢驗(yàn)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)的敏感度,對(duì)比了在不同訓(xùn)練數(shù)據(jù)量下KBSDAE 和SDAE的識(shí)別精度.利用相同訓(xùn)練數(shù)據(jù)分別訓(xùn)練SDAE 和KBSDAE,訓(xùn)練數(shù)據(jù)量從20 開始逐漸遞增.訓(xùn)練后的網(wǎng)絡(luò)利用1 000 個(gè)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別性能測(cè)試.結(jié)果如圖16所示,即使在訓(xùn)練數(shù)據(jù)量很小的情況下,KBSDAE依舊具有高識(shí)別精度,這是由于知識(shí)代入網(wǎng)絡(luò)的結(jié)果.并且隨著訓(xùn)練數(shù)據(jù)量的增加,KBSDAE 識(shí)別精度也穩(wěn)定高于標(biāo)準(zhǔn)SDAE.試驗(yàn)結(jié)果證明KBSDAE相較于SDAE 具有更高的數(shù)據(jù)敏感度,在缺乏訓(xùn)練數(shù)據(jù)的情況下依舊可以保持較高的識(shí)別精度,這在工業(yè)應(yīng)用方面是很大的提升.

圖16 不同訓(xùn)練數(shù)據(jù)量下的KBSDAE 與 SDAE識(shí)別性能比較Fig.16 Comparison of classification performances between KBSDAE and SDAE with different training data volumes
將KBSDAE 在WM-811K 和相關(guān)仿真數(shù)據(jù)上的分類結(jié)果與其他典型分類器進(jìn)行了比較.這些經(jīng)典分類器包括DBN、堆疊自編碼器、堆疊稀疏自編碼器(Stacked sparse auto-encoder,SSAE)、SDAE、BP 神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)、基于KBANN的符號(hào)神經(jīng)系統(tǒng)(Neurosymbolic system for KBANN,INSS-KBANN)[38]、密集連接的卷積網(wǎng)絡(luò)(Densely connected convolutional network,DenseNet)[39]、殘差神經(jīng)網(wǎng)絡(luò)(Residual network,ResNet)[40]、谷歌網(wǎng)絡(luò)(Google inception net,GoogleNet)[33]、支持向量機(jī)–高斯核函數(shù)(Support vector machine with Gaussian kernel,SVMG),網(wǎng)絡(luò)–符號(hào)的模型為符號(hào)–深度置信網(wǎng)絡(luò)(Symbolic-Deep belief network,SYM-DBN)[34]、局部與非局部聯(lián)合線性判別分析(Local and nonlocal preserving projection,JLNDA)[41].為了更加全面地測(cè)試KBSDAE的性能,在本節(jié)試驗(yàn)中加入仿真數(shù)據(jù)[42],這種數(shù)據(jù)被經(jīng)常應(yīng)用于驗(yàn)證模型有效性,是根據(jù)晶圓故障的特性生成的帶有噪聲的數(shù)據(jù),同樣的也具備類不平衡的缺陷.圖17 展示了仿真數(shù)據(jù)的組成結(jié)構(gòu).DBN 和SYM-DBN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,受限玻爾茲曼機(jī)階段的學(xué)習(xí)率和動(dòng)量分別為0.5 和0,微調(diào)階段學(xué)習(xí)率為2;SDAE 和SSAE的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動(dòng)量分別為1 和0.5;INSS-KBANN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動(dòng)量分別為2 和0.1;BPNN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動(dòng)量分別為2 和0.1;DenseNet、ResNet 和GoogleNet 都是直接識(shí)別圖像的卷積神經(jīng)網(wǎng)絡(luò)模型,所以直接利用晶圓圖像數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試.

圖17 仿真數(shù)據(jù)集中晶圓圖構(gòu)成示意圖Fig.17 Data structure of wafer map in simulation dataset
對(duì)上述模型分別進(jìn)行五折交叉試驗(yàn),結(jié)果如表7所示.相較于傳統(tǒng)分類器,KBSDAE 在晶圓缺陷識(shí)別上具有顯著好的性能.與直接識(shí)別圖片的卷積神經(jīng)網(wǎng)絡(luò)模型相比,KBSDAE的缺陷識(shí)別率更高且網(wǎng)絡(luò)規(guī)模更小.這是因?yàn)镵BSDAE 利用特征數(shù)據(jù)進(jìn)行學(xué)習(xí),也說(shuō)明了特征產(chǎn)生為 網(wǎng)絡(luò)帶來(lái)了一定的優(yōu)勢(shì).符號(hào)–神經(jīng)模型(INSS-KBANN、SYM-DBN)相比原網(wǎng)絡(luò)模型(BPNN、DBN)識(shí)別效果更好,但需要更多時(shí)間進(jìn)行知識(shí)提取與插入.而KBSDAE仍然顯示更好的特征學(xué)習(xí)性能.KBSDAE 在2 種數(shù)據(jù)集上的優(yōu)異表現(xiàn),也更加充分地證明了其特征學(xué)習(xí)與識(shí)別能力的優(yōu)越性.

表7 各種學(xué)習(xí)模型的晶圓缺陷識(shí)別率 (%)Table 7 Wafer defect recognition rates for various learning models (%)
由于實(shí)際制造工況的復(fù)雜性,如何解決深度神經(jīng)網(wǎng)絡(luò)在應(yīng)用過(guò)程中出現(xiàn)的不可解釋和依賴數(shù)據(jù)源的問(wèn)題是晶圓缺陷識(shí)別領(lǐng)域迫切需要解決的問(wèn)題.本文提出了一種基于SDAE的神經(jīng)–符號(hào)模型.針對(duì)SDAE 設(shè)計(jì)了適配的符號(hào)規(guī)則形式,同時(shí)提出了適用于網(wǎng)絡(luò)和規(guī)則的知識(shí)轉(zhuǎn)化算法.建立了一套基于KBSDAE的晶圓表面缺陷識(shí)別系統(tǒng),可有效地探測(cè)與識(shí)別晶圓缺陷模式.試驗(yàn)結(jié)果表明,在利用晶圓數(shù)據(jù)建模的過(guò)程中不僅規(guī)則可有效描述網(wǎng)絡(luò)表述知識(shí),而且插入知識(shí)的網(wǎng)絡(luò)同時(shí)具備高識(shí)別性能.在未來(lái)研究中,將繼續(xù)探索神經(jīng)–符號(hào)系統(tǒng),嘗試更復(fù)雜深度網(wǎng)絡(luò)模型(比如卷積神經(jīng)網(wǎng)絡(luò)),提高模型性能和可解釋性.