王雪瑩 戴亨瑋 張曉茹 張 喆 夏勁彪
(1、中國石油大學(北京)經濟管理學院,北京 102249 2、西南大學計算機與信息科學學院軟件學院,重慶 400700 3、桂林理工大學商學院,廣西 桂林 541004 4、桂林理工大學信息科學與工程學院,廣西 桂林 541004)
物質存在的形式多種多樣,固體、液體、氣體、等離子體等等。我們通常把介于導體和絕緣體之間的材料稱為半導體。與導體和絕緣體相比,半導體材料的發現是最晚的,直到20 世紀30 年代,當材料的提純技術改進以后,半導體的存在才真正被學術界認可。無論從科技或是經濟發展的角度來看,半導體的重要性都是非常巨大的。基于以上背景,本文將解決一下問題:
1.1 根據半導體制造工藝的實際數據集,完成數據的預處理。根據處理后的結果,研究分析各個因素(變量)之間的相關性,確定關鍵因素,并說明合理性。
1.2 半導體制造工藝的實際數據集列出了1567 個產品的觀測數據,其中存在一些不合格產品,請根據之前的關鍵因素,建立模型[1],利用這些因素來識別不合格產品。
本文首先進行數據分析,發現該數據存在590 個變量和1567 個樣本,并且發現部分變量的樣本數據為常數,大量變量的樣本數據都存在缺失值情況,因此我們針對以上兩種情況對其進行處理。
本文發現大部分變量都存在缺失值,首先通過Excel 自帶的COUNTIF 函數統計了每個變量缺失值的個數,然后我們決定將缺失值個數大于5 的變量刪除,最終剩下了242 個變量。本文刪除了缺失值大于5 個的變量,但是還在大量變量有著少數的缺失值,因此對缺失值的填充將是至關重要的。而對于常數,直接舍棄。我們用各個變量的平均值填充了缺失值之后,整個樣本數據就是我們可用的數據,為了方便后續的分析,我們將Qualified 變量為“是”的樣本數據用1 量化,變量為“否”的樣本數據用0 量化。
變量之間的Pearson 相關性分析:
采用多元線性回歸分析能很好的篩選出顯著影響產品質量的變量,因此本問采用該方法對樣本數據進行回歸分析[2],回歸分析模型如下所示:

其中:y 為因變量,x 為自變量,?為該變量對應的系數,b 為常數項。
我們采用SPSS 軟件,選擇分析- 多元線性回歸分析選項,將產品質量的量化數據作為因變量,將數據預處理后的242 個變量作為自變量,代入軟件中進行回歸分析,得出分析結果。
我們選擇顯著性排名為前15 名的變量,作為關鍵因素,具體變量如表1 所示(只展示關鍵因素的標準化系數和顯著性水平)。

表1 關鍵因素的分布
通過上述相關性分析我們得知這15 個關鍵因素之間相關性并不高,也并不存在多重共性線問題,而我們選取的這幾個因素又具有很高的顯著性,因此我們確定的關鍵因素能夠合理的代表半導體產品質量。
本文得出了15 個影響半導體產品質量的關鍵因素,那么為了能夠通過這幾個因素來識別不合格產品,構建了BP 神經網絡評價模型,通過對歷史數據的模型訓練,訓練好神經網絡,再通過對測試數據的仿真,得到模型的準確率,下面就是BP 神經網絡模型的構建過程。本問使用有監督學習的神經網絡對股票價格損失進行預測,構建過程如下[3]:
(1)初始化:給每一個神經元的權值wi,j、vjt,閾值θj和γt賦予區間為(-1,1)內的隨機數。
(2)在123 家企業選取一組學習樣本Xn=(x1,x2,…,xn)和目標樣本Tn=(y1,y2,…,yn)。
(3)對學習樣本Xn=(x1,x2,…,xn)、權值wi,j和閾值θj利用公式(1)計算隱含層的神經元輸入sj,再利用輸入值計算中間層單元的輸出bj。
(4)用隱含層輸出bj,輸出層權值wi,j和閾值γt計算輸出層神經元Lt,利用傳遞函數計算輸出層的結果Zt。
(5)計算網絡的目標向量Tn=(y1,y2,…,yn)和實際向量Zn=(z1,z2,…,zn)的差值,得到dt。
(6)用權值vjt、輸出層誤差dt與中間層輸出值bj計算中間層一般誤差ej。
(7)用輸出層各單元一般誤差dt與中間層單元輸出值bj來修正連接權值vjt和閾值γt。其中t=1,2,…,q;j=1,2,…,p;0<α<1。
(8)用中間層神經元誤差ej來調整連接權值wi,j,用輸入層神經元的輸入Xn來調整閾值θj。其中i=1,2,…,q;j=1,2,…,p;.0<β<1。
(9)隨機選取下個樣本代入神經網絡進行訓練,執行步驟(3),直到網絡的訓練全局誤差達到網絡收斂值,學習結束。
4.2.1 神經元數目的確定
本文處理之后的關鍵因素為15 個,因此輸入層神經節點數目為15,而本文神經網絡最終輸出的只有一個半導體產品質量,因此輸出層節點個數為1。
4.2.2 隱含層節點數目的確定

4.2.3 模型訓練
本問采用獨立測試方法,將測試數據分為兩部分,其一是訓練數據,我們將附件的半導體樣本數據隨機抽取1500 組數據作為訓練數據,剩下的67 組樣本數據作為測試集,用于檢測BP神經網絡對半導體產品質量的評價準確率。
將訓練樣本數據代入利用Matlab 的神經網絡程序包對神經網絡中進行訓練,訓練結果如圖1 所示。

圖1 神經網絡訓練誤差
通過上述訓練結果,我們可得初步的網絡訓練結果,訓練誤差小于0.1,為了驗證BP 神經網絡,我們將測試數據代入已經訓練好的網絡模型當中進行測試,結果如圖2 所示。

圖2 神經網絡測試結果
具體的樣本測試結果對比數據顯示,當測試結果小于0.8時,就為產品不合格反之,則產品合格。我們通過測試結果計算模型評價的準確率,用評價準確的個數除于總測試個數,得到模型對半導體產品質量的評價準確率為95.5%, 因此可以基于此得到我們的模型能夠利用關鍵因素對半導體產品質量進行識別。
5.1 元器件的設計:先進特征尺寸節點上,芯片老化問題日益嚴重,老化和可靠性是模擬設計師面臨的挑戰。今天的設計可能不會在明天運行,因為這些設計可能會發生降級,目前最重要的是必須確保滿足市場所有老化和可靠性的要求。
5.2 元器件的制造:半導體器件的制造涉及到測量僅幾納米的結構,很多制造元器件的機器可能存在誤差或者精度達不到,導致制造出的元器件在精度上就不符合要求。
5.3 磁場對半導體影響:隨著智能手機、平板電腦終端的多功能化,制造半導體芯片的過程中,芯片很可能會受到外界設備磁場的影響,導致功能失效。