李文俊,胡 泓,李崢嶸
(1.哈爾濱工業(yè)大學(xué)(深圳)機(jī)電工程與自動(dòng)化學(xué)院,廣東 深圳 518000;2.深圳市大族光電設(shè)備有限公司,廣東 深圳 518000)
引線鍵合是芯片封裝鄰域中用于芯片互連的技術(shù),對(duì)視覺(jué)定位的精度和效率都有很高的要求。引線鍵合機(jī)在工作過(guò)程中,由于邦頭的高速運(yùn)動(dòng)和震動(dòng),會(huì)導(dǎo)致圖像采集設(shè)備出現(xiàn)松動(dòng),采集到的圖像出現(xiàn)失焦模糊和運(yùn)動(dòng)模糊的現(xiàn)象,或者由于引線鍵合機(jī)照明系統(tǒng)沒(méi)有調(diào)節(jié)在最佳的照明狀態(tài),還會(huì)產(chǎn)生光照不適的失真圖像。這些質(zhì)量較差的圖像將直接影響到圖像的視覺(jué)定位精度,對(duì)焊接質(zhì)量產(chǎn)生很大的影響。
本文將圖像質(zhì)量評(píng)估的方法引入到引線鍵合的視覺(jué)定位系統(tǒng)中,使用生成對(duì)抗網(wǎng)絡(luò)生成采集圖片的偽參考圖,將無(wú)參考圖像質(zhì)量評(píng)估的問(wèn)題轉(zhuǎn)化為有參考圖像質(zhì)量評(píng)估的問(wèn)題進(jìn)行解決。然后對(duì)采集圖片和偽參考圖片使用基于灰度的視覺(jué)定位方法進(jìn)行定位,將定位坐標(biāo)差作為圖像質(zhì)量評(píng)估的依據(jù)。本文提出的圖像質(zhì)量評(píng)估方法,相對(duì)于傳統(tǒng)的無(wú)參考圖像質(zhì)量評(píng)估方法如PSNR(peak signal to noise ratio,峰值信噪比)、SSIM[1]與FSIM[2],和有參考圖像質(zhì)量評(píng)估方法如CNN[3]與DNN[4],有更好的圖像質(zhì)量評(píng)估性能。
圖像的質(zhì)量評(píng)估主要分為有參考圖像質(zhì)量評(píng)估和無(wú)參考圖像質(zhì)量評(píng)估2種。有參考圖像質(zhì)量評(píng)估有PSNR、SSIM和FSIM等方法,這些方法評(píng)價(jià)一致性好并且研究成熟、使用廣泛,但是需要有參考圖像進(jìn)行參考,主要用于評(píng)估圖像在網(wǎng)絡(luò)傳輸或者壓縮過(guò)程中的質(zhì)量損失。無(wú)參考圖像質(zhì)量評(píng)估是指在沒(méi)有參考圖片的情況下對(duì)圖像質(zhì)量進(jìn)行評(píng)價(jià),本文的研究?jī)?nèi)容即是屬于無(wú)參考圖像質(zhì)量評(píng)估領(lǐng)域。無(wú)參考圖像質(zhì)量評(píng)估的主要使用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的方法進(jìn)行圖像的質(zhì)量評(píng)估,如CNN與DNN的方法。在無(wú)參考圖像質(zhì)量評(píng)估領(lǐng)域,大量學(xué)者們關(guān)注的是人對(duì)圖像的感官質(zhì)量評(píng)估問(wèn)題,少有學(xué)者使用圖像質(zhì)量評(píng)估的方法研究圖像質(zhì)量對(duì)視覺(jué)定位精度的影響,而本文使用圖像質(zhì)量評(píng)估的方法來(lái)保障圖像視覺(jué)定位的精度。
2014年,Goodfellow提出的生成對(duì)抗網(wǎng)絡(luò)GAN[5],主要用來(lái)解決圖像的生成問(wèn)題。他采用一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)相互博弈訓(xùn)練,最終提高圖片生成的真實(shí)性。后來(lái)Martin等為了解決GAN訓(xùn)練模式坍塌的問(wèn)題,提出了使用Wasserstein距離進(jìn)行訓(xùn)練的方法WGAN,但是會(huì)產(chǎn)生Weight clipping問(wèn)題。Gulragani等[6]在提出在WGAN的基礎(chǔ)上添加懲罰項(xiàng)的方法,有效地解決了模式坍塌的問(wèn)題,很大程度使GAN的訓(xùn)練能夠穩(wěn)定進(jìn)行。
2017年,Orest Kupyn將GAN引入到圖像去模糊的問(wèn)題,提出DeblurGAN的方法,能夠有效將模糊圖像還原位清晰圖像。在超分辨率重建的問(wèn)題上Ledig等[7]提出了SRGAN的方法,用來(lái)來(lái)解決圖像的超分辨率生成。在圖像質(zhì)量評(píng)估問(wèn)題上,Ren[8]提出的RANK4IQA和Lin等[9]提出的Hallucinated-IQA,都是借助GAN網(wǎng)絡(luò)的思路解決圖像質(zhì)量評(píng)價(jià)的問(wèn)題,并且取得了很好的效果。
本文方案分為RSGAN(restorative GAN,圖像復(fù)原網(wǎng)絡(luò))和TMR-IQA(template match reference-image quality assessment,基于模板匹配的有參考圖像質(zhì)量評(píng)估)2部分,方案流程如圖1所示。首先利用生成對(duì)抗網(wǎng)絡(luò)對(duì)采集圖進(jìn)行還原,生成1幅偽參考圖。得到偽參考圖之后,使用TMR-IQA方法對(duì)圖像進(jìn)行質(zhì)量評(píng)估,對(duì)采集圖與偽參考圖使用相同的模板圖像進(jìn)行基于灰度的模板匹配,將匹配坐標(biāo)差作為圖像的質(zhì)量評(píng)估依據(jù)。

圖1 本文圖像質(zhì)量評(píng)估總體方案
為滿足生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練要求,需首先采集和制作用于模型訓(xùn)練的數(shù)據(jù)集。生成對(duì)抗網(wǎng)絡(luò)由生成G網(wǎng)絡(luò)和對(duì)抗D網(wǎng)絡(luò)組成,在生成對(duì)抗網(wǎng)絡(luò)中,需要同時(shí)在G網(wǎng)絡(luò)中輸入失真圖,在D網(wǎng)絡(luò)中輸入?yún)⒖紙D和G網(wǎng)絡(luò)生成的生成圖。但是在數(shù)據(jù)集采集過(guò)程中,不可能同時(shí)采集1張圖片的失真圖和參考圖,因此將焊線機(jī)視覺(jué)系統(tǒng)采集的清晰圖片當(dāng)作參考圖,再使用失真算法在參考圖的基礎(chǔ)上模擬生成失真圖,用這樣的方法得到最終數(shù)據(jù)集。具體數(shù)據(jù)集的生成方法步驟如下:
a.使用引線鍵合機(jī)采集芯片圖像作為參考圖。在良好的成像環(huán)境下,采集A類芯片圖像465張,B類芯片圖像360張,共計(jì)825張圖。
b.使用失真算法模擬生成失真圖像。使用高斯卷積核對(duì)圖像進(jìn)行卷積模擬生成失焦模糊圖像,使用偏中心高斯卷積核對(duì)圖像進(jìn)行卷積模擬生成運(yùn)動(dòng)模糊圖像,光照不適使用調(diào)節(jié)像素值的方法進(jìn)行模擬。根據(jù)失焦模糊、運(yùn)動(dòng)模糊和光照不適的程度不同,將每張參考圖模擬生成4張失真圖。共計(jì)3 300張失真圖,其中A類芯片圖4組,B類芯片4組,按照芯片類別和失真程度的不同共有8組失真圖。將3 300組圖片分為訓(xùn)練集和測(cè)試集。其中訓(xùn)練集2 940組,測(cè)試集360組。
c.計(jì)算數(shù)據(jù)集的標(biāo)準(zhǔn)質(zhì)量分?jǐn)?shù)。將采集圖與對(duì)應(yīng)失真圖使用相同的模板進(jìn)行模板匹配,得到兩者的匹配坐標(biāo),然后根據(jù)兩者的匹配坐標(biāo)值差Lc計(jì)算對(duì)應(yīng)失真圖的質(zhì)量分?jǐn)?shù)。質(zhì)量分?jǐn)?shù)S轉(zhuǎn)換公式如式(1)所示,將此數(shù)值作為數(shù)據(jù)集圖像的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)分?jǐn)?shù)。
(1)
本文所用網(wǎng)絡(luò)結(jié)構(gòu)與Johnson用于圖片的風(fēng)格遷移[10]中的網(wǎng)絡(luò)結(jié)構(gòu)相似,如圖2所示。

圖2 生成器G網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)
a.首先是1層大小為7×7的卷積層;2層為下采樣層,下采樣層包含1個(gè)步長(zhǎng)為2大小為3×3的卷積層、instance normalization歸一化層、ReLU激活層。
b.然后是9層殘差網(wǎng)絡(luò)[11],殘差網(wǎng)絡(luò)包含1層大小為3×3的卷積層、instance normalization歸一化層、ReLU激活層、3×3卷積層、instance normalization歸一化層。
c.接著是2層上采樣層,上采樣層包括雙線性插值加3×3的卷積層、instance normalization歸一化層和ReLU激活層。
d.最后1層有7×7大小卷積層和tanh激活層。
D網(wǎng)絡(luò)由6層卷積層組成的,用以判別圖片的真假。對(duì)于參考圖(即采集圖),期望D網(wǎng)絡(luò)判別為真,輸出值接近1;對(duì)于生成圖,期望D網(wǎng)絡(luò)判別為假,輸出值接近0。
生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程是G網(wǎng)絡(luò)與D網(wǎng)絡(luò)相互博弈的過(guò)程。G網(wǎng)絡(luò)的任務(wù)是盡量讓生成圖騙過(guò)D網(wǎng)絡(luò),讓其判別為真,在訓(xùn)練過(guò)程生成圖越來(lái)越接近真實(shí)參考圖。D網(wǎng)絡(luò)的任務(wù)是在訓(xùn)練過(guò)程中提高對(duì)生成圖與參考圖的鑒別能力。整個(gè)訓(xùn)練過(guò)程對(duì)抗損失為

(2)
根據(jù)文獻(xiàn)[6]的研究,為了防止訓(xùn)練過(guò)程中出現(xiàn)梯度消失或者梯度爆炸問(wèn)題,D網(wǎng)絡(luò)的損失函數(shù)應(yīng)該在對(duì)抗損失Ladv的基礎(chǔ)上加上懲罰系數(shù),即

(3)
G網(wǎng)絡(luò)的損失函數(shù)LG由對(duì)抗損失Ladv和內(nèi)容損失Lcontent組成,即
LG=Ladv+Lcontent
(4)
內(nèi)容損失Lcontent是使用訓(xùn)練好的VGG19輔助進(jìn)行提取的感知損失Lx。在本文中,由于使用基于灰度的模板匹配算法進(jìn)行視覺(jué)定位,視覺(jué)定位的坐標(biāo)非常依賴于圖像的像素值,因此除了使用感知損失,還加上了像素?fù)p失LMSE。Lcontent和LMSE分別為:
Lcontent=λ1Lx+λ2LMSE
(5)
(6)
使用TensorFlow進(jìn)行網(wǎng)絡(luò)搭建,G網(wǎng)絡(luò)和D網(wǎng)絡(luò)交替進(jìn)行訓(xùn)練,在每次迭代中,D網(wǎng)絡(luò)訓(xùn)練5次,G網(wǎng)絡(luò)訓(xùn)練1次。使用GTX 1080 TI型號(hào)的GPU經(jīng)過(guò)250epoch訓(xùn)練達(dá)到穩(wěn)定狀態(tài)。
將訓(xùn)練好的G網(wǎng)絡(luò)進(jìn)行圖像生成實(shí)驗(yàn),將模擬失真圖輸入G網(wǎng)絡(luò)獲得生成圖。如圖3所示,G網(wǎng)絡(luò)能夠很好地對(duì)失真圖像進(jìn)行還原。

圖3 GAN網(wǎng)絡(luò)的生成圖
在本方案中,先使用RSGAN對(duì)失真圖進(jìn)行還原生成偽參考圖,然后使用TMR-IQA對(duì)圖像進(jìn)行質(zhì)量評(píng)價(jià),得到圖片的質(zhì)量分?jǐn)?shù)。將本方案得到的圖像質(zhì)量分?jǐn)?shù)序列X與標(biāo)準(zhǔn)質(zhì)量分?jǐn)?shù)Y進(jìn)行對(duì)比計(jì)算SROCC和PLCC值。PLCC(Pearson rank-order correlation coefficient,皮爾森線性相關(guān)系數(shù))如式(7)所示;SROCC(Spearman rank-order correlation coefficient,斯皮爾曼秩序相關(guān)系數(shù))如式(8)所示。二者都廣泛應(yīng)用于衡量2個(gè)序列的相關(guān)性,值越大,代表圖像質(zhì)量評(píng)估性能越好。
(7)
cov(X,Y)為序列X、Y的協(xié)方差計(jì)算;σX、σY分別為序列X的方差、序列Y的方差;μX、μY分別為序列X的均值、序列Y的均值。
SROCC(X,Y)=PLCC(R(X),R(Y))
(8)
R(X)、R(Y)分別為序列X、Y的排序序列。
使用RSGAN與PSNR、SSIM、FSIM相結(jié)合的方法(如圖4所示)對(duì)圖像進(jìn)行評(píng)價(jià),并計(jì)算各組數(shù)據(jù)集的PLCC和SROCC值,并與本文中的圖像質(zhì)量評(píng)估方法進(jìn)行實(shí)驗(yàn)對(duì)比,得到如圖5所示的結(jié)果對(duì)比。

圖4 RSGAN與PSNR、SSIM、FSIM相結(jié)合的圖像質(zhì)量評(píng)估方法

圖5 本文方法與RSGAN+PSNR、RSGAN+SSIM、RSGAN+FSIM方法結(jié)果對(duì)比
將本文中使用的圖像質(zhì)量評(píng)價(jià)方法與無(wú)參考圖像質(zhì)量評(píng)估方法如CNN、DNN進(jìn)行實(shí)驗(yàn)對(duì)比,得到如圖6所示的實(shí)驗(yàn)結(jié)果。

圖6 本文方法與CNN、DNN方法結(jié)果對(duì)比
由圖5可知,本文提出的圖像質(zhì)量評(píng)估方法與RSGAN和有參考圖像質(zhì)量評(píng)估如PSNR、SSIM、FSIM相結(jié)合的方法相比有很大的性能優(yōu)勢(shì),說(shuō)明TMR-IQA相對(duì)于PSNR、SSIM和FSIM更加適合解決視覺(jué)定位領(lǐng)域的圖像質(zhì)量評(píng)估問(wèn)題。由圖6可知,本文方法相對(duì)于無(wú)參考圖像質(zhì)量評(píng)估CNN和DNN有更好的綜合性能,說(shuō)明使用生成對(duì)抗網(wǎng)絡(luò)將無(wú)參考圖像質(zhì)量評(píng)估問(wèn)題轉(zhuǎn)化為有參考圖像質(zhì)量評(píng)估問(wèn)題的方法,能夠更好地解決視覺(jué)定位的圖像質(zhì)量評(píng)估問(wèn)題。
為了保障引線鍵合機(jī)視覺(jué)定位的精度,本文提出了一種針對(duì)引線鍵合機(jī)視覺(jué)定位的圖像質(zhì)量評(píng)估算法,將生成對(duì)抗網(wǎng)絡(luò)引入到圖像質(zhì)量評(píng)估的方法中。通過(guò)使用生成對(duì)抗網(wǎng)絡(luò)生成采集圖片的偽參考圖,把無(wú)參考圖像質(zhì)量評(píng)估問(wèn)題轉(zhuǎn)化偽圖像質(zhì)量評(píng)估問(wèn)題,然后有針對(duì)性地使用視覺(jué)定位坐標(biāo)差作為圖像質(zhì)量評(píng)估的依據(jù)。通過(guò)實(shí)驗(yàn),證明本文提出的方法在解決視覺(jué)定位的圖像質(zhì)量評(píng)估問(wèn)題上,與RSGAN+PSNR、RSGAN+SSIM、RSGAN+FSIM、CNN和DNN相比有明顯的優(yōu)勢(shì)。
本文的圖像質(zhì)量評(píng)估方法能夠在圖像視覺(jué)定義方向的圖像質(zhì)量評(píng)估取得較好的效果,主要得益于使用了生成對(duì)抗網(wǎng)絡(luò)和視覺(jué)定位相結(jié)合的方法,可以有效地對(duì)該類問(wèn)題進(jìn)行圖像質(zhì)量評(píng)估,具有較強(qiáng)的針對(duì)性,為保障焊線機(jī)視覺(jué)定位精度提供一種有效方法,也對(duì)其他類圖像質(zhì)量評(píng)估方法提供新的解決思路。