999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

3D文本驗(yàn)證碼的破解技術(shù)研究

2016-02-27 06:32:07蘇智勇
關(guān)鍵詞:背景文本

陸 穎,蘇智勇

(南京理工大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210094)

3D文本驗(yàn)證碼的破解技術(shù)研究

陸 穎,蘇智勇

(南京理工大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210094)

為克服傳統(tǒng)二維文本驗(yàn)證碼的局限性,文本驗(yàn)證碼演變出一些新的形式,其中包括3D文本驗(yàn)證碼。針對(duì)目前網(wǎng)站上使用的一種3D文本驗(yàn)證碼,文中提出有效的破解方法。利用圖片中像素密度首先從驗(yàn)證碼圖片中提取字符邊界;再通過圖像中背景紋理梯度方向基本不變的特征,從驗(yàn)證碼圖片中提取字符背景,從而間接得到字符表面;然后根據(jù)字符信息的表現(xiàn)特征,設(shè)計(jì)字符分割算法,以得到驗(yàn)證碼圖片的單個(gè)字符;最終采用OCR識(shí)別軟件——ABBYY進(jìn)行字符識(shí)別。實(shí)驗(yàn)結(jié)果表明,提出的破解算法在實(shí)驗(yàn)數(shù)據(jù)集上取得了較好的破解效果。充分利用了驗(yàn)證碼系統(tǒng)的規(guī)律,通過提取圖片背景間接得到字符前景。與基于直接提取字符表面的破解算法相比較,前者具有更好的適用性。

3D驗(yàn)證碼;背景去除;字符提取;字符分割

1 概 述

隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)服務(wù)日益成為人們生活的一部分,但同時(shí)也給互聯(lián)網(wǎng)系統(tǒng)帶來了安全性問題。如免費(fèi)服務(wù)資源遭受機(jī)器注冊攻擊,惡意計(jì)算機(jī)程序占用網(wǎng)絡(luò)服務(wù)資源,產(chǎn)生大量網(wǎng)絡(luò)垃圾等。因此,全自動(dòng)開放式人機(jī)區(qū)分圖靈測試(CAPTCHA)應(yīng)運(yùn)而生,即通常所說的“驗(yàn)證碼技術(shù)”。驗(yàn)證碼這個(gè)詞最早是在2002年由卡內(nèi)基梅隆大學(xué)的Von Ahn等提出[1],是一種區(qū)分用戶是計(jì)算機(jī)還是人的公共全自動(dòng)程序。隨著驗(yàn)證碼技術(shù)的發(fā)展,驗(yàn)證碼的種類也有多種多樣,包括基于文本字符的驗(yàn)證碼、基于圖像的驗(yàn)證碼、基于聲音的驗(yàn)證碼和基于推理的驗(yàn)證碼等。近年來,驗(yàn)證碼系統(tǒng)被應(yīng)用于各種網(wǎng)絡(luò)服務(wù),例如Yahoo!、Microsoft和Facebook。驗(yàn)證碼技術(shù)已成為互聯(lián)網(wǎng)必不可少的一部分。

2D文本驗(yàn)證碼的應(yīng)用最為廣泛。這類驗(yàn)證碼圖像中包含數(shù)字、字母或其他文字。它的破解算法一般包括驗(yàn)證碼預(yù)處理、字符分割以及字符識(shí)別這三個(gè)研究內(nèi)容。其中字符分割是文本驗(yàn)證碼破解的難點(diǎn),它需要針對(duì)不同的驗(yàn)證碼特征定制設(shè)計(jì)[2]。近年來,研究人員相繼提出了許多字符分割算法,包括傳統(tǒng)的豎直投影法、連通域分割法、基于SCP(Significant Contour Points)的分割算法[3-4]、基于背景細(xì)化的分割算法[5]、滴水算法[6]等。另一方面,由于單個(gè)字符的識(shí)別已經(jīng)可以取得很高的正確率,大部分方法的識(shí)別率在90%以上[7],所以一旦通過分割得到了單個(gè)字符,驗(yàn)證碼破解將會(huì)變得容易許多。因此,為了增加驗(yàn)證碼的破解難度,系統(tǒng)一般會(huì)對(duì)圖像添加各種干擾噪聲,或?qū)ψ址M(jìn)行混雜、扭曲、粘連、變形等處理。但與此同時(shí)也給人眼識(shí)別帶來了不便。

為了克服傳統(tǒng)2D文本驗(yàn)證碼的局限性,研究人員不斷地設(shè)計(jì)安全性更高的新型驗(yàn)證碼系統(tǒng)。3D驗(yàn)證碼系統(tǒng)[8-10](下文簡稱3D CAPTCHAs)就是其中之一。3D CAPTCHAs是以人眼視覺系統(tǒng)能夠從一幅圖像中自動(dòng)感知3D對(duì)象為基礎(chǔ)而設(shè)計(jì)的,所以這類驗(yàn)證碼潛在的安全性是:OCR軟件很難直接識(shí)別出3D對(duì)象,而人眼視覺系統(tǒng)可以。因此對(duì)3D文本驗(yàn)證碼系統(tǒng)的破解首先要從驗(yàn)證碼圖片中提取字符,這也是破解算法中最為關(guān)鍵的環(huán)節(jié)。

文中著重于破解一種基于文本字符的3D驗(yàn)證碼,文獻(xiàn)[11]將其命名3dcaptcha。利用這類驗(yàn)證碼在像素空間呈現(xiàn)出的特征,如像素密度、斜線梯度方向等,先提取出驗(yàn)證碼字符,再根據(jù)字符特征設(shè)計(jì)有效的字符分割算法,最后通過OCR識(shí)別軟件進(jìn)行識(shí)別。

2 研究現(xiàn)狀

隨著驗(yàn)證碼技術(shù)的發(fā)展,研究人員在設(shè)計(jì)和開發(fā)3D CAPTCHAs的實(shí)踐中進(jìn)行了大量嘗試。本節(jié)先介紹了3D CAPTCHAs生成技術(shù)的發(fā)展現(xiàn)狀,之后對(duì)3D文本驗(yàn)證碼的破解情況進(jìn)行了描述。

Mitra等[12]提出在3D環(huán)境中渲染抽象的三維模型的方法,也稱之為“抽象圖像(emerging images)”生成技術(shù)。它以“抽象”為基礎(chǔ)而設(shè)計(jì),并且利用了人類能從整幅圖像中感知對(duì)象的獨(dú)特能力。另外,Ross等[13]給出了對(duì)Sketcha驗(yàn)證碼系統(tǒng)的可用性研究和安全性分析,該系統(tǒng)中用戶需要將3D線模型調(diào)整到正確的位置。社交網(wǎng)站YUNiTi[14]采用的驗(yàn)證碼是基于朗伯體的三維模型渲染。驗(yàn)證碼圖片中3D物體利用各種參數(shù)進(jìn)行渲染,比如顏色、位置等。Imsamai和Phimoltares提出了幾種3D文本驗(yàn)證碼系統(tǒng)[9],驗(yàn)證碼圖片中對(duì)字符進(jìn)行了旋轉(zhuǎn)、傾斜處理,且字符使用了相同的陰影模型。

然而迄今為止,國內(nèi)外對(duì)于3D驗(yàn)證碼的破解研究還較少。它的破解算法一般包括:圖片預(yù)處理、字符提取、字符分割和字符識(shí)別。與2D文本驗(yàn)證碼破解算法的區(qū)別就是多了字符提取這一步。字符提取就是利用圖片特征,將字符轉(zhuǎn)化為可以識(shí)別的對(duì)象。由于各驗(yàn)證碼系統(tǒng)之間的差異性,所以字符提取算法要根據(jù)特定的對(duì)象而設(shè)計(jì)。

文獻(xiàn)[15]研究了Ku6網(wǎng)站上使用的一種新型3D文本驗(yàn)證碼的魯棒性,首次分析了3D空心字符驗(yàn)證碼。文獻(xiàn)中采用顏色填充算法(Color Filing Segmentation,CFS)先提取字符前景,再根據(jù)字符側(cè)面與前表面的寬度差異將二者進(jìn)行區(qū)分并標(biāo)記,繼而根據(jù)位置信息分別對(duì)各側(cè)面和前表面碎片進(jìn)行融合,最后形成字符掩膜。實(shí)驗(yàn)結(jié)果表明,該方法的分割成功率達(dá)到了70%。破解的難點(diǎn)在于對(duì)字符表面的合并,尤其當(dāng)字符出現(xiàn)較為嚴(yán)重傾斜或相鄰兩個(gè)字符在豎直方向發(fā)生重疊時(shí),有可能將不同字符的表面錯(cuò)認(rèn)為來自同一個(gè)字符。文獻(xiàn)[11]重點(diǎn)分析了三種基于文本的3D驗(yàn)證碼的安全性能,這幾種驗(yàn)證碼以在有規(guī)律的圖片背景上施加擾動(dòng)為基礎(chǔ)。該文獻(xiàn)中利用像素空間線性方向的變化、像素密度、網(wǎng)格大小變化等特征,針對(duì)不同的驗(yàn)證碼系統(tǒng),各自設(shè)計(jì)了字符提取算法。

由于驗(yàn)證碼都各有其特點(diǎn),很難找到一種通用的算法處理不同類型的驗(yàn)證碼,所以有必要根據(jù)特定的驗(yàn)證碼設(shè)計(jì)相應(yīng)的破解策略。

3 3dcaptcha破解技術(shù)研究

3.1 3dcaptcha特點(diǎn)

文中破解對(duì)象如圖1所示,文獻(xiàn)[11]將其命名為“3dcaptcha”。該類驗(yàn)證碼從Cafe Charlotte網(wǎng)站上下載獲得[16]。這種驗(yàn)證碼系統(tǒng)利用斜線先形成有規(guī)律的圖樣,再對(duì)其加以擾動(dòng)而形成。

圖1 實(shí)驗(yàn)樣本示意圖

經(jīng)過對(duì)大量驗(yàn)證碼樣本的觀察,發(fā)現(xiàn)該驗(yàn)證碼有以下特點(diǎn):

(1)字符前景與背景無法通過顏色信息來分離。

(2)每個(gè)驗(yàn)證碼樣本中包含4個(gè)字符,且出現(xiàn)在較為固定的區(qū)域。

(3)該驗(yàn)證碼系統(tǒng)沒有使用“0”和“O”、“1”和“I”這樣結(jié)構(gòu)過于類似的字符。整個(gè)驗(yàn)證碼系統(tǒng)中只有32種字符。

(4)由于驗(yàn)證碼是根據(jù)其3D模型經(jīng)透視投影變換而生成,所以離視點(diǎn)越近的斜線之間間距越大,越遠(yuǎn)的斜線之間間距越小,并且字符發(fā)生傾斜。

(5)非字符區(qū)域(即背景區(qū)域)上,斜線斜率較為一致。

3.2 破解流程

文中驗(yàn)證碼的破解主要包括圖像預(yù)處理、背景去除、驗(yàn)證碼字符提取、字符分割和字符識(shí)別五個(gè)部分。其中最為關(guān)鍵的一步是驗(yàn)證碼字符提取。字符提取的質(zhì)量會(huì)直接影響分割的正確率和識(shí)別的準(zhǔn)確性。由于字符表面的框架由受到擾動(dòng)后的斜線構(gòu)成,并且擾動(dòng)后的斜線沒有固定的表現(xiàn)形式,所以很難直接獲得字符表面。基于此,文中通過提取驗(yàn)證碼圖片背景來間接確定驗(yàn)證碼字符表面。

3.3 驗(yàn)證碼字符提取

3.3.1 提取字符邊界

觀察驗(yàn)證碼樣本可知,驗(yàn)證碼字符的邊界黑色像素密度較高。因此可以利用這一特征來提取屬于字符邊界的像素。

在對(duì)圖像二值化之后,遍歷圖像各像素。若該點(diǎn)P的像素值為0(即黑色),再進(jìn)一步分析P點(diǎn)的四鄰域。若4鄰域中至少有3個(gè)像素點(diǎn)為黑色,則將P點(diǎn)和它4鄰域中的黑色的點(diǎn)都先視為文本像素。

3.3.2 背景去除

3dcaptcha的字符由一組經(jīng)過擾動(dòng)的斜線構(gòu)成,沒有受到擾動(dòng)的斜線構(gòu)成驗(yàn)證碼圖像的背景框架。由于字符表面的框架并沒有固定的表現(xiàn)形式,很難直接得到字符表面。因此文中將通過提取驗(yàn)證碼字符背景來間接獲得字符前景。

經(jīng)過對(duì)大量樣本的觀察發(fā)現(xiàn),每條背景線延伸方向相對(duì)一致,因此可以通過方向信息先提取到背景線(下文將它稱為基準(zhǔn)線),再利用基準(zhǔn)線之間的間距信息得到驗(yàn)證碼圖片的背景區(qū)域。

文中將借助圖2來說明提取基準(zhǔn)線的方法,具體步驟如下:

(1)遍歷整幅驗(yàn)證碼圖中的黑色像素,若該點(diǎn)不屬于在3.3.1節(jié)中所提取的字符邊界,將它設(shè)為點(diǎn)P,見圖2。

(2)經(jīng)觀察發(fā)現(xiàn),在以圖像左上角為原點(diǎn),水平向右為X軸正方向,豎直向下為Y軸正方向的坐標(biāo)系下,基準(zhǔn)線可以近似看作斜率約等于1的斜線。結(jié)合圖2,可以認(rèn)為點(diǎn)P2、P3、P6、P7均不可能是基準(zhǔn)線上的點(diǎn)。在本步驟中,查看點(diǎn)P鄰域上的點(diǎn)P2、P3、P6和P7,如果這四個(gè)位置都是白色,則繼續(xù)執(zhí)行步驟(3),否則執(zhí)行步驟(4)。

(3)若P4和P5位置只有一個(gè)方向有黑色像素,P1和P8位置也只有一個(gè)方向有黑色像素,則將點(diǎn)P視為基準(zhǔn)線上的像素。

(4)由于視點(diǎn)遠(yuǎn)處的基準(zhǔn)線出現(xiàn)了重疊現(xiàn)象,所以若P3、P5同時(shí)為黑色,或P1、P7同時(shí)為黑色,則也認(rèn)為點(diǎn)P為基準(zhǔn)線上的像素。

P1P2P3P8PP4P7P6P5

圖2 當(dāng)前像素P及其8鄰域編號(hào)

提取到基準(zhǔn)線后,下一步就是對(duì)背景區(qū)域進(jìn)行填充。如果同一行中兩個(gè)基準(zhǔn)線上的點(diǎn)之間的距離D

3.3.3 提取字符

驗(yàn)證碼字符提取分為二次確定字符邊界和提取字符表面兩個(gè)部分。由于透視投影的原因,導(dǎo)致驗(yàn)證碼圖像出現(xiàn)近大遠(yuǎn)小的特征;另一方面圖像本身的精確度較低,圖像右上角為黑色像素密度最高的區(qū)域。因此3.3.1節(jié)中提取字符邊界的方法會(huì)將驗(yàn)證碼圖片中的右上角區(qū)域錯(cuò)認(rèn)為字符邊界。所以,要準(zhǔn)確提取驗(yàn)證碼字符首先要對(duì)3.3.1節(jié)中提取出的字符邊界進(jìn)行二次提取。

(1)文中利用漫水填充算法,將圖像四周的空白區(qū)都填充為背景。因?yàn)轵?yàn)證碼字符出現(xiàn)在較為固定的區(qū)域,所以可對(duì)圖像進(jìn)行裁剪。這可能會(huì)減少字符周圍的噪聲,從而提高最終識(shí)別的正確率;另一方面也提高了運(yùn)算速度。

(2)初步提取字符表面,作為去除字符邊界噪聲的依據(jù)。為方便處理,在初步提取字符表面區(qū)域之前,需要對(duì)圖像進(jìn)行閾值處理,即將字符表面上的框架置為白色。然后按水平方向遍歷圖像,若同一行中連續(xù)為白色像素的區(qū)域?qū)挾菵1>T1,則先將該區(qū)域視為字符表面。

(3)遍歷屬于字符邊界上的點(diǎn),設(shè)該點(diǎn)為A,若點(diǎn)A附近存在字符表面像素,則確認(rèn)點(diǎn)A屬于字符邊界,否則屬于圖像背景。

經(jīng)過圖像形態(tài)學(xué)去噪后,最終可以得到較為清晰的驗(yàn)證碼字符。

3.3.4 后期處理

后期處理包括透視校正和孔洞填充兩部分。

(1)由于成像系統(tǒng)與目標(biāo)的距離以及它們之間的位置原因,導(dǎo)致形成的圖像發(fā)生了傾斜而不再是正視圖,這不利于對(duì)字符進(jìn)行分割。為了提高字符分割的成功率,考慮對(duì)圖像進(jìn)行透視變換校正。

透視變換(PerspectiveTransformation)是將圖片投影到一個(gè)新的視平面,也稱為投影映射。已知變換對(duì)應(yīng)的四組點(diǎn)就可以求取變換矩陣,從而得到變換后的像素坐標(biāo),即得到校正后的圖像。

(2)因?yàn)樘崛〕龅淖址砻孢€存在小孔洞,為了使字符信息更加完整,文中對(duì)孔洞進(jìn)行了填充。方法如下:

計(jì)算每個(gè)孔洞的面積,若孔洞面積小于T2,則認(rèn)為它需要被填充。其中孔洞面積是指該孔洞所包含的像素點(diǎn)個(gè)數(shù)。這里T2不能太大,否則會(huì)把“4”、“P”等字符結(jié)構(gòu)中的閉合區(qū)域也填充掉。文中選取T2=40。

3.4 字符分割

字符分割的目的是在驗(yàn)證碼圖像中劃分各字符所處的區(qū)域,把各字符所處的區(qū)域的子圖像分割出來。基于文本字符之間既有粘連又有斷裂的特點(diǎn),文中采用垂直投影分割、輪廓差投影分割和均分法相結(jié)合的分割方法。

因?yàn)槲闹醒芯康尿?yàn)證碼固定只包含4個(gè)字符,所以要將字符正確分割需要五條分割線,記為分割序列seg_Line,seg_Line={S0,S1,S2,S3,S4}。其中,Si表示第i條分割線在驗(yàn)證碼圖片中所在位置的列值。S0為第一個(gè)出現(xiàn)字符像素的列值,S4為出現(xiàn)字符像素最后一列列值。因此,四個(gè)字符的有效寬度L=S4-S0。另外,由于單個(gè)字符的寬度并不是嚴(yán)格相同,經(jīng)過對(duì)大量樣本的研究,發(fā)現(xiàn)S1、S2和S3滿足下式:

(1)

3.4.1 垂直投影分割

垂直投影分割是利用字符之間的列空白來分割字符。字符圖像經(jīng)過二值化和去噪后,將白色像素設(shè)為前景點(diǎn)。以像素點(diǎn)為單位逐列掃描圖像,累加該列中前景點(diǎn)的個(gè)數(shù),累積的結(jié)果即為該列的垂直投影。

以圖3(h)樣本為例,投影值較大的地方表明此列字符像素多,而投影值為0的地方認(rèn)為是兩個(gè)字符之間的分割位置。文中先把投影值為0的列作為候選分割線的所在位置,再根據(jù)式(1)判斷該分割線是第幾條。若不滿足式(1),則說明該點(diǎn)不是合適的分割位置。

3.4.2 輪廓差投影分割

若垂直投影分割不能得到所有的分割線,則說明上一步的分割結(jié)果中還存在相互粘連的字符塊。針對(duì)這一情況,文中利用輪廓差投影分割法對(duì)粘連部分進(jìn)行二次分割,以解決字符間輕微粘連的問題。

該方法對(duì)前景字符豎直方向上的上邊界和下邊界進(jìn)行投影,投影到X軸上的是每一列的最上和最下白色像素點(diǎn)之間的距離。文中先根據(jù)上節(jié)的結(jié)果得到字符塊中粘連字符的個(gè)數(shù)和粘連字符的具體位置,再在該字符塊進(jìn)行輪廓差投影。得到投影值序列后,尋找投影值最小的列c。若該列投影值m小于字符筆畫寬度line_w,且列c滿足式(2),則列c所在位置為候選分割點(diǎn)。同樣,根據(jù)式(1)判斷該點(diǎn)在分割序列seg_Line中的位置。若不滿足式(1),則認(rèn)為列c所在位置不是合適的分割點(diǎn)。

(2)

其中,Si∈seg_Line;width為單個(gè)字符的平均寬度。

3.4.3 均 分

在字符粘連較為嚴(yán)重時(shí),垂直投影和輪廓差投影方法將會(huì)不適用。因此文中選擇了均分的方法。

均分就是先通過分割序列seg_Line,判斷粘連字符塊的位置及寬度,再根據(jù)該粘連塊包含的粘連字符個(gè)數(shù),對(duì)粘連塊進(jìn)行平均分割處理。

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證文中算法的有效性,從網(wǎng)站上收集了500個(gè)實(shí)驗(yàn)樣本,樣本分辨率為400×120。本節(jié)對(duì)破解結(jié)果進(jìn)行了分析,并進(jìn)一步討論破解失敗的原因。

4.1 字符提取

文中算法利用驗(yàn)證碼圖片中基準(zhǔn)線方向基本一致的特征,先根據(jù)像素密度特征得到字符邊界,再通過提取圖片背景來間接得到字符表面,最終提取出比較完整的字符信息。以圖1(a)中的樣本為例,圖3給出了字符提取的結(jié)果。下文給出了算法中用到的閾值T、T1的選取標(biāo)準(zhǔn)。

圖3 字符提取結(jié)果

(1)在背景去除算法中,閾值T選取不同的值對(duì)背景提取結(jié)果的影響見表1。當(dāng)T=6時(shí),由于背景填充不夠充分,字符下方出現(xiàn)大量噪聲;當(dāng)T=10時(shí),因?yàn)殚撝颠^大,而將字符表面錯(cuò)認(rèn)為背景被填充為黑色,導(dǎo)致字符信息不完整(圖中方框區(qū)域)。經(jīng)比較發(fā)現(xiàn),當(dāng)T=8時(shí),背景填充效果較好。因此,文中選取閾值T=8。

(2)在字符邊界噪聲去除中,先利用閾值T1提取出字符表面的大致區(qū)域,再根據(jù)字符表面區(qū)域二次確定字符邊界。經(jīng)實(shí)驗(yàn)驗(yàn)證,由于去噪結(jié)果對(duì)閾值T1不敏感,T1的取值范圍為5~12,文中選取T1=6。若T1過小,會(huì)將字符周圍的噪聲誤認(rèn)為字符,導(dǎo)致去噪不完全;若T1太大,提取出字符表面信息會(huì)很少,使得去噪過度。閾值T1對(duì)字符提取的影響如表2所示。

表1 閾值T對(duì)背景提取結(jié)果的影響

表2 閾值T1對(duì)字符邊界提取結(jié)果的影響

4.2 字符分割

由于透射投影導(dǎo)致樣本中斜線間隔呈現(xiàn)遠(yuǎn)大近小的特點(diǎn),在驗(yàn)證碼圖像的右上方甚至出現(xiàn)斜線之間相互簇?fù)淼默F(xiàn)象,使得最終提取到的文本字符可能出現(xiàn)斷裂或字符間嚴(yán)重粘連等情況。因此,文中采用垂直投影分割、輪廓差投影分割和均分法相結(jié)合的分割方法。

經(jīng)過對(duì)大量樣本的研究,字符筆畫寬度line_w=20,樣本字符的平均寬度width=75。表3給出了部分驗(yàn)證碼的分割結(jié)果。其中被方框標(biāo)記的為分割失敗的字符。

表3 部分樣本的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,文中的分割方法有較高的可行性,但是若字符本身信息不完整或與相鄰字符大面積粘連,則可能導(dǎo)致分割失敗。

4.3 字符識(shí)別

字符分割完成后將得到2 000個(gè)單個(gè)字符,文中將其中的1 280個(gè)作為訓(xùn)練集,剩余的作為測試集,利用OCR識(shí)別軟件—ABBYY進(jìn)行識(shí)別。分割結(jié)果和識(shí)別結(jié)果見表3。表中識(shí)別錯(cuò)誤的字符已用下劃線標(biāo)出。經(jīng)過對(duì)大量實(shí)驗(yàn)樣本識(shí)別結(jié)果的分析,總結(jié)出識(shí)別失敗的原因有兩個(gè):

(1)字符分割失敗。

(2)字符結(jié)構(gòu)的相似性。比如字符“7”和“T”、字符“2”與“Z”,因?yàn)樗鼈兊慕Y(jié)構(gòu)類似,導(dǎo)致分類器識(shí)別失敗。

針對(duì)文中采集的驗(yàn)證碼數(shù)據(jù)集,在提出的破解算法下,單個(gè)字符的識(shí)別率達(dá)到95.4%,整個(gè)驗(yàn)證碼完全識(shí)別的正確率為76.3%。

4.4 與其他破解方法進(jìn)行比較

文中方法主要由字符提取、字符分割和字符識(shí)別三個(gè)部分組成。在從驗(yàn)證碼圖片中提取到字符前景的基礎(chǔ)上,針對(duì)這類驗(yàn)證碼設(shè)計(jì)了字符分割算法,最后利用OCR識(shí)別軟件進(jìn)行識(shí)別。

文獻(xiàn)[11]同樣對(duì)文中的實(shí)驗(yàn)樣本進(jìn)行了破解。文獻(xiàn)中字符提取算法分為按行列掃描提取字符表面、按像素密度提取字符邊界和按網(wǎng)格面積提取字符表面三個(gè)部分,最后同樣用開源OCR軟件進(jìn)行識(shí)別,識(shí)別率為58%。針對(duì)文中破解的驗(yàn)證碼系統(tǒng),在采用同一識(shí)別方法的前提下,文中的字符提取算法具有明顯的優(yōu)越性,識(shí)別率比文獻(xiàn)[11]高出18.3%。由此可見,該算法具有更高的有效性。

5 結(jié)束語

文中3dcaptcha的成功破解源于這類驗(yàn)證碼是基于有規(guī)律的擾動(dòng)而設(shè)計(jì)的,以便于人類能夠感知3D字符。然而實(shí)驗(yàn)證明,雖然它可以防止OCR程序的直接破解,但是驗(yàn)證碼系統(tǒng)的擾動(dòng)規(guī)律可以成為破解驗(yàn)證碼的有利信息,如像素密度、斜線斜率等特征。

實(shí)驗(yàn)結(jié)果證明了文中提出的3dcaptcha系統(tǒng)破解算法的可行性和有效性。但是在字符提取方面還存在一些不足,導(dǎo)致離視點(diǎn)越遠(yuǎn)的字符提取效果不理想,比如會(huì)出現(xiàn)字符信息嚴(yán)重丟失或字符間嚴(yán)重粘連的現(xiàn)象,從而影響了最終的識(shí)別結(jié)果。在以后的工作中將進(jìn)一步解決這些問題。

[1] Ahn L V,Blum M,Langford J.Telling humans and computer apart automatically[J].Communications of the ACM,2004,47(2):56-60.

[2] 李秋潔,茅耀斌,王執(zhí)銓.CAPTCHA技術(shù)研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2012,49(3):469-480.

[3] Strathy N W,Suen C Y,Krzyzak A.Segmentation of handwritten digits using contour features[C]//Proceedings of the second international conference on document analysis and recognition.[s.l.]:IEEE,1993:577-580.

[4] Shi Z,Shrihari S N,Shin Y C,et al.A system for segmentation and recognition of totally unconstrained handwritten numeral strings[C]//Proc of international conference on document analysis and recognition.[s.l.]:[s.n.],1997:455-458.

[5] Lu Z,Chi Z,Siu W C,et al.A background-thinning-based approach for separating and recognizing connected handwritten digit strings[J].Pattern Recognition,1999,32(6):921-933.

[6] Congedo G,Dimauro G,Impedovo S,et al.Segmentation of numeric strings[C]//Proc of third international conference on document analysis and recognition.Montreal,Que:IEEE,1995:1038-1041.

[7] 曲金山.基于形狀上下文的驗(yàn)證碼識(shí)別研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

[8] Chaudhari S K,Deshpande A R,Bendale S B,et al.3D drag-n-drop CAPTCHA enhanced security through CAPTCHA[C]//Proceedings of the international conference & workshop on emerging trends in technology.[s.l.]:ACM,2011:598-601.

[9] Imsamai M,Phimoltares S.3D CAPTCHA:a next generation of the CAPTCHA[C]//Proc of international conference on information science and applications.[s.l.]:IEEE,2010:1-8.

[10] Macias C R,Izquierdo E.Visual word-based CAPTCHA using 3D characters[C]//Proc of 3rd international conference on crime detection and prevention.[s.l.]:[s.n.],2009:1-5.

[11] Nguyen V D,Chow Y W,Susilo W.On the security of text-based 3D CAPTCHAs[J].Computers & Security,2014,45:84-99.

[12] Mitra N J,Chu H K,Lee T Y,et al.Emerging images[J].ACM Transactions on Graphics,2009,28(5):1-8.

[13] Ross S A,Halderman J A,Finkelstein A.Sketcha:a captcha based on line drawings of 3D models[C]//Proceedings of international conference on world wide web.[s.l.]:ACM,2010:821-830.

[14] YUNiTi.YUNiTi-do something good[EB/OL].2013-06-29.http://www.yuniti.com/register.php.

[15] Ye Q,Chen Y,Zhu B.The robustness of a new 3D CAPTCHA[C]//Proc of 11th IAPR international workshop on document analysis systems.[s.l.]:IEEE,2014:319-323.

[16] Charlotte C.Cafe charlotte[EB/OL].2013-06-29.http://www.cafe-charlotte.cz/en/fanclub.

Research on Breaking of Text-based 3D CAPTCHAs

LU Ying,SU Zhi-yong

(College of Automation,Nanjing University of Science and Technology,Nanjing 210094,China)

In order to overcome the traditional limitations of two-dimensional text CAPTCHAs,there comes many new forms,including 3D text CAPTCHAs.Aiming at authentication code of 3D text using on site currently,an effective crack method is put forward.Using features in pixel space,such as pixel density and gradient direction of diagonal lines,the character boundaries and surface from image is extracted.Secondly,character segmentation algorithm is designed to get single character according to the information of text.Finally,using OCR for identification.The experiment shows that the breaking algorithm proposed achieves a good result on experimental data set.Making full use of the rule of CAPTCHA scheme,characters from images are obtained indirectly.Compared with the algorithm which extracts characters directly,it has a better applicability.

3D CAPTCHA;background removal;character extraction;character segmentation

2015-10-22

2016-01-27

時(shí)間:2016-06-22

國家自然科學(xué)基金資助項(xiàng)目(61300160)

陸 穎(1990-),女,碩士研究生,研究方向?yàn)橐曨l圖像處理;蘇智勇,副教授,研究方向?yàn)橛?jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)。

http://www.cnki.net/kcms/detail/61.1450.TP.20160622.0842.020.html

TP31

A

1673-629X(2016)07-0070-05

10.3969/j.issn.1673-629X.2016.07.015

猜你喜歡
背景文本
“新四化”背景下汽車NVH的發(fā)展趨勢
《論持久戰(zhàn)》的寫作背景
黑洞背景知識(shí)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
晚清外語翻譯人才培養(yǎng)的背景
背景鏈接
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 97视频在线观看免费视频| 午夜日b视频| 国产99久久亚洲综合精品西瓜tv| 91探花国产综合在线精品| 九九热这里只有国产精品| 精品国产成人av免费| 亚洲国产成人久久精品软件 | 中文字幕人成人乱码亚洲电影| 黄色不卡视频| 自拍亚洲欧美精品| 欧美午夜久久| 亚洲三级色| 91黄视频在线观看| 日韩国产精品无码一区二区三区| 亚洲精品国偷自产在线91正片| 高清无码一本到东京热| 亚洲bt欧美bt精品| 一级毛片视频免费| 亚洲一区精品视频在线 | 免费一极毛片| 97影院午夜在线观看视频| 久996视频精品免费观看| 亚洲视频四区| 91国语视频| 三上悠亚精品二区在线观看| 色悠久久综合| 亚洲欧美成人影院| 国产免费高清无需播放器| 亚洲日本中文字幕天堂网| 麻豆国产在线不卡一区二区| 欧美日本在线观看| 久久性妇女精品免费| 日韩av无码DVD| 国产久操视频| 日本黄色a视频| 最新国语自产精品视频在| 欧美综合激情| 中美日韩在线网免费毛片视频 | 国产精品自在拍首页视频8 | 亚洲欧美极品| 亚洲中文字幕无码爆乳| 国产视频欧美| 天天综合网亚洲网站| 欧美日韩国产成人高清视频| 日本在线国产| 久久久久无码国产精品不卡| 亚洲国产成人无码AV在线影院L| 操国产美女| 婷婷亚洲天堂| 日本午夜视频在线观看| 亚洲国产高清精品线久久| 亚洲日韩Av中文字幕无码| 婷婷综合缴情亚洲五月伊| 亚洲美女久久| 色综合激情网| 亚洲国产成人超福利久久精品| 无码精品国产VA在线观看DVD| 亚洲国产精品日韩欧美一区| 欧美国产成人在线| 亚洲欧美成aⅴ人在线观看| 91口爆吞精国产对白第三集 | 欧美 亚洲 日韩 国产| 欧美另类视频一区二区三区| 成人综合网址| 成人午夜网址| 91久久偷偷做嫩草影院| 精品国产成人国产在线| 精品久久国产综合精麻豆| 欧美伊人色综合久久天天| 久久国产精品国产自线拍| 久久毛片网| 91年精品国产福利线观看久久| 国产呦视频免费视频在线观看| 国产无码性爱一区二区三区| www.youjizz.com久久| 在线色国产| 91毛片网| 永久免费AⅤ无码网站在线观看| 国产三级视频网站| 综合五月天网| 精品国产成人av免费| 精品少妇人妻无码久久|