張 擎, 孫亞娣, 張洋洋
(山東大學(xué) a .計算機科學(xué)與技術(shù)學(xué)院;b.藝術(shù)學(xué)院,濟南 250100 )
隨著信息技術(shù)的發(fā)展,層出不窮的網(wǎng)絡(luò)詐騙、電信詐騙給社會和人民財產(chǎn)安全帶來巨大威脅,信息安全、網(wǎng)絡(luò)安全等問題成為社會關(guān)注的焦點。在教育界,實驗室資源的安全管理關(guān)系到實驗教學(xué)和科學(xué)研究能否順利進行,國家財產(chǎn)能否免受損失,實驗室使用人員的人身安全能否得到保障,對高校、研究機構(gòu)乃至整個社會的安全和穩(wěn)定至關(guān)重要。隨著實驗室開放力度的加大以及實驗資源的多樣化,實驗資源安全管理也面臨前所未有的巨大挑戰(zhàn)。生物特征識別技術(shù)在網(wǎng)絡(luò)安全、實驗教學(xué)資源安全管理等諸多領(lǐng)域得到廣泛應(yīng)用,發(fā)揮著越來越重要的作用。生物特征識別是利用一種或多種人類的生理特征(如指紋、人臉、虹膜、靜脈等)或行為特征(如步態(tài)、簽名等)進行身份識別的技術(shù)[1]。雖然目前國內(nèi)外研究機構(gòu)針對單一生物特征識別已取得了較多研究成果,但同時通過研究發(fā)現(xiàn),僅使用單一生物特征進行識別,性能總有一定的限制,難以很好地滿足廣泛的應(yīng)用需求[2]。例如,指紋識別中,指紋圖像存在低質(zhì)量、大形變、小重疊面積等問題,嚴重影響識別準確性。由于多種生物特征之間存在較好的獨立性和互補性,結(jié)合多種生物特征的多模態(tài)生物特征識別系統(tǒng)具有更高的識別準確性和可靠性,成為生物特征識別領(lǐng)域的一個重要發(fā)展方向[3]。
如何設(shè)計有效的集成方法集成多種生物特征實現(xiàn)識別,是多模態(tài)生物特征識別領(lǐng)域研究的重點問題和核心內(nèi)容。從所集成的信息來看,集成方法主要可以分為:①特征級集成,通過將多種生物特征樣本中提取的特征合并為一個新的特征實現(xiàn)集成[4]。②得分級集成,將多種生物特征中得到的匹配得分進行集成[5-12]。③決策級集成,根據(jù)各生物特征的識別結(jié)果做出最終決策[13]。以往研究指出,由于各生物特征樣本中提取的特征存在較大差異,將多個特征集成為新特征的做法往往比較困難甚至無法實現(xiàn),而決策級集成往往無法充分利用各生物特征中的細節(jié)信息,信息丟失嚴重。因此,作為一個折中的手段,得分級集成受到了更多的關(guān)注,是目前的主流和核心集成方法。
得分級集成處理的主要對象是樣本間的匹配得分,該方法又主要分為:①基于轉(zhuǎn)換的得分級集成方法,將各生物特征的匹配得分轉(zhuǎn)換到一個統(tǒng)一的取值范圍,并采用簡單的數(shù)學(xué)方法(加、乘、求最大、求最小等)將各得分集成為最終得分[5-7]。各生物特征的匹配得分之間的權(quán)重分配問題是這類方法的研究重點。②基于分類器的得分級集成方法,將所有生物特征的匹配得分組成一個得分向量,以得分向量為訓(xùn)練數(shù)據(jù),訓(xùn)練合適的分類器來分類同源和異源匹配得分,實現(xiàn)識別。常用到的分類器有SVM (Support Vector Machine) 及其變形[8],ELM (Extreme Learning Machine)[9], Bayesian分類器[10]等。③基于密度分布的得分級集成方法,通過估計各生物特征的同源得分和異源得分的分布情況分辨同源和異源得分[11-12]。基于似然比(Likelihood Ratio,LR)的集成方法是此類方法的基礎(chǔ)性工作[11]。
特征級集成、得分級集成和決策級集成三級集成中可利用的信息逐級遞減是目前研究中的共識性問題。各生物特征樣本中,例如一幅人臉圖像中,提取的特征向量通常被稱為樣本特征。樣本特征是特征級集成中利用的主要信息,因此,也可以被稱為特征級信息。由于樣本特征直接反映各生物特征的特性,特征級信息最為豐富。匹配得分只保留了樣本特征之間的相似度信息,因此,得分級集成中利用的信息遠少于特征級集成,存在信息利用上的局限性。
雖然樣本特征本身難以實現(xiàn)集成,也難以被得分級集成模型利用,但特征級中還潛在一些可以被挖掘和利用的豐富信息。如各用戶樣本的分布、樣本間的結(jié)構(gòu)關(guān)系、模態(tài)間的相關(guān)關(guān)系等信息,稱這些通過樣本特征獲取的樣本分布、樣本間結(jié)構(gòu)關(guān)系等深層次信息為“特征級潛在信息”。特征級潛在信息可以為集成模型的設(shè)計提供更多依據(jù),是具有指導(dǎo)性的有用信息。例如,某一模態(tài)(生物特征)中各用戶的樣本分布信息可以一定程度上反映此模態(tài)在區(qū)分各用戶時的區(qū)分性,以此為依據(jù)設(shè)置該模態(tài)在集成中的權(quán)重將比只依據(jù)匹配得分設(shè)置權(quán)重更加合理。
然而,目前得分級集成模型只針對匹配得分進行處理,特征級潛在信息一直被忽略,尚未得到有效利用。本文打破傳統(tǒng)方法在信息利用上的局限性,提出利用特征級潛在信息進行集成模型設(shè)計的新思路。在此基礎(chǔ)上,提出一種基于特征級潛在信息的集成方法,通過有效挖掘特征級潛在信息,并設(shè)計有效的信息表示方法和集成模型實現(xiàn)集成,達到提高系統(tǒng)識別準確率的目的。
相對于匹配得分,特征級潛在更多對集成模型的設(shè)計有指導(dǎo)意義的有用信息。其中,各模態(tài)(各生物特征)中樣本的類間離散度和類內(nèi)聚合度等樣本分布信息以及各模態(tài)之間的相關(guān)度信息是常用到的統(tǒng)計信息,且是能反映各模態(tài)識別性能以及各模態(tài)之間關(guān)系的信息。挖掘和利用特征級潛在的此類統(tǒng)計信息,應(yīng)該可以進一步優(yōu)化集成模型,提高集成性能。
假設(shè)識別系統(tǒng)有M個模態(tài)(用戶利用M個生物特征進行識別),系統(tǒng)中注冊了N個用戶,挖掘的特征級潛在信息及算法如下。
樣本的類間離散度反映不同用戶樣本在分布上的差異。某模態(tài)上,不同用戶的樣本分布差異越大,說明該模態(tài)在區(qū)分用戶方面更有優(yōu)勢。因此,這一指標可以在一定程度上反映各模態(tài)的識別性能,從而指導(dǎo)模態(tài)權(quán)重的設(shè)置。具體地,針對每一個模態(tài),可以計算用戶樣本特征向量的均值向量,并求取兩兩類別均值向量之間的距離,用距離平均值衡量類間離散度。用di表示第i(i=1,2,…,M) 個模態(tài)中各用戶樣本之間的離散度,
(1)

樣本的類內(nèi)聚合度反映同一用戶樣本在分布上的相似性。某模態(tài)上,同一用戶的樣本分布一致性越高,表明該模態(tài)在區(qū)分用戶方面更有優(yōu)勢。這一指標同樣可以在一定程度上反映各模態(tài)的識別性能。具體地,針對每一個模態(tài),計算各類別樣本特征向量標準差的倒數(shù)并求平均,用來衡量類內(nèi)聚合度。用σi表示第i(i=1,2,…,M) 個模態(tài)中,各類別的類內(nèi)聚合度,
(2)
式中:δiu是第i個模態(tài)中,第u個用戶特征向量的標準差(i=1,2,…,M,u=1,2, …,N)。
模態(tài)間相關(guān)度反映系統(tǒng)中各個模態(tài)(如指紋、人臉等)之間的相關(guān)關(guān)系。這一指標可以指示所有模態(tài)共同作用時各模態(tài)相互之間的關(guān)聯(lián)和互補性等信息,對集成模型的設(shè)計有重要的指導(dǎo)意義。具體地,可以依據(jù)Pearson關(guān)聯(lián)系數(shù)準則[14],利用各模態(tài)中的樣本特征計算模態(tài)間的相關(guān)度。假設(shè)分屬兩個模態(tài)的特征集合分別為X=(x1,x2,…,xn)T和Y=(y1,y2,…,yn)T。其中xi,yi(i=1,2,…,n)分別是兩個模態(tài)樣本中提取的特征向量,n為特征向量的數(shù)量。相關(guān)系數(shù)ρ通過下式計算:
(3)

得分級集成模型一般針對匹配得分設(shè)計,要將挖掘得到的特征級潛在信息成功利用于得分級集成,需要研究并提出合適的集成模型。一般而言,在3類得分級集成方法中,基于分類器的集成模型和基于密度分布的集成模型利用匹配得分的方式比較固定,要將挖掘的特征級潛在信息融合利用到此兩類模型中去比較困難。因此,本文研究一種基于轉(zhuǎn)換的得分級集成模型。
基于轉(zhuǎn)換的得分級集成模型,
(4)
式中:si是第i(i=1,2,…,M)個模態(tài)的待識別樣本和模板樣本的匹配得分(例如待識別指紋和庫中注冊的模板指紋的匹配得分);sf是待識別樣本與模板樣本的最終匹配得分,用來確定識別結(jié)果;wi是集成中第i(i=1,2,…,M) 個模態(tài)的權(quán)重,所有權(quán)重加和為1。識別時依據(jù)最終得分sf給出識別結(jié)果。一般來說,設(shè)置閾值θ,若sf>θ則判斷待識別樣本與模板庫中樣本屬于同一用戶,識別成功;相反,則認為識別失敗。
以上模型中,設(shè)定集成權(quán)重w=(w1,w2,…,wM)T是研究的主要問題。文獻[5]中提出利用各模態(tài)之間的相關(guān)性確定各模態(tài)的權(quán)重。此方法有較完善的理論基礎(chǔ),并獲得了較好的識別性能。根據(jù)文獻[5]中的分析,等錯誤率EER與指標F-Ratio有關(guān),因此,通過對聯(lián)合F-Ratio(Combined F-Ratio)指標C-FR(Combined F-Ratio)進行優(yōu)化確定集成權(quán)重,可以有效降低系統(tǒng)EER(Equal Error Rate),提高系統(tǒng)識別性能。C-FR可以看作集成權(quán)重向量w的函數(shù),通過下式計算:
(5)
式中:d=(d1,d2,…,dM)T,di是衡量第i(i=1,2,…,M) 個模態(tài)中,各類別之間的離散度的度量值;
Σ=ΛRΛ
(6)
Λ=diag(σ1,σ2,…,σM),σi是衡量第i個模態(tài)中,各類別的類內(nèi)聚合度的度量值。R=(ρij)M×M,ρij是第i個模態(tài)和第j個模態(tài)之間的相關(guān)系數(shù)。獲得最優(yōu)集成權(quán)重w*的公式如下:
(7)
聯(lián)合F-Ratio模型中所需的參數(shù)恰是要挖掘并利用的特征級潛在的統(tǒng)計信息。因此,可以采用如圖1中所示的技術(shù)方案,挖掘特征級潛在的這3類統(tǒng)計信息,并將其用式(7)中要求的格式(d,Λ,R3組參數(shù)形式)進行表示,利用于聯(lián)合F-Ratio模型,實現(xiàn)集成。

圖1 基于特征級潛在信息的集成技術(shù)方案
這里需說明的是,文獻[5]中所提方法通過匹配得分計算聯(lián)合F-Ratio,完全沒有利用到特征級信息。本文挖掘?qū)捎兄笇?dǎo)意義的特征級潛在信息,并借助聯(lián)合F-Ratio模型將信息利用于集成,與文獻[5]中方法的思路完全不同。經(jīng)驗證,本文所提方法識別準確率較文獻[5]中方法有明顯優(yōu)勢。
實驗主要驗證本文研究思路的合理性和所提方法的有效性。首先,通過比較所挖掘信息與模態(tài)識別能力的一致性驗證所挖掘信息的合理性。其次,將本文所提方法的識別準確率與幾個主流的得分級集成方法進行對比,一方面驗證本文研究思路的合理性;另一方面驗證本文方法的有效性?;谵D(zhuǎn)換的集成方法中,由于本文方法與文獻[5]中方法最為相關(guān),因此,將本文方法與文獻[5]中所提方法進行對比,本文中稱此方法為基于轉(zhuǎn)換的方法I。此外,為進一步驗證本文方法的有效性,分別將本文方法與文獻 [7]中基于轉(zhuǎn)換的方法、文獻[8-9]中基于分類器的方法以及文獻[10-11]中基于密度分布的方法進行對比。本文分別稱這些對比方法為基于轉(zhuǎn)換的方法II,基于分類器的方法I、II以及基于密度分布的方法I、II。
本文基于集成指紋、人臉和步態(tài)3種生物特征的識別系統(tǒng)對集成方法進行驗證。理論上指紋、人臉和步態(tài)識別可采用現(xiàn)有任意算法。實驗中,步態(tài)識別采用基于最外層輪廓的步態(tài)識別方法[15],人臉識別采用結(jié)合主成分分析和線性判別分析(PCA+LDA)的識別方法[16],指紋識別采用基于細節(jié)點的識別方法[17]。
為滿足實驗需求,采集包括步態(tài)、人臉和指紋3種生物特征的同源多模態(tài)生物特征數(shù)據(jù)庫。庫中包含了25個用戶的數(shù)據(jù),其中采集每個用戶的80個步態(tài)序列,60張人臉圖像(分為3個角度,正面、左側(cè)15°和右側(cè)15°,每個角度各20幅圖像)及400幅指紋圖像(每個手指各采集80幅圖像)。圖2中顯示了本實驗所采用的指紋、人臉及步態(tài)樣本的樣例。實驗中將數(shù)據(jù)庫分為兩個部分:①隨機抽取每個用戶每個特征的3個樣本作為初始模板; ②隨機抽取每個用戶每個特征的30個樣本作為測試樣本。根據(jù)本文所提方法,首先利用模板樣本獲取特征級潛在信息,即樣本的類間離散度、類內(nèi)聚合度,以及模態(tài)間相關(guān)關(guān)系,利用聯(lián)合F-Ratio模型實現(xiàn)集成。然后將測試樣本作為待識別樣本參與系統(tǒng)識別,得到等錯誤率等指標。
表1中給出各模態(tài)的類內(nèi)聚合度及類間離散度的指標,以及各模態(tài)的識別等錯誤率EER。可以看到,模態(tài)的類間離散度越高,等錯誤率越低;同樣,類內(nèi)聚合度越高,等錯誤率越低??梢?,類間離散度和類內(nèi)聚合度這兩個統(tǒng)計度量值可以在一定程度上反映某模態(tài)的識別性能,挖掘此類信息并利用于集成是合理的。

圖2 實驗用指紋、人臉及步態(tài)樣本樣例

表1 樣本類內(nèi)聚合度、類間離散度與模態(tài)性能之間的關(guān)系
圖3給出各對比方法的EER度量值??梢?,基于轉(zhuǎn)換的方法、分類器的方法及密度的方法在識別準確度上各有差異,并沒有哪類方法有明顯優(yōu)勢。文獻[5]中采用聯(lián)合F-Ratio模型進行權(quán)重選擇,在識別準確率上優(yōu)于其他對比方法,本文所提方法進一步挖掘并利用了特征級潛在信息,識別性能優(yōu)于文獻[5]中所提方法。這說明本文利用特征級潛在信息這一思路的合理性。利用這一思路,本文方法彌補了得分級集成方法信息利用上的局限性,提高了集成性能。該結(jié)果也在從另一個側(cè)面證明了本文所挖掘的特征級潛在信息確是對集成算法有指導(dǎo)意義的有用信息。

圖3 各對比方法的識別等錯誤率EER
圖4中給出各對比方法的ROC(Receiver Operating Characteristic)曲線。ROC曲線越靠近左上角,識別的準確性就越高。相對于EER等評價指標,ROC曲線可以更加直觀和全面地反映分類器的識別性能。從實驗結(jié)果看出,本文所提方法的ROC曲線優(yōu)于各對比方法,進一步驗證了本文方法在識別性能方面的優(yōu)勢。

圖4 各對比方法的ROC曲線圖
多模態(tài)生物特征識別技術(shù)較單一生物特征識別在識別準確率和可靠性等方面具有優(yōu)勢,在網(wǎng)絡(luò)信息安全、實驗室資源安全管理等諸多安全領(lǐng)域有著廣泛的應(yīng)用。如何設(shè)計有效的集成方法是多模態(tài)生物特征識別領(lǐng)域研究的重點問題和核心內(nèi)容。針對主流集成方法信息利用不充分的問題,本文提出挖掘和利用特征級潛在信息實現(xiàn)集成,進一步提高多模態(tài)生物特征識別的識別準確性。本文的主要貢獻有:①就作者所知,尚未有研究提出挖掘和利用特征級潛在信息實現(xiàn)得分級集成的思路,這是本文首創(chuàng)性工作。②提出挖掘和利用樣本類內(nèi)聚合度、類間離散度、模態(tài)間相關(guān)度等統(tǒng)計信息,并將其利用于聯(lián)合F-Ratio集成模型,實現(xiàn)集成。③實驗結(jié)果初步證明,所提集成方法在識別準確度方面較現(xiàn)有方法有明顯優(yōu)勢。