胡明輝 李俊 桂林電子科技大學
引言:異常的本質性的定義是:異常是數據集中與眾不同的數據,這些數據并非隨機偏差,而是來自于完全不同的機制。
異常檢測的目標是找出給出數據集中的異常,由于異常檢測任務中只有目標樣本充分采樣,而異常往往欠采樣,故目前的異常檢測,一般均從已知的正常類數據中進行學習,建立正常行為的模型來進行異常檢測。
在圖像處理領域,異常的圖像是和大部分圖像都不太一樣的圖像,這些圖像的質量往往是很差的,比如圖像模糊、顯示不全、噪聲嚴重等。異常檢測可以找出這些異常的圖像,方便下一步的處理。
利用概率密度比的方法來進行異常檢測已被證明是一種很好的方法,通過求解正常樣本集與要檢測樣本集的概率密度比的值來判斷異常。根據異常的定義,異常一般發生在概率密度值很小的范圍內,當用正常樣本集的概率密度函數與要檢測樣本集的概率密度函數相比時,在異常處的概率密度比值會相對很小,這樣異常就會被檢測出來。
uLSIF(無限制條件的最小二乘擬合算法),就是用最小二乘方法對未知方程進行擬合來求得方程的輸入對應的輸出。無限制條件是指用最小二乘法擬合時的損失函數是沒有限制條件的二次凸函數,而且損失函數的罰項為二次正則項,可以對擬合方程進行求導來求得擬合方程的系數矩陣,系數矩陣的值是非負的。

當用uLSIF算法時,要求直接密度比估計,需要先假設估計模型,然后構造代價函數用最小二乘法逼近真實值,當代價函數最小時估計模型最優。我們設概率密度比的估計為,定義損失函數為平方損失函數:,均方差:

又由于x為測試集樣本概率密度函數。所以:


J(α)為J0(α)忽略最后一項常數項后的值。J(α)可以認為是兩個期望的相減。損失函數最終可以用表示(uLSIF準則):

用卷積神經網絡(CNN)求解概率密度比時,根據uLSIF準則,是估計的直接密度比函數,為總的損失函數。在CNN中對于單個的獨立樣本可以把損失函數等價為:

為了訓練CNN求解直接概率密度比,要把訓練集分成兩部分,一部分是全是正常樣本的標準集,另一部分既有正常樣本也有異常樣本,我們稱之為評價集。評價集包含訓練集所有的異常樣本,其他的樣本從標準集中選取。
CNN根據反向傳播算法更新參數完成對網絡的訓練。訓練階段完成時,損失函數調節為最小,參數調節結束。對于每個評價樣本輸入到訓練好的CNN,輸出是對樣本進行求解的直接概率密度比估計值。
在測試階段,輸入測試樣本到已經訓練好的CNN,把求得的測試樣本對應的直接概率密度比值小于閾值的檢測為異常。
本文根據直接概率密度比估計用于異常檢測的思想,提出了使用卷積神經網絡來求解概率密度比估計,再根據概率密度比估計值進行圖像的異常檢測。該方法利用了卷積神經網絡模擬函數和自動提取圖像特征的能力,比傳統方法在思想上更加簡潔、易于實施。
