文/鄧波
傳統的機器學習方法(例如多層感知機,支持向量機等)大多使用淺層結構來處理有限數量的樣本和計算單元。當目標對象具有豐富的含義時,復雜分類問題的性能和泛化能力顯然不足。近年來開發的卷積神經網絡(CNN)擅長處理圖像分類和識別問題,并在許多機器學習任務的準確性方面帶來了極大的提高,因此已廣泛應用于圖像處理領域。它已成為強大而通用的深度學習模型。
卷積是數學中的重要分析運算。它是一個數學運算符,它從兩個函數f 和g 生成一個第三函數,代表函數f 和函數g 之間已被翻轉或平移的重疊區域。針對傳統影像分類方法提取特征復雜,特征表達能力低的問題,基于卷積神經網絡基礎上,來進行圖像分類處理。首先,構建深度卷積神經網絡來訓練圖像數據集,以學習兩個完全連接的層的輸出,這是圖像的兩個高級特征。然后,使用多內核學習來訓練這兩個高級功能的內核功能,以便可以將它們映射到高維空間,這兩個功能可以自適應地融合在一起。最后,結合這些功能,在圖像處理中,數字圖像可以看作是二維空間的離散函數,表示為f(x,y)。假設存在二維卷積函數g(x,y),則輸出圖像z(x,y)可用以下公式表示:

其中f 表示輸入圖像G,表示卷積核m和n 的大小。假設卷積核的數量為K,則通過上述卷積運算獲得的原始圖像的輸出為卷積內核數×卷積后的圖像寬度×卷積后的圖像長度。
以這種方式,卷積運算可用于提取圖像特征。實驗結果表明,與現有的基于深度學習的分類方法相比,卷積運算在分類精度,誤差和Kappa 系數方面取得了更好的效果。在實驗測試集上,上述三個指標分別達到96.43%,3.57%和96.25%,并獲得滿意的結果。類似地,在應用中,當輸入為包含三通道RGB 的彩色圖像,并且圖像由每個像素組成時,輸入為3×圖像寬度×圖像長度的高維數組,計算參數也是高維數組。
隨著移動互聯網技術的飛速發展,越來越多的圖像信息被存儲在互聯網上。圖像已成為繼文字之后的另一重要網絡信息載體。在這種背景下,利用計算機對這些圖像進行智能分類和識別,使其更好地為人類服務是非常重要的。在圖像分類和識別的初始階段,人們主要使用這項技術來滿足一些輔助需求。使用OCR 技術從圖像中提取文本和信息,對于基于圖的半監督學習方法構造可以捕獲固有數據結構的良好圖形非常重要。該方法被廣泛用于帶有少量標記樣本的高光譜圖像分類。然而,大多數基于SR 的算法都沒有考慮HSI 的豐富空間信息。應用卷積神經網絡(CNN)來提取對象分類的不變特征,使用共享權重相同的多通道卷積來減少同一類別中具有不同旋轉度的樣本對的特征方差。結果,同時遇到均勻物體的不變性和旋轉不變性,以改善圖像特征的不變性。
通常,一個集成卷積神經網絡由輸入到輸出的輸入層,卷積層,激活層,池層,完整連接層以及最終輸出層組成。卷積神經網絡層建立了不同計算神經節點之間的關系,并逐層傳輸輸入信息,而連續卷積池結構則將原始數據的特征信號解碼,推導,收斂并映射到隱藏層特征空間。
在應用集成卷積神經網絡進行圖像分類的過程中,損失函數是整個網絡模型的評估標準。它不僅代表網絡參數的當前狀態,而且還提供梯度下降法中的參數梯度,因此損失函數是深度學習訓練的重要組成部分。通過梯度分析將Softmax 函數的輸出用作判別函數,可以找到損失函數到Z 的梯度:

從公式可以看出,當輸入值為正時,線性整流單元的梯度為1,因此上層的梯度可以反向傳輸到下層而不會衰減。具體而言,通過圖拉普拉斯正則化將空間信息納入SR 模型,該模型假設空間鄰居應具有相似的表示系數,因此獲得的系數矩陣可以更準確地反映樣本之間的相似性。
卷積神經網絡是一類深度學習,前饋人工神經網絡,最常用于分析視覺圖像。CNN 使用了多種多層感知器,這些多層感知器被設計為需要最少的預處理。與傳統的機器學習方法相比,具有更多隱藏層的卷積神經網絡(CNN)具有更復雜的網絡結構以及更強的特征學習和特征表達能力。圖像處理分為兩部分,第一部分分為四個步驟:第一部分-構建CNN;第二部分-使CNN 適應圖像。首先,在4 通道二進制圖像上對其進行了分類,其中白色為'255',黑色為'0'。它有10 個輸出,每個數字一個,取softmax 以獲得每個類別的概率;其次,由于圖像分類中,全白輸入,100%返回的置信度為4,因此,反轉圖像并使用滑動窗口技術,當圖像完全變黑時,會為每個類別返回較低的百分比;最后,Conv2D 需要4 個維度:sample_size,height,width,channel。
以下是基于深度卷積神經網絡的圖像分類模型。
輸入:輸入是N 張圖像的集合;每個圖像標簽都是K 個分類標簽之一。該集合稱為訓練集。
學習:此步驟的任務是使用訓練集來確切地學習每個班級的樣子。此步驟通常稱為訓練分類器或學習模型。
評估:分類器用于預測未看到的圖像的分類標簽,并評估分類器的質量。我們將分類器預測的標簽與圖像的真實標簽進行比較。毫無疑問,分類器預測的分類標簽與圖像的真實分類標簽一致,這是一件好事,而且這種情況越多越好。
需要注意的是,CNN 主要用于處理2D數據(在高度和寬度上至少包含2 個維度)。此外,CNN 僅應在列的順序很重要且無法更改的情況下使用。例如,當更改圖像中的列順序或隨機排列列時,將更改整個圖像。但是對于典型的ML 分類問題(例如Titanic-Survival Prediction)而言,情況并非如此。因此,絕對要確保預測數據的列順序很重要并且不能更改。
話雖如此,由于在這種情況下要逐行進行,因此嘗試將其傳遞給一維卷積運算。將其傳遞給1D 轉換時,它實際上會添加一個額外的維,并認為張量的高度為1,它的作用類似于[1xn]形狀的濾鏡,跨整個行(僅在水平方向上)。因此,如果輸入只有1 個通道(例如,灰度圖像而不是RGB),則需要在末尾添加另一個尺寸。
綜上所述,深度卷積神經網絡用于識別縮放,平移和其他形式的不變變形圖像。為了避免顯式特征提取,卷積網絡使用特征檢測層隱式地從訓練數據中學習,并且由于權重共享機制,同一特征映射面上的神經元具有相同的權重??梢源蟠蠼档途W絡結構的復雜性。特別是,多維輸入矢量圖像WDIN 可以有效地避免特征提取和圖像分類過程中數據重構的復雜性。深度卷積神經網絡在圖像特征表示和分類方面具有無可比擬的優勢。