文/胡霖
支持向量機(support vector machines,SVM)是一種先進的機器學習方法,其理論主要是建立在統計學習理論VC維理論和結構風險最小化原理基礎之上。
支持向量機在機器學習方面最主要的優勢是在解決小樣本、非線性和高維模式識別問題中,支持向量機能夠解決“維數災難”和“過學習”等問題給信息識別造成的阻礙。另一個優勢為支持向量機是一種發展比較成熟的機器學習方法,理論成熟,數學模型易于理解。
支持向量機促進了模式識別、函數估計、回歸分析、時間序列預測等方面的發展,在文本識別、手寫字體識別、人臉圖像識別、基因分類及時間序列預測等領域有著重要應用。
支持向量機是一種兩類分類器,其基本算法如下。
設海量信息中的樣本集中n個樣本,樣本集表示為(xi, yi),i=1,2……n,可以表示樣本屬于xi的類別。實際應用中,支持向量機依據訓練樣本的信息找到識別樣本所需的超平面將訓練樣本分為兩類。在識別樣本的超平面中,ω是一個n維向量,x是樣本的向量表示,b為實數。
對于給定的樣本,理想的情況是使兩類分類邊界的間距最大,稱之為間隔,間隔在數學上的定義為歸一化間隔ω和b后,間隔可以表示為:
歸一化后的間隔,稱為幾何間隔。
在兩類樣本之間的幾何間隔中,ω是自變量,目標函數是關于ω的二次函數,約束條件是ω的線性函數,這時,支持向量機的目標識別問題就轉化為二次規劃函數的求解問題,此時它的約束條件為:
為了解決目標識別過程中產生的誤差問題,此時需要引入松弛因子和懲罰因子C,引入后信息識別的過程中支持向量機會在錯分時繼續工作,此時幾何間隔在約束條件下變為:
利用拉格朗日乘子,最優決策函數為:
在信息識別的過程中,往往存在線性不可分的問題,這種情況下需要引入核空間理論,核空間理論可以解決線性不可分中的高維運算過程中的內積問題。在支持向量機算法中,不同的核函數可以在信息識別中有不同的效果。
在信息識別過程中,窮舉搜索法可以幫助找到最合適的核函數和核函數參數。用窮舉搜索法可以利用線性核函數、多項式核函數、徑向基核函數、二層神經網絡核函數等進行實驗,并在實驗的過程中自動根據數據情況調整核函數的參數大小。
現階段,由于氣候和環境的變化,能見度識別受到了更廣泛的關注度。支持向量機與數字圖像可以幫助實現更高質量的能見度識別效果,支持向量機可以深度挖掘能見度較低情況下的影像信息數據,為人們提供更加直觀的圖像信息。
近年來,全球氣候不斷變暖,惡劣天氣頻發,特別是我國很多城市,霧霾天氣多發,霧霾天氣給社會生態環境和人們的正常生活帶來了很大的困擾,特別是在交通出行方面。飛機、高速、水運等都會受到霧霾天氣的影響,進而取消航班、封閉高速以及停運。準確的能見度檢測可以有效地緩解霧霾天氣帶來的交通問題。
以往,能見度檢測主要是通過人眼識別或者利用一起進行檢測人眼進行能見度檢測,受到視力和主觀因素的影響,存在的誤差較大;利用儀器設備進行檢測經濟成本較高,操作又十分困難。因此,基于支持向量機和數字圖像相結合的能見度檢測算法受到了越來越多的關注。
能見度監測的依據是《中華人民共和國道路交通安全法實施條例》,第81條規定如下:機動車在高速公路上行駛,遇有霧、雨、雪、沙塵、冰雹等低能見度氣象條件時,應當遵守下列規定:
(1)能見度小于200米時,開啟霧燈、近光燈、示廓燈和前后位燈,車速不得超過每小時60公里,與同車道前車保持100米以上的距離;
(2)能見度小于100米時,開啟霧燈、近光燈、示廓燈、前后位燈和危險報警閃光燈,車速不得超過每小時40公里,與同車道前車保持50米以上的距離;
(3)能見度小于50米時,開啟霧燈、近光燈、示廓燈、前后位燈和危險報警閃光燈,車速不得超過每小時20公里,并從最近的出口盡快駛離高速公路。
基于支持向量機和數字圖像相結合的能見度檢測算法,主要流程如下:
2.2.1 根據不同用途,創建不同功能的圖像庫
在支持向量機中,圖像庫的數據集分為兩個,一個是訓練樣本的數據集,另一個是驗證訓練樣本準確性的數據集。
根據《中華人民共和國道路交通安全法實施條例》規定的內容,又可以把訓練數據和驗證數據分為三個類別:訓練數據集的圖像根據能見度在200米、100米和50米范圍內。
實際操作中,要選擇不同等級的能見度的天氣狀況的視頻或圖像,視頻需要按幀進行計算,按照能見度的大小,將這些視頻或圖像按照高能見度(200米范圍),中等能見度(100米)和低能見度(50米范圍)進行分類。值得注意的是,為了提高算法的計算速度,視頻每幀和圖像應當設置將圖片大小統一設置為256×256,并將照片標記為high、mid和low三個等級,同時設置照片數量。驗證數據集中的圖像設置方式與訓練圖像相同,區別是驗證數據集中的圖片數量較少,通常設置為訓練數據集中圖像數量的12.5%即可。
2.2.2 對能見度不同的圖像分別進行預處理
對能見度不同的圖像分別進行預處理,首先是要為圖像加上標簽,將high、mid和low三個不同等級的能見度圖像分別標記為標記為0、1、2三個標簽,并生成標簽文件用于網絡識別;然后,通過生成訓練過程中需要的圖像數據庫文件和均值文件。
2.2.3 對訓練中的圖像進行訓練
能見度檢測模型主要是依據訓練樣本中的數據進行能見度判定,因此訓練樣本的質量十分關鍵。對訓練樣本進行訓練,將訓練樣本進行歸納類別,用于識別圖像數據庫中的圖像屬于哪個級別的能見度。
2.2.4 優化能見度檢測模型,對不同情況下的能見度進行檢測
在圖像苦衷,不同能見度的圖像根據訓練樣本,會自動經過支持向量機的分類進入一個類別,根據類別將能見度進行分類,識別能見度高低。
極化SAR圖像分類一直是學術界研究的熱點問題,針對極化SAR圖像的分類問題,本文展開了實驗研究。本文提取了預處理后Radarsat-2咸寧地區極化SAR數據的3種測量數據,7種極化目標分解特征,6種紋理特征和顏色特征,在這些特征基礎之上進特征選擇,并利用不同的分類算法進行分類,得出如下結論:
(1)多特征融合對各地物的分類精度具有促進作用,在測量數據基礎上的分類精度上尤其顯著;
(2)利用單一特征的分類精度整體低于多特征融合下的分類精度,表明了多特征對地物的表征更加完整,在分類時具有更強的適用性;
(3)根據本文提出的特征選擇參數來選擇特征并組合成特征向量用于分類,有效降低了分類時的計算量,解決了特征數據的冗余問題,實驗結果表明,在不同分類器的實驗中,運行時間均有縮短,最多縮短34秒。
現階段,受到全球氣候變化的影響,加上工業等對環境的污染,霧霾天氣出現的頻率很高,給人們的正常生活和社會的經濟發展帶來了很多問題,特別是在交通運輸方面,影響了飛機、客運和水運等,高精度的能見度檢測方法是緩解霧霾天氣影響交通運輸問題的重要方法。因此,本文介紹了支持向量機相關概念、原理、用法,并提出了一種支持向量機和數字圖像相結合的能見度檢測算法,為能見度檢測提供一種合理的算法。