


摘要:模式識別(Pattern?recognition)是上世紀七八十年代的流行術語。它是對原始數據信號(圖像、語音、文字、視頻等)進行分析、解釋,從而得到其類別屬性,繼而進行判斷的過程。模式識別技術是人工智能的基礎技術,是機器學習(machine?learning)的一個分支。
關鍵詞:模式識別;類別屬性;機器學習
一、模式識別的定義
模式識別(Pattern?recognition)是上世紀七八十年代的流行術語。它是對原始數據信號(圖像、語音、文字、視頻等)進行分析、解釋,從而得到它的類別屬性,繼而進行判斷的過程[1-3]。模式識別技術是人工智能的基礎技術,是機器學習(machine?learning)的一個分支,從某種意義來說,模式識別幾乎等同于機器學習。機器學習是一門多領域的交叉學科,涉及概率論、統計學等多門學科,它是一類從給定的數據中自動分析其規律,并且利用所獲得的規律對未知的樣本數據進行預測的算法。一個典型的機器學習流程如圖1所示:
二、模式識別的基本流程
模式識別的基本流程一般包括數據采集,數據預處理,特征提取,特征選擇以及模型的架構這幾個模塊,如圖2所示:
(1)數據采集
很顯然,數據采集過程是整個模式識別系統最基本的前提條件,一個具有良好性能的模式識別系統必定會首先獲得較好的數據集。通過采集到的數據,就可以進行后續的預處理、特征提取、特征選擇、以及分類模型架構等一系列的工作。一般而言,數據采集過程是需要借助相應的硬件設備,比如說聲音傳感器、圖像傳感器等設備來采集相應的數據。倘若所使用的傳感器靈敏度不高,或者說傳感器的精度不高,那么一定會對所采集到的數據產生噪聲污染。盡管后續過程中一般會通過預處理操作來處理相應的數據,可以減少部分的噪聲污染,但是卻不能完全消除噪聲的干擾。因此,數據采集部分應該盡量保證所得到的數據純正、干凈。而隨著模式識別技術的快速發展,很多無私的學者將自己所獲得的公認的數據集公開分享在各數據庫中,從而方便廣大的學術研究者方便使用。
(2)預處理
在模式識別技術領域內,預處理的過程一般是指去除噪聲干擾,增強有效信息的過程。過程1)中也提到,在數據的采集過程中,不可避免地會引入一些干擾的因素。比如說,噪聲污染以及無效信息的引入等因素,這不僅會增加后續處理過程的復雜性,而且也會影響整個分類模型的性能。因此,預處理過程是模式識別系統中的一個必要的過程。但是需要注意的是,盡管預處理的功能基本上都是減弱甚至消除噪聲的干擾,同時也會加強有效信息的信息度,然而,對于不同的領域對象,不同的特征,其預處理的方法也是千姿百態的。
(3)特征提取
一般來說,從傳感器中直接獲得的數據屬于原始測量空間的數據,然而原始測量空間中的數據是無法直接用來進行判別分類的;或者說,直接利用原始測量空間中所得到的數據來進行判別分類,其效果往往不盡如意。一般來說,需要將數據從原始的測量空間中轉換到二次空間中,也即特征空間。特征提取是計算機視覺和圖像處理中的一個概念。其指的是利用計算機來提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。不同的領域內,特征提取的方法也有所不同,有文本特征向量提取,視覺圖像特征提取,局部LBP特征等等。
(4)特征選擇
在經過數據采集,數據預處理,特征提取過程之后,數據就從原始的測量空間中轉換到二次特征空間,而此時所提取的特征不一定是我們所最需要的特征,其中包含了大量的不相關以及冗余的特征,對最終的分類判別不一定有很好的效果。這些不相關或者冗余的特征不僅會極大地增加計算的復雜性,而且還會減弱分類器的分類性能。因此,模式識別過程中,需要進行特征選擇,其作用就是從所提取的特征中去除那些不相關以及冗余的特征,從而挑選出對模式最終判別分類效果最好的特征,其實這也是一個尋優問題。
(5)分類判別模型架構
在經過特征選擇技術后,就需要對所選擇出的特征進行判別分類。一般來說,簡單點的分類判別方法其實就是將特征表示為向量的形式。然后,利用像歐氏距離、馬氏距離、卡方距離、范數等手段來計算任意兩個向量之間的相似性,最后再根據計算所得到的向量之間的相似性來進行分類判別。復雜點的分類判別方法是利用SVM、ANN、貝葉斯判別等方法將特征進行某種線性或者非線性的變換,從而在變換后的空間進行二次分類。
三、完整的模式識別過程
一個完整的模式識別過程包括三個步驟:學習模塊、訓練模塊以及驗證模塊,可以用如圖3來進行表示
上述是對整個模式識別里面一些基本而又非常重要的概念、流程的簡單介紹,也是學號模式識別與機器學習所要了解的基本知識,以可視化的圖形更易于去理解。
參考文獻
[1]楊淑瑩,張樺.模式識別與智能計算:MATLAB技術實現[M].City:電子工業出版社,2015.
[2]Fred A,Marsico M D.Pattern Recognition Applications and Methods[J].Advances in Intelligent Systems & Computing,2015,318:1-2.
作者簡介:李星星,1991.4,男,江西九江,廣州工商學院,無 ,模式識別與圖像處理。