摘要:模式識別(Pattern?recognition)是上世紀七八十年代的流行術語。它是對原始數據信號(圖像、語音、文字、視頻等)進行分析、解釋,從而得到其類別屬性,甚至對其特征進行選擇,繼而進行判斷分類的過程。模式識別相關的方法有很多,它們之間有很多的不同,當然也和傳統的模式識別方法也有很大出入。
關鍵詞:模式識別;類別屬性;特征選擇
一、國內外研究發展現狀類比
傳統的模式識別特征選擇策略主要應用于單標記學習,單標記特征選擇算法有很多,比如說傳統的主成分分析法(principal component analysis ,PCA),以及它的演變算法——快速PCA算法[2,3]。主成分分析(PCA)是一種統計程序, 是作為一個在探索性數據分析上的工具而且可以用來預測模型。它使用一個正交變換將一組觀測可能相關的變量轉化為一組線性不相關的變量。PCA方法是一種基于圖像轉化的分析處理方法,其本質則是將一些圖像矩陣所轉換成的圖像向量作為原始的特征,不過這樣會導致特征維數較高,使得特征提取過程變得復雜;除此之外,在同類內部之間,高維的特征向量也會導致散布矩陣奇異性的一些問題。另外,目前比較推崇的逐步判別分析方法(Stepwise Discriminant Analysis,SDA)。判別分析:在研究過程中,研究對象已經按某種方法劃分成了若干個類型,當得到一組新的樣本數據時,確定這些樣本屬于哪一種類型,這類問題就屬于判別分析,逐步判別分析就是逐步地選擇滿意的變量(特征)來進行判別分析,分析出輸入數據樣本類別的一個過程。
近年來,多標記學習也已經獲得來自國內外廣泛的關注,并且已經應用于大量的研究領域內。比如說,在語義場景分類中,一幅圖片可能被注釋為河流和山脈,也許另一幅圖片卻被注釋為沙灘和城市。在音樂情感分類中,一首音樂可能包含不同的情感,比如說喜、怒、哀、樂。在文本分類中,一個文件可能具有幾個不同的主題,例如健康與政府。在生物信息學領域,每一個基因可能具有一套功能類標,比如說新陳代謝、轉錄以及蛋白質合成等。以上所有的這些案例,每個樣本都具一套類標,均屬于多標記學習數據樣本。多標記學習的任務就是為了構造出一個多標記分類模型,從而為每一個未知的樣本(對象)獲得一個預測的類標子集。
二、與傳統的模式識別類比
多標記特征選擇(Multi-label feature selection)相對來說是一個比較全新的研究領域。隨著多標記問題的提出,多標記學習問題也受到越來越多的關注。根據調查發現,在過去的幾年里,大量的多標記學習方法被提出。這些多標記學習方法可大致分為兩個主要的類別:(1)、問題轉化法(problem transformation);(2)、算法自適應方法(algorithm adaptation)。在問題轉化方法中,轉換的核心就是改造原始的樣本數據以便適應于現有的學習算法。轉化的任務就是將原始的多標記學習問題轉化為一個或若干個相應的單標記學習問題,然后再通過傳統的單標記學習方法來逐一解決這些問題。幾種著名的問題轉換方法,包括二元關聯法binary relevance (BR)、類標能量子集法label power set (LP)以及它的變體,修剪的問題轉換法pruned problem transformation (PPT)。BR方法則是將多類問題轉換為L個二類分類問題,再訓練出L個二類分類器。那么對于第m個類別來說,所有屬于第m個類的樣本均為正樣本(positive instance),其他的樣本則為負樣本(negative instance)。但是這類方法有著一個缺點,那就是其忽略了類別之間的關聯性。LP方法雖然考慮了類別之間關聯性,但是它將具有多個類標的樣本作為一組新的類別,這必將會引起一些新的問題:1)隨著新類別的增加,時間消耗越來越大;2)由于只有少量的樣本被歸屬于新的類標,使其易于趨向過擬合;3)由于新的類標只具有少量的樣本數目,則可能會導致類標不平衡的問題。PPT方法,其是LP方法的一個變體,這種方法拋棄了那些只具有少量樣本數目的新類標,相對于LP方法而言,這種方法就減輕了LP方法的缺陷,但是卻引發了一個新的問題,即當拋棄那些只有少量樣本的新類標的時候,則會導致信息損失。圖2則直觀地展示了BR和LP方法的轉換過程。
對于算法自適應方法,其主要思想:通過修正一些約束條件,以便擴展某種單標記學算法從而直接處理多標記問題,在這期間并不涉及任何的轉換過程。基于這類方法的思想,類標排名支持向量機方法(Label rank support vector machine,LaRankSVM), 基于k近鄰的多標記學習算法(Multi-label based on k-Nearst Neighbor algorithm,ML-kNN), 以及多類標樸素貝葉斯特征選擇方法(Multi-label Naive Bayes feature selection method,MLNB)依次被提出。
盡管以上的這些方法的性能都很好,但是他們都是在不同的類標中基于同樣的特征空間下來實現學習的目的。然而實際上,在多標記學習算法中,不同的類標可能擁有他們自己獨特的特征。例如:當判斷一個學生是計算機系的學生還是藝術系的學生時,可以通過像代碼和藝術作品這類的特性就可以大致區別該學生的身份來;像這類特征就可以看作是對應類標下的特異性特征(label-specific features)。然而,隨著特異性特征的構建,特征維度將會急劇地增加,從而導致在所構建的特征空間中有大量的冗余信息存在的現象,尤其是在多樣本分類數據集或者是在高維特征空間中,這種現象極為明顯。因此,為了適應時代的發展,為了有效地避免維度災難問題,還需要研究人員進行大量的實驗探究,這種情況就刻不容緩了。
參考文獻
[1]楊淑瑩, 張樺. 模式識別與智能計算:MATLAB技術實現[M]. City: 電子工業出版社, 2015.
[2]余映, 王斌, 張立明. 一種面向數據學習的快速PCA算法[J]. 模式識別與人工智能, 2009, 22(4): 000567-000573.
[3]Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification ☆[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
作者簡介:李星星,1991.4,男,江西九江,廣州工商學院,無,模式識別與圖像處理