張鸝灃

【摘要】本文主要介紹了人工智能的核心——機器學習中的無監督學習算法中的高斯混合模型。研究了使用EM算法對高斯混合模型進行參數估計。其次討論了高斯混合模型和K-means算法作為聚類算法上的異同。最后介紹了現階段高斯混合模型在實際中的應用。
【關鍵詞】高斯混合模型 K-means算法 無監督學習
【中圖分類號】G63 【文獻標識碼】A 【文章編號】2095-3089(2018)48-0218-02
前段時間Alpha go橫掃世界高手的人機大戰成為一時熱點,而這反映出近年來發展最為迅速而引人注目絕對非人工智能莫屬了。人工智能是研究學習人類智能的方法并發展為完整的應用系統的一門前沿的技術科學。
人工智能的核心是機器學習,它是一門涉及數學、統計學、計算機科學等專業學科的多領域交叉學科。具體而言,機器學習由數據樣本出發應用不同的算法“學習”出規律,進而可以應用于新的數據樣本上。
眾多的機器學習算法可以從不同的維度進行分類。其中一種分類方式是依據數據是否有或僅有部分的標記或分類標簽而分為監督學習和無監督學習,或半監督學習。聚類分析是將已有的對象根據“學習的規律”而分組,每組中由具有相同性質或屬性的對象組成。這屬于典型的無監督學習。
不論是越來越多可得的海量數據,還是機器學習算法的進一步發展和完善,人工智能都有了更廣闊的應用場景,展現了更驚人的發展潛力。在不遠的未來,人工智能必將能滿足更多的科技和生產提出的新要求,帶來方方面面的革新。
1.高斯混合模型
1.1 高斯混合模型的定義
當p=1時,閔可夫斯基距離即為歐氏距離;當P=2時,閔可夫斯基距離此時即為常用的曼哈頓距離。在不同的情形下,適用于不同的距離度量,選擇更合適的距離度量有益于得到更好的模型效果。
2.2 高斯混合模型與K-Means模型的異同
高斯混合模型與K-Means模型都屬于機器學習算法中無監督學習中的聚類算法模型——都是通過對無已知標記或分類的樣本數據通過算法根據數據的分布結構或性質進行分類的過程。這兩者模型在聚類的過程中都關注了樣本數據的均值信息。而這兩種算法在迭代流程上也有相似之處:在訓練參數時首先都初始簇的數量,其次根據樣本數據訓練模型參數,之后更新簇的數量,再次訓練模型參數,直到模型收斂,參數迭代穩定后,得到最終聚類模型。
機器學習算法中另一種分類方式是依據算法學習的過程中是否涉及概率密度的估計而分為概率模型和非概率模型。高斯混合模型和K-means算法的最大不同之處在于是否對樣本數據所服從的分布有前提假設,即樣本是否服從正態分布。因此,高斯混合模型屬于機器學習中的概率模型,在訓練的過程中不僅關注樣本數據的均值,還有樣本的標準差,得到了相對更為精準的估計模型。但與此同時,相對于僅關注樣本數據均值的K-Means模型,高斯混合模型的計算復雜程度也大大增加。除此以外,高斯混合模型涉及概率的概念,即一個樣本點可以同時間重復屬于多個簇,即支持混合分類。而K-Means模型僅支持單一分類結果。
3.GMM模型的應用
機器學習算法中,無監督學習是通過學習未標定的數據得到分類標準。無監督學習在圖像識別、語音識別等各個方面有著優異的表現。其中的高斯混合模型相較于其他模型而言,在靜態和動態的圖像識別和物體檢測和背景音識別、男女聲音判別等方面也都表現出優異的準確性和穩定性。高斯混合模型現今成熟的應用場景包括但不限于以下情形:數據集分類,例如不同級別的會員依照消費額高低進行分類;靜態和動態的圖像分割及其特征提取,例如在固定位置的攝像機拍攝下的視頻中,持續跟蹤動態人物并且區分其動作,從交通監控視頻中識別跟蹤運動中的汽車;最后應用于語音分割和識別,例如從討論的聲音中分辨男、女聲,或有針對性的識別單個人的聲音,又或從嘈雜的戶外聲音中提取地震的聲音等。高斯混合模型以及機器學習在我們的現實生活中有著廣闊的應用前景。
參考文獻:
[1]李航:統計學習方法[M].清華大學出版社,2012.
[2]熊彪,江萬濤,李樂林:基于高斯混合模型的遙感影像半監督分類半監督分類[J].《武漢大學學報信息科學版》, 2011,第36卷第1期.
[3]王千,王成,馮振元,葉金鳳:K-means聚類算法研究綜述[J].《電子設計工程》,2012(7):21-24.