機器學習分類問題及算法研究

2019-10-08 08:34:58周捷朱建文

軟件 2019年7期

周捷　朱建文

摘? 要：機器學習是一門綜合性較強的學科，對該學科的研究多集中在分類問題和算法方面?；诖它c，文章從機器學習的內涵及發展歷程介紹入手，分析了機器學習中的分類問題及學習步驟，在此基礎上對機器學習的算法分類進行論述。

關鍵詞：機器學習;分類;算法

中圖分類號： TP181? ? 文獻標識碼： A? ? DOI：10.3969/j.issn.1003-6970.2019.07.040

【Abstract】： Machine learning is a comprehensive subject， and research of the subject mostly focuses on classification and algorithms. Based on the point， the paper introduces connotation and development of machine learning， analyses classification issues and learning steps in machine learning， and discusses algorithms classification on above basis.

【Key words】： Machine learning; Classification; Algorithm

0? 引言

近年來，隨著科技的不斷進步，使得人工智能技術得到快速發展，作為人工智能核心的機器學習也獲得業內專家學者的廣泛關注，研究范圍進一步擴大，研究的重點以分類問題及相關的算法為主[1]。機器學習的分類精度、學習速度以及解答的正確性和質量等方面，是評價其學習能力的關鍵指標[2]。鑒于此，下面重點對機器學習分類問題及算法展開探討。

1? 機器學習的內涵及發展歷程

1.1? 內涵

機器學習是人工智能的核心，是實現計算機智能化的重要途徑。近年來，隨著計算機網絡技術的快速發展，使得機器學習的內涵變得越來越豐富，尤其是在人工智能的數據挖掘和知識發現中，涉及了海量數據，其中的數據形式呈現為多樣化的特點，如文本類、圖形圖像以及語音視頻等等，既有結構化數據，也有半結構化數據，多種學習方法并存，如分類、聚類、貝葉斯、決策樹以及遺傳算法等等。機器學習最為主要的任務就是獲得對輸入數據分類的能力，主要包括對不同概念的區分以及對文字信息的識別等等，同時，還需要獲得解決實際問題和行為控制的能力[3]。

1.2? 發展歷程

機器學習是人工智能領域研究的重點，其發展經歷了四個階段，上個世紀50年代中期到60年代中期，是機器學習的第一階段，在該階段，業內的專家學者對機器學習的研究熱情異常高漲，為機器學習的后續發展奠定了基礎;上個世紀60年代中期到70年代中期，是機器學習的第二個階段，在該階段機器學習的研究趨于平緩;從上個世紀70年代中期到80年代中期，機器學習進入了第三階段，這個階段是機器學習的復興時期;從1986年至今是機器學習發展的最新階段，進入該階段后機器學習正式成為邊緣學科，很多高校都開設了機器學習課程，與人工智能基礎問題的統一性觀點也在該階段逐步形成，如學習與問題求解的有機結合等。同時機器學習方法的應用領域逐步拓寬，有些成為可以流通的商品[4]。

2? 機器學習中的分類問題及學習步驟分析

2.1? 分類問題

對于機器學習而言，分類問題是基礎，很多應用均是從分類問題演變而來。機器學習能夠借助計算機在海量的數據當中，對數據的規律和模式進行學習，并在學習的過程中，對數據內部潛在的、有利用價值的信息進行深入挖掘。機器學習的數據處理主要有兩種，一種是監督學習，另一種是無監督學習。

2.1.1? 監督學習問題

所謂的監督學習具體是指借助帶有標簽的數據地學習過程進行輔助，從而達到學習目標，通過實踐證明這種機器學習方式的效果較好。然而，由于學習中需要使用標簽數據，致使學習成本較高。在該學習方式下，初始數據是不可或缺的要素，必須在學習前進行收集[5]。監督學習最為突出的優勢是可以使機器本身所具備的泛化能力得以充分發揮，由此便可使分類及回歸等問題得到有效解決。在該學習方式中，較為常用的算法有以下幾種：多層感知、神經網絡以及邏輯回歸等等，整個訓練過程是以標注特征為核心展開的。通過監督學習能夠使機器獲得合理劃分不同事物的能力，并且還能對規則以及規律數據等進行預測。該學習方式中的包含兩類問題，一類是分類問題，其特征是輸出變量處于離散狀態;另一類是回歸問題，其特征為是輸出變量處于連續狀態。

2.1.2? 無監督學習問題

無監督學習是一種更加先進的學習方式，它是利用計算機本身所具備的自動化功能來完成學習過程，依托各種數據，對知識的吸收過程進行完善，由于該學習方式的成本具有可控性的特點[6]。因此，學習中無需投入較大的資金，經濟性較高。但從實踐情況上，這種機器學習方式的效率并不是很高。在該學習方式下，當樣本數據尚未進行標記時，機器通常不會進入訓練狀態，其最為突出的優勢在于機器能夠與人一樣，學習所需的知識，對于不需要的知識則會自動忽略，通過有選擇性的學習，可以使知識的獲取更具針對性。無監督學習方式中較為常用的算法有以下幾種：深度置信網絡、自動編碼器等等，該學習方式在聚類問題的解決中應用較為廣泛。在無監督學習問題中，數據本身并沒有標簽，學習過程主要是對數據中隱藏的結構進行分析，據此來發現是否有能夠被區分的群組。

2.2? 基本學習步驟