王兆華
摘要:隨著全球化時代的到來,社會上各個領域的產業快速興起,產生了大量的數據,因此信息量變得巨大。但是由于大數據的數量龐大,復雜多變,產生了許多問題,而只適用于處理小數據的機器學習模型卻不能處理這些問題,因此研究大數據下機器學習模型設計方法成為了社會的熱點話題。通過分析現階段機器學習存在的不足,探討基于大數據背景下機器學習模型的設計方法。通過改進機器學習模型解決各大企業因數據量過大產生的問題。
關鍵詞:大數據;機器學習;設計方法
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2018)01-0197-02
20世紀70年代,信息化時代到來,許多產業隨之興起,每天都會產生龐大的數據信息。這些數據多而雜亂,但是每一條都極其重要,里面蘊含著有價值的信息[1]。傳統數據分析通過人為事先安排好的方法分析數據,從中發掘有價值的信息,而大數據分析就不會受到這一限制,它是直接從數量龐大,結構復雜的數據中分析出有用的信息,從而使數據發揮最大的價值,但是這一過程相當復雜,很難快速獲得信息,因此必須借助機器學習模型來完成。大數據技術的目標實現與機器學習的發展必然密不可分[2]。個人可以在這個大數據庫中找到通往財富大道的途徑;企業可以在這個大數據庫中尋找商機,在市場競爭中占盡優勢,獲取豐厚的利潤;國家可以在這個大數據庫中尋找有用的線索,預防它國入侵,預測災害的發生等。因此,為了社會方方面面的發展,機器模型的設計必不可少。
機器學習隸屬于人工智能的一個研究范圍,旨在讓計算機像人一樣能夠自主學習,從而加快計算機處理數據的速度。1997年,卡內基梅隆大學機器學習學院院長兼教授Mitchell T M認為機器學習過程就是計算機以學到的經驗為基礎,提升自身性能的過程[3]。機器學習的最終目的是從數據中獲取知識。機器學習模型設計一般由環境、學習元、知識庫和執行元四部分組成,如圖1所示。
大數據以發掘數據中有價值的信息為己任,而機器學習是其中的重要手段。這種手段對于大數據分析來說是解決的重要途徑,大數據使機器學習算法更準確,同時機器學習算法對內存計算的速度要求也越來越高。所以大數據與機器學習相互制約,相互促進,彼此依靠。本文通過研究機器學習模型的設計方法來處理大數據。
1 支持向量機
1995年,Corinna Cortes和Vapnik創建了支持向量機(Support Vector Machine,SVM),它是新出現的一種機器學習模型,這種模型一出現就在這一領域掀起了巨大的浪潮,引起了人們的廣泛關注[4]。支持向量機機器學習模型是以VC維理論和結構風險最小原理基礎,樣本信息為基點,在模型的復雜性和學習能力之間尋找最佳平衡點, 以求達到最佳的效果。支持向量機這一學習模型常應用在小樣本、非線性、高維模式識別、人臉檢測、機器翻譯等領域。
SVM是最新的也是應用最廣的機器學習模型。例如對于線性可分的問題,SVM是要找到間隔最大的超平面將兩種不同的樣本分開,間隔最大的超平面具有最好的泛化能力,如圖2所示。
現在通過一個例子來解釋超平面的定義,x是權重向量,y是最優超平面偏移,
a樣本到最優超平面的距離為:
為超平面確定的判別函數。SVM可以將x和y之間的間距值最大化。然后通過解答對偶問題,從而得到x和y的數值,之后把核函數引入非線性可分的問題中。線性不可分是一種正常現象,存在許多問題中,因為對偶問題的目標函數是不確定的,因此不可能達到最優化。要想解決這一問題,有兩種方法:軟間隔優化,即放寬對輸入空間的限制,對于某些錯誤可以選擇忽視。但是當某些極度線性不可分問題出現時以及分類錯誤過多無法解決時,這種方法就不適用了。核技巧,即找到一個核函數,將處在低維空間中的數據轉化到高維空間中,這樣數據就變得可分了,從而得到解決。這一方法也不能保證解決所有線性不可分問題,因此對于更復雜的線性不可分問題,要把兩種方法結合起來使用。
2 人工神經網絡
人工神經網絡(ANN),是模擬大腦運轉過程的機器學習方法,簡稱神經網絡。它是一種類似于數學統計學的機器學習方法。根據圖3,人類建立了人工神經網絡模型:[5]。
這個模型主要有三點優勢:首先,能夠自主學習。例如,鍛煉人工神經網絡進行臉部識別的功能,把成千上萬張面部圖像和對應的人物信息輸入到這個模型,神經網絡就會逐漸學會這項技能。這項技能在預測方面發揮重要作用,可以幫助人們進行災難預測,風險預測等。其次,具有聯想存儲功能。這種功能需要通過人工神經網絡的反饋系統實現。最后,能夠快速找到問題的最佳解決方法。但是要想找到最佳的解決方法,就要把所有的解決方式嘗試一遍,這需要很大的計算量,而利用神經網絡機器學習模型就能把這種復雜問題簡單化,從而快速找到最佳方法。
人工神經網絡有著支持向量機不具備的優勢,它對非線性問題的處理能力更強,適應性更好,彌補了傳統機器學習在模式、語音識別、非結構化信息處理方面存在的不足,使它應用的范圍更廣,在神經系統、模式識別、智能控制等領域都用到了這種機器學習模型。將神經網絡和其他機器學習模型結合使用,在處理大數據信息方面更加有效,使人工智能向前邁進了一大步,促進了信息處理技術不斷發展。隨著信息化不斷發展,人工神經網絡確定了新的發展方向,使它的運行模式更加人性化,例如與模糊系統、遺傳算法、進化機制等結合,就是其中一個研究方向,如果取得成功,對大數據的分析將會更加容易。把信息幾何與人工神經網絡相結合研究,為人工神經網絡的理論研究開辟了新的途徑。人們對人工神經網絡機器學習模型的研究更加深入,因此這一模型會應用的范圍會越來越廣,但需要改進的空間還是很大。其中把神經網絡與其他技術的結合以及由此而來的混合方法和混合系統,已經成為主要研究的對象。但是由于它們都有各自的優勢和缺陷,因此要把神經網絡與其他技術相結,首先要做到的就是取其精華,去其糟粕,繼而可以獲得更好的應用效果,但是這也是最大的難點之一。但是,我們必須克服這一難點,這是我們無法回避的。
3 機器學習模型的分類
大數據下機器學習模型有很多,支持向量機和神經網絡是兩種最重要的模型。根據算法,模型可以分為三大類。第一種,監督學習,是指計算機從大數據中提取相關信息,之后大數據再對信息進行驗證,并提供結果。這種模式的根本目的是讓計算機學通過這一過程,學到經驗,然后去解決類似問題。神經網絡和支持向量機都是監督學習;第二種無監督學習,是指計算機在大數據中自主截取有用的信息。這種學習的目標具有不確定性;第三種強化學習,是指無大數據驗證的情況下,計算機自主對信息進行評估[6]。
4 結束語
綜上所述,本文對大數據分析下機器學習模型的兩種設計方法進行了全面的闡述。支持向量機和人工神經網絡都是處理大數據的實用又有效的學習方法。通過這兩種方法可以在大數據中獲取對人們有用的信息,促進人類社會的發展,乃至推動人類社會文明的進步。目前,大數據技術已在金融、電信、醫療等眾多行業和領域中得到廣泛應用。但隨著社會的進步,人們需要對機器學習進行更深入的研究,以便應對越來越龐大的數據信息。
參考文獻:
[1] 孫存一,龔六堂.大數據思維下的利率定價研究——以機器學習為視角的實證分析[J].金融理論與實踐,2017,67(7):1-5.
[2] 吳啟暉,邱俊飛,丁國如.面向頻譜大數據處理的機器學習方法[J].數據采集與處理,2015,16(4):703-713.
[3] 徐倩漪,齊芳.基于機器學習的通信網絡非結構化大數據分析算法研究[J].激光雜志,2016,37(10):125-128.
[4] 徐健鋒,許園,許元辰,等.基于語義理解和機器學習的混合的中文文本情感分類算法框架[J].計算機科學,2015,42(6):61-66.
[5] 李力,林懿倫,曹東璞,等.平行學習—機器學習的一個新型理論框架[J].自動化學報,2017,43(1):1-8.
[6] 史金梅,夏偉.基于大數據分析的學生最優選課方案模型的設計與實現[J].現代電子技術,2017,37(14):30-32.endprint