谷珊
摘 要:現如今我們正處于“云時代”的快速發展時期,大數據也逐漸受到了不同領域的關注。文章對當前大數據環境下的機器學習算法進行總體概述,通過研究其主要特點,對其未來的發展趨勢進行深入研究,從中提出幾點業內人士密切關注的問題對其發展進行分析,希望能夠為相關從業人員提供有價值的參考意見。
關鍵詞:大數據;機器學習算法;趨勢
0 前言
大數據有著明顯的4V特點,也即是價值密度低、數據容量大、數據類型多與數據處理速度快等。在過去,比較經典的數據挖掘算法即是將機器學習算法基于數據集合進行優化,不過從當前收集、檢索、存儲、共享、分析以及處理方面來看,這種傳統的機器學習方法已經難以滿足在當前大體量異構數據中挖掘數據的需求[1]。對大數據環境下的機器學習算法進行研究,也即是利用機器學習去挖掘當前動態復雜數據庫中存在的有價值的知識點,有著非常重要的現實意義。
1 大數據環境下機器學習的主要研究方向
在大數據環境下下,機器學習在發展過程中主要有兩個研究方向:其一是研究學習機制,將重點放在對人類學習機制的模擬進行探索;其二是研究有效利用信息,將重點放在從大數據庫中發掘出有價值且可被認知的潛在知識。對學習機制的研究主要來源于機器學習技術,在當前的大數據環境下,對數據進行分析已成為當前不同行業領域中重點關注對象,其中機器學習能夠從中更快的吸收知識,使得機器學習能夠有效推動機器技術的向前發展。在當前的大數據環境下,如何采用有效地學習手段是目前機器學習的意義所在,機器學習也將會成為廣受推崇和普及的學習、服務技術。基于機器學習的數據分析工作,要如何去快速有效地處理大量的數據信息,是當前機器學習的重點研究方向。
當前大數據環境下,數據的數量與類型都有著極大的變化與提升,且數據產生的速度也在不斷增長。此外,數據類型的推陳出新也使得分析難度進一步遞增,例如文本情感的分析、圖像搜索與理解、圖像數據分析等。這樣一來,機器學習的研究方向以及學習方法都得到了進一步延伸,呈現出多元化的特性[2]。比如合理采用半監督學習的方式去改善訓練數據的質量以及在不同知識背景下的遷移學習,都是當前較為關注的重點課題。
除了上文所述之外,為進一步促進機器學習的效率,還應解決一系列可擴展的問題,也即是解決大數據的問題,此時就應采用并行的方法,從這幾個方面對大數據進行分析:可視化分析、數據挖掘算法、預測性分析能力、語義引擎以及數據質量和管理。
現如今,人類活動所產生的印刷材料已經達到了200PB左右(1PB=210TB)的數據量,在歷史的長河中,人類所有說過話的信息量已達到5EB(1EB=210PB)。隨著科學技術的發展,個人PC的數據存儲量早就達到了TB級別,一些大型企業的數據總量更是高達EB級別。因此,不難看出我們生活所處的時代是一個大數據時代,圍繞我們生活的是龐大的數據量。
2 大數據環境下機器學習算法的趨勢分析
眾多專家在研究過程中一致認為,在今后的幾十年中,機器學習算法領域會存在以下幾點挑戰,也正是其發展的趨勢所在。
(1)提升機器學習的泛化能力
這是機器學習的發展趨勢,也是非常普遍的一個問題,有許多行業都渴望能進一步提升機器學習的泛化能力。從目前來看,支持向量機有著泛化能力的最想技術,其很好的結合了理論與實踐,是一種綜合性較好的學習方法,其產生起源于實踐到理論。
(2) 提升機器學習的速度
在不同領域的機器學習方面,如何有效提升機器學習的速度是大家高度關注的重點,也是不斷足球的目標。目前,人們更關心的是如何處理好機器學習速度測試與速度訓練之間的關系,消除兩者間存在沖突。比如說K近鄰算法的測試速度通常較慢,然而其訓練速度的方法卻非常快。
(3)提升機器學習的可理解性
同樣有許多領域都十分關注著機器學習可理解性的提升,比如在醫學的臨床治療領域,病人希望能夠了解采取這樣治療方案的原因。目前,機器學習在這方面的技術較為強大,例如集成學習、神經網絡以及支持向量機等。
(4)提升數據使用能力
以往的機器學習方法主要是針對已經標記的數據進行學習,然而隨著網絡技術的發展以及數據分析收集技術的逐步提升,許多領域都遭遇到了未標記數據帶來的機器學習壓力,比如垃圾郵件以及醫學影像資料等[3]。此外,還有很多領域受到不一致、屬性缺失、噪聲信息量大等垃圾數據的干擾,這部分不平衡的數據經常會影像數據的正常使用,比如在醫學方面的乳腺癌診治領域,其存在病人樣本數量遠大于健康樣本數量,也就導致出現了新的問題,那就是要如何充分利用未標記的數據信息,去正確處理好垃圾數據與不平衡數據的影響,從而提升數據的使用能力。
(5)提升處理敏感性代價問題的能力
在當前的大數據環境下,機器學習算法的重點都放在了如何降低其錯誤率的研究工作,然而各個行業與學科對發生錯誤的代價容忍度是不同的,就算是同學科或者同行業內對待差異化判斷所付出的代價也是有巨大差異的。例如,在醫學的癌癥診治領域,病人被誤診為健康和健康人被誤診為患癌,其所帶來的代價是不一樣的。同樣的道理還有,機器對小偷入室行竊行為的判斷,行竊行為被誤判為屋主回家和屋主回家備誤判為小偷行竊,兩者所付出的代價同樣是非常大的。
以往的機器學習算法基本都是基于代價同等去進行考量的,而今后的發展過程中,應該著重提升處理這種敏感性代價問題的能力,近些年,以及有許多相關領域的專家將醫學診斷分析法與信號相關理論引入到了機器學習算法當中,相信在大數據環境下這方面的研究會有長足的進步
3 結束語
綜上所述,在當前的大數據環境下,由于信息數量的急速提升,以往單一的機器學習算法以及無法滿足當今時代的需求,采用大規模并行機器學習算法能夠緊跟當前大數據時代的發展變化,也是未來機器學習領域的發展趨勢與研究重點,從而滿足人工智能化的發展需求。
參考文獻
[1] 王煒.大數據環境下的機器學習算法[J].信息系統工程,2016(7):133.
[2] 何清,李寧,羅文娟,史忠植.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014(4):327-336.
[3] 王曉.大數據環境下機器學習算法趨勢研究[J].哈爾濱師范大學自然科學學報,2013(4):48-50.endprint