陳強
摘要:本文主要介紹機器學習的幾種常見模型和幾種常見的分類,并介紹分析數據挖掘的體系結構和二者的常見應用,最后總結二者相結合的實際應用及未來發展的趨勢。
關鍵詞:數據挖掘;機器學習;大數據
1 引言
近些年來,隨著互聯網行業飛速發展,無論是日常生活中還是其他領域每天都會產生非常龐大的信息量,這些信息隱含著巨大的價值,對各個領域都有著很顯著的幫助。當下對數據庫信息的處理只是傳統的存取操作,通過簡單的存取操作獲得的信息只是數據庫信息所包含的很少的一部分。在大數據時代,傳統的數據分析方法,在時間以及空間意義上都是很難行得通的。數據挖掘通過數據統計,對數據的在線處理分析,機器學習等方法搜索大數據中有用信息,所以,數據挖掘技術是大數據時代處理分析數據的有效方法。
[1]機器學習作為人工智能的一個分支。在大數據時代飛速發展,機器學習領域主要的研究對象是如何在經驗學習中改善具體算法的性能,十分契合數據挖掘對數據處理的需要。
2 機器學習
機器學習主要工作是設計和分析一些讓計算機可以對現有數據自動“學習”的算法。機器學習算法從數據中自動分析獲得規律,并利用規律對未知數據進行預測。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬于無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。
2.1機器學習的基本模型
美國卡內基-梅隆大學H.A.Simon教授提出了一個機器學習決策過程模型。該模型指出,以決策者為主體的管理決策過程包括三個階段:情報:對數據進行收集處理,研究決策環境,并確定影響決策的因素;設計:發現,開發并分析各種可行方案,選擇:確定最優方案并實施。
2.2 機器學習的分類
[2]基于解釋的學習:在學習過程中使用給定的數據構建一個模型,新的數據通過判斷是否符合該模型判斷是否符合規范來進行相關的學習;
監督學習:監督學習主要應用于回歸問題和分類問題中,輸入變量會有類別標簽或與數值相關的標簽,。回歸問題是線性連續的,將輸入變量與輸出變量用一個函數對應;分類問題是離散的,將輸入變量與離散的類別對應。
無監督學習:在無監督學習中,輸出變量是不確定的,輸入數據沒有相關標簽,對輸入數據處理通過聚類的方式提取一個特殊的結構,無監督學習算法目標以某種方式組織數據,然后找出數據中存在的內在結構并進行聚類或找到更簡單的復雜數據處理處理方式。
強化學習:強化學習通過不斷試錯尋找問題的解決方案,強化學習不需要標簽,選擇的行動越好,得到的反饋越多,最終通過不斷的試錯與反饋找到問題解決的方案。
3數據挖掘
[4]數據挖掘的目標是從數據集中提取信息,并將其轉化為可用的結構,數據挖掘的實際工作是對大規模數據進行處理分析,來提取隱藏的預測性的信息,例如數據的分組、數據異常的記錄、不同數據之間的關系。在數據挖掘時需要將數據分成多組,之后再使用決策系統處理數據獲得更為精確的數據挖掘結果。數據收集過程、數據預處理過程、結果解釋以及撰寫報告過程屬于“資料庫知識發現”(KDD)過程,但是不屬于數據挖掘的步驟,只是屬于一些額外環節。現今許多公司都擁有自己的數據挖掘系統,IBM公司開發了世界上第一套名為“智能挖掘機”的應用工具。
3.1數據挖掘的體系結構
當下的數據挖掘體系結構一般分為3層,[5]第1層是數據源,數據源其中包括原始數據庫、數據倉庫。數據挖掘不僅僅可以建立再數據倉庫之上,但是數據倉庫的數據經過處理更為方便使用,建立在其上可以非常有效的提高挖掘效率。第2層是整個數據挖掘系統的管理系統,該系統是整個數據挖掘的核心層,此管理系統中囊括了諸多數據挖掘的方法分析數據倉庫中的數據,其主要的方法有關聯分析、分類分析、聚類分析、序列模型分析。第3層是用戶界面層,用戶界面層主要用戶獲取的信息以用戶理解的方式和觀察方式,現在大多使用可視化工具
3.2數據挖掘的實際應用
數據挖掘當下應用的領域非常廣泛,只要所在領域數據有分析價值與需求,都可以使用數據挖掘進行數據挖掘發掘分析處理。現在大數據環境下,數據挖掘應用最集中的領域包括金融、醫療、零售和電商、電信和交通等,而且每個領域都有特定的應用問題和應用背景。
3.2.1 金融領域
金融領域的金融數據具有可靠性、完整性和高質量等特點。這在很大程度上有利于開展數據挖掘以及數據挖掘應用。數據挖掘在金融領域中有許多具體的應用,例如分析金融系統多維數據,以便專業金融從業人員把握金融市場的趨勢;運用孤立點分析等方法,偵查洗黑錢等犯罪活動;應用分類技術,對銀行顧客信用進行分類,為銀行維持與客戶的關系并且為客戶提供相關服務的決策提供相應的參考。
3.2.2 醫療領域
醫療領域對人類的遺傳史、遺傳密碼、疾病史和醫療方法等許多醫療領域中,都隱藏著不明顯可見的海量的數據信息。另外,對醫院內部結構、醫藥器具、病人檔案以及其他資料等的管理也產生了巨量的數據。對于這些巨量的數據,運用數據挖掘相關技術處理,從而得到相關知識規律,將有利于相關人員工作的開展。運用數據挖掘技術,在很大程度上有助于醫療人員發現疾病的一些規律,從而提高診斷的準確率和治療的有效性,不斷促進人類健康醫療事業的發展。
3.2.3零售和電商領域
在零售和電子商務領域運用數據挖掘技術對零售商的海量銷售數據進行處理分析,可以幫助商家有效地識別顧客的購買行為,從而把握好相應顧客購買的趨勢。商家可以根據各自銷售數據進行數據挖掘得到結果有針對性地采取有效措施,從而提高企業效益。在如今,數據挖掘處理分析得到的推薦系統已經成為電商電子商務的關鍵技術,經過數據挖掘,對網站進行系統分析,對用戶的行為模式進行識別,在增加客戶黏著性,提供個性化的服務,優化互聯網電商網站設計等方面同樣取得了很好的效果。
4數據挖掘和機器學習的合作
數據挖掘就是從已知的數據庫中分析處理得到不能顯而易見得到的潛在數據價值,數據挖掘結合了人工智能技術與數據庫技術,其核心的技術是人工智能領域的機器學習。數據挖掘中最核心的技術是關系識別以及模式識別兩種算法。將數據挖掘得到的結果運用機器學習算法,將會得到符合需求的結果。在數據挖掘中人工神經網絡,仿照動物大腦結構的非線性預測模型,在進行學習模式識別,它與數據挖掘大量應用在諸多領域。
參考文獻:
[1] Chaomei Chen.An Information-Theoretic View ofVisual Analytics[J].Computer Graphics,2008,28(1):18.
[2]陳良臣.大數據可視分析的若干關鍵技術研究[J].數字技術與應用,2015(11):98.
[3]姜曉睿,田亞,蔣莉,等.城市道路交通數據可視分析綜述[J].中國圖象圖形學報,2015(4):454-467.
[4] 陸汝鈐. 人工智能 [ M] . 北京:科學出版社,2002.
[5]梁榮華.“大數據可視分析”專欄序[J].中國圖象圖形學報,2015(4):453.