譚博中
摘 要:基于數據化時代的發展特點,很多科研工作與行業發展都需要通過數據分析來獲得發展依據,數據分析工作也顯得越來越重要了。為了完成分析數據的任務,現代人對于數據分析技術進行了開發,并獲取了更多的分析方法,計算機在數據分析工作之中發揮了相當重要的作用,應用計算機可以以較高的效率處理種類豐富,數量龐大的數據。分析人員需要以分析條件以及數據實際情況為準,選出合適的分析方法,本文對幾種常見的分析數據的方法展開比較性研究。
關鍵詞:計算機;數據分析;常用方法;比較
數據分析已經逐漸成為了各個行業之中的基礎性工作,在對數據進行分析之后可以清晰地找出數據之間存在的規律與聯系,在驗證了規律的正確性之后,還可以通過合理的方法來運用規律達到一定的目的,進行而成正確可靠的決策。雖然人們對數據分析工作不斷改進,但是需要處理的數據量仍在不斷增加,數據分析工作逐漸變得更具難度,選擇合適的分析方法頗為關鍵,本文對常用的數據分析方法展開研究,并通過對比來給數據分析人員提供參考。
1 數據分析工作概述
在了解數據分析工作中常用的分析方法時,工作人員需要對數據分析這項工作任務的基本概念有所了解,在數據分析工作中,分析人員具有相對較強的目的性,其會對目標數據進行收集、整理以及加工,再選定分析方法對數據展開多角度的分析工作,借此來將數據之間存在的可靠聯系與科學規律找出,輔助其他工作,在數據分析過程中,提煉出有價值的信息這個環節非常重要,在數據分析工作結束之后,工作人員還要對分析過程的各種工作情況進行整理,撰寫出詳細的數據分析報告 。
在開展數據分析工作時,分析人員一般會從數據挖掘方法與統計分析方法兩種方法之中選出合適的分析方法,數據分析結果與選定的分析方法存在極大的聯系,甚至會給分析結果的精準度帶去影響,因此可知選對分析方法的意義。
2 數據挖掘方法分析
分類分析:決策樹。決策樹是一種樹形結構,通過把實例從根節點排列到某個葉子節點來分類實例,葉子節點即為實例所屬的分類。常用的決策樹方法有C4.5、CART和Assistant。決策樹能生成可理解的規則,計算量相對較小,能夠清晰顯示比較重要的字段,但當類別太多時,錯誤也可能增加較快,比較難預測連續性的字段,在一般算法分類時,只根據一個屬性進行分類,這是其缺點。人工神經網絡。人工神經網絡是一種應用類似于大腦神經突觸聯接的結構進行信息處理的數學模型,它是數據挖掘中機器學習的典型代表。簡言之,“神經網絡”就是通過輸入多個非線性模型及不同模型之間的加權互聯,最終得到一個輸出模型。貝葉斯分類方法。貝葉斯分類方法主要用于預測類成員間關系的可能性,它是統計學的一種分類方法。在許多場合,樸素貝葉斯分類算法可以與決策樹和神經網絡分類算法相媲美,該算法能運用到大型數據庫中。
回歸分析。數據挖掘中的回歸分析主要是指多元線性回歸和邏輯斯蒂回歸,后者多在數據化運營中使用。多元線性回歸主要描述一個因變量如何隨著一批自變量的變化而變化,其回歸方程是因變量與自變量關系的數據反映,最常用的是最小二乘法,即找出一組對應自變量的相應參數,使得因變量的實際觀測值與回歸方程的預測值之間的總方差減到最小。
聚類分析。聚類分析是指當要分析的數據缺乏描述信息,或是無法組成任何分類模式時就采用聚類的方法,將組之間的差異識別出來,并對個別組內的相似樣本進行挑選,實現同組數據相近,不同組數據相異。
3 統計分析方法分析
描述性統計分析。描述性統計分析是通過圖標或數學方法,對數據資料進行整理、分析并對數據的分布狀態、數字特征和隨機變量之間的關系進行估計和描述的方法。它分為集中趨勢分析、離中趨勢分析和相關分析三大部分。集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。離中趨勢分析主要靠全距、四分差、方差、平均差、標準差等統計指標來研究數據的離中趨勢。相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象進行其相關方向及相關程度的研究。這種關系既包括兩個數據之間的單一相關關系,也包括多個數據之間的多重相關關系。
回歸分析。回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。按照涉及的自變量的多少,分為回歸和多重回歸分析;按照因變量的多少,分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,分為線性回歸分析和非線性回歸分析。這里講的回歸分析是指一元線性回歸,區別于數據挖掘方法中的多元線性回歸。
關聯分析。關聯分析又稱關聯挖掘,通過分析由定性變量構成的交互匯總表從大量數據中發現項集之間有趣的關聯和相關聯系。其基本思想就是將一個聯列表的行與列中各個元素的比例結構以點的形式在較低維的空間中表示出來。
因子分析。因子分析是指研究從變量群中提取共性因子的統計技術,即從大量的數據中尋找內在的聯系,減輕決策困難的分析方法。因子分析有重心法、最大似然揭發,最小平方法,拉奧典型抽因法等,都以相關系數矩陣為基礎。
方差分析。方差分析又稱“變異數分析”或“F檢驗”,用于兩個及兩個以上樣本均數差別的顯著性檢驗。研究所得的數據一般呈現波動狀。造成波動的原因可分成兩類,一類是不可控的隨機因素,另一類是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
4 兩種分析方法對比分析
前文詳細地介紹了數據挖掘方法與統計分析方法,對兩種類型的分析工作的實現途徑進行了詳細地解析,以下是對這兩種分析方法的對比情況。
從理論來源的角度來看,這兩種分析方法理論基礎都是統計基礎理論,在統計方法中的隨機事件與概率均來自于統計學,另外抽樣分析也與該理論存在聯系,而在數據挖掘系統之中應用的貝葉斯分類法也可以被看做是基礎統計理論的延伸,因此可以明確兩種分析方法雖然具有存在差異的分析途徑,但是卻具有同樣的理論研究基礎。
在分析實踐工作之中,兩種方法之間存在的差異就很明顯了,應用統計分析方法時,工作人員需要先給出判斷與假設,再應用其他的數據分析技術來對已有的判定以及假設進行驗證,在分析中會形成很多函數關系式,而選用數據挖掘技術時,工作人員會直接通過算法找尋數據間的主要聯系,并不需要應用大量的函數關系式,因此可知在處理數量較大的數據時可以有限選用數據挖掘技術。
5 結束語
本文重點介紹的兩種分析方法是當前的數據統計工作中應用頻次最高的分析方法。分析人員在不同的客觀分析條件之下可以選擇應用不同的方法,也可以按照分析工作的不同階段來對不同的分析方法加以與應用,先借助統計分析工作對數據進行整體性地處理,再通過數據挖掘技術對數據進行深度分析,本文還簡單地對兩種數據分析方法進行了對比,數據分析人員在方法選擇方面要保持一定的靈活性,規范地開展數據分析工作,切實將數據分析工作的作用在預測與方案制定等工作中發揮出來。
參考文獻:
[1]趙禹.(2016). 計算機數據分析常用方法與比較. 數字技術與應用(3), 256-256.
[2]梁萌, & 管陽. (2017). 基于并行數據庫的海量數據分析處理方法的研究. 電子設計工程, 25(10), 132-135.
[3]康曉鷹. (2017). 對計算機分析處理技術中的數據分析的探析. 中國培訓(2), 71-71.
[4]宋智廣. (2017). 基于計算機輔助設計的數據處理方法和裝置.CN 103810351 B.