劉桂洋
摘要:由于IT技術的不斷發展,導致不同行業都處于信息的轉型的過程中,然而不同行業都在挖掘大數據的價值以及不擇手段的讓這些這些價值利益最大化。因此很多企業都緊緊的抓住了大數據帶來的機遇,并巧妙的對待大數據帶來的各種挑戰,本文運用大數據的一些特點,具體的分析了科學數據分析工具主要面臨的問題,,介紹了大數據分析工具的發展,與R語言的對比分析,以及Rapid Miner(數據挖掘解決方案)、Mahout 三個相對較受歡迎的大數據分析工具進行對比之后、從中發現R語言和Rapid Miner的功能相對齊全,Mahout的強大數據分析能力,發現了科學數據分析工具的主要發展趨勢。
關鍵詞:數據科學;R語言;大數據
一、數據科學分析工具面臨的主要問題
大數據是數據科學的主要組成部分,其不僅為科教發展提供了巨大的機遇,同事也帶來了較大的科學項目問題。就像j.Gray所說,在技術領域的數據洪流,對建立新的研究基礎設施提出了挑戰,而對數據科學分析工具也提出了三大問題。
(一)數據格式的多樣性
目前在大數據時代,數據量正在快速增長,數據格式也變得形式多樣。常見的就是銀行和超市的數據采用的都是文本格式,YouTube的數據采用是圖像或者視頻的格式,數字手機的數據采用的是語音格式等等。除開傳統的關系數據,它還包括來自web頁面、互聯網日志、E-mail 、媒體論壇、非結構化和半結構化的大數據。因此,面對如此龐大和種類繁多的數據量,需要使用數據分析工具將結構化數據處理與非結構化數據方法相結合。
(二)傳統數據算法的失效
數據分析需要更好的算法來進行數據挖掘和分類聚類。而聚類算法并不是對數曲線(N log N)和線性的模式,而是特殊的N立方模式,當N非常大的時候,部分方法就會失敗。從而針對處理大量的數據時,會有部分傳統算法出現失敗的現象。因此,要發明一種具有收縮性強的方法來處理PB級的數據。此外,大數據都具有實時性這一的特點。因此大數據指標不只是算法的精度還要與實時性取得平衡。
(三)大規模的數據存在可視化性
解釋大量數據最主要的是可視化這一方法。根據對交互界面的支撐對可視化進行具體的分析,不僅可以對預測結果進行監控和驗證,還可以發現意料之外的內容,使可視化工具與數據分析保持平衡。大量的數據給可視化帶來了一些挑戰性的問題,可視化技術如今主要面臨可視化融合不同的多個異構的數據規模,和任務復雜的可伸縮性等問題。還有一些現場數據分析、算法、數據移動、不定性的數據量化、輸送和網絡構架等問題。對此,需要加大可視化技術的發展腳步,以支撐數據的集中和提取意義。
二、主要數據分析工具
由于數據科學分析工具的不斷發展,它們成功地解決了數據科學中的一系列問題,如算法失敗和大規模的數據可視化問題等但仍然存在一些優缺點。例如,Mahout擁有出色的大數據處理作用。它不僅處理的數據量大而且速度也相對較快,但是其可視化能力就相對較差了。對此,運用R語言、Rapid Miner和Mahout這三種數據科學分析工具,以概述的方式對它們的主要特點進行分析,具體如下。
(一)R語言是一種統計計算和繪圖的編程語言。其主要是運用命令式的工作形式,在GNU協議的源代碼幫助下免費下載和使用。R網站,提供的第三方數據程序包,其牽涉到經濟、社會、統計、生物信息等學科,這是其備受人們喜愛的原因之一,同時由于R的傳統分析軟件的可擴展性差、Hadoop的分析功能弱,相關人員也在全力的整合R語言和Hadoop。作為開源統計分析軟件,將R與Hadoop相結合,將數據計算進處理,Hadoop就可以具有深度分析的能力。
(二)Rapid Miner也叫數據挖掘解決方案。它可以運用簡便的腳本語言和JavaAPI與GUI模式進行大規模的操作。由于其GUI特性,使得初學者很容易上手。Rapid Miner 6有一個友好而強大的工具包,其能快速而穩定的對數據進行分析,并且還可以在短時間內設計出一個原型,以便快速的實現在數據挖掘過程中的關鍵決策。以降低客戶的流失,情緒分析,和幫助預測維護和營銷等。
(三)Apache Mahout創建于2008年,主要是為了提出精準的機器算法和創建一個具有收縮性是算法資源庫,其目的是為了協助研究人員方便快捷地創建出相關的智能程序。至今為止,Mahout的項目牽扯了頻繁是子項挖掘、歸類、收集和收搜引擎(協同過濾)。Mahout主要根據貝氏統計的兩種歸類方法。第一個是一個簡便的map-reduce歸類器。其主要是以精度和速度聞名,但其創建的數據都獨立存在的。第二種是樸素貝葉斯法,在保持樸素貝葉斯的簡單性和速度的同時,還修正了樸素貝葉斯一些不足的地方。
三、發展趨勢
基于以上對數據科學分析工具的詳細解說,以及其工具特性的要求得出數據科學分析工具主要有以下幾種發展趨勢:
(一)大數據的集體分析。數據科學分析工具的誕生是為了在大數據中能夠趕超海量數據的分析。然而,數據容量的價值以及其種類之的關系是密不可分的。通常來說,其數據量越多,數據種類就越多,其中的信息也隨之變多,同時其潛在價值也就越高。為達到全面的數據分析,發現新的、有價值的見解,需要數據科學的分析工具來全面分析龐大且種類繁多的數據格式。
(二)具有良好的可視化性。數據處理的主要問題是針對數據的分析,同時就算分析出結果是正確的,只有沒有進行準確的解釋,也會導致用戶很難理解其中的涵義。而可視化則可以全面的展現出分析結果,更方便接收關鍵的數據分析工具所輸送的信息。面對如今的大數據時代,數據量不僅大且還單調乏味,而可視化最好的方法就是幫助人們全面的挖掘數據中潛在的信息和知識。
(三)數據分析主要是以分布式為主的。以往的數據分析工具是無法超越海量數據分析的,因此為了提升系統的擴展性需要采用分布式的方法。然而,Hadoop已經成為當今大數據之王。分布式處理技術在一定程度上增加了數據分析的頻率和速度。在不久的將來,傳統的工具將被Mahout等分布式大數據處理工具取而代之,并成為主導地位。
四、結束語
在大數據時代,人們可以全力發揮科學技術的作用并對社會發展具有重要的作用。因此,需要不斷開發數據分析工具。高效、精準地挖掘數據中存在的有利價值,是數據分析工具的主要價值之一,也是其關鍵所在。隨著時間的推移,數據科學將成為一門具有完善的理論基礎和學科技術的專業,并得到群眾的認可。同時大部分高校也會設立指定的專業,創造大量與之相關的新的就業崗位。在不久的將來,相關人才肯定會供不應求。
參考文獻
[1]朝樂門[1,2],邢春曉[3,4,5],張勇[3,4,5].數據科學研究的現狀與趨勢[J].計算機科學,2018,45(1):1-13.
[2]曹瑞雪,馬英紅,李海洋,等.基于SCOPUS的數據科學發展現狀與趨勢分析[J].計算機與數字工程,2019,47(4).