孟雪井 李宏飛 楊亞飛
摘要:大數據時代,各種數據層出不窮,如何從海量數據中挖掘有效信息并加以利用,是各行各業面臨的重要問題。統計軟件在數據處理過程中起到至關重要的作用。結合大數據的數據特征,本文從數據處理的角度,介紹了常用軟件Excel、Eviews、SPSS、Stata、SAS、R及Python在數據整理與分析過程中各自的優勢和不足,為數據分析工作者提供參考。
關鍵詞:大數據;統計軟件;數據分析
中圖分類號:TP393.4 文獻識別碼:A 文章編號:1001-828X(2016)012-000-01
在大數據時代,每個人身邊都存在著海量、豐富可深入挖掘的數據,人人生產數據,時時產生數據。大數據一般分為結構化數據、半結構化數據和非結構化數據,大體上,結構化數據占10%、半結構化數據占5%、非結構化數據占85%,包括各種格式的辦公文本、圖片、報表、音頻、視頻等。對統計學習而言,最大的考驗是如何對這些海量的數據信息進行充分的開發,找出數據之間隱藏的規律與關系。
首先對于結構化的數據,一般基礎數據分析用Excel等統計軟件,既可滿足基礎要求;大數據分析用Eviews,SPSS,Stata,SAS,R,Python等,其中R和Python對于半結構化數據和非結構化數據的挖掘和分析有很好的應用。下面對各軟件在大數據分析中的特點進行簡單介紹:
Excel電子表格是Microsoft公司推出的Office系列產品之一,是一個功能強大的電子表格軟件。特點是對表格的管理和統計圖制作功能強大,容易操作。Excel的數據分析插件XLSTAT,也能進行數據統計分析,但不足的是運算速度慢,統計方法不全,因此Excel在大數據分析中存在一定的局限性,但適合一些基礎的數據處理。
Eviews是美國QMS公司研制的在Windows下專門從事數據分析、回歸分析和預測的工具。使用Eviews可以迅速地從數據中尋找出統計關系,并用得到的關系去預測數據的未來值。Eviews處理回歸方程是它的長處,能處理一般的回歸包括多元回歸問題。不過這個軟件的劣勢在于它的黑箱式的處理過程,出來的結果可能會不夠精確,有的人可能會為得到一些結論而偽造一些結果,可信度不是很高。在大數據分析中Eviews只適合時間序列數據的分析。
SPSS由美國斯坦福大學的三位研究生研制。SPSS系統特點是操作比較方便,統計方法比較齊全,繪制圖形、表格較有方便,輸出結果比較直觀。SPSS在橫截面數據的分析中有很大的優勢,適合進行從事社會學調查中的大數據分析處理。另外,值得一提的是,最新版的SPSS采用DAA(Distributed Analysis Architecture,分布式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告,使SPSS更加適應大數據的潮流。
Stata統計軟件由美國計算機資源中心(Computer Resource Center)1985年研制。特點是采用命令操作,程序容量較小,統計分析方法較齊全,計算結果的輸出形式簡潔,繪出的圖形精美。不足之處是數據的兼容性差,占內存空間較大,數據管理功能需要加強,這使得Stata在大數據分析中處于不利地位,但是相較于Eviews和SPSS,Stata在面板數據分析的優勢是毋庸置疑的,Stata更加適合大數據中的面板數據分析。
SAS軟件在數據挖掘上具有優勢,其板塊的獨特功能為大數據分析提供了利器。對于不熟悉計算機編程語言的統計學習者可使用SAS。SAS軟件的EM模塊及sas base擁有強大的數據處理功能。在SAS的EM模塊中,包含了數據處理、模型建立、簡單算法等豐富的數據處理功能。例如對獲取的數據可進行再次抽樣,抽樣的方式是多種多樣的,有:隨機抽樣、等距抽樣、分層抽樣、從起始順序抽樣和分類抽樣等方式。而且抽樣的過程不需要程序運行,只需要建立流程圖即可。更加復雜的數據模型如生存分析、神經網絡、SVM、決策樹、MBR等可以在數據建模中添加節點來進行。在對數據進行分析以后,SAS會導出程序記錄和最后結果。盡管SAS有眾多優良特性,但其并非腳本語言,所以它在數據運行上占有CPU較高,特別在使用EM模塊時,花費的時間相對較長。
Python和R都是開源軟件,相較于上述軟件,在大數據分析中有著絕對的優勢。Python的網絡爬蟲及R的RCurl包、Rweibo包等都可以進行網絡數據和文本挖掘,對非結構性數據亦能進行分析處理。眾多的R語言包使得其在數據可視化方面也有著很大的優勢。Python和R各有其特點:
R的優勢在于有包羅萬象的統計函數可以調用,特別是在時間序列分析方面(主要用在金融分析與趨勢預測)無論是經典還是前沿的方法都有相應的包直接使用;相比python在這方面貧乏不少。
Python的優勢在于其膠水語言的特性,一些底層用C寫的算法封裝在python包里后性能非常高效(例如:Python的數據挖掘包Orange canve中的決策樹分析50萬用戶10秒出結果,用R幾個小時也出不來,8G內存全部占滿)。
Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過數據庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。因此,在大數據分析中,Python更適合對海量數據的處理,而R更適合對數據的統計分析。
目前,最流行的數據分析軟件是R。KDnuggets網站每年會做一些數據分析和數據挖掘軟件使用的專題問卷調查。據該網站2011年對570個數據挖掘和數據分析的工作者關于過去12個月數據挖掘和數據分析所使用的編程語言的調查顯示,R語言排名第一,所占比例近一半(45%)。免費是R流行開來的最大的一個因素,現在還有很多人使用SPSS或SAS,但大都用的是盜版軟件。R擁有出色的可視化圖形、豐富的統計方法及高效的更新速度,由一個龐大而活躍的全球性社區維護,使用R的人分布在各個研究領域,任何做數據分析的工作者都應該學會使用R。
參考文獻:
[1]方匡南,朱建平,姜葉飛.R數據分析:方法與案例詳解[M].電子工業出版社,2015.
[2]維克托·邁爾·舍恩伯格,肯尼思·庫克耶著,盛楊燕,周濤譯.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社.2013.
作者簡介:孟雪井(1985-),女,漢族,安徽淮北人,博士,講師,研究方向:金融統計。
課題:國家社科基金項目“大數據背景下金融統計方法研究”(14CTJ008)
基金資助:國家社會科學基金資助項目(14CTJ008);中國博士后科學基金第58批面上資助項目(2015M582317)。