陳明
摘要:大數據分析是大數據技術的主要應用之一。文章介紹大數據分析的基本方法、類型、步驟、內容和預測分析等。
關鍵詞:數據分析;預測分析;大數據分析
1.概述
數據分析是指收集、處理數據并獲取信息的過程。具體地說,數據分析是建立審計分析模型,對數據進行核對、檢查、復算、判斷等操作,將被審計數據的現實狀態與理想狀態進行比較,從而發現審計線索,搜集審計證據的過程。通過數據分析,我們可以將隱沒在雜亂無章的數據中的信息集中、萃取和提煉,進而找出所研究對象的內在規律。
數據分析有極廣泛的應用范圍。在產品的整個生命周期內,數據分析過程是質量管理體系的支持過程,包括從產品的市場調研到售后服務以及最終處置都需要適當運用數據分析,以提升有效性。如一個企業領導人通過市場調查,分析所得數據判定市場動向,從而制訂合適的生產及銷售計劃。
2.數據分析的基本方法
數據分析的基本方法除了包括較簡單數學運算之外,還包含下述幾種常用方法。
2.1統計
統計有合計、總計之意,指對某一現象的有關數據進行搜集、整理、計算、分析、解釋、表述等。在實際應用中,統計含義一般包括統計工作、統計資料和統計科學。
(1)統計工作。統計工作指利用科學方法對相關數據進行搜集、整理和分析并提供關于社會經濟現象數量資料的工作的總稱,是統計的基礎。統計工作也稱統計實踐或統計活動。現實生活中,統計工作作為一種認識社會經濟現象總體和自然現象總體的實踐過程,一般包括統計設計、統計調查、統計整理和統計分析4個環節。
(2)統計資料。統計資料又稱為統計信息,是反映一定社會經濟現象總體或自然現象總體的特征或規律的數字資料、文字資料、圖表資料及其他相關資料的總稱。統計資料是通過統計工作獲得反映社會經濟現象的數據資料的總稱,反映在統計表、統計圖、統計手冊、統計年鑒、統計資料匯編、統計分析報告和其他有關統計信息的載體中。統計資料也包括調查取得的原始資料和經過整理、加工的次級資料。
(3)統計學。統計學是統計工作經驗的總結和理論概括,是系統化的知識體系,主要研究搜集、整理和分析統計資料的理論與方法。統計學利用概率論建立數學模型,收集所觀察系統的數據,進行量化分析與總結,進而推斷和預測,為相關決策提供依據和參考。
統計分析的流程是確定分析目標,收集、整理和分析數據,提出分析報告。
2.2快速傅里葉變換
1965年,Cooley和Tukey提出了計算離散傅里葉變換(DFT)的快速算法——快速傅氏變換(FFT)。FFT根據DFT的奇、偶、虛、實等特性,對離散傅立葉變換的算法進行改進,將DFT的運算量減少了幾個數量級。從此,數字信號處理這門新興學科也隨FFT的出現和發展而迅速發展。根據對序列分解與選取方法的不同而產生了FFT的多種算法,基本算法是基2DIT和基2DIF。FFT在離散傅里葉反變換、線性卷積和線性相關等方面也有重要應用。
2.3平滑和濾波
平滑和濾波是低頻增強的空間域濾波技術,其目的是模糊和消除噪音。空間域的平滑和濾波一般采用簡單平均法進行,就是求鄰近像元點的平均亮度值。鄰域的大小與平滑的效果直接相關,鄰域越大,平滑的效果越好,但鄰域過大,平滑會使邊緣信息損失增大,從而使輸出的圖像變得模糊,因此需合理選擇鄰域的大小。
2.4基線和峰值
基線是項目儲存庫中每個工件版本在特定時期的一個快照。它提供一個正式標準,隨后的工作基于此標準,只有經過授權后才能變更這個標準。建立一個初始基線后,每次對其進行的變更都將記錄為一個差值,直到建成下一個基線。
峰值功率就是最高能支持的功率。電源的峰值功率指電源短時問內能達到的最大功率,通常僅能維持30s左右的時間。一般情況下電源峰值功率可以超過最大輸出功率50%左右,由于硬盤在啟動狀態下所需要的能量遠遠大于其正常工作時的數值,因此系統經常利用這一緩沖為硬盤提供啟動所需的電流,啟動到全速后就會恢復到正常水平。峰值功率沒有什么實際意義,因為電源一般不能在峰值輸出時穩定工作。
2.5列表與作圖
(1)列表。將實驗數據按一定規律用列表方式表達出來是記錄和處理實驗數據最常用的方法。表格的設計要求對應關系清楚,簡單明了,有利于發現相關量之間的物理關系;此外還要求在表欄中注明物理量名稱、符號、數量級和單位等;根據需要還可以列出除原始數據以外的計算欄目和統計欄目等;最后還要求寫明表格名稱,主要測量儀器的型號、量程和準確度等級,有關環境條件參數(如溫度、濕度)等。
(2)作圖。作圖可以顯式地表達物理量間的變化關系。從圖線上還可以簡便求出實驗需要的某些結果,如直線的斜率和截距值等,讀出沒有進行觀測的對應點(內插法),或在一定條件下從圖線的延伸部分讀到測量范圍以外的對應點(外推法)。此外,還可以把某些復雜的函數關系通過一定的變換用直線圖表示出來。
3.數據分析的類型
3.1探索性數據分析
探索性數據分析是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統汁學假設檢驗手段的補充。探索性數據分析側重于在數據之中發現新的特征。
3.2定性數據分析
定性數據分析又稱為定性資料分析,是指定性研究照片、觀察結果等非數值型數據(或者說資料)的分析。
3.3離線數據分析
離線數據分析用于較復雜和耗時的數據分析和處理。由于大數據的數據量已經遠遠超出單個計算機的存儲和處理能力,離線數據分析通常構建在云計算平臺之上,如開源的Hadoop的HDFS文件系統和MapReduce運算框架。Hadoop機群包含數百臺乃至數千臺服務器,存儲了數PB乃至數十PB的數據,每天運行著成千上萬的離線數據分析作業,每個作業處理幾百MB到幾百TB甚至更多的數據,運行時問為幾分鐘、幾個小時、幾天甚至更長。endprint
3.4在線數據分析
在線數據分析(OLAP,也稱為聯機分析處理)用來處理用戶的在線請求,它對響應時間的要求比較高(通常不超過若干秒)。與離線數據分析相比,在線數據分析能夠實時處理用戶的請求,允許用戶隨時更改分析的約束和限制條件。盡管與離線數據分析相比,在線數據分析能夠處理的數據量要小得多,但隨著技術的發展,當前的在線分析系統已經能夠實時地處理數千萬條甚至數億條記錄。傳統的在線數據分析系統構建在以關系數據庫為核心的數據倉庫之上,而在線大數據分析系統構建在云計算平臺的NoSQLm系統上。如果沒有大數據的在線分析和處理,則無法存儲和索引數量龐大的互聯網網頁,就不會有當今的高效搜索引擎,也不會有構建在大數據處理基礎上的微博、博客、社交網絡等的蓬勃發展。
4.數據分析步驟
最初的數據可能雜亂無章且無規律,要通過作圖、造表和各種形式的擬合來計算某些特征量,探索規律性的可能形式。這就需要研究用何種方式去尋找和揭示隱含在數據中的規律性。首先在探索性分析的基礎上提出幾種模型,再通過進一步的分析從中選擇所需的模型。通常使用數理統計方法對所選定模型或估計的可靠程度和精確程度作出推斷,數據分析的具體步驟如下。
(1)識別信息需求。識別信息需求可以為收集數據、分析數據提供清晰的目標,是確保數據分析過程有效性的首要條件。
(2)收集數據。有目的的收集數據是確保數據分析過程有效的基礎,需要對收集數據的內容、渠道、方法進行策劃,主要考慮:①將識別信息需求轉化為更具體的要求,如評價供方時,需要收集的數據可能包括其過程能力、測量系統不確定性等相關數據;②明確由誰在何時何處,通過何種渠道和方法收集數據;③記錄表應便于使用;④采取有效措施,防止數據丟失和虛假數據對系統的干擾。
(3)分析數據。分析數據是指將收集到的數據通過加工、整理和分析后,將其轉化為信息的過程。常用的分析數據方法有排列圖、因果圖、分層法、調查表、散布圖、直方圖、控制圖、關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖。
5.大數據分析基礎
大數據分析是指對規模巨大的數據進行分析,在研究大量的數據的過程中尋找模式、相關性和其他有用的信息,可以幫助需求者更好地適應變化,做出更明智的決策。
5.1可視化分析
大數據分析的使用者有大數據分析專家和普通用戶,他們對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀地呈現大數據特點,讓數據自己說明,讓觀者看到結果。
5.2數據挖掘
大數據分析的理論核心就是數據挖掘。各種數據挖掘的算法基于不同的數據類型和格式能更加科學地呈現出數據本身的特點,能更快速地處理大數據。如果采用一個算法需要花好幾年才能得出結論,那大數據的價值也就無從說起了。可視化是給人看的,數據挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入數據內部去挖掘價值。這些算法不僅能夠處理大數據的數據量,也一定程度地滿足處理大數據的速度要求。
5.3預測性分析
預測性分析可以讓分析員根據可視化分析和數據挖掘的結果作出預測性判斷。
5.4語義引擎
由于非結構化數據與異構數據等的多樣性帶來了數據分析的新的挑戰與困難,需要一系列的工具去解析、提取、分析數據。語義引擎需要被設計成能夠從文檔中智能提取信息,使之能從大數據中挖掘出特點,通過科學建模和輸入新的數據,從而預測未來的數據。
5.5數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量數據和有效的數據管理能夠保證分析結果的真實和有價值。
6.大數據預測分析
預測分析是大數據技術的核心應用,如電子商務網站通過數據預測顧客是否會購買推薦的產品,信貸公司通過數據預測借款人是否會違約,執法部門用大數據預測特定地點發生犯罪的可能性,交通部門利用數據預測交通流量等。預測是人類本能的一部分,只有通過大數據分析才能獲取智能的、有價值的信息。越來越多的應用涉及到大數據,大數據的屬性描述了不斷增長的存儲數據的復雜性。大數據預測分析突破了預測分析一直是象牙塔里統計學家和數據科學家的工作,隨著大數據的出現,并整合到現有的BI、CRM、ERP和其他關鍵業務系統,大數據預測分析將起到越來越重要的作用。
6.1大數據預測分析要素
大數據預測分析可幫助企業作出正確而果斷的業務決策,讓客戶更開心,同時避免災難的發生,這是眾多數據分析者的終極夢想,但是預測分析也是一個困難的任務。實施成功的預測分析有賴于以下要素。
(1)數據質量。數據是預測分析的血液。數據通常來自內部數據,如客戶交易數據和生產數據,但我們還需要補充外部數據源,如行業市場數據、社交網絡數據和其他統計數據。與流行的技術觀點不同,這些外部數據未必一定是大數據。數據中的變量是否有助于有效預測才是關鍵所在。總之,數據越多,相關度和質量越高,找出原因和結果的可能性越大。
(2)數據科學家。數據科學家必須理解業務需求和業務目標,審視數據,并圍繞業務日標建立預測分析規則,如如何增加電子商務的銷售額、保持生產線的正常運轉、防止庫存短缺等。數據科學家需要擁有數學、統計學等多個領域的知識。
(3)預測分析軟件。數據科學家必須借助預測分析軟件來評估分析模型和規則,預測分析軟件通過整合統計分析和機器學習算法發揮作用,,需要一些專門的大數據處理平臺(如Hadoop)或數據庫分析機(如Oracle Exadata)等來完成。
(4)運營軟件。找到了合適的預測規則并將其植入應用,就能以某種方式產生代碼,預測規則也能通過業務規則管理系統和復雜事件處理平臺進行優化。endprint
6.2大數據預測分析相關問題
大數據預測分析應用廣泛。大數據將組群分析和回歸分析等較常用的工具交到日常管理人員手中,然后可以使用非交易數據來作出戰略性的長期的業務決定。客戶服務代表可以獨立決定一個問題客戶是否值得保留或者升級,銷售人員可以基于人們對零售商在網站上的評價來調整零售商的產品量。大數據并不是要取代傳統BI工具,而是讓BI更有價值和更有利于業務發展。在顱測中,雖然具有相關性,并不存在因果關系。如果仔細地查看使用收集到的歷史交易數據,就會發現最新定位活動更傾向于參考來自大數據技術處理的結果。
1)分析社交媒體中的非結構數據。
社交媒體中存在很大的商機,需要結合大數據開源技術、摩爾定律、商品硬件、云計算以及捕捉和存儲大量非交易數據來實現預測目的。預測者將大數據中非結構化數據(如視頻和電子郵件)、來自各種引擎獲得的信息(追蹤用戶對品牌的評價)和現有結構化客戶數據結合起來,通過博客和用戶論壇與地理數據相關聯,運用上述技術。可以獲得強大的預測能力。
2)縮短大數據分析時間。
運用大數據分析可以縮短預測時間,數據科學家過去需要用幾個月來建立查詢或模型來回答關于供應鏈或生產計劃的業務問題,現在只需要幾個小時就可以完成,其原因是大數據技術可以自動化建模與自動執行。
3)非結構化數據與數據倉庫的數據不同。
僅用一種技術完成大數據預測分析比較困難,應融合各種技術。傳統的數據倉庫系統是從關系型數據庫中獲取數據,而今超過80%的數據是非結構化數據,無法轉化為關系型數據庫中的數據,傳統的數據倉庫技術對非結構化數據的處理無法滿足需求。所以,需要存儲管理人員更快地跟上技術發展,更新自己的技術和知識結構,提高對大數據的管理和分析能力,從非結構化數據類型中抽取有價值的信息。
7.大數據分析的發展方向
新的數據分析范型是目標導向,不關心數據的來源和格式,能夠無縫處理結構化、非結構化和半結構化數據,將取代傳統的BI-ETL-EDW范型。新的數據分析范型能夠輸出有效結果,提供去黑箱化的預測分析服務,可以面向更廣泛地普通員工快速部署分析應用。Hadoop和NoSQL正在占領大數據的管理方式,R和Stata語言沖擊了傳統的黑箱式分析方法。R是一種自由軟件,是為統計計算和圖形顯示而設計的語言及環境,其特點是免費且功能強大。Stata是一個用于分析和管理數據的功能強大的統計分析軟件。我們將從以下3個方面推動大數據分析的發展。
1)數據管理。
Hadoop已成為企業管理大數據的基礎支撐平臺。隨著Greenplum Pivotal HD、HortonworksStinger和Cloudera的Impala的發布,Hadoop的技術創新速度正在加快,它在Hadoop HDFS之上提供實時、互動的查詢服務,將眾所周知的SQL查詢處理與具備指數級擴展能力的HDFS存儲架構整合到一起。
2)去黑箱化。
預測分析是管理者進行數據化決策的關鍵。預測分析面臨的最大問題是黑箱化問題。隨著越來越多地憑借預測分析技術作出重大決策,預測分析技術需要去黑箱化,主要包括應用的數據表示、對底層數學和算法解釋等。去黑箱化有利于管理者掌握數據分析工具,不但使管理者看到數據分析結果,還知道如何得到的分析結果和分析工具的設計原理等。
3)應用普及。
即使實現了分析的去黑箱化,數據分析應用在企業中的部署依然面臨能否發布可復用應用、創建最佳實踐、組織范圍內的橫向協作、無縫重組模型等問題,能否在最終用戶(員工)中應用普及是數據分析成功的關鍵。
8.結語
大數據處理數據的基本理念是用全體代替抽樣,用效率代替絕對精確,用相關代替因果。通信、互聯網、金融等行業每天產生巨大的數據量,大數據分析已成為大數據技術最重要的應用,它從大數據中提取、挖掘對業務發展有價值的、潛在的知識,找出趨勢,為決策層提供有力依據,對產品或服務發展方向起到積極作用,將有力推動企業內部的科學化、信息化管理。endprint