夏磊
摘 要:人類發明計算機以來就一直利用它進行數據相關性分析,從這個意義上來說現在的所謂“大數據分析”和之前的數據分析是一樣的,只是原來的算法對處理上千個維度這樣復雜數據模型時顯得力不從心。從2006年以來,隨著算法上的一系列突破再加上廉價計算能力的普及,人們終于有能力分析這些復雜的數據模型,于是大數據這個概念就誕生了。該文主要對通過對數據分析和大數據進行論述,探究大數據下的智能數據分析技術。
關鍵詞:大數據 智能 數據分析
中圖分類號:F503 文獻標識碼:A 文章編號:1674-098X(2014)04(a)-0021-01
對于數據分析來說,其主要的目的就是通過對數據的分析去發現問題或預測趨勢。從數據鉆取、大規模分析的技術手段、以及算法執行上來說,大規模分析是和小規模數據在技術上是有很大差異的。想要探究大數據下的智能數據分析技術,首先要對數據分析這一概念進行深入研究。
1 數據分析
數據分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業來說,最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業會有不同的相關的KPI需要跟蹤,所以報告的內容也會有所側重,但是只要你一個行業做久了,熟悉了套路之后,基本上就是以同樣的方法開展。
對于數據分析,如果公司部門分的比較細的(例如可能有建模組),那么做數據分析可能永遠都是做data processing了。對于模型的分析,需要你對業務有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數據分析主要涉及的技能:
(1)數據庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。
(2)EXCEL、PPT的能力。報告的呈現一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉化為自動化的能力,提高工作效率,領導也對你刮目相看,自己也有更多空余的時間準備其他方面的知識。
(3)市場分析能力。學會觀察市場的走向和關注的內容,例如零售行業,現在大家都對CRM很熱衷,那相關的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學會去增長知識。
(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內容,最后還是公司盈利問題。有興趣的也可以去看看戰略管理方面的,對于做數據分析也很有好處的說。
綜合來看,可以說數據分析=技術+市場+戰略。
2 如何培養數據分析能力
理論:
基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;
(2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;
(3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:
(1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來干嘛的;
(2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;
(3)了解數據的定義和獲取。最好從數據最初是怎么獲取的開始了解,當然指標的統計邏輯和規則是必須熟記于心的,不然很容易就被數據給坑了;
(4)最后就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。
3 大數據
大數據就是通過統計分析計算機收集的數據,在人們可能不知道“為什么”的前提下,了解到事物的狀態、趨勢、結果等“是什么”。
對于大數據,一直來說,數據規模導致的存儲、運算等技術問題從來不是最重要的瓶頸。瓶頸只在于前端數據的收集途徑,以及后端商業思想引領的模型和算法問題。早期的各類OLAP工具已經足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數據的架構成本和門檻,就徹底將大數據帶入了一個普及的領域。
從技術層面說,大數據和以前的數據時代的最大差異在于,以前是數據找應用/算法的過程(例如各大銀行的大集中項目,以及數據建倉),而大數據時代的重要技術特征之一,是應用/算法去找數據的過程,因為數據規模變成了技術上最大的挑戰。
大數據的特點:
(1)大數據不等同于數據大,我們處理問題是根據這個問題的所有數據而非樣本數據,即樣本就是總體;不是精確性而是混雜性;不是因果關系而是相關關系。
(2)大數據應用的幾個可能:當文字變成數據,此時人可以用之閱讀,機器可以用之分析;當方位變成數據,商業廣告,疫情傳染監控,雅安地震時的谷歌尋人;當溝通變成數據,就成了社交圖譜。一切都可以量化,將世界看作可以理解的數據的海洋,為我們提供了一個從來未有過的審視現實的視角。
(3)數據創新的價值:數據的再利用。例如重組數據:隨著大數據出現,數據的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數據:在設計數據收集時就設計好了它的可擴展性,可以增加數據的潛在價值;數據的折舊值:數據會無用,需淘汰更新;數據廢氣:比如語音識別,當用戶指出語音識別程序誤解了他的意思,實際上就有效的訓練了這個系統。
總之,大數據是因為對它的分析使用,才產生和體現它的價值,而不是因為其用到了突出的技術和算法才體現了它的價值。
4 大數據下的智能數據分析
在大數據的背景下,必須考慮數據之間的關聯性。一個單獨的數據是沒有意義的,實際中,選擇處在兩個極端的數據往往更容易找出它們之間的聯系,把它們放在一個框架中看才能發現問題。因此,可以用以下四種方法在大數據背景下進行智能數據分析:
(1)從解決問題的角度出發收集數據;
(2)把收集的數據整理好,放入一個框架內,并利用這個框架幫助決策者做出決定;
(3)評估決定與行動的效果,這將告訴我們框架是否合理;
(4)如果有新的數據出現,我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數據。
5 結語
數據分析的最終目的是幫助業務發現問題并解決問題,提升公司價值,而這些是從數據發覺的,而不是盲目下結論。每家公司都有自己業務生產的數據,通過數據分析、同比環比、漏斗分析及模型等,發現業務上存在的問題,幫助公司業務的優化。
參考文獻
[1] 李貴兵,羅洪.大數據下的智能數據分析技術研究[J].科技資訊,2013(30).
[2] 魏凱.大數據的技術挑戰及發展趨勢[J].信息通信技術,2013(6).
[3] 于艷華,宋美娜.大數據[J].中興通訊技術,2013(1).endprint