吳哲
摘要:當今社會已經進入了大數據時代,隨著數據獲取、存儲等技術的不斷發展,以及人們對數據的重視程度不斷提高,大數據得到了廣泛的重視,不僅僅在IT領域,包括經濟學領域、醫療領域、營銷領域等。本文主要從大數據分析的方法理論入手,對現今各行各業即將運用的大數據處理方法進行研究,總結出一種較適用的大數據分析方法及其應用,以供行業和企業在未來的業務活動中作參考。
關鍵詞:預測分析;大數據處理;大數據應用;數據挖掘
1引言
時至今日,大數據并沒有特別公認的定義。有三個不同角度的定義:(1)“大數據”指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息[1]。(2)“大數據”指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理的方法的數據[2]。(3)“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
2 大數據處理方法
我們認為大數據價值鏈可分為4個階段:數據生成、數據采集、數據儲存以及數據分析。數據分析是大數據分析中最重要的一環同樣也是價值鏈的最后,實現了大數據的價值,也是大數據應用的基礎,其目的在于提取有用的信息,在根據現有的理論上對未來進行合理預判,提供論斷建議或支持決策,通過對不同領域數據集的分析可能會產生不同級別的潛在價值。
傳統數據分析是指用適當的統計方法對收集來的大量數據進行分析,把一大批雜亂無章的數據中的信息提取出來,找出研究對象的內在規律,以求最大化地開發數據資料的信息,發揮數據的作用。從小的方面說數據分析對于企業了解顧客需求、把握未來市場動態走勢都有一定的指導作用。從大的方面來說數據分析對于國家制定發展計劃,預判政局形式均有一定的可信度。
以下介紹大數據分析中所用的傳統分析方法:
(1)聚類分析
聚類分析是劃分對象的統計學方法,指把具有某種相似特征的物體或者事物歸為一類。聚類分析的目的在于辨別在某些性質上相似的事物,并按這些特性將樣本劃分成若干類,使同類事物有著相似點很多,不同類的事物則有高度的異質性。這樣在研究事物時更加容易從中挖掘有用信息,便于研究。
(2)因子分析
因子分析的基本概念就是用少數幾個因子去描述許多因素之間的聯系,類似于數學中的替換概念。將比較密切的幾個變量歸在一個因子中,因子是不可觀測的,不是具體的變量,用較少的幾個因子反映原始數據的大部分信息。
(3)相關分析
相關分析法是測定事物之間相關關系的規律性并據以進行預測和控制的分析方法。社會經濟形象之間存在著大量的相互聯系、相互依賴、相互制約的數量關系。這種關系可分為兩種類型。一類是函數關系,它反映著現象之間嚴格的依存關系,也稱確定性的依存關系。在這種關系中,對于變量的每一個數值,都有一個或幾個確定的值與之對應。另一類為相關關系,在這種關系中,變量之間存在著不確定、不嚴格的依存關系,對于變量的某個數值,可以有另一變量的若干數值與之相對應,這若干個數值圍繞著它們的平均數呈現出有規律的波動。
(4)回歸分析
回歸分析是研究一個變量與其他若干變量之間相關關系的一種數學工具,它是在一組實驗或觀測數據的基礎上,尋找被隨機性掩蓋了的變量之間的依存關系。通過回歸分析,可以把變量間的復雜的、不確定的關系變得簡單化、有規律化。
(5)A/B測試
也稱為水桶測試,通過對比測試群體,確定哪種方案能提高目標變量的技術。大數據可以使大量的測試被執行和分析,保證這個群體有足夠的規模來檢測控制組和治療組之間有意義的區別.
(6)數據挖掘。更為深入的數據分析就需要利用到數據挖掘技術,實現一些高級別的數據分析需求。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘主要用于完成以下6種不同任務,同時也對應著不同的分析方法:分類、估值、預言、相關性分組或關聯規則、聚集、描述和可視化。
3 大數據分析在行業活動中的應用
非結構數據處理和數據挖掘的應用范圍較廣,它可能應用于運營商、銀行、傳統企業和電商,挑選幾個具有代表性的案例與大家分享。
3.1 電信行業
某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。
3.2 地產行業
某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體數據,進行網絡口碑監測,負面情緒被及時地發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。
3.3 證券行業
某證券商戰略信息監測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產品相關信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數與趨勢對應曲線可以看到歷史相似天氣與歷史趨勢的對照。
3.4 金融行業
某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估,這些數據指數可以有效協助商業銀行進行供應商風險評估。
4 結語
(1)巨大風險
大數據在給我提供便利的同時也伴隨著巨大風險。它使得目前用以保護隱私的法律手段和核心技術失去了效果。過去個人身份信息包括名字、身份證號、稅收記錄等,構成簡單。而今天,即使是最無害的數據,只要被數據收集器采集到足夠的數量,也會暴露出個人身份信息。匿名或者單純的隱藏已不再適用。不僅如此,現在要是對某人進行監督,必定會侵犯到較之以往范圍更廣的個人隱私內容。
(2)未來展望
應對大數據我們沒有萬無一失的方法,必須建立規范自身的新準則,我們可以改變一系列的慣例來幫助社會應對這種沖擊。我們需要把進行隱私保護的責任從個人轉移到數據使用者的身上,也就是說,數據使用者應該以負責人的態度使用數據。大數據并不是一個充滿算法的機器和冰冷世界,人類的作用依然無法被替代。大數據為我們提供的不是最終答案,只是參考答案,幫助也是暫時的,而更好的方法、答案還在不久的未來。
參考文獻
[1] 王克迪. 數據、大數據及其本質[N]. 學習時報,2015-09-14.
[2] 王惠.大數據時代下數據分析理念研究[J].中國市場,2015(22):74.
[3] 高志鵬,牛琨,劉杰.面向大數據的分析技術[J].北京郵電大學學報,2015(3):1-12.