廣東工業大學 邱耀儒 沈 明
云計算的產生,使得數據的存儲費用大幅度的降低。數據由專門的互聯網公司管理,在提高了數據存儲的安全性和數據傳輸的暢通性的同時,降低了維護的費用。有了大量的數據,如何對數據進行分析,發現數據間的關聯和價值,是大數據時代所要面臨的挑戰。
由于收集到的數據大部分是非標準的數據,所以在進行數據分析之前要先將數據轉化為結構化數據才能對數據進行分析。非結構化數據的形式多種多樣,標準也是多樣的,同時,技術上非結構化信息比結構化信息更難標準化和理解。
數據質量高低決定了數據的潛在價值,數據的質量主要通過信息的準確性、完整性和一致性三方面來判斷,但是原始數據往往不具備。因此數據的清洗是對數據進行分析的必要準備。在實際操作中,數據清洗工作通常會占據分析過程的50%-80%的時間。關于數據清洗的流程大概步驟如圖1所示。

圖1 關于數據清洗的流程大概步驟
預處理階段主要是將數據導入處理工具,由于進行分析的算法大部分都是要進行向量化和標準化,所以建議使用傳統的關系性數據庫。在數據導入處理工具之后,需要了解原數據中的各類描述性信息,為數據的分析做準備。
數據分析是大數據處理的核心步驟[1],通過數據清洗,得到了標準化的數據后,需要從業務角度出發,提取數據的特征,抽象出數據的模型。利用統計學習方法基于數據構建統計模型從而對數據進行預測與分析。根據業務要求的需要,選擇合適類型的機器學習算法,如分類、回歸、聚類等類型的算法。可以利用python或R語言等數據分析熱門編程語言編寫算法,然后為選定的算法準備特定的數據格式。將數據輸入到模型中,最后得出分析的結果。參考分析結果可用于決策支持、商業智能、推薦系統、預測系統等方面。
大數據時代將決策由目標驅動型轉為數據驅動型,根據數據分析的結果靈活的調整企業內部結構,有利于實現企業管理合理化、高效化的進程。信貸機構可以對客戶信息進行評估,分析客戶的償還能力來決定是否給予客戶貸款,以此來降低壞賬風險。廣告公司可以通過數據分析結果精準定位目標用戶,從而進行精準的廣告投放,節約廣告主的廣告成本的同時提高收益。
大數據正在改變著人們的工作、生活與思維模式[2],進而對文化、技術和學術研究產生深遠影響。大數據帶來的挑戰不在于數據的獲得、存儲、計算,而是如何將數據轉化為可利用的數據。
[1]王鵬.云計算與大數據技術[M].北京:人民郵電出版社,2014:10-17.
[2]John Walker S.Big data:A revolution that will transform how we live,work,and think[J].2014.