王佳音
摘要:數據分析是指用適當的統計方法對收集到的數據進行分析,將它們加以匯總和理解并消化,以求最大地開發數據的功能,發揮數據的作用。不論是哪個領域,產生數據的量都是十分龐大的,如果可以挖掘其中的價值,就必然會獲得巨大的回報。但是僅僅通過人工來分析的效果是很差的,因為人的能力是有限的,所以數據分析系統就成為了一個重要的工具。
數據分析系統的四個主要功能是配置、采集、處理和應用,并且其中包含采集數據、分析整理、構建模型等流程。這些功能看似簡單,但是卻能找到數據的規律,從而對某一事件的結果進行預測。這對于很多決策者來說是很具有價值的,分析的結果可以讓他們獲知市場的大致動向,并減少做出錯誤決斷的情況。因此,該系統對于任何領域來說,其價值都是難以估量的。
關鍵詞:數據分析系統;技術;改進
一、數據分析系統概述
(一)數據分析的常用方法
現在分析中一些常用方法都是比較可靠的,獲取的結果基本是準確的,不會與實際有較大的差異。描述性統計是使用頻率最高的方法,它可以較好地揭示數據的分布特性,例如數據的頻數分析、集中趨勢分析、離散程度分析等。將這些結果進行統一地分析與總結,就能從中找到一個潛在的規律。該方法比較使用與具有順序規律的數據,整體需要是連續的,這樣才能更好地從中獲取信息。
(二)數據分析系統的典型構架
數據分析系統的功能性主要體現在其采集以及處理兩方面,這也是最難通過人工來完成的工作。該系統可以獲取大量的業務數據,并對它們進行分類存儲以及分析。系統對原始數據進行處理轉換,并存儲在數據庫中,再根據需求將數據轉換成可利用的模型,再進行進一步地分析。整個系統是層級結構的,不同功能的進行是分層逐步來完成的,因此效率得到了保證,相互干擾的情況也基本不會出現。
(三)數據分析系統的基本流程
在流程中,最不可缺少的一個步驟就是構建數據模型,這樣就能將抽象的符號具體化成為可以分析的圖形。系統的其中一項功能就是分析這些模型,從而獲得所需的結果。數據分析至少包含探索性數據分析、模型選定、推斷分析三個過程。因為分析的量通常是巨大的,所以在不同線程中的這三個過程都是并行的,這樣的效率會很高,最后的結果只需要進行匯總就可以了。數據在獲取后,通常是無序的,類型也使多種多樣,很難找到其中存在的關聯,所以需要將其制作成相應的圖表或是其他類型的形象,并找出其中的規律。在找到大致規律后,需要進行模型選定,先列舉出多個模型,最后通過逐步排除來找到最能體現出數據規律特點的模型。最后,就是對模型進行推斷分析,獲取結果。我們可以將這個流程簡單地總結為加工、整理、分析,所有的系統在功能上基本都是大同小異,不會脫離這三個重點。
二、數據分析系統在技術方面的改進措施
(一)數據分析指標選取方法的改進
數據指標是數據分析的有力手段。如果能選擇一個合適的指標,就能讓分析結果更加可靠,還能減少所需要消耗的資源,可以說是一舉兩得。數據指標需要符合幾個基本特征,才能確定其是比較合適的。首先是具有較高的比較性,可以比較出在不同時段、用戶之間的表現差異,這樣就可以更容易獲得分析對象的走向趨勢。易讀性也是比較關鍵的,這直接決定了指標是否容易讓人理解,這也是其功能性的側面驗證。最重要的就是具有全面性,也就是有限的指標可以描述出盡可能多的對象特征,這樣就更加易于就某一問題做出判斷。就這些特征,我們可以總結出大致的改進措施。對指標進行定性與量化,定性可以體現對象的主觀因素,具有一定判斷性,量化可以衡量客觀特征,進而過濾掉一些沒有作用的指標,尤其是一些具有欺騙意義的指標。例如網站的“累積注冊量”就是這樣的一種指標,其并不能體現出網站當前的狀態,所以并沒有實際的參考價值。
(二)簡歷標準的代碼庫和數據集市
因為系統中的代碼有很多都是面向客戶的,所以是根據功能來設計的,并且本身的重復率很高。因此,為了節省在編寫代碼上消耗的時間,就可以構建一個代碼庫。這個庫中可以存儲各種類型的代碼,當某個部門需要使用時,就可以按需求從中提取出所需的代碼。這樣有助于代碼的共享,可以促進效率的增長,也能提高代碼的利用率。數據集市的概念也與之十分相似,就是將一些數據進行共享或是交易,這樣在不同的項目中如果要用到同一批數據,只需要在集市中提取就可以了,這樣就能顯著減少收集所需要的時間。構建一個規模巨大的集市,有助于推動數據分析這個學科的發展,讓不同的領域都能因此而受益。但目前這只是一種想法,因為部分數據是不易公開或用來交易的,所以現在集市的概念大多用在企業之間的合作中。
(三)數據分析系統的交互與兼容改進
提高系統的交互與兼容性,是保障數據分析效率的有效手段。現有的系統大多都只是支持文本、表格等幾種主要的格式,所以當有一些特定的檢索需求時,系統是不能直接完成的。這是一種兼容性不足的體現,所以應當增加可兼容的數據格式。對于一些特殊的數據格式,即使不能識別,也需要為其構建擴展結構,讓系統仍然實現一定功能。在系統投入使用前,需要對其進行全面測試,可以通過使用其進行大量的運算,從而測試其容錯性能以及在檢測、分析方面是否有不足。
結語:總得來講,數據分析并不只是存在于理論上,而是可以真正地被使用到各個領域的一個學科。該學科的出現讓所有的行業都受到了影響,從積極的角度看,如果可以合理使用分析方法,就能提高數據的利用率,并挖掘其中的價值,從而避免其中包含的珍貴信息被浪費掉。現有的數據分析系統雖然具備強大的分析功能,但是仍然有很多可以改進的地方。如果可以從技術層面上將系統更新,就能提高分析的準確性。文章就目前系統的技術改進提出了一些建議,希望可以起到一定的參考作用。
參考文獻:
[1]鄒鵬.數據分析系統及其技術的改進措施[J].科學與財富,2016,15(6)
[2]周文瓊.大數據環境下的電力客戶服務數據分析系統[J].計算機系統應用,2015,24(5)
[3]劉梅.大數據系統和分析技術綜述[J].數字化用戶,2018年43期 >