王佳音
摘要:數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集到的數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。不論是哪個領域,產(chǎn)生數(shù)據(jù)的量都是十分龐大的,如果可以挖掘其中的價值,就必然會獲得巨大的回報。但是僅僅通過人工來分析的效果是很差的,因為人的能力是有限的,所以數(shù)據(jù)分析系統(tǒng)就成為了一個重要的工具。
數(shù)據(jù)分析系統(tǒng)的四個主要功能是配置、采集、處理和應用,并且其中包含采集數(shù)據(jù)、分析整理、構(gòu)建模型等流程。這些功能看似簡單,但是卻能找到數(shù)據(jù)的規(guī)律,從而對某一事件的結(jié)果進行預測。這對于很多決策者來說是很具有價值的,分析的結(jié)果可以讓他們獲知市場的大致動向,并減少做出錯誤決斷的情況。因此,該系統(tǒng)對于任何領域來說,其價值都是難以估量的。
關鍵詞:數(shù)據(jù)分析系統(tǒng);技術;改進
一、數(shù)據(jù)分析系統(tǒng)概述
(一)數(shù)據(jù)分析的常用方法
現(xiàn)在分析中一些常用方法都是比較可靠的,獲取的結(jié)果基本是準確的,不會與實際有較大的差異。描述性統(tǒng)計是使用頻率最高的方法,它可以較好地揭示數(shù)據(jù)的分布特性,例如數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析等。將這些結(jié)果進行統(tǒng)一地分析與總結(jié),就能從中找到一個潛在的規(guī)律。該方法比較使用與具有順序規(guī)律的數(shù)據(jù),整體需要是連續(xù)的,這樣才能更好地從中獲取信息。
(二)數(shù)據(jù)分析系統(tǒng)的典型構(gòu)架
數(shù)據(jù)分析系統(tǒng)的功能性主要體現(xiàn)在其采集以及處理兩方面,這也是最難通過人工來完成的工作。該系統(tǒng)可以獲取大量的業(yè)務數(shù)據(jù),并對它們進行分類存儲以及分析。系統(tǒng)對原始數(shù)據(jù)進行處理轉(zhuǎn)換,并存儲在數(shù)據(jù)庫中,再根據(jù)需求將數(shù)據(jù)轉(zhuǎn)換成可利用的模型,再進行進一步地分析。整個系統(tǒng)是層級結(jié)構(gòu)的,不同功能的進行是分層逐步來完成的,因此效率得到了保證,相互干擾的情況也基本不會出現(xiàn)。
(三)數(shù)據(jù)分析系統(tǒng)的基本流程
在流程中,最不可缺少的一個步驟就是構(gòu)建數(shù)據(jù)模型,這樣就能將抽象的符號具體化成為可以分析的圖形。系統(tǒng)的其中一項功能就是分析這些模型,從而獲得所需的結(jié)果。數(shù)據(jù)分析至少包含探索性數(shù)據(jù)分析、模型選定、推斷分析三個過程。因為分析的量通常是巨大的,所以在不同線程中的這三個過程都是并行的,這樣的效率會很高,最后的結(jié)果只需要進行匯總就可以了。數(shù)據(jù)在獲取后,通常是無序的,類型也使多種多樣,很難找到其中存在的關聯(lián),所以需要將其制作成相應的圖表或是其他類型的形象,并找出其中的規(guī)律。在找到大致規(guī)律后,需要進行模型選定,先列舉出多個模型,最后通過逐步排除來找到最能體現(xiàn)出數(shù)據(jù)規(guī)律特點的模型。最后,就是對模型進行推斷分析,獲取結(jié)果。我們可以將這個流程簡單地總結(jié)為加工、整理、分析,所有的系統(tǒng)在功能上基本都是大同小異,不會脫離這三個重點。
二、數(shù)據(jù)分析系統(tǒng)在技術方面的改進措施
(一)數(shù)據(jù)分析指標選取方法的改進
數(shù)據(jù)指標是數(shù)據(jù)分析的有力手段。如果能選擇一個合適的指標,就能讓分析結(jié)果更加可靠,還能減少所需要消耗的資源,可以說是一舉兩得。數(shù)據(jù)指標需要符合幾個基本特征,才能確定其是比較合適的。首先是具有較高的比較性,可以比較出在不同時段、用戶之間的表現(xiàn)差異,這樣就可以更容易獲得分析對象的走向趨勢。易讀性也是比較關鍵的,這直接決定了指標是否容易讓人理解,這也是其功能性的側(cè)面驗證。最重要的就是具有全面性,也就是有限的指標可以描述出盡可能多的對象特征,這樣就更加易于就某一問題做出判斷。就這些特征,我們可以總結(jié)出大致的改進措施。對指標進行定性與量化,定性可以體現(xiàn)對象的主觀因素,具有一定判斷性,量化可以衡量客觀特征,進而過濾掉一些沒有作用的指標,尤其是一些具有欺騙意義的指標。例如網(wǎng)站的“累積注冊量”就是這樣的一種指標,其并不能體現(xiàn)出網(wǎng)站當前的狀態(tài),所以并沒有實際的參考價值。
(二)簡歷標準的代碼庫和數(shù)據(jù)集市
因為系統(tǒng)中的代碼有很多都是面向客戶的,所以是根據(jù)功能來設計的,并且本身的重復率很高。因此,為了節(jié)省在編寫代碼上消耗的時間,就可以構(gòu)建一個代碼庫。這個庫中可以存儲各種類型的代碼,當某個部門需要使用時,就可以按需求從中提取出所需的代碼。這樣有助于代碼的共享,可以促進效率的增長,也能提高代碼的利用率。數(shù)據(jù)集市的概念也與之十分相似,就是將一些數(shù)據(jù)進行共享或是交易,這樣在不同的項目中如果要用到同一批數(shù)據(jù),只需要在集市中提取就可以了,這樣就能顯著減少收集所需要的時間。構(gòu)建一個規(guī)模巨大的集市,有助于推動數(shù)據(jù)分析這個學科的發(fā)展,讓不同的領域都能因此而受益。但目前這只是一種想法,因為部分數(shù)據(jù)是不易公開或用來交易的,所以現(xiàn)在集市的概念大多用在企業(yè)之間的合作中。
(三)數(shù)據(jù)分析系統(tǒng)的交互與兼容改進
提高系統(tǒng)的交互與兼容性,是保障數(shù)據(jù)分析效率的有效手段。現(xiàn)有的系統(tǒng)大多都只是支持文本、表格等幾種主要的格式,所以當有一些特定的檢索需求時,系統(tǒng)是不能直接完成的。這是一種兼容性不足的體現(xiàn),所以應當增加可兼容的數(shù)據(jù)格式。對于一些特殊的數(shù)據(jù)格式,即使不能識別,也需要為其構(gòu)建擴展結(jié)構(gòu),讓系統(tǒng)仍然實現(xiàn)一定功能。在系統(tǒng)投入使用前,需要對其進行全面測試,可以通過使用其進行大量的運算,從而測試其容錯性能以及在檢測、分析方面是否有不足。
結(jié)語:總得來講,數(shù)據(jù)分析并不只是存在于理論上,而是可以真正地被使用到各個領域的一個學科。該學科的出現(xiàn)讓所有的行業(yè)都受到了影響,從積極的角度看,如果可以合理使用分析方法,就能提高數(shù)據(jù)的利用率,并挖掘其中的價值,從而避免其中包含的珍貴信息被浪費掉。現(xiàn)有的數(shù)據(jù)分析系統(tǒng)雖然具備強大的分析功能,但是仍然有很多可以改進的地方。如果可以從技術層面上將系統(tǒng)更新,就能提高分析的準確性。文章就目前系統(tǒng)的技術改進提出了一些建議,希望可以起到一定的參考作用。
參考文獻:
[1]鄒鵬.數(shù)據(jù)分析系統(tǒng)及其技術的改進措施[J].科學與財富,2016,15(6)
[2]周文瓊.大數(shù)據(jù)環(huán)境下的電力客戶服務數(shù)據(jù)分析系統(tǒng)[J].計算機系統(tǒng)應用,2015,24(5)
[3]劉梅.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].數(shù)字化用戶,2018年43期 >