鄒鵬
摘 要:隨著社會經濟的不斷發展和計算與統計科學的不斷進步,針對不同應用領域,出現了大量的專業數據分析系統。數據分析系統就是通過對生產活動中所出現的數據進行分析,發現其間的數值與邏輯規律,對分析對象的決策、改進提供參考。常見的數據分析系統至少包括配置、采集、處理和應用4個層級,并包含采集數據、分析整理、提出模型、分析檢驗等基本流程。針對現有的數據分析系統,要想更好地改進其性能,一方面要選取更適宜的數據分析指標,使數據分析更加具有可靠性;在軟件編寫時,建立標準代碼庫與數據集市,并改進其交互性、兼容性也顯得格外重要。
關鍵詞:數據分析系統;技術;改進
隨著近年來大數據、云計算等新型計算機數據分析、存儲、計算等技術的提出與應用,數據分析技術在各行各業中的重要性也越來越顯著。結合數據分析系統,決策者可以通過數據的走勢、結構、差異等指標,觀察分析對象的現狀,為未來的發展制定相應的策略。
1 數據分析系統的基本概念
1.1 數據分析的基本概念
數據就是在生產活動中所記錄下來的,包含生產活動各類屬性信息的可以識別的符號。常見的數據表現形式有數據表格、趨勢圖、結構圖等。為了改進生產活動的不足,提高工作效率,因此有了數據分析工作。在數據分析的過程中,首先要根據實際問題確定分析目標;根據分析需求,采用科學合理的方法進行數據采集;采用適宜有效的方法整理并分析數據;最后出具分析結果,為決策提供參考。
1.2 數據分析的常用方法
在數據分析過程中,有一些常用的有效方法,可以提高數據分析的可靠性。描述性統計是一類最常用的統計方法,其可以較好地揭示數據的分布特性,例如數據的頻數分析、集中趨勢分析、離散程度分析以及分布分析等;回歸分析是基于所觀測數據來建立變量間的數值模型,并分析其間內在規律的方法,包括一元線性回歸、多元線性回歸和其他回歸方法等;方差分析的樣本來自正態分布的總體,并相互之間獨立,包括單因素方差、多因素方差和協方差等類型;假設檢驗方法適用于順序類型的數據資料,其分布形態未知(非正態分布),但總體仍然是連續的,有參數檢驗和非參數檢驗等。
1.3 數據分析系統的典型架構
所謂數據分析系統,就是在數據分析流程中,承擔從外部眾多系統采集相關業務數據,并儲存到數據庫中進行分析的功能單元。數據分析系統可以完成對原始數據的一系列處理轉換,并存儲到相應的數據庫中,再根據生產活動的需要將數據轉換成可利用的模型,并供其他專門的上層數據應用組件采集與分析。因此,根據數據被采集、轉換、存儲、分析、應用等角度,常見的數據分析系統可以被劃分為配置層、采集層、處理層和應用層等4個邏輯層級。
1.4 數據分析系統的基本流程
在數據分析系統的整個流程中,要通過建立分析模型對數據進行識別和探索分析。典型的數據分析至少包含探索性數據分析、模型選定和推斷分析三個過程。當數據剛剛采集后,其形式一般雜亂無章,難以發現其中的數值與邏輯聯系,因此要通過作圖、制表、參數擬合等方法探索數據的內在規律,一般可以通過擬合方程并取得典型的特征參數來揭示數據的內在規律;發現數據大致規律以后,就可以提出可能的數學模型,并根據進一步分析選定最適合的模型;最后通過數理方法對所選模型的精確度和可靠性進行分析。由此可以得出數據分析的主要步驟,即首先由需求方提出信息需求,系統通過對需求的分析,識別出需要進行采集的數據類型;根據需求識別的結構,有的放矢地進行數據采集,并采取有效的記錄形式,便于后續的分析;選取合適的數據分析方法,將數據進行加工、整理、轉化。
2 數據分析系統在技術方面的改進措施
2.1 數據分析指標選取方法的改進
數據指標是數據分析的有力手段。選取好的數據指標,不僅可以節省數據采集與分析的資源,更可以大大提高數據分析的可靠性。良好的數據指標應當具有以下特征:具有突出的比較性,即可以比較不同時段、不同用戶之間的表現差異,通過比較差異來判斷分析對象的走向趨勢;易讀性,即指標的定義與展現形式可以便于人們理解討論;全面性,即通過更少的指標表現出更多的對象特征,并便于分析者作出更全面的判斷。要想為數據分析系統設計更合適的數據指標,首先要對指標進行定性與量化,定性數據更能體現對象的主管因素,具有一定的判斷性;而定量數據更能衡量客觀特征,適合于回答“是什么”的問題。同時要濾除不具有代表性的虛假指標,尤其是一些具有欺騙意義的指標。例如在做網站分析時,“注冊用戶總量”就是一個意義不大的指標,其只能代表隨著時間不但增長的累計注冊用戶數,卻不能表征當前網站用戶的實際狀況,相比較而言,“當前活躍用戶量”則更有分析意義。找出探索性與先見性指標,這類指標對分析對象的改進可未來問題的預測更有參考意義。
2.2 建立標準的代碼庫與數據集市
在編寫數據分析系統時,為了避免時間的浪費,要習慣于建立標準點分分析代碼庫,并將代碼庫在不同項目、或同一個項目的不同部門之間進行共享。數據分析系統常常用到數據集市的概念,即在多個分析項目中,如果要用到同一批數據,就可以建立包含這些特定數據的數據集市。例如,在網站分析項目中,多個分析報告均要用到網站的訪問量數據,雖然可以每次使用時再去網站進行采集,但更好的方法是,先將所有分析網站內的訪問數據全部提取,建立數據集市,每次使用時直接到數據集市進行提取,可以大大提高分析效率。
2.3 數據分析系統的交互與兼容性改進
提高數據分析系統的交互與兼容性,也是保障數據分析效率的有效手段。數據分析系統(軟件)一般是通過工業的標準格式進行數據檢索的,例如文本文檔、數據庫、電子表格等文件格式,因此,良好的數據分析系統,應當盡可能多地兼容通用的數據格式,而非采用非標格式進行數據存儲。當然,對于特殊的數據格式,即便不提供直接的識別方案,也應當留出為用戶自定義格式的擴展接口;數據分析系統對載體的兼容性也十分重要,實際上,良好的數據軟件可以更多地兼容不同的載體(計算機系統、硬件設備等),而花費更少的配置時間。在系統投入使用前,要接受更全面的使用測試,如創建大量數據或空數據等特殊格式,或進行超大量運算、錯誤運算等操作,以測試系統的容錯性能,要求系統的運輸、檢測、顯示等不出現問題。
3 結束語
總而言之,數據分析不僅是一項理論學科,在數據分析的實際應用過程中,更是要結合各行各業的實際情況,分析數據需求、改良系統結構、選取合理指標,為數據分析的準確性制定更良好的推進策略。本文僅根據典型數據分析系統的現狀,結合數據分析科學的基本提點,提出了一些改進措施,對相關工作的落實具有一定的參考意義。
參考文獻
[1]周文瓊.大數據環境下的電力客戶服務數據分析系統[J].計算機系統應用,2015,24(4):51-57.
[2]龍少杭.基于Storm的實時大數據分析系統的研究與實現[D].上海交通大學,2015.