王永恒
(北安市機構編制數據中心,黑龍江 北安 164000)
在數據分析工作中,如果能夠選擇恰當的方法、工具,往往能夠在提升數據分析效率與提高數據利用價值方面取得更好的成效。現階段常用的數據分析方法主要包括:(1)描述性統計。通過描述數據的分布特點,以點帶面推算出數據背后的事物信息。具體來說又包含集中趨勢分析、離散程度分析等幾種分析方法。(2)方差分析。理論上來說,任何樣本的分布規律都符合正態分布。方差分析就是通過選擇樣本中的中位數,以此為參照計算樣本中其他數據與中位數的方差。具體包括多因素方差和單因素方差兩種類型。(3)回歸分析。將所有獲得的數據作為一個總體樣本,建立變量間的數值模型,并觀察樣本變化規律。一元線性回歸和多元線性回歸是常用的方法。
(1)采集模塊。獲取樣本數據是該系統運作的首要環節,采集模塊可以通過人為設定關鍵詞或數據抓取標準的方式,對數據存儲空間內的海量數據進行篩選、檢索,將那些符合條件的數據采集起來,并單獨存放在一個獨立的存儲空間內,方便下一步進行深入的分析處理。(2)處理模塊。按照特定的應用軟件或構建數學模型等方式,對符合標準的數據進行多樣化的處理。處理模塊主要是進行數據轉化,將一堆雜亂的數據轉化為清晰、直觀的圖表、數字,揭示數據演化的規律。(3)應用模塊。將處理完畢的數據轉化為結果導出,為決策提供參考。(4)存儲模塊。采用數據庫或云服務器的形式,存儲海量的數據。
完整的運作流程既能夠提高數據分析系統的工作效率,也能夠確保分析結果的精度。結合數據分析系統的基本結構組成,數據分析流程主要包括:第一,建立分析模型,用于數據的獲取、篩選和分析。數據分析模型的核心技術是大數據技術,可以實現海量數據的快速處理,提高整個數據分析系統的運行效率。第二,進行數據采集。工作人員設定數據抓取的關鍵詞或相關標準,系統自動對樣本進行快速檢索,并識別數據中是否包含設定的關鍵詞,如果識別成功則將該數據篩選出來單獨保存。當樣本數據檢索結束后,就能夠獲得所有符合標準的數據。第三,進行數據轉化。初步抓取的數據比較繁雜、無序,不能直接利用和分析,還需要使用數據轉化模塊,將這些復雜的數據整理成數字、文字、圖表等形式,這樣就可以更方便地展現出數據的內部規律。利用這些規律建立特定的數學模型,從而量化、直觀地表達數據所傳達出的信息,提高了數據的利用和參考價值。
在大數據技術不斷成熟的背景下,數據分析系統在各個領域都得到了廣泛應用。但是在具體進行數據歸類整理和價值分析時,仍然存在一些問題,其中比較突出的問題是數據選取指標不夠細化、不夠明確,導致數據分析系統無法將樣本中所有符合要求的數據全部識別、篩選出來。由于樣本數據不全,最終的分析結果與事實情況存在差異,數據分析工作的價值也就大打折扣,失去了參考價值。由于篩選標準不夠細致,一些不符合需求的數據也會被誤認為可用數據,這樣就占用了更多的存儲空間,后期在進行數據分析時也會浪費更多的時間和資源。
數據分析系統獲取的數據對象是來自不同部門、不同系統的,相互之間遵循的格式、標準并不統一。數據采集模塊抓取到的數據中,可能有電子表格,有文本文檔,甚至可能還有其他的特殊格式。如果數據分析系統的兼容性不強,就有可能導致這些不同格式的數據無法得到整合利用,數據分析結果的全面性和可信度都會受到影響。兼容性不強還會導致系統運算中出現無法識別的情況,由于輸入系統的數據繁多,有較大概率導致整個數據分析系統宕機。
數據指標的設置是否科學、精確,直接決定了數據的可用性,并對數據分析系統的后期運行效率與輸出結果產生影響。因此,在進行數據分析系統優化時,應當將改進數據分析指標作為一項重要任務。可以按照以下標準進行數據選取:第一是完整性。數據在收集與采集時,應當保證內容完整,避免出現數據割裂的情況,從而提高分析結果的客觀性。第二是易讀性。所得數據經過轉化、處理后,應當方便人們直觀地了解規律或特點,降低數據分析與利用的難。第三是比較性。數據與數據之間要體現出差異,方便進行對比,通過比較差異判斷分析對象的走向、趨勢。
在遵循上述數據選取標準的前提下,改進數據分析系統時還應當注意過濾虛假性數據。虛假性數據雖然表面上看來符合抓取標準,但是往往不具備實質性的分析與參考價值,反而會增加了系統的運行負擔。在改進系統時,可以選擇定性與定量分析相結合的方式,對這些虛假性數據進行過濾。定性分析可以根據數據使用需求,按照數據來源、存儲載體等標準進行分類,將一部分虛假性數據篩除;定量分析對剩余的數據進行更深層次的判斷,通過兩者的有機結合,達到了選取標準數據的目的。
提高數據分析系統的兼容性,無論是從系統運行效率方面,還是從分析結果方面,都有顯著的作用。當前各類數據越來越復雜,來源越來越多樣,客觀現狀也決定了必須要對現行的系統進行兼容性優化。除了對常見的標準格式進行兼容外,還應當對一些非標準格式的數據也進行良好的兼容。在數據分析系統中要增加多個自定義擴展接口,管理員可以根據本部門的工作需求,添加一些常用的數據格式,在今后的系統運行時,就可以增強數據的識別能力和處理效率。計算機的軟硬件系統也要不斷地進行更新、升級,這也是提高數據兼容性的一種有效方法。
數據集市是將具有一定共同屬性的數據選擇一個獨立的數據庫存儲起來。當數據分析系統需要調用某一類數據時,可以直接選擇符合該類別的數據集市,從中選取目標數據。這樣一來,就不需要數據分析系統重新檢索海量數據了,能夠在更短的時間內獲得所需的數據。目前的數據集市存在分類不標準、不細化的問題,下一步要規范數據集市的建設標準,在數據集市內部劃分出多個單元格,以提高響應速度,實現數據的高效、準確提取。
在大數據時代,數據資源的價值愈發重要。通過改進數據分析系統,應用大數據技術,建立標準數據集市,提高系統兼容性,可以為人們更好地探究數據演變規律、做出科學決策提供幫助。