楊磊

摘 要:統計數據處理是提升數據質量的一個重要的手段。主要包括數據的審查、數據的清理以及數據的轉換等等。根據數據處理的對象以及不同的目標,統計數據可以使用的處理問題的方法有很多,最主要的方式就是進行探索性的分析以及非正常狀態的處理等,還需要選用比較恰當的方法進行數據統計的處理,有利于保證數據的真實性和有效性等等。
關鍵詞:統計數據;處理理論;方法探究
1 統計數據處理理論
數據的處理屬于數據挖掘中的一個主要的概念,主要指的是在對數據進行挖掘的之前,能夠針對海量的數據進行噪聲數據以及其他的一些不和諧的數據采取一些措施,目的就是為了保證數據的真實性以及可靠性。對數據處理的概念進行相應的拓展以及處理,最主要的對象就是包括數據以及調查的對象,能夠形成數據的處理,他的范圍也更加的廣闊、內容也是更加的豐富,使用的主要的方法也是最多的[1]。
2 統計數據處理的意義
統計數據主要用于調查的過程中,能夠與不同的調查者進行分析,所選取的抽樣的方式是否合理與結果有著非常緊密的聯系。利用信息的收回系統就能夠主觀的去記錄相應的數據,因為數據的錄入的功能過程中出現失誤,能夠出現錯誤性的字段,進而能夠記錄丟失的數據。在進行正式的數據分析以前,必須要對統計數據進行處理,為了對數據的質量進行診斷以及提升。
數據處理的公布系統不斷的加入,就要求我們國家的統計數據的程序進一步加強,對數據的可信程度進行加強,在市場體制的不斷改革之下,政府對于數據的可信程度提出了更高的要求[2],能夠不斷的反應經濟的整體運行的趨勢以及統計數據,數據也一定要及時和準確,能夠及時的反應經濟的運行的統計。
社會各界對于統計數據的需求也在逐漸的增加,對于數據的質量要求也在逐漸的提高,數據質量確不能夠滿足現狀,為了解決這個矛盾,人們經常在各個角度去完善統計制度,構建各個方面的合理化的指標,適當的使用合理的調查分析額方法,不能夠忽略統計數據的處理這個步驟,缺少對于檢測以及數據質量關鍵性的步驟的研究的手段。
3 數據處理的過程
整體概括來說,統計數據的處理主要包括幾個大的步驟。首先就是數據的審查,數據的審查就是為了保證滿足數據的最低的要求,內容就是包括能否能夠實際的調查一致,利用整體的統計觀點進行分析,檢查各個字段的數據類型進行檢查,字段的大小可以根據實際所測的數據來確定,可以將其分為大小、平均數據等等幾個類型。其次,就是數據的清理工作,在審查的過程中如果能夠發現比較明顯的錯誤的話,就需要選取適當的方法進行數據的清理工作,將數據變為有用的信息,數據的清理還包括對重復性數據進行刪除的工作。第三,就是數據的轉換。數據的轉換最主要強調的就是分析的對象的可比性能,不同的字段因為計量的單位有很大的差距[3],很容易就引起結果出現一定的誤差,分析上述過程的其他的一些要求,也需要在分析之前進行數據的變換,其中最主要的就是隨數據進行沒有量綱進行處理。最后,就需要數據的驗證工作,這個步驟目的就是為了初步去評估數據是否滿足統計分析的一些具體的要求,決定是否需要進一步去加強或者減少數據的數量。還需要利用整體的數據構建模型,使用線性的模型進行相關性的分析,以此來確保能夠把不錯誤的信息傳輸給數據庫。
以上的幾個主要的步驟就是一個由淺及深的一個過程,能夠進行整體化的分析需要,進一步檢測數據是否能夠進行協調,以此來確保數據的優質分析階段。對已經發現的問題進行及時的處理[4],以及正確的診斷性的工作。
4 統計數據處理的方法體系
首先,就是進行探索式的分析。描述性的統計技術主要就是針對數據進行的一項統計,頻數的分析就是為了利用非連續性的頻數表,報告出整體的變量的個數,進而能夠確定整體的統計分量的數值。在進行探索式的分析的時候,需要使用圖形對數據進行直觀的考察,使得我們能夠認識到數據接近的程度是否有其他的數據摻入其中,數據是否出現了間隙[5]。
其次,就是缺失值的處理,缺失的數據的產生通過探討缺失的數據是否根據有關數據進行界定,缺失的數據就會隨機出現,就能夠缺失的數據進行研究,對于變量進行研究,這是不能夠忽略的。對于缺失的數據的處理方法也是需要進一步磨滅的。
最后,就是需要異常值處理。異常值又稱為孤立的一點,異常處理的首要的任務就是檢測孤立的點[6],異常值就是數據處理的質量的問題,也是客觀事物的真實性的反映,檢測出異常值以后必須要確定檢測值的異常,進行統一的幾輛以及距離的確定,這都屬于偏離的方法。
5 結語
統計數據的處理是在數據的采集以后,進行數據的處理,再進行使用。從統計數據處理的過程來看,無論是數據還是整體的數據,能夠進行描述以及探索性的分析。隨著數據的本身的質量的好壞以及要求的高低,對于方法的使用各有側重。
參考文獻
[1]吳忠良;;統計數據對農業生產的理論指導與實踐[J];甘肅農業;2006年03期
[2]陳震;陳維默;;淺談數據挖掘技術[A];福建省科協第五屆學術年會數字化制造及其它先進制造技術專題學術年會論文集[C];2005年
[3]謝文;翟均平;胡娟;;玉米數據庫管理信息系統的設計與實現[J];農業網絡信息;2005年12期
[4]章鐘基;提高統計數據質量的探討[J];統計研究;1989年03期
[5]余芳東;國外統計數據質量的涵義及評價和管理[N];中國信息報;2002年
[6]黃樹顏;回歸方法的數據預處理及其應用[J];統計研究;1986年02期