999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數學建模中的缺失數據

2013-12-31 00:00:00孫瑜玲
中國科教創新導刊 2013年10期

摘 要:高職院校參加全國大學生數學建模的學校越來越多,學生也在不斷的增加,為了能夠讓學習數學建模的學生能更全面的把握處理缺失數據的方式方法,有必要對缺失數據的產生、檢測及處理做一個梳理。而本文是基于SPSS軟件對缺失數據的檢測和處理進行介紹。

關鍵詞:缺失數據 缺失值 異常值 檢測 處理

中圖分類號:G64 文獻標識碼:A 文章編號:1673-9795(2013)04(a)-0065-02

在大學生數學建模和實際生活中,大量的信息都直接或者間接的和數據建立密切的聯系,我們要從這些數據中尋找所關心的問題答案,往往我們是通過建立適當的數據模型來完成的。而對數據預處理中缺失數據的處理是我們建立適當數據模型必不可少的前提條件,如果不考慮缺失數據,將嚴重影響結果的穩定性。

對數據中有明顯或明顯不合理的數據以及漏填的數據都可看做缺失數據。對缺失數據進行處理時,必須了解缺失數據出現出現的原因,這是決定所選擇的缺失數據處理方法是否合適的一個關鍵因素,此外還有變量的分布和范圍也是決定所選的缺失數據處理方法是否合適的另一個關鍵因素。當數據缺失的原因已知時,在數據分析的過程中加以正確考慮,產生的分析結果才不會產生較大的偏倚。當然,如果缺失數據的產生的原因不明確時,那么我們就只能在對數據作合理猜測基礎上對數據進行分析。

對于缺失數據的類型上來說可以為兩類:一類是缺失值;另一類是異常值。

1 缺失值

1.1 缺失值出現的主要原因

缺失值產生的原因多種多樣,主要有設備和人為兩類因素,比如數據存儲的失敗,存儲器損壞,或者由于計算機故障導致某時間段數據未能收集,也有在收集數據過程中沒有采集到相關的數據和數據錄入人員漏錄了數據等等。

1.2 缺失值檢測

在SPSS中,默認缺失值通常以黑點表示,只需要對數據進行升序(或降序)排列,通過快速瀏覽數據列表便可以發現以黑點表示的缺失值集中在一起,記錄下缺失值所在的變量即數據的列,便于后面的處理;也可以通過分析窗口中的描述統計功能,統計出每個變量有無缺失值以及有效值和缺失值的個數。

1.3 缺失值的處理

(1)剔除缺失值的觀測單位,即刪除SPSS數據列表中缺失值所在的數據行。

如果數據缺失問題可以通過簡單的刪除小部分樣本來達到目的,那么這種方法是有效的,在Spss的統計分析程序中,打開Options按鈕,便會出現缺失值的處理欄(missing values)。通常有三個選項:一是Exclude cases listwise,即按列表排除個案,表示對所有的分析過程剔除分組變量和因變量中所有帶有缺失值的觀測量數據;二是Exclude cases pairwise,即按對排除個案,同時剔除帶缺失值的觀測量及與缺失值有成對關系的觀測量。在當前分析過程中用到的變量數據中剔除帶有缺失值的觀測量數據,在其他分析過程中可能包含缺失值;三是Replace with mean,即使用均值替換,將分組變量的缺失值單獨分為一組,在輸出頻數表的同時輸出缺失值。

(2)對缺失值進行估后計填補。

在數據分析中,面對大量的數據,因為一個屬性值的缺失而放棄大量的其它屬性值,這種刪除是對信息的極大浪費,所以產生了對缺失值進行估計后填補的思想,主要有兩種插補方法。

第一,在建模過程中,通過對問題的深入分析,查閱相關的文獻報道憑借知識經驗進行合理估計。

第二,是通過SPSS提供的替換缺失值選項進行估計,對于定距型數據采用均值,對于非定距型采用眾數來補齊缺失值,通常有如下五種替代方法:一是series mean,即以列的算術平均值進行替代;二是mean of nearly point,即以缺失值鄰近點的算術平均值進行替代;三是Median of nearly point,即以缺失值臨近點的中位數替代;四是linear interpolation即根據缺失值前后的兩個觀察值進行線性內插法估計和替代;五是linear trend atpoint,即用線形回歸法進行估計和替代。

(3)缺失值分析過程中填補。

在SPSS的分析工具欄下有針對缺失值的分析窗口,該窗口主要用于對缺失值的估計,主要方法有四種:

第一,是Listwise,即按列表狀態刪除,缺失值較少,樣本夠大,把缺失的樣本完全去除,如果任何一個變量含有缺失數據,把相應的個案,從分析中剔除,對缺失值占的比例小,十分有效,到底多少,比例合適?有局限性,以減少樣本樣本量來換取信息的完備,會造成資源的大量浪費,嚴重影響到數據的客觀性和結果的正確性。

第二,是Pairwise,即配對狀態,其中一條記錄中有一變量缺失,將在統計時刪除該條信息,但在進行其它統計量時不受影響。

第三,是EM,即期望最大化,可用于缺失較多,有效樣本足夠保證其服從正態分布,該估計方法是通過觀測數據的邊際分布對未知參數進行極大似然估計,該方法比刪除個案和均值插補更具有吸引力,但缺點是只適用于大樣本。

第四,是Regression,即回歸,沒有足夠的樣本的話,缺失值較少,缺失因素比較明確,選中的連續性變量為自變量,缺失的變量為因變量,考慮殘差,回歸替換法首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值。即用缺失數據的條件期望對缺失值進行替換,與之前的幾種方法相比,該方法利用了數據庫中盡量多的信息,其弊端為一是容易忽視隨機誤差,在缺失信息增多會變得更加嚴重;二是必須假設缺失值所在的變量與其他變量存在線性關系,但實際上這種關系并不一定存在。

2 異常值

2.1 異常值出現的原因

異常值是指各變量中與整體數據相距太遠的極值,由于它的夸大作用,常常會歪曲統計結果,導致分析結果犯錯誤,而這類數據的出現主要來源于在數據輸入的過程中輸入不正確,或在不同的數據格式之間進行轉換時,錯誤的將代號當成了實際觀測值,以及在數據采集過程中,由于被采集者對問題的誤解等因素,而得到不在該屬性值范圍內的數據。

2.2 異常值的檢測

在SPSS中,我們可以對數據進行升序(或降序)排列,通過快速瀏覽,發現那些明顯大于或者小于該屬性值的數據,也可以用散點圖、箱圖(凡是與四分位數值的距離超過1.5倍四分位數間距的都會被定義為異常值,在輸出的圖形中會用記號標示)、Q-Q圖(當數據符合指定分布時,Q-Q圖中各點近似呈一條直線等檢測有無極端值)等進行異常值的檢測。

2.3 減少異常值方法

數學建模中不可能將數據逐一進行核查,因此我們可在合理分析的情況下,查閱相關文獻,根據經驗估計是減少異常值的一種途徑,同時也可以借助于軟件解決,盡量減少異常值對模型的影響,通過上面的檢查方法檢測出來的異常值在SPSS中通常有如下四種處理方式:

第一,是將異常值在變量視圖中進行定義,可以定義三個離散型的數值作為缺失值,也可以定義一個連續性的范圍再加上一個離散性的數值作為缺失值。

第二,是根據檢測的異常值,在數據工具欄中有選擇個案窗口,采用設置條件的方式將異常值排除在外。

第三,是對異常值進行估計插補,方法與前面的缺失值處理方法相同。

第四,是將原始數據轉換成標準Z分數,將范圍在[-2,2]以外的數據作為缺失值考慮。

對于SPSS而言,對于缺失數據的檢測,在不同的分析功能中也有專門的探測方法,比如在回歸分析中,對于解釋變量能用杠桿值、庫克距離以及標準化回歸系數的變化和標準化預測值的變化進行探測,對于被解釋變量中能用標準化殘差、學生化殘差以及剔除殘差進行探測等等。對于不同分析功能中的缺失數據的檢測及其處理就不再一一討論。

參考文獻

[1]胡紅曉,謝佳,韓冰.缺失值處理方法比較研究[J].商場現代化,2007(15):359-360.

[2]薛薇.SPSS的數據分析[M].北京:中國人民大學出版社,2006.

主站蜘蛛池模板: 国产精品第一区| 国产91精品调教在线播放| a欧美在线| 亚洲精品桃花岛av在线| 美女无遮挡免费网站| 制服丝袜一区二区三区在线| 中文字幕久久亚洲一区| 日韩高清欧美| 国内毛片视频| 亚洲精品国产首次亮相| 国产精品成| 91偷拍一区| 国产欧美精品午夜在线播放| 亚洲h视频在线| 国产精品一区二区无码免费看片| 天天爽免费视频| 91色国产在线| 四虎亚洲精品| 亚洲天堂精品在线| 四虎永久免费在线| 亚洲一区二区约美女探花| 亚洲青涩在线| 美女啪啪无遮挡| 日韩av高清无码一区二区三区| 国产亚洲精品自在久久不卡| 国产精品三级专区| 老司机久久99久久精品播放| 国产精品人成在线播放| 无码高清专区| 国模视频一区二区| 亚洲综合极品香蕉久久网| 伦精品一区二区三区视频| 国产乱子伦精品视频| 欧美午夜在线视频| 国产毛片基地| 中文字幕永久视频| 亚洲男人的天堂网| 全免费a级毛片免费看不卡| 国产第三区| 亚洲AV无码久久精品色欲| 色综合日本| 亚洲性色永久网址| 亚洲欧美另类中文字幕| 久久久久青草大香线综合精品 | 国产精品免费福利久久播放| 日韩欧美中文| 中文字幕 欧美日韩| 26uuu国产精品视频| 怡红院美国分院一区二区| 亚洲欧洲日韩综合色天使| 久久久精品久久久久三级| 国产91全国探花系列在线播放| 女人毛片a级大学毛片免费| 欧美国产日韩在线| 精品欧美日韩国产日漫一区不卡| 乱人伦视频中文字幕在线| 国产99热| 激情综合婷婷丁香五月尤物| 国产精品欧美在线观看| 蜜芽国产尤物av尤物在线看| 成年人国产网站| 亚州AV秘 一区二区三区| 福利国产在线| 国产成人精品在线1区| 亚洲AV无码乱码在线观看裸奔| 色婷婷电影网| 欧美一区日韩一区中文字幕页| 永久天堂网Av| 亚洲精品无码久久久久苍井空| 亚洲第一在线播放| 99精品久久精品| 五月婷婷综合网| 波多野结衣一区二区三区AV| 国产午夜无码专区喷水| 无码中文字幕精品推荐| 免费一级毛片在线观看| 欧美19综合中文字幕| 中文字幕1区2区| 99在线国产| 视频一本大道香蕉久在线播放| 久久久久亚洲精品成人网| 婷婷综合缴情亚洲五月伊|